常见问题
使用相关
数据查询失败
排查思路:
- 检查SQL生成是否出错,包括:SQL语法是否错误、SQL中表名和字段名是否跟数据集中一致。
- 检查「主题详情-基础配置」,数据集表名中是否有空格和特殊符号。对大模型来说,空格和特殊符号非常难理解,容易生成出错,建议这里把相关空格和特殊符号去掉,再来看生成SQL是否会出错。
- 检查表名和字段名是否出现重名现象。目前查询SQL中如果表名和某字段名一致,会导致BI侧SQL查询报错。
- 检查接口报错,排除SSO配置问题。
-
出现原因:由于 ChatBI 依赖 SSO 获取用户 cookie,当运维配置错误的 SSO 数据,会出现 cookie 获取失败,最终表现在 SQL 执行上,是无法执行的
-
解决方法
-
如果用的data_synapse是2.2.0版本之前,如果该用户没有sql中对应数据集的权限,会导致sql查询失败,需要升级到>=2.2.0的版本(该版本只要有主题权限都可以进行问数),或者给该用户授权相关的数据集权限
-
确认用户提供的 SSO 是private_key,不是public_key,如果提供错误需要重新生成插入 SSO
-
需要运维检查SSO编码的数据库数据是否插入到pg的 SSO 这张 table 中,如果未插入,请重新插入
-
需要运维自身检查生成,生成的sso token数据是否标准,domain_id和user_id的base64解码后是否没有带空格或者回车(如果使用命令行有可能会出现空格的情况),如果存在问题,请修复后再插入
不想在问答入口透出企业LOGO
在「管理中心 > 企业配置 > 企业视觉 > LOGO与外观 > LOGO与名称」界面,取消勾选「显示」按钮。
权限相关
无法进入ChatBI后台
请检查「管理中心 > 用户管理 > 角色」配置中,用户是否有「ChatBI 编辑」权限。
无法看到问数入口/主题
- 针对无法看到问数入口的问题,请检查「管理中心 > 用户管理 > 角色」配置中,用户是否有「ChatBI 查看」权限。
- 针对无法看到提问主题的问题,请按以下步骤检查:
- 检查主题是否已经启用。
- 检查问数用户是否有当前主题的使用者权限。
ChatBI后台缺少权限管理模块
针对无法看到权限管理模块的问题,请检查「管理中心 > 用户管理 > 角色」配置中,用户是否有「ChatBI 授权」权限。
无法进行提问
当前端报错为「当前提问余额不足,请联系管理员」时,请联系观远数据客户成功经理进行充值。所有客户环境默认额度为5000个问题,对合作客户会调整约定额度。
准确性问题排查
除产品报错外,我们会收到用户以下几类问题。
数据查询错误
ChatBI 回复的数据结果,不是用户想要的
-
了解用户想要的数据结构和口径定义,明确出错内容
-
查询无数据:优先检查SQL生成是否正确(重点看表名、字段名是否与数据集维护一致),如SQL查询逻辑正确,则按照该逻辑前往数据集进行筛选检查,看数据源中是否有数据。
-
缺少时间范围指定:如用户问句中,对时间的定义比较模糊(例如,提问为“最近销量怎么样”),需检查通用知识中是否已定义「最近」的含义。如没有相关知识定义,需要先前往业务知识库-通用知识进行补充。
-
聚合维度错误、指标选取错误:如用户问句中,没有明确的维度信息(例如,指定SKU、地区、店铺等等),需检查业务知识库是否有相关知识、错题集是否有问题+SQL对对当前问题及回答进行了定义。
- 业务知识库示例:当用户问到<...>时,请根据组织代码字段关联组织数据集和日报表数据集,汇总组织层级值为3的所有组织,包含子组织,按组织代码和组织名称汇总所有出勤工时
- 错题集示例:
问题:2023年3月某品牌商超渠道的人群资产分布情况
查询SQL:```SELECT
人群资产类型
AS人群资产类型
, COUNT(DISTINCT消费者唯一标识
) AS人数
FROM会员表
WHERE归属渠道
= '线下' AND品牌
= '雪颂兰' AND CAST('2023-03-31' AS DATE) BETWEEN TO_DATE (开始时间
) AND TO_DATE (截止时间
) GROUP BY `人群资产类型```` - 指标生成错误:检查当前回复中的指标,是不是在业务知识库/错题集中已有口径定义。如果没有,需先在业务知识库/错题集中进行定义补充。
-
-
查看运维日志,检查当次问答过程中,是否召回了相关知识,如知识已维护、实际未召回,请联系观远进行处理。
说明通用知识每次会话都会召回,不在运维日志中展示。
-
如以上步骤无法解决,请联系观远进行处理。
可视化生成错误
指定生成某种图表类型,生成结果为表格/没有生成可视化图表,直接生成表格
- 请检查BI当前版本,是否为7.0及以上版本。在6.6版本中,「指定可视化图表」能力不生效。
- 请检查当前表格数据结构,是否能转换为BI可视化图表。例如,如果返回数据结构为维度-时间、维度- SKU、指标-销售额,本身该图表无法在BI渲染为柱形图,属于正常现象。
- 如以上步骤无法解决,请联系观远进行处理。
主题使用Q&A
-
Q:如何提升问答的准确率?
- 确保提问符合有效提问的基本结构,时间/条件/指标清晰明确、避免歧义
- 确保数据质量,避免数据脏乱差而增加知识维护难度
- 根据需要问答的问题清单,针对性添加知识(通用知识、业务知识、错题集)
-
Q:在「测试」中添加提问是否可以提升准确率?
不能。「测试」功能仅仅是批量验证问答效果,用于评估问答准确性
-
Q:复杂的同类知识逐条维护更好还是放一起维护更好?有的长知识可以学习到,有的不可以
业务知识建议逐条维护,避免将没有关联的业务知识放在同一条里
-
Q:知识库编写表达千人千面,为了减少其他人的阅读理解成本,是否有推荐的统一的格式?例如Markdown语法等
知识库没有强制格式要求,类似于prompt描述,满足逻辑明确、表述清晰的要求即可。例如:“提问涉及 xxx 时,默认查询/显示/计算……”、“提问涉及 aaa, bbb, ccc,指的都是
字段1
”、“提问涉及 aaa, bbb, ccc,指的都是相同概念:字段2
= xxx”、“指标名称 = 具体计算公式” -
Q:知识库内容丰富后,如何快速定位到需要修改的知识?如何识别新增知识和历史的知识之间的冲突?
是否需要添加知识,取决于问答效果。知识库增/删/改,建议优先测试问答效果,当有提问无法满足时(知识缺失/错误/冗余),自然能明确是否需要以及对应增/删/改的内容,「业务知识」支持搜索快速找到包含关键词的知识,新增知识前可以先搜索进行参考
-
Q:如何模糊匹配命中正确的字段,例如:查询字段名相近,或者枚举值相近的字段时,且无法100%枚举(枚举量庞大),如何准确选取字段取值?
- 首先确认是否完成枚举值学习(基础配置-数据集-展开 或 查看运维日志是否有 Value example)
- 其次,优先让大模型根据提问包含的专有名词,直接自主找到对应的值,如与枚举值完全相同仍查对需要记录 bad case,不完全相同的建议通过模糊匹配的方式引导大模型,参考以上 临时解决方案 的业务知识
-
从大类、中类、小类,系列、子系列等中选对正确的字段是否只能触发反问让业务去选自己需要的字段?是否有其他方案建议?
- 如果提问包含的名词,在多个字段中都有 完全相同 的枚举值,只能通过反问让用户选择。例如
大区
、城市
的字段枚举值都是地级市,需要添加业务知识:“当用户提到<城市名>时,请让用户明确提问中的城市名,具体是指城市
还是大区
。” - 如果不同字段的枚举值并未完全相同,那么建议明确查询标准,哪些专有名词指的是
字段1
,哪些指的是字段2
。例如:“提问涉及 aaa,bbb,ccc,指的都是大类
,涉及 ddd,eee 指的都是系列
。”
- 如果提问包含的名词,在多个字段中都有 完全相同 的枚举值,只能通过反问让用户选择。例如