Skip to content

文档知识处理

知识处理说明:

1、对文档知识进行Embedding时,如果出现失败,则其他成功的段落可以继续使用,仅对失败的段落标记异常。

2、异常段落可以手动分段后,重新Embedding,也可以使用AI一键处理。 image

自动分段

知识的自动分段和处理,主要分为两种类型:

  1. 本地上传的文档知识、手动输入的知识、网页抓取的知识我们根据知识的特点使用对应的分段方式进行自动分段;
  2. QA问答的知识,我们使用特定的QA问答分段方式进行处理; 每种知识处理方式及支持的知识格式、知识来源见下表:
分段方式分段说明支持的知识格式支持的知识来源
Word类分段· 一个标题+段落内容分为一段· 若段落超过500字时,强制按500字进行分段pdf、doc、docx本地上传
PPT类分段· 一页PPT分为一段pdf、ppt、pptx本地上传
Excel分段· 一行内容+对应的表头分为一段**注意: **① 默认使用第一行作为表头;③ 一个sheet中仅能包含一个表头+内容形式的表格,无法解析多个表头+内容放在一个sheet中。xlsx、本地上传
通用类分段· 检测转义字符\n\n(两次换行,即段落间有一行空行)分段· 段落超过500字时,强制按500字进行分段markdown、png、jpg、txt本地上传、手动输入、网页获取

自定义分段

  1. 通用自定义分段 用户可以自己通过设置分段规则,来自定义文档的分段处理,分段规则包含:分段标识符和每段最长字数:
  • ·分段标识符:用户可以自定义分段的标识符,当检测到文档中的这个标识符时,自动分段。(标识符支持转义字符以及文档中的字符)
  • 每段最长字数:用户可以设置每段的最长字数,当达到该字数时,自动分段(一般建议在500字,过多会导致AI阅读速度、理解速度降低) image
  1. FAQ问答分段 当文档类型属于QA问答类型时,用户可以自己通过设置FAQ问答分段规则,来自定义问答类文档的分段处理,分段规则包含:设置问题开始的符和每段最长字数:
  • 问题开始的字符:用户可以设置问题开始的字符,当检测到文档中的这个字符时,自动分成一个问答段落。例如:文本内容是“问:为什么实用知识库?答:解决AI的幻觉问题;问:为什么实用知识库?答:解决数据的实时性问题;”设置问题开始的字符为“问”时,会将文本内容分为2个问答段落:“问:为什么实用知识库?答:解决AI的幻觉问题;”和“问:为什么实用知识库?答:解决数据的实时性问题;”
  • 每段最长字数:用户可以设置每段的最长字数,当达到该字数时,自动分段(一般建议控制在最长的问答字数范围内) image