主题
文档知识上传
文档知识上传支持本地文档、手动输入、网页获取、视频上传、知识抓取插件5种方式来上传知识:
本地文档
本地文档支持多种格式和类型,同时可以选择不同的解析方式:
1.1、通用文档解析
通用文档解析使用自研的解析逻辑对不同的文档进行内容解析处理,一般适用于大部分文档或对布局信息要求不高的文档:
(1)支持格式:docx, doc, pdf, xlsx, md, txt, jpg, jpeg, png, ppt, pptx, msg, json. 13种不同类型的格式;
(2)支持类型:文档中可包含图片、表格、文本、链接等多种数据类型;
(3)分段方式:支持众多分段方式,详见文档知识处理
1.2、视觉文档解析
视觉布局解析使用视觉模型识别文档的布局信息,拆分成不同的布局块,并解析每个布局块中的段落内容,一般适用于对布局信息要求高或者布局复杂的文档:
(1)支持格式:docx, doc, pdf, ppt, pptx, jpg, jpeg, png 8种不同类型的格式;
(2)支持类型:文档中可包含图片、表格、文本、链接等多种数据类型;
(3)分段方式:支持众多分段方式,详见文档知识处理
手动输入
您可以手动编写知识库的问答内容,适用于知识内容较少的情况。
网页获取
您可以使用数据集插件或者输入网站URL,直接抓取网站数据,适用于从网站创建的情况。
注意! 部分网站会因为限制导致数据获取失败,可以使用知识库插件来获取数据。
视频知识上传
支持上传本地视频:
(1)处理方式:根据视频的人声声轨对 视频图片逐帧分析,并形成知识库内容;
(2)支持格式:MP4、MOV、WMV、FLV、AVI、WEBM、MKV;最大 150MB,最多5个;
知识抓取插件
当用户需要抓取网页数据或从钉钉文档、飞书文档、语雀中同步数据时,可以使用知识库插件来抓取,具体描述见:https://ai.betteryeah.com/chrome-plugin