深色模式
知识库
知识库产品介绍
大模型通过训练可以学习到大量的语言模式和信息,但并非所有知识都可以从文本中直接学习得到,特别是对于那些需要最新、最准确信息的场景。知识库可以提供结构化的、经过验证的知识,使得模型在回答问题时能够更加准确和全面,消除幻觉,提高模型回答的可解释性。
紫东太初知识库产品是基于Taichu-mRAG框架构建的智能知识管理平台,支持用户上传本地文档,构建专属知识库,基于OCR、LLM+RAG等技术能力,深度融合文本、图像、视频、图表、公式等多模态数据,结合知识库检索和大模型的生成能力更快更高效构建大模型应用。
知识库产品提供包含知识问答、文档总结、文档信息抽取等接口能力,通过统一语义空间的多模态检索与生成技术,实现复杂业务场景下的精准问答、深度推理与知识溯源。产品旨在解决传统RAG技术的信息表征缺失与模态交互受限问题,推动大模型在个人应用和企业服务场景的应用落地,提供高效、可靠的知识资产管理工具。
知识库创建
建库上传
点击【新建知识库】按钮来创建账户下的知识库
选择创建【文本知识库】或【多模态知识库】,编写知识库名称,选择想要上传的知识。
创建完成后可上传所选文件,支持批量上传。
- 文本知识库文档类型包括:
- 知识库上传不超过300个文档, 文件不超过10M/300万字。
- 非结构化文档支持docx、pdf、txt、md等格式的文档,
- 结构化文档支持xlsx、csv等格式的文档(文件要求:表头:数据表第一行默认为表头,建议避免为空、避免合并单元格;数据表:支持文件内多张数据表;适用场景:适用于含有较长文本内容的表格文件,默认按行构建知识切片,读取单元格中的文本信息。)
- 多模态知识库文档类型包括:
- 支持ppt、docx、pdf、txt、md等格式的文档,不超过10M/50万字
- 支持图片格式:jpg、png、jpeg格式图片,
- 图片30px ≤ 边长 ≤ 4096px,比例3:1以内,单张不超过20M,数量不超过100张。
- 支持视频格式:.mp4,.mov,
- 单文件不超过100M,时长少于15min,每个用户总计最多5条。
知识配置
知识内容可以选择不同的切分内容来进行选择最适合知识的类型,同时可预览切分内容。
- 自动分块策略:
- 版面分析:按章节、标题切割文档。
- 视觉分块:识别图像、表格区域。
- 语义滑窗:动态重叠分块确保上下文连贯。
- 支持手动调整分块粒度。
- 自定义切分:支持自选表示分进行段落切分。
- 问答对切分:根据指定标识符识别问题及答案。
点击下一步,完成知识库内容的入库与解析步骤,直至成功。
知识库对话
灵活检索对话
知识库管理页面,点击发起问答即可直接对知识库的内容发起提问。支持全库问答、单篇精读、多选指定文档灵活检索。用户可通过推荐问题直接对知识库发起提问,并可预览不同的知识内容。
用户只需简单地输入关键词或完整的句子,大模型知识库便能迅速响应,通过其高效的信息检索和处理能力,从庞大的数据资源中筛选出最相关的内容。这样,用户无需耗费大量时间和精力在繁杂的资料中逐一查阅,即可获得详尽、精准的答案。
通过算法自动分析文本内容,针对单篇文档精读时,自动提炼出文档中的关键信息和主旨要点,进而生成一份简明扼要的摘要,同时生成思维导图辅助理解。这一功能对于处理大量文本信息非常有用,特别是在办公环境中,可以极大地提高用户的工作效率。
问答模式设置
支持选择知识库回答模式的选择,包含严谨模式和发散模式:发散模式包含文档外模型知识,严谨模式会拒答文档以外的知识。相似度阈值调整:检索知识的相似度设置,只有达到或超过这个阈值的检索结果才会被考虑用于后续的生成过程(仅针对非问答对切分类型的文本知识库文档,多模态知识库当前版本默认为发散模式)。
多模态溯源支持
答案来源显示角标引用,引用来源由模型判断候选的多个切片内容进行罗列,最相关切片角标会显示在答案尾部。引用来源有助于帮助识别生成内容的准确性校验。
多模态知识库支持上传图片对文档、图片、视频内容进行提问,实现跨模态语义理解。
知识库管理
智能标签
对于知识库海量文件,支持“智能打标”选择合适的模型,指定目标标签,让大模型根据文章内容自主判断标签分类。对于需要修改的判定,支持人工复查手工修改。
用户问答时可针对标签分类下的文档进行主题聚类问答。
文档管理
支持在知识库内创建文件夹,实现便捷的文件管理;支持文档批量下载、移动、重新配置。