Skip to content
目录

功能总览

"紫东太初4.0”在感知理解、静态推理与动态推理等多个智能维度,紫东太初4.0均取得实质性进展。在执行交错思考任务时,模型能够灵活处理图像信息、挖掘视觉线索,形成“自主任务规划—交错思考执行—综合分析反馈”的完整推理闭环,更加贴近人类处理复杂问题的认知逻辑。

图像能力

带图思考

  • 能力说明:紫东太初多模态大模型“能对图像进行平移、放大、旋转、定位、增强与重建等细粒度操作的能力,实现了从被动分析到主动思考的根本转变。基于用户上传的图片,调用工具,在深度思考模式下分析图像,并推理得出最后的结果。
  • 示例指令:
  • 上传一张旋转了90度的地点图片,然后发送“图中是在哪里,请给出你的判断依据” image-1
  • 上传一张包含多个路牌的图片,然后发送“这个路牌分别指向哪几个目的地” image-2

拍照解题

  • 能力说明: "紫东太初多模态大模型"能对学科类题目进行思考、分析,给出解答思路和最终结果。
  • 示例指令:
  • 点击拍照解题,上传一张有多道题目的图片,圈选其中一道题,然后发送 image-3

图像描述

  • 能力说明:“紫东太初多模态大模型”能基于用户上传的图片素材,准确理解并回答图片识别类问题,具体地,可以识别图像主体、背景、动作、颜色等等。同时支持上下文信息理解和多轮问答。

  • 示例指令:

  • 上传一张图片,然后发送 “请描述一下这张图片里面有什么”

  • 上传一张图片,然后发送 “请描述一下这张图片里面有哪些颜色”

image-20230613201535768

目标检测

  • 能力说明:“紫东太初多模态大模型”支持丰富品类的目标检测任务,能够判定目标类型、数量和对应的位置信息。

  • 示例指令:

    • 上传一张图片,然后发送“图片中有几个人物”

    • 上传一张图片,然后发送“帮我看看图片中有几种类型的动物”

image-20230613201620640

图像检索

  • 能力说明:“紫东太初多模态大模型”拥有海量的高质图片素材库,能为用户搜索出关联度高的精致图片素材。

  • 示例指令:

    • “帮我找一张樱花盛开图”

    • “帮我找一幅上海夜景图”

    • “汽车长什么样子呢,给我看看图片”

image-20230613201657572

图像生成

  • 能力说明:“紫东太初多模态大模型”能基于用户指令诉求生成对应的精致图片,并可以修改描述微调图片内容。Promote描述小技巧:添加具象的主体特性描述有助于定位到核心场景内容,添加风格或其他特性修饰词描述有助于调整图片整体效果。

  • 示例指令:

    • “画一幅唯美风格的樱花盛开图”

    • “生成一张小狗在草地上玩耍的照片”

    • “帮我画一幅老虎在游泳的图片”

image-20230613201732049

文字识别

  • 能力说明:“紫东太初多模态大模型”能支持多场景、多语种、高精度的文字检测与识别服务,具体业务场景包括:卡证文字识别、票据文字识别、文档图像处理等等。

  • 示例指令:

    • 上传一张图,然后发送“图中有什么文字”

    • 上传一张图,然后发送“帮我识别出图片中的所有文字”

image-20230613202028864

语言能力

自动深度思考

  • 能力说明:“紫东太初多模态大模型”支持自动深度思考模式,在自动深度思考开启状态下,能根据用户输入的问题推理判断是否需要进行深度思考,高效给出回答。

  • 示例指令:前5个问题,模型将跃过深度思考,直接给出答案;后5个问题,模型会先深度思考,再给出最终结果。 image-4

    • “植树节是每年的几月几日?”
    • “1 立方米等于多少立方分米?”
    • “《荷塘月色》的作者是谁?”
    • “人体最主要的呼吸器官是什么?”
    • “世界上流经国家最多的河流是什么?”
    • “结合元宇宙技术的发展现状,分析其对人类社交模式、工作场景及消费习惯的长期重塑作用,可能面临哪些技术瓶颈与伦理风险?”
    • “从乡村振兴与电商经济交叉视角,解释 “农产品上行” 过程中存在的物流成本高、品牌溢价低等问题,提出适配乡村实际的解决方案。”
    • “若未来 AI 生成内容(AIGC)全面渗透新闻、影视、文学领域,会对内容创作行业的版权界定、创作者收入模式及内容质量监管产生哪些冲击?”
    • “对比道家‘无为而治’思想与现代企业管理中的‘扁平化管理’模式,二者在激发组织活力、平衡管理效率上的共通逻辑与适用边界是什么?”
    • “某城市计划推行‘错峰上下班’制度以缓解交通拥堵,从市民生活节奏、企业运营成本、公共交通调度三个维度,分析该制度的可行性与优化方向。”

中文问答

  • 能力说明:“紫东太初多模态大模型”能准确理解用户输入的问题语境,并能做出准确的知识性问答。包括:生活常识、工作技能、医学知识、历史人文等等。

  • 示例指令:

    • “考你一下,四大名著有哪些”

    • “请问一下,世界上最高的山峰是哪一座”

    • “什么是胃病,有哪些常见的类型和治疗方法?”

    • “怎样安排个人财务和预算规划?”

image-20230613202317604

文本摘要

  • 能力说明:“紫东太初多模态大模型”能快速理解文章的核心观点,根据长文本提取简洁而准确的摘要。

  • 示例指令:

    • “帮我提取文章的摘要”+ 输入文章内容

    • “帮我把这篇文章改得精简一些”+ 输入文章内容

image-20230613202329299

文本续写

  • 能力说明:“紫东太初多模态大模型”能基于用户输入的故事引导自动续写丰富故事内容。

  • 示例指令:

    • “请续写故事:从前,山上住着3个老和尚”

image-20230613202339866

文本创作

  • 能力说明:“紫东太初多模态大模型”能准确理解用户输入意图,并生成语意连贯、逻辑通顺的文本内容。覆盖常见的各类型文本创作业务场景如:写文章读后感、岗位招聘JD、信件邮件、邀请函、行程规划等等。

  • 示例指令:

    • “帮我写一个200字人工智能大模型发布会的新闻稿”

    • “写一篇互联网AI产品经理招聘JD”

    • “写一篇《三体》的读后感”

    • “请帮我出一份武汉3日游的行程规划”

    • “写一封给武汉市政府的感谢信”

image-20230613202434889

标题生成

  • 能力说明:“紫东太初多模态大模型”能基于对文章或者长文本的理解,快速聚合生成精简且概括的标题文案。

  • 示例指令:

    • “请给这篇文章生成一个标题:”+ 输入文章内容

image-20230613202443696

语法分析

  • 能力说明:“紫东太初多模态大模型”能基于用户上传的中英文文本素材,准确理解并分析句子的语法,提醒语法错误并修改等等。

  • 示例指令:

    • 请把句子修改成正确的语法表达“张总经理和李总工程师正在讨论一个技术改造项目,他同意他的看法。”

    • 请指出句子中的错误,并把它改成正确的表达“A number of students is going to learn a foreign language.”

image-20230613202507445

机器翻译

  • 能力说明:“紫东太初多模态大模型”能帮助用户翻译各类型文本素材,包括中英文互译、文言文和白话文互译等等。

  • 示例指令:

    • 把英文句子翻译成中文“ All the bright, precious things fade so fast.And they don't come back.”

    • 把文言文翻译成白话文“是故弟子不必不如师,师不必贤于弟子,闻道有先后,术业有专攻,如是而已。”

image-20230613202534638

古诗创作

  • 能力说明:“紫东太初多模态大模型”能基于用户给到的主题或引导内容即兴创作诗歌、绝句等。

  • 示例指令:

    • “请以思乡为主题写一首七言绝句”

    • “请以梦想为主题写一首诗”

image-20230613202606296

代码理解

  • 能力说明:“紫东太初多模态大模型”能帮助用户理解c语言、Python、JAVA等绝大部分编程语言、算法和数据结构,快速给出所需的解答。

  • 示例指令:

    • “解释一下下面这段代码”+ 输入代码段

image-20230613202624291

代码编写

  • 能力说明:“紫东太初多模态大模型”能帮助用户快速编写简单的代码片段,例如函数、类或循环等。

  • 示例指令:

    • “请用python写一段快速排序代码”

    • “编写一个程序,输入一个字符串,判断该字符串是否是回文字符串。”

image-20230613202723914

数学计算

  • 能力说明:“紫东太初多模态大模型”能处理常规数学计算问题,也能处理如《孙子算经》上记录的鸡兔同笼数学应用问题等。

  • 示例指令:

    • “847 - 347 * 364 等于多少”

    • “一个笼子里有474只脚,167个头,里面有几只鸡,几只兔子?”

image-20230613202734066

逻辑推理

  • 能力说明:“紫东太初多模态大模型”能处理复杂的逻辑推理类问题,包括科学推理、常识推理、时空推理等等。

  • 示例指令:

    • “如果一个物体是圆的,那么它一定是球形的吗?”

    • “如果一支蜡烛在一个密闭的容器中燃烧,会发生什么?”

image-20230613202820553

视频能力

视频描述

  • 能力说明:“紫东太初多模态大模型” 能基于用户上传的视频素材,准确理解并回答视频识别、视频描述类问题,同时支持上下文信息理解和多轮问答。

  • 示例指令:

    • 上传一段视频,然后发送“这段视频描述了什么”

    • 上传一段视频,然后发送“这段视频里面出现了什么”

image-20230613203220741

视频检索

  • 能力说明:“紫东太初多模态大模型”拥有海量的高质视频素材库,能为用户搜索出关联度高的精致视频素材。

  • 示例指令:

    • “帮我搜索一个直播的短视频”

    • “帮我找一个打篮球的视频”

image-20230613203232067

视频问答

  • 能力说明:“紫东太初多模态大模型” 能基于用户上传的视频素材,准确理解并回答视频相关的问题,同时支持上下文信息理解和多轮问答。

  • 示例指令:

  • “你能从视频的音乐中感受到什么?”

  • “请分析下观众是否认可视频中的这段表演,并简要说明原因”

image-20230613203410513

音乐能力

音乐生成

  • 能力说明:“紫东太初多模态大模型”可以通过给定的文本提示可控生成高保真的音乐,并支持即兴创作多种风格类型和多种乐器演奏的音乐。

  • 示例指令:

    • “生成一段中国风的编钟曲”

    • “生成一段欢快的钢琴曲”

    • “生成一段小提琴歌曲”

    • “吹一段萨克斯”

image-20230613203423009

音乐多模问答

  • 能力说明:“紫东太初多模态大模型”能基于对用户上传的音乐素材的理解,完成相关多模态问答任务。

  • 示例指令:

    • “根据这段音乐的氛围,作一首诗”

    • “这段音乐是用什么乐器演奏的”

    • “这段音乐描述了什么”

image-20230613203457942

音频能力

音频鉴伪

  • 能力说明:“紫东太初多模态大模型”能判断当前音频是真人说话还是机器合成。

  • 示例指令:

    • “这段⾳频是伪造的吗?”

    • “判断这段⾳频的真假?”

image-20230613203525295

音频事件分类

  • 能力说明:“紫东太初多模态大模型”能检测当前音频中所包含的声音事件类型,目前支持11种单一声音事件和混合声音事件。

  • 示例指令:

    • “这段音频里有哪些事件类型?”

    • “这段⾳频中有哪些声⾳?”

image-20230613203535781

语音识别

  • 能力说明:“紫东太初多模态大模型”采用领先的流式端到端语音语言一体化建模算法,将语音快速准确识别为文字,支持手机应用语音交互、语音内容分析多个场景。

  • 示例方法:

    • 点击输入栏麦克风图标,开始朗读,输入栏会自动实时识别语音中的文字内容并展示到输入框内。

image-20230613203544699

语音合成

  • 能力说明:“紫东太初多模态大模型”提供高度拟人、流畅自然的语音合成服务,满足文本阅读、语音播报等各类型场景需求。

  • 示例指令:

    • 输入一段文字,输入“帮我把这段文字合成语音文件”

即将上线,敬请期待

3D能力

3D场景描述

  • 能力说明:“紫东太初多模态大模型”具备基于点云数据的3D场景理解和物体感知能力。

  • 示例指令:

    • “从这张三维图里面你看到了什么?”

image_001

信号类能力

信号识别

  • 能力说明:“紫东太初多模态大模型” 支持雷达信号鉴别与知识交互,可借助模型快速掌握信号基本来源及参数等。

  • 示例指令:

    • “告诉我这段信号的相关信息。”

    • “这个信号有什么用途?”

image-20230613203740953