大模型展大模型任务畅所欲言,电脑自动完成
实在TARS大模型
该AI大模型由实在智能投递并参与数据猿与上海大数据联盟联合推出的《2024中国数据智能产业AI大模型先锋企业》榜单/奖项”评选。
实在智能基于在自然语言处理(NLP)领域深厚的技术积累和落地经验,推出自研垂直大模型TARS(塔斯),在千亿级高质量Tokens上进行了充分训练,完整复现Pretrain、SFT和RLHF三个阶段,可提供百亿级参数,具备“效果可用、成本可控、定制化训练、私有化部署”等差异化优势。
TARS行业垂直大模型目前有13B和70B两个版本,具备垂直领域的知识问题和语义理解能力,能够作为基础能力供应用方调用,嵌入到其已有的产品结构中,例如问答系统等;也可以作为单独的能力提供服务,支持私有化部署。
应用场景/使用群体实在智能TARS大模型是一款“自研、有效、安全、可信任、可落地”的大模型。除垂直领域本身的应用外,还结合机器人流程自动化(RPA)推出实在Agent及结合智能文档审阅产品(IDP)推出新一代文档审阅产品ChatIDP。
实在Agent是结合了实在TARS大模型的RPA新产品,能够支持以问答的方式生成RPA流程和代码,从而减小RPA的使用者在开发RPA流程时的成本,提高产品的使用体验。新一代的实在Agent平台面向零基础或者轻基础的RPA用户或开发者,根据应用方的需要可以支持以SaaS的方式调用大模型的能力生成RPA流程或代码,或者私有化部署到本地以提供支持(私有化部署的推理成本如实在TARS大模型所要求)。
ChatIDP是结合了实在TARS大模型的IDP新产品,是在底层将传统的自然语言模型替换为实在TARS模型后推出的全新智能文档审核产品;支持以交互的形式进行文档的识别、比对、抽取、审核和分析等,能够为企业的法务、财务、合规等部门提供更加智能、更加方便的文档审阅和管理工具,大幅减少相关人员花在文档检查和信息提取上的时间,提高工作效率。根据需要可以支持以SaaS的方式调用大模型的能力进行长篇文档的理解和抽取,或者私有化部署到本地以提供支持,私有化部署的推理成本如实在TARS大模型所要求。
产品功能1.流程自动生成
准确理解用户意图,生成行动计划流程模块
实现所说即所得的RPA流程自动生成
支持根据用户描述和提示,生成代码组件
结合智能屏幕语义理解技术实现组件属性填充
2.人机对话问答
垂直行业上更准确、更强大的语义理解能力
更自然的多轮交互,提升对话类产品的智能感
支持快速接入和配置用于不同平台的对话机器人
能够方便地与用户的历史知识库进行整合
3.智能文档理解
全面提升针对文档的关键内容抽取和审核能力
实现“你问我答”的全新文档处理体验
更智能、更精准的历史文档检索
4.NLP基础能力
支持情感分类、实体抽取、机器翻译等多种任务
不断调整Prompt让模型输出更高质量的内容
支持小样本学习的方式完成特定的自然语言任务
支持添加用户自有数据进行模型的定制调优
产品优势实在TARS基于垂直行业的千亿级高质量Tokens上进行训练,完整复现、改进了大型语言模型训练的Pre-train、SFT和RLHF三个阶段并在语言理解、指令跟随等方面取得良好效果。此外,TARS大模型为了追求更高安全标准,进一步集成如不当言论判别等多项NLP前沿技术,帮助企业在数字化、智能化的转型浪潮中快人一步。
1.灵活部署/私有化部署、调用灵活
全面支持私有化部署、支持多种部署、调用方式、模型管理和监控工具配套完善
2.行业定制训练/行业定制、模型调优
针对垂直领域效果领先、根据不同行业、场景定制调优、垂直领域和通用领域能力兼具
3.安全可靠/全国产、信息安全过滤
不当言论判别、有害信息筛除、支持自定义配置模型过滤范围、私有化部署确保信息安全
4.完整落地方案/可落地硬件需求优化
模型量化技术有效降低模型需求、现有Chatbot无缝集成调用LLM、支持其他产品快速集成嵌入。
技术说明实在智能TARS大模型采用的技术路线是在开源基座模型的基础上,遵照GPT系列(尤其是InstructGPT)和其他基座模型如BLOOM、LLaMA、GLM等的训练思路来对大模型三个阶段,即:预训练、指令微调、人工反馈强化学习进行各项技术的设计和准备;包括数据处理、模型设计、训练策略制定等。
总体来说,实在TARS模型的亮点和创新点主要体现在以下三个方面:
1.TARS大模型在垂直领域进行了充分的训练和完整的复现,对大模型常见的三个阶段都进行本地化复现和针对性优化;同时总计收集、处理、标注和投入超过一千亿个语料Tokens,使得模型能够充分理解垂直领域的语义内容和表述方式;在技术上除了复现三个阶段外,尤其对人类反馈强化学习阶段,解决了垂直领域中的数据标注困难、模型训练困难等问题,综合采用RPA技术做高效、持续、7X24小时的数据收集;采用多种数据去重和处理方式;采用自研的Rank排序标注平台等进行人类反馈强化学习阶段的数据标注;同时在技术层面优化了强化学习的训练框架,对齐部分算子操作,使得强化学习模型的训练过程更加快速。
2.TARS大模型除了在垂直领域有更加出色表现之外,在模型的可控性和安全性等层面也做了大量的工作,包括创新地利用最新的生成结果控制技术,训练了一个不当言论判别和过滤模型,来辅助大模型对生成结果的安全性、无害性和无偏性进行提升;实在TARS配套的不当言论判别和过滤模型区别于一般的文本判别模型,是结合在整个TARS大模型之中,并采用联合训练的方式进行优化,最终解决模型输出结果往往存在不当言论、有害信息的问题。
3.TARS大模型支持私有化部署和高效的模型推理,结合模型量化技术使得模型在推理时所占用的显存空间等降低,从而使得最终应用方能够以降低的软硬件成本使用TARS模型的能力,进行直接调用或下游集成;解决了大模型的落地难、落地贵等问题,可以支持较低成本配置的情况下,运行实在TARS垂直领域模型。
实在智能TARS大模型在其他方面的创新还包括研究大模型和向量数据库的结合,大模型在大段文本的输入支持等方面的工作。
服务客户目前实在智能已联合湘财证券、天翼数科推出了金融领域垂直大模型,已开始在智能客服、智能投顾等场景落地应用;基于大模型,在行业内首推的实在Agent数字员工,可以实现高效的人机协同。
关于企业·实在智能
实在智能是一家通过自研AGI大模型 超自动化技术领跑人机协同时代的人工智能科技公司。公司是“国家高新技术、专精特新”企业,通过中国信通院RPA最高级别评测及全球软件成熟度CMMI-5顶级认证,拥有近百项发明专利和数百项软件著作权,全面适配支持百余项国产信创软硬件。
公司在北京、上海、广州、深圳、成都、南京、济南及日本东京等地设有分支机构,服务团队覆盖全国。实在“数字员工”已服务国内外2000余家头部大中型客户,包括金融、运营商、电商、制造、烟草、能源、交通等千行百业。
作为AI准独角兽和超自动化头部企业,大模型展大模型任务畅所欲言,电脑自动完成实在智能自研的垂直大模型TARS(塔斯)在国内大模型各类榜单名列前茅,具备“效果可用、成本可控、定制化训练、私有化部署”等差异化优势;在全行业首发可“一句话生成数字员工”的实在AIAgent智能体产品,既是个人用户的AI助理,也是政企员工的办公助手,实现“你说PC做,所说即所得”。。
★以上由实在智能投递申报的项目案例,最终将会角逐由数据猿与上海大数据联盟联合推出的《2024中国数据智能产业AI大模型先锋企业》榜单/奖项。
该榜单奖项最终将于7月24日以下活动中进行榜单的首发与奖项的颁发,欢迎报名莅临现场