头条资讯网_今日热点_娱乐才是你关心的时事

今日热点 时事资讯
娱乐头条才是你关心的新闻
首页 > 头条资讯 > 科技

从数据质量与价值看大模型领域应用

在金融量化领域关于数据有句名言:Garbagein,Garbageout。这句话对ChatGPT大模型优化同样适用。很难想象,国内那些大模型创业团队,一般10来人投进做数据处理,为PreTrain、Finetuning等环节准备数据。就能在数据上获得更高质量的数据?特别是各领域中结构化数据。

袁峻峰,公众号:FINAI探索ChatGPT确认成为新一代人机接口,领域应用之门已打开

大模型提取知识优势在量不在质

笔者在之前文章和书都有提到,可以利用机器学习挖掘我们人类无法认识的知识与信息。就拿多轮对话为例,长链路的对话将是爆炸量的数据,人工处理的样本集无法满足训练要求,ChatGPT是通过SeqGAN模型生成数据。这也导致非常大的神经网络,训练成本非常高。这生生是“大力出奇迹”的方案,用更多数据、靠更多算力解决问题。

大模型通常的语料库包括Wikipedia、CommonCrawl等开源的语料库,以及社交媒体数据、对话数据集。大模型优化一部分工作就是优化预训练数据集。近日,AI研究机构AllenInstituteforAI发布了一个名为Dolma的开源语料库,含了来自网络内容、学术出版物、代码、书籍和维基百科材料的3万亿token。

https://huggingface.co/datasets/allenai/dolma

只有机器才能挖掘大数据中人类无法挖掘的数据,但并不等于说,机器得到知识有更好的质量。

如何定义数据质量,信息的基本作用是消除人们对事物的不确定性。信息熵(InformationEntropy)是对信息的量化度量,也是对不确定性的度量。息和不确定性是逆向关系,有效信息可以减少不确定性,增加确定性。信息质量为基于内容完整性、准确性、清晰度、简洁性、一致性、正确性和基于媒介的信息质量:方便性、及时性、安全性、可获得性等等。

全球知名的法律、财务等领域数据供应商汤森路透(ThomsonReuters)集团的市值500多亿美元,2022年营收为66亿美元。彭博(Bloomberg)金融数据供应商,2022年营业额为122亿美元。这些有价值的数据绝大部分都不是大模型提取的。

大模型领域应用需要和领域现有数据、模型结合

前些天朋友圈中比较热的ChatLaw,其专业版也是和法律知识库结合的方案,使得用户得到的效果更加精准。通过大模型交互能进行信息补全,用户信息确认,并利用大模型生成关键词,不仅可以找到文本中的重点内容,还可以总结并释义出一些词;再从知识库匹配出更合适的案例、条款等内容;相似案例检索、建议汇总等;最后利用大模型进行总结,得到最终答案。

2023年8月,有消息称,汤森路透以6.5亿美元现金收购了法律技术服务商Casetext(casetext.com)。Casetext的核心产品之一CoCounsel,是通过GPT-4打造的一款专注法律领域的ChatGPT产品,可实现分析法律文件、合同、生成证词和法律备忘录等。想必也是专业法律数据库与大模型结合的方案。

作者简介

袁峻峰,《人工智能为金融投资带来了什么》作者,复旦大学金融学硕士,FRM金融风险管理师,目前就职于国内某大型券商,本文仅代表个人观点。

笔者关注于金融投资数字化、智能化,以及ChatGPT、数字货币、WEB3等带来的金融领域变革等,欢迎探讨,欢迎转载。公众号:FINAI探索,笔者微信:ia_fin_yuan

送书福利

关注本公众号,转发公众号任何一篇文章到朋友圈,并打赏或微信8元邮费,公众号私信地址,送书《人工智能为金融投资带来了什么》,每人限一本。本文的部分观点摘自该书。

未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » 从数据质量与价值看大模型领域应用

分享到:更多 ()
来源:金融领域人工智能探索 编辑:科技

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表