从数据质量与价值看大模型领域应用-科技今日热点

在金融量化领域关于数据有句名言：Garbagein，Garbageout。这句话对ChatGPT大模型优化同样适用。很难想象，国内那些大模型创业团队，一般10来人投进做数据处理，为PreTrain、Finetuning等环节准备数据。就能在数据上获得更高质量的数据？特别是各领域中结构化数据。

袁峻峰，公众号：FINAI探索ChatGPT确认成为新一代人机接口，领域应用之门已打开

大模型提取知识优势在量不在质

笔者在之前文章和书都有提到，可以利用机器学习挖掘我们人类无法认识的知识与信息。就拿多轮对话为例，长链路的对话将是爆炸量的数据，人工处理的样本集无法满足训练要求，ChatGPT是通过SeqGAN模型生成数据。这也导致非常大的神经网络，训练成本非常高。这生生是“大力出奇迹”的方案，用更多数据、靠更多算力解决问题。

大模型通常的语料库包括Wikipedia、CommonCrawl等开源的语料库，以及社交媒体数据、对话数据集。大模型优化一部分工作就是优化预训练数据集。近日，AI研究机构AllenInstituteforAI发布了一个名为Dolma的开源语料库，含了来自网络内容、学术出版物、代码、书籍和维基百科材料的3万亿token。

https://huggingface.co/datasets/allenai/dolma

只有机器才能挖掘大数据中人类无法挖掘的数据，但并不等于说，机器得到知识有更好的质量。

如何定义数据质量，信息的基本作用是消除人们对事物的不确定性。信息熵（InformationEntropy）是对信息的量化度量，也是对不确定性的度量。息和不确定性是逆向关系，有效信息可以减少不确定性，增加确定性。信息质量为基于内容完整性、准确性、清晰度、简洁性、一致性、正确性和基于媒介的信息质量：方便性、及时性、安全性、可获得性等等。

全球知名的法律、财务等领域数据供应商汤森路透(ThomsonReuters)集团的市值500多亿美元，2022年营收为66亿美元。彭博（Bloomberg）金融数据供应商，2022年营业额为122亿美元。这些有价值的数据绝大部分都不是大模型提取的。

大模型领域应用需要和领域现有数据、模型结合

前些天朋友圈中比较热的ChatLaw，其专业版也是和法律知识库结合的方案，使得用户得到的效果更加精准。通过大模型交互能进行信息补全，用户信息确认，并利用大模型生成关键词，不仅可以找到文本中的重点内容，还可以总结并释义出一些词；再从知识库匹配出更合适的案例、条款等内容；相似案例检索、建议汇总等；最后利用大模型进行总结，得到最终答案。

2023年8月，有消息称，汤森路透以6.5亿美元现金收购了法律技术服务商Casetext(casetext.com）。Casetext的核心产品之一CoCounsel，是通过GPT-4打造的一款专注法律领域的ChatGPT产品，可实现分析法律文件、合同、生成证词和法律备忘录等。想必也是专业法律数据库与大模型结合的方案。

作者简介

袁峻峰，《人工智能为金融投资带来了什么》作者，复旦大学金融学硕士，FRM金融风险管理师，目前就职于国内某大型券商，本文仅代表个人观点。

笔者关注于金融投资数字化、智能化，以及ChatGPT、数字货币、WEB3等带来的金融领域变革等，欢迎探讨，欢迎转载。公众号：FINAI探索，笔者微信：ia_fin_yuan

送书福利

关注本公众号，转发公众号任何一篇文章到朋友圈，并打赏或微信8元邮费，公众号私信地址，送书《人工智能为金融投资带来了什么》，每人限一本。本文的部分观点摘自该书。

未经允许不得转载：头条资讯网_今日热点_娱乐才是你关心的时事 » 从数据质量与价值看大模型领域应用

	新闻特写：打好高水平保护主动仗跑出高质量发展加速度
	隐蔽院落竟藏近2万升危化品东营区打掉一处非法储存危险化学品窝点
	合作共赢携手同行——济南市体育局与湖北工业大学举行共建高水平体育人才培养基地签约、揭牌仪式
	日本曾承诺未获理解不会排海
	汇川区多部门联合开展传统村落及民宿（客栈）消防安全专项检查
	“郝家学子逐梦起航” 垦利区郝家镇孟家村召开优秀学子表彰大会
	五菱星云开启盲订，2.0L油电混动，定位5座紧凑型SUV
	提升财政服务助力经济普查
	德州农商银行暑期爱心托管班举办安全知识小课堂
	王曼昱和陈梦双打获胜，击败陈幸同组合，蒯曼双打击败孙颖莎

头条资讯网_今日热点_娱乐才是你关心的时事

从数据质量与价值看大模型领域应用

相关推荐

新闻特写：打好高水平保护主动仗跑出高质量发展加速度

隐蔽院落竟藏近2万升危化品东营区打掉一处非法储存危险化学品窝点

合作共赢携手同行——济南市体育局与湖北工业大学举行共建高水平体育人才培养基地签约、揭牌仪式

日本曾承诺未获理解不会排海

汇川区多部门联合开展传统村落及民宿（客栈）消防安全专项检查

“郝家学子逐梦起航” 垦利区郝家镇孟家村召开优秀学子表彰大会

五菱星云开启盲订，2.0L油电混动，定位5座紧凑型SUV

提升财政服务助力经济普查

德州农商银行暑期爱心托管班举办安全知识小课堂

王曼昱和陈梦双打获胜，击败陈幸同组合，蒯曼双打击败孙颖莎

评论