在HumanEval 基准测试中-科技今日热点_娱乐头条才是你关心的时事新闻

大模型资讯：

WizardCoder34B在HumanEval基准测试中击败GPT-4

WizardLM近日宣布，旗下代码生成模型WizardCoder34B近日在HumanEval基准测试中战胜了GPT-4。

WizardCoder34B是一款在CodeLlama基础上改进的代码模型。WizardCoder34B在基准测试中获得73.2%的通过率，而GPT-4在今年3月的成绩为67%。编程模型WizardCoder由微软和香港浸会大学于6月推出，即将推出经过微调的13B/7B版本。

此外，WizardCoder34B的性能还超过了最新迭代的GPT-3.5和Claude2。

OpenAI官宣与Scale合作支持企业微调模型

OpenAI今天宣布，将与Scale合作，帮助更多公司从模型微调中受益。

OpenAI在官方声明中表示，鉴于Scale在帮助企业安全、有效地利用人工智能数据方面拥有丰富的经验，OpenAI将其作为首选合作伙伴，扩大OpenAI模型微调功能的优势。Scale的客户现在可以像通过OpenAI一样对OpenAI模型进行微调，同时还能受益于Scale的企业人工智能专业知识和数据引擎。

OpenAI表示，他们最近为GPT-3.5Turbo推出了微调功能，今年秋天还将为GPT-4带来微调功能。

国内首个大模型数据标注基地落地海口

据百度官方消息，日前，位于海口市秀英区的百度智能云（海口）人工智能基础数据产业基地正式启动运营，这是百度智能云与海口市政府合作共建的国内首个大模型数据标注中心。

百度智能云方面表示，目前已经在全国与各地政府合作，共建了十多个数据标注基地，累计为当地提供超过1.1万个稳定就业岗位，间接带动5万人就业。

浪潮信息发布大模型智算软件栈OGAI

据浪潮服务器官方消息，浪潮信息近日正式发布大模型智算软件栈OGAI。

OGAI为大模型业务提供AI算力系统环境部署、算力调度保障及模型开发管理能力的全栈全流程的智算软件栈。OGAI由浪潮信息基于大模型自身实践与服务客户的专业经验而开发，旨在为大模型研发与应用创新全力打造高效生产力，加速生成式AI产业创新步伐。

OGAI是浪潮信息从当前大模型算力建设、模型开发和应用落地的实际需求出发，秉承全栈全流程、算力充分释放、实战验证提炼的设计原则打造而成。

代码生成模型CodeLlama-34B已在HumanEval测试中击败GPT-4

据phind官方消息，研究团队在Phind内部数据集上对CodeLlama-34B和CodeLlama-34B-Python进行微调之后发现，这两款模型微调之后在HumanEval测试中的通过率均已超过GPT-4在今年3月份的成绩。

CodeLlama是Meta发布的一款代码生成大模型，拥有7B、13B和34B三个尺寸，同时包含基础模型、Python专用版本等多款模型。HumanEval测试显示，未经过微调的CodeLlama-34B和CodeLlama-34B-Python的通过率分别为48.8%和53.7%。

在经过测试之后发现，训练后的CodeLlama-34B通过率达到67.6%，CodeLlama-34B-Python的通过率达到69.5%。而GPT-4在今年3月份的成绩为67%。

航旅纵横上线民航大模型千穰，现已面向Plus会员开启公测

据航旅纵横官方消息，航旅纵横近日正式发布民航领域垂直大模型，千穰大模型。

据航旅纵横表示，千穰大模型是融合了视觉大模型、语言大模型、多模态大模型和计算大模型的图文计算多智体。千穰支持多模态交互、实时信息获取、民航知识精准理解、复杂推理能力、高精度计算优化等功能，可为消费者服务领域行业服务领域提供面对不同场景的解决方案。

千穰1.0AI出行助手已在航旅纵横App落地，但目前仅供航旅纵横Plus会员申请使用。

软银计划下月安排印度团队前往硅谷学习AI技术

据TechInAsia报道，软银集团计划下月带领一支由印度初创企业创始人组成的团队前往美国硅谷进行AI技术的考察餐馆。

据软银旗下愿景基金高管SumerJuneja表示，愿景基金正在帮助投资的企业采用人工智能技术，并一直在为其支持的创始人安排与该领域领先企业的面对面交流的机会。据悉，这支参观学习团队有20人，不过具体名单尚未透露。

重点论文：

清华大学联手多所高校，推出FlexKBQA框架

据Arxiv页面显示，来自清华大学、俄亥俄州立大学、中国科学院大学和山东大学等多所高校的研究者们近日发表论文，介绍了一款可用于解决知识库问答问题的框架FlexKBQA。

论文表示，FlexKBQA利用大型语言模型作为程序翻译器，可以解决少样本知识库问答任务中固有的挑战。FlexKBQA利用自动算法从知识库中抽取多样的程序，然后通过大语言模型将其转化为自然语言问题。这个合成的数据集有助于训练一个专门的轻量级模型用于知识库问答。

研究显示，FlexKBQA在少数标注的情况下取得了令人印象深刻的结果，相对于全监督模型的性能达到了93%的水平。

论文地址：点此前往

未经允许不得转载：头条资讯网_今日热点_娱乐才是你关心的时事 » 在HumanEval 基准测试中

	青岛即墨：开海护航多措保障渔船迎丰收
	潍坊学子刘一平获国际奥赛金牌！
	明朝独特婚俗：公主驸马不能出自名门望族
	魏延若进五虎将，赵云黄忠马超谁最可能出局？
	大中之治：唐宣宗李忱的治世与唐懿宗的衰败
	飞升奇事：王焘贞的儒释道一体理论与仙道修学
	我拿华为Mate 60 Pro测了个网速iPhone真没得玩
	孙思邈：药王之誉，医学之魂
	姜维与邓艾：三国后期军事才能的对比
	孝心与天道：朱元璋与刘伯温的决策

头条资讯网_今日热点_娱乐才是你关心的时事

在HumanEval 基准测试中

相关推荐

青岛即墨：开海护航多措保障渔船迎丰收

潍坊学子刘一平获国际奥赛金牌！

明朝独特婚俗：公主驸马不能出自名门望族

魏延若进五虎将，赵云黄忠马超谁最可能出局？

大中之治：唐宣宗李忱的治世与唐懿宗的衰败

飞升奇事：王焘贞的儒释道一体理论与仙道修学

我拿华为Mate 60 Pro测了个网速iPhone真没得玩

孙思邈：药王之誉，医学之魂

姜维与邓艾：三国后期军事才能的对比

孝心与天道：朱元璋与刘伯温的决策

评论