芯片能人 AMD最新推出科研 AI,o1-preview 竟成天选打工东谈主?!
能干看,只需将科研 idea 和联系札记一股脑丢给 AI,不绝阐述以致是代码就能立马出炉了。
这个 AI 系统代号" Agent Laboratory ",全程由 LLM(大谈话模子)驱动完成文献综述、实验,以及阐述,一站式处置科学不绝。
对了,在 GPT-4o、o1-mini 以及 o1-preview 这几位科研助理应中,作家们发现o1-preview产出的不绝效用最好。
并且合座上,与现存要领比较,由 AI 生成的代码或者扫尾 SOTA 性能。
同期,如果东谈主类在每个过程赐与响应,不绝的合座质料也会大大提高。
总体而言,与之前的自主不绝要领比较,Agent Laboratory 将不绝用度减少了84%。
Okk,这也再次印证了东谈主们的猜测,东谈主类与 AI 协同将带来更具性价比的神情加快科研。
临了,咱们也扒了扒论文作家们,戒指只怕发现7/9 为华东谈主相貌——
从文献到阐述,AMD 科研 AI 一站式处置
先来看 Agent Laboratory 是如何使命的。
如图所示,主要有三个阶段:文献综述→实验→撰写阐述,每一阶段皆有不同的任务、器具和 AI Agent 变装(比如 PhD、博士后 Postdocto 等)。
PhD Student 负责文献综述
伸开来说,在文献综述阶段,PhD Student 这一变装负责主要现实。它诳骗 arXiv API 来检索联系论文,并进行三个动作:
一持摘要:检索出与开动查询最联系的前 20 篇论文的摘要;
二持单篇全文:关于某些具有弥留参考价值的论文,索取其完好内容;
三添加论文:将经过筛选的论文摘要或全文纳入到文献综述中;
需要能干的是,临了一个过程并非一次性完成,而是一个迭代的过程。
换句话说,唯有当通过 add paper(添加论文)号令达到指定数目(N = max)的联系文本时,文献综述才会最终细目。
接下来干与实验关节。
如图所示,主要有四个过程:筹画制定→数据准备→运行实验→戒指阐述。
PhD Student+Postdoc 通过对话制定实验筹画
浅近说,笔据综述戒指和既定不绝宗旨,PhD Student+Postdoc融会过对话来制定详备、可现实的实验筹画。
筹画一般包括具体实验圭表、选用何种机器学习模子、筛选合适的数据集以及策画实验的高档历程框架等要害要素。
在达成一致敬见后,Postdoc 这一变装会使用 plan 号令提交筹画,此筹画将四肢后续统共实验联系子任务的弥留行径指南。
ML Engineer 用 Python 准备数据
然后ML Engineer会不才一阶段用 Python 来处理和准备实验所需的数据。
过程中,这一变装不错诳骗 search HF 号令在 HuggingFace 数据集聚进行搜索,以获取合适的数据资源。
写完代码后,ML Engineer 会先将代码通过 Python 编译器进行查验,确保莫得编译失实。若存在问题,则会进行迭代修改,直至代码或者获胜运行且无失实,最终使用 submit code 号令提交经过考据的数据准备代码,为后续实验提供可靠的数据基础。
ML Engineer 借助专用模块运行实验
搓搓手,底下崇敬干与实验运行关节。
综合而言,ML Engineer 会借助mle-solver这一罕见想象的模块,来实施和现实先前制定的实验筹画。
mle-solver 的使命历程如下:
号令现实
图(A)部分,从一组事先关爱的高性能圭表中采样出一个开动圭表,在后续的迭代过程中,通过 EDIT 和 REPLACE 两种操作对圭表进行抵制优化。
EDIT 允许在指定的代码行限度内,用更生成的代码替换原有代码,从而扫尾对圭表功能的局部调遣;REPLACE 则更为激进,它会生成一个全新的 Python 文献,用于在需要对圭表结构或合座逻辑进行要紧改变时使用。
代码现实
图(B)部分,现实代码号令后,新圭表会立即通过编译器进行查验,以识别和处理可能出现的运行时失实。
若圭表成功编译,将笔据事先设定的评估模范对其进行评分,并与现存的圭表进行比较。若新圭表得分更高,则会更新最优圭表列表。
若代码未能通过编译,ML Engineer 会尝试进行最多 Nrep(在实验中设定为 3 次)的莳植操作,若仍无法解决问题,则会废弃现时圭表,从头选择或生成新的代码进行替换。
圭表评分
图(C)部分,罗致 LLM 奖励模子对成功编译的代码进行评分。
该模子会综合磋商不绝筹画的宗旨、生成的代码逻辑以及实质的实验输出戒指等多方面身分,在0 到 1 的限度内对圭表进行量化评估。得分越高,示意圭表与开动不绝宗旨的契合度越高,或者更灵验地扫尾预期功能。
自我反念念
图(D)部分,无论代码现实戒指是成功已经失败,mle-solver 皆会基于实验戒指或际遇的失实信号进行自我反念念。
如果圭表编译失败,它会念念考如安在后续的迭代中幸免或解决一样的问题;若圭表成功编译并赢得评分,它会分析如何进一步提高圭表的性能和得分,通过这种抵制学习和变嫌的机制,确保系统或者持续普及生成代码的质料和相识性。
性能相识化
图(E)部分,为防患性能波动,mle-solver 罗致了两种要害机制。
一是顶级圭表采样,通过关爱一个高质料圭表的辘集,在现实号令前赶快从中采样一个圭表,这么既保证了圭表的千般性,又能确保所选用的圭表具有较高的质料基准;
二是批量并行化,在每个求解圭表中,同期进行多个代码修改操作,并选择其中性能最好的修改戒指来替换现时最优圭表辘集中得分最低的圭表。
PhD Student+Postdoc 共同商榷分析实验戒指
现实扫尾后,PhD Student+Postdoc 会深刻探讨 mle-solver 生成的实验戒指,聚合自己的专科学问和前期的不绝配景,对戒指进行全面解读。
一朝两边以为戒指合理且具备学术价值,Postdoc 就会使用 interpretation 号令提交该阐述,为后续的阐述撰写阶段提供要害的内容基础。
PhD Student+Professor 撰写完好阐述
干与临了的阐述撰写关节,PhD Student 和 Professor 融会过一个名为 "论文求解器"(paper-solver)的罕见模块完成任务。
需要辅导,paper - solver并非用来统共取代学术论文撰写历程,而所以一种东谈主类可读的体式回来已完成的不绝,以便使用 " Agent Laboratory " 的不绝东谈主员了解已取得的效用。
频繁来说,其使命历程包括以下圭表:
开动阐述框架生成:生成合乎学术模范结构且含占位符、感奋 LaTeX 编译和学术老例的阐述开动框架;
arXiv 不绝:可按文献综述接口探问 arXiv 拓展文献贵府完善阐述(非强制但很有匡助);
裁剪阐述:用 EDIT 号令按照多身分对论文 LaTeX 代码行精准迭代裁剪并编译考据,普及阐述质料;
论文评审:用 LLM Agent 模拟 NeurIPS 历程多维度评估论文,测试准确性接近东谈主类评审员;
完善论文:由三个评审 Agent 生成看法,PhD Student 依此判断是否改良,必要时回溯前期关节修改至达标。
o1-preview 科研技艺最强
通过以上三个主要阶段,Agent Laboratory 就完成了通盘科研历程。
接下来,不绝东谈主员用 GPT-4o、o1-mini 以及 o1-preview 来评估实验质料、阐述质料和有用性,这 3 个 AI 在莫得东谈主类任何参与的情况下完成了 15 篇论文。
然后平凡东谈主(东谈主工审稿东谈主)被条目笔据以下五个问题对它们进行 1 — 5 评分,戒指如图所示。
综合来看 o1-preview 对不绝最有匡助, o1-mini 的实验质料得分最高, 而 GPT-4o 全面垫底。
1、谈话模子是否施展出阐明偏差,比如阐明偏差或锚定偏差?
2、图像 Transformer 相较于卷积网络,对像素噪声的明锐度是更高已经更低?
3、当被条目进行鉴别会诊时,谈话模子在医学问答(MedQA)上的准确性会提高吗?
4、在多项选择题基准测试中,谈话模子对词序明锐吗?
5、性别变装是否会影响谈话模子薪金数学问题的准确性?
然后作家们还探讨了东谈主工审稿与自动审稿的区别有多大。
二者互异显耀,且自动审稿倾向于高估论文分数。
具体来说,与平均水平的 NeurIPS 论文得分比较,自动审稿平均为 6.1/10,东谈主工审稿为 3.8/10。
而在 GitHub,作家们也领路了让不绝效果更好的技能。
撰写详备的札记;
使用更宏大的模子;
另外,如果用户丢失程度、断开互联网或子任务失败,不错使用「查验点收复使命程度」功能。
以致也维持切换到中语情景。
背后团队过半数是华东谈主
临了先容一下 Agent Laboratory 背后的作家们,他们的确全是在客岁加入 AMD。
Samuel Schmidgall,现在是霍普金斯大学电气与计较机工程博士,亦然 DeepMind 学生不绝员。
从客岁 10 月起始,他在 AMD 进行谈话 Agent方面的实习。
更早之前还在好意思国舟师不绝实验室探索机器东谈主强化学习,以及在斯坦福大学不绝心血管外科方面的谈话 & 视觉大模子。
Yusheng Su,客岁 8 月加入 AMD GenAI 团队的不绝科学家,专注于模子数据、模子架构和熟悉效用优化。
他 2019 年毕业于政事大学(base 台北),后赢得清华大学 CS 博士学位(时间不绝大模子预熟悉)。
更早之前,他还在微软云计较部门有过一段实习经验。
Ze Wang,客岁 5 月加入 AMD GenAI 团队的应用不绝科学家。
他 2017 年本科毕业于北航电气与电子工程专科,后辩认于好意思国杜克大学和普渡大学读了电子与计较机工程 PhD。
更早之前,还在 Facebook AI 和微软实习过。
Ximeng Sun,客岁 6 月加入 AMD 的应用科学家。
她 2018 年毕业于密歇根大学拉克哈姆不绝生院的计较机专科,后于波士顿大学取得 CS 博士学位。
加入 AMD 之前,她前后在 IBM、谷歌和 Meta 进行了实习。
Jialian Wu ( 吴嘉濂 ) ,客岁 4 月加入 AMD GenAI 团队的不绝科学家。
他在 2019 年本硕毕业于天津大学电子工程专科,后于纽约州立大学布法罗分校读完 CS 博士。
加入 AMD 之前,他只在高通有过一段全职经验。更早之前则在亚马逊和微软实习过。
Xiaodong Yu(于晓栋),客岁 8 月加入 AMD GenAI 团队的不绝科学家,专注于学问检索 / 诚实度、长文才能悟、数学推理以及 LLM/VLM 熟悉等。
他 2015 年毕业于上海交大电子与电气工程专科,后赴好意思国伊利诺伊大学香槟分校和宾大攻读硕博。
念书时间,他也在亚马逊、微软等机构实习过。
Jiang Liu,客岁 4 月加入 AMD GenAI 团队的不绝员,标的为开发通用 AI 模子。
他 2019 年本科毕业于清华大学自动化专科,同期也在五谈口金融学院学习,后于约翰斯 · 霍普金斯大学读完电子与计较机专科博士。
加入 AMD 之前,他在 AWS 和微软进行了大谈话模子方面的实习。
Zicheng Liu,客岁岁首入职 AMD 担任高档工程总监,不绝好奇钦慕为视觉谈话学习、3D 东谈主体和手部重建、动态卷积和东谈主类行为识别。
在这之前,他在微软使命了 27 年,主要负责治理计较机视觉科学组。
他已经多个国外会议的时间委员会成员,并且是《视觉传达与图像示意》杂志主编等。
Emad Barsoum,负责 AMD 生成式 AI 方面的副总裁,加入 AMD 1 年多。
曾在微软担任团队工程司理 / 架构师,共同参与创建了ONNX 模范。这是一个怒放神经网络体式交换筹画,在 2017 年由微软和 Facebook 共同发起,它使得数据科学家和开发者不错将不同的深度神经网络框架开发的模子,顺利部署到上亿的 Windows 拓荒中。
加入 AMD 之前,他也在芯片制造公司 Cerebras 负责指点 AI 团队,主淌若熟悉大谈话模子和视觉模子。
论文:
https://arxiv.org/pdf/2501.04227
代码:
https://github.com/SamuelSchmidgall/AgentLaboratory开云体育(中国)官方网站