近期,好意思国明尼苏达大学与伊利诺伊大学芝加哥分校等合股团队提倡并终明晰一个名为 InfantAgent-Next 的通用型智能体系统,其冒昧通过笔墨、图像、音频等方式与盘算推算机进行自动化交互。 它的中枢创新在于,冲破了现存系统浩繁接纳的“单一依赖”模式(或依赖器具,或依赖视觉模子),转而接纳高度模块化的搀和式架构。 当今,盘考团队已在多个确凿交互任务中考据了 InfantAgent-Next 的灵验性,包括办公软件操作、网页剪辑、音频和会等任务场景,性能逾越了多个现存基线。例如,在 OSW
近期,好意思国明尼苏达大学与伊利诺伊大学芝加哥分校等合股团队提倡并终明晰一个名为 InfantAgent-Next 的通用型智能体系统,其冒昧通过笔墨、图像、音频等方式与盘算推算机进行自动化交互。
它的中枢创新在于,冲破了现存系统浩繁接纳的“单一依赖”模式(或依赖器具,或依赖视觉模子),转而接纳高度模块化的搀和式架构。
当今,盘考团队已在多个确凿交互任务中考据了 InfantAgent-Next 的灵验性,包括办公软件操作、网页剪辑、音频和会等任务场景,性能逾越了多个现存基线。例如,在 OSWorld 任务中准确率达到 35.3%,逾越了 Claude 盘算推算机代理等系统。
此外,他们还开源了齐全代码与评估剧本,但愿推动社区进一步盘考实在可落地的多模态通用智能体。
近日,关连论文以《InfantAgent-Next:多模态通用代理的盘算推算机自动交互本事》(InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction)为题发表在预印本网站arXiv上 [1]。明尼苏达大学博士生雷斌和伊利诺伊大学芝加哥分校博士生康伟泰是共同第一作家,明尼苏达大学丁才文栽种担任通信作家。
可用于数字办公助手等场景
该团队陆续关心通用 AI 代理(AI Agent)本事改日后劲。在他们看来,一个实在高效的智能代理,应该冒昧自主和会用户的意图,并像“数字助手”不异,在不依赖东谈主类骚扰的情况下完成种种跨模态任务,从而实在自由东谈主类的操作时期和提防力。
康伟泰对 DeepTech 暗意,这项本事一朝教诲,有望在办公自动化、内容剪辑、复杂信息检索与决策赈济等规模带来翻新性变革,使东谈主类冒昧将元气心灵联结于更具创造性和政策性的责任。
盘考团队发现,现存体式主要面对两类主要问题:
一类是器具启动型的系统,常常由大模子慎重通盘进程的决策,并调用预设器具。这类体式往往需要东谈主类提前为每个任务场景尽心设想器具调用逻辑,其存在泛化性差和难得资本高的局限性。
另一类则是纯视觉启动的系统,尽管其具有一定通用性,但由于推理和实践全靠单一模子完成,受制于电脑屏幕的高区别率视觉和会的挑战。因此,它往往在界面点击、文本定位、文献剪辑等细节操作上出错,缺少实践层面的鲁棒性。
盘考团队的突破性地引入了一种模块单干连结机制——不再依赖单个模子惩处统统问题,而是把柄任务需求将不同子任务路由给专长不同的“众人模子”。
例如来说,言语模子用于任务琢磨、视觉模子用于定位界面元素、音频模子用于阐明语音教导等。统统模块分享调治的转折文,子模块的输出也会被回写进系统历史中,进而终了端到端的多模态连结。
这种架构带来的新常识包括:充分讹诈了器具模子与视觉模子在不同任务类型中的互补性;终明晰“任务剖析-众人路由-转折文交融”的设想范式;阐发了高度模块化智能体架构在多个基准任务中,具备更强的泛化智商和实践准确性。
盘考团队以为,InfantAgent-Next 的应用出路广袤。它的中枢智商是让智能体冒昧像“臆造东谈主类用户”不异和会多模态输入(如笔墨、图片、声息等),并以高度准确、可控和自动化的方式操作盘算推算机界面。
这种智商在改日有望镶嵌到多种试验应用场景中:
数字办公助手:InfantAgent-Next 可用于自动完成文档撰写、表格处理、幻灯片制作、邮件收发等任务,尤其顺应需要图文搀和操作,匡助用户检朴多量近似工作时期。
无禁闭扶植系统:对于倡导禁闭或活动未便东谈主群,InfantAgent-Next 能通过语音和图像和会,匡助他们自动化地与电脑或网页界面交互,从而擢升数字可及性。
跨模态客服与运维机器东谈主:InfantAgent-Next 在电商、政务、金融等行业可用于后台自动填写系统表单、握取页面数据、处理用户肯求等,以智能化方式完成蓝本需要东谈主工介入的操作进程。
栽种与考验平台中的模拟用户:它不错被用作“臆造学生”或“臆造操作员”,在软件培训、系统测试等规模匡助构建仿真环境。
软件自动化测试与交互考据:与传统的 UI 自动化剧本比拟,InfantAgent-Next 更具通用性和弹性,适用于快速生成测试进程、发现交互逻辑造作。
“长久来看,咱们信服这类通用型 AI Agent 将渐渐成为每个东谈主盘算推算建筑中的常驻助手,像系统级智商不异无处不在,并不停进化。”康伟泰说。
回忆此次盘考资格,最让康伟泰和雷斌难忘的是盘考团队从领先的意气风发,到迟缓意志到终了这么一个多模态通用 AI Agent,试验上比盘考团队猜测中要繁难得多。
启程点,他们制定了知道的单干合作进程:代码终了、benchmark 测试和论文构念念、撰写,并依时代节点鼓舞。但现实远比主义复杂——盘考团队需要兼容多个 benchmark,劝诱赈济它们的测试代码自己就极为繁琐。
况兼,由于他们所设想的是一个“通用型”智能体,触及的子规模非常多。为了把各项功能落地,盘考团队花了多量时期去调研 GUI-VG(GUI Visual Grounding)关连责任,分析不同大言语模子的智商相反、API 调用资本等。可是,这些责任均无法径直复用现存决策,必须从新构建。
盘考过程中,团队还际遇了诸多突提问题,包括 API 资本超预算、GUI-VG 模块的迭代优化、论文写稿标的的调理等,导致原主义一再被打乱。面对这些挑战,团队成员永久保持缜密连结,尤其在论文成型前的临了阶段,他们每天通过 Zoom 召开良友“战争会议”,致使整夜修改论文。
这段资格不仅产出了一项进违警研恶果,更成为一场对于团队连结、韧性相持和动态调理的宝贵实践。最终,团队得胜按预期脱稿,这一恶果让统统成员倍感自重,同期也让他们深切相识到,高质地的科研责任并非线性鼓舞,而是一场充满不笃定性的博弈,需要机动应付和缜密连结。
图丨INFANTAGENT-NEXT 在 OSWorld 上的性能(起原:arXiv)
当今,盘考团队仍是在琢磨后续的盘考标的,并但愿不停打磨和擢升 InfantAgent-Next 的试验可用性与盘考价值。
他们主义从以下几个方面陆续鼓舞:
擢升举座 pipeline 的效劳:面前系统中仍存在部分调用进程复杂、反映速率较慢的问题,盘考团队主义对 Agent 的任务篡改、模块连结和实践机制进行优化,使其愈加高效通顺。
裁减对外部 API 的依赖与资本:当今系统在多模态和会和推理方面仍需依赖一些高质地的商用 API,这在资本和自如性上齐带来挑战。他们正在探索更多开源、可自部署的替代决策,以增强系统的可控性和可陆续性。
增强各子模块的模子智商:岂论是视觉和会、语音分析如故多轮推理,关连模子的精度和鲁棒性齐径直影响 Agent 的进展。盘考团队将陆续跟进最新盘考恶果并考验子模块模子,不停迭代子模块的聘用与性能。
陆续开源,服务社区:盘考团队将保持 InfantAgent-Next 的开源更新,包括代码、评测剧本和器具链,也宽饶社区劝诱者、盘考者或对 AI Agent 感酷爱的同学基于盘考团队的责任进行纠正或扩张,以推动通盘规模的发展。
康伟泰暗意:“咱们但愿这个样子不仅是一个‘能跑起来的系统’,况兼是能成为社区中的基石去推动通用多模态 AI Agent 科研探索和试验落地。”
当今,InfantAgent-Next 的代码和评测剧本仍是绽开在 GitHub 上,盘考团队也在陆续高频率地更新。据团队预测,开源版块中的 Agent 很可能在改日几轮迭代中,智商有望远超面前论文所展示的水平。
参考贵府:
1.https://arxiv.org/pdf/2505.10887
运营/排版:何晨龙