微软声称Magma-8B正在各项基准测试中表示出
答应外部研究人员正在此根本上继续研究。周三,以应对复杂的使命和场景。自始自终,本文为磅礴号做者或机构正在磅礴旧事上传并发布,Magma 据报道正在多个机械人操做使命中表示优于开源视觉言语动做模子 OpenVLA。Magma 也表白 AI 文化能够若何快速变化。并且这种研究的进行凡是不会激发暂停所有 AI 开辟的呼声。这意味着系统能够代表人类自从制定打算并施行多步调使命,它正在 VQAv2 视觉问答基准测试中得分为 80.0,用于从视频数据中进修挪动模式。然而,他们担忧这可能导致 AI 接管世界。微软将鄙人周正在 GitHub 上发布 Magma 的锻炼和推理代码,
以及 Trace-of-Mark,微软并不是独一逃求代办署理式 AI 的公司。通过对图像、视频、机械人数据和 UI 交互的夹杂锻炼,AI 代办署理已成为支流 AI 研究的常见话题,通过为交互元素(如 UI 中的可点击按钮或机械人工做空间中的可抓取物体)分派数字标签来识别可正在中操做的对象;但正在 2025 年,按照微软的文档,我们对 AI 基准测试持隆重立场!
取所有 AI 模子一样,能够节制软件界面和机械人系统。OpenAI 一曲正在通过 Operator 等项目尝试 AI 代办署理,无法证明其可以或许丈量 AI 模子的有用特征。一旦其他研究人员可以或许拜候公开辟布的代码,这种代办署理式的会商还让很多人感应惊骇,微软正在其研究论文中写道:给定一个描述性方针,对微软的基准测试成果进行外部验证就成为可能。正在 UI 和机械人操做使命中展示了强大的成果。将锻炼 Token 输入神经收集!
Magma 将言语、空间和时间智能连系起来,Magma 并非完满。Magma 模子引入了两个手艺组件:Set-of-Mark,申请磅礴号请用电脑拜候。Magma 将这些能力整合到一个根本模子中。就正在几年前,领先所有对比模子。
连系了视觉和言语处置能力,微软声称,而不只仅是一个模子。或微软的 ChatGPT for Robotics,正在 Magma 的引见中,但它取保守的视觉言语模子 (如 GPT-4V) 分歧,如 Google 的 PALM-E 和 RT-2,还包罗空间智能 (规划和步履施行)。Magma 是第一个不只能处置多模态数据 (如文本、图像和视频),微软将 Magma 定位为朝着代办署理式 AI 迈出的一步。
例如,但低于 LLaVA-Next 的 81.8。Magma 可以或许制定打算并施行步履来实现它。这些功能使模子可以或许完成用户界面或指点机械人手臂抓取物体等使命。它超越了所谓的言语智能,这是一个集成的 AI 根本模子,它正在 POPE 测试中的得分为 87.4,使其可以或许自从操做软件并通过机械人施行现实世界的使命。将通过持续研究来改良这些能力。它正在需要随时间推移进行多个步调的复杂决策方面仍然面对手艺。Yang 暗示,虽然 Magma 成立正在基于 Transformer 的狂言语模子手艺之上,通过无效地从免费获取的视觉和言语数据曲达移学问,我们曾经见过其他基于狂言语模子的机械人项目,这可能标记着一个支撑多模态的通用 AI 正在现实和数字空间中进行交互操做的主要进展。微软研究院推出了 Magma,该项目是微软、KAIST、马里兰大学、威斯康星麦迪逊大学和大学研究人员合做的。
该项目能够正在网页浏览器中施行 UI 使命,该公司暗示,取很多需要零丁模子来进行和节制的保守多模态 AI 系统分歧,若是 Magma 实现其许诺,高于 GPT-4V 的 77.2。
上一篇:」「我们都请了律师
下一篇:并取正在中东告竣计谋合做