欢迎光临福建新闻热线!

当前位置: 首页 > 科技

从 0 到 1 打造 Labubu ,MiniMax Agent 让我看到了智能体未来的样子

今年上半年,最吊足胃口和期待的,莫过于 Agent 工具,饼画得都很大:日常中那些烧脑、重复、耗时间的任务,现在似乎只需要动动手指、敲几行 prompt 就能搞定。

大饼真的很诱人,但仔细想想:想要真的做到那么有用,需要的,是某种与你我类似的思考、规划,甚至还有能自己跟自己较劲、主动反思的能力。

带着这个想法,我们测试了最新的 MiniMax Agent 进行了一轮深度测试——不再满足于入门级的考察,而是把它丢进了一些充满趣味和挑战、又不失真实的工作场景,想看看它到底能聪明到什么程度。

对 MiniMax Agent 的期待,千言万语只有一点:玩着玩着,就把活儿干了。

创意内容:超越想象的视觉叙事

MiniMax 本身就在多模态模型上积累深厚,这样的优势,对于想要出产创意型作品,可谓是信手拈来。

最近的 Labubu 简直火出天际,刚好就来给 Labubu 搞个宣传计划——听起来很复杂,这个 Agent 丝毫不慌,先制定一套完整的宣传策略计划,确定交付物清单,再有序生成海报,再按部就班地准备宣传海报。

全程看下来,MiniMax Agent 一边动脑思考,一边调用合适的工具,主打一个行云流水,有条不紊。

就交付的结果来说,还真是不小的惊喜:不仅视觉审美在线,介绍文案也讲得清清楚楚,主题海报画廊一套接一套,别说,MiniMax Agent 不只能做事,居然还有点「品味」。

类似的,还可以继续用 Labubu 做主角,让 MiniMax Agent 整一本 20 页图画书。

短短十几分钟,MiniMax Agent 就实现了画图 + 编故事 + 网页排版,三步走。

效果出人意料地出色,角色形象一致性比较好,每页图配文也不敷衍,读起来有内容,看起来不枯燥,还支持网页端部署,排版合理,细节讲究。

当然,我更喜欢它将 Labubu 改成了小兔帽熊熊的昵称,听起来软萌,看起来也确实养眼,图文兼备的情况下,适合小朋友,也适合大朋友。

PPT 制作:不止美观,更会「雕花」

这次更新中,一大亮点是能做漂亮的 PPT——职场打工人的刚需。

对于 MiniMax Agent 来说,PPT 也是多模态的一种。看上去只是图片和文字,但无论是排版、内容规划和组织,都得有主题、有思路、有逻辑,并且还要能自主补全内容。

比如面向初中生设计一份物理讲解的 PPT:

或者面向投资者,制作的商业报告:

简单来说,要做好 PPT,不仅是简单的信息查找,更是对信息的筛选、去噪和跨领域关联的能力测试。

成品的效果都很好看,不禁让人好奇:在制作的过程中,MiniMax Agent 都做了些什么?

我们用市场调研类别的 PPT 做了一个测试,这类 PPT 通常数据量大、信息密集,正好可以看看它在理解数据、选择合适图表以及呈现效果方面的能力到底怎么样。

首先它能准确地拆分任务,按照「页面布局 + 图表类型 + 数据样式」三层结构来梳理内容,页面规划很有一套。

可视化的呈现,不仅完整无遗漏地展示了关键数据点,还根据不同的数据特点,选用合适的可视化方式来展示。整个 PPT 的动画过渡也做得非常流畅,把重点自然地突出出来,连微调动画的工夫都省了。

最后交付时,除了要求的 PPT 文稿外,还额外提供了 Web 和 PDF 文件,以及 Markdown 文件。

总体来看,Minimax agent 在「理解-整合-推理-生成-表达」这一完整链条上的能力都很不错,尤其是在非代码、偏文案和商业分析方面,完全称得上「专业」两个字。

音频到网站:一站式智能内容工作流

如果说图文都还不算进阶,那更考验 agent 实力的场景出现了:这个任务要求把上传过去的音频文件转换一遍格式,然后转成逐字稿,并且带时间戳。最后还要根据内容生成一个思维导图。

拆开来看,这些任务都没什么难度,但合在一起完成才是难点所在。

过去,要么熟练掌握转格式工具,或耗费时间寻找并尝试各种在线转换工具。而 MiniMax Agent 直接在内部完成了这一操作,大大节省了我们寻找、安装和操作外部工具的精力。

MiniMax Agent 在整个流程中展现出的高效与便捷非常值得一赞。最直观的感受便是格式转换的无缝衔接。从进程视窗里可以看到,MiniMax Agent 在生成逐字稿方面的快速、准确。

除了能把将音频内容转换为文本,还能对音频内容有深层理解,这些都体现在给出的思维导图里。

思维导图不仅能清晰地梳理出音频的核心观点和逻辑脉络,还能准确捕捉到内容的层次结构和关键信息点。

这远超简单的关键词提取,展现了 MiniMax Agent 将零散信息结构化、可视化的强大能力。

虽然是我给下的需求,但具体该怎么实现,其实我心里也没数。倒是它自己,主动给自己安排好了工作:从安装依赖包到启动服务器,自行完成了该做的工作,一点不需要操心。

UI 设计:边学边用,高效产出

真正回到日常工作中,一定会涉及的环节是:调研了解-学习领悟-上手实践。这是人类最最基本的作业流程。毕竟,没有调研,就没有想法。

那么,想要成为一个优秀的 agent,这个流程也必不可少——很复杂,但是很必要。

下面的案例中就是考察整个流程的实现:研究 Apple iOS 26 的液态玻璃的设计风格,制作一个类似的 UI。

显然,MiniMax Agent 也知道这是个相当复杂的任务,给自己制定了一整个作业计划。

接下来则是一步步的设计、部署和写代码。步骤很杂很多,但它自己有条不紊地执行,完全不需要人来操心——甚至还能想到要找「视觉冲击力强」的素材。

最终交付出来的,不仅有代码包,还有一个网站,来展示整个过程中调研获得的成果,视觉化地展示不同维度的成果。

甚至还专门留出了个交互体验的专区,可以简单体验效果——完全超出了原有 prompt 本身的设定,超额完成任务。

原有的 prompt 其实非常简单,对比最后交付的成果可以看到,MiniMax Agent 不仅仅是有调研、深入的能力,用代码完成任务的能力,更加是对任务有「自己的理解」

深度研究:不止是搜索,更需要推理

资料调研是基本功了,难度不高,但是个细致活——尤其是根据最新的新闻做调研,信息获取要尽量延伸。

从思维链的过程,以及交付成果上来看,Agent 在完成这份研究报告的表现,远超预期:不仅完成了结构化的信息整合,还展示了自己的推理本领。

在报告中,MiniMax Agent 并不只是简单罗列数据,而是能识别了市场规模「自上而下」与「自下而下」的巨大差异 ,并将其作为「重要的市场洞察」提出。

显然,简单的信息罗列,称不上是真正的「深度研究」。Agent 需要识别数据背后的模式、趋势、因果关系,并在这些基础上,形成有价值的「洞察」和「核心观点」 ——这需要的,是超越文本匹配的推理能力

总结:左手模型,右手 Agent, MIniMax 让我看到了智能体未来的样子

Agent 是今年 AI 最火的赛道之一,大家都在谈论 Agent 的未来,但真正让 Agent 从炫技演示和「五分钟热度」的玩具走向能改变生产力的工具,其实寥寥无几。

拥有自研模型的 MiniMax 推出了自己的 Agent 产品,给我们展现出了不一样的打法。在测试后我们也对 Agent 有了新的理解:决定 Agent 体验的,不只是模型本身,还更多体现在那些看不见的基础设施上。

这里有个特别值得一提的细节——作为独立公司,MiniMax 几乎是唯一一家能够提供完整全模态能力的厂商。

▲ MiniMax 语音模型 Speech-02-HD 位列 Artificial Analysis Speech Arena 榜单第一

▲ MiniMax 语音模型 Speech-02-HD 位列 Artificial Analysis Speech Arena 榜单第一

MiniMax 视频模型 Hailuo 02 位列 Artificial Analysis Video Arena 榜单第二

MiniMax 视频模型 Hailuo 02 位列 Artificial Analysis Video Arena 榜单第二

Agent 大部分的能力都依赖于模型这个引擎,「模型即 Agent」的趋势也越来越明显。

在这一点上,模型公司做 AI 应用的优势就体现得淋漓尽致了。由于直接掌控模型底层,他们能更有效地优化调度逻辑、降低运行成本,并构建数据飞轮来自主迭代

MiniMax 就是这样的典型代表——随着其自有模型能力的提升,Agent 的运行成本不断优化,性能也显著增强。

今天 MiniMax 开源全球首个大规模混合架构的推理模型 MiniMax-M1,原生支持 100 万 token 的输入长度和 8 万输出 token 的行业最长输出,推理算力生成 10 万 token 只需要 DeepSeek R1 的 25%,将推理模型的价格又打了下来。

当其他创业公司还在为高昂的 token 成本发愁时,MiniMax 已经能够通过提升自有模型比例来系统性地降低 Agent 运营成本,这对用户能持续稳定地体验十分重要。

这正是「Minimize Efforts,Maximize Intelligence」的极致诠释,简单来说,就是用最小的努力换取最大的智能。

MiniMax 这种「左手模型,右手 Agent」的布局,让他们能够在技术能力和用户价值之间找到最佳平衡点,确实具备了在这场智能体竞赛中脱颖而出的条件。

我们正身处一个前所未有的转折点:AI 正从工具进化为拥有「大脑、感官、手脚」的复合智能体,它为未来工作与生活,开启了更新、更酷的想象空间。

智能体 新浪众测 新浪众测 新浪科技公众号 新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

相关新闻
本文来源于网络,不代表福建新闻热线立场,转载请注明出处
我要收藏
0个赞
转发到:
阿里云服务器
Copyright 2003-2025 by 福建新闻热线 fj.bjdshi.cn All Right Reserved.   版权所有
关注我们: