AI，真对我狠狠动手了| 果壳科技有意思

AI，真对我狠狠动手了

果壳

最近半年， “龙虾”这个词你一定不陌生。

它和你平时用的那些聊天 AI 不一样：它不只是跟你对话，而是真的能看见你的电脑屏幕，替你操控浏览器、打开文件、跨应用执行任务。相当于你身边多了一个会操作电脑的助手。但这也有门槛，很多“龙虾”产品都要折腾终端命令行、配环境、搞代码，99% 的普通用户直接劝退。我当时就想，这玩意啥时候能跟APP一样直接装啊？

结果没多久，这个想法就实现了。

百度搭子 DuMate，虽然接近10 个 G 的安装包吞掉了我电脑不少硬盘空间，但它将这些复杂步骤，全部封装在一个App 里，比起从零搭龙虾的全套流程，这点代价不值一提。

安装只是第一步，重点还是要看它会不会干活。我用四个真实需求测了一圈：帮妹妹选笔记本电脑、做一份太空数据中心的深度调研、生成一张视频封面图、用 HTML 做一套演示文稿。下面是全部实测部分，当然还有一些翻车的小惊喜。

第一次测试它被系统拦住了，但没有停

妹妹马上上大学，让我帮忙选一台笔记本。我给 DuMate 的指令是一整条任务链：先去小某书搜大学生笔记本推荐，筛选真实评测，找出点赞最高的三款。等我确认后，再去某宝查 618 到手价。

DuMate 操控浏览器需要装一个 Chrome 扩展，安装很顺畅，基本一键完成。然后事情就开始有意思了。它打开小某书，在搜索框输入关键词，发现搜索没有触发，于是自己点击了搜索图标。搜索结果出来后，它注意到页面有“真实评测”筛选标签，主动点击过滤。然后逐篇打开高赞笔记，提取产品型号、价格、好评和吐槽。

十几分钟后，它整理出三款产品推荐，附带处理器、内存、价格和用户口碑。任务跑到中途，DuMate 还会自动插入一段工作笔记

，回述已完成和待完成的步骤，标记遇到的异常，相当于边干活边自检，在长任务里很有用。

我最终选了一款机型，它切到某宝，然后 Mac 弹出提示：“已阻止 DuMate 修改 Mac 上的 App。”浏览器自动化被系统安全策略拦住了。

但 DuMate 没卡死。它判断浏览器走不通，迅速切到百度搜索查价格，最终交付了一份汇总：配置参数、618 到手价、优惠构成、购买建议。我手动去旗舰店核实，到手价 5609 元，基本准确。

虽然任务没有完全走通原始链路，但遇到系统拦截时自主绕路、最终交付可用结果，这一刻我比较明显地感觉到，它不是在“回答问题”，而是在尝试完成任务。跑分第一但真实体感没那么简单DuMate 目前同时登顶了两个 Agent 评测榜单：PinchBench 和 DeepResearch Bench。

PinchBench，可以理解为 Agent 龙虾产品的“高考”，测的是 AI 能不能把日历创建、文件处理、数据分析这类真实工作任务干完、干对、干得快。DuMate 拿了 93.3%，超过了 Anthropic（91.6%）和 OpenAI（89.0%）。另一个叫 DeepResearch Bench，专门测 AI 做深度调研的综合水平，搜信息、分析数据、写研究报告的全链路能力，DuMate 同样排在第一。

不过跑分和实际体感之间有时候会有落差。

我让 DuMate 调研“太空数据中心的可行性”，产出的文档对基本面梳理得比较清楚，核心优势、主要玩家都覆盖到了，作为快速了解一个陌生话题的起点是合格的。但对比我常用的 Gemini Deep Research，内容还偏提纲式，来源标注也有待补全。

当然两者不在同一个评测体系里竞争，各有各的长板。考虑到 DuMate 保持着一天一版的更新节奏，我装的是 1.0.42 版，这块后续迭代空间值得期待。

生图翻车几次后结果反而更好看

图片生成是我反复测试次数最多的任务。我让 DuMate 做一张太空数据中心主题的视频封面图。

一开始，我给了两张参考图，但几次尝试都连续翻车了。Agent 先后切换了三个生图模型，都因为后端网络问题失败。同样的 prompt 和参考图给到 ChatGPT，不到两分钟就出了结果。

但当我去掉参考图、换成纯文字描述时，DuMate 大概六分钟交付了成品。有意思的是，跑到大概两分钟的时候，系统的超时保护机制差点要重启任务，但就在倒计时快到的那一刻，图片生成成功了。而且效果出乎意料地好：深蓝地球背景、发光的太空数据中心、卫星和文字排版都到位，科幻感甚至比 ChatGPT 的版本更强烈。

左：DuMate 生成的视频封面图

右：同样的 Prompt，ChatGPT 生成的封面图

至少这次结果里，DuMate 交出的图更符合我的预期，效果也明显优于 Gemini 的图片生成功能（NanoBanana），我个人认为和 ChatGPT 的生成质量旗鼓相当。

我后来也复盘了下，我认为问题出在工程链路上。ChatGPT 的生图在对话框里一步到位。DuMate 则需要经过 Skill 调用、Python 脚本执行、上游生图服务、云端存储，中间环节多，任何一层网络波动都可能让整个任务挂掉。

这是 Agent 架构的一个代价。能力更灵活，但链路更脆弱。好消息是，出图质量本身没问题，稳定性是工程优化的事，迭代可以解决。

最顺的一次三分钟出HTML 演示

做 HTML 格式的 PPT 是四个任务里最顺利的。上传一份 Markdown 格式的文档，DuMate 自动加载了 PPT 制作的 Skill（技能），选了一套叫“Neo Cyber”的深色科技风格，三分钟就交付了一套带动画效果和导航进度条的演示文稿。中间遇到文件路径问题，Agent 自己跑了一段检测脚本修复了，全程没让我插手。

这里顺便提一下 DuMate 的 Skill 体系：图片生成、PPT 制作、深度研究、百度搜索这些能力，都以 Skill 的形式内置，Agent 在执行任务时会自动判断该调用哪个，用户不需要手动指定。你甚至可以把自己的工作流沉淀成自定义 Skill 复用。

所以，现在值得试桌面 Agent 吗？

如果只看单次能力，它并不是每一项都赢。深度研究还不如成熟的研究型工具，图片生成链路也会受网络和服务状态影响。但 DuMate 的优势在于，它把搜索、浏览器操作、生图、PPT、文件处理这些能力串到了一起。对普通人来说，这比“某一个模型特别强”更容易转化成真实效率。

最后说说 DuMate 的价格。

DuMate 每次任务对话会消耗积分，免费版每天会赠送 1000 积分，Pro 首月 9.9 元，Max 首月 69.9 元。我四个任务大概用了 2000 多积分，轻度使用免费版基本够了。

这轮测试下来，我觉得 DuMate 最有价值的地方不是某个单点能力，而是它把很多原本复杂的步骤藏到了后台。安装不用开终端，操作不用改配置，出了问题 Agent 自己找替代方案。对于没碰过龙虾的用户来说，这可能是第一次感受到“AI 真的在替我干活”，而不是“AI 在跟我聊天”。

它当然还不完美。浏览器自动化碰上 MacOS 的系统安全&隐私保护的墙，深度调研也还在追赶成熟产品，生图链路偶尔抽风。但一天一更的节奏说明这个搭子确实每天都在变强。你现在读到这篇文章的时候，它大概率已经比我测试时又聪明了一截。

对大多数人来说，Agent 走进日常生活，靠的不是更强的底层模型，而是有人愿意把配环境、装依赖、调权限这些苦活，替你先干了。

如果你想试的不是“陪聊 AI”，而是一个真的会打开网页、整理资料、生成文件、跑完任务链的 AI，DuMate 值得装一次。

它虽然还不是一个完美、不会出错的 AI 同事，但已经成为一个非专业人士进入 Agent 世界的入口：不用写代码，不用配环境，先把一句话变成一串真实操作。

-果壳商业科技传播部出品-

The End

发布于2026-06-05，本文版权属于果壳网（guokr.com），禁止转载。如有需要，请联系果壳。

举报这篇文章

科学人