最近半年, “龙虾”这个词你一定不陌生。
它和你平时用的那些聊天 AI 不一样:它不只是跟你对话,而是真的能看见你的电脑屏幕,替你操控浏览器、打开文件、跨应用执行任务。相当于你身边多了一个会操作电脑的助手。但这也有门槛,很多“龙虾”产品都要折腾终端命令行、配环境、搞代码,99% 的普通用户直接劝退。我当时就想,这玩意啥时候能跟APP一样直接装啊?
结果没多久,这个想法就实现了。
百度搭子 DuMate,虽然接近10 个 G 的安装包吞掉了我电脑不少硬盘空间,但它将这些复杂步骤,全部封装在一个App 里,比起从零搭龙虾的全套流程,这点代价不值一提。

安装只是第一步,重点还是要看它会不会干活。我用四个真实需求测了一圈:帮妹妹选笔记本电脑、做一份太空数据中心的深度调研、生成一张视频封面图、用 HTML 做一套演示文稿。下面是全部实测部分,当然还有一些翻车的小惊喜。
第一次测试它被系统拦住了,但没有停妹妹马上上大学,让我帮忙选一台笔记本。我给 DuMate 的指令是一整条任务链:先去小某书搜大学生笔记本推荐,筛选真实评测,找出点赞最高的三款。等我确认后,再去某宝查 618 到手价。

DuMate 操控浏览器需要装一个 Chrome 扩展,安装很顺畅,基本一键完成。然后事情就开始有意思了。它打开小某书,在搜索框输入关键词,发现搜索没有触发,于是自己点击了搜索图标。搜索结果出来后,它注意到页面有“真实评测”筛选标签,主动点击过滤。然后逐篇打开高赞笔记,提取产品型号、价格、好评和吐槽。

十几分钟后,它整理出三款产品推荐,附带处理器、内存、价格和用户口碑。任务跑到中途,DuMate 还会自动插入一段工作笔记
,回述已完成和待完成的步骤,标记遇到的异常,相当于边干活边自检,在长任务里很有用。

我最终选了一款机型,它切到某宝,然后 Mac 弹出提示:“已阻止 DuMate 修改 Mac 上的 App。”浏览器自动化被系统安全策略拦住了。

但 DuMate 没卡死。它判断浏览器走不通,迅速切到百度搜索查价格,最终交付了一份汇总:配置参数、618 到手价、优惠构成、购买建议。我手动去旗舰店核实,到手价 5609 元,基本准确。
虽然任务没有完全走通原始链路,但遇到系统拦截时自主绕路、最终交付可用结果,这一刻我比较明显地感觉到,它不是在“回答问题”,而是在尝试完成任务。跑分第一但真实体感没那么简单DuMate 目前同时登顶了两个 Agent 评测榜单:PinchBench 和 DeepResearch Bench。
PinchBench,可以理解为 Agent 龙虾产品的“高考”,测的是 AI 能不能把日历创建、文件处理、数据分析这类真实工作任务干完、干对、干得快。DuMate 拿了 93.3%,超过了 Anthropic(91.6%)和 OpenAI(89.0%)。另一个叫 DeepResearch Bench,专门测 AI 做深度调研的综合水平,搜信息、分析数据、写研究报告的全链路能力,DuMate 同样排在第一。
不过跑分和实际体感之间有时候会有落差。

我让 DuMate 调研“太空数据中心的可行性”,产出的文档对基本面梳理得比较清楚,核心优势、主要玩家都覆盖到了,作为快速了解一个陌生话题的起点是合格的。但对比我常用的 Gemini Deep Research,内容还偏提纲式,来源标注也有待补全。
当然两者不在同一个评测体系里竞争,各有各的长板。考虑到 DuMate 保持着一天一版的更新节奏,我装的是 1.0.42 版,这块后续迭代空间值得期待。
生图翻车几次后结果反而更好看图片生成是我反复测试次数最多的任务。我让 DuMate 做一张太空数据中心主题的视频封面图。
一开始,我给了两张参考图,但几次尝试都连续翻车了。Agent 先后切换了三个生图模型,都因为后端网络问题失败。同样的 prompt 和参考图给到 ChatGPT,不到两分钟就出了结果。

但当我去掉参考图、换成纯文字描述时,DuMate 大概六分钟交付了成品。有意思的是,跑到大概两分钟的时候,系统的超时保护机制差点要重启任务,但就在倒计时快到的那一刻,图片生成成功了。而且效果出乎意料地好:深蓝地球背景、发光的太空数据中心、卫星和文字排版都到位,科幻感甚至比 ChatGPT 的版本更强烈。

左:DuMate 生成的视频封面图
右:同样的 Prompt,ChatGPT 生成的封面图
至少这次结果里,DuMate 交出的图更符合我的预期,效果也明显优于 Gemini 的图片生成功能(NanoBanana),我个人认为和 ChatGPT 的生成质量旗鼓相当。
我后来也复盘了下,我认为问题出在工程链路上。ChatGPT 的生图在对话框里一步到位。DuMate 则需要经过 Skill 调用、Python 脚本执行、上游生图服务、云端存储,中间环节多,任何一层网络波动都可能让整个任务挂掉。
这是 Agent 架构的一个代价。能力更灵活,但链路更脆弱。好消息是,出图质量本身没问题,稳定性是工程优化的事,迭代可以解决。
最顺的一次三分钟出HTML 演示做 HTML 格式的 PPT 是四个任务里最顺利的。上传一份 Markdown 格式的文档,DuMate 自动加载了 PPT 制作的 Skill(技能),选了一套叫“Neo Cyber”的深色科技风格,三分钟就交付了一套带动画效果和导航进度条的演示文稿。中间遇到文件路径问题,Agent 自己跑了一段检测脚本修复了,全程没让我插手。

这里顺便提一下 DuMate 的 Skill 体系:图片生成、PPT 制作、深度研究、百度搜索这些能力,都以 Skill 的形式内置,Agent 在执行任务时会自动判断该调用哪个,用户不需要手动指定。你甚至可以把自己的工作流沉淀成自定义 Skill 复用。
所以,现在值得试桌面 Agent 吗?如果只看单次能力,它并不是每一项都赢。深度研究还不如成熟的研究型工具,图片生成链路也会受网络和服务状态影响。但 DuMate 的优势在于,它把搜索、浏览器操作、生图、PPT、文件处理这些能力串到了一起。对普通人来说,这比“某一个模型特别强”更容易转化成真实效率。
最后说说 DuMate 的价格。
DuMate 每次任务对话会消耗积分,免费版每天会赠送 1000 积分,Pro 首月 9.9 元,Max 首月 69.9 元。我四个任务大概用了 2000 多积分,轻度使用免费版基本够了。

这轮测试下来,我觉得 DuMate 最有价值的地方不是某个单点能力,而是它把很多原本复杂的步骤藏到了后台。安装不用开终端,操作不用改配置,出了问题 Agent 自己找替代方案。对于没碰过龙虾的用户来说,这可能是第一次感受到“AI 真的在替我干活”,而不是“AI 在跟我聊天”。
它当然还不完美。浏览器自动化碰上 MacOS 的系统安全&隐私保护的墙,深度调研也还在追赶成熟产品,生图链路偶尔抽风。但一天一更的节奏说明这个搭子确实每天都在变强。你现在读到这篇文章的时候,它大概率已经比我测试时又聪明了一截。
对大多数人来说,Agent 走进日常生活,靠的不是更强的底层模型,而是有人愿意把配环境、装依赖、调权限这些苦活,替你先干了。
如果你想试的不是“陪聊 AI”,而是一个真的会打开网页、整理资料、生成文件、跑完任务链的 AI,DuMate 值得装一次。
它虽然还不是一个完美、不会出错的 AI 同事,但已经成为一个非专业人士进入 Agent 世界的入口: 不用写代码,不用配环境,先把一句话变成一串真实操作。
-果壳商业科技传播部出品-
