MK体育官网显贵辅助数据分析效率-MK体育- MK体育官方网站- MK SPORTS

发布日期:2025-08-15 17:26    点击次数:93

文|邓咏仪

编著|苏建勋

(鉴于 Manus 引起的炒作争议,36 氪非常声名,本文绝非投放,本色上,咱们连要到邀请码都颇费了一番曲折 ……)

应该无需赘述 Manus 的引起的震撼了:天下照旧在各式视频切片中,看到 Manus 勤悉力恳地搜尊府、作念 PPT、修复网页小游戏。回放神色的共享想象,让东谈主一眼就能感受到 Agent 带来的直不雅效率辅助,这也让 Manus 履历一场赶快破圈。

在障碍拿到邀请码后,36 氪编著部谈判了一下,为了更好地了解 Manus 的特点和功能,咱们决定请 Manus 来当实习生,按照泛泛的责任流给 ta 分拨任务,望望 Manus 能否胜任。

OK,输入邀请码,36 氪的新实习生 Manus 就位!

开端:Manus

先说第一不雅感,要是你要请这位"实习生",可能第一个需要接受的执行景色等于:这是位容易宕机的同学。

Manus 如今的奇迹相配不褂讪。36 氪在周末实测时,第一嗅觉等于:让东谈主崩溃 …… 任务频繁遇到停滞,因为 Manus 在云上的编造机跑,频繁需要手动重置,才能连续跑。

本期实测,等于在 Manus 不休的崩溃粗疏,测出来的。

测试的界面,老是停留在"联络已断开"、"遇到严重问题",需要不休重置 / 开启新会话 …

偶尔出现的幻觉(不祥情是幻觉照旧官方奉告)也很着实。Manus 前一句还在说需要两小时升级叹惜,你再敲敲它,它就立时又运转干活了 ……

捉摸不透的 Manus

Manus 堪称是"第一款通用型 Agents(智能体)",这意味着它不走垂直巨匠阶梯,上风在于更通用才气的任务。Manus 的官网就列出了多个分类:

Manus 官网 开端:Manus

Agents(智能体)不同于大模子,要是说大模子惟有一个对话窗口,完毕信息输入 - 输出。那么 Agents 就颠倒于让大模子有了行动才气,可以生动调用种种器具完成任务。

36 氪决定先从咱们编著部的日常使用场景开拔,以从易到难的程度枚举,请 Manus 都跑一遍。

请精明,以下场景均为一次性输出的驱散,除了任务半途崩溃重置规画机除外,36 氪莫得作念任何的访佛测试。

校对及整理

咱们先请 Manus 完成相比基础的校对、整理责任。

36 氪将此前的一份访谈灌音原文(约 2.8 万字)交由 Manus 进行整理,中枢条目是对灌音速记"一字一板整理,不要压缩",去除相应的口癖、对语义不清的部分进行校对。

在往常的操作中,起码要往来和模子交互十屡次:将灌音速记中的乌有进行东谈主工校对——再分段扔到模子中——输出完毕后,还需要再行投喂给模子进行校对,看是否有事实乌有。

但 Manus 很彰着将以往的多个尺度压缩到一个尺度,这种下达任务之后恭候验收的嗅觉,比和 ChatBot 交互体验,透顶是十倍以上的体验辅助。

开端:Manus

但 Manus 的劣势亦然彰着的:险峻文太短,幻觉依然有。好多复杂任务还莫得完成,就因为 Token 消耗太多而中止了任务。

在校对润色这一任务中,最终输出的文档长度大大压缩,基本只输出了访谈的临了一部分,统共 3800 多字,前边的部分基本丢失。但从已输出整理的部分来看,口吻、信息无缺性照旧算可以。

Manus 在推论长文任务

这粗略率是因为推理和配合机制作念得还不够好,模子只可提供一次性输出的驱散,导致压缩;也有可能是 Memory 机制还未能作念得很好—— Memory 可以看作是模子暂时存储信息的 " 仓库 ",比如聊天机器东谈主会记着你之前说过的话。

早前一些斟酌责任指出,memory 会跟着时期或任务尺度的增多而消退。而 Agent 所消耗的 Token,比起单 ChatBot 起码是两个数目级的辅助——一位 Agent 从业者对 36 氪臆测,Manus 的一个复杂任务的 Token 消耗臆测会有百万 Token 级别。Memory 的分层管束、压缩等时间难点,还有好多辅助空间。

新闻跟进及写稿

对一般的 ChatBot 来说,输出长度都是一个老浩劫—— 36 氪之前的测试体验中,要是是一个 128K 的模子,一般而言单次输出长度都在 1000-2000 字傍边,才能保证信息无缺性,不被大都压缩。

36 氪先让 Manus 完成最基本的新闻跟进责任。这包含几项才气:日常的新闻监控——看是否会筛选靠谱的信息源,再进行首要性分析判断,以及找相应的尊府,加以补充和跟进。

开端:Manus

Manus 运转进行学习模范 - 搜索关连新闻等等,然而在走访路透社时被考据码挡住了,央求东谈主类禁受。36 氪禁受后,发现 Manus 照旧被认证为机器,被屏蔽了。

开端:Manus

Manus 约消耗 9 分钟完成这个任务,输出 5 条最值得关注的 AI 新闻,新闻源都是靠谱巨擘的。临了,Manus 临了选拔了写斟酌我方的新闻 …… 哈哈。

Manus 写斟酌我方的新闻

Manus 的新闻文本输出照旧算是 70 分水平,翰墨清醒,主要信息点都能笼罩,但和参考的范本不同,当今的文本偏软,AI 味较重。

但在咱们提议修改意见后,第二版好了许多。

基本是可以隐微诊治调后,径直发表的水平

难度往上,咱们也在 Manus 也输入了一段 prompt,让 Manus 襄理径直以 36 氪的深度报谈栏目"深氪"为例,生成一篇长文:

这周"稚晖君"创立的智元机器东谈主预报要发新品。"稚晖君"原名彭志辉,请你搜索彭志辉以及智元机器东谈主的历史经过,用 36 氪的格调去写稿一篇著述,主题为回溯智元机器东谈主的历史,以及反馈这家公司的成长,在科技行业中的意旨,长度为 5000 字傍边,可参考深度报谈"深氪"栏标的格调。

请精明,语句需要长远浅出,庸俗东谈主都能看懂,不要堆砌专科术语。

Manus 自动进行了尊府聚积,写稿阶段径直进行分段写稿,再团结,顺利地完成了长文写稿,输出驱散:

写稿一篇斟酌智元机器东谈主的深度长文

在输出的著述中,Manus 在深度写稿上效果一般,更偏尊府型整理。但遣意造句也算及格,然而格调照旧偏软文。在高质地内容方面,Manus 的品尝还有待加强。

数据分析及可视化

斟酌型任务亦然 Manus 的强劲。

从性质上来讲,Manus 经受了多智能体架构。通俗来说,等于可将复杂任务拆解为子任务(如数据清洗、特征工程、模子磨练),通过不同的智能体,单干并行处理,显贵辅助数据分析效率。

不外,要是一致性作念不好,多智能体的局部决策可能导致全局驱散偏差较严重。

36 氪让 Manus 和 OpenAI 旗下的 Deep Research,都试着作念了一张"大模子 API 两年多以来的的 API 价钱走势表"。

OpenAI 旗下的 Deep Research 则是单智能体,端到端磨练的模式——仅一个中心化智能体负责系数任务,决策与推论集结化。但克己在于模块集成度高,易于管束,输出质地相比有保证。

开端:Manus

Manus 消耗的时期较长,约三个小时,生成了一个可以交互的网页。互动性和表格样式都颠倒可以。不外数据详细程度,和非凡作念斟酌的 Deep Research 仍有差距,但问题不大

开端:Deep Research

Deep Research 暂时还无法输出图表,但从输出的内容质地来看,是当今的 Manus 还没法赶上的。

创意型任务:可以作念,但审好意思有点难评

咱们也让 Manus 上了点难度。

第一个任务是效法行业大 V "影视飓风" Tim 真挚的格调,作念一期斟酌 Manus 关连的视频,长度在 5 分钟傍边。

Manus 用了约 45 分钟完成了这一任务,全程丝滑,依旧是发愤忘餐拆任务,先上油管学习影视飓风的视频,再征集尊府写剧本。

开端:Manus

临了产出的内容,神色严谨,是一个结构无缺的小科普视频——

开端:Manus

咱们求教了视频组的真挚,评价是:实习生水平,优点在于把责任流说显著了,分镜和镜头盘曲可以径直用作参考,但内容还不成径直用。

第二点是,视频剧本过于亢奋,全场充斥着"炸裂""颠覆"之感,对东谈主类的心扉意会相比名义,有点难绷。

节选一段,供天下参考:

第二部分:Manus 的中枢才气(1:10-2:20)

[ 场景:主办东谈主夸张地在电脑前反抗,被各式文献和任务包围 ]

主办东谈主:(夸张的恼恨心机,抓狂状)咱们都履历过这样的时刻——需要整理大都数据、撰写阐述、分析市集趋势 ... 这些责任可能要消耗咱们几小时,甚而几天!而且还很容易出错!

[ 殊效:时钟快速旋转,日期页快速翻动 ]

主办东谈主:(瞬息快活,眼睛发亮)但有了 Manus,这一切都将改换!它就像给你复制了一个数字版的我方,但更智谋、更高效!

[ 分屏效果:四个窗口同期展示 Manus 的不同才气,每个窗口都有动态效果 ]

主办东谈主:(指向第一个窗口)Manus 的第一大中枢才气:自主完成复杂任务!

[ 窗口放大,展示 Manus 自动撰写阐述的加快经过,从聚积尊府到制品输出 ]

主办东谈主:(阐发,语速适中)你只需要告诉它你需要什么,然后 ...(打响指,配合音效)它会我方贪图、搜索信息、整理数据、撰写内容,最终委用一份无缺的效率!就像有了一个永不困乏的助手!

[ 殊效:第二个窗口放大,伴跟着转场音效 ]

主办东谈主:(暖热飘溢)第二大中枢才气:多规模通用才气!岂论是金融分析、讲授内容创作、旅行贪图,照旧代码修复,Manus 都能胜任!

[ 快速编著展示 Manus 处理不同规模任务的画面,每个场景都有对应的图标和翰墨标签 ]

主办东谈主:(夸张的惊诧心机,手势丰富)这就像同期领有了一个金融分析师、一个内容创作家、一个旅行参谋人和一个尺度员!而且,它们都是 24 小时待命的!不需要休息,不会喊累!

[ 殊效:第三个窗口放大,伴跟着科技感音效 ]

主办东谈主:(玄机口吻,略略缩短音量)第三大中枢才气:多模子配合机制!这个有点专科,但相配酷!

[ 动画展示多个 AI 模子协同责任的见地图,类似于团队配合的可视化 ]

主办东谈主:(阐发,配捏势)Manus 不是依靠单一大模子,而是经受 " 多重签名 " 机制,由多个沉静 AI 模子共同驱动!就像一个高效的团队,每个成员负责不同的任务,相互配合,确保驱散的可靠性和准确性!

36 氪还让 Manus 试着作念了一个偏分析型的创意责任——对咱们的微信公众号版式和想象分析后,进行更正。

为了更明确想象需求,咱们也给 Manus 提供了一份想象案例,以及咱们觉得格调隆起、审好意思优秀的数个公众号,算作参考。

开端:Manus

Manus 依旧很快就对任务进行拆解,固然临了任务莫得讲求完成,但照旧输出了一套无缺的决策给咱们。

除了咱们建议的尺度(分析好版式的共性、联网搜索相比优秀的公众号想象实践,提议建议),Manus 还我方贪图了更多尺度,也作念了更精细的分类,包括分析 36 氪公众号,分为想象元素、板式布局、视觉钞票、配色决策等等。

不外从驱散可以看出,Manus 在审好意思这件事上 …… 并不擅长。就配色来说,Manus 给出了一个放之四海而王人准的决策,分为春夏秋冬四个季节,配色饱和渡过高,审好意思可以说约等于莫得。

开端:Manus

字体亦然分为多个版块,并不长入。

开端:Manus

Manus 的输出依然相配依赖于公网数据的质地。

在 Manus 学习排版、想象关连学问时,大开了不少知乎网页。但 Manus 很难绕过登陆驱散,然后就会转战到其他公开网页。更无须提如同沉静王国雷同的各大 App ——比如微信公众号内的数据,爬虫器具也很难透顶涉及。

被知乎登陆窗口卡住屡次的 Manus

可能这需要期待以后模子间的接口进一步买通,包括端侧 Agent 跨平台等才气的弘扬,才能让 Agent 输出质地有质的辅助。

临了,咱们试着让 Manus 使用高推理模式,生成一个 Jellycat 主题的吃豆东谈主游戏,Manus 消耗约 45 分钟时期完成。

开端:Manus

吃豆东谈主网页游戏

可以看到,代码和游戏运转界面都照旧颠倒无缺,但临了到了"运转游戏"这一重要,音效都能听到,但无法点击运转游戏。尔后,对话因为险峻死不改过长,住手响应了。

转头

在测试经过中,36 氪最大的感触在于,前端交互相配丝滑,有一种淘气的好意思感——从插足 Manus 官网到本色对话,Manus 都在营造一种"对面的确是个活东谈主"的嗅觉。

尤其是在对话窗口操纵,可以大开一个名为" Manus 的电脑"的小窗口,及时知道 Manus 正在操作什么,的确像云尔看着一位实习生同学,帮你完成任务。

你可以随时拖动进程条,稽查 Manus 正在进行的任务。对照旧完成的尺度,Manus 都会提供类似网页快照的界面,让你对任务弘扬有彰着感知。

Manus 正在通过百度百科学习智元机器东谈主关连布景尊府

另一个体验优秀的方位在于,Manus 对器具的调用奏效率算是相比高的。在不遇到崩溃、宕机的情况下,要是测试 10 个任务,粗略能有 8 个自动完成任务,无需东谈主类介入。

这能大大辅助用户体验——在往常,好多 agent 调用外部器具的奏效率都在 60% 以下,体验欠安,难以眩惑到更多的用户。

市集盛大觉得,Manus 团队对种种通用任务都先置入了不少 CoA(代理链)模版,笼罩广宽通用任务(写稿、数据分析、攻略等洞开式问题)等等,这些责任显贵提高了任务奏效率。

这种机制,类似在 DeepSeek 对话中不休蹦出来的念念维链,用户可以看到,Manus 是如何样一个接一个调用外部器具的。

Manus 的纠错才气也很强。

36 氪屡次发现,Manus 在职务进行经过中会遇到乌有。但 Manus 会尝试不同的处置决策,直至没法处置,才会向东谈主类报错,让东谈主类介入到问题处置中。

开端:Manus

开端:Manus

用户还可以随时打断 Manus,我方来完成某些尺度。

在" Manus 的电脑"窗口右下角,有一个"禁受"按钮。一朝任务进行得分手,东谈主类可以径直打断进程,我方插足到这部"云上电脑"进行操作。

不外可能是规画资源不够,36 氪在操作 Manus 的电脑时,卡顿严重,只可免强进行操作。

Manus 的电脑

这样的神色自然更合适东谈主类责任的交互神色——只消使用一次,模子尽可能地自行纠错,减少东谈主类参与的次数。

转头一句话:分析转头、数据分析、洞开性问题等需要强逻辑性的任务,是 Manus 最擅长的部分。最不擅长的是创意责任,审好意思基本等于莫得。

不外,受限于当今的奇迹褂讪性和险峻文窗口,Manus 完成任务的逻辑和经过很好,但委用质地只可说在中等水平,包括数据、文本等,都需要东谈主类进行二次校对。但从完成任务的时期和质地来说,照旧算是很可以的同学。

岂论是对文本、图像、视频等关连内容,Manus 调用大模子只可效法到内容的框架,就像一层皮——但内容质地照旧需要东谈主类强把关。

从周末的争议中再次回看 Manus,36 氪频繁想起的,是 2009 年的电影《阿凡达》上映之时。那时的阿凡达,是殊效电影的集大成者,一个最首要的意旨在于,让全球不雅众都视力到:顶尖的电影工业水平是这样的。

如今的 Manus,尽管还处于相比鄙俗的花式。但至少在居品层面,和岁首爆火的 DeepSeek 有一个共通点:用时间平权的妙技,将 AI 居品赶快拉到民众眼前,而不是停留在小圈子中狂欢。

Manus 集成了当今编程修复才气最强的 Claude,况且受到许多最新时间效率如 CodeAct 的启发。比起 OpenAI Operator 或者 Devin 高达数百好意思金的订价,Manus 的本钱价约莫在 2 好意思元傍边。

而且,Manus 通用任务的体验照旧弥漫丝滑,这让普罗民众都能感受到:" AI 果然还能这样玩",以及着实感受到 AI 对东谈主类带来的苍劲遵循。

这亦然现阶段MK体育官网,AI 居品在能为市集孝顺的的最大价值。





Powered by MK体育- MK体育官方网站- MK SPORTS @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024