当 AI 不再受限于单一提示,而是能像东说念主类般操作软件、跨系统处理复杂任务,由 Computer Use 技巧激勉的变革正重塑数字化作事将来。有名风投 a16z 指出,这一技巧是 AI Agent 落地的重要突破,破裂传统 AI 依赖 API 的局限,可竣工端到端工作流自动化,更斗胆揣摸将来 18 个月内,具备该才略的 AI Agent 效能将超东说念主类,成为能寥寂处理多范畴专科任务的 “数字共事”。本文将从技巧实质、落地挑战、架构理会与发展预期,拆解其怎样破裂 AI 应用瓶颈,为创业者和握住者揭示技巧革掷中的机遇与应付策略。
你有莫得想过,AI agent可能的确要变成你的数字共事了?不是那种只可恢复问题的聊天机器东说念主,也不是局限在某个特定软件里的自动化器具,而是简略像东说念主类职工一样,在你的电脑上盛开各样软件、处理复杂任务、以至惩办突提问题的真确智能助手。最近,a16z的联合东说念主们发布了一篇深度分析著作,系统梳理了Computer Use(打算机使用)技巧的发展近况和将来出路。他们觉得,这项技巧正在将AI agent从想法推向现实,让AI真确具备了处理端到端数字工作流的才略。
看完他们的分析后,我堕入了深度念念考。已往几年,咱们见证了太多AI器具的出现,但大多数王人有明显的局限性——要么只可处理特定类型的任务,要么需要东说念主工进行无数设立和监督。而Computer Use技巧的出现,可能的确代表了一个鼎新点。它让AI agent简略像东说念主类一样使用电脑,点击界面、填写表单、在不同软件之间切换,这意味着AI第一次具备了处理现实全国中那些复杂、多要领工作过程的才略。这不单是是技巧跳跃,更可能是企业数字化作事样式的根人道变革。
Computer Use为什么是AI Agent的重要突破a16z的联合东说念主们在著作中忽视了一个中枢不雅点:Computer Use是竣工真确AI agent的重要使能技巧。他们觉得,AI agent的灵验性取决于两个身分:简略看望的器具数目,以及跨器具推理的才略。而Computer Use技巧在这两个方面王人带来了普遍提高,让AI agent获取了使用任何软件的广度,以及将多个操作串联成完好工作过程的智能。
我深度念念考后发现,这个不雅点揭示了已往AI应用的一个根人道截止。传统的AI器具时常依赖API接口或预界说的工作过程,这就像给AI建造了一个个孤岛,每个器具只可在我方的小圈子里阐明作用。即使是起初进的AI助手,也往往因为无法看望某个软件的API,或者某个legacy system(传统系统)莫得当代化的接口,而无法完成看似粗陋的任务。
但Computer Use改变了游戏章程。它让AI agent简略像东说念主类用户一样与任何软件交互——通过点击按钮、填写表单、上传文献、以至处理那些老旧的企业软件。这种才略的价值不仅在于扩大了AI不错使用的器具范围,更重要的是它摈斥了数字化进程不一致带来的喧阗。想想看,一个销售过程可能波及CRM系统、邮件客户端、文档处理软件、里面审批系统,以至一些只消图形界面的老旧器具。已往,AI无法处理这么的端到端过程,因为总有某个关节败落API援救。
我觉得a16z联合东说念主们提到的”器具可看望性和推理才略的乘法效应”特别值得深念念。当AI agent简略看望更多器具,同期变得更善于使用这些器具时,它们简略处理的工作过程的范围和复杂性会呈指数级增长。这不是粗陋的1+1=2的相关,而是可能出现emergent capabilities(流露才略)的情况。比如,一个简略操作浏览器、邮件和CRM的AI agent,可能会自主探索出新的工作行径,主动辘集和概括信息,以至发现东说念主类莫得强健到的工作过程优化契机。
关于创业公司来说,这种技巧突破意味着普遍的机遇。a16z指出,AI范畴最主要的生意契机一直是自动化工作和获取劳能源支拨。Computer Use代表了迄今为止在复制东说念主类作事才略方面最重要的进展。已往,那些败落API看望或API功能受限的软件器具组成了普遍的喧阗,特别是许多企业中枢使用的legacy software(传统软件),如Epic、SAP和Oracle。具备推理才略和图形用户界面导航才略的Computer Use agent灵验填补了这些空缺,竣工了端到端的工作自动化。
诚然Computer Use技巧出路弥远,但a16z的分析也指出了一个重要挑战:将这些agent大范畴部署到企业环境中并非易事。他们觉得,正确地将Computer Use垂直化,并协助企业收受这项技巧,将是创业公司的重要探索范畴。
这个不雅点让我猜度了企业软件的复杂现实。只是依靠通用软件试验的Computer Use agent,比如ChatGPT agent或Claude,不太可能开箱即用地导航复杂的企业软件环境。企业软件时常高度专科化且不直不雅,不同公司往往会以不同样式使用通常软件,实施定制化的视图、工作过程和数据模子。想想东说念主类职工在加入新公司或学习新软件时往往需要若干培训时刻,就能清爽这个挑战有多大。
我在与各样企业打交说念的过程中,深刻体会到了这种定制化的复杂进程。同样是SAP系统,不同公司的设立可能完满不同,业务过程、用户权限、界面布局王人有很大相反。即使是训导丰富的参谋人,也需要花时刻了解每个公司的具体实施样式。关于AI agent来说,这种情况下的凹凸文清爽变得至关重要。
a16z忽视了一个特别现实的问题:为Computer Use模子提供凹凸文是一个复杂的过程。连络的凹凸文可能包括书面阐发、入职培训视频、浏览器操作录制,或者在某些情况下压根莫得文档。怎样最好地向模子提供凹凸文也不是粗陋地在prompt伊始添加文本那么粗陋,因为需要磋议图形和时刻维度。在这种情况下,retrieval和RAG(检索增强生成)的类比是什么?
我觉得这个问题的复杂性还在于,AI agent不应该粗陋地效法现存的东说念主类工作样式。东说念主类的工作过程时常包含了各样息争和量度,有些要领可能是历史留传问题,有些可能是为了侧目系统截止而变成的变通行径。AI agent应该在多猛进程上顺从现存的工作过程,又应该在多猛进程上从压根上重新发明更优化的工作样式?这是一个需要仔细均衡的问题。
从生意契机角度看,我笃信那些简略掌持这些凹凸文化策略的创业公司将在为企业提供有才略的定制化agent方面领有明显上风。诚然最好实践仍在发展中,但高度专注的创业公司,而非模子提供商,更有可能惩办这些垂直和公司特定的挑战。这就像当年的SaaS翻新一样,通用平台提供了基础才略,但真确的价值时常来自那些深度清爽特定行业需求的专科化惩办决策。
Computer Use Agent的技巧架构深度理会a16z的技巧分析部分特别值得深入磋磨,因为它揭示了构建Computer Use agent的完好技巧栈。他们指出,Computer Use agent架构仍然是一个活跃的磋磨范畴,开发者仍在摸索如安在日益执意的模子和援助器具之间分拨工作。
从技巧架构图来看,通盘系统被分为几个重要档次。最表层是Interaction Frameworks(交互框架),为模子提供与用户界面或DOM结构化交互的器具。中间层是Models(模子)自身,四肢决策中枢,解释输入并发出号召。然后是Durable Execution & Orchestration(历久实践与编排)层,确保万古刻运行的多要领Computer Use工作过程不会中断。再底下是Browser Control Layers(浏览器限度层),提供向浏览器发出号召的抽象接口。最底层是Execution Environments(实践环境),为膨大agent会话提供云和桌面基础设施。
我特别样式他们对不同技巧旅途的分析。在模子层面,面前主要有两种行径:基于像素的模子和基于DOM/代码的LLM。基于像素的模子操作屏幕截图并生成鼠标或键盘操作,最近咱们看到中国的视觉agent(如UI-TARS、Qwen-VL)在OSWorld名次榜上攀升,开源模子如OpenCUA松开了与寥落CUA的差距。而基于DOM/代码的LLM处理结构化HTML、可看望性树或程小序本,产生聘用器级别的号召和推理轨迹。
从现实应用角度看,我发现市集反馈炫耀,在许厚情况下,仅基于DOM/代码的行径对大多数任务来说仍是迷漫好了,在许厚情况下比基于像素的行径具有更高的准确性和更低的延迟。这个发现很故真义,因为它示意了技巧发展的一个重要方针:有时候更复杂的技巧旅途并不一定带来更好的收尾,重要是要找到效能和成果的最好均衡点。
在实践环境方面,我看到了一个特别活跃的生态系统正在变成。Anchor Browser、Browserbase、Steel、Hyperbrowser和Kernel部署浏览器实例集群,提供可不雅测性和重放功能;Scrapybara通过API提供完好的Ubuntu或Windows桌面,将GUI操作与shell号召羼杂;CUA作风的沙盒模拟最终用户设备,用于培训和评估。这种基础设施的各样化发展,阐发了通盘Computer Use生态系统的老练度正在快速提高。
我觉得这个技巧栈的遐想玄学很值得念念考。它不是粗陋地试图用一个普遍的模子惩办统统问题,而是将不同的工作分拨给不同的专科化组件。这种模块化的行径不仅提高了系统的可靠性和可保养性,也为创业公司提供了多个潜在的切入点。有些公司不错专注于改良interaction frameworks,有些不错专注于优化execution environments,还有些不错专注于开发更好的orchestration器具。
面前截止与将来18个月的发展预期尽管Computer Use技巧进展赶紧,但a16z也坦诚地指出了面前agent的显赫局限性:在才略方面仍然难以处理复杂或不熟悉的界面,在效能方面操作速渡过慢且老本过高,无法灵验地与东说念主类操作员竞争。
我深度念念考这些截止后发现,它们现实上反应了AI从实验室走向现实应用时局必面对的现实挑战。才略截止主要体当今,当AI agent遭遇从未见过的界面布局或者需要处理特殊情况时,时常会变得困惑或作念出诞妄决策。这就像一个新职工,即使接纳了培训,在面对有时情况时仍然可能兄弟无措。
效能截止则更径直地相关到生意可行性。淌若一个AI agent完成一个任务需要10分钟,而东说念主类只需要2分钟,那么除非AI agent的老本迷漫低,不然企业莫得根由聘用它。更重要的是,在好多业务场景中,速率等于价值。比如在金融交往、客户服务或者窒碍响应场景中,延迟可能径直升沉为经济失掉或用户体验的下落。
但a16z对将来6到18个月的发展预期给了我很大信心。在才略提高方面,他们觉得主要波及提高agent在新颖或复杂界面上的灵验性。在应用层面,这不错通过截止agent的操作范畴并在推理时提供特定任务的凹凸文或示例来竣工。从模子开发角度,这需要扩大试验数据集和试验运行——主要通过在安全副本/沙盒中应用监督微吞并来自合成交互轨迹的强化学习,并通过simulation-driven curricula(模拟驱动课程)和膨大、更具代表性的benchmarks(基准测试)来拓宽试验散布。
效能提高方面的策略也很具体:压缩或蒸馏vision-language models(视觉话语模子),应用量化技巧,缓存界面元素图以仅重新处理改换的区域,将键盘输入或点击等惯例操作交付给更粗陋的基于章程的限度器,以及尽可能使用显式器具调用(如MCP server调用)。
我觉得这些改善策略的现实性很高,因为它们王人基于面前技巧发展的当然蔓延,而不是需要突破性创新。特别是效能提高方面,好多策略仍是在其他AI应用范畴得到了考据,当今是将这些老练技巧应用到Computer Use场景中的问题。
Agentic Coworkers:数字化作事的将来方法a16z在著作的终末部分描摹了一个令东说念主怡悦的将来愿景:真确的agentic coworkers(智能体共事)。他们觉得,一朝惩办了才略和效能问题,这些agent将在专科化业务功能中发达出色,以至可能通过实施工作调优以闲暇特定公司的需求。
这个愿景让我想起了已往几十年企业组织架构的演变。从金字塔式的层级握住,到扁平化的团队配合,再到当今的辛苦工作和天真用工,技巧一直在重塑着咱们的工作样式。而agentic coworkers可能代表了这种演变的下一个阶段:数字化劳能源和东说念主类劳能源的深度会通。
a16z提供的具体场景很有启发性。比如,专注于营销的agent,经过遐想器具、告白平台和营销自动化软件的调优,不错自主遐想和优化通盘营销行径。这么的agent可能处理受众细分、创意告白生成、A/B测试、预算优化、行径监控和深度申诉。我想象这种agent不单是实践预界说的任务,还简略笔据实时数据调遣策略,发现新的契机,以至忽视创新的营销行径。
财务方面的agent同样令东说念主期待。经过司帐软件、财务握住系统、支付处理平台、电子表格应用法度和用度握住器具调优的agent,可能自主处同意务对账、诈骗检测、预算编制、发票处理和生成相宜法例的财务申诉等任务。这不仅会减少东说念主为诞妄,还会提高财务准确性和实时性。
销售agent的后劲可能是最径直的。经过CRM系统、销售谍报平台、疏浚和外联器具以及销售分析软件调优的agent,不错自主识别高后劲潜在客户、实践个性化外联、安排会议、分析销售通话灌音以获取可操作的见地,并实时更新CRM数据,从而提高销售出产力和管说念速率。
我觉得这些专科化agent最有价值的场所在于,它们简略将垂直专科才略与横向通用才略相荟萃。a16z提到,这些agent将简略看望往往的横向才略,如辘集搜索、邮件握住、通过Slack进行里面疏浚、通过Google Drive处理文档,以及通过Notion进行内容组织。它们还简略处理更多定制和legacy操作,与提供有限API看望的系统集成,这恰是Computer Use特别有用的场所。
这种整合带来了两个重要上风。第一,agent通过更多凹凸文在工作中变得更灵验。它们不错寥寂辘集和概括里面和外部信息,增强任求实践。举例,草拟冷邮件的销售agent不错无缝地从Google Drive中纳入最新的产物门道图。第二,这种器具的全面整合简化了部署和实施。Agent当然地融入现存的工作过程和器具集,无需专门的界面或像传统软件那样的寥寂平台,这减少了摩擦。
我以至不错想象agent群体在不久的将来协同工作,通过现存的记载系统和疏浚渠说念与彼此以及东说念主类共事保持同步。这种配合可能会产生咱们当今难以意想的新工作模式和效能提高。
我对数字化作事变革的深度念念考读完a16z这篇深度分析后,我的念念考远远超出了技巧自身。Computer Use和agentic coworkers的出现,可能标记着咱们正在资格东说念主类历史上第三次要紧的作事翻新。第一次是工业翻新,机器取代了东说念主类的膂力作事;第二次是信息翻新,打算机援助了东说念主类的脑力作事;而当今咱们可能正在迎来智能翻新,AI开动简略寥寂承担复杂的知道工作。
我特别样式这种变革对企业组织结构的深入影响。传统的企业组织基于东说念主类的知道截止和疏浚老本而遐想。一个东说念主只可同期处理有限的信息和任务,是以咱们需要层级握住、部门单干、会议谐和等机制。但当咱们有了简略24/7工作、处理无数信息、在不同系统间无缝切换的agentic coworkers时,这些组织旨趣可能需要根人道的重新念念考。
从东说念主才策略角度看,企业可能需要从”雇佣职工”转向”编排智能体”。这不是粗陋的东说念主员替换,而是重新界说工作过程、重新分拨东说念主机职责、重新遐想激励机制。东说念主类职工的价值可能更多体当今策略念念考、创意创新、复杂疏浚和特殊处理等方面,而routine work(日常工作)越来越多地由agent承担。
我也念念考了这种变革的社会影响。一方面,agentic coworkers的普及可能会显赫提高出产力,镌汰许多服务的老本,让中小企业也能享受到已往只消大企业才略包袱的智能化器具。另一方面,它也可能加重作事市集的分化,那些简略与AI配合的东说念主才会变得更有价值,而那些主要从事可自动化工作的东说念主可能面对挑战。
从技巧发展的角度,我觉得Computer Use技巧的老练还会催生一系列新的产业。就像移动互联网催生了App Store生态一样,Computer Use可能会催生一个”Agent Store”生态,专门开发、分发和保养各样专科化的agentic coworkers。咱们可能会看到agent training specialists(智能体试验众人)、agent workflow designers(智能体工作流遐想师)、agent performance analysts(智能体性能分析师)等新作事的出现。
在数据安全和阴私方面,agentic coworkers的往往应用也带来了新的挑战。这些agent需要看望无数企业数据和系统,怎样确保它们不会清晰明锐信息、不会被坏心应用,将成为一个重要问题。企业可能需要拓荒全新的身份握住、看望限度和审计机制,专门针对AI agent而不单是是东说念主类用户。
我还审视到一个真义的paradox(悖论):Computer Use技巧让AI简略使用为东说念主类遐想的界面,但这可能只是一个过渡阶段。跟着AI agent变得普遍,咱们可能不再需要图形用户界面,而是转向更稳健AI的API-first的系统架构。这就像早期的汽车效法马车的遐想,但最终演化出了完满不同的方法。
终末,我觉得Computer Use技巧的发展也对熏陶系统忽视了新的条目。咱们需要培养简略与AI配合的新一代东说念主才,他们不仅要清爽技巧,还要具备遐想AI工作流、握住AI团队、惩办AI无法处理的复杂问题的才略。这可能需要熏陶内容和行径的根人道变革。
结语:变革仍是开动Computer Use技巧和agentic coworkers的发展,让我深刻感受到咱们正处在一个历史鼎新点上。就像a16z的联合东说念主们所说,挑战不再是讲授agent能否工作,而是塑造它们如安在确切企业环境中得到调优、凹凸文化和部署。
我笃信,那些简略掌持这种凹凸文化的创业公司将界说第一代agentic coworkers,并在此过程中为数字化作事怎样改变通盘行业设定法度。这不仅是一次技巧升级,更是一次社会和经济模式的深度重构。
变革仍是开动,问题不是它是否会发生,而是咱们怎样准备理财它。不管是创业者、投资者,如故企业握住者,王人需要厚爱念念考Computer Use技巧带来的机遇和挑战。那些简略提前布局、深度念念考、积极顺应的参与者,将在这场变革中获取普遍的先发上风。
最终,Computer Use技巧的真确价值不在于替代东说念主类,而在于目田东说念主类去作念更有创造性、更故真义的工作。当机器简略处理那些相通性、法度化的数字作事时,东说念主类就能专注于策略念念考、创新创造和复杂问题的惩办。这可能是咱们向着更智能、更高效、也更东说念主性化的工作将来迈出的重要一步。
本文由东说念主东说念主王人是产物司理作家【深念念圈】,微信公众号:【深念念圈】,原创/授权 发布于东说念主东说念主王人是产物司理,未经许可,不容转载。
题图由作家提供MK体育(中国)官方网站