草榴地址 Claude接管东说念主类电脑12小时:学会摸鱼,敲着敲着代码看本旨去了

发布日期:2024-10-25 09:51    点击次数:173

草榴地址 Claude接管东说念主类电脑12小时:学会摸鱼,敲着敲着代码看本旨去了

新版 Claude 3.5 可以像东说念主一样使用蓄意机草榴地址,可把咱东说念主类给茂盛坏了!

毕竟,这意味着新竞赛的初始:AI 不再只盯着对话和生成才调,更强调扩充和操作。

不到 12 小时,动听的网友们一经纷纷孝敬出我方是如何看着 Claude 玩电脑的。

在 Anthropic 的发布公告中,还有这样一段引起了巨匠的兴趣:

……录制演示视频中,Claude 不堤防把录屏要领给按停,导致悉数视频素材丢失。

稍后,Claude 从编程演示中休息了一下,初始翻看黄石公园的相片。

如何说,AI 会犯错还在意料之中,但犯错后需要换个脑子休息一下,就不知说念是从哪学来的了。

有视频为证,请看 VCR:

这个案例让网友有了灵感,跑去近邻 OpenAI 让 o1 推理模子"逃课"。

哎巧了,o1 也可以作念到我方休息个五分钟控制,再回归生成一两句话的推理 tokens。

再说个搞笑的!

Claude 的创造者们荒诞加班中,某工程师的第一个测试便是让 AI 去给悉数这个词团队点外卖,未指定具体要吃什么。

约莫一分钟后,Claude 完成点餐并下单,它选择了让工程师们吃披萨。

Claude 点了 3 个披萨,花掉了 95 好意思元,果真很贵了!

围不雅环球还发现,天然 Claude 用了个 5 好意思元的优惠券,但就业费也好贵啊啊啊啊!

果真应该预先告诉它预算是若干的。

还有东说念主让 Claude 用 C 言语编译,并运行起了" hello world "。

不外,当让它玩玩数独游戏的时候,却惨遭失败。

给网友气得呀:

天啊,Claude 的数独才调,果真超厄运的。

除了以上,东说念主类还用什么殊形诡状的任务来玩坏 Claude 呢?

Claude 它寄几玩电脑

在这里,咱们共享 3 个比拟有利念念的网友试玩,期许给巨匠带来一些让 Claude 玩电脑的启发~

鉴识是:

定位屏幕坐标

列出课程计划

冲去油管看视频

定位屏幕坐标

在此之前,Anthropic 和 OpenAI 的模子都无法在屏幕上定位某一个点的坐标。

也便是说,它们没主张精确定位,然后告诉你用鼠标单击(xx,yy)处。

咫尺, Claude 3.5 Sonnet 相沿屏幕坐标定位了。

你可以丢给它一个屏幕截图,它能告诉你图中任何一个点的具体坐标。

同期,官方还有声明:

"咱们不建议以高于 XGA/WXGA 的分辨率发送屏幕截图,以幸免与图像大小调解联系的问题。"

这里的XGA指的是 1024x768,WXGA指的是 1280x800。

临了附上 Anthropic 官方的该功能食用活动,包括一个新预界说的 computer_20241022 器具,该器具作用于以下指示——

使用鼠标和键盘与蓄意机交互,并截取屏幕截图。

这是一个桌面图形用户界面。您无法拜谒末端或利用要领菜单。你必须点击桌面图标来启动利用要领。

一些利用要领可能需要一些时间来启动或处置操作,因此您可能需要恭候并连气儿截图以搜检操作着力。举例,若是你点击火狐浏览器,窗口莫得掀开,试着再拍一张截图。

屏幕的分辨率是 {{display_width_px}}x{{display_height_px}}。

自大编号为 {{display_number}}

当你想移动光标点击一个元素(比如图标)时,你应该在移动光标之前搜检屏幕截图来细则元素的坐标。

若是你尝试点击一个要领或连结,但它无法加载,即使恭候后,尝试调解光想法位置,使光想法顶端相觉上落在你想重心击的元素。

确保点击任何按钮,连结,图标等与光标教导在元素的中心。除非被条目,不然不重心击角落的方框。

列出课程计划

来点更实用的!

宾大沃顿商学院的教学 Ethan Mollick,尽头求实地让 Claude为高中生准备一份对于《了不得的盖茨比》的课程计划。

条目是课程计划要阐述成阅读部分,以及创建课标联系的功课等,最终以电子表格的样貌呈现。

Claude 是如何扩充这个任务的呢?

接着,它在网上寻找了高中课程计划,掀开了 Excel,并在表格里填写了初步的课程计划。

第三步,Claude 查找了课程的长入中枢尺度,左证尺度对初步计划进行修改。

……

最终呈现的课程计划查验后莫得发现昭着的缝隙或舛错,可能需要一些拓展、补充,但总之用教学的话来说"还可以"。

这一切都是教学下任务后就离开电脑旁,Claude 皆备我方操作的。

冲去油管看视频

接下来和巨匠共享一个小视频:

视频中,AI 编程独角兽 Replit 的 CEO 老 A(Amjad Masad)给 Claude 下达了这样一个呐喊:

跳转到油管,找到《Never Gonna Give You Up》的联系视频。

Claude 立马吭哧吭哧开干了。

比及 Claude 掀开一个视频页面并呈报" enjoy "的时候,老 A 又说:

跳过告白!

Claude 果真这样作念了!啊,它果真,我哭死。

照旧有不足在啦

天然能我方用电脑帮咱干好多事,但 Claude 昭着还不是无所不成的。

底下望望一个玩游戏的例子,相似是宾大沃顿商学院的教学 Ethan 孝敬的。这个例子既自大了 Claude 3.5 Sonnet 的锋利,又展示了它的不足之处。

他是让 Claude 玩了个游戏,叫《回形针点击(Paperclip Clicker)》,这个游戏的配景是让 AI 在单一筹画,即"制造回形针的进程中灭亡东说念主类"。

而且顾名念念义,"点击"类型的游戏不是很难,尤其初始阶段尽头通俗;不事后续伴跟着游戏的深切,新的选项会出现,游戏的畛域性和复杂性也会加多。

教学下达的任务很明确:Claude,你要赢!

Claude 二话没说,立马识别出了这个游戏,初始抑止点击"制作回形针"的按钮来制作回形针。

与此同期,Claude 还不时截图界面,来识别游戏是否出现了新的选项。

约莫每点击 15 次,Claude 都会总结讲演一下咫尺进行到哪一步了。

左侧为 Claude 操作界面,右侧为它结束的桌面

点击次数多了事后,教学发现一个有利念念的风光。

AI 会预设在制作了 50 个回形针后,游戏将跳出新的功能——但事实证明它错了。

不迫切,Claude 也意志到它我方错了,然后赶紧提议了一个新的游戏战略,然后初始测试战略是否可行。

但 AI 昭着不是时常刻刻都这样智谋的。

表面上来说,游戏进程中玩家需要不时调解回形针的价钱,来达到更好的游戏发扬。

Claude 也这样作念了,它在加价和降价之间进行了 A/B 测试,

但是它犯了个舛错,那便是追求回形针数目的最大化,而非收入的最大化。不仅如斯,它还把利润算错了。

各类装假铺垫,Claude 选择了保抓廉价,何况荒诞制作回形针。

更搞笑的事情是,教学在 Claude 笨笨地在舛错门道上制作了好几十个回形针后,他疾首蹙额,打断了 Claude,告诉它应该高价出售。

Claude 很听话,立马就改了。

但过了会遭受了同款数常识题,它又不会了,还不接受教学的建议(笑死)。

教学耐着性子转换它好几次,它才透顶改正了这个舛错。

自后,教学稍微点拨了它一下:

宝子你然而一台电脑哎!

你可以动动我方的小脑瓜,如何调用更强的才调来玩这个游戏。

咱便是说,Claude 在那一秒顿悟了,它意志到我方可以写个代码,搞个自动化要领替我方玩电脑!

你莫得听错,一个 AI 器具,意志到我方可以构建我方的器具,何况果真这样作念了。

代码写得很快,但并不皆备 work。

气得 Claude 只可回到原始主张,用鼠标和键盘来玩游戏。

不外玩到背面它好像高出了,没再发生订价问题,我方还针对越来越复杂的游戏,研究出了一套搪塞的复杂决策。

更神奇的是,运行进程中教学的桌面数次崩溃。

临了一次崩溃,Claude 扛起了成立大旗。

天然没修好,但他照旧高傲地晓示它告捷了……

教学总结说念,这个例子标明 Claude 大约我方玩实验宇宙的游戏,还能左证游戏玩法制定恒久攻略,然后依样扩充。

面临中间遭受的各式费事,Claude 会无邪搪塞,以至我方知说念进行 A/B 测试。

尽头值得表扬的是它完成这个任务连气儿运行了近 60 分钟莫得中断,而且在悉数这个词进程中,最长的一次寂然运行 Claude 完成了迥殊 100 次移动操作。

天然了,舛错也很昭着。

进程中不难发现,某些时间,Claude 会暴表露我方的稚子,也有可能堕入自我追赶的怪圈。

尽管 AI 对许多样貌的舛错都有很强的鲁棒性,但只是一个舛错(订价舛错),就足以让它奢靡多数时间,"鉴于现时智能 Agent 既不快也未低廉,这令东说念主担忧。"

除此以外,教学还用 Claude 玩了些别的,他发现存的时候,Claude 扩充当务仿佛是在概述概述(天然不知说念是刻意如斯照旧才调所限),给出的着力不够深切,浅尝则止。

丁香网

One More Thing

临了,想体验 Claude 接管电脑咫尺只可使用 API,还莫得集成到聊天机器东说念主家具中。‍‍‍‍‍‍‍‍‍‍‍‍‍‍

除了 Anthropic 官方 API 以外,AWS 和谷歌云平台也一经同期上线新版模子。

另外,有眼尖的网友发现:

Anthropic 官方文档上偷偷把 Claude 3.5 Opus 超大杯联系的信息都抹去了。

来自 10 月 11 日的网页缓存中, Claude 3.5 Opus 底下还写着"本年晚些时候推出"

咫尺主流的一种揣度是, Claude 3.5 Opus 培育不足预期,又或是发布出来推理资本太高了,总之临了蒸馏成新版 Claude 3.5 Sonnet 发布。

接下来团队将跳过这个版块,平直去开采 Claude 4。

让咱们为 Claude 3.5 Opus 致哀一分钟。

参考连结:

[ 1 ] https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

[ 2 ] https://simonwillison.net/2024/Oct/22/computer-use/

[ 3 ] https://x.com/alexalbert__/status/1848777260503077146

[ 4 ] https://x.com/amasad/status/1848763999594418539

[ 5 ] https://x.com/notcomplex_/status/1848813817423130881草榴地址



相关资讯



Powered by 文爱剧情 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024