※ 本文為 Knuckles 轉寄自 ptt.cc 更新時間: 2024-03-15 02:58:10
看板 Tech_Job
作者 標題 [新聞] 首個AI軟體工程師震撼矽谷!手握10塊IO
時間 Thu Mar 14 12:10:00 2024
https://www.qbitai.com/2024/03/127358.html
首个AI软件工程师震撼硅谷!手握10块IOI金牌,他们铁了心砸掉程序员饭碗 | 量子位 编程能力8倍于GPT4 ...
首個AI軟體工程師震撼矽谷!手握10塊IOI金牌,他們鐵了心砸掉程式設計師飯碗
克雷西2024-03-1310:43:03虓翩G量子位
程式能力8倍於GPT4
一覺醒來,程式設計師怕是真要失業了。
首個AI軟體工程師一亮相,直接引爆整個科技圈。只需一句指令,它可端到端地處理整個開
發專案。
在SWE-bench基準測試中,它無需人類幫助,可解決13.86%的問題。
相較之下,GPT-4只能處理1.74%的問題,且都需要人類提示告知處理哪些文件。
可以說,它遠遠超過了此前所有AI大模型。
從零建立網站、自主查找並修復Bug、甚至是訓練和微調自己的AI模型通通都不在話下~也可
為一些成熟的程式碼庫做貢獻。
就是一些不熟悉的技術,給它看一篇部落格文章。它也能立刻搞定。
例如用ControlNet,產生隱藏文字的圖像,Devin就是一點就通。
據介紹,它已經成功通過一家AI公司面試,並且在Upwork上完成了實際工作。
而這背後的公司Cognition,雖然是新創公司,但小而精悍。
在招募資訊中明晃寫著:我們有10個IOI金牌。
讓同行們直呼:喔莫,瘋了吧~
目前Devin尚未公測,不過已經有少數人拿到了資格,開始實測了一波…
首個AI軟體工程師亮相
Devin被介紹為世界首個完全自主的AI軟體工程師。
它在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策才能完成的複雜軟
體工程任務。
在這之中,進行到任何一步它都可以回調所有相關的上下文信息,保證整體邏輯性,並方便
隨時校正錯誤。
既然是端對端AI,軟體開發人員常用的工具,如shell、程式碼編輯器和瀏覽器等等,Devin
也都配備(沙盒運算環境中),主打一個全方位服務。
最終的Devin,讓人類只需要發號施令,其他什麼都不用做。
具體來看,其主要能力有以下六個:
1、端到端建置與部署程序
Devin可以幫我們解決的不只程式碼,還包括與之相關的整個工作流程。
例如,當我們需要設計一個網頁遊戲時,Devin不僅能產生網頁,還能直接完成服務端的部
署,然後直接發佈上線,省去了中間的人工操作。
只需要告訴Devin,我們想做一個個人網站,裡面運行一個Devin定製版的生命遊戲。
然後Devin表示自己會先搭建網站的基本架構,並詢問了有沒有更具體的需求。
在明確要求之後,Devin給了這樣一份任務清單:
建立React應用,安裝UI模組等依賴用React和UI模組建構前端環境部署伺服器並確保其在私
有IP下運行透過CDN向首頁添加p5.js庫在React中部署並驗證遊戲的功能和資源是否正確配
置
有IP下運行透過CDN向首頁添加p5.js庫在React中部署並驗證遊戲的功能和資源是否正確配
置
接著,Devin就會按照自己設計的這個清單開始寫程式碼,然後部署服務…
最終完成全部工作之後,一個即點即玩的遊戲連結就呈現在了我們面前。
2.自主查找並修復bug
不僅能一氣呵成完成開發部署,Devin的debug能力也是一流。
開發者給Devin一個GitHub鏈接,讓它先熟悉專案情況,然後一會兒要準備資料進行測試。
接著,Devin就會按部就班地編寫測試用的程式並準備好有關數據,然後執行。
接著,Devin就會按部就班地編寫測試用的程式並準備好有關數據,然後執行。
結果,在開發者已經發布的完整專案之中,Devin也真的找到了連開發者自己都沒有發現的
漏洞。
發現漏洞之後,Devin會回溯報錯出現的位置及對應的數據,然後分析原因並給出解決方案
。
最後經過調試,程式的bug被成功修復,完美通過了測試。
3.訓練和微調自己的AI模型
除了這些一般的程序或項目,作為一個全能型AI助手,Devin還有能力幫助人類訓練和微調
其他AI。
對於一些常見的模型(例如範例中的Llama),使用者只需要在promot中提及模型的名稱,D
evin就直接知道要訓練哪個模型。
而在這個範例中,微調的具體方法(QLoRA)是以GitHub連結的形式輸入給Devin的。
接到指令後,Devin還是像處理平常的程式一樣邊規劃邊執行,所需環境和依賴,還有模型
本體,都會自動下載安裝。
這些準備都完成之後,微調工作就會有條不紊地進行,而且其中的狀態可以即時監控。
4.修復開源函式庫
Devin的能力不僅在於開發者自己本身的項目,開源社群裡的,它也能hold住。
例如我們只需要把GitHub專案的issue連結丟給Devin,它就能立即完成所需的所有配置,並
自動收集上下文信息,然後開始解決問題。
當然,開源專案的功能請求(feature request)也沒問題,和修問題的流程一樣,自己搞
好配置,收集上下文,然後就開始編碼。
5.成熟的生產庫也能做貢獻
還沒完,業界成熟的生產庫,Devin也能給咱秀一把。
官方介紹,sympy Python代數系統中有一個對數計算的錯誤,就被Devin順利解決:
配置環境、重現bug,自行編碼修復、測試,再次一氣呵成。
△就是這個庫6.不熟的技術,現學現賣
最後,遇到自己不會的技能,Devin可以直接現學,並且迅速付諸應用。
把你新刷到的技術文章連結直接丟給Devin:
Hi Devin!我在這個部落格文章中(附網址)發現,可以產生帶有隱藏文字的圖像。文中提
到了一個腳本,你能配置它,然後為我真的產生一些圖片嗎?
Ps. 就是利用ControlNet來做這件事。
Devin接到請求後,首先詢問了更詳細的需求,然後開始閱讀部落格文章,並像平常一樣規
劃出了行動方案。
有了詳細的行動方案後,它立刻就在數分鐘內進行程式碼編寫和調試。
同樣的,在這裡遇到bug也不用驚慌,Devin同樣有能力直接進行修復。
同樣的,在這裡遇到bug也不用驚慌,Devin同樣有能力直接進行修復。
完成工具的搭建後,Devin也沒有勞煩人類自行配置使用,而是一氣呵成,最終生成了咱們
要的帶隱藏文字的圖像:
可以說表現相當令人驚艷。
而在具體測驗中,Devin取得的成績同樣亮眼。
在評估Devin的表現時,團隊並沒有使用常見的HumanEval,而是使用了更具挑戰性的SWE-be
nch。
這個資料集是由GitHub中的實際問題組成的,Devin不借助任何輔助,就取得了13.86%的最
高解決率。
而同樣在無輔助的條件下,GPT-4的問題解決率為零,此前的最佳水準是1.96%,加入輔助也
才4.8%。
公司人均一塊IOI金牌
如此炸天的新成果,背後卻是一家名不見經傳的新創公司。
但這種「名不見經傳」背後,實際上是一個10人員工的程式設計天才團隊,IOI金牌就有10
塊…人均一塊。
Devin背後公司名為Cognition AI,總部設在紐約和舊金山,定位是一家專注於推理的應用A
I實驗室。
此前這家公司一直秘密工作,兩個月前正式註冊成立。
目前團隊規模僅有10人,但共攬獲了10枚IOI金牌,創始成員均曾在Cursor、Scale AI、Lun
chclub、Modal、Google DeepMind、Waymo、Nuro等從事AI前沿工作。
據悉,Cognition AI由Scott Wu、Steven Hao、WaldenYan創立。
共同創辦人兼CEO Scott Wu,根據我們目前搜到的資料,Scott Wu曾就讀於哈佛大學,曾是
Lunchclub的共同創辦人兼CTO。
曾連續三年攬獲IOI金牌:
共同創辦人兼CTO Steven Hao,畢業於MIT電腦專業,之前曾在Scale AI、Jane Street、DE
Shaw、Quora工作。
也曾是IOI金牌得主:
共同創辦人兼CPO Walden,曾於哈佛大學攻讀電腦科學和經濟學相關專業,也曾從事MIT PR
IMES密碼學和機器學習方向的電腦科學研究,也是華頓商學院高中投資大賽北美地區決賽入
圍者。
IMES密碼學和機器學習方向的電腦科學研究,也是華頓商學院高中投資大賽北美地區決賽入
圍者。
2020年第32屆IOI金牌得主:
根據X推文的轉發順藤摸瓜,還有一位創始成員被扒手了。
Neal Wu,同樣有哈佛大學教育經歷,曾在tryramp、GoogleBrain工作。
整個團隊長期目標,意在透過解決推理問題,在廣泛的學科領域解鎖新的可能性,而「代碼
只是開始」。
不過對於Devin,目前他們尚未透露是如何實現這項壯舉的,包括到底是使用自己的專有模
型還是第三方模型。
此外,Cognition AI目前已獲得矽谷投資大佬彼得· 蒂爾的Founders Fund基金領投的2,100
萬美元A輪融資。
眾所周知,彼得蒂爾以挖掘這種極具突破性的創新計畫著稱,而哈佛背景的創業者更是和他
淵源緊密。
上一個他早期投資類似背景,最知名的是祖克柏和Facebook。
“自動化軟體工程與自動駕駛類似”
Devin一亮相,讓不少工程師大驚小怪:軟體工程師…要失業了???
不過也有人依然樂觀:終於有AI讓我們從繁重的程式設計任務中解脫出來。
前特斯拉AI總監卡帕西倒是給了一顆定心丸。
自動化軟體工程,目前看起來與自動化駕駛類似。
具體體現在發展過程:首先人類手動編寫程式碼,然後GitHub Copilot 自動完成幾行,再
之後ChatGPT 編寫程式碼區塊,現在就是Devin的出現。
接下來,他認為自動化軟體工程會演變成協調開發人員需要串連的許多工具一起編寫程式碼
:終端機、瀏覽器、程式碼編輯器等。以及人類負責監督,逐漸轉向更高層級工作。
結合卡帕西的經驗和對自動駕駛的理解,他表達的更多是一種漸進式推進,即會有一段時間
的人機共駕,然後在數據和迭代反饋後,才能實現完全無人駕駛。
自動化軟體也類似,先低程式碼,然後零程式碼,最後完全不需要人寫程式碼。
Perplexity AI CEO給了一個高度的肯定:這應該是任何Agent的第一個演示。
它似乎跨越了人類水平的門檻並且可靠地工作。它還告訴我們透過結合LLM 和樹搜尋演算法
可以實現什麼
德撲AI之父、前FAIR(Meta)研究科學家、現已加入OpenAI的Noam Brown轉發開麥:
2024年是AI激動人心的一年。
所以,程式設計師們做好被解放的準備了嗎?
參考連結:
[1]https://twitter.com/cognition_labs/status/1767548763134964000/quotes
[2]https://waldenyan.com/衞
Walden Yan
Web site created using create-react-app ...
Web site created using create-react-app ...
]https://twitter.com/Lauramaywendel/status/1767588416730894756
[5]https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-th
iel-backed -coding-assistant
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.82.84.19 (臺灣)
※ 作者: jackliao1990 2024-03-14 12:10:00
※ 文章代碼(AID): #1bydYVno (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1710389407.A.C72.html
→ : 這只是開始...1F 03/14 12:24
噓 : 13.86%是在2F 03/14 12:28
推 : 能處理硬體再叫我3F 03/14 12:44
推 : AI醫生更有用,全世界都很需要這4F 03/14 12:45
→ : 而且這個市場超大的
→ : 韓國算富國, 最近缺醫生缺成這樣
→ : 有哪個公司搞出這種系統,賺的比AI電動車還多
→ : 而且這個市場超大的
→ : 韓國算富國, 最近缺醫生缺成這樣
→ : 有哪個公司搞出這種系統,賺的比AI電動車還多
推 : 碼農大包全網炫耀GG8F 03/14 12:51
→ : 好喔,加油。9F 03/14 12:58
推 : 開藥的醫生大概可以取代,動手術的還沒辦法吧10F 03/14 12:58
推 : 還是ic設計穩,完全不怕搶飯碗11F 03/14 13:02
推 : ai掏金熱 大家快來圈錢12F 03/14 13:09
推 : 程式設計師某種意義上的確是在寫文章寫小說,最有可13F 03/14 13:12
→ : 能被AI取代
→ : 能被AI取代
推 : 我怎麼感覺豬屎很抖 之後給波型是不是可以不管desig15F 03/14 13:16
→ : n 了 先跑出一百個 挑面積小的
→ : n 了 先跑出一百個 挑面積小的
→ : 老闆13.86%耶 以後導入工程師都可以降13.86%的薪水17F 03/14 13:16
→ : XD..只能說真的是這塊的人都知道 這種真的難 絕對比
→ : AI寫小說難多了..既有的AGENT式的能透過AI讓產品更
→ : 有"彈性" 就已經稱的上是大躍進了...
→ : XD..只能說真的是這塊的人都知道 這種真的難 絕對比
→ : AI寫小說難多了..既有的AGENT式的能透過AI讓產品更
→ : 有"彈性" 就已經稱的上是大躍進了...
→ : Google裡面不知道有多少IOI金牌 數不清了吧21F 03/14 13:19
噓 : 這篇文章很臭22F 03/14 13:31
推 : 要先確定他的薪水比真人便宜耶23F 03/14 13:35
推 : 有錢人當然請專業醫生診斷開藥,但窮人可以找AI醫生24F 03/14 13:38
推 : 未來應該就會是這樣,既然是電腦語言AI一定更擅長25F 03/14 13:45
推 : 等AI工程師會通靈再報26F 03/14 13:46
噓 : 這篇也是ai寫的吧27F 03/14 13:50
推 : 蒸丸28F 03/14 13:50
推 : 一大堆程式設計師罷工 對國家沒啥影響力29F 03/14 13:51
→ : 但一大堆醫生罷工 那就慘了... 不過開刀沒辦法靠AI
→ : 要是啥公司能搞出一個AI手術醫生 那就賺到翻
→ : 但一大堆醫生罷工 那就慘了... 不過開刀沒辦法靠AI
→ : 要是啥公司能搞出一個AI手術醫生 那就賺到翻
→ : 水啦以後可以把鍋推給AI了32F 03/14 14:00
推 : 碼農表示幸福,刷刷題就可以進google了33F 03/14 14:24
推 : 反觀IC設計師就不可能被取代34F 03/14 14:45
→ : 幾個月前瑪濃也說過一樣的話35F 03/14 14:47
推 : 拜託AI林肯快點來解放碼農奴36F 03/14 14:52
推 : 大家都知道這一天早晚會來,只是沒想到來得這麼快38F 03/14 15:59
推 : 眼睛雷射手術基本上已經不是人類在執行了,其他部分
推 : 眼睛雷射手術基本上已經不是人類在執行了,其他部分
推 : 這只是剛開始.jpg40F 03/14 16:02
→ : 將來有一天也會有機器取代,這不是什麼遙不可及的夢41F 03/14 16:03
→ : 投資AI相關公司當股東是最佳策略,管他取代否42F 03/14 16:06
推 : 十塊IOI金牌,是能狗合成出一個SSR 的金牌嗎?43F 03/14 16:17
推 : 一定比真人貴 免怕XD44F 03/14 16:28
→ : AI取代AI是正常的45F 03/14 16:57
推 : 一般的家醫,AI醫生現階段肯開發一定弄得出來,花錢46F 03/14 17:01
→ : 而已,然後剩下就是法規。
→ : 而已,然後剩下就是法規。
噓 : 我只看到換皮手遊越來越多48F 03/14 17:15
→ : 為什麼IC設計不可能被取代?49F 03/14 17:34
推 : 這種程度真的屌打一半的工程師50F 03/14 17:50
→ : 因為IC設計師的腦是靠量子運算 不是神經元51F 03/14 18:07
→ : 神經網路模擬不來
→ : 神經網路模擬不來
推 : 國外有機器種眼睫毛的,如果再更進步一點有沒有可53F 03/14 18:22
→ : 能機器開刀?
→ : 能機器開刀?
推 : 要轉行了,幹55F 03/14 19:11
推 : ic設計可以取代啊 HLS未必不會再繼續發展56F 03/14 19:56
推 : 有coding高手調教 真的不好說57F 03/14 20:51
推 : 數位ic rd 瑟瑟發抖58F 03/14 21:22
→ : 看起來很像是騙投資的 XD59F 03/14 21:33
→ : GPT就是一本正經胡說八道啊60F 03/14 21:58
推 : 鐵了心61F 03/14 22:12
→ : 先淘汰醫生跟法官吧62F 03/14 22:35
→ : 丸子63F 03/14 23:32
推 : 動腦、靠記憶、經驗的 都很容易被AI取代65F 03/15 02:28
--
※ 看板: Tech_Job 文章推薦值: 0 目前人氣: 0 累積人氣: 3088
作者 jackliao1990 的最新發文:
- 34F 16推
- 昨天下午1點16分 成都35歲朱姓外送員在惠王陵東路路段跟轎車發生糾紛 雙方下車理論時 外送員用刀刺向女駕駛丈夫 傷者急救期間 外送員被拍到坐在路邊淡定抽菸 最終傷者宣告不治 外送員已被帶往警局 做 …144F 83推 13噓
- 病毒學家Beata Halassy切除乳房後,2020年乳癌復發,因不能再接受化療,她決定採用溶 瘤病毒療法(OVT)。世界各國禁止晚期轉移性患者使用OVT藥物,Halassy於是在自己實驗 室培養 …118F 68推 4噓
- 2022年美國高中生Ne'Kiya Jackson和Calcea Johnson在回答數學競賽的加分題時發現了 證明畢氏定理的新方法。 她們就讀的新奧爾良聖瑪麗學院鼓勵她們發表論文,2023 …92F 41推 7噓
- 22F 13推 2噓
點此顯示更多發文記錄
回列表(←)
分享