无码国产69精品久久久久孕妇,草草久久久亚洲av成人片,久久久久无码精品亚洲日韩,无线视频www你会感谢我

icon

新聞 資訊

News and information

OpenAI很看好,首個(gè)SWE-1模型發(fā)布,軟件開發(fā)或?qū)⑻崴?9%

發(fā)布時(shí)間:2025-05-17

  將軟件開發(fā)提速99%!


  Windsurf發(fā)布首個(gè)前沿模型SWE-1,AI編程領(lǐng)域風(fēng)起云涌,目標(biāo)是將開發(fā)效率提升99%。SWE-1不僅能寫代碼,更能理解并協(xié)助整個(gè)軟件工程流程。核心創(chuàng)新在于「流動(dòng)感知」系統(tǒng),即AI與用戶共享操作時(shí)間線,實(shí)現(xiàn)高效協(xié)作。


  Windsurf首秀終于來了!


  在Cursor火爆全網(wǎng),OpenAI宣布30億美元重金收購(gòu)Windsurf后,Windsurf不甘寂寞,終于出手!


  Windsurf發(fā)布首個(gè)前沿模型SWE-1,目標(biāo)是將軟件開發(fā)提速99%!


  

SWE-1不只是一個(gè)「會(huì)寫代碼」的模型,而是一個(gè)理解、參與、并協(xié)助整個(gè)工程過程的協(xié)作伙伴。


  目前這個(gè)系列包含三個(gè)模型:


  SWE-1:具備與Claude 3.5 Sonnet類似的工具調(diào)用推理能力,但運(yùn)行成本更低。在推廣期內(nèi),所有付費(fèi)用戶可免費(fèi)使用。


  SWE-1-lite:一個(gè)更小但質(zhì)量更高的模型,全面取代Cascade Base,對(duì)所有用戶(包括免費(fèi)用戶)開放。


  SWE-1-mini:更小、更快,專為Windsurf Tab中的低延遲被動(dòng)體驗(yàn)而設(shè)計(jì),適用于所有用戶。



  剛剛,SWE-1已經(jīng)上線Windsurf,且處于免費(fèi)使用階段。


  AI編程發(fā)展「快閃」


  近幾年,「會(huì)寫代碼」的模型取得了巨大進(jìn)步,已經(jīng)能從簡(jiǎn)單的自動(dòng)補(bǔ)全發(fā)展到一次性構(gòu)建出完整的小型應(yīng)用。


  但這種能力仍然存在明顯的上限:


  其一,軟件開發(fā)不僅僅是寫代碼。


  開發(fā)者要做的事情遠(yuǎn)不止編碼,還要操作終端、獲取知識(shí)、調(diào)試產(chǎn)品、理解用戶反饋等。因此需要的是更全面的模型,能覆蓋整個(gè)開發(fā)流程。


  其二,工程過程是跨階段的、持續(xù)變化的。


  目前主流的基礎(chǔ)模型仍然是基于「代碼能否編譯」和「是否通過單元測(cè)試」來訓(xùn)練的。但現(xiàn)實(shí)中,這只是更大工程任務(wù)中的一小部分。


  真正需要的是能處理「尚未完成的狀態(tài)」、理解模糊目標(biāo)的模型。


  否則,即使模型寫出了能運(yùn)行的功能,后續(xù)維護(hù)與擴(kuò)展性可能會(huì)非常差。


  因此,僅僅提高「寫代碼」的能力,無法真正提升整個(gè)工程效率。需要打造的是支持完整軟件工程流程的模型——簡(jiǎn)稱SWE模型。


  SWE-1的開發(fā)過程


  SWE-1的開發(fā)靈感來自廣受歡迎的Windsurf編輯器,構(gòu)建了全新的數(shù)據(jù)結(jié)構(gòu)(共享時(shí)間線)和訓(xùn)練方法,能夠理解未完成的狀態(tài)、長(zhǎng)周期任務(wù)以及多種交互界面。


  其初衷是在資源有限的情況下,通過這種方法做出一流性能的模型。


  SWE-1是這個(gè)目標(biāo)的第一個(gè)驗(yàn)證成果。


  在整體表現(xiàn)上,SWE-1接近最前沿的基礎(chǔ)模型,在多個(gè)維度上超過了所有非前沿模型和開源對(duì)手??梢酝ㄟ^離線評(píng)估與線上實(shí)測(cè)兩種方式進(jìn)行驗(yàn)證。


  離線評(píng)估


  評(píng)估將SWE-1與Anthropic系列(Cascade中使用最頻繁的模型之一)以及Deepseek、Qwen等主流開源模型對(duì)比,主要有兩個(gè)基準(zhǔn)測(cè)試:


  會(huì)話式SWE任務(wù)基準(zhǔn)


  從一個(gè)正在進(jìn)行中的Cascade會(huì)話中截取,任務(wù)尚未完成。評(píng)估模型如何響應(yīng)用戶的下一步請(qǐng)求,打分標(biāo)準(zhǔn)綜合考慮幫助程度、效率、正確性以及目標(biāo)文件編輯的準(zhǔn)確率。這項(xiàng)測(cè)試關(guān)注模型在「人機(jī)協(xié)作」環(huán)境中的表現(xiàn)。



  端到端SWE任務(wù)基準(zhǔn)


  從會(huì)話一開始就評(píng)估模型是否能完全獨(dú)立解決問題,并通過一組單元測(cè)試。得分基于測(cè)試通過率和專家打分。這項(xiàng)測(cè)試衡量模型自主完成任務(wù)的能力。


  

評(píng)估結(jié)果表明,SWE-1在這些任務(wù)上接近頂級(jí)實(shí)驗(yàn)室的前沿模型,遠(yuǎn)超中等體量和開源的對(duì)手。雖然還不是絕對(duì)領(lǐng)先,但非常有潛力。


  線上實(shí)測(cè)(生產(chǎn)實(shí)驗(yàn))


  Windsurf有大量用戶,因此也通過盲測(cè)實(shí)驗(yàn)評(píng)估真實(shí)使用中的表現(xiàn)。


  Windsurf將用戶分組,分別使用不同模型,在不告知模型類型的前提下觀察行為和效果。


  Windsurf主要看兩個(gè)指標(biāo):


  每位用戶每天接受的代碼行數(shù)


  即Cascade編寫、用戶實(shí)際接受并保留的代碼行數(shù),反映模型的實(shí)際幫助程度、響應(yīng)質(zhì)量和用戶粘性。




  Cascade代碼貢獻(xiàn)率


  對(duì)于被Cascade修改過的文件,模型所做的代碼改動(dòng)所占比例。這是一個(gè)反映模型「主動(dòng)性」以及「用戶信任程度」的指標(biāo)。


  SWE-1專為Cascade場(chǎng)景設(shè)計(jì)和優(yōu)化,因此在這些指標(biāo)上表現(xiàn)幾乎是行業(yè)領(lǐng)先,效果優(yōu)于所有非前沿模型。


  

其他模型分析


  你可能在上面的圖表中注意到SWE-1-lite,這是SWE-1的中型版本,使用相同訓(xùn)練方式,在非前沿模型中表現(xiàn)最佳,現(xiàn)已取代Cascade Base,向所有用戶開放。


  Windsurf還開發(fā)了SWE-1-mini,體積更小,速度更快,適用于Windsurf Tab這種對(duì)延遲要求極高的被動(dòng)預(yù)測(cè)場(chǎng)景。


  需要說明的是,這只是一個(gè)起點(diǎn)。


  Windsurf不僅希望趕上最前沿實(shí)驗(yàn)室的水平,最終目標(biāo)是全面超越它們。


  Windsurf堅(jiān)信自己已經(jīng)具備了實(shí)現(xiàn)這個(gè)目標(biāo)的引擎,并將持續(xù)加大投入。


  流動(dòng)感知系統(tǒng)(Flow-Aware System)


  Windsurf提到SWE-1的靈感來源于Windsurf編輯器。


  關(guān)鍵在于Windsurf獨(dú)特的設(shè)計(jì)理念:流動(dòng)感知(Flow Awareness)。


  什么是流動(dòng)感知?


  Windsurf打造的Windsurf編輯器實(shí)現(xiàn)了用戶與AI的「共識(shí)時(shí)間線」:AI的每一步用戶都能看到并干預(yù),反過來,AI也能理解并跟進(jìn)用戶的行為。


  這種「共享時(shí)間線」的感知能力,Windsurf稱之為Flow Awareness(流動(dòng)感知),也因此Windsurf一直把這種人機(jī)協(xié)作的體驗(yàn)稱為「AI flows」。


  為什么流動(dòng)感知很重要?


  因?yàn)槎虝r(shí)間內(nèi),沒有模型能完全獨(dú)立完成所有開發(fā)任務(wù)。


  流動(dòng)感知允許模型和人類之間「自然交接」:AI做一部分,用戶校正,AI再繼續(xù),形成順暢銜接。


  借助共享時(shí)間線,Windsurf可以持續(xù)追蹤當(dāng)前模型的能力邊界,觀察哪些任務(wù)需要用戶介入、哪些能完全自動(dòng)完成。


  這是SWE-1能快速成長(zhǎng)為當(dāng)前水平的關(guān)鍵原因之一。


  共享時(shí)間線在Windsurf中的演進(jìn)


  構(gòu)建共享時(shí)間線是Windsurf許多功能背后的核心理念:


  初代Cascade就支持「你在編輯器改完內(nèi)容后輸入continue,AI就能繼續(xù)理解你改了什么」——這是對(duì)編輯器的感知。


  后來Windsurf加入了終端輸出感知——AI能理解你執(zhí)行命令時(shí)出現(xiàn)的錯(cuò)誤。


  Wave 4中加入了「預(yù)覽」功能——AI開始理解你看到的前端組件和錯(cuò)誤。


  Wave 5和Wave 6中,Tab增加了對(duì)終端命令、剪貼板內(nèi)容、IDE搜索內(nèi)容等的感知。


  這不是一堆隨機(jī)新功能,而是Windsurf構(gòu)建「最全面軟件工程時(shí)間線」的一部分。


  即便使用的是通用模型,只要Windsurf記錄和利用好了這些上下文信息,AI的表現(xiàn)就會(huì)大幅提升。


  而現(xiàn)在Windsurf有了自研的SWE系列模型,這個(gè)正反饋循環(huán)將真正開始加速:模型能更好地理解時(shí)間線并參與其中更多部分。


  接下來會(huì)發(fā)生什么?


  SWE-1只是開始。它是由一個(gè)小而專注的團(tuán)隊(duì)打造的,利用Windsurf在產(chǎn)品和基礎(chǔ)設(shè)施方面的優(yōu)勢(shì),展示了Windsurf完全有能力打造接近最前沿的模型。


  未來,Windsurf將持續(xù)改進(jìn)SWE系列模型,在保證低成本的同時(shí)不斷提升性能,讓開發(fā)者能用Windsurf構(gòu)建更大、更強(qiáng)的軟件項(xiàng)目。


  隨著SWE-1的發(fā)布和OpenAI對(duì)Windsurf的收購(gòu),AI編程工具正迎來一個(gè)新的時(shí)代。


  從簡(jiǎn)單的代碼補(bǔ)全到全面的工程協(xié)作,AI正在深刻改變軟件開發(fā)的方式。


  對(duì)于開發(fā)者來說,這是一個(gè)充滿機(jī)遇和挑戰(zhàn)的時(shí)代,如何利用這些新工具提升開發(fā)效率,將成為他們需要思考的重要問題。


本文來源:36氪

文章轉(zhuǎn)載于其他網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系我們及時(shí)刪除

欧美zc0o人与善交| 精品国产伦一区二区三区在线观看| 趁老师睡着破了她的处| 夜夜躁狠狠躁日日躁视频| 特黄做受又硬又粗又大视频小说| 国产又爽又黄无码无遮挡在线观看| 精产国品一二三产区区别| 久久99久久99精品免视看动漫| 久久久久人妻一区精品性色av| 色婷婷亚洲一区二区三区| 被拖进小树林c了好爽h| 破外女13一14在线观看| 中文字幕人妻无码乱精品| 国产农村妇女作爱视频播放| 露小内裤奶头白丝jk水手维特| 成 人 免费 黄 色 网站视频| 小少妇性开放xxxxxhd| 日本高清色www在线观看视频| 午夜福利无码不卡在线观看| 被主人野外调教暴露羞辱历程| 阿娇艳z门照片无码av4i| 精品久久久久久久中文字幕| 成 人 A V免费视频在线观看| 老板含着她的花蒂啃咬高潮的视频| 18禁止午夜福利体验区| 亚洲精品无码AV专区最新| 免费午夜爽爽爽www视频十八禁| 在线观看做爰免费视频| 亚洲精品日韩一区二区电影| 白领娇妻办公室屈辱沉沦| A性色生活片久久毛片牛牛| 国产香蕉尹人视频在线| 国产69久久精品成人看| 精品久久人人爽天天玩人人妻| 国产美女视频国产视视频| 人与物videos另类xxxx| 久久久精品波多野结衣AV| 极品白嫩小泬10p| 小YIN娃的浪荡生活| 御书房双乳晃动干柴烈| 把她按在桌上疯狂顶撞|