日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
開源 AI 代碼生成器 PolyCoder:擅長 C 語言,優(yōu)于 Codex
  • “最近,代碼的大型語言模型(LM)在完成代碼和從自然語言描述中合成代碼方面顯示出巨大的前景。然而,目前最先進(jìn)的代碼 LM(如 Codex)并沒有公開提供,留下許多關(guān)于他們的模型和數(shù)據(jù)設(shè)計(jì)決策的疑問。我們的目標(biāo)是通過對各種編程語言中最大的現(xiàn)有模型的系統(tǒng)評估來填補(bǔ)其中的一些空白:Codex、GPT-J、GPT-Neo、GPT-NeoX20B 和 CodeParrot。盡管 Codex 本身不是開源的,但我們發(fā)現(xiàn)現(xiàn)有的開源模型在一些編程語言中確實(shí)取得了接近的結(jié)果,雖然主要針對的是自然語言建模。我們進(jìn)一步確定了一個(gè)重要的缺失部分,即專門在多語言的代碼語料庫中訓(xùn)練的大型開源模型?!?/li>

研究人員指出,OpenAI 的 Codex 于去年 8 月發(fā)布,可通過微軟擁有的 GitHub 的 Copilot 工具獲得;但它通過黑盒 API 調(diào)用提供對模型輸出的“non-free access”,模型的權(quán)重和訓(xùn)練數(shù)據(jù)并不可用。DeepMind 聲稱其最近發(fā)布的 AlphaCode 代碼生成器在人類參與的編程比賽中排名前 54.3%,但是訓(xùn)練這個(gè)模型需卻要在谷歌的數(shù)據(jù)中心進(jìn)行"hundreds of petaFLOPS days"的訓(xùn)練。

“盡管大型語言代碼模型取得了巨大成功,但最強(qiáng)的模型都尚未公開。這阻止了這些模型在資源充足的公司之外的應(yīng)用,并限制了資源匱乏的組織在這一領(lǐng)域的研究。”

為了解決這一問題,他們推出了 PolyCoder。該模型使用來自 GitHub 的多個(gè)存儲庫的數(shù)據(jù)進(jìn)行訓(xùn)練,涵蓋 12 種流行的編程語言:C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。未經(jīng)過濾的數(shù)據(jù)集總共有 631GB 的數(shù)據(jù)和 3890 萬個(gè)文件。此外,為了訓(xùn)練 PolyCoder,研究人員選擇了 GPT-2(因?yàn)轭A(yù)算有限)。

不過雖然 PolyCoder 在 C 語言方面的表現(xiàn)優(yōu)于所有模型,但 Codex 在其他語言方面仍然要?jiǎng)龠^ PolyCoder。

“值得注意的是,PolyCoder 在 C 語言方面優(yōu)于 Codex 和所有其他模型。在比較單獨(dú)的開源模型時(shí),PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 方面的表現(xiàn)比類似規(guī)模的 GPT-Neo 2.7B 更好。在除 C 語言以外的其他 11 種語言中,所有其他開源模型,包括我們的,都明顯比 Codex 差(higher perplexity)?!?/p>

??詳情可查看??

本文轉(zhuǎn)自O(shè)SCHINA

本文標(biāo)題:開源 AI 代碼生成器 PolyCoder:擅長 C 語言,優(yōu)于 Codex

本文地址:https://www.oschina.net/news/185793/open-source-ai-code-generator-polycoder


本文名稱:開源 AI 代碼生成器 PolyCoder:擅長 C 語言,優(yōu)于 Codex
當(dāng)前URL:http://www.5511xx.com/article/dhsehjd.html