国产成人精品18p,天天干成人网,无码专区狠狠躁天天躁,美女脱精光隐私扒开免费观看

阿里云PAI將神經(jīng)機器翻譯訓練效率提升5倍

發(fā)布時(shí)間:2022-05-16 11:53 來(lái)源:IDC圈 閱讀:181 作者:網(wǎng)絡(luò ) 欄目: 互聯(lián)網(wǎng) 歡迎投稿:712375056

近兩年,神經(jīng)機器翻譯(NMT: Neural Machine Translation)技術(shù)異軍突起,翻譯質(zhì)量取得大幅提升。但不幸的是,NMT 系統的訓練成本非常高,限制了這一技術(shù)的大范圍使用。

7月12日,阿里巴巴披露的一份技術(shù)資料中顯示,阿里翻譯團隊通過(guò)使用阿里云機器學(xué)習平臺PAI實(shí)現了模型訓練效率5倍的飛躍,并已應用在英俄電商翻譯質(zhì)量?jì)?yōu)化項目中。

神經(jīng)機器翻譯是一種用于自動(dòng)翻譯的端到端的學(xué)習方法,該方法能夠克服傳統的基于短語(yǔ)的翻譯系統的缺點(diǎn),可以將整個(gè)輸入句子視作翻譯的基本單元。從2016年以來(lái)的學(xué)術(shù)界頂級會(huì )議上,幾乎全是圍繞NMT相關(guān)的創(chuàng )新工作,之后谷歌、微軟等巨頭公司相繼發(fā)布NMT系統。

在阿里巴巴內部,阿里翻譯負責為1688國際站、全球速賣(mài)通等提供多語(yǔ)言服務(wù),中國賣(mài)家填寫(xiě)的一些中文信息會(huì )被機器自動(dòng)翻譯成多國語(yǔ)言。該團隊同時(shí)還為釘釘、東南亞電商Lazada等提供服務(wù)。

去年,他們首次將NMT技術(shù)應用在通訊場(chǎng)景下。雖然翻譯質(zhì)量取得很大的提升,但模型訓練耗時(shí)太長(cháng)。3000萬(wàn)的訓練數據在單塊GPU卡上一般需要訓練20天以上,才能得到一個(gè)初步可用的模型。

之后,他們嘗試在阿里云機器學(xué)習平臺PAI上開(kāi)發(fā)支持分布式訓練的NMT系統,并于3月底完成了第一個(gè)版本。在英俄電商翻譯質(zhì)量?jì)?yōu)化項目中,分布式NMT系統大大提高了訓練速度,使模型訓練時(shí)間從20天縮短到了4天。

圖:使用不同卡數時(shí),在中英100萬(wàn)訓練語(yǔ)料上獲得的收斂加速比

PAI是阿里“NASA”計劃發(fā)布的首個(gè)重磅工具,可完全兼容全球主流的深度學(xué)習開(kāi)源框架。同時(shí),底層提供強大的云端異構計算資源,包含CPU、GPU、FPGA。在GPU方面,可靈活實(shí)現多卡調度。

在阿里巴巴內部,PAI已經(jīng)被廣泛使用。淘寶搜索使用PAI的參數服務(wù)器,可以把百億個(gè)特征的模型,分散到數十個(gè)乃至于上百個(gè)參數服務(wù)器上,打破規模瓶頸。最終實(shí)現搜索結果基于商品和用戶(hù)的特征進(jìn)行排序。

現在,阿里翻譯團隊還在破解線(xiàn)上服務(wù)處理延時(shí)的難題,為神經(jīng)網(wǎng)絡(luò )機器翻譯模型的大規模應用掃除最后障礙。

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。

日本老妇人乱XXY| 国产女人爽的流水毛片| 亚洲人成小说网站色在线| 欧美巨大黑人精品VIDEOS| 怡红院免费的全部视频| 少妇高清一区二区免费看|