科大訊飛

有道

準兒

漢王

紐曼

小米

飛利浦

時空壺

華為

優學派

科大訊飛榮獲多語言理解評測XTREME冠軍

本文章由注冊用戶沉靜時光上傳提供 2024-05-12 ☆ 評論 0

摘要：世界多語言理解評測XTREME中，哈工大訊飛聯合實驗室（HFL）團隊以總平均分84.1位列榜首，刷新世界記錄，在四個賽道中獲得三項最好成績。科大訊飛發布面向少數民族語言的多語言預訓練模型CINO，并將相關預訓練模型和任務數據開源。希望未來能夠進一步促進業內少數民族語言相關的技術研究，推動少數民族語言相關技術的應用落地。

2021年11月(yue)，在(zai)世(shi)界(jie)權(quan)威多語言理(li)解評測XTREME（Cross-Lingual Transfer Evaluation of Multilingual Encoders）中(zhong)，哈工大訊飛(fei)聯合實驗室（HFL）團隊以總平均分84.1位(wei)列榜首，刷(shua)新世(shi)界(jie)記(ji)錄，在(zai)四個賽道中(zhong)獲得三項最好成(cheng)績(ji)。

這也標志著科(ke)大訊飛多語言(yan)理解與跨語言(yan)遷移能力(li)再上(shang)新臺階。

這個(ge)難度有多高？先來看一段話：

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen F?llen ist die W?rmequelle ein Atomreaktor, Erdw?rme, Solarenergie oder Abw?rme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

上述這段話包含了(le)英語(yu)、德語(yu)、西班牙語(yu)，而這只(zhi)是(shi)(shi)機器多(duo)語(yu)言(yan)理(li)解評測的冰(bing)山一角，它要(yao)面臨的是(shi)(shi)多(duo)達40種語(yu)言(yan)的高難(nan)度(du)理(li)解。翻譯成中文(wen)就是(shi)(shi)：

讓水沸騰(teng)以提供蒸汽所需熱量有多(duo)種來(lai)源，最常見的是(shi)在封閉(bi)空(kong)間（別稱有燃(ran)燒室(shi)、火(huo)箱）中供應適量空(kong)氣(qi)來(lai)燃(ran)燒可(ke)燃(ran)材料(liao)。在某些情況下，熱源是(shi)核反應堆、地熱能(neng)、太陽能(neng)或來(lai)自內(nei)燃(ran)機或工業過程的廢氣(qi)。如果是(shi)模(mo)型或玩具蒸汽發動機，還可(ke)以將電加熱元件(jian)作為熱源。

最新突破：在40種語言下完成自然語言理解

XTREME評測由谷歌公司舉(ju)辦，旨(zhi)在全面考察模型的多語(yu)(yu)言理解(jie)與跨(kua)語(yu)(yu)言遷移能力。該評測覆蓋(gai)了中文、英語(yu)(yu)、韓語(yu)(yu)、日語(yu)(yu)、阿拉伯語(yu)(yu)、越南語(yu)(yu)等40種語(yu)(yu)言，包含了句(ju)對分類、序(xu)列標注、閱讀理解(jie)、句(ju)子(zi)檢索賽道，共四大類九個任務。吸引了國內外(wai)眾多知名高(gao)校和(he)研究機構參(can)加。

XTREME評測包含4大類9個任務，分別為：

句對分類：XNLI、PAWS-X（自然語(yu)言(yan)推斷）

序(xu)列標(biao)注：UDPOS（詞性標(biao)注）、PANX（命名(ming)實體識別）

閱讀(du)理(li)解：XQuAD、MLQA、TyDiQA（片段抽取(qu)型閱讀(du)理(li)解）

句子(zi)檢(jian)索：BUCC、Tatoeba（跨(kua)語言文本檢(jian)索）

與以往(wang)單語(yu)言(yan)自(zi)然(ran)語(yu)言(yan)理解(jie)評測任務(wu)不同(tong)的是，XTREME中的每一個任務(wu)都(dou)覆蓋了多種(zhong)語(yu)言(yan)，評測的是模型在(zai)多種(zhong)語(yu)言(yan)上(shang)的理解(jie)能力平均指(zhi)標(biao)，因此對系統模型的多語(yu)言(yan)理解(jie)與跨語(yu)言(yan)遷移(yi)能力要求大大提(ti)高。

其難(nan)度可想(xiang)而(er)知，榜(bang)單上的(de)模型也代表(biao)了多語言模型的(de)頂(ding)尖水(shui)平，因此獲得了眾多機構和高校的(de)廣泛關(guan)注。

機器是怎么做到多語言理解的？

本次哈工(gong)大(da)訊飛聯合(he)實(shi)驗室提交的CoFe模型以總(zong)成(cheng)績84.1分位居XTREME評測榜首，有三大(da)法寶(bao)：

1、加(jia)入了自主研發的(de)跨語言對比學習(xi)技術，鼓勵模型學習(xi)不同(tong)語言中的(de)語義相(xiang)似性。

2、利用(yong)知識蒸餾技術(shu)進行自監督學習和知識遷移(yi)，進一步提升了(le)模型在各(ge)個語言上(shang)效果的穩(wen)定性。

3、創(chuang)新性地融入了細粒度的(de)(de)語(yu)言學特征，幫助模型(xing)克服訓練不(bu)足的(de)(de)困難，解決低資源語(yu)言學習不(bu)充(chong)分的(de)(de)問題(ti)，同時(shi)使之適應不(bu)同語(yu)言的(de)(de)形態學特點(dian)。

也(ye)就是(shi)說，通過(guo)本(ben)土(tu)語(yu)言學習，機器可以(yi)在少(shao)量(liang)其他語(yu)言語(yu)料的情況下(xia)，通過(guo)“類比”學會(hui)這門語(yu)言，減(jian)少(shao)了收集語(yu)料、語(yu)音標注等大(da)量(liang)工作。

這就是(shi)多(duo)語言理解與跨語言遷(qian)移能力(li)！

發布少數民族語言預訓練模型CINO

“要讓(rang)中文語(yu)音(yin)技術由(you)中國人做到最好。”

成立以來，科大訊飛(fei)初心未改(gai)，持(chi)續關注并(bing)積(ji)極(ji)推(tui)動中文相關信息處理技術(shu)的研究與(yu)發展。少數民族語(yu)言(yan)處理是(shi)中文信息處理中不可缺(que)少的一環，也是(shi)中文信息處理多樣(yang)性的一種體現。這項技術(shu)的進步(bu)將極(ji)大改(gai)善我國少數民族語(yu)言(yan)學習問(wen)題。

目前由于國內少數民族語言語料稀缺、獲取難度大等原因，相關技術研究相對匱乏，而主流的多語言模型也無法很好地處理國內少數民族語言文字。為了促進中國少數民族語言信息處理的研究與發展。2021年11月，科大訊飛發布(bu)了首個(ge)面(mian)向少(shao)數(shu)(shu)民族(zu)語(yu)(yu)(yu)言(yan)的(de)多(duo)語(yu)(yu)(yu)言(yan)預(yu)訓練模型CINO（Chinese mINOrity pre-trained language model），彌補(bu)相(xiang)關資源的(de)空(kong)白，并將相(xiang)關預(yu)訓練模型和(he)任務(wu)數(shu)(shu)據開(kai)源。希(xi)望(wang)未(wei)來能夠進一(yi)步促進業內少(shao)數(shu)(shu)民族(zu)語(yu)(yu)(yu)言(yan)相(xiang)關的(de)技術研究，推動少(shao)數(shu)(shu)民族(zu)語(yu)(yu)(yu)言(yan)相(xiang)關技術的(de)應(ying)用落地。未(wei)來支(zhi)持各少(shao)數(shu)(shu)民族(zu)語(yu)(yu)(yu)言(yan)的(de)多(duo)語(yu)(yu)(yu)言(yan)搜索引擎等文字應(ying)用工具或(huo)將成為可能。

標簽： 翻譯機錄音筆科技數碼

網站提醒和聲明

本站(zhan)為注(zhu)冊(ce)用戶(hu)提供(gong)(gong)信息存(cun)儲空間(jian)服(fu)務(wu)，非“MAIGOO編輯”、“MAIGOO榜單研(yan)究員”、“MAIGOO文章編輯員”上傳(chuan)提供(gong)(gong)的文章/文字均(jun)是注(zhu)冊(ce)用戶(hu)自主發布上傳(chuan)，不代(dai)表本站(zhan)觀點，版權歸原作者所(suo)有(you)，如有(you)侵權、虛假(jia)信息、錯誤信息或(huo)任何問(wen)題，請及時(shi)聯系我(wo)們(men)，我(wo)們(men)將在(zai)第一(yi)時(shi)間(jian)刪除(chu)或(huo)更正。申請刪除>> 糾錯>> 投訴侵權>> 網頁上相關信(xin)息的(de)(de)知(zhi)識(shi)產權(quan)歸網站方所有(包括(kuo)但不(bu)限于(yu)文字、圖片、圖表、著(zhu)作權(quan)、商標(biao)權(quan)、為用(yong)戶提供的(de)(de)商業信(xin)息等)，非(fei)經(jing)許可不(bu)得抄襲或使用(yong)。

提交說明(ming)：快速提交發布>> 提交資訊幫助>> 注冊登錄>>

贊

踩

您還未登錄，依《網絡安全法》相關要求，請您登錄賬戶后再提交發布信息。點擊登錄>>如您還未注冊，可點擊注冊>>，感謝您的理解及支持！

發表評論

相關推薦

翻譯機怎么使用？智能翻譯機使用方法介紹

翻譯機是一種能夠將他種語言翻譯成自己能夠看懂或者聽懂語言的一種機器，它在出國旅游中十分常見。現在的翻譯機由于人工智能技術的加持，翻譯水平已經有了很大的提高。那么你知道怎樣使用翻譯機嗎？首先當然是先買一臺翻譯機，然后開機，選擇翻譯的語言，拾音之后即可聽到或者看到翻譯結果。接下來一起來看下詳細介紹。

翻譯機文具用品

1481 21

想要聽懂寵物說什么？你怎么能錯過這些翻譯器？

很多人都喜歡養寵物，但是有時候我們卻很難讀懂寵物們到底在想什么。不過有了寵物語言翻譯器一切問題都會變得不是問題。使用寵物語言翻譯器能夠識別動物們的語言，并且通過文字或者語音的形式表達出來。這樣我們在和寵物互動的時候就會更加容易了！接下來就一起了解一下詳細知識吧。

翻譯機文具用品

1817 29

買翻譯機什么牌子的好？翻譯機品牌產品推薦

翻譯機行業品牌眾多，如何選購到質量好的翻譯機品牌產品，消費者在選購時可能會面臨選擇難題，不知道該買翻譯機什么牌子的好？通過由買購網maigoo數據研究提供的品牌榜單及結合電商上產品數據參考，小編精心整理得出部份值得買的翻譯機品牌，助你挑選到稱心如意的翻譯機品牌產品，排名不分先后，僅給你提供參考！

翻譯機科技數碼

70 5

語音翻譯機的工作原理是什么語音翻譯機和翻譯軟件的區別

雖然智能手機的功能越來越強大，但是仍然有它不能勝任的工作，比如說翻譯。不少人說智能手機可以使用翻譯軟件，但是市面上的翻譯軟件并不能很好的翻譯出相應的語言。而使用翻譯機，這種問題卻會小得多。翻譯機不同于翻譯軟件，由于拾音更準確，同時配合專門的算法和AI加持，翻譯質量要比翻譯軟件好。接下來跟著小編一起看看詳細知識。

翻譯機文具用品

1707 25

如何將英文軟件翻譯成中文使用英文翻譯機使用方法

現如今科技社會，市面上多了不少英文軟件，英文不好的人使用英文軟件就需要通過漢化軟件來將其轉換，這時候我們可以通過內置語言修改，如果沒有這一功能，我們就需要通過制作或使用漢化軟件來改變源代碼的方式來漢化。使用漢化軟件需要注意備份和版權問題。如果這些方法都嫌麻煩，我們可以使用英文翻譯機來實現語言的轉化。

翻譯機語言

9984 20