2021年11月(yue),在(zai)世(shi)界(jie)權(quan)威多語言理(li)解評測XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中(zhong),哈工大訊飛(fei)聯合實驗室(HFL)團隊以總平均分84.1位(wei)列榜首,刷(shua)新世(shi)界(jie)記(ji)錄,在(zai)四個賽道中(zhong)獲得三項最好成(cheng)績(ji)。
這也標志著科(ke)大訊飛多語言(yan)理解與跨語言(yan)遷移能力(li)再上(shang)新臺階。
這個(ge)難度有多高?先來看一段話:
The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen F?llen ist die W?rmequelle ein Atomreaktor, Erdw?rme, Solarenergie oder Abw?rme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.
上述這段話包含了(le)英語(yu)、德語(yu)、西班牙語(yu),而這只(zhi)是(shi)(shi)機器多(duo)語(yu)言(yan)理(li)解評測的冰(bing)山一角,它要(yao)面臨的是(shi)(shi)多(duo)達40種語(yu)言(yan)的高難(nan)度(du)理(li)解。翻譯成中文(wen)就是(shi)(shi):
讓水沸騰(teng)以提供蒸汽所需熱量有多(duo)種來(lai)源,最常見的是(shi)在封閉(bi)空(kong)間(別稱有燃(ran)燒室(shi)、火(huo)箱)中供應適量空(kong)氣(qi)來(lai)燃(ran)燒可(ke)燃(ran)材料(liao)。在某些情況下,熱源是(shi)核反應堆、地熱能(neng)、太陽能(neng)或來(lai)自內(nei)燃(ran)機或工業過程的廢氣(qi)。如果是(shi)模(mo)型或玩具蒸汽發動機,還可(ke)以將電加熱元件(jian)作為熱源。
最新突破:在40種語言下完成自然語言理解
XTREME評測由谷歌公司舉(ju)辦,旨(zhi)在全面考察模型的多語(yu)(yu)言理解(jie)與跨(kua)語(yu)(yu)言遷移能力。該評測覆蓋(gai)了中文、英語(yu)(yu)、韓語(yu)(yu)、日語(yu)(yu)、阿拉伯語(yu)(yu)、越南語(yu)(yu)等40種語(yu)(yu)言,包含了句(ju)對分類、序(xu)列標注、閱讀理解(jie)、句(ju)子(zi)檢索賽道,共四大類九個任務。吸引了國內外(wai)眾多知名高(gao)校和(he)研究機構參(can)加。
XTREME評測包含4大類9個任務,分別為:
句對分類:XNLI、PAWS-X(自然語(yu)言(yan)推斷)
序(xu)列標(biao)注:UDPOS(詞性標(biao)注)、PANX(命名(ming)實體識別)
閱讀(du)理(li)解:XQuAD、MLQA、TyDiQA(片段抽取(qu)型閱讀(du)理(li)解)
句子(zi)檢(jian)索:BUCC、Tatoeba(跨(kua)語言文本檢(jian)索)
與以往(wang)單語(yu)言(yan)自(zi)然(ran)語(yu)言(yan)理解(jie)評測任務(wu)不同(tong)的是,XTREME中的每一個任務(wu)都(dou)覆蓋了多種(zhong)語(yu)言(yan),評測的是模型在(zai)多種(zhong)語(yu)言(yan)上(shang)的理解(jie)能力平均指(zhi)標(biao),因此對系統模型的多語(yu)言(yan)理解(jie)與跨語(yu)言(yan)遷移(yi)能力要求大大提(ti)高。
其難(nan)度可想(xiang)而(er)知,榜(bang)單上的(de)模型也代表(biao)了多語言模型的(de)頂(ding)尖水(shui)平,因此獲得了眾多機構和高校的(de)廣泛關(guan)注。
機器是怎么做到多語言理解的?
本次哈工(gong)大(da)訊飛聯合(he)實(shi)驗室提交的CoFe模型以總(zong)成(cheng)績84.1分位居XTREME評測榜首,有三大(da)法寶(bao):
1、加(jia)入了自主研發的(de)跨語言對比學習(xi)技術,鼓勵模型學習(xi)不同(tong)語言中的(de)語義相(xiang)似性。
2、利用(yong)知識蒸餾技術(shu)進行自監督學習和知識遷移(yi),進一步提升了(le)模型在各(ge)個語言上(shang)效果的穩(wen)定性。
3、創(chuang)新性地融入了細粒度的(de)(de)語(yu)言學特征,幫助模型(xing)克服訓練不(bu)足的(de)(de)困難,解決低資源語(yu)言學習不(bu)充(chong)分的(de)(de)問題(ti),同時(shi)使之適應不(bu)同語(yu)言的(de)(de)形態學特點(dian)。
也(ye)就是(shi)說,通過(guo)本(ben)土(tu)語(yu)言學習,機器可以(yi)在少(shao)量(liang)其他語(yu)言語(yu)料的情況下(xia),通過(guo)“類比”學會(hui)這門語(yu)言,減(jian)少(shao)了收集語(yu)料、語(yu)音標注等大(da)量(liang)工作。
這就是(shi)多(duo)語言理解與跨語言遷(qian)移能力(li)!
發布少數民族語言預訓練模型CINO
“要讓(rang)中文語(yu)音(yin)技術由(you)中國人做到最好。”
成立以來,科大訊飛(fei)初心未改(gai),持(chi)續關注并(bing)積(ji)極(ji)推(tui)動中文相關信息處理技術(shu)的研究與(yu)發展。少數民族語(yu)言(yan)處理是(shi)中文信息處理中不可缺(que)少的一環,也是(shi)中文信息處理多樣(yang)性的一種體現。這項技術(shu)的進步(bu)將極(ji)大改(gai)善我國少數民族語(yu)言(yan)學習問(wen)題。
目前由于國內少數民族語言語料稀缺、獲取難度大等原因,相關技術研究相對匱乏,而主流的多語言模型也無法很好地處理國內少數民族語言文字。為了促進中國少數民族語言信息處理的研究與發展。2021年11月,科大訊飛發布(bu)了首個(ge)面(mian)向少(shao)數(shu)(shu)民族(zu)語(yu)(yu)(yu)言(yan)的(de)多(duo)語(yu)(yu)(yu)言(yan)預(yu)訓練模型CINO(Chinese mINOrity pre-trained language model),彌補(bu)相(xiang)關資源的(de)空(kong)白,并將相(xiang)關預(yu)訓練模型和(he)任務(wu)數(shu)(shu)據開(kai)源。希(xi)望(wang)未(wei)來能夠進一(yi)步促進業內少(shao)數(shu)(shu)民族(zu)語(yu)(yu)(yu)言(yan)相(xiang)關的(de)技術研究,推動少(shao)數(shu)(shu)民族(zu)語(yu)(yu)(yu)言(yan)相(xiang)關技術的(de)應(ying)用落地。未(wei)來支(zhi)持各少(shao)數(shu)(shu)民族(zu)語(yu)(yu)(yu)言(yan)的(de)多(duo)語(yu)(yu)(yu)言(yan)搜索引擎等文字應(ying)用工具或(huo)將成為可能。