蘋果

華為

歐珀

小米

VIVO

佳能

優學派

大疆

惠普

戴爾

科大訊飛拿下SemEval三項冠軍，多語種語言理解再上新臺階

本文章由注冊用戶沉靜時光上傳提供 2024-05-22 ☆ 評論 0

摘要：第十六屆國際語義評測大賽落下帷幕，科大訊飛在三項主要賽道中拿下冠軍，標志著科大訊飛在多語種語言理解領域持續進階。未來，科大訊飛將不斷開展人工智能源頭技術創新，助力中國人工智能在全球贏得話語權，實現更多人工智能創新應用真正解決社會剛需，蓬勃向上，生生不息。

2022年4月(yue)，第十(shi)六屆國際(ji)語(yu)義(yi)評測（The 16th International Workshop on Semantic Evaluation， SemEval 2022）大(da)賽落下(xia)帷幕，科大(da)訊(xun)飛在三項主要賽道(dao)中(zhong)拿下(xia)冠軍，標志著科大(da)訊(xun)飛在多語(yu)種語(yu)言理解領(ling)域持續進階。

SemEval 2022評測由國(guo)際(ji)計算(suan)語(yu)言學(xue)協會（Association for Computational Linguistics， ACL）旗(qi)下SIGLEX主辦，參賽者覆蓋國(guo)內、外一流高(gao)校及知名企業，包括達特(te)茅斯學(xue)院、謝菲爾德大(da)學(xue)、華為、阿里達摩院等，代表著最前沿國(guo)際(ji)技術和水平。

經過(guo)角逐，科大訊飛(fei)分別在(zai)“多(duo)語種新聞相似度評(ping)測任務(wu)”（Task 8）、“多(duo)語種慣用語識(shi)別任務(wu)” 子賽道（Task 2： Subtask A one-shot）、“多(duo)語種復(fu)雜(za)命(ming)名(ming)實(shi)體識(shi)別任務(wu)”（Task 11）三個子賽道中拿下(xia)冠軍。

新聞相似度評價：目光如炬

本次(ci)SemEval 2022評(ping)測聚焦的Task 8是多語(yu)種新聞相(xiang)似度評(ping)價(jia)任務。科大(da)訊飛與哈爾(er)濱(bin)工業大(da)學聯合組建(jian)的“哈工大(da)訊飛聯合實驗(yan)室”（Joint Laboratory of HIT and iFLYTEK Research，簡(jian)稱HFL）以顯(xian)著優(you)勢(shi)摘得冠軍。

簡(jian)單來說，參賽隊伍需(xu)要在每組新(xin)聞中判斷是否描述了(le)同一個事件(jian)，并(bing)以1-4分(fen)(fen)(fen)為(wei)兩篇新(xin)聞的相似(si)度打分(fen)(fen)(fen)，其(qi)中包含了(le)多(duo)達10種語(yu)(yu)(yu)言，分(fen)(fen)(fen)別(bie)為(wei)阿拉(la)伯語(yu)(yu)(yu)、德語(yu)(yu)(yu)、英語(yu)(yu)(yu)、西班牙(ya)語(yu)(yu)(yu)、法語(yu)(yu)(yu)、意大利語(yu)(yu)(yu)、波蘭語(yu)(yu)(yu)、俄語(yu)(yu)(yu)、土(tu)耳(er)其(qi)語(yu)(yu)(yu)和中文。但新(xin)聞相似(si)度究竟是什么(me)？讓(rang)我們用一則示例為(wei)大家(jia)解讀。

圖中列舉了兩(liang)篇(pian)相(xiang)似度(du)(du)極(ji)高的新聞稿(gao)件，參(can)賽(sai)隊伍必(bi)須將文中相(xiang)似的主要元素剝離出(chu)來并逐(zhu)一分析，比如地理信息(xi)、敘(xu)事技(ji)巧、實體、語氣、時間及風格，最終得出(chu)兩(liang)篇(pian)文章的相(xiang)似度(du)(du)與差異化。

與(yu)普通(tong)的文章相(xiang)比(bi)(bi)，該項比(bi)(bi)賽更強調跨語言理(li)解能力(li)，除(chu)了(le)寫作風格和敘述方式(shi)外，還需要把握文章中描述的具體事件。通(tong)俗來說，該項技術可以甄別外網的一(yi)些新聞(wen)報道是(shi)否存在偏(pian)差(cha)與(yu)曲解，從而(er)有效預防虛假信息、不良信息的傳(chuan)播。

科大(da)訊(xun)飛在這樣的(de)賽道(dao)上拔得頭籌，充分展示了在跨語言理解(jie)能力(li)上的(de)強硬實力(li)。

慣用語檢測：熟能生巧

哈工大訊飛聯合實(shi)驗室拿(na)下的(de)第(di)二(er)項任務(wu)冠軍，便是(shi)Task2 Subtask A的(de)慣用(yong)(yong)語(yu)檢測。通俗來(lai)說，無(wu)論你是(shi)哪國人，在日(ri)常表達(da)中都有一類短語(yu)的(de)固(gu)定用(yong)(yong)法(fa)，并(bing)且該固(gu)定用(yong)(yong)法(fa)通常與短語(yu)的(de)字面語(yu)義(yi)不同，我(wo)們會將(jiang)這些短語(yu)稱(cheng)為“慣用(yong)(yong)語(yu)”。想要理(li)解包含慣用(yong)(yong)語(yu)的(de)句(ju)子(zi)，首先需要判斷(duan)句(ju)子(zi)中的(de)多字短語(yu)是(shi)否為慣用(yong)(yong)語(yu)，比如“說曹(cao)操，曹(cao)操到。”句(ju)中的(de)曹(cao)操是(shi)否真實(shi)存(cun)在。

該(gai)任務(wu)的(de)形(xing)式便是給定一個目標語句，包括其上下文和多字短語，繼而判斷該(gai)語句中(zhong)的(de)多字短語用法(fa)究竟是慣用語還(huan)是字面意思。該(gai)任務(wu)為(wei)多語言任務(wu)，包含英語、葡萄牙語、加利西(xi)亞語三種語言。其中(zhong)加利西(xi)亞語沒有在訓練集(ji)中(zhong)出現(xian)過，因(yin)此科大訊飛代表隊需要在不同語言之間進(jin)行遷移學習。

還(huan)是(shi)不(bu)懂？別擔心，讓我們來(lai)看一則示例。

如例(li)所(suo)示，Literal表(biao)示字(zi)面(mian)意(yi)(yi)思，第(di)一句(ju)(ju)話可翻譯為：當你從網中抓(zhua)一條大(da)(da)魚時，最(zui)好撐住它的(de)腰。Idiomatic表(biao)示慣用語(yu)，所(suo)以第(di)二(er)句(ju)(ju)話中再次出現了(le)大(da)(da)魚一詞，但卻不是簡單的(de)字(zi)面(mian)意(yi)(yi)思，而是“大(da)(da)人物(wu)”。

所(suo)以該任務要求參賽隊(dui)伍區分(fen)不同句子中同一(yi)個詞(ci)的不同語(yu)(yu)義，這(zhe)需要強大的分(fen)析及跨語(yu)(yu)言理解能力(li)。有(you)了該項技術，在日常寫作和(he)翻(fan)譯工作中，即可有(you)效鑒別慣用語(yu)(yu)的表達用意，極(ji)大提高內容準確率。

科大(da)訊(xun)飛不(bu)負眾望(wang)，再(zai)摘桂冠。

復雜命名實體識別：披荊斬棘

這第三(san)冠(guan)有多難？光聽名(ming)字就(jiu)覺得復(fu)雜(za)：多語(yu)種復(fu)雜(za)命名(ming)實體識別任務（MutiCoNER）。科大(da)訊飛聯合中國科學技術(shu)大(da)學語(yu)音及語(yu)言信息處理國家工程(cheng)研(yan)究(jiu)中心迎難而上(shang)，在該項(xiang)任務中一舉(ju)拿下(xia)三(san)個子賽道冠(guan)軍。

我們先拆解一下MuticoNER這個詞，Muti是multilingual（多語言）的簡稱，Co即是complex（復雜），而(er)NER則是Named Entity Recognition，又稱作“命名實體(ti)(ti)識(shi)別”，是指識(shi)別文本中(zhong)具有特定意義的(de)實體(ti)(ti)，主(zhu)要(yao)包(bao)括人名、地名、機構名、專(zhuan)有名詞等。

該任(ren)(ren)務是一個(ge)多(duo)語(yu)言(yan)賽(sai)道(dao)數(shu)據(ju)(ju)集，包含11項(xiang)單獨語(yu)言(yan)命名實(shi)體評(ping)測任(ren)(ren)務，以及2項(xiang)多(duo)語(yu)言(yan)統一建模的(de)(de)評(ping)測任(ren)(ren)務。該榜單數(shu)據(ju)(ju)來源于Wikidata（維基數(shu)據(ju)(ju)），數(shu)據(ju)(ju)量(liang)龐大且(qie)極具應用(yong)價值。參賽(sai)團隊需(xu)要在(zai)單個(ge)語(yu)言(yan)以及多(duo)個(ge)語(yu)言(yan)混(hun)合的(de)(de)文本(ben)數(shu)據(ju)(ju)中，精準預測不同語(yu)言(yan)實(shi)體的(de)(de)類(lei)別標(biao)簽(qian)。該任(ren)(ren)務采(cai)用(yong)國際通用(yong)的(de)(de)槽位F1評(ping)價指標(biao)，我們(men)在(zai)多(duo)語(yu)言(yan)混(hun)合、中文、孟(meng)加拉語(yu)賽(sai)道(dao)上，分別以92.9%、81.6%、84.2%的(de)(de)F1成績登頂。

這項任務究竟有多難？舉個例子：NER是指從用戶文本中按照業務需求識別出實體的類別，之前任務基本上一句話中僅會出現一到兩個實體，本次任務需要抽出多實體增加實體抽取難度，同時需要具備多語種能力，例如【（皇馬）[organization]除了首輪負于[克星拉科]（organization）以外，現在已是四連勝。（Rafael van der Vaart）[PER]、（Gonzalo Higuaín）[PER]和(Arjen Robben）[PER]的表現出(chu)色。】既要識別出(chu)多個相關實(shi)體，同(tong)時是各(ge)語種夾(jia)雜的文本。

此前針對中文和英文需要單獨進行模型(xing)建(jian)模，此次有關(guan)賽道的(de)挑(tiao)戰是僅使用(yong)一個模型(xing)來可以(yi)完成不(bu)同語種(zhong)任務(wu)，能夠快速識(shi)別復雜、專有詞(ci)匯，提(ti)高準確(que)率。

拒絕紙上談兵，技術應用要落地

當前，人類(lei)已進入“人、機(ji)、物”智(zhi)能互(hu)聯時(shi)(shi)代(dai)，智(zhi)能語音是這個時(shi)(shi)代(dai)最(zui)為關鍵的入口之一，有助于實現語言大互(hu)通，建設人類(lei)命(ming)運(yun)共(gong)同體(ti)。科(ke)大訊飛始終保持初心、堅(jian)持源(yuan)頭核(he)心技術創新，在(zai)語音、語義等國際賽事中為國爭光。

在(zai)2021年(nian)11月舉辦的國際低資源多種語(yu)音(yin)識別競賽OpenASR中，科大訊飛參加了所有(you)15個(ge)語(yu)種受限(xian)賽道和7個(ge)語(yu)種非受限(xian)賽道，并全(quan)部取得了第一(yi)名，而(er)在(zai)SemEval2022多語(yu)種NLP領域(yu)中取得佳績也標(biao)志著(zhu)科大訊飛在(zai)多語(yu)言理解(jie)與跨語(yu)言遷移能力再上新臺階，從多語(yu)種語(yu)音(yin)到多語(yu)種語(yu)言都有(you)著(zhu)頂尖(jian)技術實(shi)力。

而在2022年的(de)北(bei)京冬奧(ao)會(hui)和冬殘奧(ao)會(hui)上，科大(da)訊飛作為“官方自(zi)動語音轉換與(yu)翻譯獨家供應商(shang)”，為所(suo)有(you)觀眾展(zhan)現了一場“無(wu)障礙溝(gou)通(tong)”的(de)體育(yu)盛會(hui)。

基于強大(da)的(de)多(duo)語種語音語言技(ji)術，我們可以做到語種足(zu)夠全、翻(fan)譯足(zu)夠準、反應(ying)足(zu)夠快(kuai)，支持包括冬(dong)奧體育在內(nei)的(de)16大(da)行業領域(yu)翻(fan)譯，在冬(dong)奧應(ying)用場景下，中文與(yu)英/俄/法/西(xi)/日等重點語種的(de)翻(fan)譯準確率超過90%，平均每句語音翻(fan)譯響應(ying)時間不(bu)超過1.5秒，一(yi)方面(mian)幫助(zhu)各國觀(guan)眾、游(you)客快(kuai)速掌握賽事(shi)信息(xi)，另一(yi)方面(mian)我們特(te)別希(xi)望幫助(zhu)聽障人士運用科技(ji)的(de)手段聽得(de)見奧運文字(zi)，看得(de)見奧運聲(sheng)音。

值得一(yi)提的是(shi)(shi)，科大(da)訊(xun)飛AI虛(xu)擬(ni)(ni)人(ren)“愛加（i+）”也(ye)成為了(le)冬奧(ao)(ao)會的一(yi)名“虛(xu)擬(ni)(ni)志(zhi)愿者”。在北(bei)京冬奧(ao)(ao)小屋中，愛加可以用多種語(yu)言(yan)與各(ge)國運動員進行面(mian)對面(mian)的交流(liu)，助力冬奧(ao)(ao)的無障礙溝通。科大(da)訊(xun)飛運用語(yu)音識別、語(yu)音合成、口唇驅動、面(mian)部驅動、肢(zhi)體動作驅動等多項核心技術，打造出虛(xu)擬(ni)(ni)形象(xiang)自動化內容(rong)生產方案(an)，讓虛(xu)擬(ni)(ni)人(ren)不(bu)僅(jin)會說普通話，同(tong)時支持(chi)31種語(yu)言(yan)及方言(yan)，是(shi)(shi)不(bu)折(zhe)不(bu)扣的“語(yu)言(yan)通”，不(bu)僅(jin)能(neng)進行面(mian)對面(mian)的冬奧(ao)(ao)賽(sai)事、賽(sai)程實(shi)時互動交流(liu)，還能(neng)陪你玩一(yi)把冬奧(ao)(ao)知識游戲大(da)PK，周邊交通、文化、旅游等咨詢問答也(ye)不(bu)在話下。

除此之外，在教(jiao)育、醫療(liao)、司法等(deng)場景中(zhong)的各類(lei)行業人工智(zhi)能(neng)應(ying)用(yong)中(zhong)，多(duo)語(yu)(yu)(yu)種(zhong)語(yu)(yu)(yu)音(yin)交互系(xi)統(tong)都將發揮重要作用(yong)。經(jing)過多(duo)年(nian)的技術積累，除了中(zhong)英以外，當前(qian)科大訊飛(fei)已經(jing)具備其(qi)他69種(zhong)語(yu)(yu)(yu)言(yan)的語(yu)(yu)(yu)音(yin)識別能(neng)力，其(qi)中(zhong)已經(jing)有35個語(yu)(yu)(yu)種(zhong)準確率已經(jing)超過90%，并已在新加坡、俄羅斯、印度、日本等(deng)國家部署了海(hai)外站點，將持續為海(hai)內外開發者提供語(yu)(yu)(yu)音(yin)識別、語(yu)(yu)(yu)音(yin)合(he)成(cheng)、機器翻譯(yi)、圖文(wen)識別等(deng)語(yu)(yu)(yu)音(yin)語(yu)(yu)(yu)言(yan)服(fu)務。

如(ru)何更好地(di)研發包括中文在內的(de)多語種(zhong)語音及語言技術的(de)AI能(neng)力(li)并實現(xian)大規模應用落地(di)，如(ru)何更好地(di)用人工智能(neng)技術服務社會、建設美好世界(jie)，是(shi)我(wo)們不斷奮(fen)斗(dou)努力(li)的(de)方(fang)向。

未來，科(ke)大(da)訊飛將不斷開(kai)展人(ren)(ren)工(gong)智能源(yuan)頭技(ji)術創新，助(zhu)力中國人(ren)(ren)工(gong)智能在全球贏得話語權，實(shi)現更多(duo)人(ren)(ren)工(gong)智能創新應用真(zhen)正解(jie)決社會剛需，蓬勃向上，生(sheng)生(sheng)不息。

標簽： 人工智能世界科技世界語言世界國家科技數碼

網站提醒和聲明

本(ben)站(zhan)為注冊用戶(hu)提供信息(xi)(xi)(xi)存儲空間服務，非“MAIGOO編(bian)(bian)輯(ji)”、“MAIGOO榜單研究員(yuan)”、“MAIGOO文(wen)(wen)章編(bian)(bian)輯(ji)員(yuan)”上傳(chuan)提供的文(wen)(wen)章/文(wen)(wen)字均是注冊用戶(hu)自主發布上傳(chuan)，不代(dai)表本(ben)站(zhan)觀點，版權歸原作者(zhe)所有，如有侵權、虛(xu)假(jia)信息(xi)(xi)(xi)、錯誤信息(xi)(xi)(xi)或任何(he)問題，請及時聯(lian)系我們，我們將在第一時間刪除或更(geng)正。申請刪除>> 糾錯>> 投訴侵權>> 網(wang)頁上(shang)相關信息的知識產權歸(gui)網(wang)站方所(suo)有(包括但不限于文字、圖片、圖表、著作權、商(shang)(shang)標權、為用戶(hu)提供的商(shang)(shang)業信息等(deng))，非經許(xu)可不得抄襲或使(shi)用。

提交說明：快速提交發布>> 提交資訊幫助>> 注冊登錄>>