2022年4月,第十六(liu)屆國際語義評測(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大賽落下(xia)帷幕(mu),科大訊飛(fei)在(zai)三項(xiang)主要賽道(dao)中拿下(xia)冠軍,標志著科大訊飛(fei)在(zai)多語種語言理解領(ling)域持續進階(jie)。
SemEval 2022評測由國際(ji)計算語(yu)言(yan)學(xue)協(xie)會(hui)(Association for Computational Linguistics, ACL)旗下SIGLEX主辦,參(can)賽者覆蓋(gai)國內、外一流(liu)高校及(ji)知名企業,包括(kuo)達特茅斯(si)學(xue)院、謝菲爾德大學(xue)、華為、阿里達摩(mo)院等(deng),代表著最前沿(yan)國際(ji)技(ji)術和水平(ping)。
經過角逐,科大訊飛(fei)分(fen)別(bie)在“多(duo)語種(zhong)新聞相似(si)度評測任務(wu)”(Task 8)、“多(duo)語種(zhong)慣用語識別(bie)任務(wu)” 子賽(sai)道(Task 2: Subtask A one-shot)、“多(duo)語種(zhong)復(fu)雜命名實體識別(bie)任務(wu)”(Task 11)三個子賽(sai)道中拿下冠軍。
新聞相似度評價:目光如炬
本次(ci)SemEval 2022評(ping)測聚焦的Task 8是多語(yu)種新聞相似度(du)評(ping)價(jia)任務。科(ke)大(da)(da)訊飛(fei)與哈爾濱工業(ye)大(da)(da)學聯合組建的“哈工大(da)(da)訊飛(fei)聯合實驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱HFL)以顯著優勢摘得冠(guan)軍。
簡單(dan)來說,參賽隊伍需要在每組新(xin)(xin)聞中(zhong)判(pan)斷(duan)是否描述(shu)了同一(yi)個事件,并(bing)以1-4分(fen)(fen)為兩篇新(xin)(xin)聞的相似度(du)打分(fen)(fen),其中(zhong)包含(han)了多達10種語(yu)(yu)(yu)(yu)言,分(fen)(fen)別為阿拉伯語(yu)(yu)(yu)(yu)、德語(yu)(yu)(yu)(yu)、英(ying)語(yu)(yu)(yu)(yu)、西(xi)班牙語(yu)(yu)(yu)(yu)、法語(yu)(yu)(yu)(yu)、意大(da)利語(yu)(yu)(yu)(yu)、波蘭語(yu)(yu)(yu)(yu)、俄語(yu)(yu)(yu)(yu)、土耳其語(yu)(yu)(yu)(yu)和中(zhong)文(wen)。但(dan)新(xin)(xin)聞相似度(du)究竟是什么?讓我們用一(yi)則示例為大(da)家解讀。
圖中列舉了兩(liang)篇相(xiang)似度極高的(de)(de)新聞(wen)稿件,參賽隊(dui)伍必(bi)須(xu)將文中相(xiang)似的(de)(de)主要元素剝離出(chu)來并(bing)逐一分析,比如地理信息、敘(xu)事技巧、實體、語氣、時間及風格,最終得(de)出(chu)兩(liang)篇文章(zhang)的(de)(de)相(xiang)似度與差異化。
與普通(tong)的(de)文章相比(bi)(bi),該項(xiang)比(bi)(bi)賽更(geng)強調跨語言理解(jie)能力(li),除了寫(xie)作風(feng)格和敘述方(fang)式外,還(huan)需要把握文章中描述的(de)具體事件。通(tong)俗來(lai)說,該項(xiang)技術可以甄別外網的(de)一(yi)些新聞報道是否存在偏(pian)差與曲解(jie),從而有效預防虛假信(xin)(xin)息(xi)、不良信(xin)(xin)息(xi)的(de)傳播(bo)。
科大訊飛在這樣的賽道上拔得(de)頭籌,充分(fen)展示了在跨語言理(li)解能力上的強硬實力。
慣用語檢測:熟能生巧
哈工大訊飛(fei)聯(lian)合實驗(yan)室拿(na)下的(de)第二項(xiang)任(ren)務冠軍,便是(shi)Task2 Subtask A的(de)慣(guan)用(yong)語(yu)(yu)檢(jian)測。通俗來說(shuo),無論(lun)你是(shi)哪國人(ren),在(zai)日常表達(da)中(zhong)(zhong)都有一類短語(yu)(yu)的(de)固(gu)定(ding)(ding)用(yong)法(fa),并且該(gai)固(gu)定(ding)(ding)用(yong)法(fa)通常與短語(yu)(yu)的(de)字面語(yu)(yu)義不同,我們會將(jiang)這些短語(yu)(yu)稱為(wei)(wei)“慣(guan)用(yong)語(yu)(yu)”。想要(yao)理解包含慣(guan)用(yong)語(yu)(yu)的(de)句子(zi),首先需要(yao)判斷句子(zi)中(zhong)(zhong)的(de)多(duo)字短語(yu)(yu)是(shi)否(fou)為(wei)(wei)慣(guan)用(yong)語(yu)(yu),比如“說(shuo)曹操,曹操到。”句中(zhong)(zhong)的(de)曹操是(shi)否(fou)真實存在(zai)。
該(gai)任(ren)務(wu)的(de)形(xing)式便是給定一(yi)個目標語(yu)(yu)(yu)(yu)句,包括其上下文和(he)多字短(duan)(duan)語(yu)(yu)(yu)(yu),繼(ji)而判斷該(gai)語(yu)(yu)(yu)(yu)句中(zhong)(zhong)(zhong)的(de)多字短(duan)(duan)語(yu)(yu)(yu)(yu)用法究竟是慣用語(yu)(yu)(yu)(yu)還是字面意思。該(gai)任(ren)務(wu)為多語(yu)(yu)(yu)(yu)言(yan)任(ren)務(wu),包含英(ying)語(yu)(yu)(yu)(yu)、葡萄牙語(yu)(yu)(yu)(yu)、加利西亞(ya)語(yu)(yu)(yu)(yu)三種語(yu)(yu)(yu)(yu)言(yan)。其中(zhong)(zhong)(zhong)加利西亞(ya)語(yu)(yu)(yu)(yu)沒有在(zai)訓(xun)練(lian)集中(zhong)(zhong)(zhong)出(chu)現過,因(yin)此科大訊(xun)飛(fei)代表隊需要在(zai)不同語(yu)(yu)(yu)(yu)言(yan)之(zhi)間進行遷移學習。
還(huan)是(shi)不懂?別擔(dan)心,讓我們來看一(yi)則示例。
如例所(suo)示,Literal表示字面(mian)意(yi)思(si)(si),第一(yi)句(ju)(ju)話可翻譯為:當你(ni)從網中(zhong)抓一(yi)條大魚(yu)時,最好(hao)撐住它(ta)的(de)腰。Idiomatic表示慣(guan)用語,所(suo)以第二句(ju)(ju)話中(zhong)再(zai)次出現了大魚(yu)一(yi)詞,但卻不是(shi)簡單的(de)字面(mian)意(yi)思(si)(si),而是(shi)“大人(ren)物”。
所以該(gai)任務要求參賽(sai)隊(dui)伍區分不(bu)同(tong)句(ju)子中(zhong)同(tong)一個(ge)詞的(de)不(bu)同(tong)語義,這需要強大的(de)分析及跨語言(yan)理解能力。有(you)了該(gai)項技(ji)術(shu),在(zai)日常寫作和翻(fan)譯工作中(zhong),即可有(you)效鑒(jian)別(bie)慣用語的(de)表達(da)用意,極(ji)大提高內容準確率。
科大訊飛(fei)不負眾(zhong)望,再摘桂(gui)冠。
復雜命名實體識別:披荊斬棘
這第三冠有(you)多難?光聽名字就(jiu)覺得(de)復(fu)雜(za):多語(yu)種復(fu)雜(za)命名實(shi)體識別任務(MutiCoNER)。科大(da)訊飛聯合中(zhong)國科學技術大(da)學語(yu)音及語(yu)言信息處(chu)理國家(jia)工程(cheng)研究中(zhong)心(xin)迎(ying)難而上,在該(gai)項任務中(zhong)一舉拿下(xia)三個子賽道冠軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復雜),而NER則是Named Entity Recognition,又(you)稱作“命(ming)名(ming)實(shi)體識(shi)別”,是指識(shi)別文本中具有特定意義(yi)的實(shi)體,主(zhu)要(yao)包括人名(ming)、地(di)名(ming)、機構名(ming)、專有名(ming)詞等。
該任務(wu)(wu)是一個多語言(yan)(yan)賽(sai)道數(shu)據(ju)集,包(bao)含11項單獨(du)語言(yan)(yan)命名實(shi)體評(ping)測任務(wu)(wu),以(yi)(yi)及2項多語言(yan)(yan)統(tong)一建模的評(ping)測任務(wu)(wu)。該榜單數(shu)據(ju)來(lai)源于Wikidata(維(wei)基數(shu)據(ju)),數(shu)據(ju)量龐大且極具應用價值。參賽(sai)團隊需(xu)要在(zai)單個語言(yan)(yan)以(yi)(yi)及多個語言(yan)(yan)混(hun)合的文本數(shu)據(ju)中,精準預測不同語言(yan)(yan)實(shi)體的類別標(biao)簽。該任務(wu)(wu)采用國際通用的槽位F1評(ping)價指標(biao), 我們在(zai)多語言(yan)(yan)混(hun)合、中文、孟加拉語賽(sai)道上,分(fen)別以(yi)(yi)92.9%、81.6%、84.2%的F1成績登頂。
這項任務究竟有多難?舉個例子:NER是指從用戶文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表現出(chu)(chu)色。】既要識別出(chu)(chu)多個相關實(shi)體,同時是各語種夾雜的文本。
此(ci)前(qian)針對中文和英文需要單獨進行模型(xing)建(jian)模,此(ci)次有關賽道的挑(tiao)戰(zhan)是(shi)僅使用一個(ge)模型(xing)來可以(yi)完(wan)成不(bu)同語種任務,能夠快速識別復雜、專有詞匯,提高準確(que)率。
拒絕紙上談兵,技術應用要落地
當(dang)前,人類已(yi)進(jin)入(ru)“人、機、物”智(zhi)能互(hu)聯時代,智(zhi)能語音是這(zhe)個時代最為關(guan)鍵的入(ru)口(kou)之一(yi),有助于實現語言大互(hu)通,建設人類命運(yun)共同體。科大訊飛始(shi)終保持初(chu)心、堅持源(yuan)頭核心技術創新,在語音、語義等國際賽事(shi)中為國爭光(guang)。
在(zai)(zai)(zai)2021年11月舉辦的(de)國際低(di)資源多(duo)(duo)種語(yu)音識別(bie)競賽(sai)(sai)OpenASR中(zhong),科(ke)大(da)訊飛參加了所有15個(ge)語(yu)種受(shou)限賽(sai)(sai)道和7個(ge)語(yu)種非(fei)受(shou)限賽(sai)(sai)道,并全部取得了第一名,而在(zai)(zai)(zai)SemEval2022多(duo)(duo)語(yu)種NLP領域中(zhong)取得佳績也(ye)標志著(zhu)科(ke)大(da)訊飛在(zai)(zai)(zai)多(duo)(duo)語(yu)言理解與跨語(yu)言遷移能力再上新臺階,從多(duo)(duo)語(yu)種語(yu)音到(dao)多(duo)(duo)語(yu)種語(yu)言都有著(zhu)頂尖技術實力。
而(er)在(zai)2022年的北京(jing)冬奧(ao)會和冬殘奧(ao)會上,科大訊飛(fei)作為“官方自動語音(yin)轉換與翻譯獨家供應商”,為所有觀眾(zhong)展現了一場“無障礙溝(gou)通”的體育盛會。
基于強(qiang)大的(de)多語(yu)(yu)種(zhong)語(yu)(yu)音(yin)語(yu)(yu)言技術,我們(men)可以做到語(yu)(yu)種(zhong)足(zu)夠全、翻(fan)(fan)譯(yi)足(zu)夠準、反應(ying)足(zu)夠快(kuai),支(zhi)持包括冬奧(ao)(ao)體育在內的(de)16大行業領域翻(fan)(fan)譯(yi),在冬奧(ao)(ao)應(ying)用場景下,中(zhong)文與英(ying)/俄/法/西/日等(deng)重點語(yu)(yu)種(zhong)的(de)翻(fan)(fan)譯(yi)準確率超過90%,平均每句語(yu)(yu)音(yin)翻(fan)(fan)譯(yi)響(xiang)應(ying)時(shi)間不超過1.5秒,一(yi)方面幫助各國觀眾、游客快(kuai)速(su)掌握賽事信息,另(ling)一(yi)方面我們(men)特別希(xi)望(wang)幫助聽障(zhang)人士運用科技的(de)手段聽得(de)見奧(ao)(ao)運文字(zi),看(kan)得(de)見奧(ao)(ao)運聲(sheng)音(yin)。
值(zhi)得一提的(de)(de)是,科(ke)大訊飛AI虛(xu)擬(ni)人(ren)“愛加(i+)”也(ye)成為了冬奧(ao)會(hui)的(de)(de)一名“虛(xu)擬(ni)志(zhi)愿者”。在北京冬奧(ao)小屋中,愛加可以(yi)用多種語(yu)(yu)言(yan)與各國運(yun)動員進行面對面的(de)(de)交流,助(zhu)力冬奧(ao)的(de)(de)無障礙(ai)溝通(tong)。科(ke)大訊飛運(yun)用語(yu)(yu)音識(shi)別(bie)、語(yu)(yu)音合(he)成、口唇(chun)驅(qu)動、面部驅(qu)動、肢(zhi)體動作驅(qu)動等多項核心技(ji)術,打造出虛(xu)擬(ni)形(xing)象自動化(hua)內容生(sheng)產方(fang)案,讓(rang)虛(xu)擬(ni)人(ren)不僅(jin)會(hui)說(shuo)普通(tong)話(hua),同時支(zhi)持31種語(yu)(yu)言(yan)及(ji)方(fang)言(yan),是不折(zhe)不扣的(de)(de)“語(yu)(yu)言(yan)通(tong)”,不僅(jin)能(neng)進行面對面的(de)(de)冬奧(ao)賽事、賽程(cheng)實時互(hu)動交流,還能(neng)陪你玩一把冬奧(ao)知(zhi)識(shi)游(you)戲(xi)大PK,周邊交通(tong)、文化(hua)、旅游(you)等咨(zi)詢問答(da)也(ye)不在話(hua)下。
除此(ci)之外(wai)(wai),在教育、醫療(liao)、司法等(deng)場(chang)景中的(de)各類行業人(ren)工智能應用(yong)中,多(duo)語(yu)(yu)種語(yu)(yu)音(yin)交互系統都將發(fa)揮重要作用(yong)。經(jing)過(guo)多(duo)年的(de)技術積(ji)累,除了中英以外(wai)(wai),當前(qian)科大訊飛已(yi)經(jing)具備其他69種語(yu)(yu)言的(de)語(yu)(yu)音(yin)識別能力,其中已(yi)經(jing)有(you)35個語(yu)(yu)種準確率已(yi)經(jing)超(chao)過(guo)90%,并已(yi)在新加坡、俄羅斯、印度、日(ri)本(ben)等(deng)國家部署了海(hai)外(wai)(wai)站點,將持(chi)續為海(hai)內外(wai)(wai)開發(fa)者提供(gong)語(yu)(yu)音(yin)識別、語(yu)(yu)音(yin)合成、機器翻譯、圖文識別等(deng)語(yu)(yu)音(yin)語(yu)(yu)言服務。
如(ru)何(he)(he)更好地(di)(di)研發包括中文(wen)在內的多語種語音及語言技術的AI能力并實現大規模應用落地(di)(di),如(ru)何(he)(he)更好地(di)(di)用人工智能技術服務社會、建設美(mei)好世界(jie),是(shi)我(wo)們(men)不斷奮斗努力的方向(xiang)。
未來,科大訊飛將不(bu)斷開展人工(gong)(gong)智能源頭(tou)技術創(chuang)新,助(zhu)力(li)中(zhong)國人工(gong)(gong)智能在全球(qiu)贏得話(hua)語權,實現更多人工(gong)(gong)智能創(chuang)新應用真正解決社會剛需(xu),蓬勃向上,生生不(bu)息。