2022年(nian)4月,第(di)十六屆國(guo)際語義評測(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大(da)賽(sai)落(luo)下帷(wei)幕,科(ke)大(da)訊(xun)飛在三(san)項主要(yao)賽(sai)道(dao)中拿(na)下冠軍,標志著科(ke)大(da)訊(xun)飛在多語種語言理解領域(yu)持續(xu)進階。
SemEval 2022評(ping)測由國(guo)際(ji)計算(suan)語言學(xue)協會(Association for Computational Linguistics, ACL)旗(qi)下SIGLEX主辦,參(can)賽者覆蓋國(guo)內、外一流高校及知名企業,包括(kuo)達(da)特茅斯學(xue)院、謝菲爾(er)德大學(xue)、華為、阿里(li)達(da)摩院等,代(dai)表(biao)著最前沿國(guo)際(ji)技術和水(shui)平。
經過角(jiao)逐,科大訊飛(fei)分別(bie)在“多(duo)語種(zhong)新聞相(xiang)似度評測任(ren)務”(Task 8)、“多(duo)語種(zhong)慣用(yong)語識別(bie)任(ren)務” 子賽道(dao)(Task 2: Subtask A one-shot)、“多(duo)語種(zhong)復雜命名實體識別(bie)任(ren)務”(Task 11)三個子賽道(dao)中(zhong)拿下冠軍(jun)。
新聞相似度評價:目光如炬
本次(ci)SemEval 2022評測聚焦的Task 8是(shi)多語種新聞相似度(du)評價任(ren)務。科大訊飛(fei)與哈(ha)(ha)爾濱工(gong)業大學聯合組(zu)建的“哈(ha)(ha)工(gong)大訊飛(fei)聯合實驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱(cheng)HFL)以(yi)顯著優勢摘得(de)冠軍。
簡單來說,參賽隊伍需要(yao)在每(mei)組新聞(wen)中判(pan)斷(duan)是(shi)(shi)否描述(shu)了同(tong)一個事件,并以1-4分(fen)為兩篇(pian)新聞(wen)的相似度(du)打分(fen),其中包含(han)了多達(da)10種語(yu)(yu)言,分(fen)別為阿拉(la)伯語(yu)(yu)、德語(yu)(yu)、英語(yu)(yu)、西班牙語(yu)(yu)、法語(yu)(yu)、意大利語(yu)(yu)、波蘭(lan)語(yu)(yu)、俄語(yu)(yu)、土耳其語(yu)(yu)和中文。但(dan)新聞(wen)相似度(du)究竟是(shi)(shi)什么?讓我(wo)們用一則示例為大家解(jie)讀。
圖中列(lie)舉(ju)了兩篇相似(si)度極高的新聞稿件(jian),參賽隊(dui)伍(wu)必須將文(wen)(wen)中相似(si)的主要(yao)元素剝離出(chu)來(lai)并逐(zhu)一(yi)分(fen)析,比如(ru)地理信息、敘事技巧、實(shi)體、語氣、時(shi)間及(ji)風(feng)格(ge),最終得(de)出(chu)兩篇文(wen)(wen)章的相似(si)度與差異化。
與普(pu)通(tong)的文(wen)章相(xiang)比(bi)(bi),該(gai)項(xiang)比(bi)(bi)賽更強(qiang)調跨語(yu)言(yan)理解能力,除了(le)寫作風格和(he)敘述方式外(wai),還需要把握文(wen)章中(zhong)描(miao)述的具體事件。通(tong)俗來說(shuo),該(gai)項(xiang)技術可(ke)以(yi)甄(zhen)別外(wai)網(wang)的一些(xie)新聞(wen)報道是否存在偏差(cha)與曲解,從而(er)有效預(yu)防(fang)虛假信息、不良(liang)信息的傳播。
科(ke)大(da)訊飛在(zai)這樣的(de)賽道上(shang)拔得頭籌,充分展示了在(zai)跨語言理解(jie)能(neng)力(li)上(shang)的(de)強硬(ying)實力(li)。
慣用語檢測:熟能生巧
哈(ha)工(gong)大訊飛(fei)聯合實驗室(shi)拿下的(de)(de)第二項任(ren)務冠軍(jun),便(bian)是(shi)Task2 Subtask A的(de)(de)慣用(yong)(yong)語(yu)檢測。通俗來說,無(wu)論你是(shi)哪國人,在(zai)日常表(biao)達中都(dou)有(you)一(yi)類短(duan)語(yu)的(de)(de)固定用(yong)(yong)法(fa),并且該固定用(yong)(yong)法(fa)通常與短(duan)語(yu)的(de)(de)字面語(yu)義不同,我們會將這(zhe)些(xie)短(duan)語(yu)稱為“慣用(yong)(yong)語(yu)”。想要理解包(bao)含慣用(yong)(yong)語(yu)的(de)(de)句(ju)(ju)子(zi),首先需要判斷句(ju)(ju)子(zi)中的(de)(de)多字短(duan)語(yu)是(shi)否為慣用(yong)(yong)語(yu),比如“說曹(cao)操,曹(cao)操到(dao)。”句(ju)(ju)中的(de)(de)曹(cao)操是(shi)否真實存(cun)在(zai)。
該(gai)(gai)任務(wu)(wu)的形式便是(shi)給定一(yi)個目(mu)標語(yu)(yu)句(ju),包括其上下文(wen)和多(duo)字(zi)短語(yu)(yu),繼而判斷該(gai)(gai)語(yu)(yu)句(ju)中(zhong)的多(duo)字(zi)短語(yu)(yu)用法(fa)究(jiu)竟(jing)是(shi)慣用語(yu)(yu)還(huan)是(shi)字(zi)面(mian)意思。該(gai)(gai)任務(wu)(wu)為多(duo)語(yu)(yu)言(yan)任務(wu)(wu),包含(han)英語(yu)(yu)、葡(pu)萄牙語(yu)(yu)、加利(li)西亞語(yu)(yu)三(san)種語(yu)(yu)言(yan)。其中(zhong)加利(li)西亞語(yu)(yu)沒有在(zai)訓練集中(zhong)出現過,因此(ci)科大訊飛(fei)代表隊需(xu)要在(zai)不(bu)同語(yu)(yu)言(yan)之間進行遷移學習。
還是不懂?別擔心(xin),讓我們(men)來看一則示例。
如(ru)例所示,Literal表示字(zi)面意思,第(di)(di)一(yi)(yi)句話(hua)(hua)可翻譯為:當你從網(wang)中(zhong)抓(zhua)一(yi)(yi)條(tiao)大魚(yu)時,最好撐住它的腰。Idiomatic表示慣用語,所以(yi)第(di)(di)二句話(hua)(hua)中(zhong)再次出現了(le)大魚(yu)一(yi)(yi)詞,但卻不是簡單的字(zi)面意思,而是“大人(ren)物(wu)”。
所以(yi)該任務(wu)要求參賽隊(dui)伍區分不(bu)同句子中(zhong)同一(yi)個詞的(de)不(bu)同語(yu)(yu)(yu)義,這需要強大的(de)分析(xi)及跨語(yu)(yu)(yu)言理解能力。有了(le)該項技術,在日(ri)常寫作(zuo)和翻譯工(gong)作(zuo)中(zhong),即可(ke)有效鑒別慣(guan)用語(yu)(yu)(yu)的(de)表達用意,極(ji)大提高內容準確(que)率。
科(ke)大訊(xun)飛不負眾望,再摘桂冠。
復雜命名實體識別:披荊斬棘
這第三冠(guan)有多難?光聽名字就(jiu)覺得(de)復雜:多語種復雜命名實體識別任務(MutiCoNER)。科大訊飛聯合中(zhong)國(guo)科學(xue)技術(shu)大學(xue)語音及語言信息處理國(guo)家(jia)工程研究中(zhong)心(xin)迎(ying)難而(er)上,在該項任務中(zhong)一舉拿(na)下三個(ge)子賽道冠(guan)軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復(fu)雜),而NER則是(shi)Named Entity Recognition,又稱作“命名(ming)(ming)實體(ti)識別”,是(shi)指識別文(wen)本中具有(you)特定(ding)意義(yi)的實體(ti),主要(yao)包(bao)括人(ren)名(ming)(ming)、地名(ming)(ming)、機(ji)構(gou)名(ming)(ming)、專(zhuan)有(you)名(ming)(ming)詞(ci)等。
該任務是一個多語(yu)(yu)言(yan)(yan)(yan)賽(sai)道數(shu)據(ju)(ju)集(ji),包含(han)11項單獨(du)語(yu)(yu)言(yan)(yan)(yan)命(ming)名(ming)實體(ti)評(ping)測任務,以及2項多語(yu)(yu)言(yan)(yan)(yan)統一建模的(de)評(ping)測任務。該榜單數(shu)據(ju)(ju)來(lai)源于Wikidata(維基數(shu)據(ju)(ju)),數(shu)據(ju)(ju)量龐大且極(ji)具應用價值(zhi)。參賽(sai)團(tuan)隊需要在單個語(yu)(yu)言(yan)(yan)(yan)以及多個語(yu)(yu)言(yan)(yan)(yan)混合(he)的(de)文本數(shu)據(ju)(ju)中,精準預測不同(tong)語(yu)(yu)言(yan)(yan)(yan)實體(ti)的(de)類別(bie)標(biao)簽。該任務采用國際通用的(de)槽位F1評(ping)價指標(biao), 我們(men)在多語(yu)(yu)言(yan)(yan)(yan)混合(he)、中文、孟加拉語(yu)(yu)賽(sai)道上,分別(bie)以92.9%、81.6%、84.2%的(de)F1成績登頂。
這項任務究竟有多難?舉個例子:NER是指從用戶文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(he)(Arjen Robben)[PER]的(de)(de)表現出(chu)色。】既要識(shi)別出(chu)多個相關實體,同時是(shi)各語種(zhong)夾雜的(de)(de)文本。
此前針對中文(wen)和(he)英文(wen)需要單獨進行模型建(jian)模,此次有(you)關賽道的挑戰是僅使(shi)用一個模型來(lai)可以完(wan)成不同語種任(ren)務,能夠快速識(shi)別復(fu)雜、專有(you)詞匯(hui),提(ti)高(gao)準確率(lv)。
拒絕紙上談兵,技術應用要落地
當前,人(ren)(ren)類已進(jin)入(ru)“人(ren)(ren)、機、物”智能互聯時代,智能語(yu)音是這個時代最為關鍵的入(ru)口之一,有助于(yu)實現語(yu)言大互通,建(jian)設(she)人(ren)(ren)類命(ming)運共同體。科大訊飛(fei)始終保持初心、堅持源頭核(he)心技術創新,在語(yu)音、語(yu)義等國際賽事(shi)中為國爭光。
在(zai)2021年11月舉辦的國際低(di)資(zi)源(yuan)多(duo)種(zhong)語(yu)(yu)音(yin)識別(bie)競賽(sai)OpenASR中,科大(da)訊(xun)飛參加了(le)所有15個(ge)語(yu)(yu)種(zhong)受限賽(sai)道和7個(ge)語(yu)(yu)種(zhong)非受限賽(sai)道,并全部取(qu)得了(le)第一名,而在(zai)SemEval2022多(duo)語(yu)(yu)種(zhong)NLP領域中取(qu)得佳績也標志著科大(da)訊(xun)飛在(zai)多(duo)語(yu)(yu)言(yan)理解與跨語(yu)(yu)言(yan)遷(qian)移能力再(zai)上新臺階(jie),從多(duo)語(yu)(yu)種(zhong)語(yu)(yu)音(yin)到多(duo)語(yu)(yu)種(zhong)語(yu)(yu)言(yan)都有著頂尖技術實力。
而在2022年(nian)的(de)北(bei)京冬(dong)奧會和冬(dong)殘奧會上,科大訊飛作為“官方自動(dong)語音轉(zhuan)換與翻譯獨(du)家供應商”,為所有觀眾展現了一場“無障礙溝通”的(de)體育盛會。
基于(yu)強大(da)的(de)多語(yu)種語(yu)音(yin)語(yu)言技術,我們可以做到語(yu)種足(zu)夠(gou)全、翻譯(yi)(yi)足(zu)夠(gou)準(zhun)、反應(ying)足(zu)夠(gou)快,支(zhi)持包括冬奧(ao)體育在內的(de)16大(da)行業領域翻譯(yi)(yi),在冬奧(ao)應(ying)用場景下,中文與英/俄/法(fa)/西/日等重點語(yu)種的(de)翻譯(yi)(yi)準(zhun)確率(lv)超(chao)過90%,平均每句語(yu)音(yin)翻譯(yi)(yi)響應(ying)時間不超(chao)過1.5秒(miao),一方(fang)面幫助各(ge)國(guo)觀(guan)眾、游客快速掌握(wo)賽事信(xin)息(xi),另一方(fang)面我們特別希望幫助聽障(zhang)人士運(yun)用科技的(de)手段聽得見奧(ao)運(yun)文字(zi),看(kan)得見奧(ao)運(yun)聲音(yin)。
值(zhi)得一提(ti)的(de)是,科大(da)訊飛AI虛擬(ni)人“愛(ai)加(i+)”也成(cheng)為了冬(dong)(dong)奧(ao)會(hui)(hui)的(de)一名“虛擬(ni)志愿(yuan)者(zhe)”。在北京冬(dong)(dong)奧(ao)小屋中,愛(ai)加可以用多(duo)種(zhong)語言(yan)與各國運(yun)動(dong)員進行(xing)面(mian)(mian)對(dui)面(mian)(mian)的(de)交(jiao)流(liu),助力冬(dong)(dong)奧(ao)的(de)無障礙(ai)溝(gou)通(tong)(tong)。科大(da)訊飛運(yun)用語音識別、語音合成(cheng)、口(kou)唇驅動(dong)、面(mian)(mian)部(bu)驅動(dong)、肢體動(dong)作驅動(dong)等多(duo)項核心技術,打造出虛擬(ni)形象自動(dong)化內容生產(chan)方案,讓虛擬(ni)人不(bu)僅會(hui)(hui)說普通(tong)(tong)話,同(tong)時(shi)(shi)支持31種(zhong)語言(yan)及(ji)方言(yan),是不(bu)折不(bu)扣的(de)“語言(yan)通(tong)(tong)”,不(bu)僅能進行(xing)面(mian)(mian)對(dui)面(mian)(mian)的(de)冬(dong)(dong)奧(ao)賽(sai)事、賽(sai)程實時(shi)(shi)互動(dong)交(jiao)流(liu),還(huan)能陪你玩一把(ba)冬(dong)(dong)奧(ao)知識游戲大(da)PK,周邊交(jiao)通(tong)(tong)、文化、旅游等咨詢問答也不(bu)在話下(xia)。
除此之(zhi)外(wai)(wai),在教(jiao)育、醫療、司法等場景中的各類(lei)行業(ye)人工智能(neng)應用(yong)中,多語(yu)(yu)種語(yu)(yu)音交互系統都將發揮重要作用(yong)。經過多年(nian)的技(ji)術積累,除了中英以外(wai)(wai),當前科大訊(xun)飛已(yi)經具備(bei)其他69種語(yu)(yu)言的語(yu)(yu)音識別能(neng)力,其中已(yi)經有35個語(yu)(yu)種準確率已(yi)經超過90%,并(bing)已(yi)在新加坡(po)、俄羅斯、印度(du)、日(ri)本等國家(jia)部署了海(hai)外(wai)(wai)站點,將持續為海(hai)內外(wai)(wai)開發者提(ti)供(gong)語(yu)(yu)音識別、語(yu)(yu)音合(he)成、機器翻譯、圖文識別等語(yu)(yu)音語(yu)(yu)言服務。
如何更好(hao)地研發包括中文在內的多語(yu)種語(yu)音及語(yu)言技術(shu)的AI能力并實現大規模應用(yong)落(luo)地,如何更好(hao)地用(yong)人工(gong)智(zhi)能技術(shu)服務社會、建設(she)美(mei)好(hao)世(shi)界,是我們(men)不斷(duan)奮(fen)斗努(nu)力的方向。
未來,科大訊飛(fei)將(jiang)不(bu)斷開(kai)展人(ren)(ren)工(gong)智(zhi)能(neng)源頭技術創新(xin),助力中國(guo)人(ren)(ren)工(gong)智(zhi)能(neng)在(zai)全球贏得(de)話語權,實現更多人(ren)(ren)工(gong)智(zhi)能(neng)創新(xin)應用真正(zheng)解決社(she)會剛(gang)需,蓬勃向上(shang),生(sheng)生(sheng)不(bu)息。