2022年4月,第十六屆國際(ji)語義(yi)評測(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大(da)(da)賽落下(xia)帷幕,科大(da)(da)訊飛在三項主要賽道中拿下(xia)冠軍,標志(zhi)著(zhu)科大(da)(da)訊飛在多語種語言(yan)理解(jie)領域(yu)持續進階。
SemEval 2022評測由(you)國際計(ji)算語言學協(xie)會(Association for Computational Linguistics, ACL)旗下SIGLEX主辦,參賽者覆蓋國內、外一流高(gao)校及知名(ming)企業(ye),包括(kuo)達(da)特(te)茅斯(si)學院、謝菲爾德大學、華為(wei)、阿里達(da)摩(mo)院等,代表著(zhu)最(zui)前(qian)沿(yan)國際技術和水平。
經過角逐,科大訊飛(fei)分(fen)別在“多語(yu)種新聞相似(si)度評測任務”(Task 8)、“多語(yu)種慣用語(yu)識別任務” 子賽道(Task 2: Subtask A one-shot)、“多語(yu)種復(fu)雜命名實體識別任務”(Task 11)三個子賽道中拿下冠軍。
新聞相似度評價:目光如炬
本次SemEval 2022評(ping)(ping)測聚焦的(de)Task 8是多語種新聞相似度評(ping)(ping)價(jia)任務(wu)。科大(da)訊飛(fei)(fei)與(yu)哈爾濱工業大(da)學聯合組(zu)建的(de)“哈工大(da)訊飛(fei)(fei)聯合實驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱(cheng)HFL)以顯著優(you)勢摘得冠軍。
簡單來說,參賽隊伍需要在每組新聞(wen)中判斷是(shi)否(fou)描述(shu)了同一個(ge)事件,并以(yi)1-4分為兩篇新聞(wen)的相(xiang)似(si)度(du)打分,其(qi)中包含(han)了多達(da)10種語(yu)(yu)言,分別為阿拉伯語(yu)(yu)、德語(yu)(yu)、英語(yu)(yu)、西班牙(ya)語(yu)(yu)、法語(yu)(yu)、意大利語(yu)(yu)、波蘭語(yu)(yu)、俄(e)語(yu)(yu)、土耳其(qi)語(yu)(yu)和(he)中文。但新聞(wen)相(xiang)似(si)度(du)究竟(jing)是(shi)什(shen)么(me)?讓我(wo)們(men)用(yong)一則(ze)示(shi)例為大家解讀。
圖中(zhong)列舉(ju)了兩(liang)篇相似度極高的新聞稿件,參賽(sai)隊伍必(bi)須(xu)將文(wen)中(zhong)相似的主要(yao)元(yuan)素剝離出(chu)來并逐一分析,比如地理信息、敘事技巧、實體、語(yu)氣、時(shi)間(jian)及風格,最終(zhong)得(de)出(chu)兩(liang)篇文(wen)章的相似度與差異化。
與普(pu)通的(de)文章(zhang)相比(bi),該項比(bi)賽更(geng)強(qiang)調跨語言理解能(neng)力(li),除了寫作風格和敘(xu)述(shu)方式外,還需(xu)要把握文章(zhang)中描(miao)述(shu)的(de)具體事件。通俗來說,該項技術可以甄(zhen)別外網(wang)的(de)一(yi)些新聞報道是(shi)否存在偏差與曲解,從而有效預防虛假信息、不(bu)良信息的(de)傳播。
科(ke)大訊(xun)飛在(zai)這(zhe)樣的賽道上(shang)拔得(de)頭籌,充分展示了在(zai)跨語言理解能力上(shang)的強硬實力。
慣用語檢測:熟能生巧
哈工大訊(xun)飛聯合實驗室(shi)拿下的(de)(de)(de)第二(er)項任務冠軍,便是Task2 Subtask A的(de)(de)(de)慣用語(yu)(yu)檢測。通俗來說(shuo)(shuo),無論你是哪(na)國人,在(zai)日常(chang)表達中(zhong)都(dou)有一(yi)類短語(yu)(yu)的(de)(de)(de)固定用法,并(bing)且該固定用法通常(chang)與短語(yu)(yu)的(de)(de)(de)字面語(yu)(yu)義不同,我(wo)們會將(jiang)這(zhe)些(xie)短語(yu)(yu)稱為(wei)“慣用語(yu)(yu)”。想要理解(jie)包含慣用語(yu)(yu)的(de)(de)(de)句(ju)子,首先(xian)需(xu)要判斷句(ju)子中(zhong)的(de)(de)(de)多字短語(yu)(yu)是否(fou)為(wei)慣用語(yu)(yu),比如“說(shuo)(shuo)曹(cao)操(cao),曹(cao)操(cao)到。”句(ju)中(zhong)的(de)(de)(de)曹(cao)操(cao)是否(fou)真實存在(zai)。
該(gai)任務(wu)的形式(shi)便(bian)是給定一個目標語(yu)句(ju),包括其(qi)上(shang)下(xia)文和多字短(duan)語(yu),繼而判斷該(gai)語(yu)句(ju)中的多字短(duan)語(yu)用(yong)法究竟是慣用(yong)語(yu)還(huan)是字面意(yi)思。該(gai)任務(wu)為多語(yu)言(yan)任務(wu),包含英(ying)語(yu)、葡(pu)萄牙語(yu)、加利(li)西亞(ya)語(yu)三種語(yu)言(yan)。其(qi)中加利(li)西亞(ya)語(yu)沒有在訓練集中出(chu)現過(guo),因此科大訊飛代表隊需要(yao)在不同(tong)語(yu)言(yan)之間進(jin)行遷移(yi)學(xue)習。
還是不懂?別擔(dan)心(xin),讓我(wo)們來看一則示例(li)。
如(ru)例所示,Literal表示字面意思,第一句話可翻(fan)譯(yi)為:當你從網中抓一條大魚(yu)時,最(zui)好撐住它的腰。Idiomatic表示慣用語,所以第二句話中再次出現了大魚(yu)一詞(ci),但卻不是(shi)簡單的字面意思,而是(shi)“大人物(wu)”。
所(suo)以該(gai)任務要求參賽隊伍區(qu)分不(bu)同句(ju)子中同一個詞的(de)不(bu)同語(yu)義,這需要強大(da)的(de)分析及(ji)跨(kua)語(yu)言理解能力。有了該(gai)項技術(shu),在(zai)日常寫作和翻(fan)譯工(gong)作中,即可(ke)有效鑒別慣用語(yu)的(de)表(biao)達用意(yi),極大(da)提(ti)高(gao)內容(rong)準確率。
科大(da)訊飛不負眾(zhong)望,再摘(zhai)桂(gui)冠。
復雜命名實體識別:披荊斬棘
這第三(san)冠(guan)有多(duo)難(nan)?光聽名(ming)(ming)字(zi)就覺得(de)復雜:多(duo)語種復雜命名(ming)(ming)實體識別任務(MutiCoNER)。科(ke)大(da)(da)訊(xun)飛聯合中(zhong)國科(ke)學技(ji)術大(da)(da)學語音(yin)及語言信(xin)息處(chu)理國家工(gong)程研究中(zhong)心迎難(nan)而(er)上,在該項任務中(zhong)一舉拿(na)下三(san)個子賽道冠(guan)軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復雜(za)),而NER則是Named Entity Recognition,又稱作(zuo)“命名(ming)實體(ti)識(shi)別”,是指(zhi)識(shi)別文本中具有特定意義的實體(ti),主要包括人(ren)名(ming)、地名(ming)、機(ji)構名(ming)、專有名(ming)詞等。
該任(ren)務是一個多(duo)語(yu)言(yan)(yan)(yan)賽(sai)(sai)道數(shu)(shu)(shu)據集,包含11項單獨語(yu)言(yan)(yan)(yan)命名實體評(ping)(ping)測任(ren)務,以(yi)(yi)及2項多(duo)語(yu)言(yan)(yan)(yan)統(tong)一建模的(de)評(ping)(ping)測任(ren)務。該榜單數(shu)(shu)(shu)據來源(yuan)于(yu)Wikidata(維基數(shu)(shu)(shu)據),數(shu)(shu)(shu)據量龐大且極具應用價值。參(can)賽(sai)(sai)團隊(dui)需要在單個語(yu)言(yan)(yan)(yan)以(yi)(yi)及多(duo)個語(yu)言(yan)(yan)(yan)混(hun)合的(de)文本數(shu)(shu)(shu)據中(zhong),精準預測不同語(yu)言(yan)(yan)(yan)實體的(de)類別標簽。該任(ren)務采用國際(ji)通用的(de)槽(cao)位F1評(ping)(ping)價指標, 我(wo)們在多(duo)語(yu)言(yan)(yan)(yan)混(hun)合、中(zhong)文、孟加拉語(yu)賽(sai)(sai)道上,分(fen)別以(yi)(yi)92.9%、81.6%、84.2%的(de)F1成績登頂。
這項任務究竟有多難?舉個例子:NER是指從用戶文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表(biao)現出色。】既要識別出多個相關(guan)實體,同(tong)時是各語種夾雜的文(wen)本。
此前針對中文和英文需要單(dan)獨(du)進行模型(xing)建(jian)模,此次有關賽道的(de)挑戰是僅使用一個模型(xing)來可以完成(cheng)不同語種任務,能夠快速識別復雜、專有詞匯,提高準確率。
拒絕紙上談兵,技術應用要落地
當(dang)前,人(ren)(ren)類已進入(ru)“人(ren)(ren)、機、物”智能互聯時代(dai),智能語音(yin)是這個時代(dai)最為(wei)關鍵的入(ru)口之一,有助(zhu)于實(shi)現(xian)語言大(da)互通,建(jian)設人(ren)(ren)類命(ming)運(yun)共同體。科(ke)大(da)訊飛始終(zhong)保持初心、堅持源(yuan)頭(tou)核心技術(shu)創新,在語音(yin)、語義(yi)等國際賽(sai)事中為(wei)國爭光。
在2021年(nian)11月舉辦(ban)的國際低資源多(duo)(duo)種(zhong)(zhong)語(yu)音(yin)識別(bie)競(jing)賽(sai)OpenASR中(zhong),科大訊飛參加了所有15個語(yu)種(zhong)(zhong)受(shou)限賽(sai)道(dao)和7個語(yu)種(zhong)(zhong)非受(shou)限賽(sai)道(dao),并全部(bu)取(qu)得了第(di)一名,而在SemEval2022多(duo)(duo)語(yu)種(zhong)(zhong)NLP領域中(zhong)取(qu)得佳績也標(biao)志著(zhu)科大訊飛在多(duo)(duo)語(yu)言(yan)(yan)理(li)解與跨語(yu)言(yan)(yan)遷(qian)移能力(li)再上新臺階,從多(duo)(duo)語(yu)種(zhong)(zhong)語(yu)音(yin)到多(duo)(duo)語(yu)種(zhong)(zhong)語(yu)言(yan)(yan)都(dou)有著(zhu)頂尖(jian)技術(shu)實力(li)。
而在2022年的北京冬奧會和冬殘(can)奧會上,科(ke)大訊飛作為“官方自動語(yu)音(yin)轉換與(yu)翻譯(yi)獨家供應商”,為所(suo)有觀眾展(zhan)現了一(yi)場(chang)“無障礙(ai)溝通”的體育盛會。
基于強大的(de)多語種語音(yin)語言技術,我們可以做到語種足夠(gou)全、翻(fan)譯(yi)足夠(gou)準、反應(ying)足夠(gou)快(kuai),支持包括冬奧(ao)體育(yu)在(zai)內的(de)16大行業領域翻(fan)譯(yi),在(zai)冬奧(ao)應(ying)用場景下,中文(wen)與英/俄/法/西/日等(deng)重點語種的(de)翻(fan)譯(yi)準確率超(chao)(chao)過90%,平均每句(ju)語音(yin)翻(fan)譯(yi)響應(ying)時間(jian)不超(chao)(chao)過1.5秒(miao),一(yi)(yi)方(fang)面幫助(zhu)各國觀眾、游客快(kuai)速掌握賽事信息,另一(yi)(yi)方(fang)面我們特別(bie)希望幫助(zhu)聽(ting)障(zhang)人士運用科技的(de)手(shou)段聽(ting)得見奧(ao)運文(wen)字,看得見奧(ao)運聲(sheng)音(yin)。
值得一(yi)(yi)提的(de)(de)是,科(ke)大訊(xun)飛AI虛(xu)擬(ni)(ni)人(ren)“愛加(i+)”也(ye)成為了冬(dong)(dong)(dong)奧(ao)(ao)會的(de)(de)一(yi)(yi)名“虛(xu)擬(ni)(ni)志愿者”。在北京冬(dong)(dong)(dong)奧(ao)(ao)小屋中,愛加可以用(yong)(yong)多(duo)種(zhong)語(yu)(yu)言(yan)(yan)(yan)與各國運動(dong)員(yuan)進行面(mian)(mian)對(dui)面(mian)(mian)的(de)(de)交(jiao)流(liu),助力冬(dong)(dong)(dong)奧(ao)(ao)的(de)(de)無障礙溝通(tong)。科(ke)大訊(xun)飛運用(yong)(yong)語(yu)(yu)音(yin)識別、語(yu)(yu)音(yin)合(he)成、口唇驅動(dong)、面(mian)(mian)部驅動(dong)、肢體動(dong)作(zuo)驅動(dong)等多(duo)項(xiang)核心技(ji)術,打造出虛(xu)擬(ni)(ni)形象自動(dong)化內容生(sheng)產方(fang)案,讓虛(xu)擬(ni)(ni)人(ren)不(bu)僅(jin)會說普通(tong)話,同時支持31種(zhong)語(yu)(yu)言(yan)(yan)(yan)及方(fang)言(yan)(yan)(yan),是不(bu)折不(bu)扣的(de)(de)“語(yu)(yu)言(yan)(yan)(yan)通(tong)”,不(bu)僅(jin)能進行面(mian)(mian)對(dui)面(mian)(mian)的(de)(de)冬(dong)(dong)(dong)奧(ao)(ao)賽事(shi)、賽程實時互動(dong)交(jiao)流(liu),還(huan)能陪你玩一(yi)(yi)把(ba)冬(dong)(dong)(dong)奧(ao)(ao)知(zhi)識游戲大PK,周(zhou)邊(bian)交(jiao)通(tong)、文化、旅游等咨詢問答也(ye)不(bu)在話下(xia)。
除此之外,在(zai)(zai)教育、醫療(liao)、司法等(deng)場景中的各類行(xing)業人工智能應(ying)用中,多(duo)(duo)語(yu)(yu)種(zhong)語(yu)(yu)音(yin)交互系(xi)統(tong)都將(jiang)發(fa)揮重要作用。經(jing)過(guo)多(duo)(duo)年的技術積(ji)累,除了中英以外,當前科大訊飛已經(jing)具備其他69種(zhong)語(yu)(yu)言的語(yu)(yu)音(yin)識別(bie)能力(li),其中已經(jing)有35個語(yu)(yu)種(zhong)準確率(lv)已經(jing)超過(guo)90%,并已在(zai)(zai)新加坡、俄(e)羅(luo)斯(si)、印度、日本等(deng)國家部署了海外站點,將(jiang)持續為海內外開發(fa)者提供語(yu)(yu)音(yin)識別(bie)、語(yu)(yu)音(yin)合(he)成、機器翻譯、圖(tu)文(wen)識別(bie)等(deng)語(yu)(yu)音(yin)語(yu)(yu)言服務。
如何(he)更(geng)好地(di)研發包括中文在(zai)內的多語種(zhong)語音及語言技(ji)術的AI能力(li)并實現(xian)大(da)規(gui)模(mo)應(ying)用落(luo)地(di),如何(he)更(geng)好地(di)用人工智能技(ji)術服務社會(hui)、建設美好世界,是我們不斷奮斗(dou)努力(li)的方向(xiang)。
未來,科大(da)訊飛將不斷開展(zhan)人工(gong)(gong)智能源頭技術創(chuang)新,助力中國人工(gong)(gong)智能在全球贏(ying)得話語權,實現更多人工(gong)(gong)智能創(chuang)新應用(yong)真(zhen)正解決社會剛(gang)需,蓬勃向上,生(sheng)生(sheng)不息(xi)。