2022年4月(yue),第十(shi)六屆國際(ji)語(yu)義(yi)評測(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大(da)賽落下(xia)帷幕,科大(da)訊(xun)飛在三項主要賽道(dao)中(zhong)拿下(xia)冠軍,標志著科大(da)訊(xun)飛在多語(yu)種語(yu)言理解領(ling)域持續進階。
SemEval 2022評測由國(guo)際(ji)計算(suan)語(yu)言學(xue)協會(Association for Computational Linguistics, ACL)旗(qi)下SIGLEX主辦,參賽者覆蓋國(guo)內、外一流高(gao)校及知名企業,包括達特(te)茅斯學(xue)院、謝菲爾德大(da)學(xue)、華為、阿里達摩院等,代表著最前沿國(guo)際(ji)技術和水平。
經過(guo)角逐,科大訊飛(fei)分別在(zai)“多(duo)語種新聞相似度評(ping)測任務(wu)”(Task 8)、“多(duo)語種慣用語識(shi)別任務(wu)” 子賽道(Task 2: Subtask A one-shot)、“多(duo)語種復(fu)雜(za)命(ming)名(ming)實(shi)體識(shi)別任務(wu)”(Task 11)三個子賽道中拿下(xia)冠軍。
新聞相似度評價:目光如炬
本次(ci)SemEval 2022評(ping)測聚焦的Task 8是多語(yu)種新聞相(xiang)似度評(ping)價(jia)任務。科大(da)訊飛與哈爾(er)濱(bin)工業大(da)學聯合組建(jian)的“哈工大(da)訊飛聯合實驗(yan)室”(Joint Laboratory of HIT and iFLYTEK Research,簡(jian)稱HFL)以顯(xian)著優(you)勢(shi)摘得冠軍。
簡(jian)單來說,參賽隊伍需(xu)要在每組新(xin)聞中判斷是否描述了(le)同一個事件(jian),并(bing)以1-4分(fen)(fen)(fen)為(wei)兩篇新(xin)聞的相似(si)度打分(fen)(fen)(fen),其(qi)中包含了(le)多(duo)達10種語(yu)(yu)(yu)言,分(fen)(fen)(fen)別(bie)為(wei)阿拉(la)伯語(yu)(yu)(yu)、德語(yu)(yu)(yu)、英語(yu)(yu)(yu)、西班牙(ya)語(yu)(yu)(yu)、法語(yu)(yu)(yu)、意大利語(yu)(yu)(yu)、波蘭語(yu)(yu)(yu)、俄語(yu)(yu)(yu)、土(tu)耳(er)其(qi)語(yu)(yu)(yu)和中文。但新(xin)聞相似(si)度究竟是什么(me)?讓(rang)我們用一則示例為(wei)大家(jia)解讀。
圖中列舉了兩(liang)篇(pian)相(xiang)似度(du)(du)極(ji)高的新聞稿(gao)件,參(can)賽(sai)隊伍必(bi)須將文中相(xiang)似的主要元素剝離出(chu)來并逐(zhu)一分析,比如地理信息(xi)、敘(xu)事技(ji)巧、實體、語氣、時間及風格,最終得出(chu)兩(liang)篇(pian)文章的相(xiang)似度(du)(du)與差異化。
與(yu)普通(tong)的文章相(xiang)比(bi)(bi),該項比(bi)(bi)賽更強調跨語言理(li)解能力(li),除(chu)了(le)寫作風格和敘述方式(shi)外,還需要把握文章中描述的具體事件。通(tong)俗來說,該項技術可以甄別外網的一(yi)些新聞(wen)報道是(shi)否存在偏(pian)差(cha)與(yu)曲解,從而(er)有效預防虛假信息、不良信息的傳(chuan)播。
科大(da)訊(xun)飛在這樣的(de)賽道(dao)上拔得頭籌,充分展示了在跨語言理解(jie)能力(li)上的(de)強硬實力(li)。
慣用語檢測:熟能生巧
哈工大訊飛聯合實(shi)驗室拿(na)下的(de)第(di)二(er)項任務(wu)冠軍,便是(shi)Task2 Subtask A的(de)慣用(yong)(yong)語(yu)檢測。通俗來(lai)說,無(wu)論你是(shi)哪國人,在日(ri)常表達(da)中都有一類短語(yu)的(de)固(gu)定用(yong)(yong)法(fa),并(bing)且該固(gu)定用(yong)(yong)法(fa)通常與短語(yu)的(de)字面語(yu)義(yi)不同,我(wo)們會將(jiang)這些短語(yu)稱(cheng)為“慣用(yong)(yong)語(yu)”。想要理(li)解包含慣用(yong)(yong)語(yu)的(de)句(ju)子(zi),首先需要判斷(duan)句(ju)子(zi)中的(de)多字短語(yu)是(shi)否為慣用(yong)(yong)語(yu),比如“說曹(cao)操,曹(cao)操到。”句(ju)中的(de)曹(cao)操是(shi)否真實(shi)存(cun)在。
該(gai)任務(wu)的(de)形(xing)式便是給定一個目標語句,包括其上下文和多字短語,繼而判斷該(gai)語句中(zhong)的(de)多字短語用法(fa)究竟是慣用語還(huan)是字面意思。該(gai)任務(wu)為(wei)多語言任務(wu),包含英語、葡萄牙語、加利西(xi)亞語三種語言。其中(zhong)加利西(xi)亞語沒有在訓練集(ji)中(zhong)出現(xian)過,因(yin)此科大訊飛代表隊需要在不同語言之間進(jin)行遷移學習。
還(huan)是(shi)不(bu)懂?別擔心,讓我們來(lai)看一則示例。
如例(li)所(suo)示,Literal表(biao)示字(zi)面(mian)意(yi)(yi)思,第(di)一句(ju)(ju)話可翻譯為:當你從網中抓(zhua)一條大(da)(da)魚時,最(zui)好撐住它的(de)腰。Idiomatic表(biao)示慣用語(yu),所(suo)以第(di)二(er)句(ju)(ju)話中再次出現了(le)大(da)(da)魚一詞,但卻不是簡單的(de)字(zi)面(mian)意(yi)(yi)思,而是“大(da)(da)人物(wu)”。
所(suo)以該任務要求參賽隊(dui)伍區分(fen)不同句子中同一(yi)個詞(ci)的不同語(yu)(yu)義,這(zhe)需要強大的分(fen)析及跨語(yu)(yu)言理解能力(li)。有(you)了該項技術,在日常寫作和(he)翻(fan)譯工作中,即可有(you)效鑒別慣用語(yu)(yu)的表達用意,極(ji)大提高內容準確率。
科大(da)訊(xun)飛不(bu)負眾望(wang),再(zai)摘桂冠。
復雜命名實體識別:披荊斬棘
這第三(san)冠(guan)有多難?光聽名(ming)字就(jiu)覺得復(fu)雜(za):多語(yu)種復(fu)雜(za)命名(ming)實體識別任務(MutiCoNER)。科大(da)訊飛聯合中國科學技術(shu)大(da)學語(yu)音及語(yu)言信息處理國家工程(cheng)研(yan)究(jiu)中心迎難而上(shang),在該項(xiang)任務中一舉(ju)拿下(xia)三(san)個子賽道冠(guan)軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復雜),而(er)NER則是Named Entity Recognition,又稱作“命名實體(ti)(ti)識(shi)別”,是指識(shi)別文本中(zhong)具有特定意義的(de)實體(ti)(ti),主(zhu)要(yao)包(bao)括人名、地名、機構名、專(zhuan)有名詞等。
該任(ren)(ren)務是一個(ge)多(duo)語(yu)言(yan)賽(sai)道(dao)數(shu)據(ju)(ju)集,包含11項(xiang)單獨語(yu)言(yan)命名實(shi)體評(ping)測任(ren)(ren)務,以及2項(xiang)多(duo)語(yu)言(yan)統一建模的(de)(de)評(ping)測任(ren)(ren)務。該榜單數(shu)據(ju)(ju)來源于Wikidata(維基數(shu)據(ju)(ju)),數(shu)據(ju)(ju)量(liang)龐大且(qie)極具應用(yong)價值。參賽(sai)團隊需(xu)要在(zai)單個(ge)語(yu)言(yan)以及多(duo)個(ge)語(yu)言(yan)混(hun)合的(de)(de)文本(ben)數(shu)據(ju)(ju)中,精準預測不同語(yu)言(yan)實(shi)體的(de)(de)類(lei)別標(biao)簽(qian)。該任(ren)(ren)務采(cai)用(yong)國際通用(yong)的(de)(de)槽位F1評(ping)價指標(biao), 我們(men)在(zai)多(duo)語(yu)言(yan)混(hun)合、中文、孟(meng)加拉語(yu)賽(sai)道(dao)上,分別以92.9%、81.6%、84.2%的(de)(de)F1成績登頂。
這項任務究竟有多難?舉個例子:NER是指從用戶文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表現出(chu)色。】既要識別出(chu)多個相關實(shi)體,同(tong)時是各(ge)語種夾(jia)雜的文本。
此前針對中文和英文需要單獨進行模型(xing)建(jian)模,此次有關(guan)賽道的(de)挑(tiao)戰是僅使用(yong)一個模型(xing)來可以(yi)完成不(bu)同語種(zhong)任務(wu),能夠快速識(shi)別復雜、專有詞(ci)匯,提(ti)高準確(que)率。
拒絕紙上談兵,技術應用要落地
當前,人類(lei)已進入“人、機(ji)、物”智(zhi)能互(hu)聯時(shi)(shi)代(dai),智(zhi)能語音是這個時(shi)(shi)代(dai)最(zui)為關鍵的入口之一,有助于實現語言大互(hu)通,建設人類(lei)命(ming)運(yun)共(gong)同體(ti)。科(ke)大訊飛始終保持初心、堅(jian)持源(yuan)頭核(he)心技術創新,在(zai)語音、語義等國際賽事中為國爭光。
在(zai)2021年(nian)11月舉辦的國際低資源多種語(yu)音(yin)識別競賽OpenASR中,科大訊飛參加了所有(you)15個(ge)語(yu)種受限(xian)賽道和7個(ge)語(yu)種非受限(xian)賽道,并全(quan)部取得了第一(yi)名,而(er)在(zai)SemEval2022多語(yu)種NLP領域(yu)中取得佳績也標(biao)志著(zhu)科大訊飛在(zai)多語(yu)言理解(jie)與跨語(yu)言遷移能力再上新臺階,從多語(yu)種語(yu)音(yin)到多語(yu)種語(yu)言都有(you)著(zhu)頂尖(jian)技術實(shi)力。
而在2022年的(de)北(bei)京冬奧(ao)會(hui)和冬殘奧(ao)會(hui)上,科大(da)訊飛作為“官方自(zi)動語音轉換與(yu)翻譯獨家供應商(shang)”,為所(suo)有(you)觀眾展(zhan)現了一場“無(wu)障礙溝(gou)通(tong)”的(de)體育(yu)盛會(hui)。
基于強大(da)的(de)多(duo)語種語音語言技(ji)術,我們可以做到語種足(zu)夠全、翻(fan)譯足(zu)夠準、反應(ying)足(zu)夠快(kuai),支持包括冬(dong)奧體育在內(nei)的(de)16大(da)行業領域(yu)翻(fan)譯,在冬(dong)奧應(ying)用場景下,中文與(yu)英/俄/法/西(xi)/日等重點語種的(de)翻(fan)譯準確率超過90%,平均每句語音翻(fan)譯響應(ying)時間不(bu)超過1.5秒,一(yi)方面(mian)幫助(zhu)各國觀(guan)眾、游(you)客快(kuai)速掌握賽事(shi)信息(xi),另一(yi)方面(mian)我們特(te)別希(xi)望幫助(zhu)聽障人士運用科技(ji)的(de)手段聽得(de)見奧運文字(zi),看得(de)見奧運聲(sheng)音。
值得一(yi)提的是(shi)(shi),科大(da)訊(xun)飛AI虛(xu)擬(ni)(ni)人(ren)“愛加(i+)”也(ye)成為了(le)冬奧(ao)(ao)會的一(yi)名“虛(xu)擬(ni)(ni)志(zhi)愿者”。在北(bei)京冬奧(ao)(ao)小屋中,愛加可以用多種語(yu)言(yan)與各(ge)國運動員進行面(mian)對面(mian)的交流(liu),助力冬奧(ao)(ao)的無障礙溝通。科大(da)訊(xun)飛運用語(yu)音識別、語(yu)音合成、口唇驅動、面(mian)部驅動、肢(zhi)體動作驅動等多項核心技術,打造出虛(xu)擬(ni)(ni)形象(xiang)自動化內容(rong)生產方案(an),讓虛(xu)擬(ni)(ni)人(ren)不(bu)僅(jin)會說普通話,同(tong)時支持(chi)31種語(yu)言(yan)及方言(yan),是(shi)(shi)不(bu)折(zhe)不(bu)扣的“語(yu)言(yan)通”,不(bu)僅(jin)能(neng)進行面(mian)對面(mian)的冬奧(ao)(ao)賽(sai)事、賽(sai)程實(shi)時互動交流(liu),還能(neng)陪你玩一(yi)把冬奧(ao)(ao)知識游戲大(da)PK,周邊交通、文化、旅游等咨詢問答也(ye)不(bu)在話下。
除此之外,在教(jiao)育、醫療(liao)、司法等(deng)場景中(zhong)的各類(lei)行業人工智(zhi)能(neng)應(ying)用(yong)中(zhong),多(duo)語(yu)(yu)(yu)種(zhong)語(yu)(yu)(yu)音(yin)交互系(xi)統(tong)都將發揮重要作用(yong)。經(jing)過多(duo)年(nian)的技術積累,除了中(zhong)英以外,當前(qian)科大訊飛(fei)已經(jing)具備其(qi)他69種(zhong)語(yu)(yu)(yu)言(yan)的語(yu)(yu)(yu)音(yin)識別能(neng)力,其(qi)中(zhong)已經(jing)有35個語(yu)(yu)(yu)種(zhong)準確率已經(jing)超過90%,并已在新加坡、俄羅斯、印度、日本等(deng)國家部署了海(hai)外站點,將持續為海(hai)內外開發者提供語(yu)(yu)(yu)音(yin)識別、語(yu)(yu)(yu)音(yin)合(he)成(cheng)、機器翻譯(yi)、圖文(wen)識別等(deng)語(yu)(yu)(yu)音(yin)語(yu)(yu)(yu)言(yan)服(fu)務。
如(ru)何更好地(di)研發包括中文在內的(de)多語種(zhong)語音及語言技術的(de)AI能(neng)力(li)并實現(xian)大規模應用落地(di),如(ru)何更好地(di)用人工智能(neng)技術服務社會、建設美好世界(jie),是(shi)我(wo)們不斷奮(fen)斗(dou)努力(li)的(de)方(fang)向。
未來,科(ke)大(da)訊飛將不斷開(kai)展人(ren)(ren)工(gong)智能源(yuan)頭技(ji)術創新,助(zhu)力中國人(ren)(ren)工(gong)智能在全球贏得話語權,實(shi)現更多(duo)人(ren)(ren)工(gong)智能創新應用真(zhen)正解(jie)決社會剛需,蓬勃向上,生(sheng)生(sheng)不息。