2022年4月,第十六屆國際語義(yi)評(ping)測(ce)(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大(da)賽(sai)落(luo)下(xia)帷(wei)幕,科(ke)大(da)訊飛在三項主要賽(sai)道中拿下(xia)冠軍,標志著科(ke)大(da)訊飛在多語種語言理(li)解領(ling)域持續進階(jie)。
SemEval 2022評(ping)測由國(guo)際計算語(yu)言學(xue)協(xie)會(Association for Computational Linguistics, ACL)旗(qi)下SIGLEX主辦,參賽者覆(fu)蓋(gai)國(guo)內(nei)、外一(yi)流高校(xiao)及知名企業,包括達特茅斯學(xue)院、謝菲(fei)爾德大學(xue)、華為、阿(a)里達摩院等,代(dai)表著(zhu)最前沿(yan)國(guo)際技(ji)術(shu)和水平。
經過角(jiao)逐,科大訊飛分別在(zai)“多(duo)語(yu)種新聞相(xiang)似度評(ping)測任務”(Task 8)、“多(duo)語(yu)種慣用語(yu)識(shi)別任務” 子賽道(dao)(Task 2: Subtask A one-shot)、“多(duo)語(yu)種復雜命名實體(ti)識(shi)別任務”(Task 11)三(san)個子賽道(dao)中拿(na)下冠軍。
新聞相似度評價:目光如炬
本(ben)次SemEval 2022評測聚焦(jiao)的(de)Task 8是多(duo)語種新聞相似度評價任務。科大(da)訊(xun)飛(fei)與哈爾濱工業大(da)學(xue)聯(lian)合(he)(he)組建(jian)的(de)“哈工大(da)訊(xun)飛(fei)聯(lian)合(he)(he)實驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱HFL)以顯著優勢摘得(de)冠軍。
簡單來說(shuo),參賽隊(dui)伍需要在每組(zu)新聞(wen)中(zhong)判(pan)斷是(shi)否(fou)描述了同一個事(shi)件,并以(yi)1-4分(fen)為兩篇新聞(wen)的相(xiang)似(si)度打分(fen),其(qi)中(zhong)包(bao)含了多達(da)10種語言(yan),分(fen)別(bie)為阿拉伯語、德語、英語、西班牙(ya)語、法(fa)語、意大(da)利語、波蘭語、俄語、土耳其(qi)語和中(zhong)文。但新聞(wen)相(xiang)似(si)度究(jiu)竟是(shi)什么?讓我們用(yong)一則示例為大(da)家解讀。
圖(tu)中列(lie)舉了兩篇相(xiang)(xiang)似(si)度(du)極高的(de)(de)新(xin)聞(wen)稿件(jian),參賽隊(dui)伍必(bi)須將文中相(xiang)(xiang)似(si)的(de)(de)主要元(yuan)素剝(bo)離出(chu)來并逐一分析,比如地理信息(xi)、敘事(shi)技巧、實體、語氣(qi)、時間及(ji)風(feng)格,最終(zhong)得出(chu)兩篇文章(zhang)的(de)(de)相(xiang)(xiang)似(si)度(du)與差異化。
與(yu)普通的(de)(de)文(wen)(wen)章(zhang)相比,該(gai)項(xiang)(xiang)比賽更強調跨(kua)語言理解(jie)能力(li),除了寫作風格(ge)和敘(xu)述(shu)方式外,還需要(yao)把握(wo)文(wen)(wen)章(zhang)中(zhong)描述(shu)的(de)(de)具(ju)體事件。通俗來說,該(gai)項(xiang)(xiang)技(ji)術可(ke)以(yi)甄(zhen)別外網的(de)(de)一些新(xin)聞(wen)報(bao)道是否(fou)存在偏差(cha)與(yu)曲解(jie),從而有(you)效預防虛假信(xin)息、不良信(xin)息的(de)(de)傳播(bo)。
科(ke)大訊飛在(zai)這樣的(de)賽道上(shang)拔得頭籌,充分展示了在(zai)跨語言(yan)理解能力上(shang)的(de)強硬實(shi)力。
慣用語檢測:熟能生巧
哈工大(da)訊(xun)飛(fei)聯合實驗室(shi)拿下的(de)(de)(de)第二項任務冠軍,便是Task2 Subtask A的(de)(de)(de)慣用(yong)語(yu)檢測。通(tong)俗(su)來說,無論你(ni)是哪國(guo)人,在(zai)日(ri)常(chang)表達中(zhong)(zhong)都(dou)有一類(lei)短(duan)語(yu)的(de)(de)(de)固定用(yong)法(fa),并且該固定用(yong)法(fa)通(tong)常(chang)與短(duan)語(yu)的(de)(de)(de)字(zi)(zi)面語(yu)義不同,我們會將這些短(duan)語(yu)稱為“慣用(yong)語(yu)”。想要(yao)理解包含慣用(yong)語(yu)的(de)(de)(de)句(ju)(ju)子(zi),首(shou)先需要(yao)判斷句(ju)(ju)子(zi)中(zhong)(zhong)的(de)(de)(de)多(duo)字(zi)(zi)短(duan)語(yu)是否(fou)為慣用(yong)語(yu),比如“說曹(cao)操(cao),曹(cao)操(cao)到。”句(ju)(ju)中(zhong)(zhong)的(de)(de)(de)曹(cao)操(cao)是否(fou)真實存在(zai)。
該(gai)(gai)任務的形式便(bian)是給定一(yi)個目標語(yu)(yu)(yu)(yu)句(ju)(ju),包括其上下文和多(duo)字短(duan)語(yu)(yu)(yu)(yu),繼而(er)判斷該(gai)(gai)語(yu)(yu)(yu)(yu)句(ju)(ju)中(zhong)的多(duo)字短(duan)語(yu)(yu)(yu)(yu)用法究竟(jing)是慣用語(yu)(yu)(yu)(yu)還是字面意思(si)。該(gai)(gai)任務為多(duo)語(yu)(yu)(yu)(yu)言任務,包含英(ying)語(yu)(yu)(yu)(yu)、葡萄牙語(yu)(yu)(yu)(yu)、加利西(xi)亞(ya)語(yu)(yu)(yu)(yu)三種語(yu)(yu)(yu)(yu)言。其中(zhong)加利西(xi)亞(ya)語(yu)(yu)(yu)(yu)沒有在訓練(lian)集中(zhong)出現(xian)過,因此科大訊(xun)飛代表隊需要在不同(tong)語(yu)(yu)(yu)(yu)言之(zhi)間進行(xing)遷移(yi)學習。
還是不(bu)懂?別擔心,讓我們來看一則示例(li)。
如(ru)例所示(shi)(shi)(shi),Literal表示(shi)(shi)(shi)字面意思(si),第一句話(hua)可翻譯為(wei):當你(ni)從網中抓一條(tiao)大(da)(da)魚(yu)時,最好(hao)撐住它(ta)的腰(yao)。Idiomatic表示(shi)(shi)(shi)慣用語,所以第二句話(hua)中再次出現了大(da)(da)魚(yu)一詞(ci),但(dan)卻不是簡單的字面意思(si),而是“大(da)(da)人物”。
所以該任務要(yao)求參賽隊伍區分不同(tong)句子(zi)中同(tong)一個詞的不同(tong)語(yu)義(yi),這(zhe)需(xu)要(yao)強大的分析及跨語(yu)言理解能力。有了該項技術(shu),在日(ri)常寫作和翻譯工作中,即可(ke)有效鑒別慣用(yong)(yong)語(yu)的表達(da)用(yong)(yong)意,極大提高內(nei)容準(zhun)確(que)率(lv)。
科大(da)訊飛不負眾望,再摘桂冠。
復雜命名實體識別:披荊斬棘
這第三(san)(san)冠(guan)有多(duo)難?光聽名(ming)(ming)字就覺得復(fu)雜(za):多(duo)語種復(fu)雜(za)命名(ming)(ming)實體識(shi)別任(ren)務(MutiCoNER)。科大訊飛聯合中國科學技(ji)術大學語音及語言(yan)信息處(chu)理國家工程研究中心迎難而上,在該(gai)項任(ren)務中一舉(ju)拿下(xia)三(san)(san)個子賽道冠(guan)軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復雜),而(er)NER則是(shi)Named Entity Recognition,又稱作“命名(ming)(ming)實(shi)體識(shi)別(bie)”,是(shi)指(zhi)識(shi)別(bie)文(wen)本中具有(you)特定(ding)意義(yi)的(de)實(shi)體,主要包括人名(ming)(ming)、地(di)名(ming)(ming)、機構名(ming)(ming)、專有(you)名(ming)(ming)詞(ci)等。
該(gai)任(ren)務是一個多(duo)語(yu)言賽道(dao)數(shu)據(ju)(ju)集,包含(han)11項單獨語(yu)言命名(ming)實體評(ping)測(ce)(ce)任(ren)務,以(yi)及(ji)2項多(duo)語(yu)言統一建模的(de)評(ping)測(ce)(ce)任(ren)務。該(gai)榜(bang)單數(shu)據(ju)(ju)來源于Wikidata(維基數(shu)據(ju)(ju)),數(shu)據(ju)(ju)量龐(pang)大且極具應用價值。參(can)賽團(tuan)隊需要在(zai)單個語(yu)言以(yi)及(ji)多(duo)個語(yu)言混(hun)合的(de)文本數(shu)據(ju)(ju)中,精準預(yu)測(ce)(ce)不同語(yu)言實體的(de)類別標簽。該(gai)任(ren)務采用國(guo)際(ji)通用的(de)槽位F1評(ping)價指標, 我們在(zai)多(duo)語(yu)言混(hun)合、中文、孟(meng)加拉語(yu)賽道(dao)上,分別以(yi)92.9%、81.6%、84.2%的(de)F1成績登頂。
這項任務究竟有多難?舉個例子:NER是指從用戶文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表現(xian)出色。】既要識(shi)別出多個相(xiang)關實體,同(tong)時是(shi)各語(yu)種夾雜的文本。
此前針對中文和英(ying)文需要單獨(du)進行模型建模,此次(ci)有關賽道(dao)的(de)挑戰是僅使用(yong)一個模型來可(ke)以(yi)完成不同語(yu)種(zhong)任務,能夠快(kuai)速識別復(fu)雜、專有詞匯,提高準確率。
拒絕紙上談兵,技術應用要落地
當前,人類(lei)已進入(ru)“人、機、物”智能互(hu)聯時代(dai)(dai),智能語音(yin)是這個時代(dai)(dai)最(zui)為關(guan)鍵的入(ru)口之一(yi),有助(zhu)于實現語言大(da)互(hu)通,建設人類(lei)命運共同體。科大(da)訊飛始終(zhong)保持(chi)初心(xin)、堅持(chi)源(yuan)頭核(he)心(xin)技術(shu)創新,在語音(yin)、語義等國(guo)際賽(sai)事中為國(guo)爭(zheng)光(guang)。
在2021年(nian)11月舉辦的國際低資源(yuan)多(duo)種(zhong)語(yu)音識別競(jing)賽(sai)OpenASR中,科大(da)訊飛參加了所(suo)有(you)15個語(yu)種(zhong)受限賽(sai)道和(he)7個語(yu)種(zhong)非受限賽(sai)道,并全部(bu)取得(de)了第一名,而在SemEval2022多(duo)語(yu)種(zhong)NLP領域中取得(de)佳績(ji)也標志著(zhu)科大(da)訊飛在多(duo)語(yu)言理解與跨語(yu)言遷移能力(li)(li)再上新(xin)臺(tai)階,從(cong)多(duo)語(yu)種(zhong)語(yu)音到多(duo)語(yu)種(zhong)語(yu)言都有(you)著(zhu)頂尖技(ji)術(shu)實(shi)力(li)(li)。
而(er)在2022年的(de)北京冬奧會(hui)(hui)和冬殘奧會(hui)(hui)上,科大訊飛作為(wei)“官方自動語音轉換與翻譯(yi)獨家供(gong)應(ying)商”,為(wei)所有觀眾展現了一(yi)場“無障礙溝通”的(de)體育盛會(hui)(hui)。
基于強大(da)的(de)多語(yu)(yu)種(zhong)語(yu)(yu)音語(yu)(yu)言(yan)技術,我們可以做(zuo)到(dao)語(yu)(yu)種(zhong)足夠全(quan)、翻(fan)譯(yi)足夠準(zhun)、反應足夠快,支持(chi)包(bao)括冬奧(ao)體育在內的(de)16大(da)行(xing)業領域翻(fan)譯(yi),在冬奧(ao)應用場(chang)景下(xia),中文(wen)與英/俄/法/西/日等重點語(yu)(yu)種(zhong)的(de)翻(fan)譯(yi)準(zhun)確率超過90%,平均(jun)每句語(yu)(yu)音翻(fan)譯(yi)響應時間不(bu)超過1.5秒,一方(fang)面幫助各(ge)國觀眾、游客(ke)快速掌握(wo)賽事信息,另(ling)一方(fang)面我們特別希(xi)望幫助聽障人士運(yun)用科(ke)技的(de)手段聽得見(jian)奧(ao)運(yun)文(wen)字,看得見(jian)奧(ao)運(yun)聲音。
值得一提的(de)(de)(de)是(shi),科大(da)訊飛AI虛擬(ni)人(ren)“愛加(i+)”也(ye)成為了冬(dong)奧(ao)會的(de)(de)(de)一名“虛擬(ni)志愿者”。在(zai)北(bei)京冬(dong)奧(ao)小屋中,愛加可以用多(duo)種語(yu)言與各國運(yun)(yun)動(dong)員進行面(mian)(mian)對面(mian)(mian)的(de)(de)(de)交流,助力冬(dong)奧(ao)的(de)(de)(de)無(wu)障(zhang)礙溝(gou)通。科大(da)訊飛運(yun)(yun)用語(yu)音識別、語(yu)音合(he)成、口唇驅(qu)動(dong)、面(mian)(mian)部(bu)驅(qu)動(dong)、肢(zhi)體(ti)動(dong)作(zuo)驅(qu)動(dong)等(deng)多(duo)項核心技術,打造出虛擬(ni)形象自動(dong)化內容生產方案,讓虛擬(ni)人(ren)不僅會說普(pu)通話,同時(shi)支(zhi)持31種語(yu)言及方言,是(shi)不折不扣的(de)(de)(de)“語(yu)言通”,不僅能(neng)進行面(mian)(mian)對面(mian)(mian)的(de)(de)(de)冬(dong)奧(ao)賽(sai)(sai)事、賽(sai)(sai)程實時(shi)互動(dong)交流,還(huan)能(neng)陪你玩一把冬(dong)奧(ao)知(zhi)識游戲大(da)PK,周邊交通、文化、旅游等(deng)咨詢問答(da)也(ye)不在(zai)話下。
除(chu)此之(zhi)外(wai),在教(jiao)育、醫(yi)療、司法(fa)等(deng)(deng)場景中的(de)各類行業(ye)人工智能應用中,多語種(zhong)語音(yin)(yin)交互系統(tong)都將(jiang)發(fa)揮重要作用。經過(guo)多年的(de)技術積累,除(chu)了中英以外(wai),當(dang)前科大訊(xun)飛已經具備其他69種(zhong)語言的(de)語音(yin)(yin)識(shi)(shi)別能力,其中已經有35個語種(zhong)準確(que)率已經超過(guo)90%,并已在新加坡(po)、俄羅斯(si)、印度、日本等(deng)(deng)國家部署了海外(wai)站(zhan)點,將(jiang)持續為海內外(wai)開發(fa)者提供語音(yin)(yin)識(shi)(shi)別、語音(yin)(yin)合成(cheng)、機器翻譯、圖文識(shi)(shi)別等(deng)(deng)語音(yin)(yin)語言服務。
如(ru)何更(geng)好地(di)研發包括(kuo)中(zhong)文在內的(de)多語(yu)種語(yu)音及語(yu)言技術的(de)AI能(neng)力并實現大規模應用(yong)落地(di),如(ru)何更(geng)好地(di)用(yong)人工智能(neng)技術服務(wu)社會、建(jian)設美好世界,是我們(men)不(bu)斷奮斗努力的(de)方向。
未來,科(ke)大訊飛(fei)將不斷開展人(ren)工(gong)(gong)智能(neng)(neng)(neng)源頭技(ji)術創新(xin),助力(li)中國人(ren)工(gong)(gong)智能(neng)(neng)(neng)在全球贏得(de)話語權(quan),實現更多人(ren)工(gong)(gong)智能(neng)(neng)(neng)創新(xin)應用真正解(jie)決社會剛(gang)需,蓬勃向上,生生不息。