2019年12月8日,機器學(xue)習領(ling)域(yu)國際頂級會(hui)議NeurIPS于加拿大溫哥(ge)華拉(la)開(kai)帷幕,吸引了(le)(le)全(quan)球13000余名專家學(xue)者(zhe)共赴盛會(hui)。本年度,自然(ran)語言處(chu)理領(ling)域(yu)在(zai)深度學(xue)習浪潮下(xia)取得(de)了(le)(le)顯(xian)著成就,成為(wei)(wei)大會(hui)的(de)(de)重要議題之一(yi)。百度也成為(wei)(wei)本屆(jie)大會(hui)的(de)(de)重度參(can)與者(zhe),向各國參(can)與者(zhe)展示了(le)(le)其最新的(de)(de)NLP技術。
本屆NeurIPS大會共收到6743篇論(lun)(lun)文(wen)投稿(gao),兩年時間翻了一番。其中(zhong)1428篇論(lun)(lun)文(wen)入選,入選率僅21.1%。百度共有8篇論(lun)(lun)文(wen)被(bei)收錄,覆蓋量化壓縮、對抗(kang)訓練等諸多前沿方向。
競賽(sai)方面(mian),在(zai)NeurIPS 2019: Learn to Move強化學習賽(sai)事(shi)中百度(du)(du)再度(du)(du)蟬聯冠軍(jun),并(bing)受邀(yao)在(zai)Deep RL workshop中進行專題報(bao)告。本次比賽(sai)的難(nan)度(du)(du)非常大(da),在(zai)參賽(sai)的近300支隊伍(wu)中,僅(jin)有3支隊伍(wu)完成(cheng)了(le)(le)最后挑戰。百度(du)(du)基于飛槳的強化學習框架PARL不僅(jin)成(cheng)功完成(cheng)挑戰,還(huan)大(da)幅領(ling)先(xian)第二名(1490vs1346)。除了(le)(le)在(zai)Best Performance Track獲(huo)得了(le)(le)第一,相關(guan)技術(shu)論文也在(zai)該賽(sai)事(shi)的Machine Learning Track中獲(huo)得了(le)(le)Best Paper Reward。
百(bai)(bai)度舉辦(ban)了自(zi)然語(yu)言處(chu)理專題研討(tao)會,百(bai)(bai)度技(ji)術委員(yuan)會主席、自(zi)然語(yu)言處(chu)理首席科(ke)學家吳華博士以及多名(ming)研究員(yuan)和工程師,向現(xian)場參會者(zhe)全(quan)面介紹了百(bai)(bai)度在這(zhe)一領域的(de)長(chang)期(qi)積累與全(quan)新突破。基于具有(you)完全(quan)自(zi)主知(zhi)識產(chan)權的(de)飛槳平(ping)臺,百(bai)(bai)度自(zi)然語(yu)言處(chu)理在語(yu)義計算、閱(yue)讀理解、多輪對(dui)話、機器翻(fan)譯(yi)、開放平(ping)臺與數(shu)據等方向均取得了突破性進(jin)展,并(bing)進(jin)行了大規模產(chan)業(ye)化應用。
預訓練方面,百度(du)提出知識增強的(de)語義(yi)表示模型ERNIE及(ji)持續學習語義(yi)理(li)解(jie)框(kuang)架ERNIE2.0,在共計16個(ge)中英(ying)文任務上超越(yue)BERT、XLNET,取得(de)了(le) SOTA 的(de)效果。11月,百度(du)發(fa)布(bu)基于ERNIE的(de)語義(yi)理(li)解(jie)開(kai)發(fa)套件(jian)。從原理(li)、應用到開(kai)源及(ji)平臺(tai)化,百度(du)在NLP預訓練領(ling)域進行了(le)極具(ju)價(jia)值的(de)創新及(ji)實踐。
機器閱(yue)讀(du)理(li)解(jie),已(yi)成為評估機器語言理(li)解(jie)能力的(de)重(zhong)要方式,也是搜索引擎和對話系統(tong)等行業應用中(zhong)(zhong)的(de)關鍵技術。百度建設(she)及(ji)發布了(le)最大(da)規模的(de)中(zhong)(zhong)文閱(yue)讀(du)理(li)解(jie)數據集(ji)DuReader;在泛(fan)化方面提出訓練框架D-NET,從多(duo)模型融合、多(duo)任務(wu)學(xue)習的(de)角度提升模型的(de)泛(fan)化能力;
對于對抗樣(yang)本(ben)的(de)攻擊,提(ti)出了(le)一種面(mian)向閱讀理解的(de)對抗訓練方法;提(ti)出文本(ben)表示(shi)(shi)和知(zhi)識(shi)(shi)表示(shi)(shi)的(de)融(rong)合模(mo)型KT-NET,以解決(jue)需要外部知(zhi)識(shi)(shi)和常(chang)識(shi)(shi)的(de)問題。其(qi)中具有高魯棒性和遷移能力的(de)閱讀理解模(mo)型在2019年MRQA閱讀理解評測中奪得冠軍(jun)。
對(dui)話(hua)(hua)方(fang)面,提(ti)出了(le)(le)(le)(le)基于深(shen)度注(zhu)意網絡(luo)的(de)(de)(de)多輪響應(ying)選擇匹配模型DAM(Deep Attention Matching Network),顯著提(ti)高(gao)了(le)(le)(le)(le)口語(yu)理解(jie)能(neng)(neng)力。在對(dui)話(hua)(hua)系統框架(jia)中,百度一方(fang)面提(ti)供了(le)(le)(le)(le)可(ke)編(bian)程(cheng)的(de)(de)(de)對(dui)話(hua)(hua)管(guan)理框架(jia),并內(nei)置(zhi)了(le)(le)(le)(le)多個(ge)(ge)常(chang)用標準對(dui)話(hua)(hua)范(fan)式,為在云端(duan)開發(fa)(fa)靈活可(ke)變的(de)(de)(de)業(ye)務(wu)(wu)對(dui)話(hua)(hua)邏輯提(ti)供了(le)(le)(le)(le)便利。另一方(fang)面,提(ti)供了(le)(le)(le)(le)需(xu)求(qiu)分(fen)發(fa)(fa)和全局記憶(yi)機制,支(zhi)(zhi)持多個(ge)(ge)對(dui)話(hua)(hua)任(ren)務(wu)(wu)的(de)(de)(de)集成與聯(lian)動,提(ti)高(gao)了(le)(le)(le)(le)對(dui)話(hua)(hua)技(ji)能(neng)(neng)的(de)(de)(de)可(ke)復(fu)用性,降(jiang)低了(le)(le)(le)(le)新(xin)業(ye)務(wu)(wu)的(de)(de)(de)重復(fu)開發(fa)(fa)成本。百度可(ke)定(ding)制對(dui)話(hua)(hua)技(ji)術(shu)依托百度大(da)腦UNIT3.0平臺,支(zhi)(zhi)持5萬多個(ge)(ge)對(dui)話(hua)(hua)技(ji)能(neng)(neng),廣泛應(ying)用于行業(ye)客戶。
機器(qi)(qi)翻(fan)譯領(ling)(ling)域,百(bai)度(du)(du)(du)相繼提(ti)出(chu)了(le)多任務學習、多智(zhi)能體聯合訓練等(deng)(deng)前(qian)沿(yan)方(fang)法,并在(zai)2019年國(guo)際權威(wei)WMT評(ping)測中(zhong)取(qu)(qu)得(de)中(zhong)英翻(fan)譯第一。機器(qi)(qi)同(tong)(tong)(tong)(tong)(tong)聲傳(chuan)(chuan)譯方(fang)面百(bai)度(du)(du)(du)走在(zai)領(ling)(ling)域前(qian)沿(yan),提(ti)出(chu)了(le)首(shou)個具有預測和(he)可控時延的同(tong)(tong)(tong)(tong)(tong)傳(chuan)(chuan)模型,首(shou)個語(yu)(yu)義單(dan)元驅動的上下文同(tong)(tong)(tong)(tong)(tong)傳(chuan)(chuan)模型,并研發了(le)業(ye)內(nei)首(shou)個語(yu)(yu)音(yin)到語(yu)(yu)音(yin)的同(tong)(tong)(tong)(tong)(tong)傳(chuan)(chuan)系統,為用戶提(ti)供高(gao)質量(liang)、低時延的同(tong)(tong)(tong)(tong)(tong)傳(chuan)(chuan)體驗。值得(de)一提(ti)的是(shi),基于在(zai)此(ci)(ci)領(ling)(ling)域取(qu)(qu)得(de)的進(jin)(jin)步(bu)(bu),由百(bai)度(du)(du)(du)主(zhu)導,聯合Google、Facebook、Upenn、清華等(deng)(deng)海內(nei)外(wai)頂(ding)尖企業(ye)及高(gao)校共同(tong)(tong)(tong)(tong)(tong)組織首(shou)屆(jie)機器(qi)(qi)同(tong)(tong)(tong)(tong)(tong)傳(chuan)(chuan)研討會,將(jiang)在(zai)本領(ling)(ling)域頂(ding)級會議ACL 2020召開(kai),并將(jiang)舉(ju)辦國(guo)際首(shou)屆(jie)同(tong)(tong)(tong)(tong)(tong)傳(chuan)(chuan)評(ping)測,以進(jin)(jin)一步(bu)(bu)促進(jin)(jin)技術發展。此(ci)(ci)外(wai),百(bai)度(du)(du)(du)還將(jiang)在(zai)領(ling)(ling)域權威(wei)會議EMNLP 2020中(zhong)舉(ju)辦機器(qi)(qi)同(tong)(tong)(tong)(tong)(tong)傳(chuan)(chuan)tutorial,就機器(qi)(qi)同(tong)(tong)(tong)(tong)(tong)傳(chuan)(chuan)的原(yuan)理、方(fang)法、前(qian)沿(yan)進(jin)(jin)展進(jin)(jin)行(xing)講座。
百(bai)度(du)(du)自(zi)然語言處理領(ling)域產出的(de)(de)(de)卓越成果背后所運用的(de)(de)(de)底層框(kuang)架(jia),是(shi)自(zi)研(yan)的(de)(de)(de)開(kai)(kai)(kai)源(yuan)深度(du)(du)學(xue)習(xi)平(ping)(ping)臺百(bai)度(du)(du)飛槳。近兩年來,飛槳圍繞深度(du)(du)學(xue)習(xi)框(kuang)架(jia)的(de)(de)(de)基本功能、性(xing)(xing)能、芯片支持(chi)的(de)(de)(de)完備性(xing)(xing)等(deng)技(ji)術指標進行了(le)一系列的(de)(de)(de)易(yi)用性(xing)(xing)開(kai)(kai)(kai)發(fa)和性(xing)(xing)能迭(die)代,為開(kai)(kai)(kai)發(fa)者提供了(le)優于其他(ta)深度(du)(du)學(xue)習(xi)框(kuang)架(jia)的(de)(de)(de)使用體驗。在(zai)開(kai)(kai)(kai)發(fa)能力方(fang)面,飛槳除了(le)支持(chi)對(dui)常(chang)用API的(de)(de)(de)調用之外,還在(zai)編(bian)程(cheng)范式上(shang)同時支持(chi)聲明(ming)式編(bian)程(cheng)和命(ming)令式編(bian)程(cheng),兼具很好的(de)(de)(de)靈(ling)活性(xing)(xing)和穩定(ding)性(xing)(xing),可滿足(zu)不同開(kai)(kai)(kai)發(fa)者的(de)(de)(de)開(kai)(kai)(kai)發(fa)習(xi)慣,更易(yi)上(shang)手。在(zai)訓練方(fang)面,飛槳平(ping)(ping)臺突破了(le)超大(da)(da)規模(mo)深度(du)(du)學(xue)習(xi)模(mo)型訓練技(ji)術,研(yan)制了(le)千億(yi)特征、萬億(yi)參數、數百(bai)節點的(de)(de)(de)開(kai)(kai)(kai)源(yuan)大(da)(da)規模(mo)訓練平(ping)(ping)臺,實(shi)現了(le)萬億(yi)規模(mo)參數深度(du)(du)學(xue)習(xi)模(mo)型的(de)(de)(de)實(shi)時更新。在(zai)自(zi)然語言處理領(ling)域,PADDLE-NLP提供了(le)面向6類任務下的(de)(de)(de)30+算法模(mo)型,包括上(shang)述工作中(zhong)ERNIE、D-NET等(deng)多(duo)個國際競賽(sai)的(de)(de)(de)冠軍模(mo)型。
百(bai)度(du)是全球較(jiao)大的(de)中(zhong)(zhong)文(wen)搜索(suo)引擎、較(jiao)大的(de)中(zhong)(zhong)文(wen)網站。2000年(nian)1月由李彥宏(hong)創立于北京中(zhong)(zhong)關村,向人們提供“簡單,可(ke)依(yi)賴”的(de)信息(xi)獲取方式。“百(bai)度(du)”二字源于中(zhong)(zhong)國宋朝詞人辛棄疾的(de)《青玉(yu)案·元(yuan)夕(xi)》詞句“眾里(li)尋他(ta)千百(bai)度(du)”,象征著百(bai)度(du)對中(zhong)(zhong)文(wen)信息(xi)檢(jian)索(suo)技(ji)術的(de)執著追求。而(er)“熊(xiong)掌”圖標的(de)想法來源于“獵人巡跡(ji)熊(xiong)爪”的(de)刺激,與李彥宏(hong)博士的(de)“分(fen)析搜索(suo)技(ji)術”非常相(xiang)似,從而(er)構成(cheng)百(bai)度(du)的(de)搜索(suo)概念,也成(cheng)為(wei)了百(bai)度(du)的(de)圖標形象。
1999年底,身在美(mei)國硅谷的(de)李彥(yan)宏看到了中國互聯(lian)網(wang)及(ji)中文搜索引(yin)擎(qing)服務的(de)巨大發展潛力(li),抱著技術改變世界的(de)夢(meng)想,他(ta)毅(yi)然辭掉硅谷的(de)高薪工作,攜搜索引(yin)擎(qing)專利技術,于(yu)2000年1月1日在中關村創建了百度公司(si)。從不足10人(ren)(ren)(ren)發展至(zhi)今(jin),員工人(ren)(ren)(ren)數超過17000人(ren)(ren)(ren)。如(ru)今(jin)的(de)百度,已成(cheng)為中國受(shou)歡迎(ying)、影響力(li)較大的(de)中文網(wang)站。
在面對(dui)用(yong)戶的(de)(de)搜索產(chan)品不斷(duan)豐富的(de)(de)同時,百(bai)(bai)度(du)還創新(xin)性地推出了基(ji)于(yu)搜索的(de)(de)營(ying)(ying)銷推廣(guang)服務,并成為受企(qi)(qi)業青睞的(de)(de)互聯網營(ying)(ying)銷推廣(guang)平臺(tai)。目前(qian),中國已(yi)有數十萬家(jia)企(qi)(qi)業使(shi)用(yong)了百(bai)(bai)度(du)的(de)(de)搜索推廣(guang)服務,不斷(duan)提升著企(qi)(qi)業自身的(de)(de)品牌及(ji)運營(ying)(ying)效率(lv)。通過持續(xu)的(de)(de)商(shang)業模式創新(xin),百(bai)(bai)度(du)正(zheng)進一步帶動(dong)整個互聯網行(xing)業和中小企(qi)(qi)業的(de)(de)經濟增(zeng)長,推動(dong)社(she)會經濟的(de)(de)發(fa)展和轉型。
為推(tui)動中國(guo)數百(bai)萬中小網(wang)站的(de)(de)發(fa)展(zhan),百(bai)度借助超大(da)流量的(de)(de)平臺(tai)優(you)勢,聯合所(suo)有優(you)質(zhi)的(de)(de)各(ge)類網(wang)站,建立了(le)世界上較大(da)的(de)(de)網(wang)絡聯盟,使各(ge)類企業的(de)(de)搜索(suo)推(tui)廣、品牌(pai)營(ying)銷的(de)(de)價(jia)值、覆蓋面均大(da)面積提升。與(yu)此同時(shi),各(ge)網(wang)站也在聯盟大(da)家庭(ting)的(de)(de)互助下,獲得生存(cun)與(yu)發(fa)展(zhan)機會(hui)。
2009年,百度更是(shi)推(tui)出框(kuang)計(ji)算技術概(gai)念,并基(ji)于此理念推(tui)出百度開放(fang)平臺,幫(bang)助更多第三方利用互(hu)聯(lian)網(wang)平臺自主(zhu)創新、自主(zhu)創業(ye),在大幅(fu)提升(sheng)網(wang)民互(hu)聯(lian)網(wang)使用體(ti)驗的同時(shi),帶動(dong)起圍繞用戶需求(qiu)進行研發的產(chan)(chan)業(ye)創新熱潮,對中國互(hu)聯(lian)網(wang)產(chan)(chan)業(ye)的升(sheng)級和發展(zhan)產(chan)(chan)生巨大的拉(la)動(dong)效應(ying)。
這是一個充滿朝氣(qi)、求實坦(tan)誠的公司(si),以搜(sou)索改變生(sheng)活,推動人類的文明與進(jin)步,促(cu)進(jin)中國經濟的發展為(wei)己任,正(zheng)朝著更(geng)為(wei)遠大的目標而邁進(jin)。
隨著信(xin)息技(ji)術的(de)突飛猛(meng)進(jin),軟件(jian)產(chan)業在生活中的(de)地位越來越高。基于此我國把(ba)軟件(jian)產(chan)業作為發展經濟的(de)...
二三四五發(fa)布季度報(bao)告,報(bao)告顯(xian)示,報(bao)告期營(ying)業收入同比下滑65.26%,歸屬于上(shang)市(shi)公司股東(dong)的凈(jing)...
在互聯網(wang)保險江(jiang)湖中,除了BAT(百度、阿(a)里(li)巴(ba)巴(ba)、騰(teng)訊)等“老牌”互聯網(wang)巨頭之(zhi)外(wai),以京東(dong)、蘇...
全球最大的(de)社(she)交網絡Facebook宣布(bu)推出一(yi)項5000萬美元的(de)基金,與Africa No ...
近日,暴風TV的(de)9名外地員工(gong)來到北京暴風集團總部(bu),就“涉(she)及400多名員工(gong)的(de)拖欠半年工(gong)資”等...
美國(guo)雅虎(hu)公司宣(xuan)布正(zheng)式停止(zhi)了(le)其在(zai)中(zhong)國(guo)大陸地區的所有(you)服務(wu),同時關閉旗(qi)下科(ke)技(ji)媒(mei)體(ti)Engadget...