自然語言處理(Natural Language Processing, NLP)是實(shí)現(xiàn)人類無障礙人機(jī)交互愿景的基石,被譽(yù)為“人工智能皇冠上的明珠”。而機(jī)器閱讀理解(Machine Read Comprehension, MRC)是近年來 NLP 領(lǐng)域的研究熱點(diǎn)之一,被視為“自然語言處理皇冠上的明珠之一”。機(jī)器閱讀理解的主要應(yīng)用之一是抽取式問答(Extractive QA),即給定文章和問題,機(jī)器需要在文章中找到答案對(duì)應(yīng)的區(qū)域(span),給出開始位置和結(jié)束位置。代表數(shù)據(jù)集有SQuAD(Stanford Question Answering Dataset)、DuReader(百度)、MS MARCO(微軟)等。
抽取式問答模型的通用架構(gòu)如圖1所示,主要包括向量化層、編碼層、交互層和答案層。比較經(jīng)典的抽取式問答模型有BiDAF、R-Net、ReasoNet等,其中BiDAF模型架構(gòu)如圖2所示。

圖1 抽取式問答模型的通用架構(gòu)

圖2 BiDAR模型架構(gòu)圖
我們?cè)趩栴}生成模型(如圖3)、多段落問答模型選擇器設(shè)計(jì)(如圖4)、多輪問答模型、醫(yī)療知識(shí)問答等方面有重要的技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新。

圖3 問題生成模型

圖4 多段落問答選擇器