基于深度學(xué)習(xí)和遷移學(xué)習(xí)的領(lǐng)域自適應(yīng)中文分詞

成于思; 施云濤 東南大學(xué)土木工程學(xué)院; 江蘇南京210096; 中國(guó)移動(dòng)通信集團(tuán)南京分公司網(wǎng)絡(luò)部; 江蘇南京210019

關(guān)鍵詞:深度學(xué)習(xí) 遷移學(xué)習(xí) 領(lǐng)域分詞 工程法律 

摘要:為了提高專(zhuān)業(yè)領(lǐng)域中文分詞性能,以及彌補(bǔ)專(zhuān)業(yè)領(lǐng)域大規(guī)模標(biāo)注語(yǔ)料難以獲取的不足,該文提出基于深度學(xué)習(xí)以及遷移學(xué)習(xí)的領(lǐng)域自適應(yīng)分詞方法。首先,構(gòu)建包含詞典特征的基于深度學(xué)習(xí)的雙向長(zhǎng)短期記憶條件隨機(jī)場(chǎng)(BI-LSTM-CRF)分詞模型,在通用領(lǐng)域分詞語(yǔ)料上訓(xùn)練得到模型參數(shù);接著,以建設(shè)工程法律領(lǐng)域文本作為小規(guī)模分詞訓(xùn)練語(yǔ)料,對(duì)通用領(lǐng)域語(yǔ)料的BI-LSTM-CRF分詞模型進(jìn)行參數(shù)微調(diào),同時(shí)在模型的詞典特征中加入領(lǐng)域詞典。實(shí)驗(yàn)結(jié)果表明,遷移學(xué)習(xí)減少領(lǐng)域分詞模型的迭代次數(shù),同時(shí),與通用領(lǐng)域的BI-LSTM-CRF模型相比,該文提出的分詞方法在工程法律領(lǐng)域的分詞結(jié)果F1值提高了7.02%,與預(yù)測(cè)時(shí)加入領(lǐng)域詞典的BI-LSTM-CRF模型相比,分詞結(jié)果的F1值提高了4.22%。該文提出的分詞模型可以減少分詞的領(lǐng)域訓(xùn)練語(yǔ)料的標(biāo)注,同時(shí)實(shí)現(xiàn)分詞模型跨領(lǐng)域的遷移。

中文信息學(xué)報(bào)雜志要求:

{1}本刊對(duì)刊發(fā)的文章?lián)碛邪鏅?quán),不得擅自轉(zhuǎn)載、改編。凡轉(zhuǎn)載、改編務(wù)經(jīng)我刊同意,違者必究。

{2}作者簡(jiǎn)介包括:姓名、性別、出生年月、畢業(yè)學(xué)校及所學(xué)專(zhuān)業(yè)、工作單位、職務(wù)職稱(chēng)、現(xiàn)從事的研究工作情況。

{3}來(lái)稿若屬國(guó)家自然科學(xué)基金項(xiàng)目或省部基金項(xiàng)目,請(qǐng)?jiān)谖母逯袠?biāo)明其基金來(lái)源和編號(hào),我刊可以優(yōu)先審核發(fā)表。

{4}正文內(nèi)連續(xù)敘述中的序號(hào)采用①……;②……;③……。分級(jí)超過(guò)3級(jí)后用網(wǎng)括號(hào)如:“①”,“②”表示,并采用連排。

{5}附注請(qǐng)一律使用當(dāng)頁(yè)腳注的形式,以帶圈①……⑩的方式編號(hào),使用每頁(yè)重新編號(hào)的方式。

注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社

中文信息學(xué)報(bào)

北大期刊
1-3個(gè)月下單

關(guān)注 16人評(píng)論|0人關(guān)注
相關(guān)期刊
服務(wù)與支付
国产精品视频线观看26uuu,免费av网站在线观看,免费一级a四片久久精品网,国产成人无码精品久久久露脸
亚洲欧美综合人成在线 | 欧美精品三级视频中文字幕 | 重口另类在线播放不卡 | 亚洲天天做夜夜做天天欢人人 | 午夜福到在线a国产4视频 | 在线观看91免费精品国产拍在线 |