摘要:【目的】自動甄別科技論文中描述研究主題的關鍵語句。【方法】以論文小節為單位組織句子集,通過訓練領域詞向量計算句子間WMD距離得到相應語義相似度,優化TextRank算法迭代過程,利用外部特征對所得權值進行調整,按句子權值降序選取關鍵主題句。【結果】以氣候變化領域科技論文作為實驗數據,以人工標注的結果為基準對本文的算法和傳統的TextRank算法進行對比實驗,初步結果表明該方法的識別效果(F值)比傳統TextRank算法提升約5%。【局限】句子特征提取有待提高,詞向量訓練及方法中的相關參數需要做進一步優化。【結論】基于領域詞向量,融合WMD語義相似度的TextRank改進算法,能夠較好地甄別科技論文小節內部中心句,輔以外部特征的權值調整后可以較好地識別出一篇論文的核心主題句。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
現代圖書情報技術雜志, 月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創新性,刊載內容涉及的欄目:數學圖書館 、知識組織與知識管理、情報分析與研究 、應用實踐 、動態、特邀專欄、金融證券管理、企業信息管理技術等。于1980年經新聞總署批準的正規刊物。