汉语框架网中未登录词元的识别技术研究
摘要:汉语框架网中未登录词元的识别技术研究【摘要】:目前词汇语义资源在自然语言处理领域的许多应用中都发挥着重要的作用,但是所有的语义资源都面临一个共同的限制——低覆盖率,汉语框架网也不例外。目前汉语框架网的覆盖率较低,对于开放的文本必定会存在许多词元库中未登录的词,严重制约着汉语框架语义分析任务。针对未登录词元的识别问题,本文借助《同义词词林》的词义信息,分别进行了未登录词元的目标词识别与框架选择的研究。本文的主要研究内容及贡献分以下两方面介绍:针对未登录词元目标词识别任务的研究,提出两种方法。(1)基于词元库扩充的方法,利用《同义词词林》词义信息到CFN词元库的映射来获得扩充的CFN词元库,并利用词义信息来进行目标词的识别,实验结果显示利用扩充后的词元库的识别结果比利用原有词元库的召回率得到了明显提高,而词义信息的加入则使准确率得到了提高。(2)基于最大熵模型的方法,实验选取了词、词性、词义作为特征,对于未登录词元的目标词识别最好达到了90.95%的F值。此方法是一种动态的方法比第一种静态的方法获得了更好的结果,同时,可以识别出词典中的未登录词元。针对未登录词元框架选择任务的研究,提出两种方法。(1)基于平均语义相似度计算的方法,算法思想是同一框架下的词元具有高度相似性,最终实验结果(TOP-4)达到了78.61%准确率。(2)基于最大熵模型的方法,特征选择的方法采用静态特征与动态特征相结合的方法。在第一种方法相同的语料(Test1)上实验结果可达到87.29.%的未登录词元框架选择准确率,针对新闻语料(Test2)中完全未登录词元获得75%的准确率,结果
温馨提示:当前文档最多只能预览
5 页,若文档总页数超出了
5 页,请下载原文档以浏览全部内容。
本文档由 匿名用户 于 2021-03-03 20:17:31上传分享