社交媒体中的跨域和半监督命名实体识别的研究
来源:56doc.com 资料编号:5D23708 资料等级:★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9A5D23708
资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用. 密 保 惠 帮助
资料介绍
社交媒体中的跨域和半监督命名实体识别的研究(中文12000字,英文PDF)
摘要
中文社交媒体中的命名实体识别(NER)是一项重要而又富有挑战性的任务,因为中国的社交媒体语言是一种非正式的、嘈杂的语言。关于NER大多数以前的方法都侧重于域内监督学习,这种学习方式受社交媒体中缺乏注释数据的限制。在本文中,我们提出了正式域中的足够语料库和大量未加注释的文本可以结合起来提高社交媒体中的NER性能。我们提出了一个统一的模型,可以从域外的语料库和在域内未注释的文本中学习。统一模型由两部分组成,一个用于跨域学习,另一种用于半监督学习。跨域学习可以基于领域相似性来学习领域外信息。半监督学习可以在通过自我训练学习无注释的领域信息。实验结果表明,该统一模型比强基线提高了9.57%,达到了最先进的性能。
索引术语 命名实体识别,中文社交媒体,跨领域学习,半监督学习
|