ISBN/价格: | CNY20.00 (估\呈缴)学位论文 |
---|---|
作品语种: | chi |
出版国别: | CN 530000 |
题名责任者项: | 基于预训练语言模型的中文方面词-情感对抽取技术研究/.董慧洁著/.杨林楠指导 |
出版发行项: | 2023.5.26 |
载体形态项: | 50页:;+图表:;+30cm |
一般附注: | 大数据学院(信息工程学院), 学号2020210458 |
提要文摘: | 随着信息技术的飞速发展,网络平台已成为民众表达意见和分享信息的主要途径,其评论数量呈现出爆炸式增长的趋势。为了更好地服务大众,许多行业需要及时了解公众的反馈和意见,因此对评论中的隐藏信息进行自动化挖掘和文本情感分析显得尤为重要。然而传统的粗粒度的情感分析,不能全面细致地反映出评论文本中的具体信息,因此本文针对细粒度的方面词-情感对抽取任务进行研究,主要内容如下: (1)构建中文方面词-情感对抽取数据集。现有的研究绝大部分是在英文数据领域,中文方面词-情感对抽取数据存在短缺现象。因此,本文自构建中文数据集,其中,包含了摄像机,汽车,智能手机和平板,花卉,水果,茶叶等六个领域的10066条数据样本,12150对方面词-情感对。接着设计实验对构建的数据集进行有效性验证,本文分别使用编码器结构预训练语言模型BERT+LINEAR和编码器-解码器结构预训练语言模型T5 PEGASUS两类结构的预训练模型对构建数据集进行验证。实验表明,两类模型均能有效抽取出方面词-情感对,F1值分别达到了73.72%和72.58%。同时,基于编码器结构的预训练语言模型的效果较好。 (2)构建基于全局指针网络的方面词-情感对抽取模型。为了缓解指针网络带来的方面词首尾位置错误匹配产生的误差,本文采用了全局指针网络,将首尾视为一个整体去抽取并预测。首先,使用ERNIE-gram和Word2Vec实现字词混合嵌入,接着通过全局指针网络得到相应情感类别的方面词矩阵。通过依存关系注意力模块得到概率矩阵,将方面词矩阵中关联不密切的信息弱化,并加强关系密切的词之间的联系。为了模型整体有更好的鲁棒性和泛化能力,使用对抗学习机制,将对抗样本和原始嵌入向量一同训练。结果表明本文构建的基于全局指针网络的方面词-情感对抽取模型在中文数据集上的F1值达到了81.32%,与其他模型对比均有较好的抽取效果,比基线模型ERNIE+LINEAR提高了6.3%。 (3)构建一种基于对比学习的方面词-情感对抽取模型。为了研究预训练语言模型的语义嵌入能力对模型整体的影响,本文使用无监督SimCSE增强预训练语言模型的语义嵌入能力。通过对比学习建立正负样本计算对比损失使预训练语言模型能够更加充分理解上下文特征信息。使用了BERT+LINEAR、BERT+CRF、BERT+GRU、BERT+SAN、ERNIE-gram+LINEAR模型算法和基于全局指针网络的方面词-情感对抽取模型进行实验,结果表示,使用无监督SimCSE对模型性能均有提升,并且在不使用外部词向量的情况下,基于全局指针网络的方面词-情感对抽取模型训练时间大大缩减,且F1值达到了81.08%,这表明引入无监督SimCSE能更充分挖掘预训练语言模型的语义特征表示,进而提高模型整体的抽取效果。 |
并列题名: | Research on Chinese Aspect Term-Sentiment Pair Extraction Technology Based on Pre-trained Language Models |
题名主题: | 方面词-情感对抽取 中文 全局指针 预训练语言模型 对比学习 学位论文 |
中图分类: | TP391-533 |
个人名称等同: | 董慧洁 著 |
个人名称次要: | 杨林楠 指导 |
团体名称等同: | 云南农业大学 授予 |
记录来源: | CN YNAUL 20240301 |