1、观点挖掘
随着Internet的发展和普及,尤其是web2.0时代之后,普通网络用户已经从信息接收者转变为信息的生产者,网络中充斥着各种数据。其中有很多具有评论性和主观倾向性的文本,这些网络数据能够反映出发表者对于评论对象的观点态度。例如,微博中含有用户发表的大量评论,包含着用户对各事件、人物的观点态度。然而,绝这些网上数据大多是计算机无法直接处理的非结构化文本数据。
在这种情形之下,如何通过相关技术分析文本中表达的观点与情感极性,帮助用户快速的获取信息成为自然语言处理领域的热门话题,观点挖掘被国内外学者广泛研究。在过去的研究中,研究者主要是在篇章级、语句级、方面级这三个层次上进行观点挖掘。
篇章级观点挖掘将一个文本看作是一个统一的整体,对这个整体进行观点的挖掘,常用方法有基于文本分类的情感极性分析、基于语义规则的情感极性分析、基于情感词典的情感极性分析、 基于深度学习的情感极性分析;语句级观点挖掘是将一个句子看作是一个基本的单元,先判断句子的主观性,再分析句子的情感极性,该层次的研究主要是在商品的评论方面;属性集的观点挖掘主要是针对实体的某一个属性,挖掘出该属性表达的观点信息,包含的流程有实体属性的提取、基于属性的观点内容的提取、观点的情感极性分析、观点的总结,其中,实体属性的提取和基于属性的观点内容的提取最为重要,实体属性是指评价实体的最小单位,属性的提取可以分为带监督、无监督、半监督三种,基于属性的观点内容提取,在实体属性抽取的基础上,基于该属性提取观点表达的内容,其实质就是提取出一个二元组的模式<方面,观点>,主要方法有基于规则的方法、基于统计模型的方法、基于深度模型的方法。1
本文主要针对方面级观点挖掘与其在人物事件观点挖掘上的应用进行介绍。
1.1、方面级观点挖掘
观点挖掘主要是挖掘文档背后的潜在的观点,主要包含情感分析、特征词和观点词抽取聚类等,在此基础上获取相关词表和文档主题评论摘要。
根据kim等人的定义2,观点由四个要素组成:持有者(holder)、方面(aspect)、观点内容(expression)及情感(sentiment)。这四者之间存在的联系为:观点的持有者针对某一方面发表了具有情感的观点内容。
方面级观点挖掘是将包含评价实体和实体方面的文本筛选出来,然后针对不同的方面进行观点挖掘,根据这些信息判断观点在文本中表达的情感倾向,而不是提取评价文本的总体性评价。
现有的网络评论观点挖掘主要是研究商品评论的观点挖掘、豆瓣电影的评论挖掘、旅游评论的观点挖掘,具有很大的应用前景。以商品评论为例,商品评论内容多样、格式不定、语句口语化,但是评论的观点较为明显;相对于商品而言,电影的评论较为正式、比较容易判断所表达的情感。在商品评论观点挖掘中,通过对购买者言论及评论进行分析,可以快速了解商品各方面的情况,买家掌握商品更全面的信息,卖家可以根据自己的需求做出更好的选择,同时,商家可以依据观点挖掘的结果来不断改进自己的商品。例如,在一条关于相机的评价文本中存在这样的描述:
I bought a new camera. The picture quality is amazing, but the battery life is too short.
对该条评论进行方面级观点挖掘,我们首先可以使用序列标注等方法提取出该评论所针对的实体属性,the picture quality 和 the battery life,可以知道这一条文本涉及到了相机的两个属性像素功能、电池性能,继续分析提取出基于这两个属性的观点,amazing、too short,接着,我们可以对评论进行方面级的情感分析,分析出这两个属性的情感色彩,最后使用模板匹配等方法进行观点总结。
1.2、观点挖掘和情感分析的区别与联系
观点挖掘表示一种对实体及实体方面的观点及态度的挖掘研究,它的实质是文本的情感倾向性分类,但观点挖掘与情感分析不尽相同,二者是两个经常混肴的研究领域。情感分析是指通过自动分析网络评论的文本内容,挖掘评论用户对这方面的褒贬态度倾向,大部分网络评论情感分析集中于评论的情感极性分析。观点挖掘往往伴随情感分析,但是并不绝对,常用的观点挖掘的流程为:方面挖掘、基于方面的观点内容挖掘、观点情感分析、观点总结,下面依次介绍这几个方面。
2、方面级观点挖掘的流程
2.1、方面挖掘
对于给定的言论、评论,首先需要发现其中所涉及到的方面信息。根据是否明确指明观点评论中心,可以将方面发现分为显示方面发现与隐式方面发现。在显示方面发现中,会正向指明观点所对应方面;在隐式方面发现中,评论观点中会暗含评论对象。
2.1.1、显示方面发现
根据显示方面相关研究,可以将显示方面发现的方法分为带监督学习方法、无监督学习方法和半监督学习方法。
2.1.1.1、带监督学习
方面发现可以看作一个典型的序列标注任务,因此可以利用带监督的统计模型对序列标注过程进行训练,从而提取句子的方面表示。常用于方面提取的典型带监督学习方法有隐马尔可夫模型(Hidden Markov Model,HMM)3,条件随机场模型(Conditional Random Field,CRF)4。近年来,Poria5等人提出多种不同的神经网络模型,以自动学习基于CRF的方面提取的特征。带监督模型的精度较高,缺陷在于带监督学习需要大量的带标签的训练数据,领域间的可移植性较差,这无疑将带来极大的人力、物力上的消耗,而且标注出的数据主观性太强。
2.1.1.2、无监督学习
无监督学习可以解决带监督学习的人工标注成本太高、标注依赖等问题。目前,潜在的迪利克雷分布已成为方面抽取的无监督公认方法。方面提取的无监督方法有Hu6提出的基于词性标注、Apriori的规则统计方法,Bagheri7等人提出的采用 bootstrapping 方法从数据中自助提取方面,等等。无监督学习的可操作性更强,无需标注的大量数据,适用于目标领域较小的数据集,难点在于需要提前建立规则模板,并对海量的评论数据进行语义分析等预处理工作,人工干预相对较多,不适用于结构相对复杂的数据。
2.1.1.3、半监督学习
半监督学习方法介于带监督学习和无监督学习之间,让学习器不依赖与外界的交互,自动利用未标记样本来提升学习性能,在方面提取中既避免了大量的文本标注,同时可以利用数据的内部的大量的信息进行方面提取。等人提出了两个新型的半监督模型:SAS(seeded aspect and sentiment model)和ME-SAS8(maximum entropy-SAS model),前者先提取方面后提取观点内容,后者将观点和方面联合提取,同时,加入了相应的种子词汇。半监督学习能够利用局部标注完成显示方面的全局挖掘,但对数据的领域有着较强的依赖。
2.1.2、隐式方面发现
在针对隐式方面中=指示词代指特定方面的情况,Yang9等人借助维基百科利用模板来获取指示代词和方面名词之间存在的语义关系。Xu10等人提出采用LDA和SVM分类器来获取隐式方面,首先用LDA来提取显示方面,再用LDA模型的两个约束性、关联性先验参数引导建立SVM分类器的训练特征,最后,由SVM分类器来识别隐式与显式方面。Zhang11等人提出了一种新型的基于共现关系来识别隐式方面的模型。Bagheri12等人提出了一种无监督的领域独立模型来提取隐式方面,观点词作为节点映射到相应的一组方面节点上,方面与观点词间有联系则联通边上的权重较高,然后利用基于图的计分方法来计算方面与观点节点间的距离来识别隐式方面。Xia13提出了一种利用主题图的方式来获取隐式方面。
2.2、基于属性的观点内容提取
2.3.1、细粒度观点内容抽取思路
基于属性的观点内容的提取方法主要可以分为三种:基于规则提取(通过使用依存句法分析等工具,流程如上图所示)、基于统计模型提取(crf)和基于深度学习模型提取(bilstm)。
基于规则的提取方法通常只能提取到观点的情感词,而不是观点的内容;基于统计模型的观点内容的提取需要人工筛选特征集,且模型对于人工选择的细致性有较强的依赖性;端到端架构的深度学习具有自动学习的特性,精度高,但参数敏感。
2.3.2、细粒度观点内容抽取方法
2.3、方面级情感分析
方面级情感分析任务是在给定语料、限定方面的情况下,分析数据在各方面的情感色彩,如在以下数据中:
苹果手机屏幕质量非常好,但是电池容量不足。
在给定方面信息为屏幕质量和电池容量的情况下,通过这条手机评论语料进行方面级情感分析,我们能够获得评论者对于手机的屏幕质量方面表达出非常积极的情感色彩,而对于手机电池容量方面表达出消极的情感色彩。
2.3.1、方面级情感分析整体思路
16年Liu等人首次提出带有注意力的LSTM模型进行方面级情感分析任务,将方面信息融入注意力,17、18年等人在LSTM基础上提出通过双向、多粒度、深度等注意力机制对方面情感进行分析,更好的了方面信息与上下文信息,18年bert被提出后,学者们通过引入bert进行表示学习,方面级情感分析的效果明显提高。
2.3.2、方面级情感分析改进方法
通过调研发现,目前的term表示非常单一,可以使用外部知识库扩充term,加强方面信息,针对可能引入的噪声对扩充后的集合进行蒸馏;另一个方面,现有的方法是通过注意力机制强化相关方面信息使其情感分析关注于某一个方面,可以使用mask机制弱化非相关方面信息,使方面单一化。
2.4、观点内容总结
在这里,观点内容总结我们可以使用(1)基于方面的观点总结(2)抽取式观点总结 两种方法,生成观点的整体报告。
2.4.1、基于方面的观点总结
基于方面的观点总结方法,需要首先识别出被评论对象的方面,并根据频率信息对其进行排序;然后针对每一个方面,统计其情感极性得分,生成直观形象的方面情感分布。
基于方面的观点总结具有两个显著的特征:(1)能够抓住观点的本质,直观获取评论者对观点目标所持有的态度。
(2)基于方面的观点总结产生结果是定量的,使结果看上去更精确、直观
2.4.1、抽取式观点总结
抽取式的观点总结既可以通过主题模型生成(tf-idf、词性、权值排序) ,也可以使用序列标注模型模型进行抽取。
这种方法一个缺点是不会考虑方面信息,筛选出来的语句可能与任何方面情感无关,将影响结果的可信度。
2.5、观点挖掘的评价
观点挖掘的不同步骤需要使用不同的评价方法,这里分别介绍方面提取和观点内容提取的评价方法。
2.5.1、方面提取的评价方法
观点句的方面通常为单个词的形式,因此,通常选用直接与标注对比计数的方法;同时,选取精确率、召回率、F1度量值来评价模型的整体性能。
P
r
e
c
i
s
i
o
n
=
∣
{
p
∣
p
∈
P
∧
c
∈
C
s
.
t
.
α
(
c
,
p
)
}
∣
∣
P
∣
.
R
e
c
a
l
l
=
∣
{
c
∣
c
∈
C
∧
p
∈
P
s
.
t
.
α
(
c
,
p
)
}
∣
∣
C
∣
.
F
1
=
2
P
r
e
c
i
s
i
o
n
⋅
R
e
c
a
l
l
P
r
e
c
i
s
i
o
n
+
R
e
c
a
l
l
.
Precision = \frac{ \lvert \lbrace p \lvert p \in P \wedge c \in C s.t. \alpha (c, p) \rbrace \rvert} {\lvert P \rvert}\,. \\ Recall = \frac{ \lvert \lbrace c \lvert c \in C \wedge p \in P s.t. \alpha (c, p) \rbrace \rvert} {\lvert C \rvert}\,. \\ F1 = \frac{2 Precision \cdot Recall}{Precision + Recall}\,.
Precision=∣P∣∣{p∣p∈P∧c∈Cs.t.α(c,p)}∣.Recall=∣C∣∣{c∣c∈C∧p∈Ps.t.α(c,p)}∣.F1=Precision+Recall2Precision⋅Recall.
C
C
C、
P
P
P分别表示人工标注的短语集合和模型输出的短语集合,
c
c
c、
p
p
p分别表示每个标注短语与模型相应输出短语,
α
(
c
,
p
)
\alpha(c,p)
α(c,p)表示标签短语与输出短语完全匹配,
∣
∣
||
∣∣表示计算符合要求的短语数量。
2.5.2、观点内容提取的评价方法
在传统的度量方法之中,每个预测短语与真正标注短语的一次完全匹配被看作是一次正确预测,也被称为精确评价的方式。但在观点内容提取任务上,文本表达的观点的界限往往难以定义,人工识别也有一定的个困难。模型往往会挖掘出一些与真正标签相近但却不完全相同的表达,例如标签“严厉的批评”,可能只提取出“批评”,既不是完全错误,也不是完全正确,因此,采用传统的度量并不是评价观点内容提取的科学方法。
目前有两种基于传统度量方法的改进后的软性评估方法——二元重叠法[](binary overlap)、比例重叠法(proportional overlap)[]来评估观点挖掘任务。二元重叠法认为只要标签短语与预测短语存在重叠部分,则作为一次预测正确,比例重叠法则是按照比例匹配计数。
二元重叠法的公式如下:
P
r
e
c
i
s
i
o
n
b
=
∣
{
p
∣
p
∈
P
∧
c
∈
C
s
.
t
.
α
′
(
c
,
p
)
}
∣
∣
P
∣
.
R
e
c
a
l
l
b
=
∣
{
c
∣
c
∈
C
∧
p
∈
P
s
.
t
.
α
′
(
c
,
p
)
}
∣
∣
C
∣
.
F
1
b
=
2
P
r
e
c
i
s
i
o
n
b
⋅
R
e
c
a
l
l
b
P
r
e
c
i
s
i
o
n
b
+
R
e
c
a
l
l
b
.
Precision^b = \frac{ \lvert \lbrace p \lvert p \in P \wedge c \in C s.t. \alpha ^\prime(c, p) \rbrace \rvert} {\lvert P \rvert}\,. \\ Recall^b = \frac{ \lvert \lbrace c \lvert c \in C \wedge p \in P s.t. \alpha^ \prime (c, p) \rbrace \rvert} {\lvert C \rvert}\,. \\ F1^b = \frac{2 Precision^b \cdot Recall^b}{Precision^b + Recall^b}\,.
Precisionb=∣P∣∣{p∣p∈P∧c∈Cs.t.α′(c,p)}∣.Recallb=∣C∣∣{c∣c∈C∧p∈Ps.t.α′(c,p)}∣.F1b=Precisionb+Recallb2Precisionb⋅Recallb.
α
′
(
c
,
p
)
\alpha ^\prime(c, p)
α′(c,p)表示
c
c
c、
p
p
p之间存在重叠部分
比例重叠法的要求较高,其公式如下:
r
(
c
,
p
)
=
∣
c
∩
p
∣
∣
p
∣
.
R
(
C
,
P
)
=
∑
c
∈
C
∑
p
∈
P
r
(
c
,
p
)
.
P
r
e
c
i
s
i
o
n
p
=
R
(
c
,
p
)
∣
P
∣
.
R
e
c
a
l
l
p
=
R
(
p
,
c
)
∣
C
∣
.
F
1
p
=
2
P
r
e
c
i
s
i
o
n
p
⋅
R
e
c
a
l
l
p
P
r
e
c
i
s
i
o
n
p
+
R
e
c
a
l
l
p
.
r(c,p) = \frac{\lvert c \cap p \rvert}{\lvert p \rvert}\,.\\ R(C,P) = \sum_{c \in C} \sum_{p \in P}r(c,p)\,.\\ Precision^p = \frac{ R(c,p)} {\lvert P \rvert}\,. \\ Recall^p = \frac{R(p,c)} {\lvert C \rvert}\,. \\ F1^p = \frac{2 Precision^p \cdot Recall^p}{Precision^p + Recall^p}\,.
r(c,p)=∣p∣∣c∩p∣.R(C,P)=c∈C∑p∈P∑r(c,p).Precisionp=∣P∣R(c,p).Recallp=∣C∣R(p,c).F1p=Precisionp+Recallp2Precisionp⋅Recallp.
r
(
c
,
p
)
r(c,p)
r(c,p)为计算重叠比例
比例重叠法更为严谨、通用。
3、方面级观点挖掘的挑战
1、互联网上的评论复杂多样,特别是在面对如包含网络用语、习语、隐喻义时,如何应对结构不规整的复杂句;
2、互联网中的评论大多具有中心,如围绕某一事件或产品等事物展开进行讨论,如何在短文本评论中使用好中心信息;
3、由于评论中心的存在,不同领域的评论观点内容提取会有很大不同,如何增强模型的跨领域能力,提高模型的可扩展性和多领域可移植性;
4、在提取观点内容时,现有模型还不能十分准确的定位到观点内容的边界,如何更好的识别观点内容的边界很大的影响着观点内容提取的优劣。
4、面向热点事件评论与其他网络评论观点挖掘的相同与差异
4.1、数据特征的差异
评论包含着发声者对某种人或事物所持有的观点,以及对该观点的阐述等信息,现有的研究主要基于以下几种评论:新闻评论,图书评论,影视评论,产品及服务评论。目前为止,面向人物、事件的评论鲜有人进行研究。
网络评论整体的特征有:数据海量、复杂多样、非结构化和可用价值高,但不同类型和领域的评论各有其特点,对不同的类型的评论进行观点挖掘需要采用不同的方法,各类评论数据相应特征如表所示。
| 评论类别 | 评论特性 |
|---|---|
| 新闻评论 | 形式上比较规范,内容上观点鲜明,情感倾向明确 |
| 图书评论 | 形式松散,内容专业性不强,观点不明显,评价对象相对容易判断 |
| 影视评论 | 类似于图书评论,往往有感而发,随意性更强 |
| 产品及服务评论 | 内容简洁,评论对象和情感倾向明显 |
| 人物、事件评论 | 形式最松散,内容最丰富,情感最复杂,隐含价值最高 |
4.2、方法的差异
无论面向人物、事件评论或其他网络评论观点挖掘中,评论观点抽取任务都是细粒度评论挖掘的核心任务,其面临的主要挑战是如何自动抽取评论文本中由评价对象、程度词、观点词构成的三元组。
在其他网络评论中,特别是产品及服务评论,由于内容简洁,层次分明,观点明确,无论是训练语料的标注,或者试验效果,都相对比较理想,BILSTM-CRF已成为受到广大认可的方面、观点抽取模型。而在面向人物、事件评论的观点挖掘中,由于形式松散,包含隐含信息多,情感的表达多式多样。
其次,相比于产品评论观点分析,面向人物、事件观点分析的关于各方面的观点内容形式多样,很难直接进行观点内容提取,可根据方面的不同采用不同的提取方法,如在对措施介绍方面进行观点分析时,可以通过提取关键词,文本摘要的方法获取观点信息;在对态势分析方面进行观点挖掘时,可以通过分类方法预测贸易战的走势;在对解决方案进行分析时,可以通过抽取式摘要方法进行总结,在对“乌克兰事件”、香港问题等具体的问题进行分析时,可以是用情感情感分析方法判断发言人的态度;转发引用的评论,并不包含转发者表明的态度、观点,但可以根据转发记录找到转发者之间的潜在联系,构建人物之间的关系。
5、面向热点事件的人物观点挖掘系统
5.1、系统的功能结构
面向热点事件的人物观点挖掘系统旨在挖掘社交媒体上定向人物发表的对于各事件的观点意见,分析该人物对各事件、人物的观点意见,生成较全面的人物画像。
系统的功能结构图如上图所示,面向人物、事件的观点挖掘系统主要包含四个子系统,分别是事件发现子系统、事件方面发现子系统、事件方面观点分析子系统、观点总结子系统、观点评价子系统。
事件发现子系统通过规则库匹配与分类模型进行事件识别,发现事件的相关评论;事件方面发现子系统通过序列标注模型、规则模板发现评论中描述的方面信息;方面观点分析子系统分析方面级情感获得各方面情感极性,再采用主题模型、标注模型分析方面观点;情感分析子系统获取各方面观点的情感极性;观点总结子系统利用方面信息、抽取信息总结事件观点;可视化展示子系统将上述分析结果通过e-charts图、人物画像等方式进行可视化的展示,给予用户直观、简明的分析结果;最后,用户通过观点评价子系统对评论分析结果打分,后台人员分析反馈结果对系统优化再开发。
5.2、事件发现子系统
事件类别识别是从非结构信息中抽取出用户感兴趣的信息,并以结构化数据传递给用户。传统的机器学习方法采用支持向量机(SVM)、最大熵模型(ME)以及朴素贝叶斯分类器对的事件类别进行识别,最近比较火热的深度学习方法采用循环神经网络、卷积神经网络等方法对的事件类别进行识别。目前比较常用的事件识别技术是循环神经网络算法(RNN)、长短期记忆网络算法(LSTM)、卷积神经网络算法(CNN)等。
在本系统的事件发现子系统中,我们使用规则库和循环神经网络的联合识别关于事件的评论。
5.2.1、基于规则库的事件识别
以特定事件为背景,从所有的推特评论中整理出与该事件相关评论,以这些数据为基础归纳该类事件的评论方式,发现评论中的词语具有一定的规律可循,以评论中抽取出来的关键词汇为标识,确定是否为该事件相关评论。目前,该类事件评论的判别规则库如表2所示。
从表中可以看到,评论是否为事件评论取决于评论中包含的关键词,如果评论中包含有表中显示的一个或多个词,同时不包含“好吃”、“养胃”、“美容”、“不贵”等明显与特定事件无关的词,我们就将评论视为是该战事件相关评论。
| 数据来源 | 事件类型 | 事件相关词 | 事件无关词 |
|---|---|---|---|
| 贸易摩擦 | 汇率、贸易差额等 | 美食、美妆、旅游、娱乐等 |
5.2.2、基于循环神经网络的事件识别
采用规则库识别后,对非特定事件的评论再使用循环神经网络(RNN)进行事件识别。循环神经网络网络的本质特征是在处理单元之间既有内部的反馈连接又有前馈连接。在计算过程中体现过程动态特性,比前馈神经网络具有更强的动态行为和计算能力。
5.3、事件方面发现子系统
在搜集到的评论预料中,大多每条推特仅包含其中的一到两个方面,首先需要识别出评论中所包含的方面信息,计划采用序列标注模型(BILSTM-CRF)进行方面发现。
5.4、事件方面观点分析子系统
提取出事件评论中的方面信息后,使用方面级情感分析方法LCF14对事件各方面进行情感分析,并试验其改进方案,得到对于评论者对事件的比较细粒度看法。
对于评论中涉及到需要进一步理解的评论,使用BILSTM-CRF、主题模型方法抽取重要的观点评论。
5.5、观点总结子系统
在观点总结子系统中,我们对上述系统中分析到的方面信息、观点信息、情感信息进行整合,使用抽取式和基于方面的两种方法进行观点总结。
5.6、可视化展示子系统
使用charts工具对挖掘结果进行可视化,方便用户使用。
5.7、观点评价子系统
用户在观点评价子系统提交在系统使用过程中遇到的问题,及时与开发人员联系。
6、目前系统算法、架构与展示
6.1、系统算法
6.1.1、评价对象抽取
在对评价对象进行抽取时,本文中采用Yang等人15提出来的NCRF++模型。NCRF++是为快速实现具有CRF推理层的不同神经序列标注模型而设计的。它为用户提供了配置灵活的神经网络模型结构。
NCRF++模型由字符序列层、单词序列层、推理层构成。绿色、红色、黄色和蓝色圆圈分别表示字符的表示、单词的表示、字符序列的表示和单词序列的表示。灰色圆圈表示人工选择特征的嵌入。字符序列层集成了RNN和CNN两种用于字符序列信息的神经编码器,提取字符级特征。单词序列层和字符序列层类似,集成RNN、CNN两种编码器,提取词级特征。推理层将单词序列层的输出通过Softmax或CRF函数进行打标签,输出序列标记结果。
6.1.2、知识增强的情感分析
2019年Song等人16提出了一种注意力编码神经网络模型AEN_BERT,将BERT应用到观点倾向分析,使用多头注意力对文本和对象进行交互训练;2019年Wei17等人一种多极性正交注意力机制,通过多头注意力机制嵌入情感极性信息,并添加正交惩罚性保证每个注意力在训练过程中的差异化;2019年Meng等人18通过使用多个编码器,分别编码知识与训练数据,提出了一种知识增强的摘要模型。我们借鉴这一思想,针对特定人物观点挖掘任务,提出一种新的知识增强的注意力编码神经网络KEAEN_BERT用于特征表示和观点倾向分析。

知识增强的注意力编码网络模型共有基于BERT的嵌入层、多头注意力编码层、目标和知识特定注意力层、多元整合输出层四层。下面依次介绍每一层结构。
-
预训练模型已经成为了NLP领域最重要的资源之一。在嵌入层中,我们使用预训练的BERT模型分别生成文本、对象和外部知识的表示。
-
在多头注意力编码层,我们主要对嵌入层的输出结果进行加权与特征提取。注意力编码层主要包含两个部分:多头注意力变换(MHA)和点卷积变换(PCT)。
2.1 多头注意力变换(MHA)
我们使用多头注意力机制对嵌入层的输出进行加权处理。当对评价对象或背景知识的输出进行加权时,我们使用Inter-MHA,令文本信息的输出作为注意力查询向量,q!=k,使得评价对象和背景知识可以根据文本信息进行建模表示;当针对文本信息的输出进行加权时,我们使用Intra-MHA,令文本信息的输出作为注意力查询向量,q=k,对文本信息的输出进行加权表示。
在多头注意力编码层,模型得到了上下文表示 、上下文感知的评价对象表示 、上下文感知的狭义背景知识表示 、上下文感知的广义背景知识表示 。由于上下文表示 包含的信息是最重要,因此将上下文感知的评价对象表示 、上下文感知的狭义背景知识表示 、上下文感知的广义背景知识表示 反作用到上下文表示 。因此,我们使用另三个MHA分别获得评价对象特定上下文表示、狭义背景知识特定上下文表示、广义背景知识特定上下文表示。2.2 点卷积变换(PCT)
在这里,我们使用点卷积变换将多头注意力MHA部分收集到的上下文信息进行转换,对所有输入进行相同的转换。 -
对象和知识特定关注层使用另三个MHA分别获得评价对象特定上下文表示、狭义背景知识特定上下文表示、广义背景知识特定上下文表示。多头注意力编码层,模型得到了上下文表示 、上下文感知的评价对象表示 、上下文感知的狭义背景知识表示 、上下文感知的广义背景知识表示 。由于上下文表示 包含的信息是最重要,因此将上下文感知的评价对象表示 、上下文感知的狭义背景知识表示 、上下文感知的广义背景知识表示 反作用到上下文表示 。
-
对象和知识特定关注层的输出进行池化操作后,对文本、对象、知识等各部分的池化输出结果进行拼接,使用全连接层将连接向量投影到目标分类空间中,得到观点倾向预测结果。
6.2、系统机构与展示
目前观点挖掘系统可以通过深入分析与评价对象相关的数据,生成整体观点倾向、相关对象观点倾向、观点片段、代表性观点等五种形式的观点挖掘结果,直观展示给使用用户,帮助用户方便、快捷地了解指定人物对指定对象的观点。
系统主页面是用户的主要交互界面,用户可以通过主界面了解系统的功能。在主界面的最上侧是导航栏,导航栏和后端的调度模块直接相连,用户不论进入到哪个页面都可以通过导航栏进行各个页面的切换。导航栏还可以进行缩放,进一步节省屏幕空间。导航栏的下方是对系统的定位与目标的介绍,最下方是系统的三个主要应用场景。
用户可以在点击屏幕正中间的“Get start today”按钮或者导航栏中的“Services”按钮进入分析服务界面,如图4-3所示。 分析服务界面中的Character文本框表示观点持有者,People/Thing文本框表示评价对象。用户可以修改People/Thing文本框,输入想要检索的评价对象,点击“Analyze”分析按钮,得到观点持有者对该评价对象的观点意见。
分析服务界面主要通过分析观点持有者发表的包含评价对象的数据,提取五种不同形式的观点意见,分别是整体观点倾向、相关对象的观点倾向、观点片段、代表性观点、高频词。

整体观点倾向分析指分析人物发表的涉及目标对象的数据,通过上文中提到的NCRF++评价对象抽取、KEAEN_BERT观点倾向分析方法,得到该人物对指定对象的整体观点倾向分布。从图中,我们可以分析得出该人物对指定对象总体上持有正向积极的观点。
通过结合发表时间重新整理观点倾向分析结果,得到该人物对指定对象的观点倾向变化。通过分析该人物对指定对象的观点倾向变化,可以分析得出在2018年之后,该人物才开始关注指定对象,且所发表的数据都持正向积极的观点倾向。
如果能够找到该人物对与指定对象相关的其他对象的观点倾向,可能对理解该人物对与指定对象观点倾向的产生原因提供帮助。因此,系统对涉及指定对象的数据进行评价对象抽取,对所有对象依次进行观点倾向分析,得到该人物对与指定对象相关的对象的观点倾向。通过分析,可以得出该人物对与指定对象持有积极的观点倾向可能是由于指定对象是一家中国公司。
为了继续挖掘该人物对与指定对象观点倾向的原因,将所有涉及该人物通过使用NLTK工具包进行词性分块,再借鉴Qiu等人提出的观点抽取规则,抽取该人物对与指定对象观点片段。通过观点片段抽取结果,可以分析得出该人物认为指定对象是一家高科技公司,并且在生产伟大的产品,这很有可能是该人物对指定对象持有积极观点倾向的原因。
之后,由于该人物针对评价对象可能发表多条包含相同观点的数据,因此,系统使用AP算法帮助用户对该人物发表的与指定对象相关数据进行聚类,并取出具有代表性的数据,展示出该数据的点赞、转发次数与发表时间。通过代表性观点抽取,可以帮助用户过滤价值含量低的数据,明显节省用户阅读时间。



对涉及指定对象的数据进行分词、清洗等处理后,利用可视化工具来生成词云图,帮助用户快速抓住该人物对指定对象印象的关键词。

如果用户对系统有任何建议或意见,可以通过点击导航栏的“Contact”按钮,进入联系页面,通过提交表单与我们进行沟通交流。
其次,系统完成了移动端开发,可以在手机等工具上进行自适应显示,提高了用户的功能体验。
作者info
作者:wjy \quad 方向:观点挖掘,知识工程
欢迎转载,期待关注
赵泽青. 网络评论观点挖掘综述[J]. 现代计算机(专业版), 2019, 643(07):51-55. ↩︎
Kim SM, Hovy E. Determining the sentiment of opinions. In: Proc. of the 20th Int’l Conf. on Computational Linguistics (ICCL
2004). Stroudsburg: ACL, 2004. 1367. [doi: 10.3115/1220355.1220555] ↩︎Jin W , Ho H H , Srihari R K . OpinionMiner: A novel machine learning system for web opinion mining and extraction[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France, June 28 - July 1, 2009. ACM, 2009. ↩︎
Lafferty, J., McCallum, A., Pereira, F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann: 282–289. 2001. ↩︎
Poria S, Cambria E, Gelbukh A. Aspect extraction for opinion mining with a deep convolutional neural network. Knowledge- Based Systems, 2016,108©:42−49. [doi: 10.1016/j.knosys.2016.06.009] ↩︎
Hu M, Liu B. Mining and summarizing customer reviews. In: Proc. of the 10th ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining (KDD 2004). New York: ACM Press, 2004. 168−177. [doi: 10.1145/1014052.1014073] [ ↩︎
Bagheri A, Saraee M, Jong FD. An unsupervised aspect detection model for sentiment analysis of reviews. Lecture Notes in Computer Science, 2013,7934:140−151. [doi: 10.1007/978-3-642-38824-8_12] ↩︎
Mukherjee A, Liu B. Aspect extraction through semi-supervised modeling. In: Proc. of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1 (ACL 2012). Stroudsburg: ACL, 2012. 339−348. ↩︎
Yang X, Su J. Coreference resolution using semantic relatedness information from automatically discovered patterns. In: Proc. of the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007). Stroudsburg: ACL, 2007. 528−535. ↩︎
Xu H, Zhang F, Wang W. Implicit feature identification in Chinese reviews using explicit topic mining model. Knowledge-Based Systems, 2015,76(1):166−175. [doi: 10.1016/j.knosys.2014.12.012] ↩︎
Zhang Y, Zhu W. Extracting implicit features in online customer reviews for opinion mining. In: Proc. of the 22nd Int’l Conf. on World Wide Web Companion (WWW 2013). New York: ACM Press, 2013. 103−104. [doi: 10.1145/2487788.2487835] ↩︎
Bagheri A, Saraee M, De JF. Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews. Knowledge-Based Systems, 2013,52:201−213. [doi: 10.1016/j.knosys.2013.08.011] ↩︎
Xia L, Wang Z, Chen C, Zhai S. Research on feature-based opinion mining using topic maps. The Electronic Library, 2016,34(3): 435−456. [doi: 10.1108/EL-11-2014-0197] ↩︎
Zeng, Biqing & Yang, Heng & Xu, Ruyang & Zhou, Wu & Han, Xuli. (2019). LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classification. Applied Sciences. 9. 3389. 10.3390/app9163389. ↩︎
Yang J, Zhang Y. NCRF++: An open-source neural sequence labeling toolkit[C]//Proceedings of ACL 2018, System Demonstrations. 2018: 74-79. ↩︎
Song Y, Wang J, Jiang T, et al. Attentional encoder network for targeted sentiment classification[J]. arXiv preprint arXiv:1902.09314, 2019. ↩︎
Wei J, Liao J, Yang Z, et al. BiLSTM with multi-polarity orthogonal attention for implicit sentiment analysis[J]. Neurocomputing, 2020, 383: 165-173. ↩︎
Meng C, Ren P, Chen Z, et al. RefNet: A reference-aware network for background based conversation[J]. arXiv preprint arXiv:1908.06449, 2019. ↩︎
&spm=1001.2101.3001.5002&articleId=102940034&d=1&t=3&u=e5de4e1ca0b64a7aaeb783780e8b3fbc)
2320

被折叠的 条评论
为什么被折叠?



