栏目分类
巨乳 動画 基于词语情感隶属度特征的情感极性分类
发布日期:2024-10-07 21:41 点击次数:202
跟着Web 2.0的兴起和社会媒体的马上发展, 情感分析(亦称倡导挖掘)已成为当然话语处理接头的一个热门, 并在连年得到快速发展, 各式情感分析系统层见错出。由于机器学习步调性能的不休普及, 使得情感分类大致得到效率较好的基线系统, 机器学习框架大致从登第的特征中学习不同类别的指向信息, 其参数、特搜集和权重的细目对分类性能起决定性作用。因此, 本文将特征的聘任和示意动作要点探索的内容。跟着基于神经收罗的话语模子的发展, 基于词袋(bag-of-words)的模子迟缓受到扼杀, 神经收罗模子不再仅仅对词语的排列而更多地考试了词序关系, 在大范围的无监督素质下时常能得到更多的语义信息, 因此在抽取、语音识别、翻译、校平等使命中施展了上风。同期, 很厚情感分析使命已将词语、段落的向量示意动作特征权重应用于分类框架[1-4], 但通过对比发现, 这类步调在情感分类问题的处理上依然有很大的编削空间。固然N-grams话语模子接头了词语的窗口内高下文, 但很少稀有据大致清闲多窗口的高下文短语概率筹画, N-grams存在数据稀少和高维度的适度巨乳 動画, 关于词语间的语义距离的忖度依然隐约。与N-grams相对的递归神经收罗(recurrent neural networks, RNNs)话语模子[2], 其里面结构大致更好地进行平滑预测, 从而放宽了高下文的窗口适度, 在好多应用中优于传统的N-grams。因此, 咱们应用RNNs动作本文的一组基线步调。然则, 在新步调不休露馅的今天, 词袋模子仍然存在上风, 某些语料数据在传统的朴素贝叶斯(Naïve Bayes, NB)、援助向量机(Support Vector Machine, SVM)分类框架下, 结合优化的特征、权重集, 依然大致得到更好的分类收尾[5]。
本文从优化特征及权重的角度起程, 在依然取得很好效率的NB-SVM基础上, 进一步探索更佳的SVM应用步调。咱们针对居品指摘语料, 应用递归神经收罗话语模子[2](recurrent neural network based language model, RNNLM), 通过贝叶斯划定判定正负极性, 应用Paragraph Embedding生成的句子向量动作特征, 通过SVM分类器判定极性[3]。应用NB-SVM[5]结合N-grams特征判定极性动作本文的基线步调。受到情感抒发外沿隐约性的启发, 咱们尝试用隐约网络表面挖掘词语的正负情感间的幽微别离, 结合隐约推理的词汇隐约网络的情感隶属度细目步调, 将正负情感极性隶属度有用会通动作特征示意步调, 提议基于词语情感隶属度特征的分类框架, 并完成与上述各式分类步调的比对, 试验收尾阐述了本文提议的分类步调关于情感极性分类的有用性。
1 关伙同头情感分析问题时常分为两大处理解析, 隔离是基于辞书的情感分类步调[6-7]和基于语料库的情感分类步调[5, 8-9]。由于通用辞书关于种种型、领域的文本笼罩度不及, 基于辞书的步调的遵循迟缓弱化, 而基于对语料库中信息进行统计的机器学习步调越来越受到醉心。Yang等[9]将句子级情感分类看作念序列标注问题, 将多情感标签的句子动作输入, 通过条目立地场和后序正规化(posterior regul-arization)来学习参数, 应用高下文短句的语境和评价对象, 对不含多情感词语的短句进行情感倾向预测, 对种种特征进行整合, 包括辞书模板、滚动贯串、倡导共指等。跟着情感分析接头的不休潜入以及基于话语模子的新式语义示意步调[2, 10]的出现, 各式基于神经收罗模子的向量示意步调[10-13]也应用到情感分析领域。由于这些基于神经收罗的话语模子大致在无监督的条目下挖掘一定的语义信息, 这些向量示意的获取也成为现时的接头热门。Le等[3]通过词语的向量抒发预测高下文的词向量, 将句子向量看作念一个迥殊的主题词向量, 应用立地梯度下跌素质词语语义向量示意, 用这些词向量进一步推断句子向量, 将得到的向量示意动作援助向量机分类器的特征完成句子情感分类。Bespalov等[13]通过浅层语义分析得到词的向量示意, 进一步将文本示意为N-grams特征向量对应的线性权重向量用于情感分析。Tang等[14]在大范围微博语料库中, 以微博神气符号动作弱情感标签, 通过3种神经收罗模子有监督的素质, 得到面向情感语义的词向量示意, 将词向量示意动作特征放入SVM分类器中, 得到可以的效率。Wang等[5]隔离对朴素贝叶斯和SVM这两种常用的分类模子的适用情况进行分析, 提议应用朴素贝叶斯对数频次比动作SVM特征权重的分类模子, 通过实考解说这种浮浅的模子关于情感分类任务相称有用。本文在Wang等[5]使命的基础上, 以关联表面为依据, 进一步对特征权重优化, 以得到更佳的分类性能。
av迅雷 2 情感分类步调 2.1 情感词语隐约网络正向词语隐约网络:设论域X为整个词语的网络, 则论域X上的正向情感词语隐约网络POS是X到[0,1]的一个映射μPOS: X→[0,1]。关于x∈X, μPOS称为正向词语隐约网络POS的隶属度函数, μPOS(x)称为x属于词语隐约网络POS的隶属度。
负向词语隐约网络:设论域X为整个词语的网络, 则论域X上的负向情感词语隐约网络NEG是X到[0,1]的一个映射μNEG: X→[0,1]。关于x∈X, μNEG称为负向词语隐约网络NEG的隶属度函数, μNEG(x)称为x属于词语隐约网络NEG的隶属度。
由上述界说可知, 这些隶属度函数的细目是隐约网络表面能否有用插足应用的重要。
2.2 情感分类的TF-IDF 2.2.1 情感词语频率TF界说f(i)∈R|V|是素质样例i的特征的频数, 即f(i)代表特征Vj在样例i中出现的次数。关于整个的素质样例, 可以界说正负两类特征频数向量如:
$ {\rm{T}}{{\rm{F}}_{{\rm{POS}}}} = \alpha + \sum\nolimits_{i:{y^{(i)}} = 1} {{f^{(i)}}}, $ (1) $ {\rm{T}}{{\rm{F}}_{{\rm{NEG}}}} = \alpha + \sum\nolimits_{i:{y^{(i)}} =-1} {{f^{(i)}}} 。 $ (2)其中α是为了数据平滑配置的参数。
左证上头得到特征频数向量, 对TFPOS和TFNEG隔离除以其本人向量的频数总额进行归一化处理, 进一步筹画其对数比, 如式(3)所示:
$r = {\rm{log}}\left( {\frac{{{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}} \right\|}_1}}}{{{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}} \right\|}_1}}}} \right)。$ (3) 2.2.2 情感词语的逆文档频率IDFNB-SVM是将文档词频信息的归一化对数比动作特征权重, 其形状如式(3)所示。受到基于隐约推理的词语隶属度构建步调[15]的启发, 咱们通过分析以为, 在归一化频数的基础上, 会通特征对应各个类别的逆文档频率(IDF)信息, 大致使特征具有更好的类别指向性, 从而消弱在种种极性的情感句中大宗出现的无关特征对分类性能的影响, 可以动作词语的隐约情感极性隶属度的一种示意步调。因此, 为词语筹画对应的正负两类的IDFPOS和IDFNEG, 如式(4)和(5)所示:
$ {\rm{ID}}{{\rm{F}}^i}_{{\rm{POS}}} = \log \left( {\frac{{{s_{{\rm{pos}}}} + {s_{{\rm{neg}}}}}}{{{\rm{Coun}}{{\rm{t}}^i}_{{\rm{pos}}}}}} \right), $ (4) $ {\rm{ID}}{{\rm{F}}^i}_{{\rm{NEG}}} = \log \left( {\frac{{{s_{{\rm{pos}}}} + {s_{{\rm{neg}}}}}}{{{\rm{Coun}}{{\rm{t}}^i}_{{\rm{neg}}}}}} \right), $ (5)其中, Countipos示意含有特征i且极性为正向的样例的数目, 反之为负向, 筹画时同样使用加1平滑。Spos和Sneg隔离示意素质数据中正向极性样例和负向极性样例的数目。
2.3 词语情感隶属度常见的隶属度函数细目步调包括隐约统计法、例证法、民众陶冶法等。为了幸免在聘任时受到主不雅因素的过多影响, 本文罗致隐约统计法筹画每个词语的正、负情感隶属度。隐约统计法是通过n次相通寂然统计试验来细目某个特征词对正、负情感词语隐约网络的隶属度, 其形状上与概率统计法比较访佛, 但二者隔离属于不同的数学模子。
咱们以TF-IDF示意法为原型, 通过对频数向量的归一化, 均衡词频对极性类别的影响。归一化向量对应的与雷同极性的IDF的积作念为每个特征关于正负情感极性的最终隶属度, 正负情感隶属度筹画如式(6)和(7)所示:
$ {M_{{\rm{POS}}}} = \left( {{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}} \right\|}_1}} \right){\rm{ID}}{{\rm{F}}_{{\rm{POS}}}}, $ (6) ${M_{{\rm{NEG}}}} = \left( {{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}} \right\|}_1}} \right){\rm{ID}}{{\rm{F}}_{{\rm{NEG}}}}。$ (7) 2.4 词语情感隶属度特征示意2.3节界说了基于TF-IDF的词语情感隶属度函数, 大致给每个特征细目它隶属于两个情感极性隐约网络的进程。为了量化正负情感隶属度大小对特征的情感指向的作用, 咱们将两类隶属度函数值进行会通, 把正负情感隶属度的对数比动作特征权重值, 特征i的权重筹画步调如式(8)所示:
${r_i} = {\rm{log}}\left( {\frac{{\left( {{\rm{TF}}_{_{{\rm{POS}}}}^i/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}} \right\|}_1}} \right){\rm{IDF}}_{_{{\rm{POS}}}}^i}}{{\left( {{\rm{TF}}_{{\rm{NEG}}}^i/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}} \right\|}_1}} \right){\rm{IDF}}_{{\rm{NEG}}}^i}}} \right)。$ (8) 2.5 援助向量机SVM援助向量机的基甘愿趣是通过对有类符号的素质数据构造相应的模子, 继而应用模子通过测试数据中的属性特征来预测其对应的类符号。素质数据形状是成对的样例和标签(xi, yi), i=1, … r, 其中xi∈Rn, y∈{-1, +1}。为了处理某些样本点线性不行分, 引入是非变量ξi≥0, 改变拘谨条目为yi(w· xi+b)≥1-ξi, 方向函数由蓝本的$\frac{1}{2}{\left\| \mathit{\boldsymbol{w}} \right\|^2}$变为
$ \mathop {\min }\limits_w \frac{1}{2}{w^{\rm{T}}}w + C\sum\limits_{i = 1}^l {\xi (w;{x_{i, }}{y_i})}, $ (9)其中, C > 0是处分整个, 它决定了关于误分类的处分的大小, 一般左证明质问题细目。由于Linear①是搪塞大范围素质任务的快捷有用的SVM分类器, 且Linear大致援助L2-regularized逻辑追思(LR)和L2-loss, L1-loss线性援助向量机, 因此聘任Linear动作本文的SVM器具, 可选素质参数s为0, 即应用L2正规化逻辑追思, 对应的式(9)中$\xi \;{\rm{ = log}}(1 + {{\rm{e}}^{ - {y_i}{w^{\rm{T}}}{x_i}}})$。
①~cjlin/liblinear
3 试验收尾与分析为了对上述步调进行全面的考证, 隔离对汽车领域居品指摘、NLPCC 2014评测②的数据和英文影评IMDB①数据进行情感极性分类。底下给出相应的试验配置、收尾偏激分析。
② _eva.html
① ~amaas/data/sentiment/
3.1 试验配置如表 1所示, 咱们给出三类试验数据的统计信息, 语料隔离是从汽车之家②爬取的汽车领域的多品牌收罗用户评价、NLPCC2014评测中的情感分类任务数据(多领域居品指摘)和IMDB (大范围英文公开影评)。其中IMDB数据共有影评10万句, 使用步调与Le等[3]雷同, 包含有标注的25000条素质语句、25000条测试语句, 其余5万句是无标注的语句, 仅在无监督地素质词向量时使用, 标注的语句分为正向极性、负向极性两类标签。试验的评测方针为准确率(accuracy, Acc)、精准率(Precision, P)、调回率(Recall, R)和F-测度(F)。
②
为了进一步考证基于情感隶属度的特征示意的有用性, 本文还接头用以下4种步调动作试验的基线步调。
1) RNNLM + Na veBayes: Mikolov等[2]提议的基于递归神经收罗的话语模子(RNNLM), 在语音识别试验的收尾中考证了RNNLM解析优于N-gram话语模子。此处RNNLM基于浮浅的Elman神经收罗[16], 它是一个包含输入层、荫藏景况层和输出层的神经收罗, 大致允许应用更大窗口的高下文来完成对序列中其他词的预测, 在素质时能作念到更好的数据平滑。但在实质素质中, 高下文的窗口大小还会受梯度下跌效率的适度。本文应用RNN话语模子, 借助贝叶斯划定筹画每个测试样例属于正负极性类别的概率, 从而完身分类。本文RNNLM关联试验应用RNNLM Toolkit③完成, 具体素质参数设定为-hidden (50), -direct-order (3), -direct (200), -class (100), -debug (2), -bptt (4), -bptt-block (10)。
③ ~imikolov/rnnlm/
2) Paragraph Vector + SVM: Le等[3]提议的无监督的对句子、段落或文本预测得到定长的向量示意, 可以动作特征用于有监督的分类框架。具体地, 将句子向量看作念一个迥殊的主题词向量, 应用立地梯度下跌素质词语语义向量示意, 再用这些词向量进一步推断句子向量示意, 将得到的向量示意动作援助向量机分类器的特征完成句子情感分类。其中, 句子向量合成的关联试验借助word2vec④完成。在素质句子向量阶段, 咱们聘任的话语模子为Skip-Gram, 向量维度设定了不同的大小(100, 200和300), 素质的窗口大小设定为10, 同期使用HS和NEG步调, 其他参数为默许值。
④ https://code.google.com/p/word2vec/
3) Bool + SVM:最传统的布尔权重援助向量机应用, 同样动作本文的基线系统试验, 隔离考试不同特征蚁合合布尔权重的分类效率。
4) NB-SVM:由Wang等[5]提议的线性分类器, 是由归一化特征频数的对数比动作特征权重的、基于援助向量机的分类框架。
为了全濒临比特征与特征权重的结合对分类效率的影响, 聘任在关伙同头中常用且有用的类别指向信息[3, 5]动作本文的特搜集: 1)基于N-grams的特搜集, 包含一元语法词组(uni-gram)、二元语法词组(bigram)和三元语法词组(trigram); 2)基于词性信息的特搜集, 包括名词、动词、形容词、代词、数词、量词等实词。由于辩白副词和一些进程副词亦然对情感抒发有指向作用的词汇, 本文将副词特征也加入实词特征中。
3.2 试验收尾与分析 3.2.1 汽车指摘语料情感极性分类收尾针对汽车居品指摘配置的试验偏激收尾如表 2所示, 在Paragraph Vector关联试验中, 鉴于对生成的语义向量示意准确性的接头, 在无监督的向量素质阶段, 咱们在素质语料中加入26729句爬取得到的收罗汽车指摘动作布景语料, 匡助得到更为有用的embedding向量示意。在生成句子向量示意时, 隔离考试了不同维度大小对收尾的影响, 表 2第一列括号内的数字示意生成的向量的维数。本文提议的将词语情感隶属度对数比动作特征权重的步调, 在试验收尾中以Fuzzy + SVM动作符号。
从表 2可以看出, 在特征聘任方面, 时常三元语法特征优于二元语法特征, 二元语法特征优于一元语法特征, 但在SVM结合布尔权重和应用NB-SVM时却不适合咱们的表面推断。分析其原因为语料范围较小, 数据稀少形成收尾的不解析性; 另外, 浮浅的布尔权重使得大部分三元特征的权重为1, 无法很好地忖度这些多词组特征的情感指向比重。在句子向量(Paragraph vector)和情感隶属度对数比特征的SVM (Fuzzy + SVM)试验收尾中, 特征不同期呈现的分类性能皆适合通例的表面推断, 在一定进程阐述三元语法特征较二元、一元特征具有更好的放肆性, 大致更准确地获取句中的词序关系。同期, 从准确率方面来看, 固然实词特征较一元的词语特征更为有用, 但依然不如二元、三元短语特征, 阐述高阶的短语特征使组合的词语具有更准确的放肆性, 更全面涵盖句子情感信息。在分类效率方面, 可以看出原有步调中的NB-SVM具有较好的分类性能, 跟着特征的优化, 大致得到更佳的收尾, 同期其收尾优于基于RNN话语模子和句子向量合成的步调, 阐述固然语义向量信息的获取大致促进抽取、相似度忖度等使命的发展, 但若何从语义信息中有针对性的挖掘情感信息, 仍有待接头。本文提议的fuzzy+SVM在同等特搜集作用时, 取得优于NB-SVM的分类效率, 进一步阐述在细目特征权重时, 在特征频数归一化的基础上, 会通IDF信息后, 去除了在正负极性中皆大宗出现的特征对隶属度的影响, 使得到的特征情感隶属度能更全面描画各个特征关于类别的指向作用。
3.2.2 NLPCC2014评测数据情感极性分类收尾为了进一步考证步调的性能, 使用NLPCC评测的公开数据进行试验, 本轮试验主要考试性能较好且比较接近的三类基于援助向量机的步调。由于数据范围的适度会在很猛进程上影响无监督素质的经过, 本轮试验莫得罗致素质句子向量动作特征, 表 3列出同样使用NLPCC数据的Wang等[17]的收尾用于比对。
从表 3可以看出: 1)同类步调不同特征相对比, 呈现出三元语法特征优于二元语法特征, 而二元语法特征也好于一元语法特征的得意, 这富裕适合高阶语法模子大致更准确地放肆高下文的特质, 同期反馈出语料范围较小(如汽车指摘)时, 对表面的考证可能存在偏差, 容易对接头步调的走向形成造作疏浚; 2)在NLPCC数据集上的试验收尾标明, 基于情感隶属度对数比特征的系统在整个评测方针中均取得最佳性能。表 3中, Wang等[17]罗致的是通过深度学习得到的词语向量特征示意结合逻辑追思分类器的步调。NLPCC2014评测数据集上的对比试验收尾标明了本文提议的基于隶属度的特征示意步调的有用性。
3.2.3 IMDB情感极性分类收尾除汉文居品指摘和NLPCC2014评测数据集之外, 咱们还聘任了常用于情感分类任务的英文语料IMDB数据, 何况应用种种步调的最佳参数进行情感分类, 包含代表性最强的trigram特征以及语义示意效率最佳的300维向量特征。在完成句子向量特征的试验Paragraph Vector时, 咱们在无监督素质阶段莫得借助其他数据, 而是使用完满的IMDB数据(共100000句)素质得到对应的句子向量。试验收尾如表 4所示。
从表 4可以看出, 在IMDB数据集上的试验收尾中, 本文步调得到的概述准确率和F值皆发达出最大上风, 精准率和调回率均处于较好位置, 阐述本文细方针情感隶属度是对词语极性和强度的有费用量。Wang等[5]针对IMDB数据得到91.22%的准确率, 比拟之下, 本文提议的基于词语情感隶属度的特征值示意步调更具有实质意旨。由于本文步调富裕是基于语料库的统计步调, 分歧话语种类、领域作念任何放肆, 上述收尾中的英文数据试验就形成了本文步调有用性的完满印证。
4 论断与预测左证情感极性分类接头近况, 在现存步调的基础上, 本文以TF-IDF为原型, 会通隐约推理的隶属度细目步调, 进一步为词语设定了情感极性隶属度, 从而得到基于词语情感隶属度的特征值示意步调。隔离对汽车领域指摘、NLPCC评测数据和IMDB数据集进行试验, 收尾娇傲, 通过优化特征和权重, 在传统的机器学习分类框架下依然大致取得很好的分类性能。
固然本文试验取得了预期收尾, 解说了会通的情感隶属度特征值关于情感分类问题的有用性巨乳 動画, 但没能在举座框架下杀青全面转换, 仅取得小幅度的提高。后续使命应该全面深化对问题的接头, 扩大数据范围, 并挖掘更有用的有指向性的特征。