Category Archives: 自然语言处理

知识库上的问答系统:实体、文本及系统观点

学习笔记。参考《深度学习系列 | 知识库上的问答系统:实体、文本及系统观点》,大致内容如下:

 

Continue reading

基于评论标签/主题的产品多维度对比

这部分应该说是基于用户评论的属性PK可能更合适,但是和以往的属性在意义上可能不同,不是越高越好,比方说价格。有的用户可能想买某产品,但手头比较紧张,会在A和B产品中进行对比,比方即使产品A在属性1上不如B,但属性2A比B强,对用户来说属性2更重要,所以就买了属性2更高的产品A。

这部分的实现有一个前提:评论标签/主题计算。因为属性的归纳和计算都是在这个前提下进行的。

淘宝或者天猫是多商家的平台,通过用户在评论的时候进行打分得到产品在三个维度的分数(描述、服务、物流,这三个指标的值越高越好)。然而对于自营的电商平台等自营平台,可以挖掘评论在不同属性上的评价描述语,辅助用户决策是否购买。

其实本文不仅说了下基于评论的对比,也有一些关于产品在对比方面的扩充,主要内容如下:

 

Continue reading

电商平台的售前问答系统(产品问题)

要解决的问题是用户在购买产品前发出对产品相关的提问,但往往因为客服对产品不了解或者让用户查看说明书等,造成比较糟糕的体验,更没有得到想要得到的信息。主要内容如下:

 
Continue reading

电商平台的评论标签/主题计算

电商平台的评论标签意义非凡,其中涉及到的技术不仅有词库的建立(核心),这其中就有词语相似度计算(本文中的算法是淘宝的同学提出的一种词语相似度计算方法,不过通过这阵子对同义词算法的学习来说,如word2vec等,这些算法的本质都是基于词语所在分句/句子的上下文词语的共现性或共现率或者是根据固定窗口大小构建图来计算转移概率等)、规则库的建立(规则是指淘宝评论tag,即印象词的结构规则)。

为何说意义非凡——实现评论标签(或说是主题)的主要目的有:

  • 对买家,让有价值评论呈现,减少翻页,加快购买决策的速度;
  • 对商家/平台,获知优缺点,找到改进方向和提升空间。

总地来说,人工投入越多,效果越好——基石就是堆词库。案例完全参考淘宝的评论印象词做法,来自2013年7月的程序员杂志《文本语义分析的实现及应用》,从第三部分(分词)开始本文是该文章内容的提炼总结。

评论标签/主题计算主要分为三个步骤:

  1. 分词;
  2. 需要根据语义词典(属性词、情感词及其情感倾向、程度词、否定词等);
  3. 需要语法规则库(情感词对属性词的修饰规则、程度词和否定词对情感词的修饰规则等)。

最后,根据语法规则抽取属性情感搭配,根据语义信息确定最终的情感倾向并得到分析结果。下面从这三个方面详细阐述,但在这之前先让我们看一个案例。

 
Continue reading

电商平台的评论排序分析

最近调研评论挖掘方面的内容,评论排序是其中的一部分,将质量高(带图片、且文字丰富、且情感极性为积极)的评论排在用户第一眼能看到的地方(首位),用户购买该产品的可能性必然会变大,如何给评论打分、定义高质量评论,甚至在后台操纵用户的评论,是本文讨论的重点。

总的来说,就是找与排序相关的特征(在本文主要简单分析了信息丰富度、情感两个维度)。具体内容如下:

 

Continue reading

基于情感词典的情感倾向计算

最近在调研有关评论挖掘的工作,在往上搜到一篇相关的博文(《基于词典的中文情感倾向分析算法设计》,链接在末尾给出,来自博客Data Is Art,非常感谢!),写的很好这里做记录(代码和个别地方做了扩充和修改)。

再扯远一点,情感计算目前我感觉就是一个是基于词典的, 另一个是基于标注数据的,但其实基于词典我感觉本质上和标注数据差不多,词典的粒度已经是很细的了(词典里有极性、情感类型、程度权重),所以说相当于被标注了的。

另外,前阵子好像是Facebook做情感分析是通过标注数据,标注就是借助用户发状态时候的emoji表情(相当于label),也是很有意思的idea。好了,本文目录如下:

 
Continue reading

LinkedIn文本分析平台:主题挖掘的四个步骤

学习笔记。LinkedIn文本分析平台在主题挖掘上的分析,主要内容如下:

 
Continue reading