做文本挖掘是否需要了解自然语言处理?

发布网友

我来回答

4个回答

热心网友

当然需要。
既然是“文本挖掘”,自然语言处理最基本的功能点肯定都要做:
新词发现、分词、词性标注、分类、自动提取标签、实体自动发现和识别。
最基本的这些功能点做了之后,可以用统计方法完成简单文本挖掘应用,统计方法比如:
TF/IDF、Map/Rece、贝叶斯。
再深入一些,就需要:
聚类(层次聚类、SVM、VSM)、情感趋势分析。
再想提高:
语法分析、句式判断。
但一般做到NLP最基本功能点+统计方法即可搞定一般的互联网应用。

热心网友

关于郑钧的回答,我觉得涉及的点很好,但是有些知识不是很准确;
map/rece 是一种分布式计算的框架,TIIDF可以看作是一种特征表示方法;统计方法比较常用的包括,朴素贝叶斯,最大后验概率,EM算法,CRF(比如用于分词)等;
SVM不是聚类方法,而是分类回归方法; VSM应该是vector-space-model吧,是向量空间模型,是文本表示的基本模型;常见的聚类方法分为两类,层次聚类和扁平聚类,扁平聚类的代表算法是经典的KMean算法。分类方法也用的很多,比如SVM和决策树。
NLP本身有一点比较特别的是语言模型;

热心网友

作文本挖掘需要学习NLP,因为你需要处理文本,提取出你感兴趣的信息。如果你对机器学习熟悉,学习statistical NLP还是比较容易的。另外,也需要补充一些语言学基础知识。

热心网友

可繁可简,复杂的可以做到用正则表达式去处理,当然中文不想英文那么规整;简单的就做关键字匹配就好了。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com