北大数据挖掘研究生PPT--阅读笔记(一
2016-05-09 23:17:19    232    0    0
anderson

数据挖掘的概念

  • 关于文本挖掘的名字

    • ™ Text Mining,

    •  Text Data Mining,

    • ™ Knowledge Discovery in Text,

    •  Knowledge Discovery in Textual Data(bases)

  • Text mining mainly is about somehow extracting the information and knowledge from text

  • 对KDD定义进行扩展, 文本挖掘是从大量文本数据中抽取隐含的,未知的,可能有用的信息。

KDD: Knowledge Discovery in Database


文本挖掘的主要应用:

  • 新一代搜索引擎

  • 互联网内容安全

    • 互联网舆情、非法内容发布

  • 企业知识管理

    • ™企业内知识共享、企业相关外部信息

  • 个人智能信息访问

  • Vertical applications:

    • e-mail categorization and routing

    • ™Call center notes categorization

    • ™CRM systems

研究难点:

  • 语言难点:文本不是给计算机阅读的

    • 复杂的语言结构:语法语义

    • 更困难的:歧义

    • 多语言

  • KDD算法难点

    • ™ 大量的数据集

    • ™ 高维

    • ™ 过适应

    • Over fitting

    • ™ 变化的数据和知识

    • ™ 噪音数据

    • ™ 挖掘出的模式的可理解性



          Words
            Documents
监督学习词性标注,词义消歧
文本分类,过滤,话题检测与跟踪信息提取
非监督学习潜在语义索引,关键短语抽取词义发现文本聚类,话题检测与跟踪总结


文本挖掘任务分类

  • 搜索与检索

  • 语义分析

  • 聚类

  • 分类

  • 特征提取

  • 本体构建

  • 动态聚焦






Pre: 北大数据挖掘研究生讲义--阅读笔记(二)

Next: 第三个golang test

232
Sign in to leave a comment.
No Leanote account? Sign up now.
0 comments
Table of content