北大数据挖掘研究生讲义--阅读笔记(二)
2016-05-09 23:22:49    221    0    0
anderson

文本特征提取技术


 

 

分词

  • 分词实例:

    • 和平民主

      • 和平, 民主

      • 和,平民,主

  • 提高人民生活水平

    • 提高,高人,人民,民生,生活,活水,水平

  • 大学生活像白纸

    • 大学,生活,像,白纸

    • 大学生,活像,白纸

分词基本方法

  • 最大匹配法

  • 最大概率法分词

  • 最短路径分词法

  • 难点:

    • 分词歧义

    • 未登陆词识别



最大匹配法示例:

S1="计算语言学课程是三个课时"    


设定最大词长

MaxLen = 5

S2 = " "



(1)S2=“”;S1不为空,从S1左边取出候选子串

W="计算语言学";

(2)查词表,“计算语言学”在词表中,将W加入到S2中,

S2=“计算语言学/ ”,并将W从S1中去掉,

此时S1="课程是三个课时";

(3)S1不为空,于是从S1左边取出候选子串

W="课程是三个";

(4)查词表,W不在词表中,将W最右边一个字去掉,得到

W="课程是三";

(5)查词表,W不在词表中,将W最右边一个字去掉,得到

W="课程是";

(6)查词表,W不在词表中,将W最右边一个字去掉,得到

W="课程"

(7)查词表,W在词表中,将W加入到S2中,

S2=“计算语言学/ 课程/ ”,

并将W从S1中去掉,此时

S1="是三个课时";


(8)S1不为空,于是从S1左边取出候选子串

W="是三个课时";

(9)查词表,W不在词表中,将W最右边一个字去掉,得到

W="是三个课";

(10)查词表,W不在词表中,将W最右边一个字去掉,得到

W="是三个";

(11)查词表,W不在词表中,将W最右边一个字去掉,得到

W="是三"

(12)查词表,W不在词表中,将W最右边一个字去掉,得到

W=“是”,这时W是单字,将W加入到S2中,

S2=“计算语言学/ 课程/ 是/ ”,

并将W从S1中去掉,此时S1="三个课时";

。。。。。。

。。。。。。

(21) S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”,

此时S1=""。

(22)S1为空,输出S2作为分词结果,分词过程结束。


其它基于匹配的分词方法:


  • 最大匹配法(Maximum Matching method)

    • 匹配的方向是从右向左

  • 逆向最大匹配法(Reverse Maximum method)

    • 匹配方向与MM法相反,是从左向右。

    • 实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。

       

  • 双向匹配法(Bi-direction Matching method)

    • 比较MM法与RMM法的分词结果,从而决定正确的分词。

  • 最佳匹配法(Optimum Matching method, OM法)

    • 将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。

  • 联想-回溯法(Association-Backtracking method)

    • 采用联想和回溯的机制来进行匹配。


最大概率分词

基本思想是:

    (1)一个待切分的汉字串可能包含多种分词结果

    (2)将其中概率最大的那个作为该字串的分词结果

    


S: 有意见分歧

™W1: 有/ 意见/分歧/

W2: 有意/ 见/分歧/

 

 

最短路径分词方法

    • 基本思想

      • 在词图上选择一条词数最少的路径

    • 优点:好于单向的最大匹配方法

      • 最大匹配: 独立自主 和平 等 互利 的 原则 (6)

      • ™ 最短路径:独立自主 和 平等互利 的 原则 (5)

    • 缺点:

      • 同样无法解决大部分歧义

      • ™ 结合 成分 子时

      • ™ 他 说 的 确实 在理

      • 他 说 的确 实在 理

      • 他 说 的确 实 在理

  (都是最短路径)


分词歧义分类(1):

 

  • 交集型歧义

    • AB和BC都是词典中的词

    • 网球/场/ : 网/ 球场/

    • ™ 链长:交集型歧义字段中含有交集字段的个数

  • 组合型歧义

  • ™ AB和A、B都是词典中的词

    • (我)个人/:(三) 个/人/

  • 混合型歧义: 这样的人才能经受住考验

  • 最大匹配法解决分词歧义的能力

    • 能发现部分交集型歧义

      • 增加歧义词表,规则等知识库

    • ™ 无法发现组合型歧义


分词歧义分类(2)

分词歧义的四个层级:

 词法歧义:   84.1%    (“用方块图形式加以描述”)

™ 句法歧义:   10.8%    (“他一阵风似的跑了”)

™ 语义歧义:   3.4%     (“学生会写文章”)

™ 语用歧义:   1.7%     (“美国会采取措施制裁伊拉克”)


真假歧义:

真歧义 6%:

  • 确实能在真实语料中发现多种切分形式

  • 比如“应用于”、“地面积”

假歧义 94%:

  •   虽然有多种切分可能性,但在真实语料中往往取其中一种切分形式

  •    如“挨批评”、“市政府”

 

未登录词识别









Pre: OpenStack Kilo安装实践 -- 基于neutron网络

Next: 北大数据挖掘研究生PPT--阅读笔记(一

221
Sign in to leave a comment.
No Leanote account? Sign up now.
0 comments
Table of content