端点SEO博客

系统化学习SEO技术,实时关注业界动态

中文分词技术

中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

分词技术是中文搜索引擎特有的步骤

我们知道,在英文的行文中,单词之间是以空格作为自然分界符的(这决定了做英文Google SEO的优势),而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。

目前搜索引擎分词的方法主要通过字典匹配和统计学两种方法:

一、基于字典匹配的分词方法

这种方法首先得有一个超大的字典,也就是分词索引库,然后按照一定的规则将待分词的字符串与分词库中的词进行匹配,若找到某个词语,则匹配成功,这种匹配有分以下四种方式:

1.正向最大匹配法(由左到右的方向);

2.逆向最大匹配法(由右到左的方向);

3.最少切分(使每一句中切出的词数最小);

4.双向最大匹配法(进行由左到右、由右到左两次扫描)

通常,搜索引擎会采用多种方式组合使用。但这种方式也同样给搜索引擎带来了难题,比如对于歧义的处理,为了提高匹配的准确率,搜索引擎还会模拟人对句子的理解,达到识别词语的效果。基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息,当然我们的搜索引擎也在不断进步。

二、基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

举例:“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库。

这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组。

中文分词技术的应用:

分词的准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。

实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

对于我们SEO优化工作者来说,中文分词的原理和方法是关键词分析必须要掌握的,这样才能确保将我们的网站设计得让搜索引擎容易确定它的主题相关性。

除非注明,文章均由©端点SEO博客原创
转载请保留本文链接:http://www.iseoduan.com/baiduseo/71.html
最后更新: 2016年11月26日 — 18:44
©2015~2017 | 端点SEO博客:揭露SEO本质,提供SEO培训,系统的学习SEO优化 备案号:京ICP备12011610号-3 站点地图|端点SEO博客