分词是什么(什么是NLP里的分词)

分词是什么(什么是NLP里的分词)

分词是 NLP 的基础任务,将句子,段落分解为字词单位,方便后续的处理的分析。

1481百科网小编在本文中将介绍分词的原因,中英文分词的3个区别,中文分词的3大难点,分词的3种典型方法。最后将介绍中文分词和英文分词常用的工具。

什么是分词?

分词是 自然语言理解 – NLP 的重要步骤。

分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。

分词是什么(什么是NLP里的分词)

为什么要分词?

1.将复杂问题转化为数学问题

在 机器学习的文章 中讲过,机器学习之所以看上去可以解决很多复杂的问题,是因为它把这些问题都转化为了数学问题。

而 NLP 也是相同的思路,文本都是一些「非结构化数据」,我们需要先将这些数据转化为「结构化数据」,结构化数据就可以转化为数学问题了,而分词就是转化的第一步。

分词是什么(什么是NLP里的分词)

2.词是一个比较合适的粒度

词是表达完整含义的最小单位。

字的粒度太小,无法表达完整含义,比如”鼠“可以是”老鼠“,也可以是”鼠标“。

而句子的粒度太大,承载的信息量多,很难复用。比如”传统方法要分词,一个重要原因是传统方法对远距离依赖的建模能力较弱。”

分词是什么(什么是NLP里的分词)

3. 深度学习时代,部分任务中也可以「分字」

深度学习时代,随着数据量和算力的爆炸式增长,很多传统的方法被颠覆。

分词一直是 NLP 的基础,但是现在也不一定了,感兴趣的可以看看这篇论文:《Is Word Segmentation Necessary for Deep Learning of Chinese Representations?》。

分词是什么(什么是NLP里的分词)

不过在一些特定任务中,分词还是必要的。如:关键词提取、命名实体识别等。

中英文分词的3个典型区别

分词是什么(什么是NLP里的分词)

区别1:分词方式不同,中文更难

英文有天然的空格作为分隔符,但是中文没有。所以如何切分是一个难点,再加上中文里一词多意的情况非常多,导致很容易出现歧义。下文中难点部分会详细说明。

区别2:英文单词有多种形态

英文单词存在丰富的变形变换。为了应对这些复杂的变换,英文NLP相比中文存在一些独特的处理步骤,我们称为词形还原(Lemmatization)和词干提取(Stemming)。中文则不需要

词性还原:does,done,doing,did 需要通过词性还原恢复成 do。

词干提取:cities,children,teeth 这些词,需要转换为 city,child,tooth”这些基本形态

区别3:中文分词需要考虑粒度问题

例如「中国科学技术大学」就有很多种分法:

  • 中国科学技术大学
  • 中国 科学技术 大学
  • 中国 科学 技术 大学

粒度越大,表达的意思就越准确,但是也会导致召回比较少。所以中文需要不同的场景和要求选择不同的粒度。这个在英文中是没有的。

中文分词的3大难点

分词是什么(什么是NLP里的分词)

难点 1:没有统一的标准

目前中文分词没有统一的标准,也没有公认的规范。不同的公司和组织各有各的方法和规则。

难点 2:歧义词如何切分

例如「兵乓球拍卖完了」就有2种分词方式表达了2种不同的含义:

  • 乒乓球 拍卖 完了
  • 乒乓 球拍 卖 完了

难点 3:新词的识别

信息爆炸的时代,三天两头就会冒出来一堆新词,如何快速的识别出这些新词是一大难点。比如当年「蓝瘦香菇」大火,就需要快速识别。

3种典型的分词方法

分词是什么(什么是NLP里的分词)

分词的方法大致分为 3 类:

  1. 基于词典匹配
  2. 基于统计
  3. 基于深度学习

给予词典匹配的分词方式

优点:速度快、成本低

缺点:适应性不强,不同领域效果差异大

基本思想是基于词典匹配,将待分词的中文文本根据一定规则切分和调整,然后跟词典中的词语进行匹配,匹配成功则按照词典的词分词,匹配失败通过调整或者重新选择,如此反复循环即可。代表方法有基于正向最大匹配和基于逆向最大匹配及双向匹配法。

基于统计的分词方法

优点:适应性较强

缺点:成本较高,速度较慢

这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。

基于深度学习

优点:准确率高、适应性强

缺点:成本高,速度慢

例如有人员尝试使用双向LSTM+CRF实现分词器,其本质上是序列标注,所以有通用性,命名实体识别等都可以使用该模型,据报道其分词器字符准确率可高达97.5%。

常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。

中文分词工具

下面排名根据 GitHub 上的 star 数排名:

  1. Hanlp
  2. Stanford 分词
  3. ansj 分词器
  4. 哈工大 LTP
  5. KCWS分词器
  6. jieba
  7. IK
  8. 清华大学THULAC
  9. ICTCLAS

英文分词工具

  1. Keras
  2. Spacy
  3. Gensim
  4. NLTK

总结

分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。

分词的原因:

  1. 将复杂问题转化为数学问题
  2. 词是一个比较合适的粒度
  3. 深度学习时代,部分任务中也可以「分字」

中英文分词的3个典型区别:

  1. 分词方式不同,中文更难
  2. 英文单词有多种形态,需要词性还原和词干提取
  3. 中文分词需要考虑粒度问题

中文分词的3大难点

  1. 没有统一的标准
  2. 歧义词如何切分
  3. 新词的识别

3个典型的分词方式:

  1. 基于词典匹配
  2. 基于统计
  3. 基于深度学习

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1543321114@qq.com 举报,一经查实,本站将立刻删除。转载请注明出处:https://www.1481.net/m/22290.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年4月10日 上午9:37
下一篇 2023年4月10日 上午10:22

相关推荐

  • 热带鱼多长时间繁殖一窝(热带鱼的繁殖有哪些难点)

    1481百科网小编整理分享:色彩斑斓的热带鱼,是家居环境漂亮的风景。喜欢养热带鱼的人很多,但未必人人都懂如何科学地养,比方说热带鱼的繁殖问题,往往让新手,甚至一些老鱼友也头疼。 热带鱼的繁殖是一件大事,需要在各方面做好准备,一旦在在细节上出现问题,就会达不到预期效果。轻则雌鱼的产卵量大减,重则产出死的仔鱼。再或者,干脆就怀不上。要清楚,热带鱼的繁殖是一项鱼类...

    2023年6月11日 趣味百科
    24300
  • word页眉页脚设置在哪里(word插入页码是怎么操作的)

    没有接触过插入页码的朋友们估计对这个问题会有很大的疑问,因为1481百科网小编也是这样的,以为页码直接像文档正文那样正常输入文字就可以了,事实上是不行的,而且这样呈现出来的页面也不美观,所以,怎样给word插入页码? 第一步:在word文档的工具栏中点击【章节】,从章节中找到并点击【页码】这个功能,随后文档的全部页数的页码位置就会显示出虚线的设置位置。 第二...

    2023年4月3日 趣味百科
    34100
  • 什么是锚鱼(锚鱼违法吗)

    锚鱼,是指不用饵料,利用锐利的鱼钩,刺中鱼身,并且将鱼拖拽出水面,锚鱼不能算是正统的钓鱼技法,但是锚鱼在我国也有不短的传承历史。 随着国家对渔业资源的保护,违规、违法钓鱼这个词,时不时就出现在各个自媒体的头条,违规、违法钓鱼主要有三种情况,第一种,是禁止垂钓水域私自垂钓,如长江流域及支系水域全部禁钓。 第二种,是钓到了国家珍惜鱼种,不放生,致其死亡的,如胭脂...

    2023年5月31日 趣味百科
    73600
  • 斐济在哪里世界地图(太平洋岛国斐济简介)

    1,位于太平洋西南中心处的斐济,它是一个由332个岛屿组成的国家,陆地面积18333平方公里,只比杭州市大一些。 2,虽然斐济不大,但却是16个与中国相互免签的国家之一,不需要签证就能来一场说走就走的旅行! 中国与斐济1975年11月5日建交,两国一直保持着良好的关系。 3,2020年斐济GDP约45亿美元,而人均GDP约5100美元,接近越南的两倍! 4,...

    2023年5月5日 趣味百科
    1.1K00
  • cfo是什么职位什么工作(CFO职能早已超越会计的范畴是什么意思)

    1481百科网整理分享:CFO的角色已经完全超越了会计的范畴,走向战略参与、价值创造等更高层面。即除了财务会计等一般职能管理的角色之外,CFO的角色至少还向以下几个方面延伸:价值创造者、战略规划参与者、资源优化者、企业守护者和全面数字化的推动者。 价值创造者 CFO不仅要知道如何编制资产负债表、利润表和现金流量表,也要知道如何计算企业的经济附加值(EVA)。...

    2023年3月29日
    35300

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

QQ:1543321114

在线咨询: QQ交谈

邮件:1543321114@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息