摘要:介绍Python和R语言进行jieba分词的基本用法

 2024-03-21 03:08:32  阅读 0

text函数法律一班_r语言t.test函数用法_函数test怎么用

人不是一个字一个字地说的,文章是由句子组成的。 机器识别美丽的文字并欣赏汉语的广度和深度并非不可能。 但首先它需要转化为它可以识别的模式——单词。 分词是自然语言处理(NLP)中最底层、最基本的模块。 分词的准确性将直接影响文本分析的结果。

这里介绍一下著名的分词方法:结巴分词以及R语言中基本分词方法的使用。

口吃分词

中文分词的三种常见模式

三种模式均默认使用隐马尔可夫模型分词; 同时,口吃分词支持繁体中文分词和自定义词典方式。

导入模块:jieba

(1). 准确模式:

>>> test = '十堰有道教发祥地武当山'

>>> cut1 = jieba.cut(测试)

>>> 类型(剪切1)

>>> print('精确分词结果:',' '.join(cut1))

Cut1 无法直接查看。 ''.join(cut1)函数是指用空格来分隔cut1中的元素,然后可以通过print()函数查看。

精确分词结果:十堰有武当山,道教发祥地

(2)、全模式:

>>> cut2 = jieba.cut(测试, = True)

>>> print('全模式分词结果:',' '.join(cut2))

全模式分词结果:十堰有道教发祥地武当武当山

所有可能的词语都被考虑在内。 “精确模式”实际上有默认参数= False。 显然,full模式并不关心分词后是否存在语义歧义,而只是快速分离出所有可能的词,不适合文本分析。

(3)、搜索引擎模式:

>>> cut3 = jieba.(测试)

>>> print('搜索引擎模式分词结果:',' '.join(cut3))

搜索引擎模式分词结果:十堰有道教发祥地、武当山发祥地

搜索引擎模式也会给出所有可能的分词结果,但是对于字典中不存在的单词,比如一些生僻词、生词,搜索引擎模式可以给出正确的分词结果。

添加自定义词典

Path = '字典路径'

解霸。 (路径2)

然后就可以分段了。

提取关键词

对于一篇文章,提取关键词,例如指定提取5个关键词:

jieba..(dat,topK = 5)

注:个人测试,字典一般为.txt,默认为ASCII格式。 应该以utf8模式保存。 为什么? ——有中文。 其实帮助文档里就有。

更多用法:help('jieba') 更详细的介绍。

R语言结巴分词

R语言版“口吃”中文分词支持最大概率法、隐马尔可夫模型、索引模型、混合模型,共四种分词模式。 它还具有词性标注、关键词提取、文本相似度比较等功能。

包下载及安装:

>.('')

>.('')

> ()

> ()

分词

> 测试首先需要搭建分词引擎

> seg 这里“ seg (测试,seg)

[1]“革命”“还没有”“成功”“同志”“还在”“需要”“努力”

也就是说有两种写法:

(1)、>测试

>(测试,段)

vn dan zg v 广告

“革命”“还没有”“成功”“同志”“还”“需要”“努力”

这里 seg seg2> (测试,seg2)

6.13553

“同志”

距海明的距离:

计算中文文档的对应值。 它是用于文本去重的算法,目前广泛应用于文本处理中。 引擎首先进行分词和关键词提取,然后计算数值和汉明距离。

> 测试 > seg3> (测试,seg3)

$

[1]《》

$

6.13553 6.0229

“同志”“努力”

列出分词:

支持一次对多个列表(每个元素为文本)进行分词。

测试2>(列表(测试,测试2),段)

[[1]]

vn dan zg v 广告

“革命”“还没有”“成功”“同志”“还”“需要”“努力”

[[2]]

ns vnn ns

《十堰》《你》《道教》《发祥地》《武当山》

删除停用词

>分段

还有一些其他设置,例如:

():显示默认的词典路径,包括jieba.dict.utf8(最大概率法)、.utf8(隐式马尔可夫模型),这两个都是分词需要的词典; idf.utf8(TF-IDF算法)、.utf8(停用词词典),这两个词典用于关键词提取。

(name = "user"):默认编辑用户自定义词典,有两个参数值可供选择(可以打开并编辑jieba.dict.utf8)和(禁用词典)。

还有一些其他参数。 有关详细信息,请参阅帮助(“”)以获取更多详细信息。 学会使用帮助信息对于学习R语言非常重要。

其实我们可以帮你设置具体的分词引擎():help('')会有:

(类型=“mix”,dict=,hmm=,用户=,idf=,=,write=T,qmax=20,topn=5,=“UTF-8”,=T,=F,行=1e+05 ,= NULL,= F,=“最大”)

以下是一些参数:

类型、发动机类型

dict,系统词典

嗯,HMM模型路径

用户、用户词典

idf, 以色列国防军字典

,对关键词使用停止词汇库

write,是否将文件分割结果写入文件,默认FALSE

qmax,一个单词的最大字符数,默认20个字符

topn,关键词数量,默认5

,输入文件的编码,默认为UTF-8

,是否检查编码,默认TRUE

,是否保留符号,默认FALSE

lines,每次读取文件的最大行数,用于控制读取文件的长度。 大文件将被批量读取。

,输出路径

,按行输出

, 用户体重

欢迎留言和建议。 如果觉得不错的话记得点赞和分享哦!

标签: jieba test 中文分词

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码