计算字符串相似度的矩阵算法

 2024-02-05 00:05:22  阅读 0

相似度度量指标由两个字符串滑动比较中匹配字符的个数和两个字符串滑动比较的重叠率来定义。 当确定一个字符串的字符数少于另一个字符串时,就会设计一种算法。 实验结果表明,该算法能够确定字符串匹配矩阵中插入空格的位置,使相似度指标达到最大值,并且算法的计算量也显着减少。 该算法可用于信息的模糊检索。

贵宾信息

李子

Bin:计算字符串相似度的矩阵算法

计算字符串相似度的矩阵算法 李斌(汉科技大学计算机学院 湖北 武汉 吴 40 7) 3 0 0

摘要:两个字符串滑动比较中匹配字符的数量和两个字符串滑动比较的重叠率定义了相似度的度量。 当一个单词在字符串中使用的次数少于另一个单词的字符串时,将计算一次计数。 实验结果表明,该算法能够确定字符串匹配矩阵中插入空格的位置,使得相似度指标达到最大值,并且算法的计算量也显着减少。 该算法可用于信息的模糊检索。 相似; 匹配矩阵; 信息量信息

中国国家图书馆分类号:P 0 。 T 316

文件识别码:B

货号: 0 4— 7 X(. 7 2 1 0 3 3 2 ( ) 4—1 6 0 ) 0— 3

马克思艺术学院 计算机科学学院 计算机学院 武汉大学科技学院、空军学院、武汉大学4 07 中国 W n. 30 0, i)

来源:Smird Gesd fn th ra ig rr ft ti gbtt ie fma wo s rn saa ocr has how wo s rn oprs in ti gsdo cma io ig gldi. De iigaa of

o es rgi mal lr ii none tn rn snti ss rn sn hep st fi s ri ei tig ma cig mar rx ma ei lr neo th n ti ks Smi a

关键词:acnai sm i gr e; dm thi gr 至; il de e mat hna rx;n 或 ato ua iy ar NTt

1 引言 随着现代科学技术的发展,物理学中DAN序列的生物学相似性比较可用于亲子鉴定等。医学上利用病毒基因的相似性来诊断和治疗疾病。 同样,随着计算机的发展,字符和字符串之间的相似性问题也成为计算科学中非常重要的问题。 还提出了许多用于字符串匹配和相似度的算法,并且一些算法计算现有的字符串相似度。 该方法根据计算所依据的特点不同可以分为三种方法:基于字面相似度的方法、基于统计相关性的方法和基于语义相似度的方法。 三种方法各有优缺点,有研究者提出了综合考虑三种方法的多层特征方法。

2 计算字符串相似度的算法 2 1 构建字符串相似度索引。

给定 2 个长度相等的任意字符串 Sr - "bd ab b tl ac dcc" 和 Sr - "a ac dc",这两个字符串在任意位置进行比较:t2 ad cb d" 与 ab C ddacb C b

la C

(字符之间没有空格)字符串的长度记录为,这里是字符。 z(,-1)同一个字母(,,)z_0,dac的个数记为m(其中m-3,这个)二

重叠字符串的数量记录为r,其中r-8。 ( ) 根据上面给出的数据,给出如下定义:

字面相似的计算方法主要包括基于编辑距离的计算方法和基于相同字符或单词的计算方法。 字符串序列相似度度量j

定义 1 重叠率 2 等长(包含在短长度内)

当字符串中添加空格且两个字符串长度相等时),字符串移动匹配过程中重叠字符串的数量与字符串长度的比值,L—rn为/。定义2匹配2 个相同长度的数据包(包括长度较短的数据包)的速率

它在异构数据库操作、乐谱分析、基因序列分析、音库信息检索等方面都有很好的应用。 本文利用定义好的字符串相似度度量,利用匹配矩阵来计算字符串相似度。对于长度不等的单词

如果字符串中添加了空格并且它们的长度相等)则字符串中的字符为

字符串,通过插入空格使字符串长度相等,并根据设计的算法确定空格的位置,相似度值达到最大,从而使模糊检索信息更有意义。 收到日期: 0 7~0~0 20 6 7 1 6 0

在字符串移位匹配过程中,同一位置的字符数与字符串长度之比M—m/为n。

定义3:相似匹配率与重叠率的平方的乘积:即'

Q1

L。 ( )。 _ , z

标签: 字符 相似 算法

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码