使用PL/SQL找到两个表中的相似值

日期: 2010-09-15 作者:Dan Clamage翻译:孙瑞 来源:TechTarget中国 英文

问:您好,我的数据库有两个表,每个表都有两列。我需要在两个表中找到相似的值,举个例子,比如第一个表中第一列有一个值为Jeff Shapiro clinical,而第二个表中的第二列有一个相似的值,为clinic of Jeff Shapiro。   请问我该如何在两个表中找到这样相似的值?如果能用SQL实现最好,PL/SQL也可以。请问是不是使用like contains或者regexp?或者使用域索引会好一些?   答:我第一次看到这样的问题是在糖果零售行业,手动的数据录入让数据库中充满了各式各样“相似但不完全一样”的字符串,而且还是用了不一样的缩写,甚至还有些拼写的错误。

我当时写了一个非常……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

问:您好,我的数据库有两个表,每个表都有两列。我需要在两个表中找到相似的值,举个例子,比如第一个表中第一列有一个值为Jeff Shapiro clinical,而第二个表中的第二列有一个相似的值,为clinic of Jeff Shapiro。

  请问我该如何在两个表中找到这样相似的值?如果能用SQL实现最好,PL/SQL也可以。请问是不是使用like contains或者regexp?或者使用域索引会好一些?

  答:我第一次看到这样的问题是在糖果零售行业,手动的数据录入让数据库中充满了各式各样“相似但不完全一样”的字符串,而且还是用了不一样的缩写,甚至还有些拼写的错误。我当时写了一个非常复杂的算法,但是可以在处理百万条以上的记录时速度很快。

  •   首先我们需要解析所有的标识符。
  •   然后我们对标识符进行标准化,并将缩写统一转化成一致的缩减形式。然后将冠词“the”删除。
  •   如果无法定位一个准确的匹配,那么我们就将扫描所有的标识符,一次一个字母,然后给每一个字母的位置赋予一个加权。如果总得加权与最接近的标准化关键词相似程度达到95%以上,我们就认为它们二者是相互匹配的。如果低于95%,我们可以利用手动来进行识别。
  •   这样,完整的标识符转换集就可以被解析并匹配了。

  我想到的方式就是这样了,这个方法是十分有效的,但是过程可能会有一些复制,请参考。

翻译

孙瑞
孙瑞

相关推荐