问:您好,我的数据库有两个表,每个表都有两列。我需要在两个表中找到相似的值,举个例子,比如第一个表中第一列有一个值为Jeff Shapiro clinical,而第二个表中的第二列有一个相似的值,为clinic of Jeff Shapiro。 请问我该如何在两个表中找到这样相似的值?如果能用SQL实现最好,PL/SQL也可以。请问是不是使用like contains或者regexp?或者使用域索引会好一些? 答:我第一次看到这样的问题是在糖果零售行业,手动的数据录入让数据库中充满了各式各样“相似但不完全一样”的字符串,而且还是用了不一样的缩写,甚至还有些拼写的错误。
我当时写了一个非常……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
问:您好,我的数据库有两个表,每个表都有两列。我需要在两个表中找到相似的值,举个例子,比如第一个表中第一列有一个值为Jeff Shapiro clinical,而第二个表中的第二列有一个相似的值,为clinic of Jeff Shapiro。
请问我该如何在两个表中找到这样相似的值?如果能用SQL实现最好,PL/SQL也可以。请问是不是使用like contains或者regexp?或者使用域索引会好一些?
答:我第一次看到这样的问题是在糖果零售行业,手动的数据录入让数据库中充满了各式各样“相似但不完全一样”的字符串,而且还是用了不一样的缩写,甚至还有些拼写的错误。我当时写了一个非常复杂的算法,但是可以在处理百万条以上的记录时速度很快。
- 首先我们需要解析所有的标识符。
- 然后我们对标识符进行标准化,并将缩写统一转化成一致的缩减形式。然后将冠词“the”删除。
- 如果无法定位一个准确的匹配,那么我们就将扫描所有的标识符,一次一个字母,然后给每一个字母的位置赋予一个加权。如果总得加权与最接近的标准化关键词相似程度达到95%以上,我们就认为它们二者是相互匹配的。如果低于95%,我们可以利用手动来进行识别。
- 这样,完整的标识符转换集就可以被解析并匹配了。
我想到的方式就是这样了,这个方法是十分有效的,但是过程可能会有一些复制,请参考。
作者
翻译
相关推荐
-
Collaborate 18大会:了解甲骨文云数据库和应用的进展
在Collaborate 18大会即将举行时,我们会发现,甲骨文用户社区的技术变化会略高于平常水平。 由独立甲 […]
-
甲骨文自治数据库亮相 带来云计算新希望
早前甲骨文还不在云计算公司之列,而现在该公司正在迅速弥补其失去的时间。甲骨文的云计算核心是甲骨文自治数据库(O […]
-
Oracle TNS 错误:管理员旷日持久的战斗
TNS经常给IT管理员带来麻烦,而且很难定位。尤其是在Oracle数据库中。本文将介绍如何避免这些常见错误。
-
DBA支招:如何实现Oracle EBS 12.2.5升级
那些对于是否要将EBS进行升级持观望态度的Oracle数据库管理员们可以从一家研究公司获得一些启示。