disambiguation:消除歧义
消除歧义(disambiguation)也称作词义厘清(word sense disambiguation)或文本消歧(text disambiguation),它是解释使用一词多义或多形的词时作者的使用意图。 既然消除歧义(disambiguation)对人类来说很困难,就可以理解电脑在这方面遇到的麻烦了。对于某些程序,如把口头语言记录成书写语言的医疗录入应用,或是把键入文本翻译成人类言语的辅助技术,一词多义或多形都将是一个挑战。有两种普遍的方法能进行歧义消除:浅显法和深入法。 浅显方法通过前后词义来确定作者原意,这是比较常见的方法。尽管它相当准确,这个方法并不总是可靠,尤其是同一个文件中有多个多义词的时候。虽然如此,这个方法是最容易执行的一种。 深入方法在词义方面看得更远,从字典和百科全书中举证来确定一个词义的所有可能性。尽管这是消除歧义更为精确的方法,它执行起来并不简单,主要是因为执行高准确度任务的足够全面的数据库(database)很难创建。当使用较小、不够全面的数据库时,结果可能不那么准备了。 算法对文本消歧也很实用。复杂的人工智能算法能设计用来搜索周围句子,或者甚至是整个文件,来发现能指出特定词原意的词。由于大部分词在一个给定文件中一般只有一个给定意义,这很合理地成为准确的方法。 这不是一项简单的任务,消除歧义(disambiguation)对所有语言处理都很重要。任何软件,如利用语音识别或文本语音转化的软件,必须使用几种消除歧义策略来得到准确结果。消除歧义在非结构化数据(unstructured data)中也很重要,如在电子邮件、文件、 即时信息和Twitter客户端中产生的那些。 另见:文本挖掘(text mining)
最近更新时间:2010-09-15 翻译:徐艳EN