文本分析软件选型最佳实践

日期: 2011-07-31 作者:Jonathan Gourlay翻译:曾少宁 来源:TechTarget中国 英文

挖掘电子邮件、博客文章及其他非结构化企业数据中有价值的信息需要依靠文本分析软件,但是有如此多的内容和情境分析工具,如何选择正确的软件也是一个很大的挑战。   根据一家文本分析咨询公司KAPS Group的首席知识架构师和创始人Tom Reamy的观点,由于使用自我发现所节省的时间以及确定所有通向组织的信息流通道,可以提高成功的概率。   Reamy说,第一步是要花一些时间来了解您的公司情况,并解答一些您希望文本分析工具解决的问题。他还提到对公司信息环境进行深入评估将发现许多此类问题所在。

  但是,咨询公司Alta Plana的创始人Seth Grimes说,一定要小心选择信息源。   他说,……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

挖掘电子邮件、博客文章及其他非结构化企业数据中有价值的信息需要依靠文本分析软件,但是有如此多的内容和情境分析工具,如何选择正确的软件也是一个很大的挑战。

  根据一家文本分析咨询公司KAPS Group的首席知识架构师和创始人Tom Reamy的观点,由于使用自我发现所节省的时间以及确定所有通向组织的信息流通道,可以提高成功的概率。

  Reamy说,第一步是要花一些时间来了解您的公司情况,并解答一些您希望文本分析工具解决的问题。他还提到对公司信息环境进行深入评估将发现许多此类问题所在。

  但是,咨询公司Alta Plana的创始人Seth Grimes说,一定要小心选择信息源。

  他说,“并非每一个组织都需要分析Facebook每一页消息或呼叫中心的记录。而且,您可能不能收集内部最重要的内容,其中您需要考虑一些新的外部信息源。”

  确定内容及其用户类型

  下一个重要步骤是“标出所有不同类型的内容,并确定谁在使用它,以及使用的方式,”Reamy说。

  Jamie Popkin是Garner副总裁和知名分析师,他认同这一点。文本分析软件需要考虑的任务评估不仅包括内容的类型及其产生的方法。

  作为平台的方法分析

  “要考虑将文本分析作为一个平台并激活技术,而不要作为将在一个应用程序中使用的工具,”Reamy说。即使您最初只考虑软件的一个应用程序,“您也可能会遇到新的应用程序,而您将需要一些[其他的]功能。”

  然而,根据Grimes的观点,大多数组织都能够很好地将文本分析作为更广泛的运营或分析解决方案使用。他建议希望那些采用基于项目的文本分析软件的组织“应该寻求一些将文本分析整合到关键业务线应用程序和BI/分析解决方案中的解决方案。您希望得到的全面整合的分析软件,而不是另一个孤立的系统。”

  如果一个公司已经使用一个具备搜索功能的企业内容管理平台,那么它应该考虑依托供应商来完成分析功能。

  “供应商可能将文本分析软件做得很好,而您已经购买了这个软件,”Popkin说。如果组织忽略了一种企业方法,那么专门采用可能最终导致多个部门使用多个产品。“然后,他们决定使用一个产品,并向IT部门指示说,‘你们需要处理这个问题,它们需要整合在一起。’当完成之后,您通常需要重新开始。”

  解决现有的业务问题

  另一方面,在文本分析软件能够发挥作用的地方确定一个实际的业务问题是很有意义的。

  “要一个关注的业务问题开始,先解决它,以便获得经验和建立支持,”Grimes建议说。“要寻找一个可行的项目,以相对较短的时间内产生结果,然后使用这个结果。”

  Grimes指出,这与搜索一个满足多个部门需要的技术是很不一样的。

  Reamy认同一点,通过实际例子来进行概念验证将能够产生最佳评估结果。“它关系到语言、语义和意义,而唯一的测试方法是通过实际的语言,”他说。“测试您遇到的所有可能的用例是很重要的。”

  许多供应商将会免费或低廉的价格提供一些有限的概念验证尝试,Grimes说。还有很多的Software as a Service开源软件可供您使用。

  至少要进行三轮开发

  概念验证尝试一般需要6至8周的时间,Reamy说,在此之前,其间的培训已经做得很好了。“您将了解到大量关于软件及如何使用软件的信息。”

  “有时候,人们只有开始使用工具时,才会意识到他们真正搜索的东西是什么,”Popkin说。他说,在评估和开发过程中,确定用户所需要的技术水平是很重要的:“例如,根据您希望实现的复杂程度,您可能需要一些接受语言学培训的人员。”

  使用软件功能和特性作为评估过滤器

  “文本分析软件与传统软件不同,而记住何时进行软件评估是很重要的,”Reamy说。“在文本分析中,记分卡绝对没有意义。”

  可能只有一个供应商产品执行情境分析,而另一个供应商可能仅分析其他一些语言,Reamy说。“一定要确定哪些产品满足您的所有需求。”

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐

  • NoSQL效应与对可扩展数据库的需求

    企业中非结构化数据的崛起正在推动NoSQL数据库技术的需求,但你还没有必要完全放弃SQL数据库。

  • DBA在大数据时代如何贡献价值?

    无论处理什么样的信息,DBA都具备了关键的数据管理、性能调优以及报表等能力。然而,戴上有色眼镜,希望永远不去和非结构化数据打交道,这样的想法是不正确的。

  • 大数据分析项目中的“最差”实践

    大数据分析项目令人失望是有一些潜在原因的,你可以找到大量关于大数据分析最佳实践的建议。本文就分析了大数据分析项目中的“最差”实践。

  • 针对“原始大数据”的日志数据管理

    应用程序,网络,服务器,移动设备以及IT基础设施中的其它各类计算机生成了大量的数据或者“事件”,这些信息可以被自动记录到日志文件以供将来参考使用。