使用Amazon CloudSearch 梳理云数据库

日期: 2014-10-28 作者:Dan Sullivan翻译:杨宏玉 来源:TechTarget中国 英文

云端数据库对于存储和管理结构化数据来说是十分理想的,尤其是它可以巧妙地将数据整合到关系表中。但企业处理的许多数据都是非结构化或半结构化的。另外,还有一些企业的数据由易于查找的自由格式文本组成。关系型数据库处理有关成本、尺寸和数量等产品信息。

然而,如果增加了几个段落的详细说明,那么数据库就会无法正常工作。在这种情况下,企业就需要搜索引擎的支持了。 搜索引擎是一种应用程序,它允许用户使用与关系型数据库几乎相同的方式来查询结构化或半结构化数据。企业在AWS云上存储和管理着大量半结构化内容,以便于使用AmazonCloudSearch 来获取数据。

一些搜索引擎用来处理半结构化或非结构化数据,并能读取……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

云端数据库对于存储和管理结构化数据来说是十分理想的,尤其是它可以巧妙地将数据整合到关系表中。但企业处理的许多数据都是非结构化或半结构化的。另外,还有一些企业的数据由易于查找的自由格式文本组成。关系型数据库处理有关成本、尺寸和数量等产品信息。然而,如果增加了几个段落的详细说明,那么数据库就会无法正常工作。在这种情况下,企业就需要搜索引擎的支持了。

搜索引擎是一种应用程序,它允许用户使用与关系型数据库几乎相同的方式来查询结构化或半结构化数据。企业在AWS云上存储和管理着大量半结构化内容,以便于使用AmazonCloudSearch 来获取数据。

一些搜索引擎用来处理半结构化或非结构化数据,并能读取多种文件类型,如DOCX,PDF和TXT。亚马逊CloudSearch还可以兼容JSON或XML文档。所以,如果你的数据内容是不同的形式,就需要把数据格式预处理为这些格式之一。

CloudSearch在域中组织着半结构化数据;类似于关系型数据库,其数据表中包含若干行数据,域中包含着文档。该文档包括字段名和值。举例来说,如果你有一个用来搜索电子邮件的域,其文档将包括以下字段,如发件人、收件人、抄送、主题和信息。

使用亚马逊CloudSearch的第一步是在你的文档里定义字段。每个字段中,你可以阐明该字段中的数据是否可搜索、用户是否能够在该字段进行排序以及其他处理选项。CloudSearch也提供了提取样本数据的功能,从而避免了手动指定所有字段和处理选项,节省了时间。

一旦确定了域,文档就可以加载到CloudSearch.。然后,它们根据域的配置来进行处理。这可以包括删除常用词、不能在云计算数据库中搜索到的停止字符,否则将会占用不必要的空间。在一个“stemming”进程中,文档中的文本也有可能包含已经被词根替代的单词。这有助于提高匹配、降低存储空间,例如像“rain”、“rained”和“raining”这些词都归结为词根“rain”。

当文档被加载,文字索引建成后,CloudSearch域就已经具备了查询功能。如关系数据库,它也可以做复杂或简单的查询。用户可以搜索一个简单的词组,像“耳机”或者其他更有针对性的单词,例如,“这个字段描述应该包含‘耳机’,价格字段应该‘少于25元’并且第一个可用日期应该是‘过去的十二月之内’”。

想要执行这种布尔搜索,开发者必须要熟悉CloudSearch的查询语法。开发人员创建一个搜索界面使终端用户可以指定字段和值,同时可以隐藏CloudSearch查询语法的复杂性。

访问和扩展亚马逊CloudSearch

为了管理域、加载文件和查询域,CloudSearch拥有三个接入点,分别为管理控制台、命令行界面或编程语言的API。

和其他AWS服务一样,对于现有实例来说,如果你的文件索引或查询处理负荷过高,那么CloudSearch的规模将会扩大。CloudSearch可与小型、大型、特大型和双倍超大的搜索实例协同工作;其价格范围从0.10美元/每小时到1.10美元/每小时。当CloudSearch进行扩展时,它会启动一个更大的实例。如果CloudSearch已经使用了最大实例,它将把文件分区并使用多台服务器来索引文档或响应查询。

CloudSearch支持特殊属性搜索引擎,包括多种语言、高级搜索选项、自动查询和结果高亮化等功能。为了保护内容,该应用程序还集成了身份访问管理器。它也可以指定一个或多个IP地址,这些IP地址可以允许加载文件到数据库中。

作者

Dan Sullivan
Dan Sullivan

Dan Sullivan是一名作家、系统架构师和顾问,拥有超过20年关于先进的分析、系统架构、数据库设计、企业安全、商业智能的IT从业经验。他的从业范围广泛,包括金融服务业、制造业、医药、软件开发、政府、零售、天然气和石油生产、发电、生命科学和教育。

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐