任何上过网的人都知道Yahoo网站。虽然这家公司为全世界超过6.8亿用户提供内容和服务,但是其中很多的服务都是免费的,公司依靠广告销售获取收益。本月初,Yahoo的前任用户数据和分析副总裁David Mariani向Gartner BI Summit峰会参会人员讲述这个搜索引擎巨头的新分析与数据管理战略,如何用BI来提高广告空间对广告商的价值。
Mariani表示,Yahoo的广告销售采用两种不同的形式:基于搜索的广告显示在查询页面;显示或者网页广告则在主页和网站内部显示。公司新的商业智能(BI)策略正朝优化“性能显示”网页广告发展,目的在于促使访问者购买、提供一个邮件地址或者点击一个特定的网站。为了实现这个目的,Yahoo必须确定访问网站的是谁,然后向该访问者提供最适合的广告。Yahoo的最新BI项目要求实时加载、存储和查询大量的数据,以便尽可能准确地发起广告竞投。
案例背景:Yahoo创建一个操作方式类似于纽约证券交易所的广告交易或者网络来销售网页广告。销售方就等同于发布者,他们决定是否有空间可以投放广告,而购买者则是广告商,他们为产品寻找最佳宣传方法。Mariani表示广告商会被基于搜索的广告所吸引,因为他们可以很容易抓住网站访问者的兴趣。例如,查找关于假期信息的人可能会浏览旅游公司的广告。
但是,使用这种关于个人喜好的信息来优化网页广告则难度更更大一些。要使广告商的网页广告空间投资物有所值,Yahoo必须判断访问者的意图。
“我们必须实时分析各种不同的维度,”Mariani说道,包括当天时间、位置、年龄和性别。
为了实现这个目标,每天接收3.5亿广告显示次数的Yahoo必须对数据流进行分析,以便决定什么广告能够最大限度地吸引各个访问者。每一个广告显示次数和在显示中所发生的行为都会被记录下来。公司会确定访问者统计方法,使用算法来进一步优化网页广告活动。这实际上要求每个季度将几千亿数据加载到系统中,存储之后,最端用户能够通过查询在10秒钟内访问这些数据。
“我们的系统需要找到能够发起特殊竞投和产生收益的确实有价值的信息,”Mariani说道。
实现:Yahoo通过使用“从现成部件”而非购买一BI产品或者特殊技术来建立一个系统。
组织决定实施一个开源文件管理系统Hadoop,同时表示它是一种帮助公司运行数据聚合提取、转换和加载(ETL)操作的方法。
Hadoop和聚合引擎会等待事件到达广告服务器,这些事件每天会包含高达1.2TB的原始数据。提供数据归档和分段传输功能且支持扩展的Oracle 11g Real Application Clusters (RAC)可以加载到文件时就解析到数据并将它们保存到不同分区中。
然后数据被加载到一个cube,并每天可以从1.2TB压缩到135GB。SQL Server Analysis Services 2008 R2的多维在线分析处理(MOLAP)技术是作为Yahoo的数据库引擎运行的,并且会从Oracle加载分区,这会在每个季度产生16TB的数据库。加载到系统的数据可以在8到12小时后进行查询。
“建立这个数据仓库的每一个阶段之间都是互相独立的,”Mariani说道:“它并不是高度并行的,而且其中没有数据存储。它都是按照进入的顺序进行处理的。”
一旦完成,这个数据库就会创建一个快照并将它发布到一个负载均衡器所面对的BI银行查询服务。换句话说,Yahoo已经完全将加载过程从查询过程中分离出来。
Yahoo接着实现了两种不同的查询界面。首先,使用一个专用查询界面来帮助优化竞投,它有时被称为BI恶梦。这些查询必须快速执行,而Yahoo的系统可以在6秒钟内查询各处创建的5,000亿行数据。Mariani将它称为自我服务环境,它可以使最终用户快速地以可视化方式创建。第二种查询界面是通过组织称为目标选择、分析和优化(TAO)的Web应用程序来开发的,它是一个基于特定参数进行查询的自定义搜索功能。这个查询会在2秒钟内完成,并将信息反馈回最终用户,从而可以在需要时对广告竞投活动进行调整。
“我们的用户正在实时监控广告竞投活动,而且也在进行实时修改。”Mariani说道。
结果:这个项目已经成功交付1年了。新系统目前一周可以处理大约100,000查询。Mariani说道,它目前运行良好,而且正在产生“数以百万的美元”的价值,同时使广告更加有针对性。
Yahoo已经能够通过比较使用TAO前后的竞投比较来测定它的成功。根据Mariani的看法,由TAO管理的竞投活动所获得的受益高出2倍。
“广告商喜欢它,发布商也喜欢它,因此有利于Yahoo广告交易,”Mariani说道。
此外,广告商愿意花费比不使用TAO管理的竞投多15%的费用来采用TAO管理的竞投,这意味着Yahoo会因此获得更多的收益。
通过管理数据和快速访问数据,Yahoo已经能够提供一个关于客户片段的更优快照。仪表板报告可以通过图表表示诸如会话和点击率等统计信息。
Yahoo目前正处于建立一个可以处理更多日常广告显示数和客户片段的系统,它可以处理相当于目前水平10倍的数据。Mariani表示,这个指标已经在Yahoo实验室中实现了。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
甲骨文自治数据库亮相 带来云计算新希望
早前甲骨文还不在云计算公司之列,而现在该公司正在迅速弥补其失去的时间。甲骨文的云计算核心是甲骨文自治数据库(O […]
-
2017年12月数据库流行度排行榜 定格岁末排名瞬间
数据库知识网站DB-engines最近更新的2017年12月份数据库流行度排名情况是否能提供更多的看点呢?TechTarget数据库网站将与您分享12月份的榜单排名情况,让我们拭目以待。
-
2017年11月数据库流行度排行榜 半数以上数据库积分减少
数据库知识网站DB-engines更新了2016年11月份的数据库流行度排行榜。TechTarget数据库网站将与您一同关注11月份的榜单排名情况。