在评估其云或本地数据仓库需求时,企业正处于十字路口。为了做出正确的决策,他们必须专注于他们想要的数据目标和结果,而不是依赖过时的假设。
在本文中,行业专家Barry Devlin博士讨论了本地数据仓库向云端的转变、评估云时要考虑的因素以及提出“你为什么需要这个?”的问题的重要性。他拥有 30 多年的 IT 经验,于 1985 年定义了第一个数据仓库架构,并且是 9sight 咨询公司的创始人和负责人。
Devlin在他的书《云数据仓库第一卷:构建数据仓库、湖屋、网格和结构》中介绍了云数据仓库的关键原则、数据的含义以及如何培养洞察力驱动型决策的环境。
他将在第二卷中更深入地探讨数据仓库、湖泊、结构和网格的架构,该卷预计将于 2024 年初出版。
从传统数据存储方法向云数据仓库的转变的最大影响是什么?
Barry Devlin:我发现这是一个很难回答的问题……我们似乎沉迷于最大、最好和最新的技术,而不是真正思考背后的东西。这就是为什么我以数据仓库开始我的新书的原因:作为一种获取高质量数据并从中获得最佳价值以做出决策和采取行动的手段。归根结底,无论是在云端还是在本地,或者无论它在哪里,都无关紧要。更重要的是你对信息和数据的思考方式。当然,支撑这一切的是技术,以及数据是全部在一个地方还是分布在多个地方。当然,这确实会影响架构和设计决策。
保留本地数据仓库是否有优势,或者云始终是最佳选择?
Devlin:这是关于结果。这是关于我想为我的企业实现的目标。我需要哪些信息来帮助做出这些决定。从业务角度来看,这些信息的位置并不重要。每个都有其优点和缺点。在云端获取信息与在本地获取信息各有利弊。特别是,寻找来源 – 你的关键数据或最大的数据来自何处 – 以及你的用户需要如何访问它?
当您在第3章中讨论数据仓库的七宗罪时,这些罪是否处于不断变化的状态,必须不断监控下一个潜在的“罪恶”?
Devlin:它们确实会继续前进,而且随着我们的前进,它们也会发生一些变化。采用这种方法的重点是真正向人们强调,当我们决定某事并设计一个系统时,我们会做出很多假设。例如,这里的第二宗罪是操作系统和信息系统是分开的。这是我们多年来一直在进行的数据仓库世界中的一个假设。我们得出这一结论的原因在很大程度上已不再正确。因此,如今,这是一种致命的罪过,但在30年前,这是正确的做法。这些假设来自技术可以做什么以及企业在特定时间想要什么。
当今的商人热衷于拥有实时数据。每次我与企业讨论信息时,我的第一个问题都是:为什么这么快需要它?有时候,他们想得很好,其实我不需要那么快。但是,当他们这样做时,操作和信息系统应该或甚至可以分开的技术假设就会崩溃。你没有时间通宵之间进行所有不同系统的传输和对账。
所以,这些致命的罪恶实际上是你根据你的历史做出的假设。对于每个罪恶,你都会想回到云数据仓库时代重新考虑,并说,‘真的是这样吗?在我的组织里,在我的时代,我的商业人士和我拥有的技术技能中,它是什么样子?’
生成式人工智能是当前的热门话题。您认为它可以为云数据仓库带来的最大好处是什么?
Devlin:我认为这是一个我需要在两个层面上考虑的话题。在最高层次上,我对信息和信息管理以及我们如何确保信息具有高质量非常感兴趣。生成式人工智能基于庞大的信息语料库,即互联网。我对互联网上的信息质量表示强烈怀疑。生成式人工智能基于一组非常肮脏的数据–高度偏见的数据,由Facebook和谷歌等组织收集,以推动其广告业务并将所有信息货币化。生成式人工智能将改变很多事情,但我担心,在很多情况下,它不会变得更好。
在数据仓库中,我认为生成式AI将有助于湖屋,网格和结构的设计,因为可能已经有足够多的关于数据建模和数据管道的良好元数据可以构建。从这个意义上说,它提高了生产力,尽管这会导致另一个问题,让很多人失业。
您最后想发表任何评论吗?
Devlin:我们对世界和IT的很多不同方面进行了非常哲学的讨论。但是这本书和第二卷背后有着非常实际的目的。我想从这三种模式(数据湖仓、织物和网格)退后一步,提供一个有用和可用的基础来理解和比较它们,对这些东西的作用有一个独立的看法,而不是兜售其中任何一个。我想帮助读者看到他们每个人的背后是什么,超越营销炒作。在第二卷中,希望在新的一年年初出版,我将更深入地挖掘支撑每个架构的设计模式和技术。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
MySQL与PostgreSQL:两款主流开源数据库对比
MySQL和PostgreSQL是两款最流行的开源SQL数据库,两者都可以很好地作为通用数据库。在这两者之间, […]
-
Java、JDBC和Postgres
现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]
-
5个元数据管理最佳实践
在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]
-
Cockroach Labs增加矢量搜索,更新定价选项
Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]