Databricks改进对生成式AI模型的支持

Databricks在Model Serving中推出了新的大型语言模型和 GPU 优化功能，旨在使客户能够改善生成 AI 结果。

Databricks在三月份推出了Model Serve。Model Serving是一项服务，使Databricks 客户能够将AI和机器学习（ML）模型作为 REST API 部署到单个环境中以进行模型管理，此时 Databricks 接管管理，包括使用更新的数据刷新模型，并修复任何错误。

在Model Serving之前，用户通常必须管理复杂的 AI 和 ML 基础架构，这需要他们使用批处理文件将数据移动到数据仓库中的缓存中。在那里，用户可以先训练模型，然后再将其移动到另一个应用程序，最终可以使用该模型进行分析。使用更新的数据刷新模型并调整模型以解决问题也需要大量的工作。

然而，REST API允许用户直接在Databricks Lakehouse平台上训练和部署模型，而无需管理由多种工具组成的复杂基础架构。

此外，模型服务环境还附带了与 Databricks 工具的预构建集成，包括用于部署的 MLflow 模型注册表、用于治理的 Unity Catalog 和用于准确性的矢量搜索，可帮助客户管理其 AI 和 ML 模型。

9 月 28 日，Model Serving已更新，包括优化的 LLM 服务，该工具使用户能够在服务上部署私有开发的生成 AI 模型以及传统的 AI 和机器学习模型。此外，模型服务中的新 GPU 优化功能旨在为运行和管理大型生成 AI 模型提供必要的功能。

这两者目前都以公共预览版提供。

新功能

生成式AI的最初承诺是提高效率。

自然语言处理（NLP）功能使用户无需编写代码即可与数据交互，可以帮助数据专家更快地工作。NLP 还可以通过降低进入门槛（例如需要了解代码和数据素养专业知识）使更多业务用户能够使用数据。

它还允许自动化重复流程和某些客户交互。

然而，与ChatGPT和Google Bard等公共大型语言模型（LLM）集成以训练生成AI模型对于希望保持数据私密性的企业来说可能有风险。当企业将数据推送到这些模型中以构建和训练生成式 AI 模型时，他们冒着数据暴露的风险。

即使他们将公共LLM数据导入自己的环境而不是将数据推送到LLM，他们也面临数据泄露风险，因为他们连接到公共LLM。企业可以采取一些安全措施来尝试确保他们可以安全地导入LLM技术而不会暴露自己的数据，但这些尝试并非万无一失。

此外，在公共数据上训练的生成式AI模型并不总是提供准确的结果。LLM被训练来填补空白（本质上是编造事情），当它们没有数据来回答问题时。有时，那些被称为AI幻觉的虚构答案似乎是合理的。这可能会给基于模型结果做出关键决策的企业带来严重后果。

因此，很多现在正在使用生成式人工智能供应商的技术开发自己的语言模型，但使用自己的特定领域数据来训练模型。

优化的LLM Serving旨在帮助Databricks客户轻松部署那些经过私人训练的生成AI模型，并优化其性能。

根据Databricks的说法，用户只需要提供模型和开源或其开发中使用的其他结构，优化的LLM服务将从那里接管其管理。预期结果包括为客户节省提高模型性能所需的时间，并通过消除手动工作负载来降低管理生成 AI 模型的成本。

Constellation Research分析师Doug Henschen表示，节省时间和精力意义重大，因为它使客户能够瞄准最终结果。

他表示：“通过消除基础设施选择和部署以及模型优化的复杂性，Databricks为寻求开发和部署生成式AI功能的客户简化了事情。这有助于客户专注于业务用例，而不是围绕底层技术的决策。”

同时，Databricks 对生成式 AI 模型的管理是通过 GPU优化来实现。

GPU 最初设计用于处理图像和视觉数据，还可用于加速计算过程，这些计算过程超出传统CPU的能力范围。Databricks的AI和机器学习首席产品营销经理Prem Prakash表示，在Model Serving的情况下，GPU为管理生成AI模型即服务提供了计算能力。

客户只需使用 MLflow 记录其模型，此时 Databricks 将接管模型的管理。该供应商的平台将自动准备具有 GPU 库的容器，然后将该容器部署到将管理模型的无服务器 GPU。

Prakash 称：“与带有文字的文档相比，LLM更加复杂，计算也更密集。尝试在CPU上运行它可能会破坏CPU。这就是 GPU 的用武之地。”

Prakash继续说道，与此同时，Databricks将LLM托管功能添加到模型服务的动力，部分是由客户不仅希望减轻负担，而且希望减轻管理语言模型的费用。

他指出，与企业为自行管理模型支付的费用相比，通过优化GPU和自动化LLM管理，Databricks能够以更低的成本提供管理即服务。

Prakash 称：“当他们在自己的环境中构建模型，他们就不想做管理GPU的所有工作。这些模型是如此之大，以至于管理起来可能很昂贵，所以他们问我们是否可以做些什么来使管理更具成本效益。”

在过去一年中，Databricks远非唯一一家优先考虑生成AI的数据管理供应商。例如，竞争对手Snowflake正在构建一个环境让开发人员可构建生成AI应用程序，并于5月收购了Neeva以添加生成AI功能。

但是，由于Databricks是湖屋架构的先驱之一，该架构可能是生成式AI模型开发的最佳选择，并且添加了旨在帮助用户构建和部署生成式AI模型的其他功能，因此该供应商已经能够快速开发模型服务等工具，现在还增强了功能。

因此，根据Henschen的说法，其生成式AI支持功能是迄今为止最先进的功能。

他表示：“Databricks比很多竞争对手处于更好的地位，可以帮助客户利用生成式AI。他们抓住了时机，快速添加功能，帮助客户使用他们的数据来调整和调整LLM，并将生成功能带入生产环境。”

后续步骤

Prakash表示，展望未来，Databricks的生成式AI路线图将专注于继续使模型部署和维护更加简单。

他表示：“我们将做更多的监测和管理。”

Prakash继续说道，此外，模型治理是一个优先事项。正如需要治理数据以确保只有企业内的某些人才能访问敏感信息，并且只有合适的人才能移动和操作数据以确保其质量一样，人工智能模型需要权限。

与此同时，Henschen表示，Databricks应该继续执行其目前的计划，以实现生成式AI的发展。

Databricks提供了Dolly，这是该供应商开发的LLM，以便客户可以开发自己的生成AI功能。此外，Databricks在六月份收购了MosaicML，以更好地使客户能够构建自己的私有语言模型。

同时，该供应商正在构建包括模型服务在内的基础设施，为AI和ML模型训练、部署和管理创建环境。

Henschen 称：“Databricks只需要执行其承诺，通过提供更多的LLM选项，以及通过最近的MosaicML收购，更多的自定义模型构建和调整功能。”

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

作者

: Eric Avidon

翻译

: 邹铮

Databricks改进对生成式AI模型的支持

新功能

后续步骤

取消回复

作者

Eric Avidon

翻译

邹铮

相关推荐

Denodo推出Deep Query以提供AI驱动的深度分析

为什么Apache Iceberg对现代数据湖屋至关重要

Snowflake收购Crunchy Data增加Postgres数据库

微软新数据库、分析工具瞄准代理AI