目前国内商业智能(BI)市场上,数据挖掘的成功案例非常有限,数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求小”。因此国内大多数商业智能的应用,还暂时谈不上“智能”的层面,只是停留在数据分析的层面。 接下来的一些篇幅,大家会学习到具体在微软SQL Server平台上如何进行数据挖掘的开发。 开发工具:SQL Server Business Intelligence Development Studio 安装SQL Server 2005,SQL Server 2008或SQL Server 2008 R2之后,我们可以在“开始”菜单中找到SQL Server Bu……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
目前国内商业智能(BI)市场上,数据挖掘的成功案例非常有限,数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求小”。因此国内大多数商业智能的应用,还暂时谈不上“智能”的层面,只是停留在数据分析的层面。
接下来的一些篇幅,大家会学习到具体在微软SQL Server平台上如何进行数据挖掘的开发。
开发工具:SQL Server Business Intelligence Development Studio
安装SQL Server 2005,SQL Server 2008或SQL Server 2008 R2之后,我们可以在“开始”菜单中找到SQL Server Business Intelligence Development Studio,打开之后,我们选择 Analysis Services Project 模板创建工程:
点击放大
每个数据挖掘结构(Mining Structure)都需要数据源,因此我们首先需要定义数据源,之后我们需要对数据源的数据类型以及结构进行分析,进而我们定义数据源视图(这里我们开发数据挖掘模型使用关系型数据库,因为有的多维数据库里面可能不包含关于case的详细信息),利用数据源视图对于需要进行数据挖掘的数据进行分析,分类以及组合。针对每个“挖掘故事”我们应该尽量减少参与表的数据量,如果可以的话,我们可以利用视图(View)来组织来自多个表的数据。
创建挖掘模型
SQL Server Analysis Services项目通过挖掘结构(Mining Structure)来组织挖掘模型(Mining Model),换句话说,一个挖掘结构里面可能包含多个挖掘模型。
新建挖掘结构,跳过欢迎界面,选择以及关系型数据库定义挖掘结构(Option 1, From existing relational database or data warehouse),下面的界面我们可以看到微软SQL Server支持9种数据挖掘算法,这里我们选择决策树算法(Decision Trees)。
点击放大
之后我们需要选择输入表(input tables),这里稍微解释一下Case table 和 Nested table,Case table 中存放数据挖掘算法需要分析的case,Nested table 存放每个需要分析的case的详细信息,举个例子,交易型系统中数据表的设计通常这样,一个交易记录表(Transaction),一个Item表。客户 Tom 买了一个毛巾,一打啤酒,一块香皂;Transaction 表中存放Tom什么时候进行了这笔交易,用了多少钱,以及一个关于这条记录的Primary Key(TransactionID), Item表中存放在毛巾,啤酒,香皂以及一个Foreign Key 关联到 Transaction 表中的 Primary Key, TransactionID.这个情况下,Transaction table 就是Case table, Item table 就是Nested table。
在数据挖掘中,将input tables中的columns分为三类, Key column,Input column 和 Predictable column;Key column 唯一标识 case, Input column是数据挖掘算法进行规律学习以及对Predictable column进行预测的依据。
设置测试集
SQL Server会对输入表中的数据进行分区(Partition),分为训练数据集和测试数据集;默认情况下,SQL Server 会将30%的数据作为测试数据集,不设置最多Case数量,其余70%作为训练数据集;当然这些设置我们可以在模型创建完之后,或者日后的测试验证过程中,对挖掘结构的相应属性进行调整,HoldoutMaxCases,HoldoutMaxPercent,等等,当然我们也可以通过DMX语言实现动态控制这些属性。微软针对测试集,训练集的比例分配给出的best practices 是3:7,这可能是微软经过大量测试验证后的结论。另外,测试集和训练集的划分,SQL Server并不是按照数据的存放位置进行划分,而是SQL Server 的数据挖掘算法在学习了数据的规律之后,根据学习结果进行划分,使得测试集和训练集中的数据尽量相似。
测试集当然用来验证数据挖掘模型的,验证其准确性,当然验证数据挖掘模型的准确性上,我们还可以选择外部数据进行验证,不一定是数据表中数据。训练集为数据挖掘模型进行机器学习的,挖掘模型定义完之后,并不能进行任何预测,因此我们需要一定量的数据对其进行训练,这个时候训练集中数据的质量直接影响到将来数据挖掘模型的准确性。
点击阅读本文第二部分:微软数据挖掘开发:模型的验证与展示
作者
相关推荐
-
OpenWorld18大会:Ellison宣布数据库的搜寻和破坏任务
在旧金山举行的甲骨文OpenWorld 2018大会中,甲骨文首席技术官(CTO)兼创始人Larry Elli […]
-
云端SQL Server高可用性最佳做法
与内部部署相比,在云端运行SQL Server可为数据库软件用户提供更多的灵活性和可扩展性,也可能更省钱。但云 […]
-
ObjectRocket着力发展Azure MongoDB服务
MongoDB吸引了微软公司的注意力,微软公司计划针对运行于该公司2017年发布的Azure Cosmos D […]
-
绘制数据关系图的利器:SQL Server 图像数据库工具
SQL Server 2017新增了图形数据库功能,你可以使用图结构来表示不同数据元素之间的关系。