返回首页

数据挖掘的常用的技术和方法.(数据挖掘的功能及常用的技术)

来源:www.xuniwu.cn   时间:2022-12-20 09:09   点击:162  编辑:admin   手机版

1. 数据挖掘的功能及常用的技术

1、数据分析师

从事行业数据搜集、整理、分析方面的工作,依据数据做出行业研究、评估和预测。需要掌握SPSS、STATISTIC、Eviews、SAS等数据分析工具以及数据分析的营销思维。

2、数据架构师

数据架构师是负责平台的整体数据架构设计,完成从业务模型到数据模型的设计工作,根据业务功能、业务模型,进行数据库建模设计,完成各种面向业务目标的数据分析模型的定义和应用开发,平台数据提取、数据挖掘及数据分析。

2. 数据挖掘基本概念及功能

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘对象

1.数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。

2.数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至异构性数据的数据源。

3.发现知识的方法可以是数字的、非数字的,也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。

数据挖掘步骤

在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们的用户一步步地进行数据挖掘工作。比如,SPSS公司的5A和SAS公司的SEMMA。

数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。下面让我们来具体看一下每个步骤的具体内容:

(1)定义问题。在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如,想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。

(2)建立数据挖掘库。建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。

(3)分析数据。分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。

(4)准备数据。这是建立模型之前的最后一步数据准备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。

(5)建立模型。建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试。

(6)评价模型。模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。经验证明,有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定,因此,直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广。

(7)实施。模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上。

3. 十三种常用的数据挖掘的技术

1、数据收集:在大数据的生命周期中,数据采集处于第一个环节。根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。

2、数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化数据。第2类主要面对的是半结构化和非结构化数据。第3类面对的是结构化和非结构化混合的大数据,

3、基础架构:云存储、分布式文件存储等。

4、数据处理:对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。

5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

6、数据挖掘:目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

7、模型预测:预测模型、机器学习、建模仿真。

8、结果呈现:云计算、标签云、关系图等。

4. 数据挖掘的功能和技术

是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。

可为预测、优化、预报和模拟等许多其他用途而部署,也可为规划流程提供各种信息,并对企业未来提供关键洞察。 ...

5. 数据挖掘的功能及常用的技术有

本科或硕士以上学历,数据挖掘、统计学、数据库相关专业。熟练掌握关系数据库技术,具有数据库系统开发经验;熟练掌握常用的数据挖掘算法;具备数理统计理论基础,并熟悉常用的统计工具软件。国内一批大学,211或者985最好。

6. 数据挖掘的基本功能

有利于提高数据的运用能力,促进物联网的发展进步。

7. 数据挖掘的使用

第一步:下载SQLServer2005_DMAddin及SQL2008FULL_CHS.  第二步:配置本地服务器,在电脑中安装IIS,配置环境。(电脑-控制面板-添加/删除程序-添加/删除windows组件,选择“internet信息服务IIS”)进行安装。  第三步:安装SQL2008FULL_CHS。再安装SQLServer2005_DMAddin。SQLServer2005_DMAddin要在SQL2008FULL_CHS环境中才能运行。  第四步:重起电脑,打开Excel,在菜单栏中就可以看到“数据挖掘”。

顶一下
(0)
0%
踩一下
(0)
0%