大数据挖掘后面临的两大问题(数据挖掘的六大问题)

1. 数据挖掘的六大问题

　　数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式，可以发现的模式有很多种，按功能可以分为两大类：预测性（Predictive）模式和描述性（Descriptive）模式。在应用中往往根据模式的实际作用细分为以下几种：分类，估值，预测，相关性分析，序列，时间序列，描述和可视化等。

　　数据挖掘涉及的学科领域和技术很多，有多种分类法。

　　（1）根据挖掘任务分，可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等；根据挖掘对象分，有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。

　　（2）根据挖掘方法分，可粗分为：机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中，可细分为：归纳学习方法（决策树、规则归纳等）、基于范例学习、遗传算法等。统计方法中，可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）等。神经网络方法中，可细分为：前向神经网络（BP算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法等等。

2. 大数据目前面临的问题是如何挖掘数据的

大数据技术是从各种类型的数据中快速获取有价值信息的技术。大数据领域出现了大量的新技术，它们已经成为大数据收集、存储、处理和呈现的有力武器。大数据处理的关键技术一般包括大数据收集、大数据预处理、大数据存储和管理、分析和挖掘、大数据收集、大数据预处理、大数据存储和管理、大数据的表示和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

3. 数据挖掘面临的问题有哪些

岗位是比较不错的，无论是在甲方还是在乙方，这个岗位都是比较瞩目的，在甲方公司的话一定要吃透业务，如果自己有追求不想论日子的话还是需要自己努力加油的，当然在甲方想要晋升除了能力之外就是处变能力，一定程度上说后者可能更重要；如果在乙方的话那就是实打实的要靠能力吃饭了，一般来说在乙方能学到更扎实、更时髦的技术，确实是能提高你的技术能力的。

要说到哪个公司靠谱的话，我觉得移动和电信都还不错，移动呢要稍微辛苦点，电信么稍微轻松点，这是相对而言啊，可能各省份或地市也有差别，乙方的话国内的华为，国外的sap、oracle、emc都还不错，像国内的ibm、hp这样的老牌个人感觉失去了企业文化，被潮流推着走。以上为一家之言，供你参考，有问题再追问。

4. 数据挖掘的六大问题有哪些

一、全局大局思维

大数据研究的对象是所有样本，而非抽样数据，关注样本中的主流，而非个别，这要求应用人员必须有全局和大局思维。

二、开放包融思维

数据分享、信息公开在分享资源的同时，也在释放善意，取得互信，在数据交换的基础上产生合作，这将打破传统封闭与垄断，形成开放、共享、合作思维。大数据不仅关注数据的因果关系，更多的是相关性，提高数据采集频度，而放宽了数据的精确度，容错率提高，用概率看待问题，使人们的包融思维得以强化。

三、优质服务思维

互联网通过免费的基本服务换来了大量客户数据的积累，从经济学角度来看，所有的免费都是不可持续的。这要求大数据使用者有能力依靠挖掘数据，改变价值的生成基础和价值链条的新价值，用更优质服务、提升变现能力来实现可持续发展。

四、学习趋势思维

研究数据相关性，使人们更容易提前发现事物的规律，预测事物进展的趋势，大数据就是通过成功的预测而引起广泛关注的。

五、成本控制思维

原来的社会治理模式中，用增量来配置社会资源，机构和人员不断扩大，成本不断加大。大数据让社会资源的存量得以精确配置，高效使用，避免忙闲不均，社会治理由劳动密集型到技术动态调度转变。

六、创造性思维

创造性思维是大数据思维方式的特性之一，通过对数据的重组、扩展和再利用，突破原有的框架，开拓新领域、确立新决策，发现隐藏在表面之下的数据价值，数据也创造性地成为了可重复使用的“再生性”资源。

历来的变革都是由生产工具推动思维方式转变开始的，旧的经济体制和传统理念在面临新思维逻辑的时候，如果不能与时俱进，吸收并转变为顺应潮流的新思维，通过新思维重新重组社会、国家、企业的战略、结构、文化和各种策略，那么貌似强大的社会反而变成了历史前进的阻力。作为最新的生产工具，大数据将成为治国的利器，可以实现治国理念、工具、目标的现代化，为推进国家治理体系和治理能力现代化提供强劲的动力。

5. 数据挖掘的六大问题是

知识发现过程的多种描述．它们只是在组织和表达方式上有所不同，在内容上并没有非常本质的区别。知识发现过程包括以下步骤：

1.问题的理解和定义：数据挖掘人员与领域专家合作．对问题进行深入的分析．以确定可能的解决途径和对学习结果的评测方法。

2．相关数据收集和提取：根据问题的定义收集有关的数据。在数据提取过程中，可以利用数据库的查询功能以加快数据的提取速度。

3．数据探索和清理：了解数据库中字段的含义及其与其他字段的关系。对提取出的数据进行合法性检查并清理含有错误的数据。

4．数据工程：对数据进行再加工．主要包括选择相关的属性子集并剔除冗余属性、根据知识发现任务对数据进行采样以减少学习量以及对数据的表述方式进行转换以适于学习算法等。为了使数据与任务达到最佳的匹配．这个步骤可能反复多次。

5．算法选择：根据数据和所要解决的问题选择合适的数据挖掘算法．并决定如何在这些数据上使用该算法。

6．运行数据挖掘算法：根据选定的数据挖掘算法对经过处理后的数据进行模式提取。

7．结果的评价：对学习结果的评价依赖于需要解决的问题．由领域专家对发现的模式的新颖性和有效性进行评价。数据挖掘是KDD 过程的一个基本步骤．它包括特定的从数据库中发现模式的挖掘算法。KDD过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识，这个过程包括对数据库的预处理、样本划分和数据变换。

6. 数据挖掘主要侧重解决哪几类问题

数据分析的相关职位需要的是复合型人才，能够对数学、统计学、数据分析、机器学习和自然语言处理等多方面知识综合掌控。未来，数据分析将会出现约100万以上的人才缺口，在各个行业，数据分析中高端人才都会成为炙手可热的人才，涵盖了大数据的数据开发工程师、数据分析师、数据架构师、数据后台开发工程师、算法工程师等多

就目前中国数据人才的市场来看，比较紧缺的数据分析岗位主要为数据专员（统计员）、数据运营、数据分析师、数据分析工程师、数据挖掘工程师、数据策略师（数据产品经理）、算法工程师等职位岗位。

7. 数据挖掘绝不能犯这11大错误

大数据的特点：

海量性、多样性、高速性、易变性。

详细来说：

1、容量（Volume）：数据的大小决定所考虑的数据的价值的和潜在的信息；

2、种类（Variety）：数据类型的多样性；

3、速度（Velocity）：指获得数据的速度；

4、可变性（Variability）：妨碍了处理和有效地管理数据的过程。

5、真实性（Veracity）：数据的质量

6、复杂性（Complexity）：数据量巨大，来源多渠道

大数据三大特征

第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。

第二个特征是数据价值密度相对较低。如随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。

第三个特征是处理速度快、时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。

大数据的意义：

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是成为赢得竞争的关键。

大数据的缺陷：

不过，“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考，科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过：“就今日言，有很多人忙碌于资料之无益累积，以致对问题之说明与解决，丧失了其对特殊的经济意义的了解。” 这确实是需要警惕的。

其4v特征分别是：

Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

8. 数据挖掘产生的原因

大数据产生的背景：

1、随着物联网、社交网络、云计算等技术不断融入我们的生活以及现有的计算能力、存储空间、网络带宽的高速发展，人类积累的数据在互联网、通信、金融、商业、医疗等诸多领域不断地增长和累积。

2、互联网搜索引擎支持的数十亿次web搜索每天处理数万TB字节数据。全世界通信网的主干网上一天就有万TB字节数据在传输。现代医疗行业如医院、药店等也都每天产生庞大的数据量如医疗记录、病人资料、医疗图像等。数据的量级不断升级、应用的不断深入和大数据不可忽视的价值让我们不得不探索如何才能让我们更好的受益于这些数据。

3、大数据是一次对国家宏观调控、商业战略决策、服务业务和管理方式以及每个人的生活都具有重大影响的一次数据技术革命。大数据的应用与推广将给市场带来千万亿美元收益的机遇，称为数据带来的又一次工业革命。

4、随着高速发展的信息技术，不断扩张的数据库容量，互联网作为信息传播和再生的平台，“信息泛滥”、“数据爆炸”等现象不绝于耳，海量的数据信息使得人们难以做出快速的抉择。

5、信息冗余、信息真假、信息安全、信息处理、信息统一等问题也随着大数据给人们带来价值的同时也造成了一系列的问题。人们不仅希望能够从大数据中提取出有价值的信息，更希望发现能够有效支持生产生活中需要决策的更深层次的规律。

6、在现实情况的背景下，人们意识到需要有效地解决海量数据的利用问题具有研究价值和经济利益。面向大数据的数据挖掘的特有两个最重要的任务。一是实时性，如此海量的数据规模需要实时分析并迅速反馈结果。二是准确性，需要我们从海量的数据中精准提取出隐含在其中的用户需要的有价值信息，再将挖掘所得到的信息转化成有组织的知识以模型等方式表示出来，从而将分析模型应用到现实生活中提高生产效率、优化营销方案等。

9. 数据挖掘的主要问题

我做数据挖掘相关的工作很多了。简单来谈一下个人对这个问题的看法。有说的不对的地方，欢迎各位同行批评指正：

数据挖掘大概可以分成四类问题，问题不一样，对应的处理方法也不同

1.预测问题：建模数据集合中有X和Y，Y是连续变量。通常用线性模型、随机森林、xgboost算法来解决。评估主要基于测试集上的均方误差或者相对误差。或者计算cross-validation的平均均方误差或者相对误差

2.分类为题：建模数据集合中有X和Y，Y是类别变量。通常用logistic回归、cart、随机森林、xgboost来解决。评估主要基于测试集合上的准确率和召回率或者计算cross-validation的平均准确率或召回率

3.聚类问题：建模数据集合只有X，没有Y。需要把X里面的样本分成多个群组。一般采用K-MEANS算法。不过业界没有统一的评估标准

4.异常检测问题：建模数据集合只有X，没有Y。需要把X数据里面的异常点找出来。这个相对而言比较麻烦。一般用Isolation Forest。业界似乎也没有统一的评价标注。

顶一下

(0)

踩一下

(0)

上一篇：大数据挖掘哪个网站学(数据挖掘专业大学)

下一篇：大数据与数据挖掘技术研究(大数据及数据挖掘)