浅谈数据挖掘的基本概念及其最常用算法
知识发现(KDD)就是从大数据中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的过程。
数据挖掘是大数据知识发现(KDD)中不可缺少一部分,是大数据理论和应用中非常重要的一部分。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但潜在的有用信息和知识的过程。大部分人是通过一个案例认识到数据挖掘:这是因为沃尔玛通过数据分析发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段;没想到这个举措居然使尿布和啤酒的销量都大幅增加了。虽然这个故事很可能是假的, 但是确实让不少人开始接触数据挖掘。
数据挖掘的最常用的几种算法:
(1)预测建模:将已有数据和模型用于对未知变量的语言。
分类,用于预测离散的目标变量
回归,用于预测连续的目标变量
(2)聚类分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。
(3)关联分析(又称关系模式):反映一个事物与其他事物之间的相互依存性和关联性。用来发现描述数据中强关联特征的模式。
(4)异常检测:识别其特征显著不同于其他数据的观测值。
有时也把数据挖掘分为:分类,回归,聚类,关联分析。
时间:2020-06-04 23:48 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [数据挖掘]缓存与数据库双写一致性
- [数据挖掘]揭开AWS的Timestream数据库的面纱
- [数据挖掘]设计bug导致数据被删除,java工程师背锅被开除:
- [数据挖掘]Oracle 行贿 10 万元:中标 1980 万元数据库项目
- [数据挖掘]"存算分离"已成为分布式数据库的主流方
- [数据挖掘]属于 Hadoop 的大数据时代已结束
- [数据挖掘]流数据并行处理性能比较:Kafka vs Pulsar vs Praveg
- [数据挖掘]大数据凉凉了?Apache将一众大数据开源项目束之
- [数据挖掘]卸载Navicat!操作所有的数据库靠它就够了
- [数据挖掘]利用大数据预测,先要避免“冷启动偏差”!|
相关推荐:
网友评论:
最新文章
热门文章