浅谈数据挖掘基础

前言

　　其实读完斯坦福的这本《互联网大规模数据挖掘》，让我感觉到，什么是人工智能？人工智能就是更高层次的数据挖掘。机器学习是人工智能领域内的重要技术，同样也是在数据挖掘中的常用方法；数据挖掘中的去寻找频繁项集、相似项和基于数据挖掘的推荐系统，也是人工智能领域的重要组成部分。但区别在于，我们现在所讲的人工智能对数据的利用深化了，自然语言处理、计算机视觉、语音识别，这些传统数据挖掘中没有的技术，也被包含在了人工智能的范畴中，但其实说到底，这些技术也都还是受数据驱动的，称其为字面意义上的『数据挖掘』，也无不妥。

数据挖掘的基本概念

　　最为广泛接受的定义是，数据挖掘是数据『抽象模型』的发现过程。

　　在建模方面最重要的方向有两个，分别是：统计建模、机器学习

　　统计建模是统计模型的构建过程，而这个统计模型指的就是可见数据所遵从的总体分布，比如我们有了一系列数字，统计学家可能会判定这些数字符合高斯分布，并利用公式来计算该分布最有可能的参数值。统计建模的要点之一是忽略噪声。

　　很多数据挖掘方法中也使用了机器学习算法，机器学习的实践者将数据当成训练集来训练某类算法。机器学习擅长的典型场景是人们对数据中对的寻找目标几乎一无所知，比如，我们并不清楚到底是影片中的什么因素导致某些观众喜欢或者厌恶该影片。另一方面，当挖掘的目标能很直接的描述时，利用人的知识加上简单的判别过滤方法，效果也许会更好。

　　绝大多数数据建模方法可以描述为以下三种做法之一：

数据可以通过其可能遵从的模型来建模（最重要）
对数据进行简洁的近似汇总描述
从数据中抽取出最突出的特征来代替数据并将剩余内容忽略

　　寻找模型就是前面提到统计建模和机器学习方法。

　　在《浅谈搜索引擎基础》中介绍过的PageRank算法就是一种数据汇总形式，在这种形式的Web网页重要性挖掘中，Web的整个复杂结构可以由每个页面的PageRank归纳而成，一个Web页面的PageRank值也即一个Web结构上的随机游走模型在任意时刻处于该页的概率。

　　另一种重要的数据汇总形式是聚类，数据被看成是空间下的点，空间中相邻近的点将被赋予相同的类别。这些类别本身也会被概括的表示，比如通过类别质心及类别中点到质心的平均距离来描述。

　　然后是特征抽取，重要的特征抽取类型有两种，一个是频繁项集、一个是相似项。

　　频繁项集适用于多个小规模项集组成的数据，举个例子，比如我们发现某些商品会被顾客同时购买，在这种情况下，经常被同时购买的商品就组成频繁项集，当然不经常的就仅被称为项集。

　　另一个是相似项，很多时候，数据往往看上去相当于一系列集合，我们的目标是寻找那些共同元素比例较高的集合对。

　　这里简单介绍一下邦弗朗尼原理：假定人们有一定量的数据并期望从该数据中找到某个特定类型的事件。即使数据完全随机，也可以期望该类型事件会发生。

　　也就是说，随着数据规模的增长，任何随机数据往往都会有一些不同寻常的特征，这些特征看起来很重要，但是实际上并无卵用。

　　换句话说，在考察数据时，如果将某些对象视为数据的有趣特征，而这些对象中许多实例都可能会在随机数据中出现，那么这些显著的特征就不可依赖。对于那些实际中并不充分罕见的特征来说，上述观察结果限制了从这些数据特征中进行挖掘的能力。

相似项发现

　　一个基本的数据挖掘问题是从数据中获得『相似』项，其实这里说的『相似』更接近『重复』。

　　在前面的几篇文章中，我们讲过可以用TF-IDF等向量空间模型、概率检索模型以及LDA等来来判定两篇文章是否相似；如果要去重，也讲过Shingling算法和Simhash。相似和去重所解决的问题其实类似，只是相似度大小的问题。

　　在《浅谈搜索引擎基础》中，讲优化的Shingling算法的时候说：『优化后的Shingling算法不再采用一个哈希函数对所有的单词片段进行哈希，而是随机选择m种哈希函数，对所有的原始单词片段进行哈希，但是我们只保留每种哈希函数所有的结果里面，最小的那个，这样文档就能被转换为固定大小m的最小哈希签名』