解读大数据的新算法

编辑时间: 2018-01-21 12:19:38    关键字:

 大数据在这几年热炒中逐渐进入人们的视野,都知道大数据对企业有着非常可观的商业价值,然而,要想利用大数据造福人类,并且获得价值,我们首先必须要理解它们,而在此之前我们需要一种快捷有效自动的方式对数据进行分类。

\


专家用“大数据”的表达描述大量信息,比如数十亿人在计算机、智能手机以及其他电子设备上分享的照片、音频、文本等数据。当前这种模式为我们的未来提供了前所未有的愿景:比如做到追踪流感疫情蔓延,实时监控道路交通,处理紧急自然灾害。对我们来说,想要利用这些庞大的数据,我们必须理解它们,而在此之前我们需要一种快捷有效自动的方式对数据进行分类。

其中一种最为常用的系统,是一系列称之为簇分析的统计技术,这种技术能依据数据的“相似性”进行数据分组。来自高级研究国际学校(SISSA)的两位研究者基于简单同时强大的原理设计了一种簇分析方法,被证明可以非常有效地解决一些大数据分析中遇到的主要典型问题。

数据集合可以视为多维空间的云数据点。这些点呈不同分配方式:或稀疏地分布在一个区域、密集地分布在另外一个区域。簇分析就是用来有效地鉴别密集型区域,基于基本的准则将数据分为一定数量的重要子集合,每个子集合对应一种分类。

“考虑一个面部图像数据库,”SISSA统计与生物物理系教授Alessandro Laio解释道,“数据库可能包含同一个人的多张照片,簇分析可以用来归类同一人的所有照片。这种类型的分析可用自动脸部识别系统来完成。”

“我们试着设计一种较现有方法更为有效的算法,来解决簇分析中典型的问题。”Laio继续说。

更多细节.....

“我们的方法基于一种新的鉴定簇中心,比如,子集合,”此文的共同作者Alex Rodrigez解释道,“试想这样的情形,在无法访问地图,却不得不鉴定全球所有的城市时,这无疑是一个艰巨的任务。”Rodriguez进一步解释道,“因此我们在做一种探索式的识别,尝试寻找一条简单的规则或是一种捷径来达成目标。”

为了确定一个地方是否达到城市级别规模,我们可以让当地居民计数自己的“邻居”,换句话说,他房子100米内住了多少人。一旦得到这个数字,我们继续去确认,每一个居民,他们身边最近的拥有最多邻居数的居民。“借助这两组数据结果交叉的部分,” Laio解释,“就可以推断每个人所在居住区域人口的稠密程度,以及拥有邻居数最多的两家间距。全球人口而言,通过自动交叉检测这些数据,我们能识别代表簇状中心的个体,这些个体就是不同的城市。”“我们的算法能够精确地完成此类计算,也适用于其他场景,”Rodriguez补充说。

此算法表现相当优异:“借用面部数据档案Olivetti Face数据库,我们测试了自己的数学模型,获得了满意的结果。此系统能够正确地识别大部分个体,从不产生假阳性结果,”Rodriguez评价道。“这意味着在某些情况下,它可能无法识别事物,但绝不会混淆一个个体与另一个个体。与类似的方法相比,我们的算法能够有效地剔除异类,要知道这些异类的数据点与其他数据存在较大差异是会损毁分析结果。”

推荐热图

合作推荐

2010-2018 可思数据版权所有 About SYKV | ICP备案:京ICP备14056871号