YOCSEF广深思辨：复杂大数据聚类分析的机遇与挑

2019年6月2日，YOCSEF广州分论坛、深圳分论坛在广州大学城中山大学数据科学与计算机学院成功举办了“复杂聚类分析的机遇与挑战在何处？”大湾区IT创新论坛。

e3f7aee8170d1bbf9c893e3ea7ccd8f3

本次论坛由YOCSEF广州AC委员、华南农业大学黄栋博士，YOCSEF深圳AC委员、深圳大学陈小军博士共同担任执行主席。广州分论坛副主席王昌栋博士，广州分论坛主席郝天永博士深度参与，AC委员韦光、谢光强、李冠彬等参与。论坛共吸引了来自北京理工大学、澳门大学、中山大学、华南理工大学、华南师范大学、华南农业大学、广东外语外贸大学、广东工业大学、广州大学、广东药科大学、深圳大学、哈尔滨工业大学（深圳）等十余所大湾区高校、深圳市卫生健康委以及多家知名IT企业的60多人参加。广州图普网络科技有限公司提供了活动赞助。

论坛分为先导报告和讨论争鸣两个阶段。先导报告阶段由陈小军博士主持。王昌栋博士以“多视图非线性聚类”为题，着重介绍了非线性聚类、多视图聚类以及多视图非线性聚类的理论、方法以及相关进展。陈小军博士以“面向大数据的图聚类方法”为题，阐述了在大数据场景下的图模型构建与优化及其在大数据聚类问题中的应用。张晓峰博士以“基于半监督聚类结构调整的分类方法研究”为题，论述了具备自动调整模型结构能力的半监督聚类模型。黄栋博士以“从集成聚类到大规模聚类：有限资源下的大规模聚类问题初探”为题，从集成聚类的若干重要问题入手，进一步将话题延伸至在常规单机环境下可应对千万级数据的大规模谱聚类及大规模集成聚类研究。

经过先导报告的多角度论述，论坛继续围绕“复杂大数据聚类的机遇与挑战”展开多个相关议题的讨论争鸣。讨论争鸣环节由黄栋博士主持，与会人士针对以下三个议题进行了有理有据、针锋相对的思辨性正反方讨论。

“在大数据时代下，无监督学习的重要性是更为显著，还是渐渐消退？”“深度学习大步前进，聚类分析与之携手，还是各司其职？以及各司何职？”“大数据聚类分析，最亟待解决之瓶颈是硬件、是数据、还是算法？”

争鸣议题一：无监督学习的重要性是更为显著还是渐渐消退？

广州分论坛主席郝天永认为，无监督学习的重要性会更为显著。大量数据的涌现往往伴随缺乏标签或者很难去打标签的难题，比如在医学领域和金融领域，无监督学习可以在无类标的情况下更好地去解决一些问题，因此“更为显著”。

华南农业大学黄栋博士同样站在正方，认为少量标签信息可能使得无监督模型效果大为提升，但有时候“模型设计得好不好”比“是否加少量监督信息”显得更为重要。对于一个好的无监督模型，甚至可能在很多数据场景下比一些半监督模型表现出更好的性能，更关键的问题是模型本身好不好，从实验上、从数学上有没更好的支撑。

王昌栋则站在反方，以中山大学校园卡数据的实际项目为例，在缺少标签的情况下不同无监督模型得出的差异非常大，后来决定将无监督模型替换为了半监督模型。陈小军博士也是站在反方，提及此前做过的腾讯金融风控方面数据，规模特别大；仅使用无监督学习的结果，因为没有类标，非常难以评价，工业界对这个结果也是有质疑的。陈小军博士补充表示，更支持半监督的方式，在现有的半监督作法中，把有监督的loss函数与无监督的loss函数进行组合是一种经典手段，但这种组合好不好也是他最近在思考的一个问题。

争鸣议题二：深度学习大步前进，聚类分析与之携手，还是各司其职？

深圳大学陈小军博士表示，深度学习可以学习数据表征，之后可用常规聚类算法进行分析，但对聚类分析中的相似度学习没有贡献，如何运用深度学习去提升相似度学习，或者如何用深度学习对非线性可分数据得到一个线性空间下的表征，两者可以相互“携手”。

中山大学邓志鸿赞同利用深度学习的方法来学习数据的低维表达，以此一致“携手”。对此，黄栋认为，已有“深度学习+聚类分析”相关研究，但只在图像数据集（或高维数据）上实验，因为对图像这种高维度、有效特征难以提取的复杂数据，深度学习在特征表示上的优势显现，但对于大规模低维度数据，未来也仍是“各司其职”。

郝天永认为深度学习在特征提取和其他一些领域有非常重要的作用，携手可以目标，但路还很长，目前两者仍是各司其职。澳门大学的冯绮颖同学提到自己目前就在做深度聚类的研究，用深度学习对高维数据进行特征提取再作聚类分析确实可以得到很好的效果，但与此同时计算复杂度上升的问题、以及深度学习需要调参以改善模型效果的问题。陈小军认为聚类分析的初衷是无监督的，如果不恰当调参有违无监督学习本质。

王昌栋认为深度模型通过特定数据调参调优之后再作聚类，一方面与无监督设定相悖，另一方面对特定领域效果很好，但推广性较差，很可能的情况是换作其他类型数据就出现很差效果。

黄栋对调参问题提出不同看法，算法可分为专用算法和通用算法，专用算法对某一类数据有效，通用算法则适用于普遍数据，两者都很有意义；广州大学姜誉博士认为深度学习与聚类分析各有所长，深度学习有应用于聚类分析的可能，但更多地应用于其他领域，二者仍将各司其职。

争鸣议题三：大数据聚类分析，最亟待解决之瓶颈是硬件（算力）、是数据、还是算法？

陈小军认为当前最大瓶颈是算法，已有大量数据且硬件算力非常强。例如微信支付每天十几亿的交易次数，最大瓶颈还在于算法；

王昌栋则认为，大数据聚类的最大瓶颈在于数据，应从数据分布的角度考虑，根据数据的特点来设计相应的算法；何宝华提出表示赞同王昌栋博士的结论，但反对其成立理由，并呼吁从数据抽样及置信度方面进行考虑；

黄栋认为在大数据分析中，数据规模足够大，但数据不够好，未经清洗的大规模数据其实是很难使用的，而数据清洗是非常头疼的一个问题。

陈小军博士从另一个角度回答这个问题，他认为，数据清洗依然是算法的一部分。但是，除了从算法入手，数据清洗很多时候还是需要专家知识，例如医学专家、金融专家等，专家知识可以理解为数据的范畴。

广东药科大学的傅城州博士指出，不能因为数据不好就不去做，我们的目标是从数据中找出问题、并解决问题，瓶颈不在于数据，而在于能够很好解决这个数据问题的算法。黄栋博士用了一个生动的比喻，他说：“炒菜炒得不好，不能怪原料，要反思的是厨艺不精！”

广东工业大学谢光强博士提到，此前项目经验，大部分时间花在数据清洗上，但这一部分不做好又无法开展后续核心算法工作，数据的整理和清洗其实更适合让公司的人来做，让学者可以更专注于核心算法设计。

中山大学李佩珍认为，在重视算法和数据的同时，不应该忽略算力。硬件和算法同时都是最大瓶颈，算力的瓶颈不在于不够大而在于不够accessible，很多人对超算不够了解或不知如何使用。

论坛争鸣议题讨论后，大家意犹未尽，辩论了由议题三产生的衍生议题“数据孤岛问题”、“大数据之大，哪一大，最可怕？大样本、大维度、大噪声，还是其他之大？”，讨论联邦学习与迁移学习问题，论及跨医院、跨银行的数据共享难题。参与讨论的人员各持观点，从不同角度进行激烈辨析，碰撞出很多思想的火花。本次广深联合大湾区IT创新论坛取得圆满成功。