数据挖掘大战机器怎么做到“见信如面”

2020/09/28 09:18

数据挖掘大战机器怎么做到“见信如面”

大数据杀熟？隐私换便捷？一度被热捧的大数据挖掘，近日站在了舆论的风口浪尖：一些商家利用大数据挖掘技术“杀熟”被网友亲测证实；百度董事长兼CEO李彦宏一句“中国人对隐私问题没有那么敏感”，更是让它的处境雪上加霜。大数据挖掘技术就像一位有了负面新闻的明星，霎时间光彩暗淡，似乎变成了偷人隐私的小贼。

《大数据时代》一书畅销之后的几年，大数据虽不再那么当红，但并未隐退，它的持续发展已成为人工智能得以实现的基础之一。

那么，大数据挖掘究竟是怎样的技术？从诞生发展至今，那些埋头苦干的技术人员又让它长了哪些本领？面对大数据难以管理的问题，有没有技术手段加以控制？

用户画像：机器给人类贴标签

“通过打标签的方式建立用户画像，是数据挖掘常用的一种技术。”北京大学计算机科学技术研究所多媒体信息处理研究室主任彭宇新教授解释，建立用户画像就是利用社交网络的信息，根据用户社会属性、生活习惯和消费行为等信息，抽象出一个标签化的用户模型，目标是使机器实现类似于人的“见信如面”的能力。社交网络数据是实现这一目标的基础，机器对人的“初相见”多是源自于对社交网络数据的挖掘。

标签，通常是通过对用户信息进行分析得到的高度精炼的特征标识，使得机器方便做信息提取、聚合分析等处理。标签本身无需再做过多文本分析等处理工作，这为利用机器提取标准化信息提供了便利。

“有了标签，计算机就能够自动处理与人相关的信息，能够通过算法、模型逐步‘理解’ 人。”彭宇新介绍，多个标签共同完成画像，整个过程可分三步走：一是采集数据，即基于文本的信息抓取，口语称为“爬数据”；二是用户行为建模，通过机器学习技术，形成算法模型，判断用户可能的一些行为；三是可视化展现，把机器运算出来的结果，通过能让人类理解的方式展现出来。这三步是多轮调整的，在实际应用中，根据结果的反馈，以及业务需求，可能进行二次建模等调整。

整个过程的影响参数是相对多元的，不同的行为类型，对于标签信息的权重影响也不同。以应用最广的商品营销为例，比如网售红酒，如果“购买”权重计为5，仅“浏览”计为1，加上浏览间隔、驻留时长、生活习惯等，通过复杂的算法最终呈现出一个标签的权重，再形成画像。

基于用户画像技术，大数据挖掘进行分类和关联规则计算等分析：例如喜欢红酒的用户有多少，喜欢红酒的人群中，男、女比例是多少，喜欢红酒的人通常喜欢什么运动品牌等等。

跨媒体智能识别：为计算机装上慧眼

“以前文本信息占主流，现在图像、视频等多媒体数据铺天盖地而来。”彭宇新说，后者目前占据大数据的80%以上。

数据类型发生的巨大变化，使得智能识别的任务更加艰巨。“管不住”和“用不好”的问题日益凸显。“机器只能读懂自己的语言。”彭宇新说，人类世界的所有语言都要转化为机器理解的语言才能被识别，以前只处理文本相对简单，而现在要加上复杂的图像、视频等数据。

“例如，世界上有数千种鸟类，很多种的差异非常细微，即使是有专业知识的人类也很难准确辨认，计算机自动识别的难度就更大了。”彭宇新说，图像、视频内容理解的难点在于如何进行语义自动识别，这也是他们团队多年攻关的课题之一，为此团队发明了基于注意力模型和深度增量学习的识别方法。

注意力模型，顾名思义是让计算机自动定位图像的显著性区域，以此提高检测精度；深度增量学习，是指计算机能够利用已经学到的知识加速对新知识的学习，同时通过动态扩容以支持新概念的检测。

新模型新算法的发力，帮助机器快速识别图像、视频的语义信息。彭宇新团队近年来六次参加国际权威评测TRECVID的视频样例搜索比赛均获第一名，并在与卡内基梅隆大学、牛津大学、IBMWatson研究中心等参赛队伍的较量中胜出。其中一个题目就是在464个小时的视频中快速准确地找出所有的伦敦地铁标志，彭宇新团队仅用了不到1秒就成功胜出，获得第一名。

单媒体信息的分析与识别之上，如何进一步让机器像人类一样能看、能理解呢？

为达到跨媒体信息融合与一体化分析识别的目的，项目团队首先把数据按照不同媒体类型自动分发到对应的分析与识别模块。例如，对视频镜头进行分割、对关键帧进行提取，然后分发到镜头检索、片断检索、视频字幕识别等模块中，对单媒体分析结果进行跨媒体语义关联分析，实现跨媒体信息的语义协同。“一种常用的方法是构建第三方空间进行跨媒体关联。”彭宇新说，“计算机根据我们教它的模型分别为图像、视频、文本、音频抽取表征，再共同投射到一个第三方空间中，这样不同媒体的信息就可以对话了。”

技术的“抽丝剥茧”，让图像、视频中的信息可以如文本一般精确透明。“我们是瞄着应用去的，准确率、处理速度都经过多年的优化，已经可以进行实际应用了。”彭宇新介绍，这项技术不仅帮助新闻媒体等行业进行数据管理和检索，还在助力互联网管理部门对大数据进行分析与监测。