社交网络数据分析与应用
根据最近的一份调查数据显示,美国互联网媒体的市值已达10890亿美元,是传统媒体的3倍,类似的在中国,根据艾瑞咨询发布的2014年第二季度网络经济核心数据显示,截止2014年6月30日,中国主要上市互联网公司市值前五的为腾讯(1405.6亿美元)、百度(654.5亿美元)、京东(389.7亿美元)、奇虎360(120.9亿美元)、唯品会(111.9亿美元)。与此同时,以Facebook,Twitter,微博,微信等为代表的社交网络应用正蓬勃发展,开启了互联网时代的社交概念。据全球最大的社会化媒体传播咨询公司We Are Very Social Limited分析指出,目前社交类软件使用的人数已达25亿——占世界总人数约的35%,另据艾瑞咨询发布的2014年第二季度社区交友数据显示,2014年5月,社区交友类服务月度覆盖人数达到4.7亿,在总体网民中渗透率为92.5%;2014年5月社交服务在移动App端月度覆盖人数为1.9亿人,其中微博服务在移动端优势较为明显,月度覆盖人数达到1.1亿人;互联网媒体和社交网络是Web2.0时代两个非常重要的应用,那么一个自然的问题是这两个领域将会如何互动发展?本报告主要从数据分析(非财务、非战略)的角度尝试探讨网络结构会给互联网媒体带来什么样的机遇和挑战。具体而言,我们根据自己的研究经验只关注以下几个方面:新闻、影音和搜索,根据艾瑞咨询发布的2013网络经济核心数据显示,这三部分的收入占到中国市值TOP20互联网企业总市值的32.16%,其重要性不可忽视。我们通过具体的案例并结合理论前沿做探索性的研讨。
一、音乐推荐
根据《2013中国网络音乐市场年度报告》显示,2013年底,我国网络音乐用户规模达到4.5亿。其中,手机音乐用户人数由2012年的0.96亿增长到2013年的2.91亿,年增长率达203%。从网络音乐用户规模的飞跃式增长可以看到音乐流媒体服务蕴含着巨大的商机。在国外,科技巨头争夺音乐市场的野心也初露端倪,今年年初,苹果斥资30亿美元买下Beats Electronics,而谷歌也随后收购了流媒体音乐服务提供商Songza。
音乐产业在新媒体时代占据重要地位。本报告主要关注移动互联网环境下在线音乐服务商(酷狗音乐、QQ音乐、天天动听等)的发展现状并且对当前的音乐个性化推荐提出我们的一些见解。
1.1 音乐推荐与社交网络
根据国内知名研究机构CNIT-Research 8月份发布的《2014年第二季度中国手机音乐APP市场报告》的数据显示,排名前三的手机音乐App为酷狗音乐、QQ音乐、天天动听。他们所占的市场份额分别为:20.1%,17.0%以及15.8%。
酷狗音乐 QQ音乐 天天动听
其中,酷狗音乐和天天动听凭借在在线音乐领域长期积累的用户资源、高品质音质、卓越的UI界面以及完美的下载体验取胜。而QQ音乐主要依附强大的社交工具QQ应运而生,可谓是“社交音乐”领域的先驱者。从2014年第二季度手机音乐数据来看,QQ音乐增势迅猛,连续三个月用户下载量增速均超过行业增速水平,而酷狗音乐、天天动听均增速低于市场行业增速,用户市场份额有所下降。
根据速途研究院对手机音乐用户愿景的调查显示,有58%的用户希望增强个性化音乐推荐的功能,这说明有很多用户在收听音乐时其实并不清楚自己喜欢什么类型的歌曲,如果音乐电台能根据用户的个人喜好“猜出”用户喜欢什么歌曲并为其进行推荐,那将会给用户带来意想不到的完美体验。目前的很多音乐软件都支持推荐这一功能。以下是音乐App市场中常见的音乐产品的个性化推荐以及定制方式:
酷狗音乐 QQ音乐 天天动听
根据研究,推荐模式主要分为以下几种:(1) 热点推荐,可以根据大众的搜索记录,通过排行榜的形式得到,也可以根据近期发生的音乐娱乐事件推荐,如中国好声音、我是歌手等;(2)根据用户的听歌记录推荐,包括用户对每首歌的喜恶记录;(3)根据地理位置信息结合用户兴趣进行推荐;(4)根据用户喜欢的歌手信息进行推荐。但是,以上这些推荐模式都没有能够充分利用社交网络的信息。在社交网络风靡全球的时代,有越来越多的音乐服务商发现,社交网络可以帮助商家留住更多的用户,同时,充分利用社交网络信息将带来更加卓越完美的用户体验。可以看到,酷狗音乐和天天动听都允许用户使用第三方账户(微博、QQ)进行绑定登录,并提供分享到微博、微信等选项;QQ音乐特设了“动态”专栏,用于显示好友分享的音乐。另外,酷狗和QQ音乐都可以通过定位的方式推荐附近的志趣相投的好友。
酷狗音乐 QQ音乐 天天动听
上述事实说明,社交音乐存在巨大的潜力和价值。那么,这一方面有无突出的企业呢?其中英国的Last.fm和中国的QQ音乐可以算得上是这方面的一个代表。
Last.fm QQ音乐
Last.fm是 Audioscrobbler 音乐引擎设计团队的旗舰产品,有遍布232个国家超过1500万的活跃听众。2007年被CBS Interactive以2.8亿美元价格收购,目前,Last.fm是全球最大的社交音乐平台。QQ音乐是中国互联网领域领先的网络音乐平台及正版数字音乐服务提供商,在中国手机音乐市场所占份额跻身四大巨头(其他三个分别是酷狗、天天动听、酷我),月活跃用户已达到3亿,是中国社交音乐领域的领军人物。
以QQ音乐为例,我们详细分析它在利用社交网络信息进行个性化推荐的优势与可能存在的不足。QQ音乐依附强大的社交工具QQ而生,长期以来受到广大用户的喜爱,这与QQ背后的亿万级用户是无法割离的,可以说,QQ音乐是有先天的社交优势的。用户登录QQ音乐后,可以看到动态栏中显示的好友音乐动态,同时,它还允许用户绑定自己的微博账号,把音乐分享给微博好友。不仅如此,QQ音乐允许用户自己编辑生成歌单,并分享给好友,这起到了一定的自媒体的作用。在“明星部落”这一功能中,QQ音乐允许粉丝之间交流互动,并形成一定的社交规模。从上述总结中,我们已经可以看到,QQ音乐已经有意识的把社交信息融合到产品设计和运营中,以增加客户粘性。但是从数据分析的基础和推荐算法的构建上,是否真正做到有效利用社交网络信息了呢?为此,使用QQ音乐于2012年全面更新升级的“猜你喜欢”功能,并发现了如下问题:当笔者没有任何听歌记录时,这一模块并不能为笔者推荐歌曲。根据提示内容,目前该功能可能主要依靠用户的历史听歌记录进行推荐。同样的问题出现在QQ音乐馆的推荐栏中:大部分初始推荐音乐来源于当下热门音乐歌曲,缺少个性化成分。
QQ音乐:猜你喜欢 QQ音乐馆
以上事实说明音乐服务商在推荐算法上没有充分利用社交网络的信息。事实上,在获得用户个人绑定社交网络账号的基础上,可以得到用户的朋友关系,进一步可以获得用户好友的听歌记录,这些歌曲可以成为初始推荐曲目的备选项,将这些备选项通过一定规则(热度、好友相似度)排序,可以用于音乐推荐;另外,众所周知,社交网络(如微博)是明星与粉丝互动的一个重要渠道,因此,可以重点提取用户对于社交网络中歌手以及音乐人的关注关系,以获得对用户偏好的推测。以上这些过程可以用下图表示。
可以看到,在以社交网络绑定的音乐社区中,每个人并不是孤立的个体,而是通过好友关系,以及粉丝与明星的关注关系联系起来。音乐活动的多元化为QQ音乐的推荐场景带来了新的挑战。我们认为存在以下几个需要处理的问题:(1)如何高效利用好友的音乐信息对用户进行推荐?用户的好友众多,每个好友会留下很多音乐记录,这些信息综合起来的话数量极其庞大,如何迅速整合朋友及其收听记录并按照优先程度排序对用户进行推荐是提高用户体验的前提条件。(2)如何整合多种信息渠道进行推荐?随着时间的推进,一个音乐账户留下的信息是多元化的。例如,用户主动搜索的音乐记录、用户对历史收听音乐记录的反馈,用户选择的电台种类、用户自己总结生成的歌单、用户对朋友分享音乐的反馈信息等。因此,如何对这些异质的信息来源进行有效整合,或者,在资源有限的情况下,如何判断和筛选出对于提高推荐精度最有效的指标是提高音乐推荐效果的关键法宝。(3)如何整合当前音乐潮流趋势与用户个人兴趣基因?音乐是充满了潮流和娱乐性的产业,因此,用户的音乐兴趣不仅受其自身兴趣基因驱使,也受到当前音乐流驱使的影响。因此,如何结合用户个人兴趣以及音乐潮流趋势对用户进行有效推荐,是对于音乐这一特殊娱乐行业的特别要求。综上我们认为QQ音乐虽然是利用社交关系进行音乐推荐的先驱者,但是在利用网络数据的层面上仍有很大的改进和提升空间。
1.2 基于社交网络的音乐推荐
在此我们给出如何利用网络数据对用户进行推荐的技术思想。由于音乐推荐场景实体的多元化,我们将常见的推荐场景列举如下:推荐歌曲、推荐歌单、推荐电台、推荐歌手、推荐用户。接下来,我们将从音乐分类与结构化、用户信息整合、网络结构应用三个步骤详细阐述我们的观点。
音乐结构化与归一化
1.歌曲标签化
首先,基于音乐的不同风格,我们需要对系统中存在的海量歌曲进行分类,通过打标签的方式,使音频信息通过文本的方式结构化。分类的方法多种多样,标准各异,从几个音乐主流网站的标签组织形式看来,主要从客观、主观两个角度进行分析。从客观的角度讲,音乐可以按照流派、地域、年代、演奏乐器等方式分类,如“流行”、“摇滚”、“乡村音乐”、“90后”、“钢琴曲”等等,且大类下面可以设小类,如“流行”下可以设置“华语流行”、“欧美流行”等小类;从主观的角度讲,音乐风格与听歌时的心情、场景高度相关,如分为“甜蜜”、“安静”、“治愈”、“酒吧”、“咖啡馆”等等,这种标签使得用户在听音乐时仿佛有一种身临其境的感觉,带来更高的视听享受。除此之外,标签也可以由用户自己生成,如用户的热搜关键词记录、用户自行备注标签等。这在一定程度上正是利用自媒体的形式扩充标签库,使之更能反应用户兴趣。
2.歌手信息提取
除了可以将歌曲标签化,我们还可以进一步的对歌手信息进行提取。比如根据地域我们可以把歌手分为大陆、港台、欧美等,根据年代可以分为60后、70后、80后歌手,根据他们的曲风可以分为摇滚、抒情、朋克等。通过打标签的形式把歌手进行分类,从而形成结构化的数据格式,方便以后快速清晰的定位用户喜欢哪一类型的歌手。同样的我们也可以对歌单、作词者、作曲者进行标签化处理,例如歌单的标签可以模仿歌曲的形式,因为歌单是由歌曲组成,所以可以用歌曲的标签来代表歌单的标签。作词者和作曲者的标签可以参考歌手打标签的方法,另外值得注意的是,由于音乐人之间形成合作、作曲、写词等合作关系,可以认为是一个社交网络关系,常常可以见到的现象是某些歌手与词作者存在密切的合作关系,而这部分信息也可用于音乐的个性化推荐。例如,对于一些有特定合作的歌手和词(曲)作者,我们应该特别留意,比如周杰伦和方文山这对组合。
3.歌词的语义分析
歌曲的重要组成部分就是歌词,由于歌词属于文本,我们不可能直接对其打标签,所以首先要进行的是语义分析,通过语义分析我们可以大概知道歌词的内容,比如我们可以把歌词切分成短语,然后对每一个短语进行归纳总结,可以判断短语的情感极性(如积极还是消极),对短语进行主题分类,由于歌词数目庞大,可以利用自然语言处理的方式,如主题模型等预先提取主题,再通过人工加以校正。这样就可以对歌词进行标签化处理了。下面我们以歌曲为例,简要的说明具体标签化过程。
通过标签的形式我们可以对每个歌曲的主题予以分类和描述。用于描述一支单曲的标签数目越多,对于音乐主题的描述就更加清晰、明朗;但同时,冗余和重复的信息也可能越多,处理的难度就越大。因此,我们要对标签进行排序和筛选,一个比较简单高效的办法是选择最热门的N个标签作为我们的目标词库,并且对该词库定期进行更新。具体来说,我们将所有标签按照重要程度由高到低进行排序,选择前p个标签作为我们的标签集合。给定一首歌曲t,我们用一个超高维向量Xt=(Xt1,…,Xtp)∈?p表示它的标签信息,其中Xtj=1表示该歌曲含有第j个标签,否则,该歌曲不含有第j个标签。例如对于一首钢琴曲演奏的纯音乐,对其打的标签可能是:钢琴曲、安静、咖啡馆等。设钢琴曲、安静、咖啡馆分别对应于标号为1、3、5的标签,那么向量Xt可以表示为Xt=(1,0,1,0,1,0,…0) 。通过以上步骤,我们就可以把看似杂乱的音乐风格通过打标签的形式进行结构化,用一个只含0、1元素的超高维向量对每首歌曲进行分类。
对于歌单、电台这些由歌曲集合而成的实体,我们也可以通过标签的方式对其进行刻画。例如,对于给定的一个歌单m,我们同样用一个超高维向量