近日参加了一年一度的数据挖掘届盛会,2016 ACM SIGKDD大会。在会议上除了大量专业的学术论文报告和海报之外,也有许多工业界的主题演讲,介绍他们是如何将数据挖掘同商业结合。
在数十场主题演讲中,包含了Google、IBM、Target、NVIDA等企业,其中只有一家中国企业,那便是腾讯。腾讯作为本次大会为数不多的中国赞助商,获得了一次演讲机会,主题是通过用户在线行为来构建用户资料,从而将其应用到社交网络的广告中。
在聆听这场演讲之前,我对于腾讯广告的认知应该和大多数人一样,我们会好奇例如朋友圈的广告,到底和我们平时发的内容有没有关系,QQ空间的广告、QQ群的推荐,到底是通过分析我们的哪些资料最终得到的。
当然,我们都会猜测我们的年龄、性别以及学校都被腾讯拿去做分析了,但这仅仅是猜测,至于具体的应用,通过这次演讲以及我这篇文章,希望为大家揭开谜底。
1.关于演讲者
演讲者名叫Ching Law,是目前腾讯效果广告部的总监,曾经在Google著名的Adsense广告部门任职八年。从网上查到的信息是,该人是麻省理工的本科+博士,背景十分硬。此人唯一让我吐槽的一点是糟糕的英语口语,在美国将近20年,口语依然很烂,或许只有技术宅可以解释得通了。
2.关于腾讯
在演讲开始前,Ching先介绍了腾讯整体的情况,作为中国互联网界的巨无霸企业,琳琅满目以及极富中国特色的O2O业务,让在场老外感到惊讶。尤其当Ching讲到我们可以用App直接叫人上门按摩(massage),现场哄堂大笑。
从上图可以看到腾讯的触角伸到了互联网的各个角落,社交、娱乐、金融、信息。工具,而且在每个领域都有自己的龙头产品,依附微信和QQ庞大的用户基数和流量,腾讯是当之无愧的中国互联网帝国。这让我想到最近的支付宝改版,替马云爸爸心疼一秒。
近年来,腾讯通过收购和投资,连同58、京东、大众点评、搜狗等企业,形成了强大的业务矩阵。这些企业看中的当然是腾讯的社交流量。所以如上图所示,腾讯通过广告引擎,将合作企业的广告内容发布到自己的社交平台上。
腾讯每天收到超过400亿条来自世界150多个国家的定位请求,每个月有3900万用户有定位记录,有2400万用户每个月都要在中国的城市之间旅行。有1200万用户在2016春节回到自己的家乡。
3.广告引擎
通过这张图我们可以看到腾讯的广告引擎主要的工作是匹配广告内容和用户资料,然后将其推送到媒体端。在这张图中提到三个指标:pCTR,pCVR,pDislike,这都是网络营销常见术语,pCTR代表点击率,pCVR代表转化率,即由点击转化为行为的转化率,这个行为可以是购买,下载和注册等等。pDIslike代表不喜欢的比率,我们经常在网页和手机APP中看到的广告,会有一个不喜欢的选项,这一项指标用来衡量广告的精准度。
Ching接着介绍了腾讯广告引擎目前获取信息的来源,包括用户资料(年龄、生日、职业、地区、学历等)、媒体(即社交媒体上的信息)、用户环境(用户的社交关系以及地理位置等)、用户行为(购物行为、点击行为、收藏行为等)、用户兴趣(表现在用户的关注以及自己资料中填写的兴趣)、用户状态(例如婚恋状态)。
在用户资料这一块,腾讯的统计表格显示,有80%的QQ用户有年龄和性别信息,有10%的QQ用户有婚恋状态信息。因为QQ是完全匿名的社交软件,所以在资料的准确度不尽如人意。Ching以年龄为例,从统计图表中可以看到有相当一部分人的年龄是0岁和大于100岁,这些年龄都是无效年龄。
年龄作为一个在广告引擎中重要的匹配指标,确定这些未知年龄用户的具体年龄就显得非常关键。Ching接下来介绍了腾讯目前的年龄校准算法。
整个算法有四个步骤,采样、特征提取、模型训练、效果评估、采样即选择一些和年龄具有强关系的样本,例如具有班级信息、教育信息、学校信息的样本用户。
在特征提取方面,腾讯已经具有一个包含三千万个特征的模型,此模型之巨大令人咋舌。可见腾讯信息源之广泛、也可见腾讯计算能力的强劲、别说三千万个特征,如果有三千万个样本,一般人根本没法处理如此巨量的数据。
这些特征都有什么?Ching在PPT中给我们展示了几个主要的特征:教育信息、好友年龄、同学年龄、腾讯微博粉丝年龄、腾讯微博关注大V信息、加入QQ群的属性、关注微信公众号的属性、听过的歌、看过的视频、读过的文章、安装过的APP、QQ好友昵称。
从以上几条信息可以看到,我们在腾讯面前几乎是透明的,设想一下那些你曾经用QQ号登陆的网站和论坛,这些所有的信息都被用于计算你的年龄。
腾讯校准年龄的模型分为两个阶段,第一阶段是利用GBDT(梯度迭代决策树)确定年龄区间(segment),这是一个经典的机器学习算法。其主要思想是通过回归决策树对用户年龄进行预测,该树的每一层代表用户的一个特征(feature),不同用户的特征和特征阈值比较,得到不同的子叶节点。当然这些阈值是通过不断训练得到的。
(图片引自CSDN用户w28971023的博客)
为什么要叫梯度迭代呢?举一个简单的例子,就是如果我预测你的年龄是15岁,如果你是二十岁,那么我就拿年龄差5岁作为一个树新的输入,如果该树的输出是5岁,那么就把这两个树共同应用到预测中去,否则将年龄差作为下一个树的输入,以此类推。这种思想就是数学中常见的迭代(iteration)思想。
第二个阶段是在每个年龄段里通过线性回归预测具体的年龄。线性回归在这里不赘述。我们可以理解为第一阶段是在缩小预测区间,为第二步精准预测减少计算量。
最后一步是模型的评估,也就是模型的不断修正和改进了。
Ching接下来讲到了特征选择对实际广告效果的影响,例如根据婚恋状态推送相应广告比起一般的广告,CVR上升了18%,CPM(每千人成本,用来衡量广告的价格)上升17%。
Ching还介绍了一种挖掘用户婚恋状态的方法,即通过QQ空间的相册,使用经典的CNN(卷积神经网络)算法,进行图像识别,从而判断用户目前的家庭状态。这个想想也挺可怕的,大家都明白自己在QQ空间传了什么照片吧(手动斜眼→_→)。
4.以QQ群为例
上图展现了一组QQ群目前的数据,7亿QQ用户,2.7亿个QQ群,每天20亿条消息,丰富的标签信息和用户交互行为。
如何挖掘QQ群中用户的兴趣?每个人加入QQ的原因不同,腾讯将QQ群中可以利用到的数据分为三大类,关键词数据、社交数据、用户资料数据。关键词数据就是建立一个群的时候需要填的各项资料,群昵称、分类、群简介以及群成立以后群相册的内容。社交数据是指用户之间的关系和群之间的关系。用户资料数据是指用户的年龄、性别等。
在对QQ群用户兴趣的建模上用到了LDA Topic Model,即文档主题生成模型,该模型最早在2003年由David Blei、Andrew Ng和他们的老师Michael Jordan在加州伯克利共同提出,如今这三位都是机器学习领域神级的人物,Blei最近去了哥伦比亚当教授,Ng于2015年担任百度首席科学家,负责Baidu Brain项目,Ng同时也是慕课平台Coursera的创始人之一。这篇论文在Google Scholar的引用量已经达到了惊人的15000多次。
为了应对数量庞大的QQ群信息,腾讯介绍了一种叫Peacock(孔雀)的大规模LDA话题发现模型,因为其矩阵模型的数据类似孔雀,故获得此名。该项成果发表在2014年的ACM TIST期刊上。因为模型内容过于复杂,我在这里不再介绍。
5.种子用户
所谓种子用户就是高质量的用户,对于广告部门来说,高质量的用户即为点击广告,产生购买行为而且自身资料十分完善的用户。这样的用户会被确定为种子用户。利用种子用户可以通过用户扩张发现更多的潜在消费者。
举个例子,如果你对这个广告感兴趣,你的某些朋友对这个广告可能也会感兴趣。当然不是简单地通过朋友关系来推送广告,还要根据好友之间平常交互的记录来决定。这就可以解释我们有时候能看到QQ弹窗给你推荐朋友正在玩的游戏或者朋友感兴趣的话题等等。
6.微信+广告
作为一个8亿用户的国民应用,微信朋友圈广告的重要程度和影响力已经超过任何一种形式的互联网广告。
微信现在已经可以通过一些数据来预测用户的消费水平。比如,通过发送接收红包的金额、平时经常出现的位置、购买商品的记录就可以定位一个高端(High End)用户。
通过确定的高端用户,利用上文中的种子用户的方法,根据用户的社交网络结构,便可以推算出用户好友中的高端用户。看来我们朋友圈看到的各种各样的广告的确和我们平时的行为有关。
Ching还介绍了一种微信用户圈的发现算法,这个算法的基础是2003提出的K-Clique算法。在这里不再赘述。这在社交网络研究领域叫作“社团发现”(Community Detection)
通过用户圈,微信可以将不同的广告通过种子用户传播到不同圈子里,例如礼物广告发布到亲人圈,汽车广告发布到同事圈。拿中国好声音的例子来说,点击该活动相关页面的用户即为种子用户,可以给这些用户的相关圈子散播类似的消息。这样传播CTR上升了30%,交互率上升的150%。
看来你如果看到豪车的广告可能不是你有钱,是交了个土豪朋友。
最后腾讯介绍了自己的广告业务矩阵,感兴趣的读者可以看下图。
7.其他
通过这个演讲我发现,目前在工业界应用的机器学习算法可能在学术界已经有点陈旧了,对于目前学术界提出的新的算法和思想,还需要一段时间才能与工业界结合,而一部分算法则是纯理论,没有任何实际价值。当然,工业界的模型往往不是一篇论文那么简单,它必然结合实际应用场景做了许多修正。所以,同一个模型在工业界和学术界也不能说谁比谁高明。
第二个感受是腾讯这次演讲还是有点内容的。首先演讲者的技术背景毋庸置疑。其次,我也在网上查到其进行过校招的演讲。但是这个PPT明显是针对专业学术会议精心制作,比前几日熊厂刘超总监的演讲不知道高到哪里去了。我觉得在国际学术会议上发表演讲对提升一个企业的品牌形象具有很大的意义。
纵观本次KDD大会,从论文数量上来说,国内清华的论文最多,而且清华还和腾讯合作进行了微信群用户行为相关研究。微信的数据可谓是研究社交网络最佳的样本,可惜这些数据都是不公开的。在企业界,百度的文章很多,其次是华为。百度有一篇和中科大合作研究出租车司机行为的论文很有意思。
滴滴出行作为本次大会最高级别的钻石赞助商,可谓在大会上出尽风头,许多老外都向我们中国人打听,而我们以Chinese Uber回应,并且大家对滴滴收购中国优步感到十分惊讶。滴滴即将成立自己的研究院,有用海量数据的滴滴急需要高级技术人才来助力企业长远发展。祝福滴滴!
内容转载自公众号
随便说几句
了解更多