数据挖掘知识

免费体验
当前位置: 首页 > 知识库 > 数据挖掘知识 >

为啥是东方不败,不是令狐冲,Netflix 大数据告诉你

分享到:
时间:2016-07-10 22:21来源:谷歌推广seo网络知识 作者:谷歌优化怎么做
中国统计网(www.itongji.cn),是由大数据资深从业人员创办的大数据门户网站

竟然是“坏角色”电影海报更吸引人,而不是“好人物”角色?以下是美国流媒体视频巨头 Netflix 的 Rea-time Data Infrastructure 资深软件工程师 徐振中 在硅发布跨境直播中的分享。直播只支持会员参与,现将 1/2 内容与大家共享。




一、做“原创”原因


Netflix 会员最新数字我给到大家一下:今年第一季度,全球 8150 万会员,其中超过 4600 万是在美国,而这么大用户基数,其实也是我们一定要做原创的原因。


我们来做一个简单算数:8150 万用户,10 美金/每月,再乘以 12(个月),也就是说一年可以产生 97.8 亿美金收入。这里除公司内部人力和基础设施成本等,很大部分要支付给版权方,因为当你用户量这么大,假设我是内容提供方,然后 Netflix 来跟我要版权,他现在有 81.5 个 Million 用户,你觉得我会不会说你现在用户这么多,我要卖你版权卖得更贵一点呢?


因为版权,你用户越多,比如说买个片子回家自己一人看就 10 块钱,但如果放电影院看,价格就不一样,所以用户基数越来越大,版权方给到我们价格也每年都在抬高,Netflix 就想:迟早有天别人会说你用户量太多,版权费用突破到一个我们可接受的平衡,2012 年我们就决定自己生产内容。


除《纸牌屋》,我们还拍过《卧虎藏龙2》等,但 2013 年的《纸牌屋》是让 Netflix 一下子全球知名的原创电影。这里我给到成本概念:当时我们用了 100 个 Million 美金拍,但我们有 81.5 个 Million 用户,所以这个成本其实要比想象中值。



二、怎么用大数据预测《纸牌屋》会火?


首先说下我们工作方式。当我们开始做“原创”,其实就类似电影产业链里的“制片”角色,我们会去面试很多工作室的剧本,然后用大数据去做一个“它值不值得拍”的筛选,而不是说从无到有自己出一个剧本。


第二, 当我们做这个筛选决策,后台其实有多少数据可以参考: 1)刚才已经说过会员 8150 万,这些会员每天都在我们网站留下行为特征,比如什么片,他放到一半就不看;或者什么片,他/她反复看了两三遍;2)每天处理 7000 亿条/1+PB 数据;3)顶峰期大概每秒处理 1000 万条/20+GB 信息;4)每天大概 Deliver 1.2 亿个小时的影片时间。


所以因为 Netflix 过去 10 年有很多用户数据,而有这么大量数据,你就可以向机器问各种问题。举个例子,比如某种行为特征的观众(比如说酷爱健康饮食的人),他在看过某影片 D 之后,更可能接下来看什么片子?各种各样问题,机器全都可以回答你。这里一个重点是: 这些大规模数据创造出了很多问问题的维度 ,我们就不断用各种问题和维度,去逼近我们想要的那个结果。


而当你纬度足够高,有时,你得到的答案是你想不到的,就好比物理例子里,我们拿张纸条,在空间里转一下,再把它捏起来(就是我们说的莫比乌斯带),这样它是在三维空间里的一个东西,你在这个纸条上沿着纸条用铅笔画,画一圈后,会回到原点;但假设:你只是在这个纸条上这一点,你是根本意识不到你是在三维空间里,你会一直以为自己是在一个二维空间。


《纸牌屋》其实也是这么出来:我们建立了一些数学分析模型,然后不断去分析每个片子维度。比如我们知道《纸牌屋》是个讲政治的片,里面有 2 个主要人物:一个是很有政治能力的男人 Francis,他是美国国会议员,也是个老谋深算的职业政客,坚信新当选总统和其幕僚背叛了他,于是发誓要把这任总统赶下台;



另一个人物是个很有个性的女记者 Zoe,也就是说里面还涉及到媒体。



然后你把这些元素全摊开,它就会有各种纬度,而我们后台用户过去看的片里,每部片也都有纬度,我们就去问数学模型,给出这些元素的影片,在过去例子里达到历史记录是不是很高,别人是不是会对这样的片子感兴趣等等。


所以就是这样一层层推导出来。因为如果不是从“数据角度”考虑问题,同时当你手上有 10 多个不同片子,要完全纯粹靠直觉,从预感上说,最终要选出一个是很难的。



三、大数据助力用户体验和商业利润


Netflix 数据其实最主要用来做 2 件事:一是怎么提高用户体验;二是怎么帮 Netflix 减少成本和提高效率。


这两个问题有相关性,因为可讲东西很多,我挑几个讲。比如当你开始在我们网站浏览但还没注册成会员时,其实我们就已经开始收集你数据,比如说你所在地区、你带宽支持情况等,然后,给你实时提供可优化你体验的东西。


举个例子。当我知道你是在日本,我可能就会在首屏多推荐些后台数据显示是日本地区用户比较喜欢的片子;再比如说,不要小看电影海报(Netflix 网站上显示的每部电影图片),根据 Netflix 后台数据 : 给用户呈现同一电影的 2 个不同页面/海报,用户之后行为特征完全不同。


关于静态图片 Artwork 优化,我先给出宏观概念:


1)MIT 研究表明,人只需 13 毫秒处理静态图片信息;2)Netflix 研究发现:影片的静态图片 Artwork,不仅是最影响观众观看哪部影片决策的因素,同时也占 Netflix 会员 82% 浏览界面的时间;3)会员平均使用 1.8 秒考虑每部影片的 Title,静态图片对会员观看决策有非常大影响;4)数据表明:使用更优质图片会对会员寻找内容\提高总体使用时间和 Engagement 有非常大影响;5)不同用户看相同影片时,往往看到的 Artwork 会被优化而不完全一样。


案例说明


比如下图,它是同一部电影的 6 张不同海报,但只有标了“绿色箭头”的海报,是最能让用户发生 Engagement 行为的。



这里涉及人物细微表情带来的微妙情感差异,但这个差异就会直接影响用户是否要打开电影。


第二个例子,是说明在一个具国际化电影内容方面,怎么处理“区域性”细节非常重要。如下图,它同样是同部电影的 6 张不同海报,这个科幻片讲的是世界八个地方的八个不同的人,他们有一种奇怪的心灵感应,虽然互不认识,但是能够知道对方在想什么。



结论就是:比如右上角那个有个女人的海报,她背后还有个模糊的当地建筑物,而这个有“区域性”色彩的东西,就被证明为在当地播放时用户 Engagement 行为很高。



四、为什么是东方不败,而不是令狐冲


第三个案例:你们觉得正面人物和反面人物哪个更容易引发用户 Engagement 行为?这里先来做个测试: 大家觉得这 6 张图里哪个是好人?



思考一分钟,不要急于下拉,想出答案,然后往下看


Netflix 后台数据结论是: 好人物形象在引发用户 Engagement 行为方面往往会落败 ,上面两个标了“绿色箭头”的,其实都是电影里的坏人角色;


第四,演员阵容往往 Less is more,一般来说,三人以上图片效果显著下降。


个性化内容推荐的力量对比


个性化内容推荐是 Netflix 会员体验核心,而个性化内容推荐重要分支就是“用户的自我意识证据”,这是指:要让用户有意识,为什么被推荐内容和他有相关性或他会倍感兴趣。下面我讲下案例, 然后我们看看它们各个不同 Power 的力量曲线对比。


第一个是“社交证据”,也就是你朋友中有多少人也看了这部电影:



第二个是“你曾看过的影片证据”:之前你看过哪个影片,然后,我们会向你推荐和你之前看过影片具相似性的影片。


这里的推荐,我们不会依赖星级(比如上面电影只有 2 颗星),亿推海外推广,其实我们发现:星级评分的可靠性不是特别高;


第三个是“可能吸引人的亮点证据”,意思是:我们给你推荐一些比如有什么什么著名明星出镜的电影。



第四个是“人为营造的证据,比如说情感”,意思是:我们给你推荐一些我们定义为是“刺激性”或“惊悚性”的影片,然后配合用户更有可能在实时情况下接受的推荐。



而根据我们曾做过的试验里的相对比较:各个不同证据最后实现的“推荐有效度”情况如下:


排名第一是 “Watched/你之前看过的影片”,这个维度推荐有效性最高;排名第二是 “Social/你社交证据”;第三是 “Faux/人为营造的证据”;第四是“可能吸引人的亮点证据”,它和排名第三非常相近;


第五是 “Rated/评分星级”,你会看到它反而不是很高。 也就是说影片打了 5 分,其实没你想象中对用户行为产生太高影响 ;最后是“Queued”,这个是用户自己放 Queue 里决定以后看的影片(即放到收藏夹的片子),它有效性反而是最低的,这个比较 Counter intuitive。


以上这些相对的对比都是数据分析的结果,也只是一个例子,可能会在不同情况(维度)下会有改变,比如说时间。


五、部分直播问答~


@凡闻科技董事长王鸣:振中好!关于视频原创和盗版比对技术能否介绍下?相信内容分析也是你们数据部门主要工作,除用户数据记录分析外。谢谢!


@嘉宾:盗版是个“道高一尺、魔高一丈”的问题,双方技术都在不停发展,但最后解决办法,我觉的可能应该是通过降低用户成本,提高盗版成本的方法。目前最主要版权解决技术是 DRM(digital rights management),这个技术始于微软,很多视频公司都用;另外 Subscription 商业模式可能也相对对盗版有一定抑制。关于内容分析,的确我们内部有相应解决方案,但据我所知,目前主要是应用的内容分类、Metadata 存储以及内容推荐上。


@悟空数据创始人宗瑞兴:Netflix 有大量数据,是否还做基于问卷的分析和决策支持?如何看传统市场研究,特别在目前这个大数据环境下?


@嘉宾:问卷分析是个好问题,我们有这部分工作。举个例子,在比较新市场,当数据量初始相对少情况下或没办法收集到相关数据时,我们会用问卷分析,比如之前巴西市场总是不气色,其实最后问卷发现:原因是当地支付方法我们没有到位。还有我们问卷分析发现:日本市场更偏向本地日语的内容。


@悟空数据创始人宗瑞兴:对国内来讲,不管是视频媒体还是制作方都没积累那么多数据,分析能力也相对弱,比如我就有客户(视频媒体和广告主)希望预测剧本和电影受欢迎程度,但没有数据积累,就用调查,但积累需要很长时间,初期结果并不理想,也就是说没有很好数据积累,怎么办?


@嘉宾:我觉得我一方面建议就是打破数据壁垒,开拓数据分享渠道,数据收集其实不该是一家公司的责任,如果分享能达到双赢,这是最好结果。这是我个人观点,有些跨界数据应该会非常有意义;另外有些现成的公开数据其实可能可以利用,在美国,Open Data 概念也开始发展起来,虽然现在 Momentum 不是很大。


作者:徐振中

来源:百度百家


(整理:英文推广TuiGuang123.com)
分享到:
------分隔线----------------------------
购买咨询 | 联系我们 | 产品报价 | 付款方式
网站地图 Copyright·深圳市亿推信息技术有限公司 版权所有 粤ICP备13042246号