广西集翔网大信息科技有限公司

你的位置:首页>新闻资讯>美国硅谷研发中心Alex:百度移动变现亮出四大技术方案

  • 美国硅谷研发中心Alex:百度移动变现亮出四大技术方案
  • 更新时间:2014-12-05 点击次数:1598

11月25日首届百度技术节上,来自美国硅谷研发中心的Alex在主题演讲中底气十足地亮出了百度凤巢的四大秘密武器。放眼全球,移动广告市场增速明显放缓,但中国移动广告市场仍将保持快速增长。在这个大背景下,百度移动凤巢的未来发展变得越来越清晰:实现更智能、个性化的连接人和服务。


前景是美好的,过程是充满挑战的:复杂的移动场景识别、精确的用户意图识别、海量的数据实时处理、精准的个性化推荐等都被Alex视为必须攻克的难题。为此,他提出了CTR深度学习、用户DNA、在线学习、基于大数据分析的推荐技术这四大技术方案。

“首先,强大的CTR深度学习模型能够处理更为复杂的移动场景;用户DNA,将显性和隐性的用户特征综合起来,可精确识别用户的意图;在线学习可以大幅度提升CTR的模型训练效率和时效性;基于大数据分析的推荐技术应用于移动商业产品,使得变现效率提升到50%。”

“技术要能够变现才有价值,百度凤巢就是将百度每天无数用户点击“变现”的技术“。如何实时实地精确识别用户的意图,跟用户实时互动起来,做个性化的商业推荐,这是Alex团队每天都在思考和解决的问题。对于这些布局,Alex寄予厚望,“希望这四大密器将造就世界一流的变现技术”。


以下为Alex演讲全文:

各位百度同学下午好!移动营收首次超过PC,意义很深刻,我们已进入下一个时代,就是移动时代。在移动时代,对变现技术挑战是我今天分享的主题。

看这个趋势,全球移动广告还是快速增长,虽然速度已放缓,不过中国移动广告市场还仍然保持快速增长。像这个图,蓝线是全球移动广告的增长,从12年到14年大概涨了183%,在接下来两年稍微放缓一些,但是也有89%的增长。相比中国是红线起点比较低,从12年到14年增加了259%,未来两年还会增长,超过200%的增长。

在百度看移动凤巢收入,过去增长非常迅猛。最近财报,移动凤巢收入占到公司36%,这个数据还在不断加剧。所以从12年到14年收入增长已超过10倍。

接下来两年画一个曲线,这个增长的幅度是非常的快,肯定会超过这个大盘200%的增长。所以移动凤巢有一个非常大的机会。

未来的凤巢是什么场景呢?比如一对情侣在吃饭,女的说我们去马尔代夫旅行,然后男的说到洗手间拿移动搜索来搜一下。首先精确识别用户意图,知道用户的属性,年龄、性别等,这时就可以动态生成这样的广告提供给他,更有针对性。再比如,在北京估计是90后,根据线上行为有情侣自助游,我们通过连接服务把他可能做的服务缩短转化路径,把路径可以嵌置,比如嵌入电话预定、在线预定等。

接受服务之后,我们可以根据用户需求方向知道户外活动爱好者是潜水,如果进行实时数据处理的话,下一个环节可以跟他互动起来做推荐。刚好预定的渡假时间在马尔代夫是潜水最好的季节,所以我们推荐当地的潜水圣地,您是否预定双人潜水套餐,他点进去之后再采取更多服务。

从这个简单的例子可以看到,未来移动凤巢连接人与服务,客户的服务都能够更好的满足用户的需求。而且是量身定制的用户,也包括其他的服务,健康类的服务、教育、理财等等。

所以移动时代有哪些重要技术呢?第一是复杂的移动场景要更好的识别,第二是更精确了解用户的意图,更好的识别。第三是海量的数据处理必须实时处理,下一步做什么事情可以实时采取更好的推荐。第四是精准个性化推荐。

所以技术实现上,简要给大家分享以下四个方案:第一是CTR深度学习模型,第二是User DNA,第三是处理实时数据要解决实时在线学习的系统。第四是数据分析的推荐技术。

再看一下在移动凤巢是如何进行下一代深度学习的模型,以便我们处理更复杂的移动场景的。以前LR模型一直是我们所关注的CTR广告预估模型,从09年到12年、13年也帮助我们公司非常快速的成长,增长我们的收入。从09年开始,新凤巢上线,开始用LR CTR模型,还是属于比较简单的线性模型。不过随着不断努力,今天已达千亿特征参数的规模。处理的机器都是用大规模MPI并行训练。

过去这几年通过一系列参数的增加,我们不断得到CTR累计业务的提升,整体超过百分之百。为什么深度神经网络现阶段对我们的各个技术层面会有更好的突破?也就是说你画一个曲线,一般传统的算法到了足够多的数据,就没有办法再提升了。不过用了MPI之后,可以不断学习。我们数据非常多,每天有好几亿的点击,不断通过扩展特征数得到不错的成绩,不过我们已经到了没有办法再扩展,而数据量没有办法再处理更多的情况,所以促使我们明年引入DNN到广告模型里。我们跟Andrew确认过,这是世界上首个将深度学习引入到广告模型的线上系统,百度是世界第一。

如何将DNN加入模型里,我们做了不同的尝试,最后是五层的DNN。去年我们跟IDL合作,充分利用Paddle平台,使得同学们能够快速学习了解怎么用DNN。因为单机的局限性,使得参数规模有点限制,只能到百万级别。但是即便如此,我们过去从8月份开始基本上每个季度可以迭代一个DNN出来,CPU累计到30%的提升。

下一步移动凤巢的未来,我们希望可以做到统一的DNN。这里挑战也非常大,我们第一次将特征学习和模型学习统一,整体是最优的。另外特征是不再用连续值,而是用离散的,使得我们可以有更精确CTR学习。同时不用再依靠单机版的训练,可以用大规模分布式的CPU,,使得DNN参数规模能够到一千亿甚至上万亿规模。我们会搭建全世界最大的DNN,DNN集群就是Andrew在美国AILab努力的方向。DNN希望可以带来更进一步的提升,这是广告预估系统最核心的技术。

第二是User DNA,基本是一个隐性的用户特征。刚才讲了很多特征都是显性的,工程师花很多精力去研究每个特征,然后把这些特征组建起来。不过像Andrew今天所讲到的,数据不断的迭代可以积累成对每个用户有特别的特征,这是通过多任务DNN的算法提炼出用户。比如用同一个DNN模型可以训练出性别、兴趣、广告点击、搜索等等,同一个时间的模型里可以通过里面一层提升出来作为用户DNN。说起来有点微妙,可以考虑到像这样的特征如果有两个人进去,最后训练出来体征在DNN有些部分是可以一样的。就比如两个人都是蓝眼睛的,他们一小部分DNA是同样的。所以隐性特征可以让我们了解没有办法预判的用户特征,从这些特征可以表达出这个用户,从而使得我们有更准确的判断。

第三是在线学习,这方面过去几年也做了非常多的工作,不过还有提升的空间。在四年前线下模型要48小时才能更新一次,我们要等一天的数据,然后花一天的时间去训练,然后上线。如果一个广告质量不好或者不能满足用户需求的时候,他可能要等到两天之后才能被系统认出来没有展现,时间太长。现在,从日志的处理到在线学习,和到实时预估上线,整个周期可以做到8小时。到今天,很高兴我们团队继续努力,把时效性从8小时降到2小时。

下一个时代我们要想做到的是实时学习,虽然2个小时还是处于小批量式的数据处理,使得时效性从小时级别缩短到分钟级别。我们不仅仅是首个用广告系统上线的,同时可以做到在线学习的DNA,这是客户的一个挑战。

最后关于推荐技术,我们实时推荐在移动场景的复杂性和时间地点等,推荐也要整理知识的图谱,我们怎么可以更好更有效的推荐整合起来压缩到一个千万量的级别,使得我们大规模算法的时候也能够做相应的推荐。

最后我代表大凤巢团队再次向所有技术大牛们和技术团队非常感谢大家的给力支持,特别是IDL团队、SSG团队、MBU团队、还有OP等、QA团队等等,你们大力支持使得我们大家一起打造世界一流的变现技术。谢谢。


郑重声明

关于严厉打击

假冒百度授权代理声明

近期有客户向百度公司投诉,其购买的百度营销服务存在付款未执行的问题。经百度公司核查发现,在中国大陆各地存在假冒百度授权代理对外进行营销合作的行为。这些假冒百度授权代理伪造百度授权代理证明、假冒百度代理商身份,部分甚至自称“百度某某行业当地独家代理”招揽客户,向客户收取费用但实际可能未实际兑现所承诺营销服务等等。此等情况严重损害到了客户的利益,并给百度公司品牌名誉造成不良影响、为维护客户的合法权益,保护百度公司品牌声誉,特作以下公告: