206 views
本文是WOT大数据技术峰会2015现场实录系列的第三篇。

《大数据质量保障》——钱承君,百度测试经理

个人简介:500人的大搜团队中,100人是做质量保障

大数据营销301.webp
目前的各种开源技术,很难解决百度遇到的问题,比如几万-十几万机器在同一个机房,大数据量下的集群,很可能会跨机房。开源技术几乎不考虑跨机房问题的。
大数据营销302.webp
几百台服务器有闲置资源,不算大事;但几十万台服务器,如果有闲置资源,就太可惜了。

5分钟级别的反作弊体系。

复杂系统的50%以上的代码是容错代码。
大数据营销303.webp
比如有磁盘缺油了,在某个地方的磁道访问会变慢,这时会引起上层应用代码的问题。还需要在线下环境中,比如30分钟内复现问题,定位问题根源,解决问题,再上线。

能定量地回放、可复现问题,在百度的大规模数据集群,各种低频事件一定会发生。

google的做法则是线上线下完全一样,物理上也完全一致。比如100台线上机器,100台线下机器。这样大幅降低测试/线上环境不同带来的异常。

facebook也会遇到有状态回滚和无状态回滚。对于有状态的回滚,仍然是头疼的问题。曾经问过facebook的技术大神,遇到这种问题怎么解决,大神思索了片刻的回答更加神:you need very very becareful !

百度的做法是用多个面的测试代替一个体的测试。

程序走的岔路后,一定是唯一的log标识来表达路径的选择。
数据质量保障:数据log规则细化-按比例,当有一天某个规则下的流量发生异常,监控报警。以及报警系统自动逐级升级,从负责的工程师,到经理。

钱承君分享的精彩结尾:“我是做测试的,今天给各位开发的同学做技术分享,大家还都听的这么high,我特别开心”。

钱承君分享时语速很快、风格特别风趣,是整个周末我听到的所有分享中最有意思的。这场听下来,大涨眼界的同时,人也精神抖擞了很多。没想到听钱承君的分享,还有这个功效。可惜的是他用他最快的语速,也只讲了PPT中的一半内容;更可惜的是他现场讲的东西,80%都不在PPT上,没听现场的同学很难从PPT倒推出他的分享干货了。

《实时竞价(RTB)广告中的数据和算法》——林招,品友互动数据部总监

品友林招的本次分享是典型的RTB科普性分享,很多高技术含量的细节显然没法在45分钟之内展开,这场分享中我主要记录一些很有启发性的数据。
QPS:30万次请求/每秒,2015年9月。每次请求处理时间100ms之内。
200亿请求/日,10亿网页地址/日, 20万网站 ,60万主流APP。
Redis集群30T。
PC人群400亿,APP200亿。

至此,我们看到品友DSP的数据是不是有点“大”的味道了。这样的数据访问规模,每秒30万次访问、每日200亿次请求,显然已经远远超出了非广告领域的绝大多数企业接触到的数据量。而国内DSP的领先者再比较国内的广告领域领头羊百度大搜、百度网盟、360、腾讯广点通的数据量,恐怕又有较大的数据量和数据访问量上的差距。

  • 广告时间:基于品友DMP的CTR/CPA的效果大幅提升,本质依赖了品友获取了更多跨站的用户行为。
  • 算法包括:LR、logitboost、BPR(Bayesian Probit Regression) FTRL DL。
算法这块基本没有展开,可惜了。毕竟CTR与用户标签是DSP最核心的技术。
  • 全局最优规则,DSP的流量不是自己的,所以跟百度情况不一样。
  • 遇到挑战:冷启动、脏数据。
注:本文是WOT大数据技术峰会2015现场实录系列的第三篇,未完待续。更多精彩,请查看本站继续发布的WOT大数据技术峰会2015现场实录(四)
傅强简介:2015年年中作为技术合伙人加入九枝兰,http://www.jiuzhilan.com,为企业提供在线营销的整合投放Saas服务。2006年-2015年任职当当,从工程师、架构师、高级总监到技术副总裁,从技术的维度,见证了中国电商时代的风起云涌。

推荐阅读:

网络营销线下活动:WOT大数据技术峰会2015现场实录(一)

WOT大数据技术峰会2015现场实录(二)

【APP推广】如何通过数据指标,评估渠道推广质量

App推广:ASO优化应用关键词选择

扫二维码,了解更多精彩内容

二维码
相关文章

评论