互联网广告黑产盛行,如何识别作弊?
编者按:
有人的地方就有江湖。
广告作为互联网公司商业变现最为直接快捷的途径,广告作弊已经形成了一个有完整链条的黑产行业。如何通过技术手段识别并防范广告作弊?本文通过介绍常见的广告计费模式和虚假流量的获益形式和发生机制,分析广告点击反作弊的核心问题,分享相关的反作弊实践经验,详解如何“互联网防诈骗”。
导语互联网行业发展的几十年来,已经渗透到生活的方方面面,各种互联网公司层出不穷。互联网公司的商业变现途径已经发展出引流、电商、游戏等多种流派,但是广告变现作为一种最快捷和直接的变现途径,依然占据着整个行业的大半壁江山。有人的地方就有江湖,有江湖的地方就有纷争。互联网广告也引申出了作弊与反作弊的纷争。互联网广告作弊已经成为了一个有完整链条的行业,而反作弊部门也成为了各大依靠广告变现公司的标配。
01 常见广告计费模式一个网络媒体(网站)会包含数十个甚至成千上万个页面,网络广告所投放的位置和价格就牵涉到特定的页面以及浏览人数的多寡。这好比平面媒体(如报纸)的“版位”、“发行量”,或者电波媒体(如电视)的“时段”、“收视率”的概念。网络媒体常见的广告收费模式[2]有CPM、CPC、CPA、CPT、CPS、CPI, 下图是各种广告计费模式的逻辑和作用:
1 CPM
英文全称Cost Per Thousand Impression,也称每千次展示的成本。CPM是一种展示付费广告,只要展示了广告主的广告内容,广告主就为此付费。由于展示了广告就可以收费,不关心用户是否有后续互动转化,因此这种广告的费用也是比较便宜的。按此计费的广告一般是以展示为目的,如开屏广告。
2 CPC
英文全称Cost Per Click。CPC是一种点击付费广告,根据广告被点击的次数收费。这种模式在广告测试的初级阶段使用较为合适,为确定对产品感兴趣的目标人群的流量而付费,可以在测试的早期快速收集广告数据,尽快定位出目标人群画像,为下一步扩量的投放做准备。最常见的如搜索引擎关键词广告采用这种定价模式,比较典型的有Google的AdSense、百度凤巢竞价广告以及淘宝的直通车广告。
3 CPA
英文全称Cost Per Action。CPA是一种按广告投放实际效果计价方式的广告,而不限广告投放量。CPA的计价方式对于网站而言有一定的风险,但若广告投放成功,其收益也比CPM的计价方式要大得多。因为CPC有可能存在欺骗性(比如典型的机器人刷点击),所以就产生了CPA。比较常见的CPA计费方式的广告有注册账号、电商场景的加购物车或者收藏、微信的关注公众号等。
4 CPT
英文全称Cost Per Time。CPT是一种以时间来计费的广告,国内很多的网站都是按照“一个月多少钱”这种固定收费模式来收费的,这种广告形式很粗糙,无法保障客户的利益。但是对网站来说CPT的确是一种很省心的广告,能给网站带来稳定的收入。
CPT是品牌广告的报价方式,这种收费模式简单易用,广告主自主选择的空间大。但是CPT沿用几年,广告主渐渐发现这种收费形式缺乏说服力。对客户和网站都不公平,无法保障广告客户的利益。由于各大媒体尚未能实时地公布其每天的不同页面的日访问量和日不重复访客数,因此,广告主在衡量广告投放效果时只能根据媒体公布的数据进行估算,这种评估方法难以体现互联网广告所应有的精确性和实时性,而只是根据经验估算出广告所能传达到的用户数量及相应所需付出的费用。同时一个越来越明显的趋势是随着媒体页面访问量的不断变化提高,媒体缺乏有力的第三方数据向广告主证明这种页面访问量增长的准确可靠性,只能被动地每半年或每一年调整一次价格,以提高自己的收人。
5 CPS
英文全称Cost Per Sales。CPS是一种以实际销售产品数量来计算广告费用的广告,这种广告更多的适合购物类、导购类、网址导航类的网站,需要精准的流量才能带来转化。
这种模式的好处是相对容易得到广告主的认同,只需要在完成一单订单后才会支付相应的广告费用,不好的地方是在现有条件下,会导致广告资源的浪费,例如一个网站投放了CPS广告,10000个访客中可能会有100个人对产品感兴趣,而100个人中间只有10个人最后完成了购买的转化,但另外9900个流浪其实就浪费了。所以大型媒体一般不会采用这种结算方式,采用此类方式的媒体一般处于长尾端利基产品进行广告投放。因为推广效果能够比较准确的计量与评估,对于广告主而言,CPC、CPA、CPS方式比CPM、CPT模式更加有利。
6 CPI
英文全称Cost per install。按每次装机付费,是移动端APP推广常用的计费模式。
02 虚假流量获益机制1 广告投放流程
2 获益方式
广告作为互联网最主要的盈利模式,利益诱惑下部分流量提供方会有作弊动机。下图[1]是几种常用广告计费模式对应的获益方式。
3 发生机制
机器作弊成本低,特征集中,容易识别;人工作弊成本高,作弊者要想获利也会表现会一定的集中性,需要深入分析数据挖掘异常特征,从而识别作弊。
03 反作弊核心问题虚假流量的存在,让数字广告行业遭受前所未有的信任危机。具体危害主要表现在:
1)虚假流量的存在,让广告效果、品牌安全等方面都难以实现广告主的投放初衷,会导致获客成本的增加,直接造成了广告主的经济损失。
2)无效流量掩盖了真实用户。从结果上看,虚假流量提升了流量数据,虚增的曝光次数实际对广告主并无价值,无法提升客户与商机的数量、无法提升真实的用户留存和真实的用户活跃。
3)数字广告行业遭受前所未有的信任危机。因为不良的竞争及短期的利益驱使,加上广告主对数字广告营销效果的困惑、混乱,造成广告主对数据广告的信誉危机。
1 无效点击定义
点击反作弊的工作目标是把流量中存在的“无效点击”过滤掉,简单来说无效点击是指在CPC计费的广告系统中,以人工或者机器手段蓄意造成的非以转化为目的的广告点击行为。
2 广告点击业务的运转逻辑
广告投放过程涉及5个角色,在广告产业链中有不同的“提供的服务、利益诉求、作弊动机”。这些作弊者是黑产中的一部分,另外一些专业黑产为上述作弊者提供专业的作弊服务(比如养的批量账号,比如提供可以修改点击者环境信息的作弊器),以收取服务费。
3 作弊动机
在整个行业中每个角色在整个链条中利益诉求不尽相同,其作弊动机也不一样。
广告主:虽然广告主是最初的金主,但也存在作弊的强烈动机。比如在竞价环境下希望尽快消耗竞争对手的广告从而使自己容易拿到量,或者对自己作弊从而提升自己的点击率。
广告交易平台:广告交易平台还有被动的作弊,因为还有很多流量来自于其它媒体的引流,这些媒体参差不齐,广告交易平台和媒体之间的结算以点击来结算,所以媒体也有足够的动力作弊。而这些点击完全不会有任何转化。
4 作弊类型
机器作弊:使用机器或程序来模拟广告行为,或者通过木马和肉鸡模拟用户的广告行为。为了使点击行为不被规则类发现还会控制ip分布和时间。机器作弊有如下的方法:模拟器、Proxy(网关,修改ISP,IP,UA,设备类型等)、爬虫(各家搜索引擎大量爬取着整个网络,依然会消耗巨大的广告预算)。
人工作弊:雇人用真实的设备进行广告的各种行为操作,主要方式为众包。
5 评价反作弊效果的方法
以下对比阿里云与阿里妈妈、百度凤巢的主要评价指标,主要评价指标均是准确和召回两个视角。召回视角比较相似:都是客户感知,客户赔付次数和赔付金额。以下对比准确视角的指标。
阿里云:新策略上线前,计算其近似准确率的逻辑为“大盘点击的转化率/新策略单独识别点击的转化率”大于 X,值越大越准确,具体阈值根据业务统计数据和人工评测确定
阿里妈妈:借助淘系闭环转化效果,估算准确率置信区间。
百度凤巢:人工抽样,可视化的评测各个维度的统计分布特征,然后计算准确率。
阿里云与阿里妈妈均是电商业务,有转化数据,比较适合用转化率指标。百度凤巢代表的其他无转化指标的广告系统,适合人工评测。
另外关于转化率可以根据业务定义,比如腾讯APP推广反作弊系统会让各个APP设定转化指标,如留存、激以及电商场景的收藏、加购物车等。
结语现在,互联网虚假广告的技术手段越来越“高明”。在识别出广告漏洞后,更有赖于技术进步和监管手段双管齐下的治理。
技术层面,作弊和反作弊都在不断迭代升级,目前的算法主要集中在从人工经验规则、统计策略、机器学习和深度学习模型、图模型方向识别作弊,而监管层面,监管整治的技术手段也需及时升级,通俗地说,就是要“以网管网”,以其人之道还治其人之身,逼其退出互联网广告领域,淡出网民视线。
更多阿里云研究中心出品的关于阿里巴巴集团数字化实践、云计算、大数据、人工智能、物联网等前沿科技的最新趋势研究报告,请您关注“阿云研究”微信公众号。