互联网平台的“算法”到底有没有用?

在互联网行业,尤其是在投资人心目中,往往存在一种 " 算法迷信 " 或曰 " 技术迷信 ":某公司的广告变现做得好,一定是因为有算法;某公司的云计算业务开展的好,也是因为有算法;某公司的游戏用户留存率高,还是因为有算法……

所以,一切用户问题和变现问题都可以通过 " 技术中台 " 解决,从 Google 或 Facebook 挖到的 " 算法专家 " 可以构成互联网行业的核心竞争力。与此相对,如果一项业务出了问题,无论是用户增长环节还是商业化环节出了问题,毫无疑问可以归咎于算法不行。

遗憾的是,上述观点是错误的。算法当然很重要。可是如果没有数据,你拿什么去 " 算 " 呢?如果把 Google、Facebook、字节跳动或阿里巴巴的算法团队划拨给某个路人甲,难道路人甲就可以 " 冷启动 " 搞出一个全世界最厉害的互联网平台吗?哪怕是没有接触过互联网行业的人,也不会相信这种疯话——没有数据的算法,就像没有球员的足球战术,是不可能执行的。

互联网平台的算法被严重神化了。算法固然重要,但我们可以毫不客气地说:算法是可以在短期内砸钱搞出来的,但是数据无法在短期内搞出来;头部互联网公司在算法上不会有什么代差,但是在数据丰富程度和可用性方面可能产生代差(注:并不意味着一定有代差)。

在互联网时代,数据堪称土地、劳动、资本后的第四大生产要素,尽管我们常常忽略它,但其重要意义非同一般。更深一步,人工智能比拼的并不是算法,而是数据," 得数据者得天下,得数据者得算法 "。互联网巨头在过去十几年呼风唤雨、取得了巨大的收入和利润,不仅仅是因为它们掌握了用户流量入口,更是因为它们掌握了基于用户行为的海量数据。

(就像在《命运石之门》当中,发明时间机器不仅需要天才黑客桥田至,更需要狂气科学家凤凰院凶真、天才少女牧濑红莉栖等一整套实验室体系的配合。)

为什么抖音如此适合游戏及电商广告投放?广告算法好,确实是一个核心因素。例如,抖音对游戏广告主甚至可以以 " 单个付费用户 " 为单位结算,甚至可以约定 " 若用户流失则退款 ";抖音、快手均可以将广告主的效果需求(CPA/ROI 等)高效地 " 翻译 " 成前台 CPM 需求,快速而灵活地响应广告主的需求。但是,在" 算法好 " 的背后,更深刻的原因是数据积累庞大、可信度高:

抖音通过用户的滑动、点赞、留言、转发,以及平均观看时长,获得了大量宝贵的用户偏好数据,从而能够贴上各种数据标签。与传统图文信息流相比,短视频给用户贴上数据标签的效率要高得多。

抖音从 2016 年开始就建立了一个庞大的内容生态,各式各样的内容非常健全,从而可以让海量内容与海量用户之间互动,产生天量级的数据。其实,抖音在内容运营方面的功力极深,只是往往被人忽视。

反观还处在发展初期的微信视频号,与抖音的差距与其说在于 " 算法技术 ",还不如说在于内容生态——目前视频号的原生创作者很少,MCN 生态尚未建立,垂类内容运营也不发达(仅有直播取得了一些成果)。因为内容池太浅,所以无法与用户产生有意义的互动,导致数据深度和可信度不足。要解决问题,恰恰要依靠良好的社区运营和激励机制,去吸引更多、更有特色的创作者持续产生内容,而不是像某些人认为的那样,把推荐算法调教好就够了。

在中国这个特殊的(也是全球第二大的)互联网市场,各大平台对于用户数据的掌握程度,还存在两个微妙的因素:

首先,国内安卓平台对用户隐私的保护程度很低, 从而允许互联网公司无节制地攫取数据。国内 80% 以上的用户使用安卓手机,国产安卓生态的用户保护机制几乎形同虚设——如果你禁止某个安卓 APP 读取你的通讯录、调用你的相册和摄像头,很可能你就无法完成安装,也无法使用大部分功能。在这方面,苹果手机堪称模范,甚至允许你像隐形人一样使用各大 APP,让对方完全无法辨认你的身份;所以很多互联网平台都讨厌苹果手机。你在媒体经常能看到关于苹果手机如何差劲的黑文,不一定是其他手机厂商发的,很有可能是恼羞成怒的互联网平台发的。

很多安卓 APP 会定期截取用户屏幕、读取手机相册、读取输入法数据,甚至在用户不知情的情况下操纵摄像头——还记得当年震惊全网的 " 手机摄像头无声无息升起事件 ",以及刚刚发生的 " 豆瓣删除用户相册图片 " 事件吗?因为平台可以肆无忌惮地收集用户数据,当然就可以很精准地贴上用户标签。与其说这是算法的功劳,还不如说是侵犯用户隐私的 " 功劳 "。当然,在国内主管部门强调用户信息保护的今天,这一套玩法已经接近了极限。

其次,互联网平台内部各端、各业务的数据需要打通,否则就无法形成合力。 为什么字节跳动的算法推荐精准?因为它内部各个产品、各项业务的数据是高度分享的。字节跳动的广告销售人员,可以迅速了解到抖音的某个趋势、某个流量洼地,然后立即对广告主进行推荐,这样广告主当然有投放的积极性。与其说字节跳动是依靠算法崛起的,还不如说是依靠打通技术和销售崛起的,以前的百度也是这样。

这就是近年来互联网公司纷纷强调 " 数据中台 " 的原因:与其说 " 数据中台 " 象征着一种技术创新,倒不如说它在削平内部山头,把各部门的数据资源最大限度地打通。不过,数据中台未必总能达到目的,因为规矩是人定的。对于历史悠久、内部利益分配复杂的互联网巨头而言,要各个山头分享数据是一个很艰难的任务。所以,像字节跳动、拼多多这样历史较短的公司往往能较好地打通数据,而历史悠久的公司做不到。

讽刺的是,2021 年以来,监管部门加强了对平台商家获得用户数据的限制,却反而造成了平台对数据控制权的加强:

例如,对淘宝商家来说,以前可以获得某个具体买家的电话、地址、身份信息,从而可以进行内部分析,还可以主动通过短信等方式拉回流。2021 年 8 月以来,淘宝商家看到的数据都被加密了(其他各大电商平台也在跟进),只有快递员还掌握用户的真实联系方式。虽然这样确实保护了用户隐私,却也造成商家完全受制于平台,很难绕开平台运营私域流量了。

这里就涉及到一个平台经济监管的核心问题:我们对互联网平台加强控制,归根结底是为了有益于用户,同时也应当有利于中小商家。有些事情可能对用户有利,却也加强了平台在产业链上下游的话语权,从而使它们相对于中小企业居于更强势的地位。如何避免这种现象出现?对于全世界的监管者来讲,都需要摸着石头过河。

在本文的最后,我们想集中探讨一下 5G 时代对数据的影响。坦白说,如果 5G 普及,互联网巨头对用户数据的控制可能提上一个新的台阶:

首先,数据维度大幅提升,5G 将推动万物互联,5G 时代连接数量达 100 万 / 平方公里(即每平方公里有 100 万对数据连接存在),是 4G 时代的 100 倍。根据 AT&T 的数据,2020 年全球物联网的连接数达到 500 亿,其中物与物(设备对设备)的连接数占比 80%。一方面,联网设备数增加,将线上和线下数据进一步打通;另一方面,物物之间的连接数大幅提升,数据的维度和延续性都有了实质提升。

其次,5G 基站将实现更加精准定位。由于 5G 穿透性不如 4G,需要更多的 5G 基站完成原来 4G 信号塔的作用。在基站密度一定情况下,5G 可以将基站定位精度提升至 1m,并且更多 5G 基站在室内,室内定位效果也将增强。届时,互联网巨头念念不忘的 " 对用户位置的精确掌控 " 将成为现实,达到厘米级的掌控也不是不可能的。

可想而知,进入 5G 时代,互联网行业的海量数据会变成天量数据,数据的精准度、可用性、灵活性也会大幅提升。举两个很简单的例子:

如果智能家居真能成为主流,就无异于在移动互联网之外再造了一个 " 家居互联网 ",用户从早上起床到晚上就寝,乃至睡眠中产生的数据,均将被纳入互联网平台的体系。

如果 5G 基站定位精度达到 1 米以内,传说中的 " 室内 LBS 服务 " 将成为现实,线下零售商将能够绘制出精准的 " 零售热力图 ",从而进行一系列 O2O 数据合作(例如通过用户的行动细节向其推送商品)。

由此产生的用户隐私等法律、道德问题也是不容忽视的。这也就是各国监管部门要赶在 5G 大规模商用的初期,纷纷加强对平台经济的控制、对用户个人隐私的保护的原因。