Taboola如何为转换数据管道供电

发布者

当你开始构建世界上最大的内容推荐平台,执行高服务水平协议时,你需要大量的计算能力、响应能力和可靠性。这就是Taboola在全球使用9个数据中心的原因,每个中心都有数百台服务器。用户从最近的数据中心发送和接收数据,以确保系统的最快和最有效的性能。

然而,在幕后,Taboola系统需要在所有数据中心访问数据以查找,分析和在合适的时间内提供正确的数据。要协调所有流量,数据和信息,我们将单个数据中心用作所有其余的聚合点。

这项技术帮助Taboola大规模地消化、转换和聚合数据,因此它对我们的客户和用户非常有价值。

在本文中,我们将解释哪些转换是,我们如何在规模上处理数十亿日,以及如何向客户提供有意义的数据。

准备好看看Taboola的引擎盖?我们走吧。

快速定义

在我们进一步进一步之前,这里有一些定义将帮助您了解Taboola中的数据路径。

  • 行动:用户使用所需的操作,以广告商的网站,例如产品购买,页面查看或电子邮件注册。每个操作都是通过使用Taboola像素的相应事件向Taboola服务器报告给Taboola服务器。
  • Taboola像素:嵌入在广告商网站中的Taboola脚本,在网站上收集有关用户行为的特定数据。该脚本将事件发送到服务器以进行消耗和分析。您可以了解有关Taboola Pixel的更多信息在这里
  • 规则:为特定广告商的转换而定义的一组条件。例如,如果页面包含“谢谢”或“注册成功”的短语。
  • 行动转换:当用户在登陆页面上采取所需的操作时,他们通过Taboola推荐将到达。Taboola中规则定义的两种主要转换类型是基于事件的转换和基于URL的转换。
    • 基于事件的转换:基于广告商网站通过Taboola像素发送的事件的转换。例如,将产品添加到购物车,安装应用程序,或注册时事通讯。
    • 基于url的转换:基于针对特定URL创建的规则的转换。例如,从特定着陆页面中的事件注册。

现在,返回Taboola中的转换数据路径。

Taboola中的数据路径

Taboola中的数据路径架构分为两个主要部分:

  1. 在每个数据中心,在内部消耗和处理数据的位置。
  2. 在中央处理数据中心中,其中数据从所有数据中心镜像并写入Vertica数据库以进行进一步分析。

第1部分:数据中心内的数据

每个数据中心内的数据路径

第1步:创建事件

当触发Taboola像素时,它将事件发送到我们的后端服务器。使用Google的Protobuf格式处理并将该事件进行处理并转换为ProToEvent,以便于轻便轻量级序列化和反序列化。

ProtoEvent被发送到动作事件主题,并由Apache Kafka消费者消耗,用于为规则匹配准备。

步骤2:规则匹配

每个事件都包含上下文帐户信息,因此此步骤检查Taboola广告平台和当前事件中定义的广告客户的业务规则之间的关系。它希望使用广告商的定义规则匹配事件数据,这些规则从来自相应的MySQL数据库中的可更新的高速缓存读取,以减少时间和更高的性能。

事件可以匹配单个规则,多个规则或无规则。他们仍将被送到Kafka。

一旦通过规则匹配阶段,事件和任何匹配规则就会发送到触发的触发事件和匹配的规则主题,以便在稍后阶段消费。匹配的事件是异步排队的,以移动到过程的下一个阶段。

第3步:用户归因

一旦匹配,必须分析该事件,以确定它是否是通过Taboola的出版商合作伙伴之一进入当前网站的用户。我们的平台试图将用户的事件与他们的点击和出版商网站上的相关可见事件相匹配。ac米兰赞助商 vwin

它检查了它是否是从直接广告点击发布者的页面,或者如果在发布者网站上呈现广告,并且他们向广告商的网站提供了其他方式。正如我们处理非常大规模的事件,以便在Scale中具有高性能和可用性,我们将上面的数据存储在Apache Cassandra Cluster中。

一旦事件归属,它会报告,计算并将其存储为动作转换。

第4步:Kafka中的主题存储

单个数据中心中数据的最终步骤是Kafka中的转换和存储。使用Protobuf协议将转换转换为ProtoActionConversion,并发送到Kafka中的相关主题进行聚合部分。

一旦转换数据通过各个数据中心,就可以汇总。

第二部分:数据被发送到聚合数据中心

聚合数据中心数据路径

转换数据在被Taboola平台分析和使用之前,先从单个数据中心镜像到聚合数据中心。

  1. 最后一个Kafka消费者读写数据到聚合Hadoop数据文件系统(HDFS)。
  2. 离线Apache Spark任务读取HDFS上的数据,进一步过滤和聚合到Vertica的多个表中。
  3. 数据被发送到Taboola,其中它用于各种可视化和对广告商的报告,例如ChineAigns报告与转换统计信息。

现在你知道了!现在您了解了转换数据如何通过我们的服务器、数据中心和系统来为Taboola客户提供相关的转换信息。

您对如何处理此操作有任何疑问吗?让我们知道,我们会尝试回答它们。

立即启动您的Taboola职业生涯!