- 德赢体育app
- 工程
在我与Kafka合作时发生了奇怪的事情。在将新的消费者从Kafka添加到我们的一个服务之一时,该服务从所有其他现有消费者中停止消耗。作为我在Taboola工作的一部分,作为基础设施集团生产团队的团队领导者,我们应该删除瓶颈,而不是创建它们。这篇文章将描述如何调查该问题,解释我发现的内容,并将我的见解分享到整个情况。在我进入故事的其余部分之前,一些背景是关于我们如何在Taboola的事件处理管道上使用Kafka的一些背景,以及为什么对我们的基础架构至关重要。Taboola的建议每秒都有数万个网页和移动应用。随着用户与内容接触,将多个事件触发以发出呈现建议,打开,单击等。每个事件都触发了一个或多个Kafka消息,[...]
在大流行期间,大多数公司迅速适应并转向在家工作模式,这是为了抗击COVID-19传播而突然需要采取的封锁限制措施。
世界不平坦,它的每天超过40亿页浏览量,每天收集超过100TB的数据,Taboola的规模没有笑话。我们的主要数据管涉及数据群众和无尽的读取路径。我们可以优化所有这些读取路径的模式吗?猜猜不......我们的架构是巨大的且高度嵌套。在消化数据后,我们将其保留在HDFS上的每小时拼影文件,每小时由约1-1.5TB的压缩数据组成。我们的架构大致如此:root | - usersession:struct || - Maskedip:长|| - Geo:Struct ||| - 国家:字符串| | |– region: string | | |– city: string | |– pageViews: array | | |– element: struct | | | |– url: string | | | |– referrer: string | | | |– widgets: array | | | | |– element: […]
你写了代码。你甚至测试过了。现在,你很想推它。但如何验证它是否真的有效呢?在Taboola中,我们在生产环境中测试代码!在本文中,您将看到每个软件工程师(即使是在公司的第一天工作)是如何在生产环境中进行测试的——这一切都要感谢专门的Jenkins流水线工作和许多指标。在生产中进行测试有多难?很困难的。你可能已经知道了。每个人都担心他们需要测试生产变化的时刻。 The main reason is that not everyone has the required IT skills. Moreover, people have to repeat error-prone, manual tasks – which might result in downtime and revenue loss. For our release engineers, it was also an unmanageable headache – a “thundering herd” of developers eager to test their features in production. […]
您曾经尝试过构建一个每天上传150TB的基础设施吗?你有没有尝试过在没有破产的情况下查询13PB ?这是Taboola的PV2Google(从页面到谷歌)服务规模所面临的一些挑战,也是我们每天都要面对的。在这个系列的博客中,我们将分享我们是如何做到的,以及我们面临的挑战。在本文(第1部分)中,我们将重点关注体系结构。第2部分将介绍这些年来我们学到的经验教训。你好,页面浏览量!Taboola的目标是为出版商和广告商提供强有力的推荐服务。ac米兰赞助商 vwin我们的平台每天提供超过3600亿的内容推荐服务,处理超过20亿的页面访问量。Pageview是一个描述推荐、用户活动(如点击)和更多用户访问网页的记录。 Currently, the pageview record has about 1,000 fields. Two billion pageviews generate a huge amount of data. This data is processed […]