- 德赢体育app
- 工程
在2019冠状病毒疾病流行期间,大多数公司很快适应了,并转移到了工作模式,这是一个突然的必要性,是通过努力阻止COVID-19传播的禁闭限制。
世界并不是平坦的,它是高度嵌套的,每天有超过40亿的页面浏览量,每天收集的数据超过100TB,Taboola的规模不是开玩笑的。我们的主数据管道处理大量数据和无尽的读取路径。我们可以为所有这些读取路径优化模式吗?我猜不是……我们的模式是巨大且高度嵌套的。消化数据后,我们将其保存在HDFS上每小时一次的拼花文件中,其中每小时包含约1-1.5TB的压缩数据。我们的模式大致如下:root |–userSession:struct | |–maskedIp:long | |–geo:struct | | |–country:string | | |–region:string | | |–city:string | | |–pageViews:array | | |–element:
你写了你的代码。你甚至测试过它。现在,你渴望推动它。但你如何验证它真的有效呢?在Taboola中,我们在生产环境中测试代码!在本文中,您将看到每个软件工程师,即使是在公司的第一天,都可以在生产中进行测试——这一切都要归功于专门的Jenkins管道工作和大量的指标。在生产中进行测试有多困难?很难。你可能已经知道了。每个人都害怕那个需要测试生产变化的时刻。主要原因是并非每个人都具备所需的IT技能。此外,人们不得不重复容易出错的手动任务——这可能导致停机和收入损失。对于我们的发布工程师来说,这也是一个难以管理的难题——一群“雷鸣般的开发人员”渴望在生产中测试他们的功能。[…]
您是否曾经尝试过构建每天上传150 TB的基础设施?您是否曾经尝试过在不破产的情况下查询超过13PB的数据?这些是Taboola的PV2Google(谷歌页面浏览量)服务规模的一些挑战,我们在日常工作中都会遇到这些挑战。在本系列博客中,我们将分享我们是如何做到这一点的,以及我们面临的挑战。在本文(第1部分)中,我们将重点讨论体系结构。第二部分介绍了我们多年来学到的经验教训。你好,浏览量!Taboola的目标是为出版商和广告商提供推荐。我们的平台每天提供超过3600亿次内容推荐和超过20亿次页面浏览。Pageview是一个记录,描述用户访问网页时的建议、用户活动(如单击)以及更多内容。目前,pageview记录大约有1000个字段。20亿次的浏览量产生了大量的数据。此数据已处理[…]ac米兰赞助商 vwin
在本系列的第1部分中,我们分享了Taboola的PV2Google服务的体系结构,该服务每天向BigQuery上传超过150TB的数据。在本文(第2部分)中,我们将分享几年来我们所学到的挑战和教训。第1课:查询可能(非常)昂贵我们不断地将页面浏览量上传到BigQuery并保存六个月。这意味着BigQuery中的页面浏览量超过13PB。查询整个数据集将非常昂贵,大约65000美元/查询(假设5美元/TB)。我们应用了一些方法和指导原则来大幅降低这种成本:永远不要使用'SELECT*`:BigQuery的查询成本基于扫描数据的大小。大多数查询实际上只需要几个字段。因此,仅选择相关字段将显著降低查询成本。集群表:集群是一种整洁的BigQuery功能,可以减少扫描的行数。通过集群,BigQuery优化了数据[…]
由阿里尔·皮塞茨基和塔里克·萨马创作,被认为是理所当然的。这是大多数用户甚至技术人员对DNS的看法。或者更准确地说,他们根本没有想到这一点。DNS对于大多数用户来说是一个已解决的问题。你有一个服务器,它有非常可靠和稳定的软件,可以运行很长时间,几乎不需要维护。解析器甚至为辅助服务器提供了一个很好的内置故障切换机制。那么,关于这个话题还有什么要说的呢?表演DNS服务的性能多年来一直被视为一个地理问题。是的,有一些付费DNS服务在DNS搜索级别本身速度更快,特别是当您谈论的是附加逻辑的复杂记录时。然而,流行的讨论主要围绕全球DNS提供商展开。在[……]