预测文章的性能,使用机器学习模型

发布的

介绍

新闻编辑室承受着不断的压力,要尽可能地提供最新的、相关的和吸引人的信息。在Taboola,我们正在构建工具,使这一过程变得更快、更容易,而且现在是可预测的。一旦一篇文章发表,团队就会对用户粘性数据进行批判。尽快洞察文章的表现对于指导内容策略至关重要。有些文章立即得到广泛的关注,在几分钟内吸引了数十万的页面浏览量,而有些文章可能在几个小时后才看到第一页的浏览量。

Taboola的目标是进一步缩小这一差距,通过利用机器学习模型来预测文章在读者阅读后的表现。请继续阅读我们关于预测文章性能的最新研究和迷人发现的详细信息!

文章数据

Taboola新闻编辑室是一项实时优化技术,为编辑团队提供可操作的数据,标题、缩略图和广告植入能够在桌面和手机平台上产生最大的用户粘性。当启用时,它会不断处理来自发行者的所有流量和参与度数据。例如,所有文章页面浏览量都是按来源、位置和平台分组的。对于下面的模型,一分钟的时间间隔为用于理解文章数据。

因为不同的发行商可能会有不同的用户参ac米兰赞助商 vwin与模式,所以我们的初步研究2017年,研究模型聚焦于一家美国主流出版商。使用在一周内发布的文章,发布后两个小时的流量如下图所示。大多数文章都是在工作时间发表的,热门文章通常会立即获得大量流量。

所有的文章都表现出不同的性能趋势,但是在这些差异中没有明确的模式可以确定。尽管其他与文章相关的信息可能会对性能产生影响(例如作者、文章类别、发布时间),该数据在此图表中不使用。

模型

我们使用了多种机器学习算法来分析新闻文章,其中三篇文章的结果如下所示。为了最大化模型的应用价值,流量数据被限制在发布后的前30分钟。

一个。视图模型

对发布者来说,每篇文章的总页面浏览量是一项重要指标;ac米兰赞助商 vwin通过了解页面访问量的预测,它可以帮助他们尽早推广潜在的文章,并用更好的文章取代参与度较低的文章。

该目标定义为每篇文章在发布后的前24小时内的总页面浏览量。应用了几个特色工程成果:

  • 由于分钟级流量对于低流量的文章来说是稀疏的,所以我们使用了不同长度的时间窗。
  • 分类特征,如作者、新闻部分和位置被编码并转换成数字特征。
  • 低流量的地理区域被分组在一起。

建立了一个基于梯度增强树的模型来预测目标浏览量。页面浏览量错误率,即页面浏览量错误率除以总页面浏览量,在左侧显示为页面浏览量的函数。

由于文章在开始30分钟后发生了一些变化,比如在Facebook上分享,所以预测结果可能与实际的页面浏览量有所不同。这些操作将极大地改变总流量,但在此建模中不考虑这些操作。总的来说,该初步模型的错误率约为35%。

b。声望模型

在这个模型中,不是直接预测特定的页面视图,而是考虑了一个分类模型。有些文章在早期就显示出吸引注意力的巨大潜力;能够在早期阶段识别并推广这些内容能够让发行商获得相对于竞争对手的优势。

我们设置了一个页面浏览量阈值来标记有可能获得大众欢迎的文章。建立了一个模型来识别这些潜在的文章。下面直方图中的红色虚线代表阈值。

模型建立后,采用任意阈值对条目进行划分。这个阈值提供了准确性和召回率之间的权衡,如上图右侧所示。一般来说,该模型可以以85%的精度捕获超过一半的流行文章。

深度学习模型

由于交通数据以相同的结构顺序连接和组织,递归神经网络(RNN)是一种很好的结构建模方法。

在TensorFlow中建立了一个混合模型来预测24小时内的总流量;如图所示。该混合模型包含两个部分:RNN和全连接层(FC-layers)。第一个RNN的输出与分类特征连接并馈送到第2个fc层。

采用学习率衰减的Adam优化器对该回归模型进行训练。在没有任何进一步的超参数调整的情况下,这个模型的预测精度(均方根误差)与PageView模型相似,但它具有最高的潜力。

总结

机器学习模型的应用在理解新闻文章的流量趋势方面显示出巨大的潜力。由于在几分钟内的流量很小,模型可以识别流行的文章,在准确性和召回率之间取得良好的平衡。初步的深度学习模型(如RNN)也显示了与传统模型相似的性能(经过仔细的调整)。深度学习模型在经过长期的微调后,应该会超过预期。Taboola将利用这一实验继续构建工具,支持编辑部的编辑和作者完善和调整他们的内容策略。

今天就开始你的Taboola事业吧!