科研动态

深度时空张量分解框架下的大规模用户访问理解和预测

发布时间：2020-05-10浏览次数：57

为实现精准流量变现,广告业务成为互联网最主要的商业模式之一。然而百亿级用户访问，数万维的用户属性使广告库存预估极其困难。传统时间预测模型难以处理大规模时序数据；基于深度学习的预测模型虽然可以很好的预测高维时间序列，但是却忽略了属性组合和属性之间的关联。基于对大量真实广告数据的分析，我们将属性的组合、属性之间关联，以及广告库存的长周期和短周期特征都纳入考虑，提出了深度时空张量分解模型，同时对时间特征和属性组合特征进行建模，并且能够充分利用长周期数据。

该模型的基本的设计思路来源于张量分解，如图所示，基于PVD模型，我们将库存文件U分解为属性组合特征时间序列特征和长周期特征,求解库存文件的每一个未知元素u。与已知的方法相比，通过年这一维度的加入，不仅使模型更通用，并可以更好的结合历史长周期数据进行预测。我们使用的求解u的模型具体可分为三个部分：

Spatial Model:为更关注关键输入，该部分首先使用Attention机制提取同类别属性的相关关系，使我们更关注关键的输入部分，然后将所有属性的编码拼接作为DeepCross网络的输入，用以提取不同类别属性的关联关系。

Temporal Model：受启发于CLDNN，我们首先利用CNN提取浅层特征，然后将该特征输入RNN进一步抽取时序特征，并引入历史年份同期数据，兼顾了长、短周期时序特征。

Multi-task：整个模型包括两个任务：不仅包括利用张量分解预估未来的广告库存，还包括利用自编码器重构历史数据的Auto-Encoder，进一步提高了模型的预估精度。

本工作所提出的ST-TF模型在腾讯视频前贴片和REMS-SF的数据集上相比CNN和和TRMF都有了显著提升，这些提升主要来源于更好的属性组合特征提取和多任务等设计。目前该工作以及实际运用于腾讯视频广告系统。