科研动态

当前位置:首页  科研教学  科研动态

深度时空张量分解框架下的大规模用户访问理解和预测

发布时间:2020-05-10浏览次数:57

为实现精准流量变现,广告业务成为互联网最主要的商业模式之一。然而百亿级用户访问,数万维的用户属性使广告库存预估极其困难。传统时间预测模型难以处理大规模时序数据;基于深度学习的预测模型虽然可以很好的预测高维时间序列,但是却忽略了属性组合和属性之间的关联。基于对大量真实广告数据的分析,我们将属性的组合、属性之间关联,以及广告库存的长周期和短周期特征都纳入考虑,提出了深度时空张量分解模型,同时对时间特征和属性组合特征进行建模,并且能够充分利用长周期数据。

该模型的基本的设计思路来源于张量分解,如图所示,基于PVD模型,我们将库存文件U分解为属性组合特征时间序列特征和长周期特征,求解库存文件的每一个未知元素u。与已知的方法相比,通过年这一维度的加入,不仅使模型更通用,并可以更好的结合历史长周期数据进行预测。我们使用的求解u的模型具体可分为三个部分:

Spatial Model:为更关注关键输入,该部分首先使用Attention机制提取同类别属性的相关关系,使我们更关注关键的输入部分,然后将所有属性的编码拼接作为DeepCross网络的输入,用以提取不同类别属性的关联关系。

Temporal Model:受启发于CLDNN,我们首先利用CNN提取浅层特征,然后将该特征输入RNN进一步抽取时序特征,并引入历史年份同期数据,兼顾了长、短周期时序特征。

Multi-task:整个模型包括两个任务:不仅包括利用张量分解预估未来的广告库存,还包括利用自编码器重构历史数据的Auto-Encoder,进一步提高了模型的预估精度。

本工作所提出的ST-TF模型在腾讯视频前贴片和REMS-SF的数据集上相比CNN和和TRMF都有了显著提升,这些提升主要来源于更好的属性组合特征提取和多任务等设计。目前该工作以及实际运用于腾讯视频广告系统。

更多技术细节请参见论文:Xiaoyang Ma, Lan Zhang, Lan Xu, Zhicheng Liu, Ge Chen, Zhili Xiao, Yang Wang, Zhengtao Wu. Large-scale User Visits Understanding and Forecasting with Deep Spatial-Temporal Tensor Factorization Framework. ACM SIGKDD 2019.