人民网
人民网>>传媒>>人民网奖学金>>哈尔滨工业大学>>哈工大2017

基于循环神经网络和广告转化率的个性化推荐模型研究

孙旭
2018年02月11日11:09 | 来源:人民网研究院
小字号

摘要:个性化推荐模型是根据用户的特征和行为进行分析来得出用户的潜在想法的计算模型,本文在通过在计算广告领域进行调研,结合循环神经网络结构与广告转化率理论,深入讨论如何设计并实现个性化的广告推荐模型。在模型的实现过程中,本文使用类间可分性判据来进行特征提取,设计并实现了状态更新算法来改进RNN结构,最后通过数据集来验证模型的有效性。

关键词:计算广告;神经网络;个性化推荐;用户行为分析、

1前言

个性化推荐技术是指根据用户的特征来进行精准推荐的过程,目前被广泛应用于电子商务领域。随着信息的爆炸式增长,人们发现被动式的信息检索越来越难以满足要求,因此能够将信息主动推荐给用户的个性化推荐系统正慢慢成为研究的热点话题。

一个完整的个性化推荐系统有三个部分组成,用户信息收集、数据分析模型和个性化推荐算法。本文重点讨论的是如何在计算广告领域通过神经网络结构搭建可靠的广告推荐模型,根据用户的行为和特征分析用户的潜在想法来进行精准的广告投放,也就是整个系统的数据分析模型部分。

2广告转化率与循环神经网络

2.1广告转化率与转化数据

计算广告领域是目前互联网行业的重要研究方向之一,计算广告就是指通过对用户的特征和用户对广告的兴趣程度来进行精准投放。广告的投放效果的评价指标包括曝光率、点击率和转化率,其中最重要的就是广告的转化率。在本文要讨论的个性化推荐模型中,需要对输入的广告转化数据进行预处理并提取特征,然后使用模型生成工具(本文使用的是LSTM神经网络结构)通过转化数据来训练转化率预估模型。

转化数据是指广告提供商根据广告日志中的信息进行提取得到的广告转化数据,一般包括广告特征数据、用户特征数据和上下文特征数据。

2.2循环神经网络的一般结构

神经网络的是一种模拟生物神经网络的计算模型,近年来在计算机视觉和NLP以及语音识别等领域取得了许多突破性的进展。目前常用的有DNN、CNN和RNN三种类型的神经网络架构。

DNN是最基本的神经网络结构,许多早期的神经网络模型都是采用DNN结构,但是由于其结构简单,只是通过添加隐藏层来确保数据分析的准确性,目前已逐渐被CNN和RNN类的神经网络结构取代。CNN是卷积神经网络的统称,采用卷积核对特征进行提取,达到在大量特征的情况下减小计算量的目的,目前主要用于图像识别和计算机视觉领域。RNN结构由于可以将当前运算单元的运算结果直接传递给自身进行循环计算,因此被称为循环神经网络。由于其具有可以预测时间序列的优良特性,目前被广泛应用于语音识别和个性化推荐等领域。

个性化推荐技术是计算广告领域的核心,通过研究目前的主流分析方法,发现在分析广告转化数据时需要根据已有的信息在时间维度上进行分析,这样能达到更好的预测结果。因此需要采用区别于传统神经网络的循环神经网络,标准RNN的节点处理逻辑如图2-1所示。

RNN最明显的特征就是每一个处理节点可以进行多次处理,如果将这种循环按照时间展开可以得到如图2-2所示的链式展开结构,这种链式展开结构也证明了RNN本质上是对一个神经网络节点进行多次复制来达到对时间序列的分析和预测效果。

但是随着RNN在各领域崭露头角,其隐藏的问题也逐渐显露,首先最严重的问题是随着时间维度的增加,节点之间的依赖度会大幅度减小,会产生长期依赖丢失的问题,丧失远端信息的关联性;另一方面,随着数据集规模的增加,RNN和DNN一样会产生梯度消失的问题。为了解决这些问题,本文在第三章提出了一种改进后的RNN结构。

2.3转化率预估模型

转化率预估模型是以转化数据作为驱动来估计广告投放效果的模型的,由于本文设计的个性化推荐模型是一个根据用户需求精准投放广告的计算模型,其核心部分是使用神经网络来训练转化率预估模型。

为了使训练出的模型的准确性更强,需要在训练模型之前对数据进行预处理和特征筛选(特征工程),在训练模型之后需要对模型进行评价,来选出最优质的转化率预估模型。

由于计算广告的转化率预估可以抽象为二分类问题,常用的评价手段有logloss损失函数评价和ROC曲线评价。Logloss的计算公式如图2-3所示,其中,N是测试样本总数,yi是二值变量,取值0或1,表示第i个样本的label,pi为模型预测第i个样本 label为1的概率。

ROC曲线能够直观反映模型的准确度,其曲线AUC(下面积)越大说明分类的准确度越高,是一种能够评价二分类模型的曲线。

(责编:温静、赵光霞)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部