基于循环神经网络和广告转化率的个性化推荐模型研究【2】
2018年02月11日11:09 | 来源:人民网研究院
小字号
3个性化推荐模型的设计与实现
3.1数据预处理与特征工程
数据预处理模块主要实现以下功能:
数据读取:采用多线程分块读取技术将存储在CSV文件中的数据按照文件块的大小读取到内存中,文件块的大小取决于当前系统的可用内存。
数据分箱:将分布区间大但是相对集中的特征进行区间分化,使得每个区间里分布的数据数量差不多,这个过程就是对数据的分箱过程,目的是将连续的数据离散化成枚举类型的数据。
未知数据填充:填充方法包括上值填充、下值填充和均值填充。一般情况下采用均值填充法,但实际上三者的区别不大,也可以混合使用。
数据集成:数据是指将多条数据整合到一致存储空间中的一种处理方法,类似于重复数据清除,不过是更加高级的手段,可以对相似的数据进行整合,一般通过卡方检验来计算数据的相似度,进而将相似数据的相似特征进行合并,减少整体计算量。
特征工程是训练数据分析模型的核心工作,本文依靠类间可分性理论使用基于距离的类间可分性判据J3来设计特征筛选算法,所用到的公式如下:
从图3-1可以发现,类的可分性与J3成正比,因此本文设计的特征筛选算法的核心思想就是通过对特征集合进行筛选来使得整体数据集的J3尽量大,基于J3的特征提取算法如图3-2所示。
(责编:温静、赵光霞)
分享让更多人看到
推荐阅读
相关新闻
- 评论
- 关注