# 推荐系统介绍

# 目的

面对信息过载采用的措施，面对海量的数据信息，从中快速推荐出符合用户特点的物品
解决如何从大量信息中找到感兴趣的信息
解决如何让自己生产的信息脱颖而出，受到大众的喜爱

# 推荐系统基本思想

利用用户和物品的特征信息，给用户推荐那些用户喜欢的特征物品（知人所想）
根据用户喜欢过的物品，给用户推荐与他喜欢过的物品相似的物品（物以类聚）
找到跟用户相似的其他用户，给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品（人以群分）

# 推荐系统的分类

根据实时性分类
- 离线推荐
- 实时推荐
根据推荐是否个性化分类
- 基于统计的推荐：热门、热搜
- 个性化推荐
根据推荐原则分类
- 基于相似度的推荐：物以类聚、人以群分
- 基于知识的推荐：基于规则
- 基于模型的推荐：基于机器学习
根据数据源的分类
- 基于人口统计学的推荐：用户画像等
- 基于内容的推荐
- 基于协同过滤的推荐：基于行为数据

# 推荐算法简介

# 基于人口统计学的推荐

已知用户信息，进行人以群分的推荐

# 基于内容的推荐

已知物品的信息，进行物以类聚的推荐

# 基于协同过滤的推荐

协同过滤（Collaborative Filtering，CF），同时跟物品和用户有关联，利用物品和用户的协同进行进行筛选推荐，过滤出推荐信息，称为协同过滤。

基于近邻的协同过滤
- 基于用户（User-CF）
- 基于物品（Item-CF）
基于模型的协同过滤
- 奇异值分解
- 潜在语义分析
- 支持向量机

基于内容的推荐方法，主要利用的是用户评价过的物品的内容特征，而CF方法还可以利用其他用户评分过的物品内容（CF用到所有用户和所有物品的协同信息）

CF比较依赖历史数据（那个用户和物品的协同矩阵，一般是稀疏的，因为只要少量的人去评价，少量的物品被评价），所以冷启动的时候比较困难，因为没有任何数据，此时可以直接给个热门推荐，或者根据用户的标签进行推荐，所以真正使用时，是多种推荐方式进行结合的。

# 混合推荐

加权混合：将不同的推荐按照一定的权重组合起来，具体权重的值需要在测试数据上反复试验，从而达到最好的推荐效果
切换混合：切换的混合方式，就是允许在不同的情况（数据量、系统运行状况、用户和数目等）下，选择最为合适的推荐机制计算推荐
分区混合：采用多种推荐机制，将不同的推荐结果分不同的区显示用户
分层混合：采用多种推荐机制，并将一个推荐机制的结果作为另一个的输入，从而综合各个推荐机制的优缺点，得到更准确的推荐

# 推荐系统的评价指标

# 离线实验

通过体制系统获得用户的行为数据，并按照一定格式生成一个标准数据集
将数据集按照一定的规则分成测试集和训练集
在你训练集上训练用户兴趣模型，在测试集上进行预测
通过实现定义的离线指标评测算法在测试集上的预测结果

优点：只要有日志，进行采集和清洗后就可以离线实验了

缺点：无法取得用户的点击率，购买转换率等等

# 用户调查

用户调查需要有一些真实用户，让他们在需要测试的推荐系统上完成一些任务，我们需要记录他们的行为，并让他们回答一些问题，进行分析

优点：数据真实，直接获取第一手资料

缺点：找到靠谱的用户比较难

# 在线实验

AB测试：将用户分成两部分，推荐系统分为两套，在线去看不同用户的行为数据，统计不同评测指标，来考察两组推荐系统的优劣。缺点就是，即使用户量很大，也需要长期的时间去收集用户的行为结果

# 推荐系统的评测指标

预测准确度、用户满意度、信任度、实时性、健壮性、覆盖率、多样性、惊喜度、商业目标

准确度评测：1. 比如很多网站都让用户给物品打分，如果知道用户对物品的历史评分，就可以从中学习一个兴趣模型，从而预测用户对新物品的评分 2. 评分预测的准确度一般用均方根误差（RMSE）或者平均绝对误差计算（MAE）
Top-N推荐：一般是给用户一个个性化推荐列表，这种推荐叫做Top-N推荐，Top-N推荐的预测准确率一般用精确度和召回率来度量

← 概述矩阵分解 →