![构建企业级推荐系统:算法、工程实现与案例分析](https://wfqqreader-1252317822.image.myqcloud.com/cover/215/39888215/b_39888215.jpg)
上QQ阅读APP看书,第一时间看更新
5.4.1 计算两个视频的相似度(关联度)
该算法利用的是关联规则的思路,在一定时间内(比如24小时内)统计被用户同时播放过的视频对(vi,vj),将播放次数计为cij,那么候选视频vj与vi的相似度可以表示如下:
![](https://epubservercos.yuewen.com/2D1332/20784355001359006/epubprivate/OEBPS/Images/091-i.jpg?sign=1739046581-Uglx1zah8cekkUbbwZnwHCkO5FGXSQRb-0-00d95fbe3de003ea8e3282741cc55458)
其中f(vi,vj)是一个归一化常数,会综合考虑种子视频vi与候选视频vj的“全局流行度”,如果我们分别记ci、cj为视频vi、vj在一段时间内总的播放次数。那么可以定义
f(vi,vj)=ci×cj
该归一化函数是非常直观简单的,当然,用其他归一化函数也是可以的。如果用该归一化函数,对所有候选视频vj来说,ci是一样的,所以可以忽略,其实我们是用候选视频的“全局流行度”cj来归一化。cj在分母中,这说明cj越大的视频,与种子视频vi的相似度会越小,该归一化方法更加偏向于偏冷门的候选视频。
上面只是一个非常简单的描述和计算公式,我们也可以将视频的metadata、观看时间等信息整合进来计算相似度。另外,还需要处理“脏”的播放行为数据。