推荐系统架构与工作流程
抖音的推荐算法与国内外大部分内容推荐平台相似,包含召回、过滤、排序等环节,但核心是基于用户行为的学习机制。
典型推荐流程
候选集生成
从内容库筛选初步候选
多路召回
各种召回策略并行获取
排序预估
精排模型对视频打分
重排策略
多样性、新鲜度等考量
抖音总裁韩尚佑解释,推荐系统已几乎不依赖对内容或用户打标签,而是通过神经网络计算,直接预估用户对内容的行为概率
用户行为驱动推荐流
核心算法技术详解
协同过滤
抖音的经典推荐算法,基于用户行为数据计算相似度。
用户A看了X,Y,Z视频
用户B看了X,Z,W视频
→ 推断X,Z有较高相似度
→ 向用户A推荐W视频
缺点:推荐结果可能产生明显的头部效应,热门内容更容易被推荐
双塔召回
抖音使用的高效召回技术,通过双塔架构分别处理用户和内容。
用户塔
用户特征
历史行为
内容塔
视频特征
互动数据
两个塔各自编码生成向量,计算向量相似度以高效筛选候选视频
Wide&Deep模型
抖音推荐算法主力模型,结合记忆能力和泛化能力:
Wide部分(记忆能力)
直接学习历史数据中特征的共现频率
例:用户常看美食+旅游类视频
Deep部分(泛化能力)
发掘稀有特征与标签的相关性
例:用户可能对未接触的小众领域感兴趣
解决了协同过滤的头部效应问题,提供更多元化推荐
预估模型工作原理
抖音核心算法流程:
1. 用户行为数据输入
- 观看时长/完播率
- 点赞/评论/分享
- 创作者互动历史
- 滑动速度/停留
2. 神经网络计算处理
- 特征提取与嵌入
- 多层交叉学习
- 正负样本对比
- 多头注意力机制
3. 输出行为概率
- 完播概率
- 点赞概率
- 关注概率
- 互动概率
算法多目标优化
抖音算法工程师刘畅表示,算法更关注用户长期价值,综合考虑多种交互行为:
短期互动指标
长期价值指标
通过加权计算,综合评估视频对用户的长短期价值,避免短视频推荐系统常见的"博眼球"倾向
算法优化与信息茧房破解
多样性推荐技术
多样性打散
算法设置内容相似度阈值,避免连续推荐过于相似的内容,确保视觉和主题的多样性
多兴趣召回
针对用户不同兴趣领域分别单独建模,保证每个领域都有内容被推荐,避免单一兴趣占据推荐流
长尾内容扶持机制
算法设置特殊权重提升小众优质内容的曝光机会,对长尾内容进行"算法倾斜",帮助用户发现更多元的内容
用户主动控制
抖音也提供了用户主动影响算法的机制:
搜索推荐联动
用户主动搜索的内容会影响后续推荐流,帮助用户拓展兴趣边界
"不感兴趣"反馈机制
用户标记"不感兴趣"的内容类型将不再展现,尊重用户主动选择
兴趣探索技术
为打破算法的自我强化循环,抖音实现了主动探索机制:
随机探索机制
算法会有计划地在推荐结果中掺入一定比例的"探索性内容",这些内容与用户既有兴趣无直接相关,但具有一定的普适性或新颖性
社交网络拓展
利用用户社交关系网络,将用户关注的人喜欢的内容加入推荐候选,借助社交关系拓展用户兴趣范围
算法治理与限制
算法无法理解内容语义,对内容理解存在不足,平台通过多重措施进行约束规范:
机器识别系统
- 违规内容自动识别
- 低质量内容筛选
- 敏感信息检测
人工专业研判
- 专业领域内容审核
- 疑难问题精准判定
- 边界内容处理
算法透明度与争议处理
热点事件处理机制
公众对算法的质疑往往源于热点事件处理不透明:
争议案例:吴柳芳事件
用户误解:认为平台算法推荐其擦边内容导致走红
实际情况:事件成为社会热点前,该账号流量较少且无算法推荐;流量增长主要来自用户主动搜索
透明度缺乏加剧了公众误解,用户更关心平台对热点事件的处置透明度,而非算法数学原理
透明度提升措施
抖音采取多种措施增强算法透明度:
安全与信任中心
上线专门网站解释算法原理、风险识别方法和热点问题,如"App会窃听用户谈话吗""网红是平台强推的吗"等
公开沟通交流
副总裁李亮在社交媒体活跃解释算法相关问题,对热点事件进行回应,加强与公众沟通
关键挑战
算法争议不仅是技术问题,还涉及社会热点和公众情绪。即使公开算法原理,仍需进一步提升热点事件处置透明度