抖音首次公开算法原理技术实现

肖芳 界面新闻 2025年04月16日 上海

推荐系统架构与工作流程

抖音的推荐算法与国内外大部分内容推荐平台相似,包含召回过滤排序等环节,但核心是基于用户行为的学习机制。

典型推荐流程

候选集生成

从内容库筛选初步候选

多路召回

各种召回策略并行获取

排序预估

精排模型对视频打分

重排策略

多样性、新鲜度等考量

抖音总裁韩尚佑解释,推荐系统已几乎不依赖对内容或用户打标签,而是通过神经网络计算,直接预估用户对内容的行为概率

用户行为驱动推荐流

用户打开抖音
算法给候选视频打分
展示得分最高的视频
用户互动(完播/点赞等)
更新用户兴趣模型

核心算法技术详解

协同过滤

抖音的经典推荐算法,基于用户行为数据计算相似度。

用户A看了X,Y,Z视频

用户B看了X,Z,W视频

→ 推断X,Z有较高相似度

→ 向用户A推荐W视频

缺点:推荐结果可能产生明显的头部效应,热门内容更容易被推荐

双塔召回

抖音使用的高效召回技术,通过双塔架构分别处理用户和内容。

用户塔

用户特征

历史行为

内容塔

视频特征

互动数据

两个塔各自编码生成向量,计算向量相似度以高效筛选候选视频

Wide&Deep模型

抖音推荐算法主力模型,结合记忆能力和泛化能力:

Wide部分(记忆能力)

直接学习历史数据中特征的共现频率

例:用户常看美食+旅游类视频

Deep部分(泛化能力)

发掘稀有特征与标签的相关性

例:用户可能对未接触的小众领域感兴趣

解决了协同过滤的头部效应问题,提供更多元化推荐

预估模型工作原理

抖音核心算法流程:

1. 用户行为数据输入

  • 观看时长/完播率
  • 点赞/评论/分享
  • 创作者互动历史
  • 滑动速度/停留

2. 神经网络计算处理

  • 特征提取与嵌入
  • 多层交叉学习
  • 正负样本对比
  • 多头注意力机制

3. 输出行为概率

  • 完播概率
  • 点赞概率
  • 关注概率
  • 互动概率

算法多目标优化

抖音算法工程师刘畅表示,算法更关注用户长期价值,综合考虑多种交互行为:

短期互动指标

完播 点赞 评论 分享

长期价值指标

关注创作者 持续消费 跟拍互动 用户留存

通过加权计算,综合评估视频对用户的长短期价值,避免短视频推荐系统常见的"博眼球"倾向

算法优化与信息茧房破解

多样性推荐技术

多样性打散

算法设置内容相似度阈值,避免连续推荐过于相似的内容,确保视觉和主题的多样性

多兴趣召回

针对用户不同兴趣领域分别单独建模,保证每个领域都有内容被推荐,避免单一兴趣占据推荐流

长尾内容扶持机制

算法设置特殊权重提升小众优质内容的曝光机会,对长尾内容进行"算法倾斜",帮助用户发现更多元的内容

用户主动控制

抖音也提供了用户主动影响算法的机制:

搜索推荐联动

用户主动搜索的内容会影响后续推荐流,帮助用户拓展兴趣边界

"不感兴趣"反馈机制

用户标记"不感兴趣"的内容类型将不再展现,尊重用户主动选择

兴趣探索技术

为打破算法的自我强化循环,抖音实现了主动探索机制:

随机探索机制

算法会有计划地在推荐结果中掺入一定比例的"探索性内容",这些内容与用户既有兴趣无直接相关,但具有一定的普适性或新颖性

社交网络拓展

利用用户社交关系网络,将用户关注的人喜欢的内容加入推荐候选,借助社交关系拓展用户兴趣范围

算法治理与限制

算法无法理解内容语义,对内容理解存在不足,平台通过多重措施进行约束规范:

机器识别系统

  • 违规内容自动识别
  • 低质量内容筛选
  • 敏感信息检测

人工专业研判

  • 专业领域内容审核
  • 疑难问题精准判定
  • 边界内容处理

算法透明度与争议处理

热点事件处理机制

公众对算法的质疑往往源于热点事件处理不透明:

争议案例:吴柳芳事件

用户误解:认为平台算法推荐其擦边内容导致走红

实际情况:事件成为社会热点前,该账号流量较少且无算法推荐;流量增长主要来自用户主动搜索

透明度缺乏加剧了公众误解,用户更关心平台对热点事件的处置透明度,而非算法数学原理

透明度提升措施

抖音采取多种措施增强算法透明度:

安全与信任中心

上线专门网站解释算法原理、风险识别方法和热点问题,如"App会窃听用户谈话吗""网红是平台强推的吗"等

公开沟通交流

副总裁李亮在社交媒体活跃解释算法相关问题,对热点事件进行回应,加强与公众沟通

关键挑战

算法争议不仅是技术问题,还涉及社会热点和公众情绪。即使公开算法原理,仍需进一步提升热点事件处置透明度