Mind of Data Analytics

学会思考

客观严谨的分析

= 事实 + 论证过程 + 观点
不能预设立场去分析问题,也就是为了证明而证明,为了证明一个观点去找无数数据去作证,直到立场被证明成立,反之,要学会假设检验。

指标思维

构建指标体系

1. 确定主指标

通过OSM 模型确认
OSM 模型的三个核心要素
  1. Objective(目标)

    • 定义:清晰、具体、可衡量的最终目标(如“提升用户留存率”)。

    • 要求:符合 SMART 原则(具体、可衡量、可实现、相关性、时限性)。

  2. Strategy(策略)

    • 定义:实现目标的具体方法或行动计划(如“优化用户体验”)。

    • 关键:需与目标直接关联,具备可操作性。

  3. Measurement(测量)

    • 定义:量化策略效果的指标(如“用户留存率提升 10%”)。

    • 作用:监控进度、验证策略有效性,并指导调整。

2. 拆分子指标

3. 拆分过程指标

4. 添加分类维度

根据业务需求添加,比如时间,地域等。

逻辑推理

归纳法:快速决定,但容易以偏概全。
演绎法(大前提 + 小前提 + 结论):可靠,但需要更多时间。

结构化思维

分解问题:MECE 原则(独立,穷尽)。

逻辑树

  1. 议题树:拆分问题,遵循 MECE 原则
  2. 假设树:验证某个猜想或者已经发生的情况(本月销售额出现下滑)
  3. 是否树:用于问题排查

系统性思维

观察生态系统(正负反馈),关注问题间的相互作用(如“降价促销→短期客单价↓→长期品牌价值↓→流量↓”)。

  • 案例:分析“降价促销的影响”→ 考虑价格、销量、品牌、竞品反应的动态平衡。

数据分析の方法or工具

  1. 对比分析
  2. 多维度拆解分析
  3. 相关分析
  4. 群组分析(同期群分析)
  5. P(政治)E(经济)S(社会)T(技术) 分析
  6. SWOT 分析法:发挥S(优势因素),克服W(弱点因素),利用O(机会因素),化解T(威胁因素);考虑过去,立足当前,着眼未来。
  7. 5W2H
  8. 帕累托分析(28 定律)
  9. 购物篮分析

用户价值分析:R(最近一次消费间隔)F(消费频率)M(消费金额)

1. RFM的含义

RFM代表三个核心用户行为维度:

  • R - Recency (最近一次消费时间): 用户上一次购买或互动距离现在有多久。核心思想: 最近消费的用户更有可能再次购买,对促销活动响应更积极。R值越小(即最近消费过),用户价值通常越高。

  • F - Frequency (消费频率): 在特定时间段内(如过去一年、半年),用户购买或交易的次数。**核心思想:**频繁购买的用户通常更忠诚、更活跃,对企业价值更大。F值越大,用户价值通常越高。

  • M - Monetary (消费金额): 在特定时间段内,用户为企业贡献的总金额(可以是销售额、利润、充值额等)。核心思想: 花钱多的用户直接贡献了更高的收入。M值越大,用户价值通常越高。

2. RFM模型的工作原理

  1. 数据收集: 收集用户的历史交易数据,至少需要包含:用户ID、交易时间、交易金额。

  2. 定义分析周期: 确定你要分析的时间范围(通常是过去6个月、1年或2年)。

  3. 计算每个用户的RFM值:

    • R值: 计算每个用户最后一次交易日期到分析截止日期(通常是今天)之间的天数。天数越少,R值越好。

    • F值: 统计每个用户在分析周期内的交易次数。

    • M值: 计算每个用户在分析周期内的交易总金额(或平均交易金额、利润额)。

  4. 对RFM值进行分层/打分:

    • 常用分层方法:

      • 等分法: 将用户按数值大小平均分成N组(如5组)。例如,按R值从小到大排序,前20%的用户得5分,接下来的20%得4分,以此类推,最后20%得1分。F值和M值则从大到小排序打分(最高20%得5分,最低20%得1分)。

      • 业务规则法: 根据业务经验和目标设定阈值。例如,R值:1-30天=5分,31-90天=4分,91-180天=3分,181-365天=2分,>365天=1分。F值:>10次=5分,6-10次=4分等。M值同理。

    • 最终,每个用户都会获得三个分数:R_Score, F_Score, M_Score(通常在1-5分之间)。

  5. 组合RFM分数:

    • 将三个分数(R_Score, F_Score, M_Score)连接起来,形成一个三位数的RFM组合代码(如 5-5-51-2-34-1-5 等)。

    • 这个组合代码代表了该用户在这三个维度上的综合表现。

  6. 用户分群:

    • 最核心的8大群体划分(基于3分法,即每个维度分高中低三档):

      • 高R-高F-高M重要价值客户 - 最优质用户,需重点维护。

      • 高R-高F-中M重要发展客户 - 忠诚且活跃,但消费不高,可尝试提升其客单价(如推荐高端产品)。

      • 高R-高F-低M重要保持客户 - 活跃且频繁,但每次花钱少,需关注其潜力或原因(如是否只买打折品)。

      • 高R-中F-高M重要挽留客户 - 近期有消费且金额大,但频率不高(可能是大客户但购买周期长),需防止流失。

      • 中R-高F-高M潜力客户 - 过去贡献大且频繁,但近期没来,需主动唤醒。

      • 中R-中F-中M一般客户 - 表现平平,潜力待挖掘。

      • 中R-低F-低M / 低R-中F-低M / 低R-低F-中M低价值客户 - 价值较低,需评估维护成本。

      • 低R-低F-低M流失客户 - 很久没来,贡献低,可考虑减少投入或低成本召回策略。

  7. 制定并执行策略:

    • 针对不同价值群体,设计差异化的营销、服务和产品策略:

      • 重要价值客户: 提供最高级别VIP服务、专属优惠、优先购买权、个性化推荐、高价值礼品/积分奖励。目标是维持忠诚度,提高复购和推荐。

      • 重要发展/保持客户: 推送促进客单价提升的优惠(满减、捆绑销售)、忠诚度计划、专属活动。目标是提升其消费水平。

      • 重要挽留/潜力客户: 发送强有力的召回信息(专属折扣、新品通知、生日/节日关怀)、了解流失原因(调研)。目标是重新激活。

      • 一般客户: 推送常规促销、引导参与活动、尝试交叉销售/向上销售。目标是培养习惯,提升活跃度和价值。

      • 低价值/流失客户: 减少营销频次或投入,或采用低成本召回策略(如EDM推送)。目标是降低成本或尝试挽回部分有潜力的用户。

海盗指标(Pirate Metrics-AARRR)

专注于用户生命周期的五个关键环节,帮助企业优化增长策略。以下是每个阶段的详细说明:

1. 获取(Acquisition)

定义:用户如何发现并首次接触你的产品或服务。
关键指标

  • 流量来源(如自然搜索、社交媒体、广告等)
  • 点击率(CTR)
  • 用户获取成本(CAC)
    优化策略
  • 测试不同渠道的转化效果(如SEO、SEM、社交媒体广告)。
  • 优化落地页设计,降低跳出率。
    示例:通过Google Ads投放广告,分析不同广告组的点击率和注册转化率。

2. 激活(Activation)

定义:用户首次体验产品的核心价值,完成关键行为(如注册、完成教程、首次购买)。
关键指标

  • 激活率(完成关键行为的用户比例)
  • 新用户引导流程转化率
    优化策略
  • 简化注册流程,减少步骤。
  • 通过引导教程(Onboarding)突出产品核心功能。
    示例:用户注册后收到个性化欢迎邮件,引导完成首次操作(如上传头像、发布第一条内容)。

3. 留存(Retention)

定义:用户是否持续使用产品,避免流失。
关键指标

  • 次日/7日/30日留存率
  • 用户流失率
  • 重复使用频率
    优化策略
  • 通过推送通知、邮件提醒召回用户。
  • 提供长期价值(如会员权益、内容更新)。
    示例:Netflix通过推荐算法推送个性化内容,提升用户持续观看率。

4. 收入(Revenue)

定义:用户为产品付费,实现商业化变现。
关键指标

  • 平均用户收入(ARPU)
  • 付费转化率
  • 客户生命周期价值(LTV)
    优化策略
  • 设计分层定价策略(如免费版、高级版)。
  • 优化付费流程(如减少支付步骤)。
    示例:Spotify通过免费试用吸引用户,再引导订阅付费会员。

5. 推荐(Referral)

定义:用户主动推荐产品给他人,形成病毒传播。
关键指标

  • 推荐率(用户邀请他人的比例)
  • 病毒系数(每个用户带来的新用户数),系数>1 意味着每位用户能稳定带来 1 位新用户
    优化策略
  • 提供邀请奖励(如积分、折扣、特权)。
  • 简化分享流程(如一键分享到社交媒体)。
    示例:Dropbox通过“邀请好友获得免费存储空间”实现快速增长。

AARRR框架的核心价值

  1. 系统性分析:从用户获取到推荐的全链路优化。
  2. 优先级排序:明确不同阶段的改进重点(如早期关注激活,后期提升留存)。
  3. 数据驱动:通过指标量化效果,避免主观决策。

因果推断

观察数据或实验数据中识别变量之间的因果关系(而不仅仅是相关性)。其核心目标是回答“如果改变某个变量,会对另一个变量产生什么影响?”这类因果问题。

AB test(随机对照,实验性研究)

ABTest的流量分割一般采用分层分流,流量正交。

AB测试的核心步骤

  1. 明确目标

    • 确定核心指标(如转化率、点击率、留存率),确保指标可量化且与业务目标强相关。

    • 例如:电商平台可能关注“购买转化率”,内容平台可能关注“用户停留时长”。

  2. 提出假设

    • 基于问题或洞察提出可验证的假设,例如:“修改按钮颜色(从蓝色改为红色)能提升点击率”。
  3. 设计实验

    • 分组:将用户随机分为对照组(A组)和实验组(B组),确保两组用户特征分布一致。

    • 样本量计算:通过统计功效(Power,通常≥80%)、显著性水平(α,通常5%)、最小可检测效应(MDE)计算所需样本量,避免结果因样本不足产生偏差。

    • 测试时长:考虑用户行为周期(如工作日/周末差异)和流量波动,通常需覆盖完整周期。

  4. 实施测试

    • 确保技术实现无误(如流量分配、数据埋点),避免因代码错误导致数据污染。
  5. 数据分析

    • 使用统计检验(如T检验、Z检验)判断差异是否显著,计算置信区间和p值。

    • 关注实际效果大小(如转化率提升0.5%是否有业务价值)。

  6. 结论与迭代

    • 若结果显著且正向,可推广新方案;若未达预期,需分析原因并调整假设。

AB测试的常见错误及规避方法

  1. 样本量不足

    • 问题:样本过小导致统计功效低,可能漏检真实效应(第二类错误)。

    • 解决:使用工具(如G*Power)预先计算所需样本量,确保每组用户数达标。

  2. 测试时间不当

    • 问题:测试时间过短(未覆盖用户周期)或过长(外部因素干扰)。

    • 解决:至少运行1-2个完整用户周期(如7天),监控季节性波动(如节假日)。

  3. 选择性关注指标

    • 问题:仅关注核心指标,忽略副作用(如点击率上升但客单价下降)。

    • 解决:建立指标体系,监控相关指标(如漏斗各环节、用户满意度)。

  4. 分组不随机

    • 问题:用户分组存在偏差(如A组多为新用户,B组多为老用户)。

    • 解决:使用哈希算法随机分配,并通过AA测试(空跑测试)验证分组均匀性。

  5. 忽略外部干扰因素

    • 问题:同期进行的营销活动、系统故障等干扰结果。

    • 解决:记录实验期间的外部事件,分析其对数据的潜在影响。

  6. 过早停止测试

    • 问题:看到“显著结果”后立即终止实验,可能因数据波动误判。

    • 解决:坚持预定测试周期,或使用序贯检验(Sequential Testing)动态调整。

  7. 误读统计显著性

    • 问题:p<0.05但效果微小(如转化率从2%到2.1%),缺乏业务价值。

    • 解决:结合置信区间和业务目标判断实际意义,避免盲目追求显著性。

双重差分法(非随机对照,观察性研究)

维度 说明 示例(奶茶店活动评估)
核心思想 通过两次减法剥离外部因素,计算政策净效应:
DID = (处理组后-前) - (对照组后-前)
处理组(A店)变化:150-100=50杯
对照组(B店)变化:120-100=20杯
净效应:50-20=30杯
核心假设 平行趋势假设:若无政策,处理组和对照组的趋势一致 假设A店不搞活动,销量也会随天气变热增加20杯(与B店相同)
适用场景 观察性数据中评估政策或干预的因果效应 评估“第二杯半价”活动是否真的提升销量(而非天气影响)
关键变量 - 处理组:受政策影响的群体(如A店)
- 对照组:未受影响的群体(如B店)
- 时间:政策前后
处理组=1(A店),对照组=0(B店)
政策前=0,政策后=1
数据要求 处理组和对照组在政策前后的面板数据(多期观测) A店和B店在活动前1个月、活动后1个月的每日销量数据
操作步骤 1. 验证平行趋势假设
2. 计算双重差分值
3. 统计检验(如回归分析)
1. 检查活动前A/B店销量趋势是否一致
2. 计算净效应30杯
3. 判断30杯是否显著(非随机波动)
优点 - 控制时间趋势和组间固有差异
- 无需随机实验,适用于观察性数据
即使天气变热导致销量普遍上升,也能分离出活动的真实效果
缺点 - 依赖平行趋势假设(若违反则结果有偏)
- 需谨慎选择对照组
若A店所在商圈突然修路,对照组无法反映此干扰,导致结果偏差
检验方法 - 平行趋势检验:政策前多期数据对比趋势
- 安慰剂检验:虚构政策时间
活动前3个月A/B店销量每月增长5杯,趋势一致
假设活动提前1个月,验证是否无效应
常见错误 - 对照组与处理组不相似
- 忽略其他干扰事件
- 政策前趋势不一致
选服装店作对照组(无关)
活动期间A店附近修路(未控制)
A店政策前增长更快

补充:什么是观察性研究和实验性研究

传送门:https://zhuanlan.zhihu.com/p/510774637

维度 观察性研究 实验性研究
干预控制 ❌ 无干预(仅记录已有现象)。 ✅ 主动干预(如改变变量X,观察Y的变化)。
随机化 ❌ 无随机分组,依赖自然分组(如吸烟者与非吸烟者)。 ✅ 随机分配研究对象到不同组(如AB测试中的A组和B组)。
因果推断能力 ⚠️ 较弱(需通过统计方法控制混杂因素,残留未观测偏差风险)。 ✅ 较强(随机化均衡已知和未知混杂因素,可直接估计因果效应)。
伦理限制 通常无伦理问题(如研究吸烟与肺癌的关系)。 可能受限(如医学试验需伦理审查,避免对受试者造成伤害)。
适用场景 无法人为干预的长期/宏观现象(如经济政策、健康行为)。 可控制的小规模干预(如产品功能优化、药物试验)。
典型方法 回归分析、匹配(Matching)、工具变量(IV)、双重差分法(DID)。 随机对照试验(RCT)、AB测试、多变量实验。
数据质量挑战 混杂因素多,数据可能存在选择偏差或测量误差。 需控制实验条件(如双盲设计),避免霍桑效应或实验污染。

辛普森悖论

辛普森悖论是统计学中一个反直觉的现象,当数据分组比较的结果与整体合并后的结果相反时,就会发生这种现象。它揭示了忽视变量分层或样本分布差异可能导致误导性结论。

核心概念

  1. 现象描述

    • 在分组数据中,A在每一组的表现均优于B;
    • 但合并数据后,B的整体表现反而优于A。
  2. 关键原因

    • 样本量分布不均:各组样本量差异大,合并时权重不同。
    • 混杂变量(如性别、年龄等):忽略影响结果的潜在因素,导致数据聚合后扭曲真相。

经典案例

加州大学伯克利分校性别歧视争议

  • 总体数据:男生录取率高于女生,引发性别歧视质疑。
  • 分层分析:按院系细分后,多数院系女生录取率与男生相当或更高。
  • 悖论根源:女生更多申请竞争激烈的院系(录取率低),而男生更多申请录取率高的院系,导致总体数据偏差。

实例解析

假设两种治疗方案(A和B)的治愈率:

组别 治疗A(治愈/总人数) 治愈率 治疗B(治愈/总人数) 治愈率
男性 70/100 70% 200/300 66.7%
女性 150/300 50% 40/100 40%
总计 220/400 55% 240/400 60%
  • 分组结果:A在男性和女性中治愈率均更高。
  • 总体结果:B的总治愈率(60%)却高于A(55%)。
  • 原因:B在治愈率较高的男性群体中样本量更大(300 vs 100),拉高整体表现。

如何避免辛普森悖论?

  1. 分层分析:检查数据是否存在潜在分层变量(如性别、年龄),分别分析各组。
  2. 因果推断:使用多元回归、倾向评分匹配等方法控制混杂变量。
  3. 谨慎解读总体数据:警惕样本量差异或结构性问题对结果的影响。

假设检验

中心极限定理(CLT)

对于任意分布的总体,只要样本容量足够大(n一般>30),其均值抽样分布就接近正态分布。

正态性检验

QQ 图

方差齐性检验

验证两样本方差比值是否为 1

参数检验

t检验(要满足:样本均值分布≈t 值抽样分布≈正态分布)

检验前提

正态性(样本容量n小的时候必须检验)

一般要求样本所在总体的分布为正态分布,样本容量 n 小的时候(一般n<30),需要检验样本所在的总体是否服从正态性。如果总体不服从正态分布,那么在进行小容量抽样时,最后样本均值分布也会偏离正态分布,不符合 t 检验要求。一般情况 n 很大的时候,可以不那么严格地检验其正态性,因为此时根据CLT,样本均值的抽样分布都会趋近于正态分布,也就是趋近于 t 值抽样分布。

独立性

观测值必须相互独立。这意味着一个组内的观测值不应受到另一个组内的观测值影响,例如,不应存在重复测量或相关性。T检验的前提之一是样本之间必须是独立的。这意味着一个样本中的观测值不应该受到另一个样本中的观测值的影响。

方差齐性

样本间的方差没有显著差异。(方差齐性检验)

检验类型

  1. 单样本
  2. 独立样本
  3. 配对样本

ANOVA

分析三组以上的样本的均值是否存在差异,不同于双样本t 检验(使用均值差来衡量差异),其使用三组样本均值间的方差。(图片来源:B 站 up 主陈祥雨大猫咪老师)


F 值 = 组间差异 / 组内差异
参考文章:https://zhuanlan.zhihu.com/p/57896471

非参数检验

卡方检验(一般期望频次不得<5)

卡方拟合优度(检验一个类别变量)


图片来源:B 站 up 主陈祥雨大猫咪老师

卡方独立性检验(检验两个类别变量)


期望频次计算:行总计*列总计/样本容量

图片来源:B 站 up 主陈祥雨大猫咪老师

数据埋点

数据埋点的本质是记录一切行为(用户),比如用户点击每个链接,浏览商品时间,点赞,投币等等行为(也称为事件),埋点可理解为JS里的绑定事件触发。一次数据埋点需要记录:一个用户(WHO)在何时(WHEN)何地(WHERE)通过什么(HOW)做了什么(WHAT)。那么还需要一个埋点通用设计文档来记录,具体能从下面四个角度记录:事件,参数,页面,元素。(待补充。。。)

数据仓库

数据仓库的本质是如何将海量的不同业务(社交,短视频,新闻。。。)的表(用户,订单。。。)进行整理的过程。总的来说分为三个部分:

  1. ODS(Operation Data),包含所有的业务数据,数据埋点数据,第三方数据,日志等数据。
  2. DW(Data Wharehouse),顾名思义,数据仓库,对ODS的表数据进行清洗操作,之后必要时也可以对数据进行较粗粒度的聚合操作。此外还有一种说法,在这一层会将所有表拆分成事实表和维度表,将所有维度表放入DIM层,这一过程称为维度建模。
  3. ADS(Application Data),这一次是已经基本处理完的数据(聚合度较高),一般可以直接用于报表分析。
    注意:数据的流动(处理)方向是严格的按照上述说的从上至下(不可逆),同时也不允许同层引用!

归因分析

找出影响目标指标(大盘)的核心因素,意思是某一个指标按照某一维度拆分,哪一个维度值所对应的指标最能影响总指标,用贡献度来衡量影响大盘的程度(影响大盘变化的百分比)。

贡献度计算

  1. 加法型指标:维度值对应指标 / 大盘整体变化(例如:某分区利润 / 总利润)。
  2. 除法型指标:(维度值对应指标 * 对应维度值的全体占比)/ 大盘整体变化(例如:计算男性购买率的贡献度 = [男性购买率 * 男性在全体的占比 / 大盘整体变化])。
  3. 乘法型指标:对指标公式求取对数,拆解成加法形式,计算方法同加法型指标类似。

用户增长(“养鱼”教程)

本质上是用户生命周期管理,核心是提升用户生命周期价值LTV;该周期分为:潜客期,新客户期,成长期,成熟期,衰退期,流失期。每一个时期都有不同的策略去维系或者去转化(想办法将新客户引入成长期;尽量保留住成熟期的客户;尽最大可能不要让客户进入衰退期或者流失期)。

潜客期(走过路过千万不要错过)

这时候需要让潜在用户知道产品,也就是说要从不同渠道去吸引用户(策略),不同渠道能吸引不同用户,什么渠道吸引效果最好?渠道转化率如何?耗费成本如何?吸引到什么样的客户?

新客户期(客官里面请,雅间两位)

引起用户注意后,需要引导用户注册使用产品,这个时候的用户比较脆弱,因此注册激活尤为重要(策略),激活难度不宜过难,可以采取漏斗分析来观察注册链路的转化率。之后还需要关注留存。

成长期和成熟期(既来之,休走之)

此时用户已经对产品有了基本认识,能进入到这个阶段说明用户认可产品的某些功能。这个时候在策略上可以围绕降低用户的应用难度和提升用户的放弃成本展开。前者继续深挖用户可能需要的功能,后者要让用户对产品的依赖加深(黏住!增加沉没成本:等级制度,资产沉淀)。随着时间的变化,这部分的客户自然是越多越好,因此需关注用户量级,留存指标,活跃度。。。

衰退期和流失期(爱我别走)

这是最不希望看到的时期。如果有相当的用户到了这一周期,一方面分析其流失的原因,再者就是想办法召回这些用户。此外还能从预防的角度来分析(防范于未然),预测用户的流失概率,对可能离开的客户挽回。

业务思维(Tableau可视化)

顾客购买频次分析

目的:分析顾客的下单次数,反映人们的购物意愿。
思路:分组统计每位顾客的订单数X;然后绘制X的频次分布。

客户矩阵分析

目的:可以分析不同客户(可以从年龄,性别,首次消费等)的贡献程度(销售额,利润等)。
思路:fixed lod 按客户分组,求出每位客户的最早下单日期X;以X为维度对客户群体划分。

每天盈利情况

目的:分析每个月正常营业的天数里,有多少天是高盈利,正常盈利还是负盈利。
思路:盈利水平的划分,fixed lod 求出每一天的总利润,再根据if判断给每一天打上标签(后续作为维度使用);最后count每个盈利水平下的订单日期的天数。

购物篮分析

目的:找到和目标商品A在同一购物篮的连带商品B,计算连带比率。寻找出现频率最高(靠前)的AB组合。
思路:给含有A的购物篮(每笔订单)打标签;根据商品或者类别的维度对购物篮分组,计算每个连带商品B的连带订单数X;再计算所有包含B的订单数Y;连带比率Z = X / Y。

购买力分析

目的:寻找平均消费能力top n的地区。
思路:如果单纯计算某个用户购买的某件最贵商品不合理,而是应该他最大的一笔订单(包含多样商品),然后再根据所有人的最大订单消费求平均即可。

客户复购率

目的:计算客户年度或者月度的复购率,复购的定义根据业务需求规定,在这里将有重复购买2 次以上的用户定义为复购人群。
思路:复购率 = 复购人数 / 总购买人数,include lod 按用户分组统计订单数S;接着if判断S 是否>2,若大于则标记为 1,反之为 0;然后对S sum得到复购人数;最后计算复购率。

标杆分析

目的:比较指定商品和其余商品的差异(销售额或利润),后续可通过设置参数实现点击任意商品,实现自定义比较。
思路:按子类别分类,计算每一组的销售额聚合;销售额聚合减去选中的商品B的销售额;使用 window_sum 为每个子类别的“单元格后”创建B的销售额(WINDOW_SUM(SUM(IIF([子类别]=[标杆分析-类别],[销售额], null)))),最后简单作差即可。

用户留存分析

目的:不同获客季度用户,在N个月后的留存比率;将绝对日期转换成相对日期(第N月)
思路:计算出获客季度({ FIXED [客户 ID]: MIN( [订单日期] )});使用index给每个获客季度分区的订单日期(季度)打上标签;使用total计算同期用户总数:TOTAL(COUNTD([客户名称]));最后计算留存比率:COUNTD([客户名称]) / TOTAL(COUNTD([客户名称]))。

高级复购分析

问题:在每个消费年度中,每个用户矩阵年度(获客年度),购买至少 1 次,2 次,3 次。。。N次的顾客占比。
简化(将问题分解成可求的维度和度量):维度:消费年度,用户矩阵年度(获客年度){ FIXED [客户 ID]: MIN( [订单日期] )},各年-购买频次{FIXED [客户 ID], YEAR([订单日期]): COUNTD([订单 ID])};度量:客户数量(去重)
下一步:使用窗口函数计算至少购买N次的客户数WINDOW_SUM(COUNTD([客户 ID]), 0, LAST()),沿着各年-购买频次方向;然后计算每个获客年度的客户总数;前两步的结果相除即可。

用户心理学

福格模型

行为(Behavior)= 动机(Motivation) + 能力(Ability) + 提示(Prompt)

示例:用户购买商品

  • 动机:需要该商品、喜欢品牌、打折促销;

  • 能力:价格可承受、操作简便(一键下单);

  • 提示:APP推送提醒、购物车“即将售罄”提示。

商业模式

电子商务

  • 转化目标:产生购买行为
  • 是选择追求用户获取(“一次性”生意)还是忠诚度(长期生意)。
    重要指标:
  1. 转化率
  2. 年均购买率
  3. 购物车平均大小
  4. 弃买率
  5. 客户获取成本
  6. 每客户收入(终身消费总金额)
  7. 推荐接受率

SaaS

  • 转化目标:订阅服务
  • 软件即服务
    重要指标:
  1. 流失率
  2. 转化率
  3. 参与度(用户黏性)

移动应用

转化目标:与 SaaS 类似
重要指标:

  1. 下载量
  2. 月活日活
  3. 客户获取成本
  4. 首次付费时间
  5. 付费用户率
  6. 流失率

媒体网站(新闻网,博客等

转化目标:广告点击
重要指标:

  1. 点击率
  2. 流失率
  3. 访客数
  4. 访问数
  5. 广告点击率
  6. 广告库存
  7. 广告价格

用户生成内容(UGC)

例子:reddit, youtube, twitter, bilibili…
转化目标:用户转化为内容生成者(content creator)
重要指标:

  1. 各层级的参与度变化(访客?活跃用户?活跃发帖者?…)。
  2. 与内容生成的互动(如点赞投币评论)。

双边市场(电商变体)

例子:闲鱼,淘宝
转化目标:交易达成
重要指标:

  1. 买卖双方人数增长
  2. 定价指标
  3. 库存增长
  4. 评分评价
  5. 买家搜索

  6. 成熟的双边市场能在前期预先人为地创造买家或卖家。

创业阶段划分(和海盗指标相似)

移情(获取 A与激活A)

寻找需求,寻找痛点。使用最小可行化产品不断摸索。

黏性(留存R)

参与度参与度还是参与度!吸引回头客。重点分析钟意你的产品的用户(忠实用户),跟踪他们的行为。使用同期群分析,比如 2 月份的客户留存率相比于 1 月份的变化如何?

病毒性(推荐R)

原生病毒性

产品本身的功能或使用场景天然驱动用户分享,无需外部激励。比如Zoom,用户必须发送会议链接才能让他人加入,分享是使用产品的必经步骤。

人工病毒性

基于奖励机制传播,比如邀请1位新用户即可返现,鼓励老用户拉新。比如用户分享打车优惠券,双方均可获得折扣。

口碑病毒性

比如某款软件功能深受人们喜爱,人们自发推荐。比如用户因对iPhone体验的认可,主动向朋友推荐。

病毒式传播系数α

α = 邀请率 * 接受率
其中邀请率,即发出邀请数除以现有用户数。接受率,即新用户数除以总邀请数

营收(收入R)

规模化

面经笔记

销售额下降了如何分析?

  1. 确认数据是否可靠?数据口径是否统一,是否道听途说?
  2. 先分析外部因素,大环境也是如此么?
  3. 接着是内部环境,拆解指标,对拆解的指标进行分析。
  4. 针对指标变化提建议(好的优化,坏的改进)。

费米估算问题(分治):估算一个星巴克门店的周营业额

  1. 拆解问题,直到拆解到不能拆解为止。
  2. 对基本问题进行估算。
  3. 合并基本问题的结果得到初始问题的答案。

环比和同比

维度 同比(YoY) 环比(MoM)
时间跨度 跨年度(同季节) 相邻时间段(可能跨季节)
季节影响 天然排除(对比同一季节) 无法排除(对比不同季节)
适用场景 衡量长期趋势、真实增长 观察短期波动、即时变化
风险 忽略短期异常事件(如疫情) 误判季节波动为趋势变化

app 激活量的来源渠道很多 ,怎样对渠道来源变化大的进行预警?

  1. 如果渠道使用时间长,该渠道激活量应满足正态分布,今日数值与均值差>3 标准差进行预警(也>可 2 或1)。
  2. 渠道使用时间短,直接与均值进行比较。

公司的许多数据处于孤岛状态,有在不同部门数据库,本地 excel 表以及第三方数据库,该如何整理和储存数据?

  1. 第一步最重要,首先需要对所有分散的数据表建立一个数据字典,要留意表与表之间有关联的字段,也就是理清楚业务,比如某表某字段叫用户 id,另一张表叫客户 id 。或者是一些日期格式,这些都要统一。此外还要理清表与表之间的关系,订单,客户,货物,物流等。
  2. 其次需要搭建数据仓库( ETL过程)

数据提取:编写 py 脚本,api 获取在线数据库的数据,读取本地 excel 文件,其他部门的则请求相关数据库的读取权限。

数据转换:在本地处理收集多方的数据(数据清洗)

数据装载:把数据加载进入数仓

数据仓库的本质是如何将海量的不同业务的表(用户,订单。。。)进行整理的过程。总的来说分为三个部分:

  1. ODS(Operation Data),包含所有的业务数据,第三方数据,日志等数据。

  2. DW(Data Wharehouse),顾名思义,数据仓库,对ODS的表数据进行清洗操作,之后必要时也可以对数据进行较粗粒度的聚合操作。此外还有一种说法,在这一层会将所有表拆分成事实表和维度表,将所有维度表放入DIM层,这一过程称为维度建模。

  3. ADS(Application Data),这一次是已经基本处理完的数据(聚合度较高),一般可以直接用于报表分析。

后续 bi 软件只要在数仓的 ADS 层读取报表数据即可,要分析新的需求,就在 DW 去构建新的表