淘宝用户行为分析 (淘宝用户行为数据集爬取)
淘宝作为中国最大的电子商务平台之一,每天都有大量的用户访问和使用。对于淘宝来说,了解用户行为是非常重要的,因为淘宝需要根据用户行为数据来优化平台,提升用户体验,增加交易转化率等。因此,淘宝用户行为分析是非常关键的一项工作。
为了进行淘宝用户行为分析,淘宝会收集大量的用户行为数据,这些数据包括用户在平台上的浏览、搜索、点击、下单、付款等行为。通过分析这些数据,淘宝可以了解用户的偏好、行为习惯、购买意向等,从而制定相应的营销策略和优化用户体验。
淘宝用户行为数据集爬取是指通过爬虫技术从淘宝平台上抓取用户行为数据,并进行整理和分析。这样的数据集包含了大量真实的用户行为数据,有助于淘宝更全面地了解用户行为,发现用户行为规律,进行个性化推荐等。
对于淘宝用户行为数据集的分析,可以从多个角度进行。可以从用户行为路径分析入手,了解用户在淘宝平台上的行为轨迹,从而发现用户的兴趣点和偏好。可以通过用户行为频次分析,找出哪些商品或品类受到用户关注度较高,从而进行有针对性的商品推荐和促销活动。还可以通过用户行为时段分析,了解用户在一天中的活跃时间段,以便在这些时间段进行精准的营销推广。
除了以上几个角度,还可以从用户行为演化分析、用户行为转化分析、用户行为情感分析等多个方面进行深入的研究。通过对淘宝用户行为数据集的全面分析,淘宝可以更好地了解用户需求,提高平台的竞争力和用户满意度。
淘宝用户行为数据分析
本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。 输出: 输出输出: 发现time列和date列应该转化为日期类数据类型,hour列应该是字符串数据类型。 付费率=消费人数/活跃用户人数复购情况,即两天以上有购买行为,一天多次购买算一次 复购率=有复购行为的用户数/有购买行为的用户总数 输出:复购率: 0.8717 从复购率0.8717来看,用户的复购率还是很高的。 多数用户消费次数随着消费时间间隔的增加而不断下降,在1-10天之内复购次数比较多,10天之后复购次数淘宝用户很少在进行复购,因此需要重视10天之内的淘宝用户复购行为,增加用户复购。 不同用户平均复购时间呈正态分布,但是总体来看,呈现逐渐下降趋势。 多数淘宝用户平均复购时间集中在1-5天时间间隔内。 不同用户平均复购时间呈正态分布,但是总体来看,呈现逐渐下降趋势。 多数淘宝用户平均复购时间集中在1-5天时间间隔内。 漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。 输出:图表显示:基本上各种用户行为类型转换率都在0.1以内,同时绝大多数用户都没有购买情况,需要重点关注出现该现象的原因进行分析改进。 图表显示:感兴趣比率和转化率类似,基本也是0.1以内,说明用户点击的绝大多数商品并非感兴趣,需要重视推荐系统的调整。 输出: 输出: 根据以上输出显示:转化率达到0.1以上仅仅只有2%的用户,有47%的用户几乎不会发生购买行为。 同时从感兴趣比率来看:有40%的用户对商品不感兴趣。 二八定律:在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的,因此又称二八定律。 输出: 图表显示:前80%销量有15%左右的商品品类承包,接近二八原则。 但我们也看出有15%的销量由85%的商品品类提供。 对于传统零售行业,因为成本高,因此只能局限于这前15%的商品提供利润; 对于电子商务,空间成本吉减少乃至为0,使后85%的商品也可以销售出去,因此将长尾部分的商品优化推荐好,能够给企业带来更大的收益。 RFM的含义:表格显示:因为本数据集没有提供消费金额,因此只能R和F进行用户价值分析,通过RF用户价值分析,对于22用户,为重点用户需要关注;对于21这类忠诚度高而购买能力不足的,可以可以适当给点折扣或捆绑销售来增加用户的购买频率。 对于12这类忠诚度不高而购买能力强的,需要关注他们的购物习性做精准化营销。
如何用SQL分析电商用户行为数据(案例)
本文以“淘宝用户行为数据集”的分析全过程为例,展示数据分析的全过程
——使用工具:MySQL,Excel,Navicat,PowerBI
——分析类型:描述分析,诊断分析
——分析方法:漏斗分析,用户路径分析,RFM用户价值分析,活跃/存留分析,帕累托分析,假设验证分析。
(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)
(目录如下)
1.分析流程和方法
当没有清晰的数据看板时我们需要先清洗杂乱的数据,基于分析模型做可视化,搭建描述性的数据看板。
然后基于描述性的数据挖掘问题,提出假设做优化,或者基于用户特征数据进行预测分析找规律,基于规律设计策略。简单来说:
——描述性分析就是:“画地图”
——诊断性分析就是:“找问题”
——预测性分析就是 :“找规律”
在数据分析中有两个典型的场景:
一种是有数据,没有问题:需要先整体分析数据,然后再根据初步的描述分析,挖掘问题做诊断性分析,提出假设,设计策略解决问题。
另一种是已经发现了问题,或者已经有了假设,这种做数据分析更偏向于验证假设。
2.淘宝用户行为分析
本次是对“淘宝用户行为数据集”进行分析,在分析之前我们并不知道有什么问题,所以需要先进行描述性分析,分析数据挖掘问题。
我们首先来看下这个数据集的元数据:
根据以上数据字段我们可以拿用户行为为主轴从纵深方向提出一些问题,然后再从数据中找答案
纵向:
——这个数据集中用户的日活跃和周活跃时间有什么规律吗?
——在当日活跃的用户次日,三日,四日……还有多少活跃?
深向:
——用户从浏览到购买的整体转化率怎么样?
——用户从浏览到购买的路径是怎么样子的?
——平台主要会给用户推送什么商品?
——用户喜欢什么类目?喜欢什么商品?
——怎么判断哪些是高价值用户 ?
下面是叮当整理的常用分析方法:
我们可以给前面的问题匹配一下分析方法,便于后面的分析:
为了便于后面的数据分析,在分析之前我们需要先对做一下清洗
确定缺失值范围,去除不需要字段,填充缺失内容
根据元数据格式和后续分析需要的格式对数据进行处理
去除重复值,异常值
——去除重复值:并把用户ID,商品ID,时间戳设置为主键
——异常值处理:查询并删除2017年11月25日至2017年12月3日之外的数据
查询并删除小于2017-11-25的
——验证数据:
——分析思路:
——SQL提数:
——Excel可视化:
活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。
用户在周六周日相比其他时间更活跃(周六周日为休息日,用户有更多时间)
一天内用户活跃的最高峰期为21点(用户在这个时间段空闲较多)
——分析思路:
——SQL提数:
对“活跃时间间隔表视图”引用进行分组统计,计算每日存留人数并创建视图
对存留人数表进行计算,统计活跃用户留存率
——Excel可视化:
——分析思路:
——SQL提数:
-把各种用户行为分离出来并创建视图方便后续查询用户行为数据
查询整体数据漏斗
——Excel可视化:
用户从浏览到购买整体转化率2.3%,具体主要在哪个环节流失还需要再细分用户路径分析
——分析思路:
——SQL提数:
——PowerBI可视化:
用户从浏览到购买的路径主要有4条,路径越长转化率越底
路径1:浏览→购买:转化率1.45%
路径2:浏览→加购物车→购买:转化率0.33
路径3:浏览→收藏→购买:转化率0.11%
路径4:浏览→收藏→加购物车→购买:转化率0.03%
——分析思路:
——SQL提数:
——Excel可视化:
——描述性分析:
浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。
浏览量TOP100的商品所属类目中,,,三个类目浏览量远超其他类目。
——分析思路:
——SQL提数:
查询计算商品转化率,升序排列,取前100个
——Excel可视化:
——描述性分析:
从商品看:有17款商品转化率超过了1。
从类目看:这些商品所属类目分布均匀,除,,,,,,这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。
——分析思路:
用户价值分析常用的分析方式是RFM模型
本次分析中的R,F,M具体定义(仅用于演示分析方法,无实际业务参考价值):
——SQL取数与分析:
1)建立打分标准:先计算R,F的值,并排序,根据R,F值最大值和最小值得区间设计本次得打分标准
-查询并计算R,F值创建视图
-引用RF数值表,分别查询R,F的最大值和最小值
-结合人工浏览的建立打分标准
2)给R,F按价值打分
3)计算价值的平均值
4)用平均值和用户分类规则表比较得出用户分类
——Excel可视化
通过描述性分析得到可视化的数据后我们一般会先看一下是否符合业务常识
如果符合常识接下来我们会通过与行业平均数据和本产品的同比环比对比看是否正常,如果不正常就要找原因,设计解决方案,如果正常那就看是否有可以优化的地方。
我们首先来看一下这些描述性分析是否符合业务常识和指标是否正常:
1.活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。
2.用户在周六周日相比其他时间更活跃
3.一天内用户活跃的最高峰期为21点
4.从2017年11月15日致2017年12月3日,活跃用户新增38%
5.从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。
6.用户从浏览到购买整体转化率2.3%
7.用户从浏览到购买的路径主要有4条,路径越长转化率越低。
8.浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。
9.浏览量TOP100的商品所属类目中,,,三个类目浏览量远超其他类目。
10.从商品看:有17款商品转化率超过了1。
11.从类目看:这些商品所属类目分布均匀,除,,,,,,这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。
根据以上诊断分析我们梳理出了以下假设,做假设验证。
假设1:这些商品中有高转化率的爆款商品
对比浏览量TOP5的商品,发现这些商品转化率在同一类目下并不高,假设不成立
假设2,,三个类目属于高频刚需类目
-创建类目购买频次表
-计算类目购买频次平均值
-查询,,三个类目的购买频次
,,三个类目的用户购买频次明显高于平均值,假设成立
假设3:有部分用户是未点击商详直接从收藏和购物车购买的。
用户不是直接从收藏和购物车购买的,只是后续复购未点击商详,假设不成立
假设4:淘宝推荐的商品主要是“同一类目下的高转化商品”
用Excel对浏览量TOP100的商品ID和转化率TOP100的商品ID进行去重,结果无重复值,假设不成立
3.结论:
1)用户活跃:用户活跃曲线整体呈上升趋势,在一周中周六,周日活跃度比平时更高,在一天中用户活跃曲线从凌晨4点开始往上升,在中午12点和下午5~6点有两个小低谷(吃饭),到晚上9点时活跃度达到顶峰。
2)用户留存:从2017年11月15日致2017年12月3日的用户留存数据来看,淘宝的用户留存数据较好,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。
3)用户转化:整体转化2.3%,用户从浏览到购买的路径主要有4条,路径越长转化率越低。
4)平台推荐与用户偏好:从数据集中的数据来看,排除用户兴趣偏好标签,淘宝给用户用户推送的商品主要是高频刚需的类目,促使用户复购,流量回流平台。
以上结论受数据量和数据类型的影响,并不一定准确,仅用来练习数据分析方法。
(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)
使用Appium爬取淘宝App数据
Appium选择了Client/Server的设计模式,Server可以在OSX、Windows以及Linux系统上运行,Client支持Ruby、Python、Java、PHP、C#、JavaScript等语言的实现。 本教程以MacBook Pro通过Python程序控制Android系统的淘宝App为例,因为Appium依赖Android SDK,Android SDK需要Java环境,所以所需环境如下: pc端和移动端的连接有两种方式USB连接和无线连接更多命令:官方教程 程序第一次运行的时候,会在手机安装3个app,一定要同意安装,只有Appium Settings在桌面有图标Android SDK官方教程 Appium官方教程 Appium新手入门
若对本页面资源感兴趣,请点击下方或右方图片,注册登录后
搜索本页相关的【资源名】【软件名】【功能词】或有关的关键词,即可找到您想要的资源
如有其他疑问,请咨询右下角【在线客服】,谢谢支持!
相关文章
- 无与伦比的名片模板,帮助您在竞争中脱颖而出 (无与伦比的名字寓意)
- 使用我们的在线编辑器创建自定义名片,轻松快捷 (我们的用途)
- 数百种可定制的名片模板,满足您的所有业务需求 (可定制产品)
- 即时下载电子名片模板,提升您的个人品牌形象 (即时下载电子书的软件)
- 免费的专业名片模板,让你的第一印象脱颖而出 (专业免费取名)
- 从鞋履标志到时尚图标:标志如何在塑造品牌形象中发挥关键作用 (鞋履设计第一股)
- 鞋履品牌标志的营销力量:如何通过标志建立品牌知名度 (鞋履品牌标志图片)
- 文化符号还是商业标志?鞋履品牌标志的双重身份 (文化符号还是文化基因)
- 鞋履品牌标志的视觉语言:颜色、形状和字体的作用 (鞋履品牌标志是什么)
- 鞋履标志的演变史:见证时尚行业的标志性时刻 (鞋履标志的展示图片)
发表评论
评论列表
- 这篇文章还没有收到评论,赶紧来抢沙发吧~