未明学院学员报告:喜马拉雅APP上原来大家最爱听的是……

2019-3-7 21:13| 发布者: vipgu| 查看: 520| 评论: 0

摘要:   ,各类平台开始尝试开展知识付费的活动,其中喜马拉雅是人均启动次数最多的知识付费平台。在免费知识共享方面,喜马拉雅也有着不菲的成就。   作为一个原创音频发布平台,喜马拉雅涵盖了新闻、财经、科技、娱 ...

  ,各类平台开始尝试开展知识付费的活动,其中喜马拉雅是人均启动次数最多的知识付费平台。在免费知识共享方面,喜马拉雅也有着不菲的成就。

  作为一个原创音频发布平台,喜马拉雅涵盖了新闻、财经、科技、娱乐、文化等多方面内容,越丰富的内容意味着越广阔而复杂的受众。

  未明学院商业分析训练营学员通过画像分析、模型建构等方法,对爬取并清洗后的喜马拉雅免费经典榜和付费畅销榜两个榜单上节目的收听量、标签、专辑介绍等的差异和内容特征进行分析,让用户通过大数据更直观地看到喜马拉雅听书上的众生相。

  基于清洗后的喜马拉雅榜单数据,我们把各大榜单对应的收听量进行了可视化(上图),同时又将免费经典榜和付费畅销榜单独做了对比(下图)。

  通过免费榜与付费榜中节目收听量的对比发现免费经典榜的总收听量远超于付费畅销榜的。鉴于中国广大普通消费者目前对知识产权的认识还不完全,为知识付费的意识还不足够,免费内容比付费内容更受欢迎很容易理解。

  通过各大榜单收听量的对比可以发现付费畅销榜的收听量可以排在各大榜单中游,这对于16年才刚刚起步的付费节目而言是一个不错的成绩,可以预见随着时代的发展付费榜的收听量会迎来高速增长。

  为了更清晰地对比免费经典榜和付费畅销榜的受欢迎内容,我们把两类标签分别提取出来,并做了两个分词云图。

  上图为付费畅销榜标签的词云图,我们可以观察出热门标签有上班族、都市、睿智、幻想、悬疑、脱口秀等。

  由下图可以得出,与治愈、灵异、故事、文学、悬疑、歌单、脱口秀等标签相关的内容是免费经典榜中较为受欢迎的。

  通过对比两张词云图,我们发现无论是付费还是免费,悬疑和脱口秀相关的内容都比较受欢迎。

  此外,我们也根据喜马拉雅免费和付费产品的总标签,绘制出了一张总的词云图(上图)。

  通过词云图的分析我们可以直观地发现,在喜马拉雅产品的标签中,出现频次最多的标签有上班族、睿智、幻想、都市、脱口秀、悬疑等。这可以在一定程度上反映出当下都市上班族的喜爱和偏好。

  同时,考虑到喜马拉雅听书作为一种比较流行的电子化产品,其主要受众主要是都市的上班族等,因此我们将其最受欢迎内容自定义为:上班族、睿智、幻想,并据此进行相似性分析向用户推荐一定数量的作品。

  我们采用余弦相似度分析的方法,将所有的标签向量化,与我们自定义的最受欢迎内容进行相似性分析,同时设定相似度应大于0.5。

  最后我们得到了2条符合条件的推荐结果,它们分别是将夜|电视剧同步热播和《兔子必须死》 贱兔子爆笑修仙,同时从它们各自的主播粉丝数量来看,均达到了几十万甚至上百万,从而说明我们的分析结果是比较合理的,这两款产品非常受欢迎,且适合上班族。

  同时,我们还采用LDA主题模型对喜马拉雅产品的介绍数据进行了主题分析,查看书籍介绍中所经常涉及到的最主要的10个主题。主题分析的结果如下:

  通过对这10个主题的分析我们可以发现,一些主题只是关于喜马拉雅的作品的无关介绍,所以我们将其忽略,只考虑有关介绍,并且通过那些关键词进行主题概括。

  本项目通过一系列的数据分析方法,从收听量、热门标签和专辑介绍的主题三个维度对喜马拉雅听书软件的免费和付费内容进行了深入剖析。通过Tableau的数据可视化展示,我们可以清晰地比较出免费榜单的收听量远远高于付费榜。

  我们提取出产品的标签并绘制了总的标签词云图和免费付费产品分别的词云图,由此发现免费付费的畅销产品标签均有悬疑、脱口秀,而二者综合起来最受欢迎的产品标签包含上班族、睿智、幻想。

  之后我们根据综合最受欢迎的三个标签,采用余弦相似度方法做了相似性分析并由此得出可向用户推荐的作品:将夜和兔子必须死。

  爬取的数据为横截面数据,只能横向对比,不能很好地比较出免费榜和付费榜的发展趋势,整体分析不够完整。

  数据中可选择变量较少,且存在异方差和严重的多重共线性,不能完成线性回归模型分析。

  对于定位为冷门题材的节目,在锁定其小范围的客户群体的同时,可通过多种宣传途径提升其曝光率,从而提升其收听率,如可以适当放在主页滚动推送页面。

  针对付费榜单的标签数远高于免费榜的现象,一方面对免费节目可以考虑更多元的推送,通过免费节目来吸引更多的客户群体,形成客户黏性;另一方面,因为喜马拉雅的盈利主要来源于知识付费,所以可以对一些免费产品推出一些升级的付费服务,同时对于付费项目可以通过个性化定制等方式更好地适应客户需求,提升产品质量和用户体验,适应当下的社会热点和流行趋势。

  针对相似性分析,我们发现标签数越多往往会影响相似性结果,所以建议在给产品制定标签时,数量不应过多,3个为宜,同时应尽可能地突出其主要特征,以和热门标签相契合。

  针对主题分析,一方面可以按照LDA模型总结的几大主题类型分别设置主题专栏,并将栏目分类方便客户搜索;另一方面,可以发现总结的几大主题依旧比较局限,且各自间有所交叉,可以在以后更多地拓展新的主题类型。

  以上就是本次报告的全部内容。大数据是否为你提供了一个看待世界的新视角呢?

  期待学员们用更多作品发掘出大数据的魅力,享受分析世界的快乐。返回搜狐,查看更多


路过

雷人

握手

鲜花

鸡蛋

Archiver|手机版|小黑屋| 百度云会员 百度网盘会员 百度云盘会员 百度云会员账号共享 ( 辽ICP备16014922号 )  

GMT+8, 2024-10-19 14:30 , Processed in 0.057243 second(s), 7 queries , File On.

返回顶部