2023年4-6月份,我参与了36氪研究《短视频平台用户调研报告》的研究设计和撰写工作。报告中,我对中国短视频行业及其市场的整体概况,用户个人特征、使用偏好以及满意度做了一个简要的分析和论述。现在回想起来,我在数据的处理和应用这一块做得还是挺粗糙的——完全是描述性统计下的论述。因此,这几天闲暇之余,我把当时收集的原数据扒了出来,重新做了整理,想通过STATA 15做一点稍复杂的分析和论证。

一、数据来源

当时,这个数据收集工作是交给了第三方在网上进行的问卷调查(当然,问卷内容是我们设计的)。问卷问题主要涉及到用户的个人特征、使用习惯、内容偏好、用户体验和满意度等信息。最终,收集到1200个有效样本。数据收集的时间为2023年的4月24日到2023年的5月18日。

我记得,当我拿到数据结果的时候,有以下两个直觉认识:

①某一类个人特征的人群对短视频APP会更满意/更不满意(例如,一线城市的用户对APP质量更苛刻,相对满意度较低);

②怀疑数据的真实性(虽然这种怀疑没有客观依据,但我的怀疑可能来源于:1. 可能是我觉得找1200个人认认真真填30多题的问卷还挺难的;2. 业内数据造假的问题太普遍了),怀疑数据有可能是电脑随机生成,而非真人填写。

因此,下文的主要内容就是对上述两个问题的论证。

二、用户满意度和用户的个人特征

首先,将原数据整理,添加入数据编辑器中(如下图)。一共包含了8个变量,分别是:用户对短视频行业的整体满意度、性别、年龄、受教育背景、个人月收入、个人月支出、所在地区(北方或南方)、所在城市等级。这里需要说明的是,由于问卷调查的时候,问题都是以选择题的形式出现,所以所收集数据构成的变量全部是离散(虚拟)变量(例如,年龄是年龄组划分的,而不是具体的年龄值)。

数据编辑完成后,就可以开始分析工作了。首先,通过“list”命令,看一下变量的样本数进行展示(如下图)。然而,由于所有的变量都是虚拟变量,在结果中我们并看不到极端异常值。事实上,极端的结果可能已经被离散的选项给遮掩了,例如,某个受访者可能是一个月入百万的“土豪”,但他的收入数据和月入两万的用户一样被赋值为“5”。

接下来是“summarize”命令下的描述性统计分析(如下图)。这里我们可以看到各个变量的样本数、平均值、标准差、最小值和最大值。从结果(标准差)中我们可以看出,各个变量的离散程度并不大,相对较大还是在收入、支出和城市等级三个变量上。并且从最大值这一栏可以看出,不同的变量分别被分成了多少类,例如,满意度是5个等级、年龄是5组、受教育水平是4类等等。

由于我们所收集的数据都是离散的,尤其是因变量(不仅离散、多个取值、而且存在一定顺序关系),因此有序的logistic模型将会是一个更合适的模型选择。不过,在此之前,我们先进行一个直接的最小二乘法回归(如下图)。我们可以从结果中获悉,模型整体的显著性尚可,但解释性非常差,R方和修正R方都非常小。另外,各个变量系数的p值,除了性别,都达不到5%的置信水平。 

然后,进行有序的logistic模型回归分析(如下图)。模型整体上看,显著性和解释性都不错。在各个变量上,p值都得到了显著的改善。这至少说明了,对于这组数据集,有序的logistic模型确实是相较于简单线性回归更适合的分析模型。但是,p值达到5%置信水平的变量仍然只有两个:性别和个人月支出。

于是,我们剔除不显著的变量,再进行一次有序的logistic模型回归分析(如下图)。模型的整体显著性和解释性再次得到提高。性别和个人月支出两个变量的显著性已然在5%的置信标准下 ( p value < 0.05 ),并且系数实际上还不算小。因此,根据我们所收集的数据,可以得出结论:1. 女性用户对中国短视频行业的整体满意度要高于男性用户;2. 个人月支出更高的用户对中国短视频行业的整体满意度要更高。那么,什么样可能的原因造成了上述两个结果呢?

根据我的生活经验,我认为可能的原因有以下几点:

1.虽然我国短视频行业蓬勃发展,内容上也呈现出更加多元化的趋势,但主流短视频内容(包括美妆、时装、情感、美食、旅游、萌宠等)的主要受众群体依然是女性;另外短视频APP上的诸多功能的设计也更偏向女性用户的需求(例如美颜、滤镜、表情包等);并且从用户的性别构成上,女性用户所占比重也确实更大。

2.女性受访者可能相较于男性受访者具有更强的同理心和同情心,因此并不愿意在问卷中表达出极端消极的评价(即便是在匿名评价的情况下)。

3.个人月支出高的受访者,不仅体现出个人的消费能力,并且表现个人消费意愿。我们有理由相信个人消费意愿高的人可能在生活中更具有娱乐精神。他们不仅能赚钱,有能力花钱,也同样愿意花钱。这也说明了为什么个人月支出是显著的变量,但于其相关性非常高的个人月收入却不显著。尽管这些年,各大短视频平台都在开拓自己的“工具作用”和“学习作用”,但我们还是要认识到,短视频平台对于大部分人而言仍然是以娱乐性为主的。

三、数据的真实性:用户个人特征变量之间的关系

关于数据是否真实,我所想到的检验办法是观察和分析变量之间的相关关系和因果关系。因为真实的数据通常会符合我们对现实生活的一些常识性认识(例如,个人月支出是由个人月收入决定;个人月收入和所在地区和受教育背景有关),而为了满足这些常识性认识而构建虚假数据,反而没有那么容易。

首先,我们先做一个相关性分析,在这里就不需要“满意度”变量了,因为和我们要论证的问题无关,结果如下图。我们可以看到结果当中还是有一些变量之间存在较强的相关性。尤其是收入和支出(相关性系数:0.7332)。

然后,我们再看一下这些相关性系数的显著性,置信标准设置为1%,以*号表示(如下图)。我们可以看到,很多变量间的相关性系数是非常显著的。

接下来是考虑变量之间的因果关系。首先是支出和收入的关系,根据我们日常生活经验,个人的消费水平是由其收入水平所决定的,所以我们将支出设为因变量,收入设为自变量,进行有序的logistic回归分析,结果如下图。模型整体显著性很好,解释性稍欠佳。自变量的显著性非常好。因此,结论基本印证了我们的假设:个人月收入决定了个人月支出,收入越高,支出越多。

接下来,我们再验证其余变量对个人月支出的影响,进行一个有序的logistic回归分析,结果如下图。回归模型无论是从整体还是各个变量都表现出了很好的回归效果。然后我简要的解释一下下图表达出来的分析结果:

1.教育水平:受访者受教于水平越高,其个人月收入越高。符合日常经验。

2.年龄:受访者年龄越大,其个人月收入越高。因为数据收集时设置了年龄上限,所以受访者中应均属于青壮年;其年龄越大能够体现其工龄越长。符合日常经验。

3.城市等级:这里需要说明的是,城市等级赋值“1”表示的是一线和新一线城市,“2”为二线城市,依此类推。因此,这里系数为负值是非常合理的。其结果表示为,受访者所在的城市等级越高(发展水平高),其个人月收入越高。符合日常经验。

4.地区:南方地区的受访者普遍比北方地区的受访者个人月收入要高。符合日常经验。

5.性别:这里需要说明的是,男性被赋值为“1”,女性被赋值为“2”,因此负数的系数说明了,男性用户普遍比女性用户的个人月收入要高。Emmmm,这个结论好像涉及到了什么危险的领域,但也是符合日常经验的。

因此,从上述两个回归模型中,我们可以发现,从第三方收集的数据中所表现出的相关关系和因果关系是符合我们的经验判断的,因此通过计算机生成类似特征的数据并不是件容易的事情(至少跟收集1200份有效问卷比起来)。

文章转载自微信公众号iVincent