多层次贝叶斯模型在跨国时间序列分析中的应用

庞珉 定量群学 2017-01-26



多层次模型是量化研究中引入宏观情境,估计宏观因素与微观机制交互作用的重要模型。了解它的基本原理和经常遇到的问题是值得的。这次推送涉及的问题和方法在其他研究中也经常遇到。


多层次贝叶斯模型

在跨国时间序列分析中的应用


政治学、社会学等领域都经常用到跨国时间序列(Cross-sectional Time-series)数据。处理此类数据时,研究者经常将不同国家不同时间的数据组合起来,进行混合数据的回归分析。传统的回归分析假定研究单位的同质性(unit homogeneity)、案例的独立性,以及自变量在不同国家影响的可比性。在跨国时间序列数据中使用混合回归分析则意味着认定不同国家具有同质性和可比性,忽略了不同国家制度和历史背景的影响。


一个解决办法是使用多层次模型对此类数据进行分析。多层次模型适用于具有显著层级的数据,如国家-时间、学校-班级-学生、国家-城市-社区等。低层级的数据不仅受到本层级自变量的影响,同时也受到高层级自变量的影响。例如,可能影响学生成绩(第一层级因变量)的因素,包括学生学习时间(第一层级自变量)、学生所在班级的教学质量(第二层级自变量)以及学校的教育资源(第三层级自变量)。通过多层次模型,研究者可以得出自变量对因变量的影响,以及各层级不同单位在因变量上的变化程度,并了解跨层级变量间的相互作用。


一、多层模型的通俗原理


多层次模型理解起来并不复杂。例如,我们可以将不同国家不同劳动者的收入差异分解为两部分:不同国家平均收入相对于世界平均收入之间的差异,以及同一国家内部不同劳动者相对于该国平均收入之间的差异。如果不同国家的平均收入没有差异或者差异太小(组内相关系数(intra-class correlation)较小),那进行多层分析的必要性不大,个体收入的差异主要受国家以下层面变量(如个人的性别、受教育水平)的影响。当不同国家劳动者的平均收入差异较大时,还可以继续问:(1)各国家人均收入相对于世界平均收入的差异如何(随机截距模型),(2)这种差异能否用某些宏观变量(如各国资源禀赋、劳动力平均素养)解释——截距模型;(3)各国内部不同劳动者的收入差异被教育水平等层一变量解释的幅度(即回归系数)的差异是否足够大(随机斜率模型)(4)如果存在,这种系数差异能否被各国制度(如再分配力度或市场化程度)解释——斜率模型。这样,就将宏观背景带入微观机制中,刻画不同层之间的交互作用。


假定每个箱图代表一个国家的劳动者的收入分布,而横轴还能代表这些国家的某种属性

那么下图意味着:

各国均值存在差异

而下图意味着各国均值差异可被横轴变量解释

如果下图中的直线表示不同国家的劳动者的收入与某种能力的关系的话,那么下面这个图意味着各国层一模型中相关能力对收入的回归系数不存在差异

而下面的图形意味着,各国层一模型中相关能力对收入的回归系数可能存在明显差异

如果下面的示意图中纵轴编号代表不同的国家,点-线表示不同国家收入方程中的截距或斜率系数的点估计和置信区间(可以不同),而横轴表示某种国家属性的话,那么左图意味着各国截距或斜率差异与该宏观特征存在关联,右图的宏观特征无法预测各国系数间的差异



二、多层贝叶斯模型的应用


不过,在处理跨国时间序列数据时还常常面临另外几个问题。首先,频率学派的回归模型强调研究对象的随机选择。但在以国家为研究单位的政治学、社会学研究中,研究者往往采集所有可用数据,违背了随机原则。其次,在以国家为研究单位的传统回归模型中,由于样本小、变量多,高层模型往往无法同时容纳多个变量,研究者经常面临变量选择问题,可能为了讲一个好故事,人为寻猎显著性(fishing for significance)。最严重的问题是,进行区域研究时,如果国家层级单位较少(1520个),使用传统的多层次模型会导致结果偏差:置信区间(confidence interval)与贝叶斯模型中的可信区间(credible interval)相比会减少5%

 

频率学派认为,研究者可以通过对总体(population)的不断随机抽样,得出假设性的抽样分布(hypothetical sampling distribution)。随着抽样次数的增加,假设性的抽样分布会逐渐接近总体抽样分布。贝叶斯模型则不强调重复随机抽样,而是依靠研究者对某个参数的了解,建构先验概率(prior probability),收集数据后,再依据先验概率产生后验概率(posterior probability)。置信区间和可信区间的根本区别在于,置信区间意味着“如果抽取无穷个样本,产生无穷个这样的区间,其中约有95%能覆盖总体的真实值”,而可信区间指“真实值落在这个区间上的概率为95%”。由于可信区间并不强调总体和重复抽样,贝叶斯模型在小样本分析时的结果更加可靠。


Stegmueller用多层次贝叶斯模型(MultilevelBayesian Analysis)复制了SteenbergenJones用最大似然估计(Maximum Likelihood Estimation)分析的研究数据。如图所示,贝叶斯的95%置信区间比最大似然估计的置信区间长。这就意味着虽然有些变量在最大似然模型下显著,当使用贝叶斯模型时,由于延长的置信区间可能包含0,原本显著的变量将不再显著。这就导致不同的模型产生不同研究结果。传统回归模型认为,真实模型可以通过增大样本得以接近,但区域研究中的样本有限,贝叶斯在这种情况下会提供更为可信的结果。

 




参考文献

Stegmueller, Daniel. 2013. “How Many Countries for Multilevel Modeling? AComparison of Frequentist and Bayesian Approaches”, American Journal of Political Science, (July) Vol. 57, Issue 3: 748-761


Steenbergen, Marco R., and Bradford S. Jones. 2002.”Modeling Multilevel Data 

Structures”. American Journal of Political Science 46(1): 218-237



作者简介


庞珉(M. Rosemary Pang),宾州州立大学政治学博士生主修比较政治学方向辅修研究方法。主要关注领域为民主化、比较威权学、政体变化。



编辑: 张柏杨 张亮亮 


· · · · · ·

定量群学

ID:sociologynju


《定量群学》是由一群从事定量社会学研究的师生所运营的公众号。我们来自牛津大学、斯坦福大学、南京大学、复旦大学、清华大学、中山大学、东南大学和西安交通大学等高校。


宗旨:为社会学研究提供最新定量学术资讯;为定量分析学者提供人文交流的角落。


内容:重要期刊的定量社会学文献;定量分析软件使用方法;定量研究者的人文作品。

本站仅按申请收录文章,版权归原作者所有
如若侵权,请联系本站删除
觉得不错,分享给更多人看到
定量群学 热门文章:

大学是如何改变寒门学子命运的?    阅读/点赞 : 3181/39

李丁 | 一月引言    阅读/点赞 : 1889/42

许多多| 三月引言    阅读/点赞 : 1227/28

梁樱 | 四月引言    阅读/点赞 : 1100/34

秦广强 | 十一月结语    阅读/点赞 : 947/29

李忠路 | 二月引言    阅读/点赞 : 918/79