电话:010-60531612  

邮箱:teskey@126.com

数据科学中的计量经济学技术

2021-01-27   浏览次数:0

  计量经济学是经济学的一个分支领域,它运用数学和统计模型与经济理论来理解、解释和衡量经济系统中的因果关系。

  通过计量经济学,可以做出假设:教育年限对工资率有正向影响;然后用经济理论证明这种关系;最后,用数学和统计技术(如回归)定量地确定这种关系(例如,多受一年教育可使工资增加5%)。其他几个例子包括:

  · 利用时间序列数据预测商业和住宅抵押贷款违约之间的空间依赖性

  · 衡量汽油消费对市场价格变化的敏感性

  计量经济学领域主要涉及宏观经济现象,例如就业、工资、经济增长、环境、农业和不平等,但这些原则同样适用于解决商业和机器学习问题。

  计量经济学方法

  计量经济学的运作没有明确的界限,因此很难列出所有属于它的方法、工具和技术。本文的受众是数据科学家,因此我把计量经济学方法大致分为四类:描述性统计、假设检验、回归和预测。下文将对每个类别进行更深入的探讨。

  描述性统计

  描述性统计在数据科学项目的探索性数据分析(EDA)中起关键作用。描述性统计使用统计技术来衡量数据的集中趋势、离散和分布。

  集中趋势:在计量经济学中,集中趋势的度量是一组“中间”值,代表数据集中的所有观察值。它描述了集中在一个中心位置上的数据分布,所有其他数据都围绕这个中心位置聚集。在集中趋势的度量中:

  · 平均值(mean)表示数据点的平均值。算术平均数、几何平均数、加权平均数和调和平均数都是它的变体。

  · 中间值(median)是数据的中点,是均值的替代方法。中位数对异常值不敏感,这使其优于平均值。

  · 模式(mode )衡量分布中最常出现的值。

  离散:与集中趋势相反,离散度对数据集中的可变性进行量化,即数据相对于中心值的离散程度。

  计量经济学中常用的离差测度有极差、四分位距(IQR)、标准差、方差、平均绝对差、变异系数、基尼系数等。

  分布:统计分布是一种数学函数,用于描述/计算样本中观测值的发生概率以及发生的频率。

  正态分布或高斯分布是最著名的分布,其他的概率分布有二项式分布(Binomial)、泊松分布(Poisson)、伯努利分布(Bernoulli)、几何分布(Geometric)、指数分布(Exponential)和卡方分布(Chi-squared)等。

假设检验

  假设检验通常是指根据公认的事实(称为“零假设”)对一项主张进行检验。

  它使用样本数据来验证关于整个人口的说法。有人说阿灵顿县的人比费尔法克斯县的人长寿。由于不可能对所有人进行调查,研究人员将对两个县的人口进行抽样,并对假设(即声称)和零假设(即县与县之间的预期寿命没有差异)进行检验。

  所以假设检验能对一项主张进行检测,如何准确测量声称的有效性呢?有以下几种测试:

  · 当有1个自变量(例如性别)和2个级别(例如男孩和女孩)以及1个因变量(例如测试分数)时,使用t检验。

  · 当有1个自变量超过2个级别时,使用ANOVA。在诸如“自由主义者,保守主义者和独立人士对拟议税收政策的看法不同”之类的假设中,有1个自变量(政党隶属关系)具有两个以上级别(自由主义者,保守派,独立人士)和1个因变量(对税收政策的看法)。

  · 卡方检验比较观察结果和预期结果。假设对15个家庭的宠物喜好进行调查——猫、狗、鸟。预期结果(零假设)是猫-5,狗-5,鸟-5。然而,在调查之后,观察结果发现猫-2,狗-10,鸟-3。卡方检验将检验宠物偏好显著不同的假设。

  假设检验中另外两个重要的概念是:

  · p值的量度用作支持或拒绝主张的证据(假设);较小的p值表示原假设可以被拒绝(即该声明在统计上是有效的)。用统计学术语来说,p = 0.01意味着结果是偶然的概率只有1%,因此可以拒绝原假设(已接受的事实)。

  · 假设检验中的另一个概念是置信区间(CI),这是不确定性程度的度量。CI提供了参数可以属于的值范围。

  回归

  回归是一个巨大的主题,下文将总结用于计量经济学领域的回归问题的关键方法和相关技术/模型。

  · 线性模型是广泛使用的连续因变量技术。线性模型族中的两种具体技术是简单回归和多元回归。简单线性回归只有一个因变量,由一个自变量(如体重与身高)来解释。另一方面,多元线性回归有多个解释变量(如身高和年龄解释的体重)。线性模型有几种变体,如岭回归(Ridge regression)和套索回归(LASSO regression)。

多元回归模型的概念表述

  · 面板数据模型是专门用于建模时间序列数据的回归技术。它是预测时间相关观测值的有力方法。面板数据模型中使用的一些技术有混合OLS(普通最小二乘法)、固定效应模型和随机效应模型。

  · 计数数据模型用于将计数数据(如犯罪数量)建模为协变量(如失业率、收入)的函数。普通回归不起作用,因为它可以预测负值或非整数值,这对计数值没有意义。计数数据回归的两种方法是泊松法、负二项法。

  · 当因变量为二元变量时,使用二元结果模型(如是/否,批准/不批准)。这类似于机器学习中的两类分类问题。在计量经济学中,采用Logit和Probit模型对二元结果进行建模。

  · GLM(广义线性模型)用于线性模型失效的情况——要么因为结果是计数数据,要么因为结果是连续的但不是正态分布的。GLM由三个部分组成:随机部分,它是概率分布的指数族;系统部分,它是线性预测因子;推广线性回归的连接函数。

  · VAR(向量自回归):自回归是一个变量对其自身、对其过去值的回归。在这种情况下,自变量是被预测的同一单变量数据序列的过去值。向量自回归概括了此单变量的概念,并允许在模型中包含额外的相关变量。

  在这个过程中,因变量是用它自己的过去(滞后)值以及外部因素的滞后值来预测的。例如,如果要预测一个县2050年的人口数量,VAR的概念框架如下:

预测

  和回归一样,预测也是一个值得深入研究的大课题。有一个丰富的预测工具箱,可以为数据科学家提供了许多不同的选择。我不会深入理论,而是将重点放在计量经济学领域中常用的工具和技术上。通常情况下,这些技术是密切相关的,一种技术的限制导致了另一种技术的发展。

  · 基准预测:这些模型统称为“benchmark”或“baseline”预测。这些技术很少在实践中应用,但它们有助于建立预测直觉,并在此基础上增加额外的复杂性层次。基准预测中的一些技术有:Nave、Seasonal、Mean、 Seasonal nave、Drift、直线趋势、随机漫步和几何随机漫步。

关于训练和测试数据的均值和漂移模型

  · 指数平滑:时间序列可以分解为3个组成部分:趋势、季节性和白噪声(即随机数据点)。出于预测的目的,可以预测可预测项 (即趋势和季节性),但不能预测以随机方式发生的不可预测项。

  指数平滑可以通过平滑白噪声来处理序列中的这种变异性。指数平滑的一些变体是:简单指数平滑、霍尔特的线性趋势和霍尔特-温特指数平滑。

  · ARIMA:代表了一套彼此密切相关的模型。自回归综合移动平均线(ARIMA)可以说是最流行和广泛使用的预测统计技术。顾名思义,ARIMA有3个组成部分:一个自回归组成部分来建模序列及其滞后值之间的关系;作为滞后预测误差的函数预测未来价值的移动平均分量;使级数稳定的积分元件。这个建模套件的一些额外的变体有:SARIMA、ARIMAX、SARIMAX等。

图源:unsplash

  下面提供一些上文提到的技术的商业运用:

  · 基于客户特征如年龄、收入、就业类型等的信用卡审批(二元结果模型/Logit模型)。

  · 预测未来产品需求,确保足够的产品库存(时间序列预测)。

  · 衡量气候变化对国内生产总值、农业和热带气旋损害的影响(多元回归)。

  · 根据人口特征(如年龄、性别、种族、收入)量化老年人的医疗护理需求(患者数量)(计数数据模型)。

  · 管理政策(如弹性工作时间、奖金、假期)对员工生产力的影响(模型取决于员工生产力的衡量方式)。

  · 通过社交媒体、电视和报纸等不同渠道的营销活动预测收入(多元回归)。

  · 利用历史收入数据及其协变量(向量自回归)预测2030年的业务收入。

  · 根据房屋面积、床位、浴室、收入中位数、县税率等房屋和社区特征预测房价(多元回归)。

  计量经济学是经济学中的一个古老的分支领域。它应用数学和统计技术来模拟经济和社会系统,其中许多工具和技术同样适用于解决传统数据科学和机器学习问题。

关于我们 | 联系我们 | 领导信箱 | 广告合作 | 组织机构