• 全国 [切换]
  • 二维码
    速企网

    手机WAP版

    手机也能找商机,信息同步6大终端平台!

    微信小程序

    微信公众号

    当前位置: 首页 » 行业新闻 » 热点新闻 » 正文

    大数据时代因果分析不再重要了吗

    放大字体  缩小字体 发布日期:2025-04-03 14:27:15   浏览次数:1  发布人:c220****  IP:124.223.189***  评论:0
    导读

    随着计算社会科学研究方法的快速发展,数字化技术和大模型在学术研究和商业领域的应用日益增多。一种观点认为,基于大数据的分析方法主要使用相关关系,因此在大数据时代应该抛下对因果关系的执着,转而去关注更加简单易得的相关关系。这种观点看似有一定道理,实则是片面和错误的。无论在哪个时代,探索相关关系和因果关系都是科学研究不可偏废的两个目标。大数据时代不仅对因果分析提出了新的诉求,而且为完善因果分析提供了新的

    nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />

    随着计算社会科学研究方法的快速发展,数字化技术和大模型在学术研究和商业领域的应用日益增多。一种观点认为,基于大数据的分析方法主要使用相关关系,因此在大数据时代应该抛下对因果关系的执着,转而去关注更加简单易得的相关关系。这种观点看似有一定道理,实则是片面和错误的。无论在哪个时代,探索相关关系和因果关系都是科学研究不可偏废的两个目标。大数据时代不仅对因果分析提出了新的诉求,而且为完善因果分析提供了新的机遇。

    nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />

    技术变革对社会科学研究方法带来挑战与机遇。本报 Al 制图

    大数据研究也需要因果解释

    从研究目的的角度看,社会科学研究可分为描述研究、解释研究和预测研究三类。描述性研究主要回答“是什么”的问题,这类研究通常借助有代表性的调查数据或大数据,描摹现象的特征和趋势,分析变量间的关联模式及其时空差异;解释性研究主要回答“为什么”的问题,这类研究通常借助统计方法和因果推理,揭示变量间的因果关系,解释推动事物发展的过程和机制;预测性研究主要回答“未来会怎样”的问题,这类研究通常基于历史数据总结规律和模式,据此推测事物的未来趋势或事件发生的概率。根据上述分类框架,当前大数据研究的主要目的是描述和预测,但这不代表大数据研究不需要因果解释。

    首先,对那些描述性的大数据研究来说,通过大数据确实可以挖掘出很多关联和模式,但这些关联和模式有可能是虚假的,缺乏实际意义,而因果解释可以帮助区分真实的关系和虚假的关联。例如,对健康大数据进行分析可能发现“冰淇淋销量与中暑人数呈正相关”。如果仅停留在描述层面,可能会得出“吃冰淇淋导致中暑”的错误结论。实际上,两者都是高温天气的结果。因果解释可以揭示真正的驱动因素是气温,从而避免误导性结论。此外,描述性的大数据研究只能呈现现象的表面特征,而因果解释能够揭示现象背后的机制,帮助研究者更深入地理解问题。例如,对教育大数据进行分析可能发现“学生使用电子设备的时间与学业成绩呈负相关”。如果仅描述这一现象,可能会得出“减少电子设备使用能提高成绩”的结论。但因果解释可能揭示出家庭经济条件、学习习惯等混杂因素的影响,从而提供更准确的建议。

    其次,对那些预测性的大数据研究来说,仅依赖相关性构建的预测模型可能在实际情况发生变化时失效,而因果解释可以帮助识别稳定的因果关系,提高模型的通用性。以大数据研究中一度引以为傲的谷歌流感趋势预测为例,该预测基于谷歌搜索引擎大数据和机器学习算法成功预测出了美国2009年前后流感的发展趋势,其结果在准确性上与美国疾控中心的调查结果相当。但是,在2011年以后,该预测开始系统性地高估美国的流感发生率,部分时期的预测结果甚至是美国疾控中心调查结果的两倍。一些学者就此对谷歌流感发展趋势预测的准确性提出质疑。但面对质疑,谷歌公司的技术人员却有些束手无策,因为他们使用的预测模型完全是一个“黑箱”,这导致模型的开发者也不清楚预测模型为何出错、什么时候会出错,以及如何纠正这些错误。

    最后,在法律、金融、医疗等许多应用领域,基于大数据的预测模型不仅需要高精度,还需要可解释性。因果解释则可以帮助理解模型的决策逻辑,增强用户信任。以人工智能技术在医疗领域的应用为例,研究发现,很多医生拒绝采纳基于医疗大数据的预测模型给出的诊断结果。其中一个重要原因是这些预测模型的诊断机制不明,而如果预测模型在给出诊断结果的同时提供诊断依据和机制,医生采纳的可能性会大幅提高。

    由上可见,缺乏可解释性和透明度是大模型在应用推广过程中不可忽视的一大阻碍。虽然预测可能只需使用相关关系,但要让预测结果更科学、合理及可接受,必须给出因果解释。基于大数据的社会预测在突出相关性的同时,不应排斥因果性。实际上这类应用对因果性提出了更高的要求,而当下主流的大数据研究方法尚不能很好地回应这些要求。

    大数据研究可以助力因果推断

    大数据研究不仅需要因果分析,而且可以通过提供丰富的数据来源、支持精细的变量控制、拓展因果推断工具和方法、支持动态因果分析等途径,显著提高因果推断的可信度和可靠性。

    第一,大数据涵盖多种数据类型(如结构化数据、文本、图像、传感器数据等),而且通常具有更高的时间分辨率和空间覆盖率,这些数据可以帮助研究者更全面地捕捉因果关系中的复杂因素。例如,淘宝、京东等电商平台通过融合用户的购买历史、浏览记录、搜索关键词等文本数据,以及用户的点击行为、购买行为等传感数据,借助因果推断模型优化用户推荐算法。

    第二,大数据通常包含更多的变量和更细粒度的信息,这使得研究者能够更好地控制混杂变量,从而更准确地识别因果关系。例如,在教育领域,有研究者利用学生的学习行为数据(如在线学习平台的点击流数据、作业完成情况、考试分数等),分析不同教学策略对学生成绩的影响。通过控制学生的背景特征(如家庭经济状况、学习习惯等),可以更准确地推断出教学策略的因果效应。

    第三,大数据研究为因果推断提供了更多的工具和方法,如因果森林、双重机器学习等,这些方法可以更好地处理高维数据和非线性的因果关系。例如,有研究者利用电商平台的交易数据,分析促销活动对销售额的影响。通过使用双重机器学习方法,可以在控制其他影响因素(如季节性、市场竞争等)的同时,准确估计促销活动的因果效应。

    第四,大数据通常具有时间序列特性,因而能够天然地捕捉变量间的动态关系,这对分析因果关系的时效性和滞后效应非常重要。例如,在环境科学领域,有研究者利用气象传感器数据和空气质量监测数据,分析空气污染与气象条件之间的动态因果关系。通过分析风速、湿度和污染物浓度的时序数据,可以推断出气象条件对空气污染的因果影响。

    大数据研究推动因果分析范式转型

    在提升因果推断的可靠性之外,大数据研究也对当前主流的因果分析范式提出了挑战,有可能在多个方面推动未来因果分析范式的转型。

    首先,从“理论驱动”到“理论和数据双重驱动”。传统因果分析通常是理论驱动的,即先提出假设,再通过数据验证。而大数据推动了数据驱动的研究范式,即通过数据挖掘发现潜在的因果关系,再结合理论进行解释。近年来,有学者提出了“计算扎根”的概念,认为在大数据时代,社会科学研究者要善于从纷繁芜杂的数据中发现因果关系,提出因果理论。计算扎根或数据驱动的因果分析方法很可能会成为未来因果分析的一个重要方向,值得进一步关注。

    其次,从侧重“因果识别”到更关注“机制解释”。传统因果分析主要致力于使用实验或统计方法识别自变量对因变量的影响大小,缺乏对因果机制的深入解释。但在大数据时代,机制解释的重要性可能会大幅提高。例如在很多基于大数据的预测研究中,研究者已经可以找到一个预测效果不错的模型,但无法对模型的预测机理给出合理解释。因此,如何打开预测模型背后的“黑箱”,提高模型的透明度和可解释性势必会成为未来因果分析的一个重要研究方向。

    最后,从“由因溯果”到“由果溯因”。传统因果分析主要关注某个原因变量对结果变量的平均影响,较少分析某个特定结果是如何由众多原因变量共同导致的。在大数据时代,预测研究得到空前发展,从提高预测准确性的角度看,仅关注单一原因变量是不够的,因此未来的因果分析势必要研究更加复杂的因果网络,以求更加全面地揭示对结果有影响的所有原因。

    综上所述,大数据时代的到来并没有否定因果分析的价值,而是为拓展传统的因果分析方法提供了很多机遇。因果思维是人类认识世界的核心要求,认为相关关系重于因果关系是对大数据分析技术的夸大和误解,绝非大数据自身的诉求。在大数据时代,人们一方面需要依靠数据和算法提供更有预测性的结论,为决策提供依据;但另一方面也要避免数据的傲慢和算法的操控,为个体自由提供空间。这两方面的要求都需要我们重拾因果分析的重要性。在大数据时代,因果分析不仅依然重要,而且比以往任何一个时代都更加重要。

    作者系南京大学社会学院教授

    来源:中国社会科学报

    责任编辑:李文珍

    新媒体编辑:张雨楠

    如需交流可联系我们


     
    (文/匿名(若涉版权问题请联系我们核实发布者) / 非法信息举报 / 删稿)
    打赏
    免责声明
    • 
    本文为昵称为 c220**** 发布的作品,本文仅代表发布者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,发布者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们154208694@qq.com删除,我们积极做(权利人与发布者之间的调停者)中立处理。郑重说明:不 违规举报 视为放弃权利,本站不承担任何责任!
    有个别老鼠屎以营利为目的遇到侵权情况但不联系本站或自己发布违规信息然后直接向本站索取高额赔偿等情况,本站一概以诈骗报警处理,曾经有1例诈骗分子已经绳之以法,本站本着公平公正的原则,若遇 违规举报 我们100%在3个工作日内处理!
    0相关评论
     

    (c)2008-现在 sud.com.cn All Rights Reserved.