优思学院:统计学和大数据分析到底有何不同?

小优谈质量 2025-04-18 17:13:51

统计学的历史源自17世纪,一直到20世纪,统计的研究是希望从样本推论到总体,所以都是以小样本数为主,其原因是有样本的不只取得困难且成本高昂,且数据太多因素互相干扰不容易准确,所以早期的统计研究多属两阶段型。

第一阶段:数据分析(Data Analysis)研究如何从母体或样本中收集资料,描述资料中的数据和分散程度。第一阶段的统计又被称作探索性资料分析(Exploratory Data Analysis, EDA),资料分析师们会直接探讨现有数据的样貌。

第二阶段:推论统计(Inferential Statistics)由第一阶段资料分析推展要做假设,使用检验工具做有效的样本推论到整个母体,来制定政策,在质量管理、六㕋西格玛中会经常被用到。第二阶段的统计又被称作验证性统计,因其目的是利用样本推断母体并排除不只是巧合或随机偏差,再作分析。

以前的实验因样本取得不易,必须用少数有效样本推论、决策。也因此做各类数据模型测量,是最后订目标的统计。

大数据分析

到了21世纪我们进入了电脑时代,因为我们可以储存大量资料,不像以前的数据量比较少,工程界已经有能力可以处理大量数据的分析,故使用电脑做出各类可视化(Visualization)、探索性分析。但是因为样本数很大,采样误差(随机误差)影响小,所以不需要做假设检定(推论统计),大数据分析不仅能使用各类资料分析方法(临机应变)及引导式分析,也能利用人力去发展新的分析工具。到了2010年大数据出现后,资料量庞大到无法再使用人工方式处理,于是有商业行为需要多重分析,所以这时候是使用大数据分析(Big Data)的时代。

但其实目前大数据分析流程已工程界,早已使用大数据做统计分析现在很多人称作数据科学(Data Science),现状是使用者可能不再完全懂统计理论,只要会操作电脑系统进行可视化分析,期望电脑程序可以用计算方式,提供解释与结论。这就是现今的大数据分析。但仍有分析工作,也会使用统计学的方法,只不过电脑可以做得更快且可视化来辅助分析。

统计学与大数据分析的异同

由以上的内容可知,统计与资料、通讯工程与IT领域具有密切相关性;可参考下图。

然而实际操作却是两者间有着很大的训练差,各走各路。其中许多内容、数据结构已经高度牵涉内容,但因为两边的工场,工程师也不知道进统计内容,而自行用程序方式就解决的。两门工程都开发的统计工具,因缺乏严谨的统计模型,在某程度上的计算过程中,会有高度风险性:

以工程界为例,如果有问题可以快速检测出来;但如果是社会、医疗、人文类的问题,容易受多重因素影响,不容易即时检验统计结果是否正确。所以工程师开发的统计程序,在某些情形下没有数学严谨的统计理论支持,容易失去准确性。同理在商业上的大数据分析使用也要更小心。

结论

我们可以发现统计的演变,从少量数据来推论母体模型,进而做出推论。然而在21世纪可获得大量数据,并利用电脑能部分取代数学模型,利用视觉化来分析,科技的改变让统计的发展不断推进,当然视觉化的分析,里面仍然是数学模型在内,且也需要数学理论支持,只不过方便研究中,但已经可由视觉化来辅助分析。

大数据时代的出现让工程界更重视分析长数据,利用数据图像化、视觉化、即时互动分析,来进行商业决策。而计算机工具中,常用的是大数据整合的决策统计,而非只用传统的母体统计模型为主。以上的方法在应用在各个学程上,从自然科学、数理统计、六西格玛、质量管理、医学、社会科学,甚至数码科学。

0 阅读:4