用AI机器人全自动完成多组疗效比较研究(一)

真实世界研究 2022-10-26 13:26:29

作者简介:赵洪鑫   复旦大学医学博士  北京洪宇科技有限公司CEO

不懂统计学的医师福音来啦!临床医生做科研的痛点就是统计学,缺乏研究设计的知识和统计学的理念,R和SAS编程难学,SPSS也是需要统计知识的,迫切需要一款傻瓜软件,只要设计好研究,就能全自动做完后面的一切分析。

这次给大家带来的是一款全自动进行多组疗效比较分析的APP,只要简单鼠标点点,就能一分钟无脑生成非常专业,符合CONSORT标准的统计表(如上图)!再也不用因为不懂统计而发愁啦。

上图来自Mstata 软件,生成上图一共点了25下鼠标,没有动用键盘。从上传数据到下载word文档显示统计表,一共用了18秒。

软件在哪?关注 “真实世界数据” GZH获得

功能:本工具可以对两组或两组以上的患者进行治疗效果评价统计分析。

结局类型:疗效结局为连续性变量。疗效结局如果为二分类或生存资料的,后续会开放另外的APP进行分析。

研究设计:研究类型可以是随机对照分组,也可以是非随机分组;可以是干预研究,也可以是非干预研究;可以是前瞻性研究,也可以是回顾性研究。

主要特点:

根据不同的研究设计类型,系统会自动采用适宜的统计学方法

根据分组的多少(两组、两组以上),系统会自动采用适宜的统计学方法

根据CONSORT报告规范一分钟无脑生成统计表,达到新英格兰医学杂志的图表要求

不懂统计也能操作,全程避免使用艰涩的统计语言

自动生成统计方法注解

在整个分析过程中,潜移默化的教会大家,临床研究设计的理念和统计分析的理念,使用本工具完成一项研究之后,您基本也成为了临床研究专家。

基础知识

当疗效评价的指标是连续性变量时,适用本工具。什么是连续性变量?

连续性变量:值是连续数据,它可以在变量值所属区间内任意进行取值,如血糖值、血压值、血胆固醇水平、身高、智商等。

基本理念

基线值 Baseline:在基线期测量的疗效指标。基线时间由您的研究设计决定,通常在治疗前。按照惯例,如果是随机对照研究,通常基线期在随机化分组日期附近;如果是非干预研究或回顾性研究,基线时间由研究设计决定。如研究开始时,测量基线空腹血糖水平。

终点值 Endpoint:在研究终点测量的疗效指标。研究终点由研究设计决定。如治疗24周后的空腹血糖水平。有些研究有主要研究终点,还有次要研究终点。比如除了血糖,还要分析糖化血红蛋白和其他指标。

终点和基线的差值 Change from baseline:是指治疗后规定的时间点,疗效指标的变化值。Change from baseline = Endpoint - Baseline 如治疗后24周的空腹血糖 - 基线空腹血糖。

终点相对基线变化的百分比 Percent change from baseline: 是指治疗后规定的时间点,疗效指标的变化的百分比值。Percent change from baseline = (Endpoint - Baseline)/Baseline * 100% 如治疗24周后的空腹血糖相对于基线空腹血糖变化的百分比。

如何评价疗效?

疗效评价需要有治疗组和对照组。本工具适用两组或多组疗效评价。如果只有一个组的单臂研究,不适用本工具。

疗效评价主要采用双重差分(Differences-in-Differences) 的理念。

治疗组 Change from baseline = 治疗组 Endpoint - Baseline

对照组 Change from baseline = 对照组 Endpoint - Baseline

疗效比较指标 Effect = 治疗组 Change from baseline - 对照组 Change from baseline

这里需要准备四个关键数据,治疗组治疗前后的两个疗效测量,对照组治疗前后的两个疗效测量。

治疗组前后的差值,和对照组前后的差值,相减得到两组间的Difference。先算两组自身前后的差值,再算组间差值的差值,相减了两次,所以也被称为双重差分。

统计模型

如何进行统计分析呢?最常见的是ANCOVA模型,尽管前面进行了差值减法,但两组基线水平还是有些差异,因此要调整基线水平。模型为 Change from baseline ~ Treatment+Baseline+Other covariables

根据CONSORT指南,首选我们要在论文表格里描述每个组基线的mean (sd), 终点的mean (sd), Change from baseline 的 mean (sd),另外还需要描述 Change from baseline 调整了Baseline 之后的 LS mean 和 95% CI,第二步就是治疗组和对照组互相之间的 Difference in LS Mean (95% CI)。

此外,如果是随机对照试验,组间人口学或临床特征已经通过随机分组做了平衡,不需要再过多统计学处理。但如果是非随机研究,组间基线不平衡,还需要对人口学或临床特征进行统计学调整:

另外,还有缺失数据的填补,之前惯用的是LOCF法,就是如果终点疗效指标缺失,就用上一次离终点最近的一次测量值填补,这样的话在优效性设计里结果偏保守。当然这个方法已经过时了,现在一般用多重填补 Multiple imputation。

因此,做疗效比较是一个比较复杂的过程。但好在现在您拥有了Mstata医学统计机器人,下面只需要随便点点鼠标,一分钟就能无脑完成分析并生成上面这样的统计表。

准备数据

首先点击开始,点击”事先设置”,根据提示输入您的研究类型:

这个页面主要收集有关您的研究设计和数据类型的信息,然后系统AI会自动生成后面页面的界面,并内嵌适宜的统计模型。

主要关注的点是组间是否随机,如果随机,后面会嵌入简单的统计模型,如果非随机,您可以上传经过倾向性评分匹配后的数据,也可以在后面的界面中用多因素方法调整组间平衡。

另外是数据类型,如果您有基线和终点两次的数据,系统会用上述”双重差分”的理念用ANCOVA模型,如果您只有终点的数据,没有基线的数据,系统会改用ANOVA,不调整基线。如果您有多次测量,也一并上传,在基线和终点之间的测量值也是有用的,尤其是在缺失数据填补中有很大意义。

根据提示,下载生成的样例数据,然后在样例数据的基础上修改成您自己的数据,就可以上传开始分析啦。

上传和导入数据

进入”导入数据”页面,点击Browse按钮上传文件,最好是.CSV文件为佳。然后务必要点击最下方的”import data” 按钮。

字段的选择和处理

数据导入之后,可以对字段做一些修改和调整:

这一步非常重要,不能跳过所有变量分为连续性变量和分类变量两种,连续性变量(值是连续数据,它可以在变量值所属区间内任意进行取值,如年龄[岁]、血糖值、人的身高、智商等)以及分类变量(是说明事物类别的一个名称,其取值是分类数据。如”性别”就是一个分类变量,其变量值为”男”或”女”;“行业”也是一个分类变量,其变量值可以为”零售业”、“旅游业”、“汽车制造 业”等)。

连续性变量,都设置为numeric;分类变量,设置成factor。字段名称可以改成最终统计表里的名称,比如 age 可以改成 Age, 首字母大写等等。如果很多连续性变量被设置成了character或factor, 后续统计分析会出现系统崩溃的情况。然后在这个页面,哪怕你什么也没修改,也务必要点击”Apply Changes” 按钮,才能进入下一个页面,否则进行不下去。

选择患者

进入”选择患者” 页面,如果要选取一部分患者做亚组分析的话,在这个页面做选择和调整。

设置因子排序

然后进入下一个页面”设置因子排序”:

前面设置为factor的分类变量,此时会出现在这里,用鼠标拖拽改变它们的亚组顺序,这决定了亚组在后面统计表中出现的顺序。

比较重要的是,可以把对照组Control拖到最前面,这样符合惯例,做出来的统计表也最符合CONSORT标准。

基线表设置

然后进入下一个页面”生成基线表”:

根据提示,选择人口特征和临床特征的字段,先生成基线特征表(Table 1),这里不要把疗效测量的字段选进来。只选疗效以外的人口学和临床特征等要出现在论文第一个表里的变量。

疗效比较分析

最后进行疗效比较分析,选择代表终点的变量,如week 24;代表基线的变量,如week 0,如果有中间点的测量如week 6 , week 12也可选进来,在LOCF中有用。另外,如果不是随机化分组,或者没有进行倾向性评分匹配,这里还可选择年龄,性别,临床特征等等字段进来作为协变量,调整组间平衡,如下图:

当然,如果要调整的变量太多的话,还是建议先用本站的"倾向性评分匹配"工具,做完倾向性评分匹配后再把匹配后的数据上传上来做疗效分析。

下载word文件

最后进入”下载word文件”

下载的文档包括基线表(Table 1)和疗效分析表(Table 2)。

我们可以看到,表格底注的统计方法文字,是根据研究设计和您的选项动态变化的:

下载下来的文件,有些word版本打开的时候会报错,不用在意,直接点 Yes 进行文件修复就能打开。

另外,后续在2.0版本会给图表增加文字,如统计方法描述,统计结果的配套文字描述在下一个版本会自动生成,大家只要稍作修改就可以直接放进论文中了。

生成文字版的统计报告才是睿智统计机器人的精华,最终会做到半自动生成论文。到时候您只需要撰写Backgroud和Discussion就行了,而Statistical Methodology 和Results部分,计算机会根据研究类型自动生成好。

0 阅读:24

真实世界研究

简介:介绍真实世界数据、真实世界研究和生物统计学知识