教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 外语考试 >

logistic回归模型在ROC分析中的应用

来源:网络收集 时间:2025-04-30
导读: 22 主垦里生缠进2QQZ生2县筮丝鲞筮!塑 logistic回归模型在ROC分析中的应用 陈卫中1潘晓平2倪宗瓒2 【提要】目的 探讨logistic回归模型在有协变量或多指标联合诊断试验ROC分析中的应用。方法 根据疾病状 态建立logist

22

主垦里生缠进2QQZ生2县筮丝鲞筮!塑

logistic回归模型在ROC分析中的应用

陈卫中1潘晓平2倪宗瓒2

【提要】目的

探讨logistic回归模型在有协变量或多指标联合诊断试验ROC分析中的应用。方法

根据疾病状

态建立logistic回归模型。通过形成的预测概率或联合预测因子为分析指标,并结合非参数模型和双正态模型建立ROC曲线。结果通过实例阐述了整个分析过程,并说明了该试剂盒的有效性,同时利用两种模型得到了一致的结果。结论ROC分析中结合logistic回归模型简单有效,尤其适用于有协变量或多指标联合诊断试验的分析评价。

【关键词】诊断试验ROC曲线冠心病logistic模型双正态模型

ROC盐线(receiver

operatingcharacteristic

curve)

指标,对于某个截断点Pk有:若flYi≥g(Pk),‰=

1;若卢yf<g(P^),Y捕=0。对于有两个诊断指标的试验,其图形表示如图1所示,形成一个面而非一点。从而得到敏感度和特异度,构建ROC曲线。

分析被认为是一种诊断试验评价中的理想和经典的方法…。但在一个诊断试验中,由于变异的存在,必然有很多混杂因素(或协变量)对试验的评价产生影响,它们可能对疾病的状态产生影响,也可能对测量结果产生影响。其中可以识别的因素,一般在试验设计阶

段应加以控制,以真正显示该试验本身的价值。但在

实际工作中,由于病例来源问题,在设计阶段进行控制

非常困难,因此在统计分析阶段,尽可能地识别、控制

混杂因素(或协变量)显得尤为重要。一同时临床上对于同一种疾病的诊断或筛检,往往有各种不同的诊断方法或手段,涉及的诊断指标是非常多的。不同的指标对疾病各方面敏感性是不一样的,因此在对疾病做出诊断时如何充分利用这些指标的诊断信息,就显得非常重要。因此协变量的控制和多指标联合分析与ROC曲线结合的关键在于降维,本文以logistic回归为基础,给出了多变量线性组合的ROC分析方法。

多变量线性组合的ROC曲线及面积计算[2-71设共检测病例(阳性,D=1)Y1D个个体,正常(阴性,D=0)nD个个体,共检测铆个指标,记为:Y=

图1预测概率P为分析指标示意图

另一种是形成预测因子(combiningpredictors)L8(y),对式(1)进行变换得到:

‘(2)L口(y)=Y1+威y2+…+陆y。

其中酵=展/卢l,即第一个检测项目的系数为1,同时由于截距只是对数据发生的平行位移,在ROC曲线的构建中不存在影响,因此去掉截距后获得。

其构建的ROC曲线下面积(AUC),可以针对预

测概率P或预测因子参考非参数面积的计算得到。

即:

{Y1.…y。}。以疾病状态为结果变量,检测结果Y

为解释变量,建立模型,其具体形式可表示为:

g(“)=口+卢lY1+…+风Y二=flYi

(1)

AUC(6):里垡盟丛堕型堡幽(3)

nDn西

式中g(U)为连接函数(1inkfunction),必须严格单调且充分光滑,即有足够阶数的导数。对于ROC资料中疾病状态为二项分布,其连接函数可有多种选择,但通常情况下因为logit连接函数参数是OR(odds一般均选logit连接函数。

目前在ROC曲线分析中的,利用logistic回归模型进行转换可以两种方式:一是以预测概率P为分析

ra—

同时,由于预测因子为连续型资料,且服从正态分布[8J,故可以利用双正态模型(thebinormalmodel)[9】构建ROC曲线并求得相应曲线下面积,即:

tio)值的对数,较容易解释模型中参数变化的含义,故

Az=』鲁TPF(r)dFPF(圹①【。赢J(4)

式中口、b为双正态模型中的两个参数,可用

MLE法获得,其自然对数似然函数为:

ln2=∑kiln(pm)+∑liIn(加。)

(5)

最大似然估计获得的参数共有卜}1个,即,0=

1.成都医学院公共卫生学教研室(610081){01,02,03,04,…,以+1}_{a,b,t1,t2,…,t卜1},用对

堡bi!墅£』垒坐卫生垡蔓塑』尘墅§!i§!i箜:旦b2QQZ:y丑:24:基!:!

数似然函数对每个参数求一阶导数,利用近似New—ton—Raphson得分法(method的估计值。

of

表1

曲线下面积及其他参数的估计

scoring)迭代得到参数

软件实现

如果选择非参数法构建ROC曲线,全部过程可在SPSS中实现;如果选用双正态模型构建ROC曲线,可通过Rokit3.0实现曲线的构建和参数估计。

讨论

logistic回归模型在ROC曲线中的应用,考虑了混杂因素对疾病状态的影响,更注重诊断体系在医疗

实例分析

氧化低密度脂蛋白(OxidizedLDL,OxLDL)在冠心病的诊断中越来越受到人们的关注。研究证实,低密度脂蛋白向氧化低密度脂蛋白的转变是始动和促进动脉粥样硬化发生、发展的关键步骤。在某OxLDL临床诊断试验中,发现疾病组和正常组存在较多因素的不均衡,为控制混杂因素,使评价更加真实可靠,并增加试验的可重复性,拟进行有混杂因素的ROC曲线构建。

最终筛选出与冠心病有关的指标有4个:氧化低

实践中的价值。也就是说不单所评价指标对疾病有影响,其他诸如本研究中的年龄、性别、是否吸烟等因素的分布情况亦对疾病的发生起着重要作用,故将这些测量指标纳入对疾病产生影响的向量矩阵中,建立模型得到联合分布概率或联合预测因子,使其尽可能地更接近于总体的实际情况再进行评价。反过来说,它相当于根据混杂因素对疾病状态的影响,来调整测量指标值的大小,从而有效地控制了协变量。

从上面的介绍可以看出:①无论预测因子还是直接以概率P为分析指标,实质上都是对原始资料的一个单调变换,并不影响其在整个资料中的分布位置,故在ROC分析中,对模型的选择并不敏感;②由于GLM模型的系数由最大似然法获得,其保证了在所有可能依赖于疾病状态的组合中,是最佳线性组合,即:在某一特定敏感度下,能获得最大特异度;同时在特定特异度下,获得最大敏感度,从而能得到最大曲线下面积;③该预测因子符合正态分布,且是连续型资料,有利于进一步的分析;④该方法能将多指标综合为一个指标,从而实现了降维目的,可用于联合指标的诊断试验评价。

Applicationof

logistic

密度脂蛋白含量、性别、年龄和是否吸烟,其他指标均

无统计学意义。构建的logit模型为:

logit(P)=一10.3217+0.1111Yo。LDL一2.

0730k+3.0415K鳃删+0.9275Ysmoking

成Y0埔馏

(6)

k(Y)=y(址Dx+雕k+陆Lg神。p十

其中成=揣=一18.658

(7)

9,余类推分别

为:砖=27.3762,威=8.348 …… 此处隐藏:1916字,全部文档内容请下载后查看。喜欢就下载吧 ……

logistic回归模型在ROC分析中的应用.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/116402.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)