logistic回归模型在ROC分析中的应用
22
主垦里生缠进2QQZ生2县筮丝鲞筮!塑
logistic回归模型在ROC分析中的应用
陈卫中1潘晓平2倪宗瓒2
【提要】目的
探讨logistic回归模型在有协变量或多指标联合诊断试验ROC分析中的应用。方法
根据疾病状
态建立logistic回归模型。通过形成的预测概率或联合预测因子为分析指标,并结合非参数模型和双正态模型建立ROC曲线。结果通过实例阐述了整个分析过程,并说明了该试剂盒的有效性,同时利用两种模型得到了一致的结果。结论ROC分析中结合logistic回归模型简单有效,尤其适用于有协变量或多指标联合诊断试验的分析评价。
【关键词】诊断试验ROC曲线冠心病logistic模型双正态模型
ROC盐线(receiver
operatingcharacteristic
curve)
指标,对于某个截断点Pk有:若flYi≥g(Pk),‰=
1;若卢yf<g(P^),Y捕=0。对于有两个诊断指标的试验,其图形表示如图1所示,形成一个面而非一点。从而得到敏感度和特异度,构建ROC曲线。
分析被认为是一种诊断试验评价中的理想和经典的方法…。但在一个诊断试验中,由于变异的存在,必然有很多混杂因素(或协变量)对试验的评价产生影响,它们可能对疾病的状态产生影响,也可能对测量结果产生影响。其中可以识别的因素,一般在试验设计阶
段应加以控制,以真正显示该试验本身的价值。但在
实际工作中,由于病例来源问题,在设计阶段进行控制
非常困难,因此在统计分析阶段,尽可能地识别、控制
混杂因素(或协变量)显得尤为重要。一同时临床上对于同一种疾病的诊断或筛检,往往有各种不同的诊断方法或手段,涉及的诊断指标是非常多的。不同的指标对疾病各方面敏感性是不一样的,因此在对疾病做出诊断时如何充分利用这些指标的诊断信息,就显得非常重要。因此协变量的控制和多指标联合分析与ROC曲线结合的关键在于降维,本文以logistic回归为基础,给出了多变量线性组合的ROC分析方法。
多变量线性组合的ROC曲线及面积计算[2-71设共检测病例(阳性,D=1)Y1D个个体,正常(阴性,D=0)nD个个体,共检测铆个指标,记为:Y=
图1预测概率P为分析指标示意图
另一种是形成预测因子(combiningpredictors)L8(y),对式(1)进行变换得到:
‘(2)L口(y)=Y1+威y2+…+陆y。
其中酵=展/卢l,即第一个检测项目的系数为1,同时由于截距只是对数据发生的平行位移,在ROC曲线的构建中不存在影响,因此去掉截距后获得。
其构建的ROC曲线下面积(AUC),可以针对预
测概率P或预测因子参考非参数面积的计算得到。
即:
{Y1.…y。}。以疾病状态为结果变量,检测结果Y
为解释变量,建立模型,其具体形式可表示为:
g(“)=口+卢lY1+…+风Y二=flYi
(1)
AUC(6):里垡盟丛堕型堡幽(3)
nDn西
式中g(U)为连接函数(1inkfunction),必须严格单调且充分光滑,即有足够阶数的导数。对于ROC资料中疾病状态为二项分布,其连接函数可有多种选择,但通常情况下因为logit连接函数参数是OR(odds一般均选logit连接函数。
目前在ROC曲线分析中的,利用logistic回归模型进行转换可以两种方式:一是以预测概率P为分析
ra—
同时,由于预测因子为连续型资料,且服从正态分布[8J,故可以利用双正态模型(thebinormalmodel)[9】构建ROC曲线并求得相应曲线下面积,即:
tio)值的对数,较容易解释模型中参数变化的含义,故
Az=』鲁TPF(r)dFPF(圹①【。赢J(4)
f
门
\
式中口、b为双正态模型中的两个参数,可用
MLE法获得,其自然对数似然函数为:
l
I
ln2=∑kiln(pm)+∑liIn(加。)
(5)
最大似然估计获得的参数共有卜}1个,即,0=
1.成都医学院公共卫生学教研室(610081){01,02,03,04,…,以+1}_{a,b,t1,t2,…,t卜1},用对
堡bi!墅£』垒坐卫生垡蔓塑』尘墅§!i§!i箜:旦b2QQZ:y丑:24:基!:!
数似然函数对每个参数求一阶导数,利用近似New—ton—Raphson得分法(method的估计值。
of
表1
曲线下面积及其他参数的估计
scoring)迭代得到参数
软件实现
如果选择非参数法构建ROC曲线,全部过程可在SPSS中实现;如果选用双正态模型构建ROC曲线,可通过Rokit3.0实现曲线的构建和参数估计。
讨论
logistic回归模型在ROC曲线中的应用,考虑了混杂因素对疾病状态的影响,更注重诊断体系在医疗
实例分析
氧化低密度脂蛋白(OxidizedLDL,OxLDL)在冠心病的诊断中越来越受到人们的关注。研究证实,低密度脂蛋白向氧化低密度脂蛋白的转变是始动和促进动脉粥样硬化发生、发展的关键步骤。在某OxLDL临床诊断试验中,发现疾病组和正常组存在较多因素的不均衡,为控制混杂因素,使评价更加真实可靠,并增加试验的可重复性,拟进行有混杂因素的ROC曲线构建。
最终筛选出与冠心病有关的指标有4个:氧化低
实践中的价值。也就是说不单所评价指标对疾病有影响,其他诸如本研究中的年龄、性别、是否吸烟等因素的分布情况亦对疾病的发生起着重要作用,故将这些测量指标纳入对疾病产生影响的向量矩阵中,建立模型得到联合分布概率或联合预测因子,使其尽可能地更接近于总体的实际情况再进行评价。反过来说,它相当于根据混杂因素对疾病状态的影响,来调整测量指标值的大小,从而有效地控制了协变量。
从上面的介绍可以看出:①无论预测因子还是直接以概率P为分析指标,实质上都是对原始资料的一个单调变换,并不影响其在整个资料中的分布位置,故在ROC分析中,对模型的选择并不敏感;②由于GLM模型的系数由最大似然法获得,其保证了在所有可能依赖于疾病状态的组合中,是最佳线性组合,即:在某一特定敏感度下,能获得最大特异度;同时在特定特异度下,获得最大敏感度,从而能得到最大曲线下面积;③该预测因子符合正态分布,且是连续型资料,有利于进一步的分析;④该方法能将多指标综合为一个指标,从而实现了降维目的,可用于联合指标的诊断试验评价。
Applicationof
logistic
密度脂蛋白含量、性别、年龄和是否吸烟,其他指标均
无统计学意义。构建的logit模型为:
logit(P)=一10.3217+0.1111Yo。LDL一2.
0730k+3.0415K鳃删+0.9275Ysmoking
成Y0埔馏
(6)
k(Y)=y(址Dx+雕k+陆Lg神。p十
其中成=揣=一18.658
(7)
9,余类推分别
为:砖=27.3762,威=8.348 …… 此处隐藏:1916字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [外语考试]管理学 第13章 沟通
- [外语考试]07、中高端客户销售流程--分类、筛选讲
- [外语考试]2015-2020年中国高筋饺子粉市场发展现
- [外语考试]“十三五”重点项目-汽车燃油表生产建
- [外语考试]雅培奶粉培乐系列适用年龄及特点
- [外语考试]九三学社入社申请人调查问卷
- [外语考试]等级薪酬体系职等职级表
- [外语考试]货物买卖合同纠纷起诉状(范本一)
- [外语考试]青海省实施消防法办法
- [外语考试]公交车语音自动报站系统的设计第3稿11
- [外语考试]logistic回归模型在ROC分析中的应用
- [外语考试]2017-2021年中国隔膜泵行业发展研究与
- [外语考试]神经内科下半年专科考试及答案
- [外语考试]园林景观设计规范标准
- [外语考试]2018八年级语文下册第一单元4合欢树习
- [外语考试]分布式发电及微网运行控制技术应用
- [外语考试]三人行历史学笔记:中世纪人文主义思想
- [外语考试]2010届高考复习5年高考3年联考精品历史
- [外语考试]挖掘机驾驶员安全生产责任书
- [外语考试]某211高校MBA硕士毕业论文开题报告(范
- 用三层交换机实现大中型企业VLAN方案
- 斯格配套系种猪饲养管理
- 涂层测厚仪厂家直销
- 研究生学校排行榜
- 鄱阳湖湿地景观格局变化及其驱动力分析
- 医学基础知识试题库
- 2010山西省高考历年语文试卷精选考试技
- 脉冲宽度法测量电容
- 谈高职院校ESP教师的角色调整问题
- 低压配电网电力线载波通信相关技术研究
- 余额宝和城市商业银行的转型研究
- 篮球行进间运球教案
- 气候突变的定义和检测方法
- 财经大学基坑开挖应急预案
- 高大支模架培训演示
- 一种改进的稳健自适应波束形成算法
- 2-3-鼎视通核心人员薪酬股权激励管理手
- 我国电阻焊设备和工艺的应用现状与发展
- MTK手机基本功能覆盖测试案例
- 七年级地理教学课件上册第四章第一节