美国新版初级卫生保健质量评估策略对中国全科医疗服务质量评估体系的启示
2018年12月,美国家庭医生学会(AAFP)发布了《基层保健质量评估策略的愿景和原则》(Vision and Principles of a Quality Measurement Strategy for Primary Care,《原则》)。《原则》是近年来AAFP在基层保健质量评估领域发布的纲领性文件,旨在为美国基层保健质量评估的发展提供指导策略。《原则》在设计上结合了全科医学的学科特性与质量-绩效评估方法学,立足于信任全科医生,并依赖一线医生实现质量改进,从而在理论上突破了21世纪初以来以英国的质量和结果框架(QOF)为代表的基层保健绩效支付模型,对今后世界基层保健服务质量评估体系的发展具有深远影响。故本刊对该文件进行了整理与解读,在此基础上,对于发展中国未来的全科医疗服务质量评估体系提出了一些建议,并衷心邀请更多的中国研究者关注这一领域,对该《原则》的内容和发展中国全科医疗服务质量评估体系进行更深入的讨论。本刊亦将对美国方面的后续进展进行持续跟踪,敬请关注。
近年来美国的医疗服务质量已成为一个备受关注的社会问题。在美国国家卫生保健开支高达国内生产总值(GDP)17%~18%〔为欧盟同期平均水平(8%~9%)的近2倍〕的同时,其许多关键健康指标,如人口平均预期寿命、流行病死亡率、孕产妇死亡率等,均与欧洲主要发达国家存在明显差距。美国的公众和相关机构均对改革美国医疗系统,提升服务质量提出了明确要求。在美国医疗保健研究与质量局(Agency for Healthcare Research and Quality,AHRQ)发布的《2015年国家医疗保健质量和差异性报告》中指出:更好的照护、健康的民众和社区、可负担的照护,是美国国家质量战略(National Quality Strategy)的3个主要目标。
改善质量、控制成本、提升可及性,要同时达成这三点,较侧重于对特殊疾病的诊治,从改善人群健康入手要更为有效。STANGE等将其解释为“基层保健的悖论(the paradox of primary care)”,即与专科照护相比,全科照护虽在对个体疾病的诊治上存在改进空间,却能以较低的成本维持慢性病患者的身体机能和状态,更能使全民拥有更好的医疗质量、公平与健康。造成这一“悖论”的原因,是基层保健所独有的一种建立在对急慢性疾病、心理、社会与精神问题、疾病预防和健康改善的整合、排序、情境化和个性化医疗的基础上的,在治疗疾病的角度难以评估,只能在患者和人群的宏观层级加以确证的特殊价值。欧盟发起的对35个国家的调查,以及BAZEMORE等对1 448 952名医保受益人进行的大数据分析,均已为该理论提供了高信度证据。但基层保健在美国医疗改革中承担重要责任,赢得发展机遇的同时,却也在客观上急需提升自身服务质量。在该背景下,制订一套适用于基层保健领域的优良卫生服务质量评估体系,就成了改善美国全科医学服务质量、推动学科发展和医疗改革进程的一个重要步骤。
AAFP是美国最大的医疗协会,拥有超过13万名会员,在推动美国家庭医学行业发展方面起着重要作用。2014—2018年,AAFP陆续在代表会和董事会上通过了9份与基层保健质量评估密切相关的文件,涉及数据保护、绩效评估、薪酬支付、质量定义、社会风险因素、简化行政程序等内容,分别从不同层面为一个统一的、纲领性的基层保健质量评估策略的出台奠定了坚实基础(见表1)。
在此基础上,AAFP于2018年12月发布了《原则》,其是近年来AAFP在基层保健质量评估领域发布的最重要的立场性纲领文件,旨在“在现有AAFP政策的基础上,为未来的医疗质量改进和支付措施中对评估的发展和使用提供指导”。《原则》由6条核心原则组成:原则一是总纲,强调了区分质量评估和绩效评估的问题;原则二、三、四,分别对质量评估和绩效评估的内容进行了阐释;原则五强调了基层保健的特点与全科医生参与的重要性;原则六则提出了先进的信息技术对基层保健质量评估的支持作用,以及实际操作中需注意的要点(见表2)。
相较传统的、以英国的QOF为代表的基层保健P4P模型,AAFP《原则》最大的突破,在于其首次作为国家质量评估体系,而明确区分了质量评估和绩效评估(见表3)。其将“质量评估”定义为:一种基于质量改进(quality improvement,QI)方法学的,由医生、医疗机构甚至是患者自主进行的,旨在因地制宜地提升医疗服务质量的具体改进环节;将“绩效评估”定义为:一种需要非常高的统一性、可靠性和规范性,仅由对患者最重要的因素组成的,旨在提供公开可信的信息,帮助患者决策和引导医疗保健资源分配的宏观评判标准。
《原则》背后,是美国全科医学研究者对21世纪初以来,以QOF为代表的P4P模型的反思与扬弃。近年,P4P模型已在美国基层保健中暴露出负面影响:对于医疗机构而言,美国目前已存在由100多家医疗机构制订的2 000多个绩效评估指标,但只有很小一部分有意义,与患者密切相关或由患者报告的指标则更少。这一方面造成了庞大的经济成本,如每位医生的质量报告费用每年超过40 000美元;一方面也使得医生被迫将大量时间投入电子健康记录的整理当中,产生了严重的职业倦怠。对社会影响而言,目前的证据显示绩效薪酬计划所带来的长期改善效果有限,甚至会错误地诱导医生实施“快餐化治疗方案”,降低医疗质量和滥用药物。因此,将质量评估和绩效评估拆分,一方面给予基层诊疗机构因地制宜自主行动的自由,从而在一定程度上从冗繁的评估指标和事务性工作中解放一线医生,使其得以更关注眼前的患者,实施立足实际的质量改进;另一方面,将绩效评估的参考指标集中于对患者与社会健康最重要的、适用范围最广的有限因素上,这在保证资源分配标准的公平性和普适性的同时,也最大限度地减少了绩效评估的成本,避免了出现“因评耽医、买椟还珠”的负面结果。
质量改进研究源于20世纪初的工业化生产,目前已在社会的诸多领域普及。其在医疗保健领域的应用提供了发展最佳诊疗和医疗保健设计的可能性,从而提升了健康卫生服务的质量和安全性。目前质量改进研究的方法学模型已相当成熟,较为通行的有3种:PDSA循环(plan-do-study-act cycles)、六西格玛(six sigma)、精益(lean)。此外,质量改进研究报告规范(Squire 2.0)也为此类研究提供了标准化结构。基层保健对“质量”的定义,目前存在多种版本,较为公认的内涵是“以患者为中心”和“有效”(见表4)。对质量评估的内容,AAFP仅做了方向性建议,如与医生的诊疗和所服务的人群相关、解决已知的照护差距、与诊疗目标保持一致、与国家或地区的评估保持一致、重视患者等,并举了若干关键指标的范例,如基层保健的结构、流程、结局、患者报告的结局、成本、资源、效率、对特定疾病的综合护理等。但在总体上,《原则》持的是信任一线医生,鼓励其学习和使用质量改进方法学,因地制宜地自主改进临床服务的态度。
《原则》关于绩效评估的部分,可将其概括为对“三性”的强调:(1)系统性。其要求对评估方法进行标准化规范,使其尽可能适用于各种支付计划中符合条件的患者和人群,将所有人口和地理区域归于至少一个系统,并在系统层级根据人口统计学、疾病严重程度和健康的社会决定因素进行风险调整。(2)有效性。其要求绩效评估需以证据为基础,应基于源于从多个数据源中提取的数据,而非医生及其团队的自我报告,在可靠性、可行性、重要性及风险调整方面达到最高标准,且聚焦于对健康状况、结果和成本影响最大的指标。(3)弹性。绩效评估需要考虑个别患者状况、价值观和需求的例外情况,留有一定的余地。对系统性的要求,是为保证数据的代表性和指标的统一性,避免造成对患者的选择偏倚,从而提升绩效评估的客观性,降低收集、汇总和报告数据的负担。
在此基础上,再通过对数据的分析和对人口和地区的风险因素调整,从系统层面对基层保健中的问题进行确认和反馈,在保证卫生公平的同时,推动未来的改进工作。对有效性的要求,是为保证数据和证据的可靠性,和避免因对评估指标的过度测量,增加不必要的行政成本和医生的工作负担。目前美国Medicare和Medicaid服务中心(Centers for Medicare&Medicaid Services,CMS)、美国医疗保险计划(America's Health Insurance Plans,AHIP)以及国家医学院(National Academy of Medicine,NAM)均发布了关于绩效评估优先领域的文件,其中共性的部分共9条(见图1)。
对弹性的要求,旨在为绩效评估保留一定的现实调整空间,避免过于刚性的评估指标成为一种“评估者以自身的价值去压抑患者的价值”的工具,而与医护人员服务患者的初心背道而驰,甚至引发对评估标准的误用、滥用,甚至是无视。
传统质量改进模型是为工业化生产的流水线而设计,其理论的默认假设为“每一次的线性生产流程在以相同的方式发生时可达到最高生产质量”。而在现实的基层保健中,所遇到的健康问题往往高度复杂,难以诊断,充满变量,且缺乏稳定的“生产控制点”,因此很难形成一个稳定的“线性标准生产流程”。YOUNG等制作了一张对比表,以概括基层保健质量改进和传统工业质量改进流程的区别(见表5)。
据2015年的调查,在美国有51%的初诊在基层保健医生处进行,全科医学的可及性、全面性、协调性、连续性、照护管理等特点,实质上均是建立在一线全科医生在近距离的日常诊疗中,与社区患者建立的关系的基础上。因此,在当前的工业质量改进模型暂时无力对全科医学领域过于复杂的变量进行整合、分析,并提出长期稳定的有效改进的情况下,不同于传统的P4P模型试图通过制定大量的、与收入直接挂钩的机械指标来规范一线医生的诊疗内容和结果、提升患者满意度,AAFP《原则》选择了更加信任全科医生,希望使其成为质量改进的核心,通过发挥“人”的主观能动性来补完,甚至是超越“工业标准化医疗”的结构性桎梏,以推动全科医学领域的质量改进。
《原则》的第6项核心原则,对基层保健领域的数据信息系统提出了明确要求。包括4个方面:
(1)解决数据所有权、互操作性及数据交换的问题,以允许信息在不同的健康信息网络之间流动,从而从多个来源提取和聚合数据,对大数据进行分析和解释;
(2)通过自动化的质量评估,从每例患者遇到的情况中生成证据,增强数据的即时性和避免医生的自主报告偏倚;
(3)将信息向医生与患者开放,平衡临床医生和患者之间的合作关系,使患者能够了解和参与护理决策,加强患者在管理自身健康方面的作用;
(4)尽力控制成本,尽可能使医生从信息数据系统中获取的收益高于所支付的成本。但目前,该原则在美国尚未能普遍实现,暂时仍只是对未来一阶段的改革设想。
除AAFP《原则》外,目前世界上有3套较为知名和应用广泛的基层保健质量评估标准,但其各自的用途、设计思想和内容均有所不同(见表6)。英国的QOF是目前世界上应用时间最久、影响力最大的P4P模型、其实质上是一个以经济支付方案为核心,以信息技术为支持,试图借此推动全科医学质量改进的奖金激励计划。核心设计思想是将基层保健的质量通过临床、组织和患者体验等领域的100余个指标量化为诊疗分数,并与全科医生的收入奖励直接挂钩。目前,研究者们已对其利弊进行了大量研究,在肯定其对特定病症诊治质量的中短期提升效果的同时,也指出了其在全科医学领域的局限性与“副作用”。2016年,苏格兰国家卫生服务部和英格兰的一些地区已放弃继续使用QOF评估系统。
基层保健质量和成本计划(Quality and Costs of Primary Care,QUALICO-PC)是欧盟在2010年进行的一个涉及35个国家的基层保健质量与成本调查,除31个欧洲国家外,加拿大、以色列、澳大利亚、新西兰也加入了该计划。其核心内容是将基层保健分为系统、诊疗服务、患者感受3个层级,对每一个国家进行220例医生和2 200例患者的数据采集,之后对其进行大数据汇总、分析和比较。相较QOF,其覆盖范围更加广泛,结论为确证基层保健对人群健康的积极作用提供了信度极高的证据,但其应用性仍停留在初步的信息调查与分析阶段,而未涉及质量改进部分。
全科医学标准(Standards for General Practices)的第5版,是澳大利亚皇家全科医生学会(The Royal Australian College of General Practitioners,RACGP)在2017年更新的澳大利亚基层保健质量评估体系。第1版于1991年发布,经过26年的修改和完善,其设计思想不同于QOF的“国家指南-专家共识”和QUALICO-PC的“问卷开发-分层横断面调查”两种路径,而采用了德尔菲法的“多轮利益相关者协商”,通过对全科医生、护士、患者、管理者以及组织的多方信息汇总而得出结论。其所包含的指标较第4版减少了17个,接近30%,从而有效降低了质量评估的负担与成本。相较欧盟与澳大利亚标准,AAFP《原则》的发布,意义要更加重大。其不但在内容上提出了明确的、现实可操作的质量改进方向,其背后的设计思想更在实质上对21世纪初以QOF为代表的传统P4P模型形成了“范式革命”般的理论冲击——AAFP《原则》的思想,已在很大程度上放弃了传统P4P体系追求“循证、精密、标准化”,试图通过设置指标,自上而下地规范一线医生诊疗行为的绩效评估模式,而是以一种崭新的、以“分离全科与公卫”“以全科医生为本”思想为基础,试图自下而上地将质量改进的工具和权限“授人以渔”,通过全科医生横向的、自发性的发展和团结,以实现全科医学行业的质量改进的崭新理论模型。
如果说QOF的设计模型犹如一个倒置的漏斗,AAFP《原则》的设计模型就如同一个上下对置的沙漏:拆分质量和绩效评估,减少绩效评估指标并将其系统化和整体化,鼓励全科医生使用质量改进理论自行改进服务,强调全科医生对质量改进过程的主导性,以及发展支持以上措施的信息数据系统。其所要达到的效果,其实是一种全科医学行业凭借自身所特有的人文精神,在质量改进领域对近现代工业流水线生产模式的扬弃与超越(见图2)。
但这所带来的结果,也很可能会具有两面性:一方面,基层保健体系确实可能因此而节约大量不必要的、耗费在行政性的绩效指标数据上的人力和物力,节省一线全科医生大量的事务性工作时间,激活其自主性,使其得以主动地专注于对临床诊疗的改进,为患者提供更优质的服务;另一方面,这也将空前沉重的科学和道德责任寄付在了一线全科医生及全科医学研究者的肩头——如果全科医生和机构的质量改进能力与意愿无法填补绩效指标减少后留下的空白,那么,这样的“精兵简政”是否还能在现实中产生积极的效果呢?
因此,对于在未来一阶段AAFP在该《原则》的战略方向基础上进一步制订的、即将实际应用在美国基层保健领域的质量评估系统与指标,以及其可能带来的现实结果,中国全科医学研究者有必要进行持续关注与深度分析,《中国全科医学》杂志亦将持续跟踪美国方面的最新进展、证据,以及现实反馈。
中国近年的医疗改革,在一定程度上面临着和美国相似的难题:以仅占GDP 6%~7%的财政投入,要满足13.9亿人的健康卫生需求,这在事实上形成了对医疗卫生系统的强大压力。习近平总书记在十九大报告中明确指出:“要完善国民健康政策,为人民群众提供全方位全周期健康服务。深化医药卫生体制改革,全面建立中国特色基本医疗卫生制度、医疗保障制度和优质高效的医疗卫生服务体系,健全现代医院管理制度。加强基层医疗卫生服务体系和全科医生队伍建设”。与美国类似,发展全科医学与基层保健,已成了中国近年的医疗改革中破解“质量”和“成本”这个死结的关键。限于中国全科医学行业仍处于探索和发展阶段,目前中国仍欠缺如欧美般的、足以证明“基层保健的悖论”这一理论在中国完全适用的高信度证据。但秦江梅等的研究结果,已在一定程度上证明了基层保健改革对基层卫生服务的可及性和患者满意度的正面提升效果。未来随着中国全科医学研究的发展,在中国实现QUALICO-PC这样的大型联合研究,取得信度更高的证据,并非遥不可及。然而中国全科医学的发展仍面临着两项难题:(1)“量”,即目前中国的全科医生数距离“2030年,城乡每万名居民拥有5名合格的全科医生”的目标,仍存在约50万人的缺口;(2)“质”,2016年社区卫生服务机构和乡镇卫生院的执业(助理)医师本科及以上学历占比分别为53.0%和28.9%,高级职称占比分别为8.6%和3.8%,平均水平仍与医院差距明显。
解决“量”的问题,需要依靠发展“5+3”“3+2”以及全科医生转岗培训3种主要教育途径,解决“质”的问题,则需要更进一步地实现对全科医生的毕业教育、终身教育,以及鼓励全科医生自主学习。但无论是对“量”还是“质”进行改进,国家、机构、教育者,以及全科医生自身,都需要及时得到充分的信息,了解自身目前的不足,以及改进和发展的方向所在。因此,发展适用于中国全科医疗服务的质量评估体系,就成了从系统层级发现实践中的问题,是中国全科医学的发展更具方向性和效率的重要保障。
4.2 AAFP《原则》对中国全科医疗服务质量评估可能产生的影响中国在2016年以前已有92个基层卫生质量评估领域的相关研究,近年在北京、广东、重庆等地,类似的研究仍在不断出现。这些研究的设计思想几乎全部基于传统的P4P模型,在方法上多采用德尔菲法或专家共识,延循P4P模型下的“指标-分数-收入”路径;与之相对应的是,作者采用检索式:“年between(2007,2019)并且(题名或关键词=基层,或题名或关键词=全科,或题名或关键词=社区,与题名或关键词=质量改进)”在万方数据知识服务平台进行文献检索时,仅获得3个关于基层保健质量改进的研究,且均未使用严谨的质量改进方法。
此外,传统P4P模型对欧美全科医学领域的正负面影响,在中国全科医学领域也有所体现。北京、上海、成都等地的一些研究显示:一方面,基层保健的很多指标确实随着绩效评估的实施而在1~2年内呈现出了上升趋势;另一方面,其中也存在一些值得斟酌的问题,诸如把全科医疗服务的关键绩效评估指标设定为“健康档案规范率”和“中医体质辨识数”这样的事务性指标,又如使用绩效评估后,在机构管理分数明显上升的同时,社会综合满意度反而出现了明显下降。以上证据显示,传统P4P模型对中国全科医学质量评估领域已造成了可观的影响,亦即AAFP《原则》对传统P4P模型掀起的这场“范式革命”,在发酵到一定程度后,很可能也会对当前的中国全科医疗服务质量评估体系形成理论冲击,并开辟一些崭新的研究方向。但值得注意的是,美国的经济基础和国家医疗体系与中国存在客观差异。美国的基层保健主要为国家/企业医疗保险+私立医疗诊所的购买商业服务的形式,中国则是公共医疗服务占据了绝对主导地位。因此,在参考和借鉴AAFP《原则》时,应避免“生搬硬套”,而应因地制宜,对AAFP《原则》的具体内容进行批判性分析,并在此基础上取得中国的本地证据,在此基础上完成研究与论证。
4.3 从AAFP《原则》出发,对未来的中国全科医疗服务质量评估体系的思考基于中国全科医学对发展质量评估体系的客观需求,以及AAFP《原则》的借鉴价值,笔者以为,AAFP《原则》中的2个核心思路是值得中国全科医学研究者去思考和尝试的,也具备一定的现实可行性。第一,中国的国土面积极为辽阔,人口超过13亿,与美国和欧洲类似,同样面临着地域、人群、经济和卫生资源的多样化与差异化问题,这实质上是中国全科医学的发展所必须面对,以及跨越的一道难关。碎片化、多元化的多个地域绩效评价体系会损害系统性和整体性,将中国全科医学行业割裂,无法真正体现出全科医学在宏观层面上改善人群健康的积极作用;指标过于繁杂的绩效评估体系则往往实用性受限,难以对多个地区普遍适用。有鉴于此,如果中国相关的学会和机构能够如同欧美一样,在公共卫生机构和政府的支持下,采用德尔菲法或专家共识,制订一套适用于中国全科医疗服务领域的简明扼要且具有普适性和可测性、可以不断修订完善的核心绩效指标,那么中国全科医学未来发展的核心价值取向就可以随之而鲜明化、具体化。此外,其更将为未来可能出现在中国的全科医学大规模实证研究奠定理论基础,成为未来中国全科医学科研和行业发展的重要基石。
第二,现阶段中国全科医学研究仍处于起步期,较欧美国家差距明显。中国全科医生对于自主进行质量改进研究,存在研究资源和方法学的双重困境:(1)全科医生缺乏时间、精力和资金去进行研究;(2)全科医生缺乏方法学指导,暂时难以做出兼具创新性、科学性与实用性的全科医学研究。面对这一问题,中国的全科医学学会和相关院系学术机构,实质上是需要承担起相应的责任的。一方面,相关学会和学术机构需要如欧洲的相关学会,如欧洲全科医学研究网络(European general practice research network,EGPRN)一样起到宏观的引领作用,发展和推广适用于中国全科医学领域的方法学与研究理论,降低全科医生自主进行研究的理论难度;另一方面,大学和重点医院的全科医学院系需要如美国盛行的区域基层保健科研网络(practice-based research networks,PBRN)一般,寻找可以与社区临床医生和社区机构合作,使双方在研究中共同受益的途径。只有同时在这两方面着力,中国全科医生才可能拥有进行研究的动力和工具,才能在可见的未来实现自主质量改进,从而不断提升自身的胜任力,为患者和社区提供更优质的照护。
综上所述,发展一套成熟的、泛用的、对大多数使用者具有积极效果的大型质量评估体系,需要大量理论研究与实证,绝难一蹴而就。
QOF从2004年问世起,已用了15年的时间去试错和修订;Standards for General Practices从第1版开始,也用了26年的时间不断修改完善;AAFP《原则》同样是在QOF所积累的大量经验和证据的基础上,又用了5年时间不断扬弃和创新的产物。
中国全科医学的“后发”既是欠缺内部经验的劣势,也是借鉴吸收外部经验,甚至在一定程度上避开欧美全科医学发展中的误区,实现“跨越式发展”的优势。AAFP《原则》对中国全科医学的发展,具有很高的外部参考价值。
因此,作者谨以此文抛砖引玉,希望能引发更多的研究者对于发展中国全科医疗服务质量评估体系的更深入的讨论。
本文来源:汪洋,韩建军,许岩丽.大洋彼岸的涛声:美国新版初级卫生保健质量评估策略对中国全科医疗服务质量评估体系的启示[J].中国全科医学,2019,22(16).[www.chinagp.net]