近年来,国内临床试验注册呈现出快速增长的趋势,临床数据作为最终的转化成果在科研中的地位也日益凸显。数据库作为采集临床数据的关键工具,其构建及验证对确保临床研究数据的完整性和准确性具有决定性影响。
基于创新药的研发需求及对科学性时间成本等的多向追逐,日益复杂的方案设计越来越常见。早期临床单次给药剂量递增(Single Ascending Dose, SAD)和多次给药剂量递增(Multiple Ascending Dose, MAD)复合研究设计,甚至整合食物影响(Food Effect, FE)、药物相互作用(Drug-Drug Interaction, DDI)研究、物质平衡(Mass Balance, MB)研究于一体的嵌套设计;肿瘤研究剂量递增(Dose Escalation)和剂量扩展(Dose Expansion)联合开展;去中心化临床试验(Decentralized Clinical Trials,DCT)中的多系统联动应用,真实世界研究及上市后研究多端数据互通互联。诸如此类方案设计和应用场景都对数据库构建及集成提出了更高的挑战和要求。因此,科学、高效地构建临床数据库已成为提升临床科研质量的关键环节之一。
临床数据库的建立主要基于EDC系统进行架构设计,涵盖数据点配置、页面布局、访视规划、逻辑核查、权限管理、流程控制及数据导出等,其中,核心环节在于页面设计、逻辑核查及权限控制(特别是盲态维持)。建立页面的主要依据是病例报告表(Case Report Form, CRF),CRF设计是临床试验中至关重要的一环,直接影响数据的完整性和研究的可靠性。CRF设计应紧扣试验目的,确保收集的数据能够回答研究问题,从而为临床试验的成功奠定基础。
除研究方案设计差异外,不同临床试验的CRF设计也常有不同,主要源于设计CRF时没有统一标准,或标准模板无法覆盖所有研究设计类型;研究团队人员关注点不同,各职能部门意见不一;数据库平台的限制,CRF设计需要适应不同的系统。为最大限度地实现已有资源复用,需尽可能遵循:
①变量标准化:基于常用受控术语(Controlled Terminology)统一变量名及选项数据编码;
②选项结构化:选项顺序前后一致性,如统一先“是”后“否”,避免因录入惯性导致的错误;通用选项的表述统一,如未知/未做/不适用;
③格式规范化:包括日期格式(年月、年月日、年月日时分、是否允许未知)、小数点位数、单位(Fixed Unit,独立变量);
④说明系统化:线上配置eCRF填写指南并基于实际应用场景持续优化,保证从录入端到统计编程分析端的一致性。
基于设计端的一致性和标准化,可显著提升数据录入的效率和质量,并有效减轻培训负担。同时,有助于增强数据的可读性和整体质量,从而降低后期统计分析的复杂度。为实现这一目标可借助标准化体系下的共享资源,比如CDASH(Clinical Data Acquisition Standards Harmonization),它是CDISC(Clinical Data Interchange Standards Consortium)组织制定的一项标准,旨在简化和规范临床试验的数据收集过程。
CDASH提供了设计数据采集系统的方法学
CDASH定义了临床数据收集的基本标准,并开发提供了一些新药研发临床试验的CRF基本内容标准(即,定义了最常用的变量库)。附上CDASH中建议的CRF设计流程:
从上图可见,CRF设计不是一个人的事情,而是整个临床科研过程中所有角色都应该参与审阅、修改和确认的过程。整个CRF设计流程应严格控制,当研究方案定稿或稳定后,就进入草拟CRF阶段,需要注意:
①数据精简原则:仅采集必要的且用于分析的数据,避免冗余数据采集。采集的变量并不是越多越好,因为数据的质量和数据量成反比,但收集成本和时间与数据量成正比。从伦理上来说,也应该把控数据采集的量,比如过度采集PK数据,可能会对受试者身体造成潜在影响;
②分析导向原则:采集数据应与方案及统计分析密切相关:根据方案目的及统计分析需求,确保所有分析涉及的变量以符合统计要求的方式被合理收集;
③标准化原则:使用CDASH数据标准,数据点名称及选项尽量使用受控术语(Controlled Terminology)及CDISC Submission Value。尽量避免“自由文本”:因为它需要编码或提取关键信息后才能被分析。
④界面友好性:使用清晰简洁的字段名、提示和填写指南,保证CRF内的问题和填写说明不会引起误导。
充分利用CDASH中已经储备的CRF模版
CDASH根据常用的数据收集类型进行归纳总结,提供了非常完备的模版库供我们参考,例如:Adverse Events(AE)、Comments(CO)、Prior and Concomitant Medications(CM)、Demographics(DM)、ECG Test Results(EG)、Exposure(EX)、Inclusion/Exclusion Criteria Not Met(IE)、Laboratory Test Results(LB)、Medical History(MH)、Physical Examination(PE)、Procedures(PR)、Subject Characteristics(SC)、Substance Use(SU)、Vital Signs(VS)等等。举两个例子,但实际研究中并非列举的所有字段均要被采集。
①不良事件页面,提示常规需要收集的变量包括,其中:
HR=Highly Recommended,R/C=Required/Conditional,O=Optional。
• AETERM-不良事件名称(HR)
• AESTDAT-不良事件开始日期(HR)
• AESTTIM-不良事件开始时间(R/C)
• AEENDAT-不良事件结束日期(HR)
• AEENTIM-不良事件结束时间(R/C)
• AESEV-严重程度(R/C)/AETOXGR-毒性级别(R/C)
• AEREL-与试验用药品的关系(HR)
• AEACN-对试验用药品采取的措施(R/C)
• AEOUT-不良事件结局(R/C)
• AEDIS-是否因此AE退出试验(O)
• AESER-严重不良事件(R/C)
• AESDTH-致死(R/C)
• AESLIFE-危及生命(R/C)
• ASSHOSP-住院或住院时间延长(R/C)
• AESDISAB-导致永久或显著的残疾/功能丧失(R/C)
• AESCONG-先天性异常或出生缺陷(R/C)
• AESMIE-其他医学重要事件(R/C)
②内分泌项目,低血糖事件页面,提示可能需要收集的变量包括:
(引自:CDISC, Tools, Knowledge Base, eCRF Portal)
从CRF到eCRF的设计过程中,考虑各个EDC系统的特性也很重要。字段、表单的可重复利用性和数据库的可持续维护性是一个相互矛盾的关系。一方面,较高的可重复利用性有助于大幅缩短数据库建库周期,但在后期修改时可能面临较大挑战。由于各模块之间的关联性较强,修改其中一部分往往需要同步调整与之相关的其他部分,这一过程不仅繁琐复杂,还容易出错,可谓“牵一发而动全身”。另一方面,若可重复利用性较低,每个表单都拥有专属字段,即使不同表单中存在相同字段也无法共用。这种设计在改库时仅影响单个表单,不会波及其他部分,但前期建库的时间成本会显著增加。因此,可重复利用性与建库效率之间仍需结合实际需求找到最优平衡点。
此外,EDC系统的逻辑核查功能是确保数据准确性的关键手段,同时也能显著缩短数据清理时间,并有效降低统计分析的复杂度。在eCRF设计及逻辑核查配置过程中需注意以下问题:
①确保eCRF按照统一的标准赋予字段名称,以减少逻辑核查引用字段时寻找字段的时间,同时也会降低逻辑核查的错误率;
②尽量将可以分开采集的数据点分开设计,比如日期与时间分开采集,一方面便于逻辑实现,另一方面易于后期维护;
③逻辑核查添加时,不需要通配实现的逻辑,引用的字段尽量定位准确,包括访视、表单、字段组(如有)、数据块(如有)、字段、记录No.等;
④对于大部分系统,多记录日志行形式下逻辑核查往往比平铺字段的更繁琐且易出错,故需要提前了解系统特性(如是否可设置行内动态)。
总之,统一的标准规范无论对于CRF设计,还是EDC页面建立、逻辑核查的实现都是非常有利的。基于不同的研究目的,很多设计虽没有标准答案,但是标准化的理念和知识掌握多少用多少,并持续学习是极为关键的。理论学习加以实际应用转化,才能真正发挥“魔法建筑师”在数据库构建中的无限价值,正是这些深埋的“根系”理念将一个个复杂的研究化繁为简,从而在庞大的信息洪流中挖掘出有价值的数据最终造福人类。
更新后的指南草案涉重点关注临床试验设计、监管考虑,以及这些试验是否能够证明药物能够维持根据BMI确定的减肥效果。
在前面三期的临床数据管理“PM”养成系分享内容中我们介绍了三个主题内容:明确临床试验各方职责范围划分的项目范围管理;运用公司及个人资源以完成数据管理工作的项目资源管理;如何通过制定时间线计划和进度跟进以完成项目重要里程碑事件的项目进度管理。这期我们分享的是兼顾项目管理与项目可交付成果两个方面的项目质量管理。
我们一起来回顾下前两次分享的临床数据管理“PM”养成系列的内容:首先是明确临床试验各方职责范围划分的项目范围管理,然后是运用公司及个人资源以完成数据管理工作的项目资源管理。这一期我们会针对项目管理的重头戏—项目进度管理来展开数据管理活动时间线计划和进度跟进的内容分享,在保证数据质量的前提下高效完成数据管理相关工作以达成项目重要里程碑事件。
在上一期的分享中,我们一起学习了数据管理工作相关的项目范围管理,分别识别了数据清理和数据管理活动的各方职责范围划分。在确定数据管理工作范围后,这一期我们一起学习如何调动工作范围内的相关资源,来更高效、更高质量地展开数据管理相关工作。
上海斯丹姆疫苗数据管理部联合国际项目部共同开展《项目管理知识在数据管理工作中的应用》主题系列培训。《项目管理知识在数据管理工作中的应用》包含项目整合管理、项目范围管理、项目进度管理、项目质量管理、项目资源管理、项目沟通管理、项目风险管理、项目相关方管理等八个模块内容,主要参考项目管理知识体系指南(PMBOK指南)的理论知识,并结合数据管理工作内容和项目实践经验进行展开。