临床试验志愿者的筛选方法、系统、设备及介质与流程

1.本发明涉及医学信息处理技术领域，特别涉及一种临床试验志愿者的筛选方法、系统、设备及介质。

背景技术：

2.临床试验(clinical trial)是指任何在人体进行药物的系统性研究，以证实或揭示试验药物的作用、不良反应及/或试验药物的吸收、分布、代谢和排泄，目的是确定试验药物的疗效与安全性。
3.在临床试验中，通常是先需要招募符合条件的志愿者，传统的志愿者招募方案包括发布招募广告，志愿者填表个人信息，然后工作人员进行人工筛选，但这种筛选方案存在志愿者筛选效率较低的问题，而且还容易出现志愿者填写信息错误的问题。

技术实现要素：

4.本发明旨在至少解决现有技术中存在的技术问题。为此，本发明提出一种临床试验志愿者的筛选方法、系统、设备及介质。能够显著提高志愿者筛选效率以及提高筛选志愿者的准确性。
5.本发明的第一方面，提供了一种临床试验志愿者的筛选方法，包括如下步骤：
6.获取志愿者回答临床试验项目问题的答案集；
7.从所述答案集中提取所述志愿者的目标答案信息；
8.从医院信息系统中获取所述志愿者的个人信息；
9.通过所述个人信息对所述目标答案信息进行匹配验证，若验证成功，根据预设的项目评分标准对所述目标答案信息进行计分，得到计分结果；
10.根据所述计分结果判断是否选取所述志愿者。
11.根据本发明的实施例，至少具有如下技术效果：
12.本方法首先获取志愿者回答临床试验项目问题的答案集，然后从答案集中提取志愿者的目标答案信息，然后通过从医院信息系统中获取志愿者的个人信息对目标答案信息进行匹配验证，若验证成功，根据预设的项目评分标准对目标答案信息进行计分，得到计分结果，最后通过计分结果判断是否选取志愿者。相较于传统的志愿者填表工作人员人工审核的方案，本方法能够显著提高志愿者筛选效率，而且在志愿者筛选过程中，还利用从医院信息系统中获取志愿者的个人信息对目标答案信息进行匹配验证，确认志愿者的目标答案信息的准确程度，从而提高筛选志愿者的准确性。
13.根据本发明的一些实施例，所述获取志愿者回答临床试验项目问题的答案集，包括：
14.构建临床试验项目问题集；
15.获取志愿者回答所述问题集每一个问题的语音信息；
16.将所述语音信息转换成文字信息，将所有所述文字信息组成所述答案集。
17.根据本发明的一些实施例，所述从所述答案集中提取所述志愿者的目标答案信息，包括：
18.通过betr模型提取所述答案集中答案的自注意力特征集；
19.从所述自注意力特征集中切分出切分特征集；
20.通过卷积从所述切分特征集中提取关键字段集；
21.从所述关键字段集中提取所述志愿者的目标答案信息。
22.根据本发明的一些实施例，所述个人信息包括所述志愿者的身份数据、地址数据、病历数据、体检数据以及健康档案数据。
23.根据本发明的一些实施例，通过所述个人信息对所述目标答案信息进行匹配验证，包括：
24.对所述个人信息和所述目标答案信息进行相似度聚类，若相似度聚类结果符合阈值，则验证成功，若相似度聚类结果不符合阈值，则验证失败。
25.根据本发明的一些实施例，在所述根据所述计分结果判断是否选取所述志愿者之前，还包括：
26.对所述目标答案信息进行不合格信息检测，若所述目标答案信息中存在不合格信息，则排除所述志愿者。
27.本发明的第二方面，提供了一种临床试验志愿者的筛选系统，包括：
28.第一数据获取单元，用于获取志愿者回答临床试验项目问题的答案集；
29.答案数据提取单元，用于从所述答案集中提取所述志愿者的目标答案信息；
30.第二数据获取单元，用于从医院信息系统中获取所述志愿者的个人信息；
31.答案数据匹配单元，用于通过所述个人信息对所述目标答案信息进行匹配验证，若验证成功，根据预设的项目评分标准对所述目标答案信息进行计分，得到计分结果；
32.志愿者选取单元，用于根据所述计分结果判断是否选取所述志愿者。
33.根据本发明的一些实施例，还包括志愿者排除单元，所述志愿者排除单元用于对所述目标答案信息进行不合格信息检测，若所述目标答案信息中存在不合格信息，则排除所述志愿者。
34.本发明的第三方面，提供了一种电子设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行上述的临床试验志愿者的筛选方法。
35.本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机能够执行上述的临床试验志愿者的筛选方法。
36.可以理解的是，上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。
37.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
38.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
39.图1为本发明一个实施例提供的临床试验志愿者的筛选方法的流程示意图；
40.图2为本发明另外一个实施例提供的临床试验志愿者的筛选方法的流程示意图；
41.图3为本发明一个实施例提供的临床试验志愿者的筛选系统的结构示意图。
具体实施方式
42.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
43.临床试验是指任何在人体进行药物的系统性研究，以证实或揭示试验药物的作用、不良反应及/或试验药物的吸收、分布、代谢和排泄，目的是确定试验药物的疗效与安全性。在临床试验中，通常是先需要招募符合条件的志愿者，传统的志愿者招募方案包括发布招募广告，志愿者填表个人信息，然后工作人员进行人工筛选，但这种筛选方案存在志愿者筛选效率较低的问题，而且还容易出现志愿者填写信息错误的问题。
44.为了解决上述技术缺陷，本技术首先获取志愿者回答临床试验项目问题的答案集，然后从答案集中提取志愿者的目标答案信息，然后通过从医院信息系统中获取志愿者的个人信息对目标答案信息进行匹配验证，若验证成功，根据预设的项目评分标准对目标答案信息进行计分，得到计分结果，最后通过计分结果判断是否选取志愿者。相较于传统的志愿者填表工作人员人工审核的方案，本技术能够显著提高志愿者筛选效率，而且在志愿者筛选过程中，还利用从医院信息系统中获取志愿者的个人信息对目标答案信息进行匹配验证，确认志愿者的目标答案信息的准确程度，从而提高筛选志愿者的准确性。
45.参照图1，本发明的一个实施例，提供了一种临床试验志愿者的筛选方法，本方法包括：
46.步骤s101、获取志愿者回答临床试验项目问题的答案集。
47.在相关方案中，工作人员将发布招募广告，志愿者填表个人信息，然后工作人员进行人工筛选，发布的招募广告中通常包括若干份需要志愿者手动填写的临床试验项目问题，例如：志愿者个人情况(姓名、性别、身高、血型，民族等)、家庭住址情况、是否有遗传性疾病、是否有药物过敏等。在本实施例中，临床试验项目问题可以根据招募志愿者的相关单位根据实际情况进行设定，本实施例不作任何范围限制。
48.在一些实施例中，步骤s101、具体包括如下步骤：
49.步骤s1011、构建临床试验项目问题集。
50.步骤s1012、获取志愿者回答问题集每一个问题的语音信息。
51.步骤s1013、将语音信息转换成文字信息，将所有文字信息组成答案集。
52.在本实施例中，首先由相关工作人员预先设定问题集q＝{q1,q2,...,qn}，其中qn表示第n个问题，每位志愿者通过语音回答对应的问题集，得到志愿者的语音信息，然后通过语音识别技术(为本领域的公知常识，此处不再细述)将语音信息转换成文字信息，最后组成答案集a＝{a1,a2,...,an}，其中an表示问题qn对应的答案。相较于让志愿者填表等处理
方式，通过一问一答的方式收集志愿者的信息，最后利用语音识别技术得到答案集的处理效率更高。
53.步骤s103、从答案集中提取志愿者的目标答案信息。
54.在一些实施例中，步骤s103、具体包括如下步骤：
55.步骤s1031、通过betr模型提取答案集中答案的自注意力特征集。
56.对于答案ai包含个词，且ai＝[c
i1
,c
i2
,...,c
im
]，c
im
为词汇a
im
的词向量其过程，通过betr自注意力模型对ai做自注意力特征的提取，其过程如下：
[0057]ai
＝bert([c
i1
，c
i2
,...,c
im
],θa)
[0058]
其中，θq为bert模型的可学习的权重参数，ai＝[a
i1
,a
i2
,...,a
im
],其中a
ij
是经过bert模型得到的新特征，且j∈m。
[0059]
步骤s1032、从自注意力特征集中切分出切分特征集。
[0060]
对于特征矩阵ai，将其沿矩阵的y轴方向依次切分为k和l等份，得到切分矩阵，得到切分特征集其中l《k《m，通过切分来将关键字段与无用字段通过特征切分的方式在一定程度上切分出来，从而更大程度上的识别关键字段。
[0061]
步骤s1033、通过卷积从切分特征集中提取关键字段集。
[0062]
通过卷积操作将切分的特征矩阵进行特征抽取，通过学习的方式识别关键的特征矩阵以及无用的特征矩阵，其方式如下：
[0063][0064]
其中，w表示过滤器，表示卷积操作，f为激活函数，以此得到卷积特征集
[0065]
将切分块的卷积特征作线性变换，其方式如下：
[0066][0067]
将特征集进行特征拼接，得到融合特征，最后输出答案ai的关键字段keyi。
[0068]
通过不断的从工作人员预先设定问题集q＝{q1,q2,...,qn},来得到得到志愿者相应的答案集的关键字段集key＝{key1,key2,...,keyn}。
[0069]
步骤s1034、从关键字段集中提取志愿者的目标答案信息。
[0070]
根据步骤s101得到答案集之后，还需要从答案集中过滤不需要的信息并且获取工作人员想要的目标答案信息，在本实施例的步骤s1031至步骤s1034，首先通过betr模型提取答案集中答案的自注意力特征集，其次从自注意力特征集中切分出切分特征集，然后通过卷积从切分特征集中提取关键字段集，最后从关键字段集中提取志愿者的目标答案信息。能够提高获取志愿者信息的准确度，从而提高筛选志愿者的质量。
[0071]
步骤s105、从医院信息系统中获取志愿者的个人信息。
[0072]
医院信息系统(hospital information system,his)：医院信息系统，利用电子计算机和通讯设备，为医院所属各部门提供对病人诊疗信息和行政管理信息的收集、存储、处理、提取及数据交换的能力，并满足所有授权用户的功能需求。
[0073]
在一些实施例中，个人信息包括志愿者的身份数据、地址数据、病历数据、体检数据以及健康档案数据。通过从医院信息系统中获得多维度数据对目标答案信息进行验证。
[0074]
步骤s107、通过个人信息对目标答案信息进行匹配验证，若验证成功，根据预设的项目评分标准对目标答案信息进行计分，得到计分结果。
[0075]
在一些实施例中，步骤s107通过个人信息对目标答案信息进行匹配验证具体包括如下步骤：
[0076]
步骤s1071、对个人信息和目标答案信息进行相似度聚类，若相似度聚类结果符合阈值，则验证成功，若相似度聚类结果不符合阈值，则验证失败。
[0077]
在本实施例中，可采用基于密度的聚类算法以及基于划分的聚类算法，典型的基于密度的聚类算法可以是基于密度的噪声应用空间聚类(density-based spatial clustering of applications with noise，dbscan)，基于划分的聚类算法可以是k均值(k-means)聚类算法等，是基于距离的，而距离与相似度可以相互转化，距离越近，相似度越高，距离越远，相似度越低。在对个人信息和目标答案信息进行聚类之后，会获得多个类簇，当同一个类簇中的信息之间的相似度符合阈值之时，则证明个人信息和目标答案信息其中的一个共同的具体信息(例如以前疾患的疾病数据)是相似程度较高的，那么证明志愿者回答的信息是准确的。需要注意的是，本实施例对阈值不进行限制。
[0078]
在s107中，当验证成功之后，就可以根据预设的项目评分标准对目标答案信息进行计分，并得到计分结果。值得说明的是，在相关方案中，当志愿者填完表格信息之后，工作人员也会根据相关的评分标准对志愿者的填表信息进行评分，最后依据各个子项目的综合分数进行志愿者的选取。
[0079]
步骤s109、根据计分结果判断是否选取志愿者。
[0080]
本步骤为本领域的公知常识，此处不再赘述。
[0081]
参照图2，在一些实施例中，还包括步骤：
[0082]
步骤s108、对目标答案信息进行不合格信息检测，若目标答案信息中存在不合格信息，则排除志愿者。在本实例中，当志愿者存在某一项不符合规定时，那么无论其余项的评分有多高，那么依然是不可取的，因此，本实施例在根据计分结果判断是否选取志愿者之前，还对目标答案信息进行不合格信息检测，例如，当某一志愿者对某一药物特征过敏时，而本临床试验不允许志愿者对该药物过敏，因此，需要排除该志愿者。
[0083]
本实施例方法首先获取志愿者回答临床试验项目问题的答案集，然后从答案集中提取志愿者的目标答案信息，然后通过从医院信息系统中获取志愿者的个人信息对目标答案信息进行匹配验证，若验证成功，根据预设的项目评分标准对目标答案信息进行计分，得到计分结果，最后通过计分结果判断是否选取志愿者。相较于传统的志愿者填表工作人员人工审核的方案，本方法能够显著提高志愿者筛选效率，而且在志愿者筛选过程中，还利用从医院信息系统中获取志愿者的个人信息对目标答案信息进行匹配验证，确认志愿者的目标答案信息的准确程度，从而提高筛选志愿者的准确性。
[0084]
参照图3，本发明的一个实施例，还提供了一种临床试验志愿者的筛选系统，包括：第一数据获取单元100、答案数据提取单元200、第二数据获取单元300、答案数据匹配单元400、志愿者排除单元500以及志愿者选取单元600。
[0085]
第一数据获取单元100用于获取志愿者回答临床试验项目问题的答案集。
[0086]
答案数据提取单元200用于从所述答案集中提取所述志愿者的目标答案信息。
[0087]
第二数据获取单元300用于从医院信息系统中获取所述志愿者的个人信息。
[0088]
答案数据匹配单元400用于通过所述个人信息对所述目标答案信息进行匹配验证，若验证成功，根据预设的项目评分标准对所述目标答案信息进行计分，得到计分结果。
[0089]
志愿者排除单元500用于对目标答案信息进行不合格信息检测，若目标答案信息中存在不合格信息，则排除志愿者。
[0090]
志愿者选取单元600用于根据所述计分结果判断是否选取所述志愿者。
[0091]
值得注意的是，本系统实施例与上述方法实施例是基于同一个的发明构思，因此上述方法实施例的相关内容同样适用于本系统实施例，此处不再赘述。
[0092]
本技术的一个实施例，提供了一种电子设备，该设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
[0093]
处理器和存储器可以通过总线或者其他方式连接。
[0094]
存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0095]
需要说明的是，本实施例中的电子设备能够构成图3所示实施例中的系统架构的一部分，这些实施例均属于相同的发明构思，因此这些实施例具有相同的实现原理以及技术效果，此处不再详述。
[0096]
实现上述实施例的临床试验志愿者的筛选方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例方法，例如，执行以上描述的图1中的方法步骤s101至s109，图2中的方法步骤s108。
[0097]
以上所描述的终端实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0098]
此外，本技术实施例的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的临床试验志愿者的筛选方法，例如，执行以上描述的图1中的方法步骤s101至s109，图2中的方法步骤s108。又如，被上述设备连接器实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的临床试验志愿者的筛选方法，例如，执行以上描述的图1中的方法步骤s101至s109，图2中的方法步骤s108。
[0099]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领
域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。
[0100]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0101]
尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。