生物医学文本挖掘若干关键技术研究

作者:24直播网2024-02-06 01:02:18

  【摘要】:   生物医学文献作为学术研究成果的主要载体,现已成为重要的生物医学领域资源,为研究提供了丰富的知识来源。结合领域需求,采用有效的文本挖掘技术从海量生物医学文献中自动快速、准确地获取相关信息,将对生命科学领域的研究产生极大的推动作用。而基于传统机器学习的文本挖掘方法受浅层模型表示能力的限制,提升空间变得相对有限。近年,随着基于神经网络的深度学习研究的兴起,深度学习在语音、图像和文本处理上都取得了突破性进展,展示出了潜在的应用价值。为此,本文围绕基于深度学习方法的生物医学文本挖掘关键技术,从生物医学文本分类、命名实体识别和关系抽取三个任务展开了研究。对于生物医学文本分类任务,首先针对在小规模的生物医学领域训练数据上神经网络方法无法充分发挥其优势的问题,提出了一种神经网络集成的文本分类方法。该方法通过引入相关数据预训练模块来提升神经网络模型性能,并利用逻辑回归模型对多个神经网络模型结果进行集成。另一方面,针对目前大多数神经网络方法未考虑领域知识的问题,提出了一种知识增强的自注意力卷积神经网络方法,通过多通道网络结构来充分利用领域知识。实验表明,该方法能够有效利用生物医学实体和概念信息提升神经网络模型分类性能。对于生物医学实体识别任务,针对句子级别实体识别方法存在全文标注不一致的问题,提出了一种基于注意力机制的文档级化学药物实体识别方法。该方法通过引入注意力机制来捕获文档级别的全局信息。在化学药物实体识别数据集上实验表明,该方法能够有效缓解全文标注不一致的问题,其性能达到了国际先进水平。另一方面,针对现有中文实体识别工作常常直接沿用英文的处理方式,忽略了中文特殊性的问题,提出了汉字笔画ELMo模型。利用汉字笔画信息进行中文语言模型预训练,来学习上下文相关且包含汉字内部结构信息的中文字向量。在中文电子病例实体识别任务上实验表明,加入笔画ELMo向量能够明显提升模型性能。对于生物医学关系抽取任务,针对目前流水线方法存在错误传播和无法充分利用子任务间相关信息的问题,提出了一种生物医学实体和关系联合抽取方法。该方法通过提出新的标注策略和抽取规则考虑了生物医学领域存在大量重叠关系的特性,并利用神经网络模型进行端到端的联合学习,充分利用实体和关系之间的相互依赖信息。实验表明该方法获得了比目前先进的流水线方法更好的结果,并能有效抽取重叠关系。

生物医学文本挖掘若干关键技术研究

生物医学文本挖掘若干关键技术研究

相关资讯

直播

更多

录像

更多

视频

更多