基于BERT的预训练模型提取生物医学文本
随着生物医学文献数量的快速增长,生物医学文本挖掘变得越来越重要。利用机器学习从生物医学文献中提取有用价值的信息正受到越来越多研究人员的欢迎,深度学习正推动该领域的发展。然而由于深度学习模型需要大量的训练数据,而生物医学领域中训练数据集的规模往往很小,因此相关研究多有失败。《BioBERT: pre-trained biomedical language representation model for biomedical text mining》中介绍的 BioBERT 是一种在大规模生物医学语料库上进行预训练的模型,基于 BERT 架构,能够有效的将大量生物医学文本的知识转化为文本挖掘模型。预训练模型可见:https://github.com/naver/biobert-pretrained。