面向医疗文本挖掘的预训练医学语言表征模型BioBERT
随着生物医学文献数量的快速增长,生物医学文本挖掘变得越来越重要。利用机器学习从生物医学文献中提取有用价值的信息正受到越来越多研究人员的欢迎,深度学习正推动该领域的发展。然而由于深度学习模型需要大量的训练数据,而生物医学领域中训练数据集的规模往往很小,因此相关研究多有失败。论文《BioBERT: pre-trained biomedical language representation model for biomedical text mining》中介绍的BioBERT是一种基于BERT架构的在大规模生物医学语料库上进行预训练的模型,它能够有效的将大量生物医学文本的知识转化为文本挖掘模型。预训练模型可见:https://github.com/naver/biobert-pretrained 。