Python word2vec训练词向量，电子病历训练词向量，超简单训练电子病历的词向量，医学电子病历词向量预训练模型

原创

已于 2022-11-28 10:34:34 修改 · 1.3k 阅读

·

2

·

标签

#深度学习 #人工智能

于 2022-11-28 10:32:09 首次发布

本文探讨了词向量预训练模型在电子病历领域的应用，强调了其通过预训练捕捉语义信息的优点，如提升模型训练效果和快速相似度计算。然而，高训练数据需求、通用性局限和隐私保护挑战是其关键限制。作者分享了使用Word2Vec进行电子病历词向量训练的详细流程，包括数据清洗、模型选择和参数设置。

1.词向量预训练模型的优势：

（1）训练和保存含有语义信息的词向量，在用于模型训练之前，enbedding的过程同样带有语义信息，使模型训练的效果更好；

（2）可以用预训练好的词向量模型直接计算两个词和文本的相似度，常推荐用余弦相似度计算；

2.词向量预训练模型的限制因素：

（1）对训练语料的要求非常高，要求训练语料大而全，所以训练起来比较费时间，并且训练语料的来源也是个问题；

（2）公开的预训练模型一般都是用大量的公共数据训练的，如百科、文献、报纸等公开数据集，所以只能适用于一些通用型的机器学习任务，像医学、生物等领域就不太实用。

3.自己训练词向量的全流程：

（1）准备数据：我这边是训练的电子病历数据，将来也是用于电子病历的enbedding过程，所以我这边只准备了电子病历数据，大概是1000w+的数据。

（2）清洗数据：电子病历数据的清洗比较麻烦，首先，二次脱敏，保证将姓名、医院名、地市名称以及一些相关的电话和编号等信息脱敏干净，一是防止隐私泄露，二是防止这些噪声的影响训练效果。

（3）选用模型：word2vec中的CBOW：

（4）代码如下：

from gensim.models import Word2Vec
import pandas as pd
import numpy as np
import re
import jieba

数据读取：数据量太大，不建议用excel，无内存限制当我没说

pd_data = pd.read_excel('data/emr_500w.xlsx')

清洗一下数据：

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

医学小达人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。