一、筛选疾病靶点
GeneCards
- 下载数据得到
GeneCards-SearchResult.csv - 通过
Relevance score≥1.0得到GeneCards.csv - 步骤2只保留
Gene Symbol,即基因名这一列得到GeneCards_gene_names.csv
OMIM
- 下载数据得到
OMIM-Gene-Map-Retrieval.xlsx - 只保留
Gene/Locus,即基因名这一列得到OMIM.xlsx - 处理
OMIM.xlsx,得到单个基因名只占一行、去重、去除空格的OMIM_gene_names.xlsx
TDD
- 手动粘贴
Target Name小括号里面的基因名称,加上列名GeneName,得到TDD_gene_names.csv
汇总
- 取三个数据库的交集或并集(一般取交集),去重,得到
disease.xlsx,数据量为几千个为合适的。
二、筛选药物成分
TCMSP
- 用
OB≥30%, DL≥0.18标准筛选后手动粘贴数据得到TCMSP.xlsx(数据量太少就用OB≥20%, DL≥0.18)
SwissADME二次筛选
- 用
高GI和两条yes于Druglikeness标准进行二次筛选,得到SwissADME.xlsx,最终数据量为几条到十几条。
三、查询成分相关信息
TCMSP根据成分名称(Molecule Name)获取其mol2格式文件
PubChem根据成分名称获取其2D结构的SDF格式文件
四、预测成分靶点
新建子文件夹药物靶点,在里面再建子文件夹PharmMapper和SwissTarget。
PharmMapper
- 用
SDF(2D或3D都可)/MOL2格式文件上传任务(一般2D的SDF最常用) - 下载任务数据集,命名为
成分名称_pharmMapper.csv - 对步骤2得到的文件进行处理,列只要
Norm Fit和Uniplot,得到成分名称_pharmMapper_uniplot.csv - 对步骤3得到的文件进行处理,只要
Norm Fit≥0.9的数据行,得到成分名称_pharmMapper_filtered.csv - 对步骤4得到得文件进行处理,列只要
Uniplot,去重,得到pharmMapper_filtered.csv,数据量在几十到几百正常。
SwissTargetPrediction
在SwissTarget文件夹内新建子文件夹原数据和top15(或者top20等)。
- 下载数据集,分别命名为
成分名称_SwissTargetPrediction.csv - 选取
Probability的Top15,列只要Common(靶点名)、Uniprot ID、Probability、ChEMBL ID,分别命名为成分名称_SwissTargettPrediction_top15.csv
如果
Probability为0,那么即使在top15也不要选,数据量小时可以选择Top 20/Top 25,或者干脆≥0.7或≥0.1或>0的都可。数据量过多时,probability大于10也可以。大于中位数也行。
- 对步骤2得到的文件进行处理,把所有成分汇总,只保留列
Common name和Uniprot ID,并去重,得到SwissTargetPrediction_top15_filtered.csv,数据量在几十到几百正常。
汇总
- 取两个数据库的交集或并集(一般取交集,数据量过小就取并集),只保留
Uniplot列,去重,得到drug.xlsx,数据量为几百个为合适的。
五、Uniprot转化为基因名
- 对成分靶点的数据文件转换为基因名,将
From列改为Uniplot,将To列改为GeneName,命名为drug_genes.xlsx
六、成分靶点和疾病靶点取交集,做韦恩图
新建子文件夹交集和韦恩图。
- 用取交集在线网站取成分靶点和疾病靶点的交集,命名为
drug_and_disease.xlsx - 用画韦恩图在线网站画韦恩图,命名为
venn.png
七、构建PPI网络
新建子文件夹PPI网络。
- String数据库输入交集基因,调整置信度为
0.9(或者0.4) - 隐藏掉没有连接的节点(
network display options中勾选hide disconnected ...) - 去除文本挖掘(
active interation sources中去除Textmining) - 调整图像后保存为
png格式(as a bitmap image)和tsv格式(as short tabuler...)
速通流程版&spm=1001.2101.3001.5002&articleId=142218163&d=1&t=3&u=6df2e0603b664220bcd3efa06547de80)
2078

被折叠的 条评论
为什么被折叠?



