16、蛋白质亚细胞定位预测器的特性与应用

蛋白质亚细胞定位预测器的特性与应用

1. 预测器特性
  • GO向量的稀疏性 :以植物数据集为例,有978个蛋白质分布在12个亚细胞位置。特征提取后,GO向量维度为1541。从图10.1的直方图可以看出,GO向量中非零元素的数量相对其维度而言较少,具有稀疏性。在这978个蛋白质中,大部分在1541维向量中只有9个非零元素,最大非零元素数量也仅为45。这种稀疏性表明方程(7.1)中的GO向量非常适合使用随机投影(RP)进行降维。
  • 集成随机投影提升性能 :由于方程(7.1)中的R是随机矩阵,每次应用RP时方程(7.3)的得分都会不同。单一RP的性能差异较大,不利于最终预测。通过融合多次RP的得分得到集成分类器(方程7.5),当RP应用次数足够多且投影维度不低于一定值时,RP - SVM的性能可以超过mGOASVM。这显示了集成RP对于提升RP - SVM最终性能的重要性,同时也表明在RP应用次数和投影维度之间存在权衡关系。
2. 多标签预测器比较

为了比较提出的多标签预测器与现有先进预测器的优缺点,从五个方面进行总结:
| 预测器 | 词频使用 | 连续搜索 | 分类器优化 | 深度特征利用 | 降维处理 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| Virus - mPLoc | × | × | × | × | × |
| iLoc - Virus | × | × | × | × | × |
| Plant - mPLoc | × | × | × | × |

于2024年4月-2025年9月期间,研究团队在贵州习水国家级自然保护区制定39条样线,涵盖灌木林、常绿阔叶林、针叶林、常绿落叶阔叶混交林、针阔混交林等不同植被类型,每条样线分春夏秋冬4个季节采集样品,用真菌采集软件记录经纬度、海拔、采集地点、时间、生境等信息,使用佳能相机(R6 mark Ⅱ)对大型真菌进行拍照,并采集标本,标本存放于贵州省生物研究所大型真菌标本馆(HGAMF)。 通过形态学初步鉴定,结合分子生物学最终鉴定,参考已]报道的中国毒蘑菇名录开展毒蘑菇的认定。 调查到保护区内有毒真菌7目25科64种,导致中毒的主要类型有急性肾衰竭型、神经精神型和胃肠炎型。最终形成贵州习水国家级自然保护区大型有毒真菌图片数据集,它由以下2个部分组成。 (1)附件1包含78张原始照片(.JPG),照片名字包括了大型有毒真菌的拉丁名和中文名,若无中文名的直接用拉丁名。 (2)附件2是一个压缩文件,包含了2张工作表,其中一张表是大型有毒真菌39条样线的信息,另一张表是大型有毒真菌的中毒类型。 照片采用佳能相机R6 mark Ⅱ拍摄,物种鉴定通过多种文献核实,并经两位以上专家鉴定确认。该数据集可为研究地及周边的普通人识别有毒大型真菌提供参考,通过及时的图片对比,能有效避免误采误食大型有毒真菌,同时为因误食大型真菌可能引发的身体损伤进行了总结,能为患者及时治疗提供参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值