文档摘要:基因与表型间的关联分析对揭示生物的内在遗传关联具有重要意义.随机游走算法可以融合多组学数据,聚合一阶或高阶邻居的标签信息,对网络中不同节点间关联信息进行补全,提高关联预测的准确度,进而发现基因和表型间潜在的遗传关联.但现有随机游走算法通常平等地对待每个节点,忽略了不同节点的重要性,使非重要节点过度传播,降低了模型性能.为此,本文提出了一种基于多组学数据融合的个性化随机游走算法(indi-vidualMultipleRandomWalks,iMRW),在由基因、miRNA及表型节点构建的多组学异质网络上,基于网络拓扑结构,设计个性化多元随机游走策略,为不同重要程度的节点分配不同的游走步长,并结合高斯相互作用属性核相似性与随机游走,对网络不同节点及节点间关联信息进行补全,最终实现多源基因-表型关联矩阵的融合,准确获取基因-表型关联预测矩阵.在不同实验设置下,与主流算法的对比实验结果均显示iMRW能够取得更优的预测性能.在玉米光合作用能力和淀粉含量表型的实验分析结果也进一步证实了iMRW在识别潜在的基因-表型关联的实用性与有效性.
Abstract:Associationanalysisbetweengenesandphenotypesiscrucialtorevealtheinherentgeneticassociationoforganisms.Randomwalk-basedalgorithmscanfusemultipleomicsdata,aggregatethelabelinformationoffirst-orderorhigher-orderneighbors,completetheassociationinformationbetweendifferentnodesinthenetwork,improvetheaccuracyofassociationpredictionandfurtherdiscoverthepotentialgeneticassociationsbetweengenesandphenotypes.However,existingrandomwalkalgorithmsusuallytreateachnodeequallyandignorethevaryingimportanceofdifferentnodes,assuchnon-importantnodescanbeexcessivelypropagatedandthemodelperformanceiscompromised.Tothisend,anindi-vidualmultiplerandomwalks(iMRW)algorithmbasedonmulti-omicsdatafusionisproposed.Ontheheterogeneousge-neticnetworkcomposedwithgenes,miRNAsandphenotypenodes,wedesigntheindividualmultiplerandomwalksstrate-gybasedonthenetworktopology,assignnodesofdifferentimportancewithdifferentwalkinglengths.Wethencompletethegeneticinformationofdifferentnodesbyfusingmulti-sourceassociationmatrix,Gaussianinteractionprofilekernelsim-ilarityandrandomwalk,andaccuratelyobtainthegene-phenotypeassociationpredictionmatrix.Underdifferentexperi-mentalsettings,iMRWcanachievethebestpredictionperformancecomparedwiththestate-of-the-artalgorithms.ThecasestudywithrespecttomaizephotosyntheticabilityandstarchcontentfurtherconfirmtheusefulnessandeffectivenessofiMRWinidentifyingpotentialgene-phenotypeassociations.
作者:谭好江 王峻 余国先 陈建 郭茂祖[5]Author:TANHao-jiang WANGJun YUGuo-xian CHENJian GUOMao-zu[5]
作者单位:山东大学软件学院,山东济南250101;山东大学人工智能国际联合研究院,山东济南250101山东大学人工智能国际联合研究院,山东济南250101山东大学软件学院,山东济南250101中国农业大学农学院,北京100083北京建筑大学电气与信息工程学院,北京100044
刊名:电子学报 ISTICEIPKU
Journal:ActaElectronicaSinica
年,卷(期):2024, 52(5)
分类号:TP399
关键词:基因-表型关联 随机游走 异质网络 多组学数据融合 网络拓扑结构
Keywords:gene-phenotypeassociations randomwalk heterogeneousnetwork multi-omicsdatafusion networktopology
机标分类号:TP391.41R730.2S511
在线出版日期:2024年7月22日
基金项目:基于个性化随机游走的基因-表型关联分析[
期刊论文] 电子学报--2024, 52(5)谭好江 王峻 余国先 陈建 郭茂祖基因与表型间的关联分析对揭示生物的内在遗传关联具有重要意义.随机游走算法可以融合多组学数据,聚合一阶或高阶邻居的标签信息,对网络中不同节点间关联信息进行补全,提高关联预测的准确度,进而发现基因和表型间潜在的...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
关键词:基因-表型关联,随机游走,异质网络,多组学数据融合,网络拓扑结构,
|
|