产品中心PRODUCT CENTER

在发展中求生存,不断完善,以良好信誉和科学的管理促进企业迅速发展
资讯中心 产品中心

首页-产品中心-成都WGCNA数据处理

成都WGCNA数据处理

更新时间:2025-09-01      点击次数:9

因此WGCNA分析步骤可以分为以下几步:通过数据处理,将基因间的相互作用关系强度符合无尺度分布将基因分类,并把表达模式相似的基因归为一个模块研究模块,找出跟我们研究相关的模块研究模块内基因之间的调控关系从上四步可以看出,WGCNA应该是:处理大样本(官网建议一般需要至少8个样本以上(不算生物学重复)),筛选出一定量表达模式相同的基因,进而研究基因之间的关系,属于预测范畴。数据预处理:我们可以通过过滤低表达量和低变异系数的基因以减少参与后续分析的基因数目,有助于结果的可靠性。由于这个实验数据的特殊性,就不做这步处理了。但我们需要将矩阵变为符合WGCNA要求的形式:行名为gene,列名为样品。并将性状数据和表达谱数据保持一致这些实验设计上的创新带来了样品数目的增多,这就对数据分析和挖掘提出了更高水平的要求。成都WGCNA数据处理

Adjacency Matrix 邻近矩阵:是图的一种存储形式,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,这个二维数组称为邻接矩阵;在WGCNA分析里面指的是基因与基因之间的相关性系数矩阵。 如果用了阈值来判断基因相关与否,那么这个邻近矩阵就是0/1矩阵,只记录基因相关与否。但是WGCNA没有用阈值来卡基因的相关性,而是记录了所有基因之间的相关性。Topological Overlap Matrix (TOM) WGNA认为基因之间的简单的相关性不足以计算共表达,所以它利用上面的邻近矩阵,又计算了一个新的邻近矩阵。一般来说,TOM就是WGCNA分析的终结果,后续的只是对TOM的下游注释。成都WGCNA数据处理本研究中采用WGCNA默认的Pearson相关,Pearsoncorrelation计算快速,但对离群值敏感。

Connectivity (连接度):类似于网络中 “度” (degree)的概念。每个基因的连接度是与其相连的基因的边属性之和。Module eigengene E: 给定模型的主成分,整个模型的基因表达谱。这个是个很巧妙的梳理,我们之前讲过PCA分析的降维作用,之前主要是拿来做可视化,现在用到这个地方,很好的用一个向量代替了一个矩阵,方便后期计算。(降维除了PCA,还可以看看tSNE)Intramodular connectivity: 给定基因与给定模型内其他基因的关联度,判断基因所属关系。Module membership: 给定基因表达谱与给定模型的eigengene的相关性。Hub gene: 关键基因 (连接度多或连接多个模块的基因)。Adjacency matrix (邻接矩阵):基因和基因之间的加权相关性值构成的矩阵。TOM (Topological overlap matrix):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。

在该方法中module被定义为一组具有类似表达谱的基因,如果某些基因在一个生理过程或不同组织中总是具有相类似的表达变化,那么我们有理由认为这些基因在功能上是相关的,可以把他们定义为一个模块(module)。这似乎有点类似于进行聚类分析所得到结果,但不同的是,WGCNA的聚类准则具有生物学意义,而非常规的聚类方法(如利用数据间的几何距离),因此该方法所得出的结果具有更高的可信度。WGCNA(加权基因共表达网络分析)这一利器,可以用来寻找基因将有相同或相近表达模式的基因,人们有理由相信这些基因在机体中发挥着相似的功能,所以WGCNA与其他简单的聚类不同(例如基于欧式距离等),它是具有实际生物学意义的一种聚类方式,而且它还有一个更加突出的优势不得不一提,就是它是根据每个基因表达的权重计算的软阈值,相比于硬阈值那种简单粗暴的一刀切划定,他更具有实际优势。有没有这样的研究尝试把WGCNA融入单细胞转录组数据分析呢?

通俗的解释下WGCNA“图”是数学中的一种叫法,其实就是一种网络,这种网络有可以分为两种,一种就是随机的网络,及randomnetwork,即每一个节点的度相对平均,说白了就是每个点连得线都差不多多,另一种就是scale-freenetwork,非随机的网络,部分节点承担了更多的联络,这些节点叫做hub,这样就使得系统更加稳定,因为你只要不伤及到hub,对整个网络的稳定系统不会产生太多的影响,对于机体这样高精度的系统,自然是会选择第二种,所以我们认为基因的表达网络是有一些hub基因在其中发挥主要作用的,WGCNA正是基于这样一种网络开发的。Module membership: 给定基因表达谱与给定模型的eigengene的相关性。成都WGCNA数据处理

Intramodular connectivity:给定基因与给定模型内其他基因的关联度,判断基因所属关系。成都WGCNA数据处理

WGCNA中对基因表达值之间的相关系数取n次幂,这是和普通聚类的比较大不同,其直接结果是把基因间相关性的强弱的差异放大。假如某两对基因之间未取幂之前的相关系数差异为4倍,假如对各自相关系数取4次幂,则这种差异就变为256倍,强弱关系分明。对每两对基因(i,j)之间的相关系数的幂取某特定的值β,以此来计算所有基因之间的相关性,也就是adjacency矩阵:ai,j=|cor(i,j)|β由这些相关性系数,可以构建网络,其中基因作为网络中的节点(nodes),而ai,j作为边的权重,高相关性强连接,反之亦然。每个基因的连接性(度)的大小反应了和这个基因相连的基因的多少。WGCNA提供几种相关性的算法,其中包括Pearsoncorrelation(cor()函数)、Biweightmid-correlation(bicor()函数)、Spearmancorrelation(cor(x,method=“spearman”)函数)本研究中采用WGCNA默认的Pearson相关,Pearsoncorrelation计算快速,但对离群值敏感。成都WGCNA数据处理

广州市智汇基因科技有限公司坐落在元岗横路31号4层B1412,B1413房,是一家专业的技术服务生信分析、生物信息分析、多组学分析、生物信息个性化分析、数据挖掘、质量保证。常见数据库挖掘:TCGA、GEO、ICGC等数据库下载、整理与挖掘,差异分析,预后分析,生存分析,WGCNA,免疫浸润分析,蛋白互作分析。R可视化分析,画图(热图,火山图,气泡图,韦恩图,相关性图。公司。目前我公司在职员工以90后为主,是一个有活力有能力有创新精神的团队。公司以诚信为本,业务领域涵盖生信分析,SCI,TCGA,GEO,,单细胞测序,网络药理学,WGCNA,KEGG,我们本着对客户负责,对员工负责,更是对公司发展负责的态度,争取做到让每位客户满意。公司深耕生信分析,SCI,TCGA,GEO,,单细胞测序,网络药理学,WGCNA,KEGG,正积蓄着更大的能量,向更广阔的空间、更宽泛的领域拓展。

关注我们
微信账号

扫一扫
手机浏览

Copyright©2025    版权所有   All Rights Reserved   南宁市同心结婚庆服务部  网站地图  移动端