重庆文章成稿指导数据科学欢迎咨询
ROC机器学习受试者工作特征曲线(receiveroperatingcharacteristiccurve,简称ROC曲线),又称为感受性曲线(sensitivitycurve),是用来验证一个分类器(二分)模型的性能的。一般应用于直观展示敏感性和特异性连续变量的综合指标,如比较多个biomarker或临床参数的诊断表现、比较多个算法的分类效果。基本原理ROC曲线工作原理是,向模型中输入已知正负类的一组数据,对比模型对该组数据的预测,衡量这个模型的性能。术语解读:1、TP(TruePositive,真正,TP)被模型预测为正的正样本(原来为正预测为正)2、TN(TrueNegative,真负,TN)被模型预测为负的负样本(原来为负预测为负)3、FP(FalsePositive,假正,FP)被模型预测为正的负样本(原来为负预测为正)4、FN(FalseNegative,假负,FN)被模型预测为负的正样本(原来为正预测为负)5、真正类率(TruePostiveRate)TPR:TP/(TP+FN),**分类器预测的正类中实际正实例占所有正实例的比例。Sensitivity6、假正类率(FalsePostiveRate)FPR:FP/(FP+TN),**分类器预测的负类中预测为正实例(实际为负实例)占所有负实例的比例。1-Specificity7、真负类率(TrueNegativeRate)TNR:TN/(FP+TN)。 构建新的临床预测模型。重庆文章成稿指导数据科学欢迎咨询
survivalCurve生存分析生存分析(survivalCurve)旨在更好地分析对不同因素对患者预后的影响,从而找到影响患者疾病的关键因素。生存曲线(Kaplan-Meier曲线)是生存分析的基本步骤,展示分类样本的生存曲线,从而揭示不同因素对疾病预后的影响。一般可应用的研究方向有:患者的生存期跟基因变异的关系、药物处理导致模式动物生存期变化。基本原理Kaplan-Meier法,直接用概率乘法定理估计生存率,故称乘积极限法(product-limitmethod),是一种非参数法。相比其他方法,KM曲线能更好的处理删失数据。先将样本生存时间从小到大排列。若遇到非删失值和删失值相同时,非截删失****。在生存时间后列出与时间相应的死亡人数,期初病例数(即生存期为某时间时尚存活的病例数)。然后计算活过每个时间点的生存率。以生存时间为横坐标,生存率为纵坐标所作的曲线,即为Kaplan-Meier曲线。术语解释风险比(HazardRatio,HR):Kaplan-Meier方法中计算的风险比HR为两分组对生存期影响的比例,用来描述该基因高表达对生存期的危险程度。该方法中的假设检验为两组中样本的生存期是否存在差异,即该因素是否会导致生存期的改变。删失(censored):在生存分析中。 云南数据库建设数据科学经验丰富生存曲线分隔,在展示基因表达水平对生存期的影响时找到分组。
GeneInteraction基因互作:基因相互作用指miRNA、lncRNA、circRNA或其它RNA介导DNA转录,从而影响mRNA的表达过程。通俗意义上来说,基因互作关系指基于序列预测的靶基因对。miRNA通过与靶mRNA的结合,或促使mRNA降解,或阻碍其翻译,从而***目的基因的表达。竞争性内源RNA网络是靶基因预测的研究深入,简称ceRNA网络。通过进行ceRNA网络的分析,我们能从一个更为宏观的角度来解释转录体如何构建基因表达调控网络,从而进一步挖掘基因在其中的调控机制。基本原理:miRNA主要通过与靶基因的非翻译区(UTR)结合而发挥其作用,对miRNA和mRNA、lncRNA、circRNA结合进行的预测称为靶基因预测。靶基因预测使用软件根据miRNA和靶基因间的结合的规律预测结合基因对。在生物体内,miRNA可以通过与proteincoding特异性结合,影响相关基因的表达,从而参与调控细胞内的各项功能。ceRNA具有miRNA结合位点,能后竞争性地结合miRNA,***miRNA对靶基因的调控。例如lncRNA与miRNA竞争性结合,影响miRNA调控mRNA的过程,**终导致的mRNA表达失调。我们使用基于序列预测的软件对差异分析得到的miRNA与mRNA,lncRNA,circRNA进行靶点预测和ceRNA网络分析。
Adonis(置换多元方差分析,分析不同分组或环境因子对样品差异的解释度):ADONIS置换多元方差分析(Permutationalmultivariateanalysisofvariance,PERMANOVA),又称非参数多因素方差分析(nonparametricmultivariateanalysisofvariance)、或者ADONIS分析。使用PERMANOVA可分析不同分组因素对样品差异的解释度,并使用置换检验进行***性统计。基本原理:置换多元方差分析(PERMANOVA,Adonis)是一种基于F统计的方差分析,依据距离矩阵对总方差进行分解的非参数多元方差分析方法。基本步骤是基于OTU丰度表,计算样本间样本间Bray-curtis距离,然后adonis分析生成结果,绘图展示。术语解读:OTU:operationaltaxonomicunits,分类单元Df:自由度,其值=所比较的分组数量-1;SumsOfSqs:即Sumsofsquares,总方差,又称离差平方和;MeanSqs:即Meansquares,均方(差);FModel:F检验值;R2:即Variation(R2),方差贡献,表示不同分组对样品差异的解释度,即分组方差与总方差的比值,R2越大表示分组对差异的解释度越高;Pr(>F):***性p值,小于***。数据要求:OTU丰度表或者样本距离矩阵。 两个实验组的差异基因比较。
术语解释:Cox回归:又称比例风险回归模型(proportionalhazardsmodel,简称Cox模型),是由英国统计学家。该模型以生存结局和生存时间为应变量,可同时分析多种因素对于生存期长短的影响。Cox模型能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型,因此在医学界被***使用。Logistic回归:又称逻辑回归模型,属于广义线性模型。逻辑回归是一种用于解决二分类问题的分析方法,用于估计某种事物的可能性。相较于传统线性模型,逻辑回归模型以概率形式输出结果,可控性高且结果可解释性强。数据要求:样本临床信息或生物学特征(基因突变、基因表达等)样本的随访数据(总生存期,生存状态)或样本的分组情况下游分析:1.补充相关因素的已有相关研究2.解释相关因素对研究课题的意义。 基因组数据全链条处理。山东组学数据处理数据科学共同合作
目前能够对接超过50家实验室。重庆文章成稿指导数据科学欢迎咨询
PPImodule蛋白质互作蛋白质-蛋白质相互作用(protein-proteininteraction,PPI)是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体(proteincomplex)的过程。PPImodule是指共表达蛋白模块或蛋白质相互作用模块。蛋白质相互作用形成人体复杂的蛋白质相互作用网络,对蛋白质相互作用网络进行聚类形成模块从而帮助我们理解细胞的功能。我们一般使用PPImodule把基因列表跟蛋白相互作用网络联系起来。例如RNA-seq获得的差异表达基因,看他们在蛋白相互作用网络中,哪些基因处于同一module。基本原理:蛋白质在细胞中的功能取决于它与其他蛋白质、核酸和小分子相互作用关系,对蛋白质相互作用网络进行聚类形成模块,各个蛋白模块发挥不同的功能,我们将基因列表重叠于模块上,查找基因列表所在的功能模块,从而发现基因列表中的基因可能发挥的细胞功能。我们通过PPI数据库找到共表达蛋白中的module,然后从模块中筛选出基因列表的产物蛋白,筛选出的结果就是基因列表***表达的PPImodule。 重庆文章成稿指导数据科学欢迎咨询