重庆生物/药物信息学分析数据科学活动

时间：2021年06月07日来源：

sankey

桑基图（sankey）是一种数据流图，每条边**一条数据流，宽度**数据流的大小。一套数据集可能有多重属性，每层属性之间有交叉，就可以用这种图来展示。一般应用场景：分组与基因为多对多关系，展示高频突变基因所处的分组；miRNA和靶基因的关系；人群按性别、年龄、家族史等特征分组，展示不同分组得**的规律。

数据要求：

多个分组及其关系，包括且不限于基因表达、突变。

下游分析：

1. 补充展示部分的已有相关研究

2. 解释展示部分对研究课题的意义 OmicCircos图可以对感兴趣的多个基因，展示其染色体的位置、拷贝数变异等多个特征。重庆生物/药物信息学分析数据科学活动

GSEA基本原理从方法上来讲，GSEA主要分为基因集进行排序、计算富集分数（EnrichmentScore，ES）、估计富集分数的***性水平并进行多重假设检验三个步骤。**步对输入的所有基因集L进行排序，通常来说初始输入的基因数据为表达矩阵，排序的过程相当于特定两组中（case-control、upper-lower等等）基因差异表达分析的过程。根据所有基因在两组样本的差异度量不同（共有六种差异度量，默认是signal2noise，GSEA官网有提供公式，也可以选择较为普遍的foldchange)，对基因进行排序，并且Z-score标准化。第二步是GSEA的**步骤，通过分析预先定义基因集S在**步获得的基因序列上的分布计算富集指数EnrichmentScore，并绘制分布趋势图Enrichmentplot。每个基因在基因集S的EnrichmentScore取决于这个基因是否属于基因集S及其差异度量（如foldchange）。差异度量越大基因的EnrichmentScore权重越大，如果基因在基因集S中则EnrichmentScore取正，反则取负。将基因集L在基因集S里的所有基因的EnrichmentScore一个个加起来，就是Enrichmentplot上的EnrichmentScore趋势，直到EnrichmentScore达到**值，就是基因集S**终的EnrichmentScore。第三步是为了检验第二部获得结果的统计学意义。重庆生物/药物信息学分析数据科学活动文稿投稿2个月online 发表。

PCA主成分分析测序技术的发展使得现在能够从宏观角度分析基因表达，但是也在一定程度上增加了数据分析难度。许多基因之间可能存在相关性，如果分别对每个基因进行分析，分析往往是孤立的，盲目减少指标会损失很多有用的信息。PCA(PrincipalComponentAnalysis)，即主成分分析方法，是一种使用*****的数据降维算法。一般可应用的研究方向有：一组基因在多个分组中的差异情况，多个基因在该样本中的差异情况。基本原理PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，**个新坐标轴选择是原始数据中方差**的方向，第二个新坐标轴选取是与**个坐标轴正交的平面中使得方差**的，第三个轴是与第1，2个轴正交的平面中方差**的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上。

**突变频谱分析（突变模式）：目的：输入突变数据，用非负矩阵分解方法NMF分析突变特征，描述样本集的突变模式。什么是突变模式：这也是对TCGA数据的深度挖掘，从而提出的一个统计学概念。文章（Signaturesofmutationalprocessesinhumancancer）研究了30种**，发现21种不同的mutationsignature。如果理解了，就会发现这个其实蛮简单的，他们并不重新测序，只是拿已经有了的TCGA数据进行分析，而且居然是发表在nature上面！文章研究了4,938,362mutationsfrom7,042cancers样本，突变频谱的概念只是针对于somatic的mutation。一般是对**病人的**组织和*旁组织配对测序，过滤得到的somaticmutation，一般一个样本也就几百个somatic的mutation。还有其它文章（Mutationalsignatures:thepatternsofsomaticmutationshiddenincancergenomes）也是这样分析的从2013年提出到现在，已经有30种mutationsiganures，在cosmic数据库有详细记录，更新见：MutationalSignatures。它的概念就是：根据突变上下文分成96类，然后每类突变的频率不一样画一个条形图，可视化展现。应用场景：突变特征定义：体细胞突变是多个突变过程如DNA修复缺陷，暴露于外源或内源诱变剂等综合结果。基因富集分析是在一组基因中找到具有一定基因功能特征和生物过程的基因集的分析方法。

**初目的：对手上的**样本（或病人）进行分型分析，期望找到不同的亚型，并对应不同的临床特征。可扩展应用到：所有样本的亚型分析，用于样本的特征分析。数据可用转录组、基因组、甲基化、蛋白质组等。输入数据格式：一个数值矩阵，行是基因或者其他特征，列是样本。本分析要求样本数要多，有利于亚型的分析。参考文献：(2):：本文利用室管膜瘤病人的甲基化数据，首先进行了tSNE分型，随后又采用了新的方法spectralclustering进行分类分析，作者比较了两种分类方法。使用spectralclustering的分类，鉴定了每一种**亚型的特异性表达模式。并且发现spectralclustering的分类和病人的临床特征有关，从而提出一种新的室管膜瘤亚型，可用于临床的筛选和检测。在分子生物、细胞生物、实验动物、病理、临床样本方面已与长三角100余家企业形成良好合作关系。组学数据处理数据科学

早期肝疾病的预后基因panel研究。重庆生物/药物信息学分析数据科学活动

术语解读

数据降维：

降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下**重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为应用非常***的数据预处理方法。

数据要求：

表达谱芯片或测序数据（已经过预处理）

下游分析

得到PCA分析结果之后的分析有：

1.对组成主要成分的基因进行后续分析，探究该情况下关键基因表达情况

2.对组成不同主成分簇的基因进行后续分析，探究该情况下不同基因集的表达情况重庆生物/药物信息学分析数据科学活动

上一篇：重庆hMeDIP-Seq技术服务欢迎咨询值得信赖「上海蕴卓生物科技供应」

下一篇：天津数据科学怎么样服务为先「上海蕴卓生物科技供应」