山东算法还原与开发数据科学售后服务
ssGSEA基本原理
对于一个基因表达矩阵,ssGSEA首先对样本的所有基因的表达水平进行排序获得其在所有基因中的秩次rank。然后对于输入的基因集,从基因集中寻找表达数据里存在的基因并计数,并将这些基因的表达水平求和。接着基于上述求值,计算通路中每个基因的富集分数,并进一步打乱基因顺序重新计算富集分数,重复一千次,***根据基因富集分数的分布计算p值整合基因集**终富集分数。
数据要求
1、特定感兴趣的基因集(通常为免疫细胞表面marker genes),列出基因集中基因
2、基因表达矩阵,为经过log2标准化的芯片数据或者RNA-seq count数数据(基因名形式与基因集对应)
下游分析
免疫细胞浸润分数相关性(corralation)分析 公共数据库挖掘、诊疗软件开发、算法还原与开发、临床统计等。山东算法还原与开发数据科学售后服务
genomeview(基因浏览图):genomeView是对基因组的可视化,可以直观展示RNA-seq和ChIP-seq的信号,证实转录因子结合对基因转录的影响等等。数据要求:RNA-seq和ChIP-seq等数据。应用示例:文献1:Genomic landscape and evolution of metastatic chromophobe renal cell carcinoma.(于2017年6月发表在JCI Insight.,影响因子6.041)。本文对转移性肾嫌色细胞*进行了系统的基因组研究,文中绘制基因流览图对整个基因组数据进行了可视化。转移性肾嫌色细胞*的基因组景观和演化。 四川组学实验数据科学服务基因富集分析是在一组基因中找到具有一定基因功能特征和生物过程的基因集的分析方法。
Inmmune gene
免疫学研究是目前科研领域争相研究的热点,**免疫细胞浸润是其中一种。**免疫细胞浸润是指免疫细胞从血液中移向**组织发挥作用。我们从**组织中分离出浸润免疫细胞含量,计算基因与浸润免疫细胞含量的相关性,筛选出影响免疫浸润的候选基因。
基本原理:
从基因矩阵数据中提取免疫细胞含量,生成免疫细胞含量矩阵;
计算目标基因与浸润免疫细胞含量的相关性,筛选与浸润免疫细胞含量高度相关的基因。
术语解读:
相关性系数(pearson,spearman, kendall)反应两个变量之间变化趋势的方向以及程度。相关系数范围为-1到+1。0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。
数据要求:
**数据表达矩阵
GSEA全名为GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如关注的GO条目或KEGGPathway)在两个生物学状态(如**与对照,高龄与低龄)中是否存在差异。能够研究基因变化的生物学意义。SubtypeGSEA是在GSEA的基础上对不同亚型样本中重要通路的富集情况进行组间比较,能直观比较不同亚型中相同通路富集情况。基本原理GSEA主要分为基因集进行排序、计算富集分数(EnrichmentScore,ES)、估计富集分数的***性水平并进行多重假设检验三个步骤。**步对输入的所有基因集L进行排序,通常来说初始输入的基因数据为表达矩阵,排序的过程相当于特定两组中(case-control、upper-lower等等)基因差异表达分析的过程。根据所有基因在两组样本的差异度量不同(共有六种差异度量,默认是signal2noise,GSEA官网有提供公式,也可以选择较为普遍的foldchange),对基因进行排序,并且Z-score标准化。第二步是GSEA的**步骤,通过分析预先定义基因集S在**步获得的基因序列上的分布计算富集指数EnrichmentScore,并绘制分布趋势图Enrichmentplot。每个基因在基因集S的EnrichmentScore取决于这个基因是否属于基因集S及其差异度量(如foldchange)。 根据委托方提供的参考文献和要求进行个性化特定分析。
GeneBodyProfile(对比不同的样品在某一区域的信号特征,不**于ChIP-seq、DNase-seq、ATAC-seq数据):GeneBodyProfile表观遗传修饰和对基因表达、细胞发育等过程有着深远的影响,但相关的研究还未完善。通过对比不同的样品在某一区域的信号特征,了解不同情况下该基因的表观遗传情况,帮助更好的了解其发***展过程。一般应用场景:观察相关基因转录起始位点(TSS)、转录终止位点(TTS)、genebody以及两侧信号特征;观察某一功能区域(CpGi、TSS、TTS、peaksummits或enhancer区)及其两侧信号特征。数据要求:ChIP-seq、DNase-seq或ATAC-seq数据。下游分析:基于展示的基因或功能情况1.补充展示部分的已有相关研究2.解释展示部分对研究课题的意义。 可对接各类公共数据库,切入各类接口,并对公共数据库进行大规模数据挖掘。四川组学数据处理数据科学专业服务
检测服务及数据分析助力取得2020年国自然面上十项、青年基金十八项。山东算法还原与开发数据科学售后服务
pancancer泛**图谱泛*研究是通过整合不同**类型、不同组织起源的**表达数据,查找**之间的共性或者差异的过程。通常使用**数据信息较为***的TCGA数据,通过分裂小提琴图展示某个基因在TCGA**和正常组织中的表达差异。分裂小提琴图(ViolinPlot)结合了箱形图和密度图的特征,主要用来显示数据的分布形状,它一般应用于对比某一基因在TCGA**组织和正常组织基因表达量TPM值或其它表达量数据。基本原理:小提琴图(ViolinPlot)使用一组数据中的最小值、**四分位数、中位数、第三四分位数和**值来反映数据分布的中心位置和散布范围,将多组数据的小提琴图画在同一坐标上,可以清晰地显示各组数据的分布差异。分裂小提琴图在小提琴图的基础上又加入了分组对比项,便于观察多**类型在某一基因上的表达分布情况,或者某一基因在某一**上,其疾病与正常的对比表达差异情况。 山东算法还原与开发数据科学售后服务