组学实验数据科学共同合作

时间：2021年06月03日来源：

GSVA（基因集变异分析，反映了样本和感兴趣的通路之间的联系）：GSVA全名Genesetvariationanalysis（基因集变异分析），是一种非参数，无监督的算法。与GSEA不同，GSVA不需要预先对样本进行分组，可以计算每个样本中特定基因集的富集分数。换而言之，GSVA转化了基因表达数据，从单个基因作为特征的表达矩阵，转化为特定基因集作为特征的表达矩阵。GSVA对基因富集结果进行了量化，可以更方便地进行后续统计分析。如果用limma包做差异表达分析可以寻找样本间差异表达的基因，同样地，使用limma包对GSVA的结果（依然是一个矩阵）做同样的分析，则可以寻找样本间有***差异的基因集。这些“差异表达”的基因集，相对于基因而言，更加具有生物学意义，更具有可解释性，可以进一步用于**subtype的分型等等与生物学意义结合密切的探究。在分子生物、细胞生物、实验动物、病理、临床样本方面已与长三角100余家企业形成良好合作关系。组学实验数据科学共同合作

STEM基因表达趋势分析基因调控网络是一个连续且复杂的动态系统。当生物体按照一定顺序发生变化或者受到外界环境刺激（如受到不同浓度的化学药物诱导）时，基因表达变化也会呈现趋势特征。趋势分析就是发现基因表达的趋势特征，将相同变化特征的基因集中在一种变化趋势中，从而找到实验变化过程中相当有有代表性的基因群。STEM（ShortTime-seriesExpressionMiner），中文名短时间序列表达挖掘器。该软件主要用于分析短时间实验数据，也可用于多组小样本数据。推荐3至8组数据。一般可应用的研究方向有：多个时间点的时间序列数据，例如多个发育时期、处理后多个时间点取样。基本原理STEM采用了一种新的聚类算法来分析时间序列基因表达趋势。聚类算法首先选择一组不同的、有代表性的时间表达模式（temporalexpressionprofiles）作为模型（modelprofiles）。模型是**于数据选择的，并从理论上保证了所选择的模型剖面具有代表性。然后，根据每个标准化过后的基因表达模式，分配给模型中相关系数比较高的时间表达模式。由于模型的选择是**于数据的，因此该算法可以通过排列测试，确定哪些时间表达模式在统计意义上***富集基因。对每一个基因都分配时间表达模式完成后。云南诊疗软件开发数据科学专业服务云生物提供数据科学服务。

术语解释：Cox回归：又称比例风险回归模型(proportionalhazardsmodel，简称Cox模型)，是由英国统计学家。该模型以生存结局和生存时间为应变量，可同时分析多种因素对于生存期长短的影响。Cox模型能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型，因此在医学界被***使用。Logistic回归：又称逻辑回归模型，属于广义线性模型。逻辑回归是一种用于解决二分类问题的分析方法，用于估计某种事物的可能性。相较于传统线性模型，逻辑回归模型以概率形式输出结果，可控性高且结果可解释性强。数据要求：样本临床信息或生物学特征（基因突变、基因表达等）样本的随访数据（总生存期，生存状态）或样本的分组情况下游分析：1.补充相关因素的已有相关研究2.解释相关因素对研究课题的意义。

Inmmune gene

免疫学研究是目前科研领域争相研究的热点，**免疫细胞浸润是其中一种。**免疫细胞浸润是指免疫细胞从血液中移向**组织发挥作用。我们从**组织中分离出浸润免疫细胞含量，计算基因与浸润免疫细胞含量的相关性，筛选出影响免疫浸润的候选基因。

基本原理：

从基因矩阵数据中提取免疫细胞含量，生成免疫细胞含量矩阵；

计算目标基因与浸润免疫细胞含量的相关性，筛选与浸润免疫细胞含量高度相关的基因。

术语解读：

相关性系数（pearson,spearman, kendall）反应两个变量之间变化趋势的方向以及程度。相关系数范围为-1到+1。0表示两个变量不相关，正值表示正相关，负值表示负相关，值越大表示相关性越强。

数据要求：

**数据表达矩阵微生物多样性分析桌面软件。

LASSO回归：更多的变量在拟合时往往可以给出一个看似更好的模型，但是同时也面临过度拟合的危险。此时如果用全新的数据去验证模型(Validation)，通常效果很差。一般来说，变量数大于数据点数量很多，或者某一个离散变量有太多独特值时，都有可能过度拟合。LASSO回归复杂度调整的程度由参数λ来控制，λ越大对变量较多的线性模型的惩罚力度就越大，从而**终获得一个变量较少的模型。LASSO回归与Ridge回归同属于一个被称为ElasticNet的广义线性模型家族。这一家族的模型除了相同作用的参数λ之外，还有另一个参数α来控制应对高相关性(highlycorrelated)数据时模型的性状。LASSO回归α=1，Ridge回归α=0，一般ElasticNet模型0<α<1。LASSO过程中我们通常会进行多次交叉验证（crossvalidation）拟合（1000次）进而选取模型，从而对模型的性能有一个更准确的估计。不断拓展各类大学、科研院所、医院学术资源，互通有无，形成强大学术生态圈。四川组学数据处理数据科学欢迎咨询

自有服务器机房，可随时调用各计算平台算力，且团队成员有多年科研经历。组学实验数据科学共同合作

ssGSEA基本原理

对于一个基因表达矩阵，ssGSEA首先对样本的所有基因的表达水平进行排序获得其在所有基因中的秩次rank。然后对于输入的基因集，从基因集中寻找表达数据里存在的基因并计数，并将这些基因的表达水平求和。接着基于上述求值，计算通路中每个基因的富集分数，并进一步打乱基因顺序重新计算富集分数，重复一千次，***根据基因富集分数的分布计算p值整合基因集**终富集分数。

数据要求

1、特定感兴趣的基因集（通常为免疫细胞表面marker genes），列出基因集中基因

2、基因表达矩阵，为经过log2标准化的芯片数据或者RNA-seq count数数据（基因名形式与基因集对应）

下游分析

免疫细胞浸润分数相关性（corralation）分析组学实验数据科学共同合作

上一篇：浙江ATAC技术服务专业服务服务至上「上海蕴卓生物科技供应」

下一篇：上海MeDIP-Seq技术服务服务服务为先「上海蕴卓生物科技供应」