天津数据科学共同合作

时间：2021年05月04日来源：

bubbles（不同分组的基因表达或通路富集展示）：

Bubbles可以同时展示pvalue和表达量。例如展示motif的pvalue和motif对应的转录因子的表达量，方便快速看出转录因子富集且高表达所在的group，预示着该分组对细胞状态的改变（例如细胞分化、转移、应激）起关键调控作用；例如做基因功能富集分析时，展示富集的通路qvalue和基因数量或geneRatio。

基本原理：

Bubbles的实质是分组数据下基因表达量或通路内基因数量的可视化，同时可以展示pvalue。

数据要求：

表达矩阵，分组公共数据库挖掘、诊疗软件开发、算法还原与开发、临床统计等。天津数据科学共同合作

ssGSEA基本原理

对于一个基因表达矩阵，ssGSEA首先对样本的所有基因的表达水平进行排序获得其在所有基因中的秩次rank。然后对于输入的基因集，从基因集中寻找表达数据里存在的基因并计数，并将这些基因的表达水平求和。接着基于上述求值，计算通路中每个基因的富集分数，并进一步打乱基因顺序重新计算富集分数，重复一千次，***根据基因富集分数的分布计算p值整合基因集**终富集分数。

数据要求

1、特定感兴趣的基因集（通常为免疫细胞表面marker genes），列出基因集中基因

2、基因表达矩阵，为经过log2标准化的芯片数据或者RNA-seq count数数据（基因名形式与基因集对应）

下游分析

免疫细胞浸润分数相关性（corralation）分析上海组学实验数据科学欢迎咨询参考国内外数据资源，根据需求制定构建方案。

下游分析针对LASSO获得的基因模型（或称基因Panel）的验证：1.计算风险指数RiskScore2.绘制ROC曲线、DCA曲线、列线图进行验证3.绘制生KM存曲线对基因模型中的基因进行解释和分析：1.基因注释2.靶向药物分析应用示例：文献1：PrognosticandpredictivevalueofamicroRNAsignatureinstageIIcoloncancer:amicroRNAexpressionanalysis.于2013年12月发表在LancetOncol.，影响因子。一个miRNA特征集在stageII结肠*的预后预测作用分析文章对stageII结肠*组织和*旁正常组织的miRNA芯片数据进行了差异表达分析，并通过LASSOCox回归对获得的差异表达miRNA进行筛选，获得了6个miRNA的可以预测预后情况的miRNA特征集。文献2：PrognosticValueofaBCSC-associatedMicroRNASignatureinHormoneReceptor-PositiveHER2-NegativeBreastCancer（于2016年9月发表在EBioMedicine.上，影响因子）文章将符合条件的患者划分为训练集和测试集，首先分析获得了**干细胞相关的miRNA，接着通过LASSO对**干细胞相关的miRNA进行筛选，构建了10个miRNA的预后预测模型，并计算风险指数绘制了生存曲线和ROC曲线。

pancancer泛**图谱泛*研究是通过整合不同**类型、不同组织起源的**表达数据，查找**之间的共性或者差异的过程。通常使用**数据信息较为***的TCGA数据，通过分裂小提琴图展示某个基因在TCGA**和正常组织中的表达差异。分裂小提琴图(ViolinPlot)结合了箱形图和密度图的特征，主要用来显示数据的分布形状，它一般应用于对比某一基因在TCGA**组织和正常组织基因表达量TPM值或其它表达量数据。基本原理：小提琴图(ViolinPlot)使用一组数据中的最小值、**四分位数、中位数、第三四分位数和**值来反映数据分布的中心位置和散布范围，将多组数据的小提琴图画在同一坐标上，可以清晰地显示各组数据的分布差异。分裂小提琴图在小提琴图的基础上又加入了分组对比项，便于观察多**类型在某一基因上的表达分布情况，或者某一基因在某一**上，其疾病与正常的对比表达差异情况。软硬件配套，完成数据收集、整理、检索、分析与智能化开发工作。

STEM基因表达趋势分析基因调控网络是一个连续且复杂的动态系统。当生物体按照一定顺序发生变化或者受到外界环境刺激（如受到不同浓度的化学药物诱导）时，基因表达变化也会呈现趋势特征。趋势分析就是发现基因表达的趋势特征，将相同变化特征的基因集中在一种变化趋势中，从而找到实验变化过程中相当有有代表性的基因群。STEM（ShortTime-seriesExpressionMiner），中文名短时间序列表达挖掘器。该软件主要用于分析短时间实验数据，也可用于多组小样本数据。推荐3至8组数据。一般可应用的研究方向有：多个时间点的时间序列数据，例如多个发育时期、处理后多个时间点取样。基本原理STEM采用了一种新的聚类算法来分析时间序列基因表达趋势。聚类算法首先选择一组不同的、有代表性的时间表达模式（temporalexpressionprofiles）作为模型（modelprofiles）。模型是**于数据选择的，并从理论上保证了所选择的模型剖面具有代表性。然后，根据每个标准化过后的基因表达模式，分配给模型中相关系数比较高的时间表达模式。由于模型的选择是**于数据的，因此该算法可以通过排列测试，确定哪些时间表达模式在统计意义上***富集基因。对每一个基因都分配时间表达模式完成后。 TCGA数据机器学习研究数据包。重庆诊疗软件开发数据科学怎么样

在分子生物、细胞生物、实验动物、病理、临床样本方面已与长三角100余家企业形成良好合作关系。天津数据科学共同合作

术语解读：PPI：蛋白质-蛋白质相互作用(protein-proteininteraction)PPImoduleI：指蛋白质相互作用模块，一个模块指向一个功能数据要求：基因列表应用示例1：（于2018年3月发表在Immunity.，影响因子）T细胞活化过程中产生蛋白质组进行多重定量分析，然后对差异表达蛋白权重聚类，并将聚类蛋白叠加到PPI网络上以识别功能模块。D.模块大小的分布，通过将每个WPC（权重聚类结果）中的蛋白叠加到蛋白-蛋白相互作用(PPI)网络上识别模块。每个模块的蛋白质数量显示出来。E.各个模块及其交互的关系图。圆圈(节点)表示90个模块，圆圈大小与模块大小成比例。边连接共享PPIs的模块。在(F)和(G)中进一步扩展了装箱模块。F.来自WPC3的细胞质和线粒体核糖体的四个互连模块。显示了蛋白质的名称和每个模块的代表性功能术语。G.来自WPC3的蛋白酶体，OXPHOS和线粒体复合物IV途径的模块。天津数据科学共同合作

上一篇：上海临床统计数据科学欢迎咨询

下一篇： IL8检测流式多因子检测试剂盒