芯片数据分析步骤4 标准化-affy

标准化

标准化的原因

芯片实验中存在大量干扰因素,标准化可以削弱这些干扰因素,使得实验条件下的测量可以相互比较。

常见干扰因素:芯片杂交的RNA总量不一致、芯片表面不平整、探针非特异性结合、杂交条件不一致。

注意,limma包的说明里面提供了两点建议。一,如果要进行探针过滤(filter),最好在进行标准化之后再过滤。二,如果要在后续分析中使用limma包,请不要进行基于方差(variance)的过滤,否则会影响方差分布,从而导致limma包处理产生糟糕的结果(poor results)。

标准化的方法

芯片数据的标准化可以分为四个步骤:

1、background correction

移除非特异结合等背景噪音,有助于检出较低丰度下的倍数差异检出

2、normalization

消除测量间的非实验误差,使得实验条件下的测量可以相互比较。

3、pm correction

对pm探针的荧光值进行修正

4、summarization

将前面得到的荧光强度值从探针水平汇总到探针组水平

下面提供三类常见的标准化方法。

1 使用expresso进行标准化

affy包提供了expresso函数进行标准化,用户可以自定义每一步使用的方法。oligo读取的数据也可以用expresso函数进行标准化。expresso函数提供的标准化方法如下。

> bgcorrect.methods()
[1] "bg.correct" "mas""none"   "rma"   
> normalize.methods(CLLbatch)
 [1] "constant"   "contrasts"  "invariantset"   "loess"  "methods""qspline"   
 [7] "quantiles"  "quantiles.robust"   "quantiles
  • 11
    点赞
  • 92
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是使用GSE85716数据进行GSEA分析的基本步骤: 1. 下载数据 首先,您需要下载GSE85716数据集。您可以在GEO数据库中找到该数据集并下载相应的CEL文件。然后,您可以使用R语言中的affy包读取CEL文件并进行预处理,例如背景校正、归一化等等。 2. 进行差异表达分析 接下来,您需要进行差异表达分析,以确定哪些基因在不同条件下表达水平有显著差异。您可以使用一些常见的生物信息学工具和软件来进行差异表达分析,例如DESeq2、edgeR、limma等等。 3. 进行GSEA分析 在进行GSEA分析之前,您需要准备一个基因集合,例如KEGG、GO等等。您可以使用一些公共数据库中的基因集合,例如MSigDB等等。然后,您可以使用一些生物信息学工具和软件进行GSEA分析,例如GSEA、fgsea等等。 在这里,我以GSEA软件为例,向您介绍一下如何进行GSEA分析。首先,您需要将差异表达分析的结果转化为GSEA所需的格式,即将基因按照表达水平的大小进行排序,然后将每个基因标注为“上调”或“下调”。您可以使用fgsea包中的gmtToList函数将基因集合转化为列表形式,然后使用fgsea包中的fgsea函数进行GSEA分析。以下是示例代码: ```R library(fgsea) # 读取差异表达分析结果 result <- read.csv("DESeq2_result.csv", header=TRUE, row.names=1) # 选出显著差异的基因 sig_genes <- subset(result, padj<0.05) # 将基因按照表达水平排序 ranked_genes <- sort(sig_genes$log2FoldChange, decreasing=TRUE) # 将上调和下调基因标注 up_down <- ifelse(sig_genes$log2FoldChange>0, "up", "down") # 读取基因集合 gmt_file <- system.file("extdata", "c2.cp.kegg.v7.1.symbols.gmt", package="fgsea") gene_sets <- gmtToList(gmt_file) # 进行GSEA分析 res <- fgsea(gene_sets, ranked_genes, up_down, nperm=1000) # 提取显著富集的基因集合 top_sets <- subset(res, padj<0.05) ``` 在上述代码中,我们使用了KEGG数据库中的基因集合,使用gmtToList函数将其转化为列表形式。然后,我们将差异表达分析得到的基因按照表达水平的大小进行排序,并将上调和下调基因标注。最后,我们使用fgsea函数进行GSEA分析,并提取显著富集的基因集合(padj<0.05)。 4. 确定mrna和lncrna 在GSEA分析得到的富集基因集合中,您可以根据基因的注释信息确定mrna和lncrna。例如,您可以使用biomaRt包中的getBM函数获取基因的注释信息,然后根据基因类型进行筛选。以下是示例代码: ```R library(biomaRt) # 获取基因注释信息 mart <- useMart("ensembl", dataset="hsapiens_gene_ensembl") genes <- rownames(top_sets) annot <- getBM(attributes=c("ensembl_gene_id", "type_of_gene"), filters="ensembl_gene_id", values=genes, mart=mart) # 筛选mrna和lncrna mrna <- annot[annot$type_of_gene=="protein_coding", "ensembl_gene_id"] lncrna <- annot[annot$type_of_gene=="lncRNA", "ensembl_gene_id"] ``` 在上述代码中,我们使用biomaRt包连接Ensembl数据库,并使用getBM函数获取基因的注释信息。然后,我们根据基因类型将mrna和lncrna筛选出来。 以上就是使用GSE85716数据进行GSEA分析,确定mrna和lncrna的基本步骤。如果您有其他问题或需要更详细的帮助,请随时告诉我。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值