Waiting
Elaborazione accesso...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

RNA Dizilimi için Üç Diferansiyel İfade Analizi Yöntemi: limma, EdgeR, DESeq2

Published: September 18, 2021 doi: 10.3791/62528
* These authors contributed equally

Summary

RNA dizilimi için diferansiyel ekspresyon analiz yöntemlerinin ayrıntılı bir protokolü sağlanmıştır: limma, EdgeR, DESeq2.

Abstract

RNA dizilimi (RNA-seq), genetik değişim ve karmaşık biyolojik süreçler arasındaki ilişkiyi ortaya çıkarabildiği ve tümörlerin tanı, prognostik ve terapötiklerinde büyük değere sahip olduğu için transkriptomikte en yaygın kullanılan teknolojilerden biridir. RNA-seq verilerinin diferansiyel analizi anormal transkripsiyonları tanımlamak için çok önemlidir ve limma, EdgeR ve DESeq2 diferansiyel analiz için etkili araçlardır. Bununla birlikte, RNA-seq diferansiyel analizi, tıp eğitimi müfredatında eksik olan R dili ve uygun bir yöntem seçme yeteneği ile belirli beceriler gerektirir.

Burada, sırasıyla limma, DESeq2 ve EdgeR aracılığıyla kolanjiokarsinom (CHOL) ve normal dokular arasında farklı olarak ifade edilen genleri (DEG' ler) tanımlamak için ayrıntılı protokol sunuyoruz ve sonuçlar volkan arazilerinde ve Venn diyagramlarında gösteriliyor. Limma, DESeq2 ve EdgeR'ın üç protokolü benzerdir, ancak analiz süreçleri arasında farklı adımlara sahiptir. Örneğin, doğrusal bir model limma istatistikleri için kullanılırken, negatif binom dağılımı edgeR ve DESeq2'de kullanılır. Ayrıca, normalleştirilmiş RNA-seq sayısı verileri EdgeR ve limma için gereklidir, ancak DESeq2 için gerekli değildir.

Burada, üç diferansiyel analiz yöntemi için ayrıntılı bir protokol sunuyoruz: limma, EdgeR ve DESeq2. Üç yöntemin sonuçları kısmen çakışıyor. Her üç yöntemin de kendi avantajları vardır ve yöntem seçimi yalnızca verilere bağlıdır.

Introduction

RNA dizilimi (RNA-seq), transkriptomikte birçok avantajla (örneğin, yüksek veri tekrarlanabilirliği) en yaygın kullanılan teknolojilerden biridir ve karmaşık biyolojik süreçlerin işlevleri ve dinamikleri hakkında anlayışımızı önemli ölçüde artırmıştır1,2. Farklı olarak ifade edilen genler (DEG' ler) olarak da bilinen farklı biyolojik bağlam altında sapma transkriptlerinin tanımlanması, RNA-seq analizinde önemli bir adımdır. RNA-seq, patogenezle ilgili moleküler mekanizmaların ve biyolojik fonksiyonların derinlemesine anlaşılmasını mümkün kılar. Bu nedenle, ayırıcı analiz tümörlerin tanı, prognostik ve terapötikleri için değerli olarak kabul edilmiştir3,4,5. Şu anda, RNA-seq diferansiyel ekspresyon analizi için daha açık kaynaklı R / Biyoiletken paketleri geliştirilmiştir, özellikle limma, DESeq2 ve EdgeR1,6,7. Bununla birlikte, diferansiyel analizi, R dili ile belirli beceriler ve tıp eğitimi müfredatında eksik olan uygun yöntemi seçme yeteneğini gerektirir.

Bu protokolde, Kanser Genom Atlası'ndan (TCGA) çıkarılan kolanjiokarsinom (CHOL) RNA-seq sayım verilerine dayanarak, CHOL ve normal dokular arasındaki DEG'leri tanımlamak için R programı11tarafından en bilinen yöntemlerden üçü (sırasıyla limma8, EdgeR9 ve DESeq210) gerçekleştirilmiştir. Limma, EdgeR ve DESeq2'nin üç protokolü benzerdir, ancak analiz süreçleri arasında farklı adımlara sahiptir. Örneğin, normalleştirilmiş RNA-seq sayısı verileri EdgeR ve limma8,9için gereklidir, DESeq2 ise normalleştirme10yerine verileri düzeltmek için kendi kitaplık tutarsızlıklarını kullanır. Ayrıca, edgeR RNA-seq verileri için özel olarak uygundur, limma ise mikroarraylar ve RNA-seq için kullanılır. Doğrusal bir model limma tarafından DEG'leri değerlendirmek için benimsenmiştir12, edgeR'daki istatistikler ampirik Bayes tahmini, kesin testler, genelleştirilmiş doğrusal modeller ve yarı olasılık testleri9dahil olmak üzere negatif binom dağılımlarına dayanmaktadır.

Özetle, sırasıyla limma, DESeq2 ve EdgeR kullanarak RNA-seq diferansiyel ekspresyon analizinin ayrıntılı protokollerini sağlıyoruz. Bu makaleye atıfta bulunarak, kullanıcılar RNA-seq diferansiyel analizini kolayca gerçekleştirebilir ve verileri için uygun diferansiyel analiz yöntemlerini seçebilirler.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOT: R-studio programını açın ve R dosyası "DEGs.R" yükleyin, dosya Ek dosyalardan / Komut Dosyalarından edinilebilir.

1. Verilerin indirilmesi ve önceden işlenmesi

  1. Kanser Genom Atlası'ndan (TCGA) kolanjiokarsinom (CHOL) yüksek verimli dizileme (HTSeq) sayısı verilerini indirin. Bu adım aşağıdaki R kodu ile kolayca elde edilebilir.
    1. R paketlerini yüklemek için Çalıştır'ı tıklatın.
    2. R paketlerini yüklemek için Çalıştır'ı tıklatın.
      if(!requireNamespace("BiocManager", sessizce=DOĞRU))
      + install.packages("BiocManager")
      BiocManager::install(c("TCGAbiolinks", "SummarizedExperiment"))
    3. Çalışma dizinini ayarlayın.
      kütüphane (TCGAbiolinks)
      library(SummarizedExperiment)
      setwd("C:/Kullanıcılar/LIUSHIYI/Masaüstü")
    4. Kanser türünü seçin.
      kanser <- "TCGA-CHOL"
    5. Verileri indirmek için "GDCquery.R" dosyasındaki R kodunu çalıştırın. "GDCquery.R" dosyası Tamamlayıcı dosyalardan/Komut Dosyalarından edinilebilir:
      kaynak("Tamamlayıcı dosyalar/Komut Dosyaları/GDCquery.R")
      kafa(cnt)
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##ENSG00000000003 4262
      ##ENSG00000000005 1
      ##ENSG00000000419 1254
      ##ENSG00000000457 699
      ##ENSG00000000460 239
      ##ENSG00000000938 334
      NOT: Yürütmeden sonra, CHOLHTSeq sayısı verileri indirilir ve satırların topluluk gen kimliklerini ve sütunların örnek kimlikleri temsil ettiği "cnt" olarak adlandırılır. Örnek kimliklerdeki 14-15 numaralarına dikkat edin; 01 ile 09 arasında değişen sayılar tümörleri, 10 ile 19 arasında değişen sayılar ise normal dokuları gösterir.
  2. Topluluk gen kimliklerini gen sembollerine dönüştürün.
    1. Ek açıklama dosyasını depolama yoluna göre R'ye alın. Ek açıklama dosyası (gencode.v22.annotation.gtf) Tamamlayıcı dosyalardan edinilebilir.
      gtf_v22 <- rtracklayer::import('Tamamlayıcı dosyalar/gencode.v22.annotation.gtf')
    2. R kodunu "gtf_v22 çalıştır. Ek dosyalardan/Komut Dosyalarından alınabilen R" dosyası:
      source("Tamamlayıcı dosyalar/Komut Dosyaları/gtf_v22. R")
    3. Topluluk gen kimliklerini gen sembollerine dönüştürmek için "ann" işlevini uygulayın.
      cnt=ann(cnt,gtf_v22)
  3. Düşük ekspresyonlu genleri filtreleme
    1. R paketi "edgeR"ı yüklemek için Çalıştır'ı tıklatın.
      BiocManager::install("edgeR")
    2. R paketi "edgeR"ı yüklemek için Çalıştır'ı tıklatın.
      kitaplık(edgeR)
    3. En az iki örnekten birinden büyük milyon (BGBM) değerine sahip genleri tutmak için aşağıdaki R kodunu çalıştırın.
      < satır tutSums(cpm(cnt)>1)>=2
      cnt <- as.matrix(cnt[keep,])
      NOT: Farklı sıralama derinliklerinin neden olduğu sapmayı ortadan kaldırmak için okuma sayısı yerine milyon başına sayım (BGBM) değeri kullanılır.

2. "Limma" ile diferansiyel ekspresyon analizi

  1. R paketi "limma"yı yüklemek için Çalıştır'ı tıklatın.
    BiocManager::yükle("limma")
  2. R paketlerini "limma", "edgeR" yüklemek için Çalıştır'ı tıklatın.
    kütüphane(limma)
    kitaplık(edgeR)
  3. Tasarım matrisini oluşturmak için aşağıdaki R kodunu çalıştırın.
    grup <- substring(colnames(cnt),14,15) # Extract group information
    grup [grup %in% "01"] <- "Cancer" # set '01' as tumor tissue
    grup [grup %in% "11"] <- "Normal" # set '11' as normal tissue
    grup <- factor (group, levels = c("Normal","Cancer"))
    1. Tasarım matrisini oluşturun.
      tasarım <- model.matrix (~grup)
      satır adları(tasarım) <- sütun adları(cnt)
    2. DGEList nesnesini oluşturun.
      dge <- DGEList(sayı = cnt, grup = grup)
    3. Verileri normalleştirin.
      dge <- calcNormFactors(dge, yöntem = "TMM")
    4. Limma eğilim yöntemi tabanlı diferansiyel ifade çözümlemesi gerçekleştirmek için aşağıdaki R kodunu çalıştırın.
      dge
      ##An "DGEList" sınıfının nesnesi
      ##$counts
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##TSPAN6 4262
      ##DPM1 1254
      ##SCYL3 699
      ##C1orf112 239
      ##FGR 334
    5. BGBM değerini hesaplayın.
      logdge <- cpm(dge, log=TRUE, prior.count=3)
    6. Verileri tahmin etmek veya değişkenler arasındaki ilişkiyi çıkarmak için doğrusal bir model sığdırmak için Çalıştır'ı tıklatın.
      fit <- lmFit (logdge, tasarım)
    7. Bayesian'a göre T değerini, F değerini ve günlük oranlarını hesaplayın.
      fit <- eBayes (fit, trend=DOĞRU)
    8. Sonuç tablosunu ayıklayın.
      res_limma<- as.data.frame(topTable(sığdırma,n=Inf))

      kafa(res_limma)
      ## logFC AveExpr t P.Value adj. P.Val B
      ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
      ##BX842568,1 -4,347930 -2,595205 -20,14532 1,082759e-24 1,118706e-20 45,83656
      ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
      ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
      ##AP006216,5 -4,507051 -2,670915 -19,25649 7,153356e-24 2,956339e-20 44,01704
      ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
      #The ifade analizinin sonucu, gen kimliği, log2 kat değişim değeri (logFC), deneydeki genin ortalama log2 ifade düzeyi (AveExpr), değiştirilmiş t istatistiği (t), relavent p değeri (P.Value), yanlış keşif hızı (FDR) düzeltilmiş p değerini (adj) içeren "res_limma" kaydedilir. P.Val) ve farklı ifade edilen genlerin günlük oranları (B)
      NOT: "edgeR"ın "calcNormFactors()" işlevi, örnek hazırlama veya kitaplık yapımı ve diziliminin neden olduğu etkiyi ortadan kaldırmak için verileri normalleştirmek için kullanılmıştır. Tasarım matrisinin yapımında, deneysel tasarımın (örneğin, doku tipi: normal veya tümör dokuları) matrisin örnek kimlikleriyle eşleşmesi gerekir. limma-trend, sıralama derinliği aynı olan veriler için uygundur, limma-voom ise uygundur: (i) örnek kitaplık boyutu farklı olduğunda; (ii) TMM tarafından normalleştirilmeyen veriler; (iii) verilerde çok fazla "gürültü" vardır. Pozitif logFC, genin deneyde yukarı doğru düzenlendiği anlamına gelirken, negatif sayı genin aşağı regüle edildiği anlamına gelir.
    9. DEG'leri tanımlayın.
      res_limma$sig <- as.factor(
      ifelse(res_limma$adj. P.Val < 0.05 & abs(res_limma$logFC) > 2,
      ifelse(res_limma$logFC > 2 ,'up','down'),'not')) # 0,05 < adj.p Değeri ve |log2FC| >= 2, DEG'leri tanımlamak için eşiklerdir
      özet(res_limma$sig)
      ##down yukarı değil
      ##1880 ​17341 1443
    10. Sonuç tablosunu bir dosyaya çıktısını verin.
      yazma.csv(res_limma, dosya = 'result_limma.csv')
    11. R paketi "ggplot2"yi yüklemek için Çalıştır'ı tıklatın.
      install.packages("ggplot2")
    12. R paketi "ggplot2"yi yüklemek için Çalıştır'ı tıklatın.
      kitaplık(ggplot2)
    13. "Volkan"ın R kodunu çalıştır. R" volkan arsa oluşturmak için. "Volkan" dosyası. R" Ek dosyalardan edinilebilir.
      kaynak("Tamamlayıcı dosyalar/Komut Dosyaları/volkan. R")
      volkan(res_limma,"logFC","adj. P.Val",2,0.05)
      NOT: Genler log2FC ve adj-p değerlerine göre farklı pozisyonlara eşlenebilir, yukarı düzenlenmiş DEG'ler kırmızı renklendirilir ve aşağı düzenlenmiş DEG'ler yeşil renklendirilir.
    14. Volkan arsasını kaydetmek için Dışarı Aktar'ı tıklatın.
      NOT: Volkan çizimleri farklı formatlarda oluşturulabilir ve indirilebilir (örneğin, pdf, TIFF, PNG, JPEG formatı). Genler log2FC ve adj p değerlerine göre farklı pozisyonlara eşlenebilir, yukarı düzenlenmiş DEG'ler (log2FC > 2, adj p < 0.05) kırmızı renktedir ve aşağı düzenlenmiş DEG'ler (log2FC < -2, adj p < 0.05) yeşil renkte, DEG olmayanlar gri renkte renklendirilir.

3. "edgeR" ile diferansiyel ifade analizi

  1. R paketi "edgeR"ı yüklemek için Çalıştır'ı tıklatın.
    kitaplık(edgeR)
  2. Tasarım matrisi oluşturmak için aşağıdaki R kodunu çalıştırın.
    grup <-alt dize(sütun adları(cnt),14,15)
    grup [grup %in% "01"] <- "Kanser"
    grup [grup %in% "11"] <- "Normal"
    group=faktör(grup, düzey = c("Normal","Kanser"))
    tasarım <-model.matrix(~grup)
    satır adları(tasarım) = sütun adları(cnt)
  3. DGEList nesnesini oluşturmak için Çalıştır'ı tıklatın.
    dge <- DGEList(counts=cnt)
  4. Verileri normalleştirin.
    dge <- calcNormFactors(dge, yöntem = "TMM")
  5. Gen ifade değerlerinin dağılımını tahmin etmek için Çalıştır'ı tıklatın.
    dge <- estimateDisp(dge, tasarım, sağlam = T)
  6. Verileri saymak için modeli sığdırmak için Çalıştır'ı tıklatın.
    fit <- glmQLFit(dge, tasarım)
  7. İstatistiksel bir test yap.
    fit <- glmQLFTest(fit)
  8. Sonuç tablosunu ayıklayın. Sonuç, günlük katlama değişim değeri, günlük BGBM, F, p değeri ve FDR düzeltilmiş p değerini içeren "res_edgeR" kaydedilir.
    res_edgeR=as.data.frame(topTags(sığdırma, n=Inf))
    kafa(res_edgeR)
    ## logFC logCPM F PValue FDR
    ##GCDH -3,299633 5,802700 458.5991 1,441773e-25 2,979280e-21
    ##MSMO1 -3,761400 7,521111 407.0416 1,730539e-24 1,787993e-20R
    ##CL1 -3,829504 5,319641 376.5043 8,652474e-24 5,516791e-20
    ##ADI1 -3,533664 8,211281 372.6671 1,067904e-23 5,516791e-20
    ##KCNN2 -5,583794 3,504017 358.6525 2,342106e-23 9,679455e-20
    ##GLUD1 -3,287447 8,738080 350.0344 3,848408e-23 1,194406e-19
    #The sonuç, günlük katlama değişim değeri (logFC), günlük BGBM, F, p değeri ve FDR düzeltilmiş p değerini içeren "res_edgeR" kaydedilir
  9. DEG'leri tanımlayın.
    res_edgeR$sig = as.factor(
    ifelse(res_edgeR$FDR < 0,05 & abs(res_edgeR$logFC) > 2,
    ifelse(res_edgeR$logFC > 2 ,'yukarı','aşağı'),'değil'))
    özet(res_edgeR$sig)
    ##down yukarı değil
    ##1578 15965 3121
  10. Sonuç tablosunu bir dosyaya çıktısını verin.
    yazma.csv(res_edgeR, dosya = 'res_edgeR.csv')
  11. Volkan arsa oluşturun.
    volkan(res_edgeR,"logFC","FDR",2,0.05)
  12. Volkan arsasını kaydetmek için Dışarı Aktar'ı tıklatın.

4. "DESeq2" ile diferansiyel ifade analizi

  1. R paketleri "DESeq2"yi yüklemek için Çalıştır'ı tıklatın.
    BiocManager::yükle("DESeq2")
  2. R paketlerini "DESeq2" yüklemek için Çalıştır'ı tıklatın.
    kitaplık(DESeq2)
  3. Gruplandırma faktörünü belirlemek için aşağıdaki R kodunu çalıştırın.
    grup <-alt dize(sütun adları(cnt),14,15)
    grup [grup %in% "01"] <- "Kanser"
    grup [grup %in% "11"] <- "Normal"
    group=faktör(grup, düzey = c("Normal","Kanser"))
  4. DESeqDataSet nesnesini oluşturun.
    dds <-DESeqDataSetFromMatrix (cnt, DataFrame(grup), tasarım = ~grup)
    Dds
    ##class: DESeqDataSet
    ##dim: 20664 45
    ##metadata(1): sürüm
    ##assays(1): sayılar
    ##rownames(20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
    ##rowData adları(0):
    ##colnames(45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
    ##colData adları(1): grup
  5. Analizi gerçekleştirin.
    dds <- DESeq(dds)
  6. Sonuç tablosunu oluşturun.
    res_DESeq2 <- data.frame(sonuçlar(dds))

    kafa(res_DESeq2)
    ## baseMean log2FoldChange lfcSE stat pvalue padj
    ##TSPAN6 4704.9243 -0,8204515 0,3371667 -2,433370 1,495899e-02 2,760180e-02
    ##DPM1 1205.9087 -0,3692497 0,1202418 -3,070894 2,134191e-03 4,838281e-03
    ##SCYL3 954.9772 0,2652530 0,2476441 1,071106 2,841218e-01 3,629059e-01
    ##C1orf112 277.7756 0,7536911 0,2518929 2,992109 2,770575e-03 6,101584e-03
    ##FGR 345.8789 -0,6423198 0,3712729 -1,730047 8,362180e-02 1,266833e-01
    ##CFH 27982.3546 -3.8761382 0,5473363 -7,081823 1,422708e-12 1,673241e-11
    NOT: Sonuç, normalleştirilmiş okuma sayısı (baseMean), log fold Change değeri (log2FoldChange), log fold değişiklik standart hatası (lfcSE), Wald istatistiği (stat), orijinal p değeri (pvalue) ve düzeltilmiş p değeri (padj) ortalamasını içeren "res_DESeq2" olarak kaydedilir.
  7. DEG'leri tanımlayın.
    res_DESeq2$sig = as.factor(
    ifelse(res_DESeq2$padj < 0,05 & abs(res_DESeq2$log2FoldChange) > 2,
    ifelse(res_DESeq2$log2FoldChange > 2 ,'yukarı','aşağı'),'değil'))
    özet(res_DESeq2$sig)
    ##down yukarı değil
    ##1616 16110 2938
  8. Sonuç tablosunu bir dosyaya çıktısını verin.
    yazma.csv(res_DESeq2, dosya = 'res_DESeq2.csv')
  9. Volkan arsa oluşturun.
    volkan(res_DESeq2,"log2FoldChange","padj",2,0.05)
  10. Volkan arsasını kaydetmek için Dışarı Aktar'ı tıklatın.

5. Venn diyagramı

  1. R paketini "VennDiagram" yüklemek için Çalıştır'ı tıklatın.
    install.packages("VennDiagram")
  2. R paketini "VennDiagram" yüklemek için Çalıştır'ı tıklatın.
    kütüphane (VennDiagram)
  3. Düzenlenmiş DEG'lerin Venn diyagramını yapın.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=satır adları(res_
    limma[res_limma$sig=="yukarı",]),
    edgeR=satır adları(res_edgeR[res_edgeR$sig=="yukarı",]),
    DESeq2=satır adları(res_DESeq2[res_DESeq2$sig==
    "yukarı",])),
    NULL,yükseklik = 3,genişlik = 3,birim = "in",
    col="siyah",lwd=0,3,fill=c("#FF6666","#FFFF00",
    "#993366"),
    alpha=c(0,5, 0,5, 0,5),main = "Yukarı düzenlenmiş DEG'ler"))
  4. Venn diyagramını kaydetmek için Dışarı Aktar'ı tıklatın.
  5. Aşağı düzenlenmiş DEG'lerin Venn diyagramını yapın.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=satır adları(res_
    limma[res_limma$sig=="aşağı",]),
    edgeR=satır adları(res_edgeR[res_edgeR$sig==
    "aşağı",]),
    DESeq2=satır adları(res_DESeq2[res_DESeq2$sig=="aşağı",])),
    NULL,yükseklik = 3,genişlik = 3,birim = "in",
    col="siyah",lwd=0,3,fill=c("#FF6666","#FFFF00",
    "#993366"),
    alpha=c(0,5, 0,5, 0,5),main = "Aşağı düzenlenmiş DEG'ler"))
  6. Venn diyagramını kaydetmek için Dışarı Aktar'ı tıklatın.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Volkan arsası ve Venn diyagramının özellikle kullanıldığı diferansiyel ifade analizinin sonucunu görselleştirmek için çeşitli yaklaşımlar vardır. limma, CHOL ve normal dokular arasında |logFC|≥2 ve adj ile 3323 DEG tespit etti. P.Val <0.05 eşik olarak, aralarında 1880'inIN CHOL dokularında aşağı regüle edildiği ve 1443'ü yukarı regüle edildiği (Şekil 1a). Bu arada edgeR, 1578 aşağı düzenlenmiş DEG'leri ve 3121 yukarı düzenlenmiş DEG'leri tanımladı (Şekil 1b); DESeq2, 1616 aşağı düzenlenmiş DEG'leri ve 2938 yukarı düzenlenmiş DEG'leri tanımladı (Şekil 1c). Bu üç yöntemin sonuçları karşılaştırıldığında, 1431 yukarı düzenlenmiş DEG ve 1531 aşağı düzenlenmiş DEG üst üste bindirilmiştir (Şekil 2).

Figure 1
Şekil 1. CHOL ve normal dokular arasında farklı eksprese edilen genlerin (DEG) tanımlanması. (a-c) Sırasıyla limma, edgeR ve DESeq2 tarafından elde edilen tüm genlerin volkan çizimleri, adj p değeri (-log10) kat değişimi (log2) ile çizilir, kırmızı noktalar yukarı düzenlenmiş DEG'leri temsil eder (ayarlanmış p değeri<0.05 ve günlük | FC|> 2) ve yeşil noktalar aşağı düzenlenmiş DEG'leri (ayarlanmış p değeri< 0,05'i temsil eder ve günlük | FC|< 2). Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Figure 2
Şekil 2. Venn diyagramları limma, edgeR ve DESeq2'den elde edilen sonuçlar arasında çakışma gösterir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Tamamlayıcı Dosyalar. Bu Dosyayı indirmek için lütfen tıklayınız.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Kanserlerde bol miktarda sapma transkriptleri RNA-seq diferansiyel analizi ile kolayca tanımlanabilir5. Bununla birlikte, R dili ile belirli beceriler ve uygun yöntemleri seçme kapasitesi gerektirdiğinden, RNA-seq diferansiyel ifade analizinin uygulanması genellikle kısıtlanır. Bu sorunu gidermek için, en bilinen üç yönteme (limma, EdgeR ve DESeq2) ve RNA-seq diferansiyel ifade çözümlemesi uygulamak için öğreticilere ayrıntılı bir giriş sağlıyoruz. Bu, her üç yöntemdeki benzerliklerin ve farklılıkların anlaşılmasını kolaylaştıracak, bireysel veriler için uygun bir yöntemin seçilmesini sağlayacak ve karmaşık dinamik biyolojik süreçleri anlamamızı sağlayacaktır.

Burada, sırasıyla limma, edgeR ve DESeq2 üzerinden RNA-seq diferansiyel ekspresyon analizi için beş aşamada ayrıntılı bir protokol sunuyoruz: (i) verilerin indirilmesi ve önceden işlenmesi, (ii-iv) sırasıyla limma, edgeR ve DESeq2 üzerinden diferansiyel ifade analizi, (v) bu üç yöntemin sonuçlarının bir Venn diyagramı üzerinden karşılaştırılması.

Üç yöntem, diferansiyel ifade analizi süreçleri arasında benzer ve farklı adımlara sahiptir. Doğrusal bir model, mikroarraylar, RNA-seq ve nicel PCR8,13dahil olmak üzere tüm gen ekspresyon teknolojileri için geçerli olan limma istatistikleri içinkullanılırken,edgeR ve DESeq2 negatif binom dağılımı9,10ve edgeR ve DESeq2'ye dayalı bir dizi istatistiksel metodoloji uygular ve edgeR ve DESeq2 RNA-seq verileri için uygundur. Ayrıca, normalleştirilmiş RNA-seq sayısı verileri EdgeR ve limma için gereklidir, deSeq2 ise normalleştirme yerine verileri düzeltmek için kendi kitaplık tutarsızlıklarını kullanır ve DESeq2'deki verilerin tamsayı matrisi olması gerekir. Normalleştirme yöntemleri arasında TMM (M değerlerinin kırpılmış ortalaması), TMMwsp, RLE (göreli günlük ifadesi) ve TMM'nin RNA-seq verileri için en sık kullanılan normalleştirme yöntemi olduğu upperquartile bulunur. Üç yöntemin sonuçları, DESeq2 ve EdgeR'ın limma'dan daha fazla DEG elde ettiğini gösterdi. Bu farkın nedeni, edgeR ve DESeq2'nin çok sayıda yanlış pozitife katkıda bulunan negatif binom modeline dayandırığıdır. Aksine, limma-voom sadece varyans işlevini kullanır ve limma14 , 15,16ile doğrusal model analizinin ardından varyans dengeleyici dönüşümde olduğu gibi aşırı yanlış pozitifler göstermez.

Her üç yöntemin de kendi avantajları vardır ve seçim yalnızca veri türüne bağlıdır. Örneğin, mikroarray verileri varsa, limma öncelikli olarak verilmelidir, ancak yeni nesil sıralama verileri olduğunda, DESeq2 ve EdgeR9, 10,17tercih edilir. Özetle, burada sırasıyla R paketleri limma, edgeR ve DESeq2 ile RNA-seq diferansiyel ekspresyon analizi için ayrıntılı bir protokol sunuyoruz. Üç yöntemden elde edilen çıktı sonuçları kısmen çakışıyor ve bu diferansiyel yöntemlerin kendi avantajları var. Ne yazık ki, bu protokol diğer veri türleri (örneğin, mikroarray verileri) ve yöntemleri (örneğin, EBSeq)18için teknik ayrıntıları kapsamaz.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Makale daha önce yayımlanmamıştır ve başka bir yerde yayımlanması düşünülmemektedir. Tüm yazarlar önemli entelektüel içerikler için bu makalenin oluşturulmasına katkıda bulundular ve son makaleyi okudular ve onayladılar. Çıkar çatışması olmadığını ilan ediyoruz.

Acknowledgments

Bu çalışma, Çin Ulusal Doğa Bilimleri Vakfı (Grant No. 81860276) ve Ulusal Anahtar Ar-Ge Programının Anahtar Özel Fon Projeleri (Grant No. 2018YFC1003200) tarafından desteklendi.

Materials

Name Company Catalog Number Comments
R version 3.6.2 free software
Rstudio free software

DOWNLOAD MATERIALS LIST

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, Oxford, England. 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, Oxford, England. 1035-1043 (2013).

Tags

Kanser Araştırmaları Sayı 175
RNA Dizilimi için Üç Diferansiyel İfade Analizi Yöntemi: limma, EdgeR, DESeq2
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Liu, S., Wang, Z., Zhu, R., Wang,More

Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter