Biology

IR-TEx: Ein Open Source Data Integration Tool für Big Data Transcriptomics entwickelt für den Malaria Vector Anopheles gambiae

Published: January 15, 2020 doi: 10.3791/60721

Victoria A. Ingham¹, Andrew Bennett², Duo Peng³, Simon C. Wagstaff², Hilary Ranson¹

¹Vector Biology, Liverpool School of Tropical Medicine, ²Research Computing Unit, Liverpool School of Tropical Medicine, ³Department of Immunology and Infectious Diseases, Harvard T.H. Chan School of Public Health

Summary

IR-TEx erforscht insektizidresistenzbedingte Transkriptionsprofile in der Art Anopheles gambiae. Hier finden Sie vollständige Anweisungen für die Verwendung der Anwendung, Änderungen zum Untersuchen mehrerer transkriptomischer Datensätze und die Verwendung des Frameworks zum Erstellen einer interaktiven Datenbank für Sammlungen von transkriptomischen Daten aus jedem Organismus, die in jeder Plattform generiert werden.

Abstract

IR-TEx ist eine in Shiny (ein R-Paket) geschriebene Anwendung, die die Erforschung des Ausdrucks (sowie der Zuweisung von Funktionen) von Transkripten ermöglicht, deren Expression mit Insektizidresistenz-Phänotypen in Anopheles-Gambia-Mücken assoziiert ist. Die Anwendung kann online verwendet oder heruntergeladen und lokal von jedermann verwendet werden. Die lokale Anwendung kann geändert werden, um neue Insektizidresistenz-Datasets hinzuzufügen, die von mehreren -omics-Plattformen generiert werden. In diesem Handbuch wird veranschaulicht, wie Sie neue Datasets hinzufügen und fehlende Daten verarbeiten. Darüber hinaus kann IR-TEx vollständig und einfach neu kodiert werden, um Datensätze aus allen experimentellen Daten zu verwenden, was es zu einer wertvollen Ressource für viele Forscher macht. Das Protokoll veranschaulicht den Nutzen von IR-TEx bei der Identifizierung neuer Insektizidresistenzkandidaten am Beispiel der mikrosomalen Glutathiontransferase GSTMS1. Dieses Transkript ist in mehreren pyrethroidresistenten Populationen aus der Elfenbeinküste und Burkina Faso reguliert. Die Identifizierung von cokorrelierten Transkripten gibt einen weiteren Einblick in die vermeintliche Rolle dieses Gens.

Introduction

Die Möglichkeit, die Expression einer großen Anzahl von Transkripten gleichzeitig über Mikroarray-Plattformen und die RNAseq-Technologie zu messen, hat zur Erzeugung riesiger Datensätze geführt, die den Transkriptexpression mit einem bestimmten Phänotyp sowohl in Modellorganismen als auch in Nicht-Modellorganismen assoziieren. Diese Datensätze sind eine extrem reichhaltige Ressource für Forscher, deren Leistungsfähigkeit durch die Kombination relevanter Sets in einem Big-Data-Integrationsansatz gesteigert werden kann. Diese Methodik ist jedoch auf diejenigen mit besonderen bioinformatischen Fähigkeiten beschränkt. Beschrieben hier ist ein Programm, IR-TEx (zuvor veröffentlicht von Ingham et al.¹), das in einem R-Paket namens Shiny² geschrieben ist und es Benutzern mit wenig Bioinformatik-Training ermöglicht, diese Datensätze relativ einfach zu integrieren und zu hinterhören.

IR-TEx, gefunden bei http://www.lstmed.ac.uk/projects/IR-TEx, wurde geschrieben, um Transkripte im Zusammenhang mit Insektizidresistenz in Anopheles gambiae, dem wichtigsten afrikanischen Malariavektor¹, zu erforschen. Malaria ist eine parasitäre Krankheit, die durch Plasmodium-Arten verursacht wird und zwischen Menschen durch die Bisse weiblicher Anopheles-Mücken übertragen wird. Die Bekämpfung des Mückenvektors mit Insektiziden hat sich als das wirksamste Mittel zur Verhinderung von Malaria-bedingter Morbidität und Mortalität in Afrika erwiesen. Die Ausweitung der Werkzeuge (d. h. langlebige insektizide Netze) war seit 2000 auch von entscheidender Bedeutung für die drastische Verringerung der Malariafälle seit 2000³. Da eine sehr begrenzte Anzahl von Insektiziden zur Verfügung steht, gibt es einen starken evolutionären Druck auf die Mücken, und Resistenzen sind jetzt in afrikanischen Malariavektoren⁴weit verbreitet.

Zusätzlich bleiben die Zielstandortmutationen⁵ und die metabolische Clearance von Insektiziden⁶^,⁷ die primär untersuchten Resistenzmechanismen, aber andere potentresistente Mechanismen entstehen jetzt¹. Viele dieser neuen Mechanismen wurden bisher nicht mit Insektizidresistenz in Verbindung gebracht, sondern durch die Suche nach gemeinsamen Mustern der Genexpression über mehrere resistente Populationen mit der IR-TEx-App und anschließend funktional validiert durch genomische Ansätze¹.

Hier wird ein schrittweiser Ansatz zur Verwendung von IR-TEx beschrieben, sowohl im Web als auch bei der lokalen Installation. Das Protokoll beschreibt, wie neue Insektizidresistenz-Datensätze in das bestehende Paket integriert werden können, und erklärt, wie mit fehlenden Daten zu arbeiten ist. Schließlich wird beschrieben, wie diese Software mit anderen -omics-Datensätzen verwendet wird, die nichts mit der Resistenz von Insektiziden zu tun haben, wodurch Daten aus unterschiedlichen -omics-Ansätzen kombiniert werden, während gleichzeitig mit fehlenden Werten und Normalisierung arbeitet, so dass Daten vergleichbar sind.

Protocol

1. Verwenden der IR-TEx-Webanwendung

Ausführen der Anwendung in einem Webbrowser
1. Öffnen Sie die IR-TEx-Webanwendung, indem Sie dem Link unten auf der Seite unter http://www.lstmed.ac.uk/projects/IR-TExfolgen.
2. Nachdem die Webseite initialisiert wurde, klicken Sie oben auf der Seite auf die Schaltfläche Anwendung, die die Anwendung und die zugehörigen Ausgaben anzeigt.
3. Lesen Sie jede Ausgabe im Zusammenhang mit dem Standardeintrag von AGAP008212-RA (CYP6M2) im Transkript-ID-Feld mit den folgenden Bedingungen: An. coluzzii-Datensätze, die (i) Pyrethroid-Insektiziden ausgesetzt sind oder (ii) keiner Insektizidklasse ausgesetzt sind, und zugehörigen Transkripten mit einer Korrelation von |r| >0,98.
Untersuchung der Ausprägung einer Abschrift von Interesse
1. Um ein Transkript von Interesse auszuwählen, geben Sie die Transkript-ID in das Transkript-ID-Feld ein, und denken Sie daran, dass Transkripte abhängig von einer Isoform von Interesse in -RX enden.
2. Wählen Sie die zu behörenden Datensätze aus, indem Sie die entsprechenden Kästchen für (i) Länder ankreuzen. ii) Expositionsstatus, iii) Arten von Interesse; und (iv) Insektizid-Klasse von Interesse, wobei sicherzustellen, dass diese Kriterien zu >1 enthaltenen Datensatz führen (siehe Ergänzende Tabelle 1 in Ingham et al.¹).
  HINWEIS: (iii) bezieht sich auf das Mitglied des An. gambiae Artenkomplexes, an dem der Benutzer interessiert ist. Derzeit liegen Daten für An. coluzzii und An. arabiensis vor.
3. Klicken Sie unten im Auswahlmenü auf Ansicht aktualisieren, oder drücken Sie Return, ohne den absoluten Korrelationswert zu ignorieren (vorerst).
4. Geben Sie der Anwendung Zeit für die Aktualisierung.
5. Lesen Sie das erste Diagramm wie: Log_2-fache Veränderung zwischen einer resistenten Population und einer im Labor anfälligen Mückenpopulation der Transkriptvons von Interesse für jeden Datensatz, der die in Schritt 1.2 ausgewählten Kriterien erfüllt (Abbildung 1). Die Details aller Datensätze finden Sie in Ingham et al.¹.
6. Lesen Sie die Informationen unter dem Diagramm wie: Die Falte wechselt zwischen den resistenten und anfälligen Mücken für jeden relevanten Datensatz, zusätzlich zu den korrigierten p-Werten (Q). Jede Zeile stellt einzelne Sonden auf dem Mikroarray dar. Die Methodik für die grafische Darstellung wurde^zuvor1 gemeldet.
7. Lesen Sie die nachstehende zusätzliche Tabelle als Anzahl der Experimente, bei denen die Aufzeichnung von Interesse signifikant ist, sowie die Gesamtzahl der Experimente, die den in Schritt 1.2 ausgewählten Kriterien entsprechen.
8. Um die Daten im auf Registerkarten getrennten Format herunterzuladen, klicken Sie auf die Schaltfläche Herunterladen unter den beiden Tabellen. Auf diese Weise kann der Benutzer Daten mithilfe eines Programms wie Excel einfacher untersuchen.
9. Interpretieren Sie die Karte wie folgt: Jeder Punkt stellt die ungefähren Sammelstellen resistenter Mücken in jedem Datensatz dar, in dem die Transkription von Interesse differenziert ausgedrückt wird. Die Farben folgen einem Ampelsystem, das in der App erläutert wird (Abbildung 2).
10. Speichern Sie für die Schritte 1.2.5 und 1.2.8 die grafischen Ausgaben, indem Sie mit der rechten Maustaste klicken, auf Bild speichern unter... klicken und einen geeigneten Ordner auswählen.
  HINWEIS: Im Fall eines Ausgabefehlers der Anwendung ist es wahrscheinlich, dass keine Datasets den eingegebenen Kriterien entsprechen. Prüfen Sie in diesem Fall Zusatztabelle 1 in Ingham et al.^1.
Identifizieren vermeintlicher Funktionen/Wege der Transkription von Interesse
1. Korrelationen (minimalr^2-Wert eingegeben) der Ausdrucksmuster von Transkripten über mehrere Datensätze hinweg können verwendet werden, um Die Transkriptfunktion vorherzusagen und möglicherweise koregulierte Transkripte aus demselben Pfad aufzuklären. Am Beispiel von Ingham et al.¹ (AGAP001076-RA; CYP4G16), führen Sie die Schritte 1.2.1–1.2.2 im obigen Abschnitt aus und wählen Sie alle Datasets für maximale Leistung aus.
2. Bevor Sie auf Ansicht aktualisierenklicken, verschieben Sie den Schieberegler Absoluter Korrelationswert auf 0,85, und klicken Sie auf Ansicht aktualisieren, oder drücken Sie Return.
3. Untersuchen Sie die Korrelationstabelle (unterste Tabelle), um die mehreren Transkripte zu finden, die jetzt angezeigt werden und mit dem eingegebenen Transkript korreliert sind (|r| = 0,85).
4. Bearbeiten Sie den Schieberegler Absoluter Korrelationswert, und beobachten Sie alle Änderungen im untersten Diagramm und in der Tabelle; die Ausgänge aus Schritt 1.3.2 bleiben unverändert. Wie in Abbildung 3 (|r| > 0.9, |r| > 0.8) dargestellt, zeigt das Senken der Stringenz des Korrelationswerts mehr Transkripte an, führt aber zu mehr Rauschen.
5. Lesen Sie die Tabelle unter der grafischen Ausgabe, die (zusätzlich zu den in Schritt 1.2.6 beschriebenen Parametern) den Korrelationswert für jedes Transkript enthält.
6. Um die Daten in einem auf Registerkarten getrennten Format herunterzuladen, klicken Sie auf die Schaltfläche Herunterladen.
7. Die funktionelle Anreicherungsanalyse kann auf der heruntergeladenen Transkript-ID-Liste mit DAVID-Analyse⁸durchgeführt werden. Einmal auf der DAVID-Website (gefunden unter https://david.ncifcrf.gov/), wählen Sie Functional Analysis. Fügen Sie die vollständige Genliste mit Gen-IDs [Bezeichner ohne -RX, die in Excel durchgeführt werden können, durch Einfügen einer Spalte rechts von der Systematischen ID und Eingabe =LEFT(X1,10), wobei X1 die Systematische ID-Zelle ist] erfolgen. Wählen Sie den Bezeichner als VectorBase_ID und Genliste aus, und klicken Sie auf Liste senden.
8. Klicken Sie auf die Schaltfläche Functional Annotation Clustering, um einen Überblick über die in diesem Korrelationsnetzwerk gefundenen Anreicherungen zu erhalten, sodass dem Transkript eine potenzielle Funktion zugewiesen werden kann. Erkunden Sie detaillierte Anreicherungen, indem Sie die verschiedenen Kategorien durchsehen und auf die Schaltflächen + für jede einzelne Kategorie klicken und anschließend auf Diagrammklicken.

2. Herunterladen und Implementieren von IR-TEx lokal

Herunterladen und Ausführen von IR-TEx
1. Gehen Sie zu dem Link unter http://github.com/LSTMScientificComputing/IR-TExgefunden ; und klicken Sie auf Klonen oder Herunterladen | Zip herunterladen. Direkt zu einem Ordner nach Wahl und entpacken Sie die Datei in diesem Ordner.
2. Laden Sie die neueste Version der R-Software für das entsprechende Betriebssystem von dem Link unter http://cran.r-project.org/mirrors.htmlherunter. Installieren Sie das Programm.
3. Laden Sie die neueste R Studio-Software herunter und installieren Sie sie erneut für das entsprechende Betriebssystem über den Link unter http://www.rstudio.com/products/rstudio/download/.
4. Öffnen Sie nach der Installation R Studio | Ergänzende Codierung Datei 1 und führen Sie jede Zeile, um das System für IR-TEx einzurichten.
5. Sobald alle Pakete erfolgreich installiert und nach Bedarf aktualisiert wurden, wechseln Sie zu Datei | Öffnen, suchen IR-TEx.R, markieren und öffnen. Dies sollte nun im oberen Fenster von R Studiosichtbar sein.
6. Um die App auszuführen, drücken Sie die Schaltfläche App ausführen oben rechts im Fenster, und ein zweites Fenster wird angezeigt, in dem die App geladen wird. Sobald das Laden abgeschlossen ist, klicken Sie für die volle Funktionalität im Browser öffnen, das sich oben rechts im geladenen Fenster befindet.
Hinzufügen von Widerstands-Datasets zu IR-TEx (generiert mit Anopheles gambiae 15k Agilent Array)
1. Laden Sie die App herunter, und suchen Sie den entpackten Ordner, der in Abschnitt 2.1 heruntergeladen wurde, um ein neues analysiertes Dataset hinzuzufügen, das auf derselben Microarray-Plattform (A-MEXP-2196) generiert wurde.
2. Öffnen Sie die zusätzliche Datei 1, die eine Ausgabe einer limma-Analyse auf A-MEXP-2196 ¹darstellt. Schreiben Sie in der Spalte H1 in Spalte H1 Fold_Change, und schreiben Sie in H2 = 2 B2, in dem B2 die Protokollfalteänderung ist. Wenden Sie diese in Spalte H an, um Rohfaltenänderungen zu erstellen.
3. Zusätzliche Datei 1 so anordnen, dass Spalte A die ID ist, Spalte B ist die Faltänderung aus Spalte H (Spalte H kopieren, Spalte B markieren, dann Rechtsklick und Einfügewerte) und Spalte C ist der angepasste p-Wert. Löschen Sie alle anderen Spalten, und speichern Sie sie als Datei mit durch Registerkarten getrennten Dateien.
4. Öffnen Sie die zusätzliche Codierung Datei 2 und führen Sie sie mit dem in Schritt 2.2.3 erstellten Blatt mit Tab-Trennung aus.
  NEWFILE_FC = c('COUNTRY','EXPOSURE STATUS','SPECIES','INSECTICIDE')
  NEWFILE_Q = c('COUNTRY','EXPOSURE STATUS','SPECIES','INSECTICIDE')
  HINWEIS: Felder in einzelnen Anführungszeichen sollten geändert werden, um Informationen aus dem neuen Dataset widerzuspiegeln. Der Expositionsstatus bezieht sich darauf, ob Proben nach der Exposition in Insektizid (exponiert/unbelichtet) entnommen wurden. Insektizid: Wenn "nicht exponiert", verwenden Sie "keine". Siehe Fold_Changes.txt. für Metadaten aus anderen Beispielen. Stellen Sie sicher, dass die Rechtschreibung konsistent ist.
5. Öffnen Sie geography.txt, scrollen Sie zur letzten besetzten Zeile, und wählen Sie unten aus. Geben Sie den Namen des Datasets ein, gefolgt von Q und NEWFILE_Q in Spalte 1, dem Breitengrad der Beispielsammlungswebsite in Spalte 2 und dem Längengrad in Spalte 3. Speichern Sie die Änderungen.
6. Wenn neue Einträge (d. h. Gambia) verwendet werden, die im Datensatz nicht zur Auswahl stehen (siehe Ingham et al. Ergänzende Tabelle 1¹), müssen diese dem Code hinzugefügt werden. Öffnen Sie dazu IR-TEx.R in RStudio und suchen Sie die von RStudio angegebene Zeile 26, an der enden sollte Folgendes beginnen:
  'sidebarPanel(....'.
  HINWEIS: Jede der fortfahrenden Zeilen bezieht sich auf ein Element von Metadaten, die in die Zeilen unterhalb des Datasetnamens in Fold_Changes.txt in Schritt 2.2.5 eingegeben wurden.
7. Um die neuartigen Metadaten hinzuzufügen, scrollen Sie zum Ende der Zeile der Metadaten Ihrer Wahl, und suchen Sie den Begriff 'selected='. Unmittelbar danach sollte ein Komma und eine geschlossene Klammer sein; Klicken Sie an dieser Stelle auf den Cursor in der geschlossenen Klammer. Geben Sie nach dem letzten Apostroph ein Komma, gefolgt von einem Apostroph, gefolgt von den neuen Metadaten (z. B. "Gambia") ein, und speichern Sie die Änderungen. Siehe unten für ein Beispiel.
  checkboxGroupInput('CountryInput','Select Relevant Countries',c('Burkina Faso','Cote d'Ivoire','Cameroon','Äquatorialguinea','Sambia','Tanzania','Sudan','Uganda','Togo', 'Gambia',selected=c('Burkina Faso','Cote d'Ivoire','Kamerun','Äquatorialguinea','Sambia','Tansania','Sudan','Uganda','Togo'))
8. Führen Sie die App aus. Der neue Metadateneintrag sollte als nicht ausgewähltes Kontrollkästchen unter der entsprechenden Überschrift angezeigt werden. Wenn der Benutzer möchte, dass er ausgewählt wird, sollte er nach dem selected=c(... hinzugefügt werden, wie unten gezeigt:
  checkboxGroupInput('CountryInput','Select Relevant Countries',c('Burkina Faso','Cote d'Ivoire','Cameroon','Äquatorialguinea','Sambia','Tanzania','Sudan','Uganda','Togo', 'Gambia',selected=c('Burkina Faso','Cote d'Ivoire','Kamerun','Äquatorialguinea','Zambia','Tansania','Sudan','Uganda','Togo', 'Gambia'))
9. Informationen zum Hinzufügen von Widerstands-Datasets, die nicht auf A-MEXP-2196 ausgeführt wurden, siehe Abschnitt 3.

3. Ändern von IR-TEx für die Verwendung mit verschiedenen Datensätzen

Verwendung auf mehreren Plattformen und Fortfahren mit fehlenden Daten
1. Um mit "0" in Datensätzen fortzufahren: Konsultieren Sie die Dataset-Quelle für die spezifische Bedeutung von "0". Es wird empfohlen, dass "0" (konservativ) durch "NA" ersetzt wird. Wie bei rohen Faltenänderungen (B/A) zeigt "0" ein unentdecktes Signal im experimentellen Zustand B an. Für den Fall, dass die experimentelle Bedingung A einen wesentlichen Ausdruck aufweist, kann der Benutzer einen kleinen Faltänderungswert anwenden.
2. Öffnen Sie Zusätzliche Datei 2.txt, eine RNAseq-Datei, die von Uyhelji et al.⁹angepasst wurde. Diese Datei stellt die Vorlage dar, in der neue Daten basieren sollen: Spalte A = Bezeichner, Spalte B = Rohfaltenänderung und Spalte C = angepasster p-Wert. Verwenden Sie diese Datei, um die folgenden Schritte auszuführen.
3. Führen Sie den R-Code aus, um Bezeichner in einer einzelnen Datei mit Tabstopps über Plattformen hinweg abzugleichen, und organisieren und normalisieren Sie dann die Daten (Ergänzende Codierungsdatei 2). Anweisungen sind in der Datei enthalten. Jeder FILEPATH wird durch "/" für MacOS oder "*" für Windows getrennt (ändern Sie diese von "-", wie sie erscheinen).
4. Geben Sie die am Ende der Supplemental Coding File 2 produzierte Datei an einen Speicherort der Wahl für die Verwendung in Schritt 3.1.5 aus. Die zusätzliche Codierungsdatei 2 gibt eine neue datei Fold_Changes.txt aus. Sichern Sie die Originaldatei.
5. Führen Sie den Code aus, der in der ergänzenden Codierungsdatei 3enthalten ist. Suchen Sie die Ausgabedatei mit dem Namen FC_distribPlot.png in dem als FILEPATHangegebenen Ordner . Überprüfen Sie die Verteilungen der_{Protokoll-2-Falzänderung,} um sicherzustellen, dass die Protokoll-2-Falzänderungsverteilungen in den Datasets nahezu identisch sind.
6. Befolgen Sie die Anweisungen aus Schritt 2.2.6, um zusätzliche Dateien zu bearbeiten und die Kompatibilität des neuen Fold_Changes.txt sicherzustellen.
Ändern von IR-TEx für die Verwendung mit völlig neuen Datensätzen
1. Öffnen Sie IR-TEx.R in RStudio und suchen Sie die Zeilen (23–34), beginnend mit:
  'tabPanel('
  und endet in:
  submitButton("Update View", icon("refresh"))
  ),
2. Ändern Sie die AGAP008212-RA in den folgenden Zeilen in ein Transkript von Interesse an den neuen Daten.
  textInput('textInput','Transcript ID',value='AGAP008212-RA'),
3. Suchen Sie die vier Optionen, die mit folgenden Optionen beginnen:
  checkboxGroupInput(
  Diese Optionen können geändert werden, um wichtige Metadaten darzustellen, nach denen der Benutzer die neuen Daten filtern möchte. In jedem Fall sollte der Benutzer die Select Relevant Countriesändern; Wählen Sie Belichtungsstatusaus; Wählen Sie Relevante Arten; und wählen Sie die Insektizidklasse als repräsentativ für die Daten aus (d. h. Gewebetyp auswählen; Wählen Sie Sex; Wählen Sie Age Bracket; Krankheitsstatus auswählen).
4. Identifizieren Sie die Metadaten, die dem Dataset zugeordnet sind, und geben Sie die vorhandenen Optionen unmittelbar nach dem ersten c('an. In jedem Fall werden die Optionen in Sprachmarkierungen enthalten und von der nächsten Auswahl durch ein Komma getrennt. Nach der endgültigen Auswahl sollte die Klammer geschlossen werden. Ein Beispiel für Select Disease Status ist:
  c('Infiziert', 'Nicht infiziert', 'Unbekannt')
5. Wählen Sie aus, welche dieser Metadaten beim Öffnen der App ausgewählt werden sollen. Diese können geändert werden, indem die Optionen nach selected=c('geändert werden. Ein Beispiel für Select Disease Status ist:
  selected=c('Infiziert', 'Nicht infiziert')
  Dadurch wird die App angewiesen, beim ersten Laden nur Datasets auszuwählen, die diesen Kriterien entsprechen.
6. Um eine neue Datentabelle zu erstellen, folgen Sie dem Layout in Fold_Changes.txt und den Anweisungen in Abschnitt 2. Ändern Sie die Metadaten in jede der in Schritt 3.2.4 beschriebenen Änderungen genau so, wie in den Code geschrieben (R berücksichtigt die Groß-/Kleinschreibung). In die Entgiftungsspalte, Eingabegennamen und in der Transkripttypspalte geben Sie Genbeschreibungen für jedes Transkript ein. Folgen Sie Abschnitt 3.2, wenn Sie neue Datasets hinzufügen.
7. Wenn die Zuordnung für die experimentellen Anforderungen nicht relevant ist, suchen Sie die folgenden Codezeilen, und platzieren Sie "A" vor:
  Linien 49-51:
  br(),br(),
  mitSpinner(plotOutput("Geographie")),
  textOutput('Geography_legend'),
  Linien 493 ab:
  output-Geographie <- renderPlot(-
  Bis Zeile 602 endet:
  Output-Geography_legend <- renderText(-
  paste("Significant Transcripts Only (p, as.expression("<="),"0.05): FC > 5 = Rot, FC > 1 = Bernstein, FC < 1 = Grün",sep="")
  })

Representative Results

Anhand der Fold_Changes.txt-Datei, die in IR-TEx enthalten ist, verglichen wir Transkripte, die signifikant differenziert in resistenten Anopheles-Coluzzii- und Anopheles-Gambiae-Datensätzen ausgedrückt wurden, mit anfälligen Kontrollen aus der Elfenbeinküste und Burkina Faso. Dies ergab 18 Transkripte von Interesse(Tabelle 1; diese Suche kann mit Excel, R oder anderen Programmen durchgeführt werden). Zwei davon, ein ATPase (AGAP006879) und a-crystallin (AGAP007160), wurden zuvor berichtet, wobei erstere eine signifikante Wirkung auf den Pyrethroidwiderstand¹hatten. Zusätzlich zu diesen beiden Transkripten waren zwei Entgiftungsprotokolle, GSTMS1 (FC₌ 1,95 und 1,85) und UGT306A2 (FC₌ 2,29 und 2,28) vorhanden.

qPCR-Validierung von zwei dieser Transkripte (GSTMS1, ein Entgiftungstranskript; und AGAP009110-RA, ein unbekanntes, mückenspezifisches Transkript, das eine Bindungsdomäne von -1,3-Glucan enthält) wurden wie zuvor beschrieben^{durchgeführt 1}. Die Analyse wurde mit Primer-Sets durchgeführt, die in Der zusätzlichen Datei 3 beschrieben sind, und zeigten, dass diese Transkripte in einer multiresistenten Population aus der Elfenbeinküste (Tiassalé) und einer anderen aus Burkina Faso (Banfora) im Vergleich zu dem laboranfälligen N'Gousso(Abbildung 4A) signifikant hochreguliert waren.

Da beide Transkripte eine signifikante Upregulation in jeder der resistenten Populationen zeigten, wurde RNAi-induzierter Knockdown an Mücken aus dem LSTM-Labor Tiassalé-Kolonie durchgeführt. Diese Kolonie stammt aus der Elfenbeinküste und ist resistent gegen alle wichtigen Klassen von Insektiziden, die in der öffentlichen Gesundheit verwendet werden, wie zuvor beschrieben¹^,¹⁰. Die Dämpfung der Expression von GSTMS1 führte zu einem signifikanten Anstieg (p = 0,021) der Sterblichkeit nach Deltamethrin-Exposition im Vergleich zu GFP-injizierten Kontrollen, was die Bedeutung dieses Transkripts im Pyrethroidresistenz(Abbildung 4B ) zeigt ( Abbildung 4B). Umgekehrt führte der AGAP009110-RA-Knockdown zu keiner signifikanten (p = 0,082) Veränderung der Sterblichkeit nach Exposition (Abbildung 4B).

GSTMS1 ist eine mikrosomale GST und eine von drei, die in A. gambiae Mücken gefunden werden¹¹. Obwohl Mitglieder der Epsilon- und Deltaklassen von GSTs zuvor in die Insektizidentgiftung¹²^,¹³^,¹⁴verwickelt waren, ist dies der erste Beweis für unser Wissen für eine Rolle mikrosomaler GSTs im Pyrethroidwiderstand¹⁵. Um die vermeintliche Funktion dieses Transkripts in Anopheles gambiae sl Mücken zu erforschen, wurden der Ausdruck und die Korrelation in IR-TEx identifiziert. GSTMS1 wurde in 20 von 21 Datensätzen, die für diese Arten verfügbar waren, mit Ausnahme von Bioko Island deutlich überexprimiert. An jedem Ort war die Überexpression weniger als fünffach im Vergleich zu den anfälligen Populationen(Abbildung 5).

Da mikrosomale GSTs weitgehend als potenzielle Insektizid-Entgifter ignoriert wurden, ist wenig über ihre Rolle bei der Insektizidresistenz^{bekannt 15}. Durch die Erforschung der Kokorrelation anderer Transkripte können vermeintliche Funktionen durch die Annahme einer Koregulierung oder beteiligung an denselben Wegen aufgeklärt werden. Um die Leistung im Korrelationsnetzwerk zu maximieren, wurden alle in IR-TEx vorhandenen Microarray-Datasets ausgewählt und ein |r| von >0,75 ausgewählt wurde. Tabelle 2 zeigt den Ausgang von IR-TEx.

Diese Transkripte sind in der Oxioreduktaseaktivität und dem Glukose-/Kohlenhydratstoffwechsel im funktionellen Anmerkungstool von DAVID^{angereichert 8}. Sowohl Glucose-6-Phosphat-Dehydrogenase als auch Cytathion-Gammalyase halten den Glutathionspiegel in den Säugetierzellen¹⁶^,¹⁷ aufrecht und verbinden sich somit direkt mit GSTMS1, einer Glutathion-S-Transferase. Catalase ist ein schnell wirkender oxidativer Stressresponder, der Zellen vor reaktiven Sauerstoffspezies schützt, ein Nebenprodukt der Pyrethroid-Exposition. Valacyclovir hydrolase ist eine Hydrolase, die eine Rolle bei der Entgiftung in Säugetierzellen¹⁸spielen kann. CYP4H17 ist auch im Korrelationsnetzwerk vorhanden. Cytochrom p450s sind direkte Metabolisierer von Pyrethroid-Insektiziden, und diese Abbauprodukte können durch GSTs weiter metabolisiert werden. Schließlich wurde CYP4H17 in Pyrethroidresistenz in A. funestus¹⁹verwickelt. Zusammengenommen unterstützen diese Daten eine Rolle für GSTMS1 bei der xenobiotischen Entgiftung.

Abbildung 1:_{Protokollieren} Sie die 2-fache Änderung von AGAP002865-RA in allen Datensätzen. Die x-Achse beschreibt die verschiedenen Datensätze, für die Informationen in der Ergänzenden Tabelle 1 in einer früheren Publikation¹zu finden sind, und die y-Achse zeigt die_2-fache Änderung des Protokolls von Interesse. Die hellgrauen gepunkteten Linien geben ungefähre Schwellenwerte für die Signifikanz an, die hier als Faltänderung von <0,8 oder Faltenänderung von >1,2 angenommen werden. Die gepunktete schwarze Linie zeigt eine Faltenänderung von 1 an (d. h. kein Unterschied im Ausdruck zwischen den resistenten und anfälligen Populationen). Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 2: Verteilung von Mikroarrays, die eine signifikante Differentialexpression von AGAP002865-RA in resistenten Populationen zeigen. Faltenänderungen werden in einem Ampelsystem dargestellt: Grüner Faltwechsel von <1, orangefarbene Falzänderung von >1 und rote Faltung von >5. Es werden nur Datensätze mit signifikantem (p-0,05) Differentialausdruck angezeigt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 3: Korrelationsnetze von AGAP001076-RA (CYP4G16). Paarweise Korrelationen werden über alle Transkripte in den 31 Mikroarray-Datasets berechnet, wobei ein benutzerdefinierter Cut-off angewendet wird. Hier gezeigt ist (A) |r| > 0,9 und (B) |r| > 0,8. Alle im Diagramm angezeigten Transkripte erfüllen dieses Kriterium und folgen den Ausdrucksänderungen von AGAP001076-RA. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 4: mRNA-Expression und Phänotyp bei Dämpfung von GSTMS1 und AGAP009110-RA. (A) mRNA-Expression von GSTMS1 und AGAP009110-RA in zwei multiresistenten An. coluzzii-Populationen aus der Elfenbeinküste bzw. Burkina Faso. Die Konzentrationen wurden mit dem laboranfälligen An. coluzzii N'Gousso verglichen. Signifikanzniveaus, die von ANOVA mit einem Post-hoc-Dunnett-Test berechnet werden. (B) RNAi-induzierte Dämpfung beider Transkripte im Vergleich zu GFP-injizierten Kontrollen. Die GSTMS1-Dämpfung zeigt einen signifikanten Anstieg der Sterblichkeit nach Deltamethrin-Exposition (berechnet von ANOVA mit einem Post-hoc-Tukey-Test; *p - 0,05, **p - 0,01). Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 5: Ausdruck von GSTMS1 in Anopheles gambiae und Anopheles coluzzii Populationen. Karte mit dem signifikant differenziellen Ausdruck von GSTMS1 in verfügbaren Mikroarray-Datasets. Es wurde festgestellt, dass GSTMS1 in 20 von 21 Mikroarray-Datensätzen signifikant unterschiedlich ist. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Transkript-ID	Beschreibung	Burkina Faso	Elfenbeinküste
AGAP006879-RA	Atpase	27.94	43.05
AGAP007160-RB	a-Kristallin	11.49	10.58
AGAP007160-RC	a-Kristallin	11.14	10.38
AGAP007160-RA	a-Kristallin	9.78	9.84
AGAP009110-RA	Unbekannt	9.26	5.96
AGAP007780-RA	NADH-Dehydrogenase	10.49	3.77
AGAP006383-RA	Oligosaccharyltransferase komplexe Untereinheit Beta	3.69	5.57
AGAP007249-RB	Flightin	4.61	3.86
AGAP003357-RA	RAG1-aktivierendes Protein 1-ähnliches Protein	4.31	4.05
AGAP007249-RA	Flightin	4.48	3.46
AGAP001998-RA	mRpS10	3.46	2.85
AGAP007589-RA	UGT306A2	2.29	2.28
AGAP000165-RA	GSTMS1	1.95	1.85
AGAP002101-RA	Isoleucyl-tRNA-Synthetase	0.57	0.59
AGAP002969-RA	Asparaginyl-tRNA-Synthetase	0.45	0.45
AGAP004199-RA	Solute Trägerfamilie 5 (Natriumgekoppelter Monocarboxylattransporter), Mitglied 8	0.35	0.48
AGAP004684-RA	rRNA-verarbeitendes Protein CGR1	0.36	0.22
AGAP006414-RA	Cht8	0.024	0.36

Tabelle 1: Transkripte, die in der gleichen Faltrichtung in der gleichen Richtung in der Bevölkerung von Burkina Faso und der Elfenbeinküste erheblich unterschiedlich sind. Transkript-ID, Genbeschreibung und durchschnittliche Faltenänderung für jeden Datensatz aus den beiden Ländern, die An. coluzzii und An. gambiae Populationen darstellen.

Korrelation	Systematischer Name	Transkriptstyp
1	AGAP000165-RA	GSTMS1
0.82	AGAP004904-RA	Katalase
0.76	AGAP007243-RA	26S Protease regulatorische Untereinheit 8
0.79	AGAP008358-RA	CYP4H17
0.76	AGAP009436-RA	Valacyclovirhydrolase
0.75	AGAP010739-RA	Glucose-6-Phosphat 1-Dehydrogenase
0.85	AGAP011172-RA	Cystathionin-Gammalyase
0.76	AGAP012678-RA	Glucose-6-Phosphat 1-Dehydrogenase

Tabelle 2: Transkripte, die mit GSTMS1kokorreliert sind. Die Tabelle zeigt die Ausgabe des Korrelationsnetzwerks für GSTMS1 auf IR-TEx mit |r| von >0,75. Die Tabelle zeigt die Korrelation, die Transkript-ID und die Genbeschreibung des Spearman für jedes cokorrelierte Transkript.

Zusätzliche Datei 1: Ausgabedatei aus dem A-MEXP-2196-Array, das auf limma analysiert wurde. Die Datei stammt aus einem Met-Knockdown im Vergleich zu einem GFP-Steuerelementarray, das in ArrayExpress (E-MTAB-4043) und einer anderen früheren Publikation¹ausführlicher beschrieben wird. Spalten stehen für AGAP-Bezeichner (SystematicName), Protokollfaltungsänderung (logFC), Log-Ausdruckswerte (AveExpr), t-Statistik (t), unkorrigierter p-Wert (P.Value), angepasster p-Wert (adj. P.Val) und B-Statistik (B)²⁰. Für die Zwecke dieser Datei sind die Mücken Anopheles coluzzi aus der Elfenbeinküste und sind nicht inSektiziden ausgesetzt, mit einer Sammelbreite und Längengrad von -5,4 bzw. 6,0. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Zusätzliche Datei 2: Ausgabedatei aus RNAseq experiment. RNAseq-Analyse von Uyhelji et al.⁹ beschreibt Veränderungen im Transkriptom der Anopheles-Mücken, wenn sie 50% Salzgehalt ausgesetzt sind. Diese Datei ist aus Tabelle S2 der Publikation angepasst und enthält AGAP-Bezeichner (SystematicID), Rohfaltenänderung (Fold_Change) und angepassten p-Wert (q_value). Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Zusätzliche Datei 3: Primer-Liste für repräsentative Ergebnisse. AGAP-Identifikator, Genname, dsRNA-Forward, dsRNA reverse, qPCR forward und qPCR-Reverseprimer-Sets für jedes Transkript. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Ergänzende Codierung Datei 1. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Ergänzende Codierung Datei 2. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Ergänzende Codierung Datei 3. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Discussion

Big Data Transkriptomics erstellt Listen von Tausenden von Transkripten, die für jede experimentelle Bedingung differenziell ausgedrückt werden. Viele dieser Experimente werden an verwandten Organismen und Phänotypen durchgeführt und fast ausschließlich als unabhängige Experimente analysiert. Die Nutzung dieser umfangreichen Datenquellen durch ganzheitliche Und ohne theoretische Annahmen untersuchte Daten wird 1) zur Identifizierung neuer Kandidatentranskripte führen und 2) das Verwerfen wertvoller Daten verhindern, nur weil es zu viele Informationen gibt, um in vivo¹zu validieren.

IR-TEx bietet Benutzern einen begrenzten Bioinformatik-Hintergrund mit der Möglichkeit, mehrere Datasets einfach zu untersuchen, Änderungen in den Datasets zu visualisieren und die zugehörigen Informationen herunterzuladen¹. Obwohl IR-TEx die Suche nach mehr als einem Transkript in jeder Suche nicht unterstützt, können Benutzer die zugehörigen Fold_Changes.txt-Dateien einfach mithilfe von Excel, R oder anderen geeigneten Programmen untersuchen. Ein weiterer Nutzen von IR-TEx ergibt sich aus der Verwendung von Korrelationsnetzwerken zur Vorhersage der Transkriptfunktion, der Eingabe hypothetischer Proteine oder Transkripte mit unbekannten Funktionen und dem Einsatz nachgeschalteter Software zur Suche nach Anreicherungen¹.

In dem in diesem Protokoll gezeigten Beispiel wird IR-TEx entsprechend seiner ursprünglichen Funktion verwendet. Hier ermöglicht es die Erforschung von Transkripten im Zusammenhang mit Insektizidresistenz und Visualisierung der Verteilung von Über- und Unterausdruck durch Mapping-Grafiken. Transkripte von Interesse werden in vivo validiert, um festzustellen, ob die Über- oder Unterexpression bestimmter Transkripte zu einem beobachteten Phänotyp¹ beiträgt (z. B. Insektizidresistenz). Wie bereits berichtet¹, wurde hier gezeigt, dass ein Datensatz in einem hypothesengesteuerten Ansatz verwendet werden kann, um transkriptionsbezogene Transkripte auf länderspezifischer Basis zu identifizieren. IR-TEx kann dann verwendet werden, um den Ausdruck des Transkripts zu untersuchen und 2) die Funktion des Transkripts zu kontextualisieren, indem ein paarweises Korrelationsnetzwerk auf alle Transkripte angewendet wird, die in jedem -omics-Dataset enthalten sind. Hier wurde gezeigt, dass GSTMS1 mit einer Reihe anderer Transkripte, die an der Entgiftung beteiligt waren, kokorreliert ist. Diese Daten (zusammen mit dem Abschlag der Abschrift, die zu einem signifikanten Anstieg der Sterblichkeit nach einer Exposition durch Insektizide führte) zeigen die Bedeutung dieses Transkripts in der xenobiotischen Clearance.

IR-TEx stellt eine wertvolle Ressource für die Erforschung von Transkripten im Zusammenhang mit Insektiziden im Internet oder mit lokalen Anwendungen dar. Dieses Protokoll zeigt, wie IR-TEx für verschiedene -omics-Plattformen sowie völlig neue Daten geändert werden kann. Das Handbuch veranschaulicht, wie IR-TEx verwendet wird, um Daten von mehreren -omics-Plattformen und Datensätzen mit fehlenden Daten zu integrieren, sowie wie IR-TEx einfach umcodiert werden kann, sodass es für jeden nützlich ist, der Transkriptomik-Datensätze erforscht.

Disclosures

Die Autoren haben nichts zu verraten.

Acknowledgments

Diese Arbeit wurde durch ein MRC Skills Development Fellowship an V.I. (MR/R024839/1) und Royal Society Challenge Grant (CH160059) an H.R. finanziert.

Materials

Name	Company	Catalog Number	Comments
Laptop with browser	Any	-	-
R Program	The R Project for Statistical Computing	-	https://www.r-project.org/
R Studio	R Studio	-	https://www.rstudio.com/