Enpartikelanalys i kryoelektronmikroskopi är en av de viktigaste teknikerna som används för att bestämma strukturen hos biologiska ensembler med hög upplösning. Scipion ger verktygen för att skapa hela rörledningen för att bearbeta den information som erhållits av mikroskopet och uppnå en 3D-rekonstruktion av det biologiska provet.
Kryoelektronmikroskopi har blivit ett av de viktigaste verktygen inom biologisk forskning för att avslöja den strukturella informationen om makromolekyler vid nära atomisk upplösning. I en partikelanalys avbildas det för vitrifierade provet av en elektronstråle och detektorerna i slutet av mikroskopkolonnen producerar filmer av det provet. Dessa filmer innehåller tusentals bilder av identiska partiklar i slumpmässiga orienteringar. Data måste gå igenom ett arbetsflöde för bild bearbetning med flera steg för att få den slutliga 3D-rekonstruerade volymen. Målet med bildbehandlingsarbetsflödet är att identifiera förvärvsparametrarna för att kunna rekonstruera det prov som studeras. Scipion tillhandahåller alla verktyg för att skapa det här arbetsflödet med flera bildbehandlingspaket i ett integrerande ramverk, vilket också möjliggör spårbarhet av resultaten. I den här artikeln presenteras hela bildbehandlingsarbetsflödet i Scipion och diskuteras med data som kommer från ett riktigt testfall, vilket ger alla detaljer som behövs för att gå från filmerna som erhålls av mikroskopet till en högupplöst slutlig 3D-rekonstruktion. Dessutom diskuteras kraften i att använda konsensusverktyg som gör det möjligt att kombinera metoder och bekräfta resultat längs varje steg i arbetsflödet, förbättra noggrannheten i de erhållna resultaten.
I kryoelektronmikroskopi (cryo-EM) är enstaka partikelanalys (SPA) av vitrifierade frysta hydratiserade exemplar en av de mest använda och framgångsrika varianterna av avbildning för biologiska makromolekyler, eftersom det gör det möjligt att förstå molekylära interaktioner och funktionen hos biologiska ensembler1. Detta är tack vare de senaste framstegen inom denna bildteknik som gav upphov till “upplösningsrevolutionen”2 och har möjliggjort framgångsrik bestämning av biologiska 3D-strukturer med nära atomupplösning. För närvarande var den högsta upplösningen i SPA cryo-EM 1,15 Å för apoferritin3 (EMDB-post: 11668). Dessa tekniska framsteg omfattar förbättringar i provberedningen4, bildförvärvet5 och bildbehandlingsmetoderna6. Den här artikeln fokuserar på den sista punkten.
Kortfattat är målet med bildbehandlingsmetoderna att identifiera alla förvärvsparametrar för att invertera mikroskopets avbildningsprocess och återställa 3D-strukturen hos det biologiska exemplaret som studeras. Dessa parametrar är kamerans vinst, den strålinducerade rörelsen, mikroskopets avvikelser (främst defokuseringen), 3D-vinkelorienteringen och översättningen av varje partikel och konformationstillståndet vid ett prov med konformationella förändringar. Antalet parametrar är dock mycket högt och cryo-EM kräver att man använder lågdosbilder för att undvika strålningsskador, vilket avsevärt minskar signal-till-brusförhållandet (SNR) för de förvärvade bilderna. Problemet kan således inte lösas entydigt och alla parametrar som endast ska beräknas kan uppskattas. Längs arbetsflödet för bild bearbetning bör rätt parametrar identifieras och ignorera de återstående för att slutligen få en högupplöst 3D-rekonstruktion.
De data som genereras av mikroskopet samlas in i ramar. Förenkla, en ram innehåller antalet elektroner som har kommit till en viss position (pixel) i bilden, när elektronräkningsdetektorer används. I ett visst synfält samlas flera bildrutor in och detta kallas en film. Eftersom låga elektrondoser används för att undvika strålningsskador som kan förstöra provet är SNR mycket låg och ramarna som motsvarar samma film måste vara genomsnittliga för att få en bild som avslöjar strukturell information om provet. Men inte bara ett enkelt medelvärde tillämpas, provet kan drabbas av skift och andra typer av rörelser under avbildningstiden på grund av den strålinducerade rörelsen som behöver kompenseras. De skiftkompenserade och genomsnittliga bildrutorna har en mikrograf.
När mikrograferna har erhållits måste vi uppskatta de avvikelser som mikroskopet introducerar för var och en av dem, kallad Kontrastöverföringsfunktion (CTF), som representerar förändringarna i kontrasten av mikrografen som en funktion av frekvens. Sedan kan partiklarna väljas och extraheras, vilket kallas partikelplockning. Varje partikel bör vara en liten bild som endast innehåller en kopia av det prov som studeras. Det finns tre familjer av algoritmer för partikelplockning: 1) de som bara använder någon grundläggande parameterisering av partikelns utseende för att hitta dem i hela uppsättningen mikrografer (t.ex. partikelstorlek), 2) de som lär sig hur partiklarna ser ut från användaren eller en förtränad uppsättning, och 3) de som använder bildmallar. Varje familj har olika egenskaper som kommer att visas senare.
Den extraherade uppsättningen partiklar som finns i mikrograferna kommer att användas i en 2D-klassificeringsprocess som har två mål: 1) rengöring av uppsättningen partiklar genom att kassera delmängden som innehåller rena brusbilder, överlappande partiklar eller andra artefakter, och 2) de genomsnittliga partiklarna som representerar varje klass kan användas som initial information för att beräkna en 3D-initial volym.
Den inledande 3D-volymberäkningen är nästa avgörande steg. Problemet med att få 3D-strukturen kan ses som ett optimeringsproblem i ett flerdimensionellt lösningslandskap, där det globala minimumet är den bästa 3D-volymen som representerar den ursprungliga strukturen, men flera lokala minima som representerar suboptimala lösningar kan hittas och där det är mycket lätt att fastna. Den ursprungliga volymen representerar utgångspunkten för sökprocessen, så dålig initial volymuppskattning kan hindra oss från att hitta det globala minimivärdet. Från den ursprungliga volymen hjälper ett 3D-klassificeringssteg till att upptäcka olika konformationstillstånd och rengöra igen uppsättningen partiklar; målet är att få en strukturellt homogen population av partiklar. Därefter kommer ett 3D-förfiningssteg att ansvara för att förfina vinkel- och översättningsparametrarna för varje partikel för att få bästa möjliga 3D-volym.
Slutligen, i de sista stegen, kan den erhållna 3D-rekonstruktionen slipas och poleras. Slipning är en process för att öka de höga frekvenserna av den rekonstruerade volymen, och poleringen är ett steg för att ytterligare förfina vissa parametrar, som CTF eller strålinducerad rörelsekompensation, på partikelnivå. Vissa valideringsprocedurer kan också användas för att bättre förstå den uppnådda lösningen i slutet av arbetsflödet.
Efter alla dessa steg kommer spårnings- och dockningsprocesserna7 att bidra till att ge en biologisk mening till den erhållna 3D-rekonstruktionen, genom att bygga atommodeller de novo eller montera befintliga modeller. Om hög upplösning uppnås kommer dessa processer att berätta för oss positionerna för de biologiska strukturerna, även för de olika atomerna, i vår struktur.
Scipion8 gör det möjligt att skapa hela arbetsflödet som kombinerar de mest relevanta bildbehandlingspaketen på ett integrerande sätt. Xmipp9, Relion10, CryoSPARC11, Eman12, Spider13, Cryolo14, Ctffind15, CCP416, Phenix17 och många fler paket kan inkluderas i Scipion. Dessutom innehåller det alla nödvändiga verktyg för att gynna integrationen, interoperabiliteten, spårbarheten och reproducerbarheten för att göra en fullständig spårning av hela bildbehandlingsarbetsflödet8.
Ett av de mest kraftfulla verktygen som Scipion tillåter oss att använda är konsensus, vilket innebär att jämföra resultaten som erhållits med flera metoder i ett steg av bearbetningen, vilket gör en kombination av den information som förmedlas av olika metoder för att generera en mer exakt utgång. Detta kan bidra till att öka prestandan och förbättra den uppnådda kvaliteten i de uppskattade parametrarna. Observera att ett enklare arbetsflöde kan byggas utan att använda konsensusmetoder. Vi har dock sett kraften i detta verktyg22,25 och arbetsflödet som presenteras i detta manuskript kommer att använda det i flera steg.
Alla steg som har sammanfattats i föregående stycken kommer att förklaras i detalj i följande avsnitt och kombineras i ett komplett arbetsflöde med hjälp av Scipion. Dessutom kommer hur man använder konsensusverktygen för att uppnå en högre överenskommelse om de genererade utgångarna att visas. I detta syfte har exempeldatauppsättningen för Plasmodium falciparum 80S Ribosome valts (EMPIAR-post: 10028, EMDB-post: 2660). Datasetet består av 600 filmer med 16 bildrutor i storlek 4096×4096 pixlar med en pixelstorlek på 1,34Å tagna vid en FEI POLARA 300 med en FEI FALCON II-kamera, med en rapporterad upplösning på EMDB är 3,2Å18 .
För närvarande är cryo-EM ett viktigt verktyg för att avslöja 3D-strukturen hos biologiska prover. När bra data samlas in med mikroskopet kommer de tillgängliga bearbetningsverktygen att göra det möjligt för oss att få en 3D-rekonstruktion av makromolekylen som studeras. Cryo-EM databehandling kan uppnå nära atomisk upplösning, vilket är nyckeln till att förstå det funktionella beteendet hos en makromolekyl och är också avgörande för läkemedelsupptäckt.
Scipion är en programvara som gör det möjligt att skapa hela arbetsflödet som kombinerar de mest relevanta bildbehandlingspaketen på ett integrerande sätt, vilket hjälper spårbarheten och reproducerbarheten för hela bildbehandlingsarbetsflödet. Scipion ger en mycket komplett uppsättning verktyg för att utföra behandlingen; Att få högupplösta rekonstruktioner beror dock helt på kvaliteten på de förvärvade uppgifterna och hur dessa uppgifter behandlas.
För att få en högupplöst 3D-rekonstruktion är det första kravet att få bra filmer från mikroskopet, som bevarar strukturell information till hög upplösning. Om så inte är fallet kommer arbetsflödet inte att kunna extrahera högupplöst information från data. Sedan bör ett framgångsrikt bearbetningsarbetsflöde kunna extrahera partiklar som verkligen motsvarar strukturen och hitta orienteringarna för dessa partiklar i 3D-utrymmet. Om något av stegen i arbetsflödet misslyckas försämras kvaliteten på den rekonstruerade volymen. Scipion gör det möjligt att använda olika paket i något av bearbetningsstegen, vilket hjälper till att hitta det lämpligaste tillvägagångssättet för att bearbeta data. Tack vare att det finns många paket tillgängliga kan dessutom konsensusverktyg som ökar noggrannheten genom att nå en överenskommelse om de uppskattade resultaten av olika metoder användas. Det har också diskuterats i detalj i avsnittet Representativa resultat flera valideringsverktyg och hur man identifierar korrekta och felaktiga resultat i varje steg i arbetsflödet, för att upptäcka potentiella problem och hur man försöker lösa dem. Det finns flera kontroll punkter längs protokollet som kan hjälpa till att inse om protokollet körs korrekt eller inte. Några av de mest relevanta är: plockning, 2D-klassificering, inledande volymuppskattning och 3D-justering. Att kontrollera indata, upprepa steget med en annan metod eller använda konsensus är alternativ som är tillgängliga i Scipion som användaren kan använda för att hitta lösningar när problem uppstår.
När det gäller tidigare metoder för paketintegration inom Cryo-EM-området är Appion31 den enda som möjliggör verklig integration av olika programvarupaket. Appion är dock tätt förknippat med Leginon32, ett system för automatiserad insamling av bilder från elektronmikroskop. Den största skillnaden med Scipion är att datamodellen och lagringen är mindre kopplade. På ett sådant sätt, för att skapa ett nytt protokoll i Scipion, behöver endast ett Python-skript utvecklas. Men i Appion måste utvecklaren skriva skriptet och ändra den underliggande databasen. Sammanfattningsvis utvecklades Scipion för att förenkla underhåll och utökningsbarhet.
Vi har i detta manuskript presenterat ett komplett arbetsflöde för Cryo-EM-bearbetning, med hjälp av den verkliga falldatauppsättningen för Plasmodium falciparum 80S Ribosome (EMPIAR-post: 10028, EMDB-post: 2660). Stegen som behandlas och diskuteras här kan sammanfattas som filmjustering, CTF-uppskattning, partikelplockning, 2D-klassificering, inledande kartuppskattning, 3D-klassificering, 3D-förfining, utvärdering och efterbehandling. Olika paket har använts och konsensusverktyg har tillämpats i flera av dessa steg. Den slutliga 3D-rekonstruerade volymen uppnådde en upplösning på 3 Å och i den efterbehandlade volymen kan vissa sekundära strukturer särskiljas, som alfa-spiraler, vilket hjälper till att beskriva hur atomer är ordnade i rymden.
Arbetsflödet som presenteras i detta manuskript visar hur Scipion kan användas för att kombinera olika Cryo-EM-paket på ett enkelt och integrerande sätt för att förenkla behandlingen och samtidigt få ett mer tillförlitligt resultat.
I framtiden kommer utvecklingen av nya metoder och paket att fortsätta växa och programvara som Scipion för att enkelt integrera dem alla kommer att bli ännu viktigare för forskarna. Konsensusstrategier kommer att vara mer relevanta även då, när det kommer att finnas gott om metoder med olika grund, vilket bidrar till att få mer exakta uppskattningar av alla parametrar som ingår i återuppbyggnadsprocessen i Cryo-EM. Spårning och reproducerbarhet är nyckeln i forskningsprocessen och lättare att uppnå med Scipion tack vare att ha ett gemensamt ramverk för utförande av kompletta arbetsflöden.
The authors have nothing to disclose.
Författarna vill erkänna ekonomiskt stöd från: Det spanska ministeriet för vetenskap och innovation genom bidrag: PID2019-104757RB-I00/AEI/10.13039/501100011033, “Comunidad Autónoma de Madrid” genom bidrag: S2017/BMD-3817, Instituto de Salud Carlos III, PT17/0009/0010 (ISCIII-SGEFI/ERUF), Europeiska unionen (EU) och Horisont 2020 genom bidrag: INSTRUCT – ULTRA (INFRADEV-03-2016-2017, förslag: 731005), EOSC Life 824087), iNEXT – Discovery (Förslag: 871037) och HighResCells (ERC – 2018 – SyG, Förslag: 810057). Projektet som gav upphov till dessa resultat fick stöd av ett stipendium från “la Caixa” Foundation (ID 100010434). Stipendiekoden är LCF/BQ/DI18/11660021. Detta projekt har fått finansiering från EUROPEISKA unionens forsknings- och innovationsprogram Horisont 2020 inom ramen för Marie Skłodowska-Curie-stipendieavtalet nr 713673. Författarna erkänner stödet och användningen av resurser i Instruct, ett Landmärke ESFRI-projekt.