Befintliga algoritmer generera en lösning för en biomarkör identifiering datamängd. Detta protokoll visar förekomsten av flera liknande effektiva lösningar och presenterar ett användarvänligt program för att hjälpa biomedicinsk forskare undersöka deras datamängder för de föreslagna utmaningen. Datavetare kan också tillhandahålla den här funktionen i deras biomarkör detekteringsalgoritmer.
Biomarkör identifiering är en av de mer viktiga biomedicinska frågorna för high-throughput ”omics’ forskare, och nästan alla befintliga biomarkör detekteringsalgoritmer generera en biomarkör delmängd med optimerad prestanda mätningen för en given datamängd . En nyligen genomförd studie visade dock förekomsten av flera biomarkör grupper med lika effektiva eller till och med identiska klassificering föreställningar. Detta protokoll presenterar en enkel och okomplicerad metod för att upptäcka biomarkörer undergrupper med binär klassificering föreställningar, bättre än en användardefinierad cutoff. Protokollet består av dataförberedelse och lastning, baseline information sammanfattning, parametern tuning, biomarkör screening, resultatet visualisering och tolkning, biomarkör gen anteckningar och resultatet och visualisering export på publikationen kvalitet. Den föreslagna biomarkör screening strategi är intuitivt och visar en allmän regel för att utveckla detekteringsalgoritmer biomarkör. Ett användarvänligt grafiskt användargränssnitt (GUI) utvecklades med programmeringsspråket Python, så att biomedicinska forskare ha direkt tillgång till deras resultat. Källa koden och handbok av kSolutionVis kan laddas ner från http://www.healthinformaticslab.org/supp/resources.php.
Binär klassificering, en av de vanligaste utreds och utmanande datautvinning problem i det biomedicinska området, används för att bygga en klassificering modell utbildade på två grupper av prover med den mest exakta diskriminering power1, 2 , 3 , 4 , 5 , 6 , 7. men de stora data som genereras i det biomedicinska området har inneboende ”stora p liten n” paradigm, med många funktioner som är oftast mycket större än antalet prover6,8,9. Därför har biomedicinska forskare att minska dimensionen funktion före utnyttja klassificering algoritmer för att undvika de overfitting problem8,9. Diagnos biomarkörer definieras som en delmängd av upptäckta funktioner skiljer patienter av en viss sjukdom från friska kontroll prover10,11. Patienter definieras ofta som de positiva proverna och de friska kontrollerna definieras som den negativa prover12.
Nyligen genomförda studier har föreslagit att det finns mer än en lösning med identisk eller lika effektiv klassificering föreställningar för en biomedicinsk datamängden5. Nästan alla funktionen urval algoritmer är deterministiska algoritmer, producerar bara en lösning för samma datamängd. Genetiska algoritmer kan samtidigt generera flera lösningar med liknande föreställningar, men de försöker fortfarande att välja en lösning med bästa fitness-funktionen som utdata för en given datamängd13,14.
Funktionen urval algoritmer kan grovt grupperas som antingen filter eller wrappers12. Ett filter algoritmen väljer top –k funktioner rankas av deras betydande enskilda association med binära klass etiketter baserat på antagandet att har är oberoende av varandra15,16,17 . Även om detta antagande inte håller sant för nästan alla verkliga datamängder, presterar den heuristiska filterregeln bra i många fall, exempelvis mRMR (Minimum redundans och maximal relevans) algoritm, Wilcoxon test baserat funktionen filtrering (WRank) algoritmen och ROC (mottagare operativa kännetecken) tomten baserat filtrering (ROCRank) algoritm. mRMR, är en effektiv filter algoritm eftersom det efterliknar kombinatoriska uppskattning problemet med en rad mycket mindre problem, jämfört med max-beroende funktionen urval algoritm, som alla innebär endast två variabler, och Därför använder parvisa joint sannolikheter som är mer robust18,19. MRMR kan emellertid underskatta nyttan av vissa funktioner som den inte mäter samspelet mellan funktioner som kan öka relevans, och därmed missar några funktion kombinationer som är individuellt värdelös men är användbara endast när de sammanställts. WRank algoritmen beräknar en icke-parametrisk poäng av hur diskriminerande en funktion är mellan två klasser av prover, och är känd för sin robusthet för extremvärden20,21. Dessutom utvärderar ROCRank algoritmen hur betydelsefullt område Under the ROC kurva (AUC) för en viss funktion är för den undersökta binära klassificering prestanda22,23.
Däremot, en wrapper utvärderar fördefinierade klassificerarens prestanda för en viss funktion delmängd, iterativt genereras av heuristisk regel och skapar delmängden funktion på bästa prestanda mätning24. En wrapper i allmänhet överträffar ett filter i klassificering prestanda men körs långsammare25. Reglerats Random Forest (RRF)26,27 algoritmen använder till exempel en girig regel, genom att utvärdera funktionerna på en delmängd av utbildning data på varje random forest nod, vars funktion betydelse noter utvärderas av Gini-indexet . Valet av en ny funktion kommer att straffas om sin information vinst inte förbättras av valda funktioner. Dessutom förutsägelse analysen för Microarrays (PAM)28,29 algoritm, också en wrapper algoritm, beräknar en centroiden för varje klass etiketterna och väljer sedan funktioner krympa de genen centroids mot totalt klass centroiden. PAM är robusta för perifera funktioner.
Flera lösningar med högsta klassificering prestanda kan vara nödvändigt för någon given datamängd. För det första definieras optimering målet av en deterministisk algoritm av en matematisk formel, t.ex., minsta fel hastighet30, som inte är nödvändigtvis idealiska för biologiska prover. För det andra kan en datamängd ha flera, betydligt olika, lösningar med liknande effektiva eller till och med identiska föreställningar. Nästan alla befintliga funktionen urval algoritmer väljer slumpmässigt en av dessa lösningar som utgång31.
Denna studie kommer att införa ett informatik analytiska protokoll för att generera flera funktionen urval lösningar med liknande föreställningar för någon viss binär klassificering datamängd. Med tanke på att de flesta biomedicinska forskare inte är bekant med datoriserad teknik eller datorn kodning, utvecklades ett användarvänligt grafiskt användargränssnitt (GUI) för att underlätta snabba analysen av biomedicinska binär klassificering datamängder. Analytic protokollet består av data lastning och sammanfatta, parametern tuning, pipeline utförande och resultat tolkningar. Med ett enkelt klick är forskaren kunna generera biomarkör delmängder och publikation-kvalitet visualisering tomter. Protokollet har testats med hjälp av transcriptomes av två binär klassificering datamängder av akut lymfoblastisk leukemi (ALL), dvs, hela1 och alla212. Datamängderna hela1 och alla2 hämtades från Broad Institute genomet Data analys Center, finns på http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. Hela1 innehåller 128 prover med 12,625 funktioner. Av dessa prover, 95 är B-cell är alla och 33 T-cell alla. Alla2 innehåller 100 prover med 12,625 funktioner samt. Av dessa prover finns det 65 patienter som drabbades av återfall och 35 patienter som inte gjorde. Hela1 var en lätt binär klassificering datamängd, med en minsta noggrannhet av fyra filter och fyra wrappers 96,7%, och 6 av de 8 funktion urval algoritmer att uppnå 100%12. Medan alla2 var en svårare datamängd, med ovanstående 8 funktionen urval algoritmer att uppnå bättre än 83,7% noggrannhet12. Denna bästa noggrannhet uppnåddes med 56 funktioner identifieras av wrapper algoritm, korrelation-baserade funktionen urval (CFS).
Denna studie presenterar ett lätt att följa flera lösning biomarkör identifiering och karakterisering protokoll för en användarspecificerad binär klassificering datamängd. Programmet sätter fokus på användarvänlighet och flexibla import och export gränssnitt för olika filformat, så att en biomedicinsk forskare att undersöka deras dataset som enkelt använda GUI av programvaran. Denna studie betonar också nödvändigheten av att generera mer än en lösning med likaså effektiv modellering föreställning…
The authors have nothing to disclose.
Detta arbete stöds av prioriterade strategiska forskningsprogrammet av Chinese Academy of Sciences (XDB13040400) och start bidraget från Jilin University. Anonyma recensioner och biomedicinsk tester användare uppskattades för deras konstruktiva kommentarer på förbättrad användbarhet och funktionalitet i kSolutionVis.
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |