Nyheter - Mikrobiell metaproteomik: från provbearbetning, datainsamling till dataanalys

Wu Enhui, Qiao Liang*

Institutionen för kemi, Fudan University, Shanghai 200433, Kina

Mikroorganismer är nära besläktade med mänskliga sjukdomar och hälsa. Hur man förstår sammansättningen av mikrobiella samhällen och deras funktioner är en viktig fråga som måste studeras snarast. På senare år har metaproteomik blivit ett viktigt tekniskt sätt att studera mikroorganismers sammansättning och funktion. Men på grund av komplexiteten och den höga heterogeniteten hos mikrobiella gemenskapsprover, har provbearbetning, masspektrometridatainsamling och dataanalys blivit de tre stora utmaningarna som för närvarande står inför metaproteomik. I metaproteomikanalys är det ofta nödvändigt att optimera förbehandlingen av olika typer av prover och använda olika mikrobiella separations-, anriknings-, extraktions- och lysscheman. I likhet med proteomet för en enskild art inkluderar masspektrometridatainsamlingslägena i metaproteomik databeroende förvärvsläge (DDA) och dataoberoende förvärvsläge (DIA). DIA-datainsamlingsläget kan helt samla in peptidinformationen från provet och har stor utvecklingspotential. Men på grund av komplexiteten hos metaproteomprover har dess DIA-dataanalys blivit ett stort problem som hindrar den djupa täckningen av metaproteomik. När det gäller dataanalys är det viktigaste steget konstruktionen av en proteinsekvensdatabas. Databasens storlek och fullständighet har inte bara stor inverkan på antalet identifieringar, utan påverkar även analysen på art- och funktionsnivå. För närvarande är guldstandarden för konstruktionen av en metaproteomdatabas en proteinsekvensdatabas baserad på metagenomet. Samtidigt har den offentliga databasfiltreringsmetoden baserad på iterativ sökning också visat sig ha ett starkt praktiskt värde. Ur perspektivet av specifika dataanalysstrategier har peptidcentrerade DIA-dataanalysmetoder upptagit en absolut mainstream. Med utvecklingen av djupinlärning och artificiell intelligens kommer det att i hög grad främja noggrannheten, täckningen och analyshastigheten för makroproteomisk dataanalys. När det gäller nedströms bioinformatikanalys har en serie annoteringsverktyg utvecklats under de senaste åren, som kan utföra artannotering på proteinnivå, peptidnivå och gennivå för att få fram sammansättningen av mikrobiella samhällen. Jämfört med andra omics-metoder är den funktionella analysen av mikrobiella samhällen en unik egenskap hos makroproteomik. Makroproteomik har blivit en viktig del av multi-omics analys av mikrobiella samhällen, och har fortfarande stor utvecklingspotential när det gäller täckningsdjup, detektionskänslighet och dataanalys fullständighet.

01 Prov förbehandling

För närvarande har metaproteomikteknologi använts i stor utsträckning i forskningen av mänsklig mikrobiom, jord, mat, hav, aktivt slam och andra områden. Jämfört med proteomanalysen av en enda art står provförbehandlingen av metaproteom av komplexa prover inför fler utmaningar. Den mikrobiella sammansättningen i faktiska prover är komplex, det dynamiska omfånget av överflöd är stort, cellväggsstrukturen hos olika typer av mikroorganismer är mycket olika och proverna innehåller ofta en stor mängd värdproteiner och andra föroreningar. Därför är det i analysen av metaproteom ofta nödvändigt att optimera olika typer av prover och anta olika mikrobiella separations-, anriknings-, extraktions- och lysscheman.

Extraktion av mikrobiella metaproteomer från olika prover har vissa likheter såväl som vissa skillnader, men för närvarande saknas en enhetlig förbearbetningsprocess för olika typer av metaproteomprover.

02Masspektrometridatainsamling

I hagelgevärsproteomanalys separeras peptidblandningen efter förbehandling först i den kromatografiska kolonnen och går sedan in i masspektrometern för datainsamling efter jonisering. I likhet med proteomanalys av enstaka arter inkluderar masspektrometridatainsamlingssätten i makroproteomanalys DDA-läge och DIA-läge.

Med den kontinuerliga iterationen och uppdateringen av masspektrometriinstrument appliceras masspektrometriinstrument med högre känslighet och upplösning på metaproteom, och täckningsdjupet för metaproteomanalys förbättras också kontinuerligt. Under lång tid har en serie högupplösta masspektrometriinstrument under ledning av Orbitrap använts i stor utsträckning i metaproteomer.

Tabell 1 i originaltexten visar några representativa studier om metaproteomik från 2011 till idag när det gäller provtyp, analysstrategi, masspektrometriinstrument, insamlingsmetod, analysmjukvara och antal identifieringar.

03Masspektrometridataanalys

3.1 DDA-dataanalysstrategi

3.1.1 Databassökning

3.1.2de novosekvenseringsstrategi

3.2 DIA-dataanalysstrategi

04Artklassificering och funktionell anteckning

Sammansättningen av mikrobiella samhällen på olika taxonomiska nivåer är ett av nyckelforskningsområdena inom mikrobiomforskning. Under de senaste åren har en serie annoteringsverktyg utvecklats för att kommentera arter på proteinnivå, peptidnivå och gennivå för att erhålla sammansättningen av mikrobiella samhällen.

Kärnan i funktionell annotering är att jämföra målproteinsekvensen med den funktionella proteinsekvensdatabasen. Med hjälp av genfunktionsdatabaser som GO, COG, KEGG, eggNOG, etc., kan olika funktionella annoteringsanalyser utföras på proteiner som identifierats av makroproteomer. Annoteringsverktyg inkluderar Blast2GO, DAVID, KOBAS, etc.

05Sammanfattning och Outlook

Mikroorganismer spelar en viktig roll för människors hälsa och sjukdomar. På senare år har metaproteomik blivit ett viktigt tekniskt sätt att studera mikrobiella samhällens funktion. Den analytiska processen för metaproteomics liknar den för en-arts proteomics, men på grund av komplexiteten hos forskningsobjektet för metaproteomics, måste specifika forskningsstrategier antas i varje analyssteg, från provförbehandling, datainsamling till dataanalys. För närvarande, tack vare förbättringen av förbehandlingsmetoder, den kontinuerliga innovationen av masspektrometriteknik och den snabba utvecklingen av bioinformatik, har metaproteomik gjort stora framsteg när det gäller identifieringsdjup och tillämpningsområde.

I processen för förbehandling av makroproteomprover måste provets natur beaktas först. Hur man separerar mikroorganismer från miljöceller och proteiner är en av de viktigaste utmaningarna som makroproteomer står inför, och balansen mellan separationseffektivitet och mikrobiell förlust är ett akut problem som måste lösas. För det andra måste proteinextraktionen av mikroorganismer ta hänsyn till de skillnader som orsakas av olika bakteriers strukturella heterogenitet. Makroproteomprover i spårområdet kräver också specifika förbehandlingsmetoder.

När det gäller masspektrometriinstrument har vanliga masspektrometriinstrument genomgått en övergång från masspektrometrar baserade på Orbitrap-massanalysatorer som LTQ-Orbitrap och Q Exactive till masspektrometrar baserade på jonmobilitetskopplade time-of-flight-massanalysatorer som timsTOF Pro . TimsTOF-serien av instrument med information om jonmobilitetsdimension har hög detektionsnoggrannhet, låg detektionsgräns och god repeterbarhet. De har gradvis blivit viktiga instrument inom en mängd olika forskningsfält som kräver masspektrometridetektion, såsom proteomet, metaproteomet och metabolomen hos en enskild art. Det är värt att notera att det dynamiska omfånget av masspektrometriinstrument under lång tid har begränsat proteintäckningsdjupet för metaproteomforskning. I framtiden kan masspektrometriinstrument med ett större dynamiskt område förbättra känsligheten och noggrannheten för proteinidentifiering i metaproteomer.

För masspektrometridatainsamling, även om DIA-datainsamlingsläget har antagits allmänt i proteomet av en enda art, använder de flesta aktuella makroproteomanalyser fortfarande DDA-datainsamlingsläget. DIA-datainsamlingsläget kan till fullo erhålla fragmentjoninformationen från provet, och jämfört med DDA-datainsamlingsläget har det potentialen att helt erhålla peptidinformationen från makroproteomprovet. Men på grund av den höga komplexiteten hos DIA-data står analysen av DIA-makroproteomdata fortfarande inför stora svårigheter. Utvecklingen av artificiell intelligens och djupinlärning förväntas förbättra noggrannheten och fullständigheten i DIA-dataanalys.

I dataanalysen av metaproteomik är ett av nyckelstegen konstruktionen av proteinsekvensdatabasen. För populära forskningsområden som tarmflora kan tarmmikrobiella databaser som IGC och HMP användas och goda identifieringsresultat har uppnåtts. För de flesta andra metaproteomikanalyser är den mest effektiva databaskonstruktionsstrategin fortfarande att upprätta en provspecifik proteinsekvensdatabas baserad på metagenomisk sekvenseringsdata. För mikrobiella gemenskapsprover med hög komplexitet och stort dynamiskt omfång är det nödvändigt att öka sekvenseringsdjupet för att öka identifieringen av arter med låg förekomst, och därigenom förbättra täckningen av proteinsekvensdatabasen. När sekvenseringsdata saknas kan en iterativ sökmetod användas för att optimera den offentliga databasen. Men iterativ sökning kan påverka FDR-kvalitetskontrollen, så sökresultaten måste kontrolleras noggrant. Dessutom är tillämpligheten av traditionella FDR kvalitetskontrollmodeller i metaproteomikanalys fortfarande värd att utforska. När det gäller sökstrategi kan hybridspektralbiblioteksstrategin förbättra täckningsdjupet för DIA-metaproteomik. Under de senaste åren har det förutspådda spektrala biblioteket som genererats baserat på djupinlärning visat överlägsen prestanda inom DIA-proteomik. Men metaproteomdatabaser innehåller ofta miljontals proteinposter, vilket resulterar i en stor skala av förutspådda spektralbibliotek, förbrukar mycket datorresurser och resulterar i ett stort sökutrymme. Dessutom varierar likheten mellan proteinsekvenser i metaproteomer mycket, vilket gör det svårt att säkerställa noggrannheten hos spektralbibliotekets förutsägelsemodell, så förutspådda spektralbibliotek har inte använts i stor utsträckning inom metaproteomik. Dessutom måste nya annoteringsstrategier för proteininferens och klassificering utvecklas för att tillämpas på metaproteomikanalys av mycket sekvensliknande proteiner.

Sammanfattningsvis, som en framväxande mikrobiomforskningsteknologi har metaproteomikteknologin uppnått betydande forskningsresultat och har också en enorm utvecklingspotential.

Posttid: 30 augusti 2024