Geschatte Bayesiaanse berekening

Geschatte Bayesiaanse berekening vormt een klasse van computationele methoden geworteld in Bayesiaanse statistiek. In alle modelgebaseerde statistische gevolgtrekking, de kans functie is van cruciaal belang, want het drukt de waarschijnlijkheid van de waargenomen data onder een bepaalde statistisch model, en dus kwantificeert de steun gegevens te verlenen aan bepaalde waarden van de parameters en keuzes te maken tussen de verschillende modellen. Voor eenvoudige modellen, kan een analytische formule voor de waarschijnlijkheidsfunctie typisch afgeleid. Voor meer complexe modellen, analytische formule zou ongrijpbaar of waarschijnlijkheidsfunctie kunnen rekenkundig zeer kostbaar te evalueren.

ABC werkwijzen bypass de evaluatie van de waarschijnlijkheidsfunctie. Zo ABC werkwijzen verbreden het bereik van de modellen waarvoor statistische inferentie kan worden beschouwd. ABC methoden zijn wiskundig gegrond, maar ze onvermijdelijk te maken veronderstellingen en benaderingen waarvan het effect moet zorgvuldig worden beoordeeld. Bovendien is de bredere toepassing domein van ABC verergert de uitdagingen van parameterschatting en het model selectie.

ABC heeft zich snel aan populariteit gewonnen in de afgelopen jaren en in het bijzonder voor de analyse van complexe problemen die zich voordoen in de biologische wetenschappen, bv in populatiegenetica, ecologie, epidemiologie, en systeembiologie.

Geschiedenis

De eerste ABC-gerelateerde ideeën dateren uit de jaren 1980. Donald Rubin, bij de bespreking van de interpretatie van Bayesian statements in 1984, beschreef een hypothetische sampling mechanisme dat een monster uit de postérieure verdeling oplevert. Deze regeling was meer een conceptuele gedachte-experiment om te laten zien wat voor soort manipulaties worden gedaan wanneer het afleiden van de achterste distributies van de parameters. De beschrijving van de bemonstering mechanisme valt precies samen met die van de ABC-afwijzing regeling, en dit artikel kan worden beschouwd als de eerste benadering Bayesiaanse berekening te beschrijven zijn. Toch werd een tweetraps quincunx geconstrueerd door Francis Galton in de late jaren 1800 die kan worden gezien als een fysieke implementatie van ABC-afstoting schema voor een enkele onbekende en één observatie - zie figuur 5 in S. Stigler 2010. Een ander punt prescient werd gemaakt door Rubin, toen hij stelde dat in Bayesian gevolgtrekking, toegepast statistici moeten geen genoegen met alleen analytisch handelbaar modellen, maar in plaats daarvan overwegen computationele methoden die hen in staat stellen in te schatten de achterste distributie van belang. Op deze manier kan een breder scala van modellen worden overwogen. Deze argumenten zijn in het bijzonder relevant in de context van de ABC.

In 1984, Peter Diggle en Richard Gratton stelde voor het gebruik van een systematische simulatie regeling om de kans functie in situaties waar de analytische vorm is hardnekkig benaderen. Hun methode is gebaseerd op het definiëren van een rooster in de parameter ruimte en het te gebruiken om de kans te benaderen door het uitvoeren van een aantal simulaties voor elk rooster punt. De onderlinge werd vervolgens verbeterd door smoothing technieken om de resultaten van de simulaties. Hoewel het idee van het gebruik van simulatie voor hypothese testen was niet nieuw, Diggle en Gratton schijnbaar introduceerde de eerste procedure met behulp van simulatie om statistische gevolgtrekking doen onder een omstandigheid waarbij de kans is hardnekkig. Belang bemonsteringsmethoden kregen door Keith O'Rourke pagina 19, these waardoor het rooster kan in principe worden vervangen door een enkel punt op het volledige oppervlak waarschijnlijkheid benaderen.

Hoewel Diggle en Gratton de aanpak van een nieuwe grens had geopend, was hun methode nog niet precies identiek aan wat nu bekend staat als ABC, als het gericht is op de onderlinge aanpassing van de kans dat in plaats van de achterste distributie. Een artikel van Simon Tavaré et al. was de eerste die een ABC algoritme voor het achterste gevolgtrekking voorstellen. In hun baanbrekende werk, werd gevolgtrekking over de genealogie van DNA-sequentie data overwogen, en in het bijzonder het probleem van het bepalen van de posterior verdeling van de tijd om de meest recente gemeenschappelijke voorouder van de bemonsterde individuen. Een dergelijke conclusie is analytisch hardnekkig vele demografische modellen, maar de auteurs voorgesteld manieren coalescent bomen gesimuleerd onder de vermeende modellen. Een monster uit de achterkant van modelparameters werd verkregen door aanvaarding / afwijzing voorstellen op basis van vergelijking van het aantal segregeren sites in de synthetische en echte data. Dit werk werd gevolgd door een toegepaste onderzoek naar het modelleren van de variatie in humane Y chromosoom door Jonathan K. Pritchard et al. met behulp van de ABC-methode. Tenslotte werd de term Geschatte Bayesiaanse Computation opgericht door Mark Beaumont et al., Verdere uitbreiding van de ABC-methode en het bespreken van de geschiktheid van de ABC-benadering meer specifiek voor problemen in de populatie genetica. Sindsdien heeft ABC verspreid naar toepassingen buiten de bevolking genetica, zoals systeembiologie, epidemiologie, of fylogeografie.

Methode

Motivatie

Een gemeenschappelijke belichaming van Bayes theorema betreft de conditionele waarschijnlijkheid van een bepaalde parameterwaarde gegeven data om de kans op door de regel:

waar de staat voor de achterste, de kans, de voorafgaande, en het bewijs.

De voorafgaande vertegenwoordigt opvattingen over voordat beschikbaar, en wordt vaak aangegeven door het kiezen van een bepaalde verdeling over een aantal bekende en handelbaar families van verdelingen, zodat zowel de evaluatie van priori waarschijnlijkheden en willekeurige generatie-waarden zijn relatief eenvoudig. Voor bepaalde soorten modellen, het is meer pragmatisch om te specificeren de voorafgaande gebruik van een ontbinding van de gezamenlijke distributie van alle elementen van het in termen van een opeenvolging van hun voorwaardelijke distributies. Als men in de relatieve posterior waarschijnlijkheden van verschillende waarden van alleen geïnteresseerd, kan het bewijs worden genegeerd, omdat het een normaliserende constante, die annuleert voor elke verhouding van posterior waarschijnlijkheden vormt. Het blijft evenwel noodzakelijk om de waarschijnlijkheid en de voorafgaande evaluatie. Voor tal van toepassingen is rekentijd of zelfs volledig onhaalbaar, de waarschijnlijkheid dat het gebruik van ABC motiveert om dit probleem te omzeilen evalueren.

Het ABC afwijzing algoritme

Alle ABC gebaseerde werkwijzen ligt van de waarschijnlijkheidsfunctie van simulaties, worden de resultaten van die vergelijking van de waargenomen gegevens. Meer in het bijzonder, met de ABC afwijzing algoritme de meest elementaire vorm van ABC een set parameter punten wordt eerst bemonsterd uit de voorafgaande distributie. Gegeven een bemonsterde parameter punt, is een dataset dan gesimuleerd onder het statistisch model gespecificeerd door. Als het opgewekte te verschillend van de waargenomen data, wordt het bemonsterde parameterwaarde weggegooid. In de exacte voorwaarden, wordt aanvaard met de tolerantie, indien:

indien de afstandsmaat bepaalt het niveau van discrepantie tussen en op basis van een bepaalde meeteenheid. Een strikt positieve tolerantie gewoonlijk noodzakelijk, omdat de kans dat de simulatie resultaat valt precies samen met de gegevens verwaarloosbaar voor grotere toepassingen, maar ABC, hetgeen in de praktijk leidt tot afstoting van bijna alle bemonsterde parameter verwijst. Het resultaat van de ABC afwijzing algoritme een deel van parameterwaarden bij benadering verdeeld volgens het gewenste posteriori verdeling en cruciaal, verkregen zonder expliciet evaluatie van de waarschijnlijkheidsfunctie.

Samenvattende statistieken

De kans op het genereren van een dataset met een kleine afstand tot typisch afneemt als de dimensionaliteit van de data verhoogt. Dit leidt tot een aanzienlijke vermindering van de rekenkundige efficiëntie van de bovengenoemde basische ABC afstoting algoritme. Een gemeenschappelijke aanpak van dit probleem te verminderen is om te vervangen door een reeks van lagere-dimensionale samenvatting statistieken, die zijn geselecteerd om de relevante informatie vast te leggen De aanvaarding criterium in ABC afwijzing algoritme wordt.:

Als de samenvattende statistieken volstaan ​​opzichte van de modelparameters, is de toename efficiency aldus verkregen geen fouten introduceren. Inderdaad, per definitie, toereikendheid impliceert dat alle informatie in over wordt gevangen genomen door.

Zoals hieronder uitgewerkt, is het meestal onmogelijk, buiten de exponentiële familie van de verdelingen, een eindig-dimensionale set van voldoende statistische gegevens te identificeren. Niettemin informatief, maar mogelijk niet voldoende, samenvattende statistieken worden vaak gebruikt in toepassingen waar gevolgtrekking wordt uitgevoerd met ABC methoden.

Voorbeeld

Een illustratief voorbeeld is een bistabiel systeem dat kan worden gekenmerkt door een verborgen Markov model onder metingsruis. Dergelijke modellen worden gebruikt voor vele biologische systemen: zij zijn bijvoorbeeld gebruikt bij de ontwikkeling, cell signaling activering / deactivering logische bewerking en non-equilibrium thermodynamica. Bijvoorbeeld, kan het gedrag van Sonic Hedgehog transcriptiefactor in Drosophila melanogaster worden gemodelleerd met een HMM. Het dynamische model bestaat uit twee staten: A en B. Als de kans op een overgang van de ene staat naar de andere wordt gedefinieerd als in beide richtingen, de kans om in dezelfde toestand blijven op elk tijdstip stap 1-. De kans om te meten de toestand correct is.

Vanwege de voorwaardelijke afhankelijkheden tussen staten op verschillende tijdstippen, de berekening van de waarschijnlijkheid van tijdreeksen gegevens is enigszins vervelend, dat de motivatie om ABC te gebruiken illustreert. Een computationele probleem voor de basis-ABC is het grote dimensionaliteit van de data in een toepassing als deze. Dit kan worden verminderd door middel van de samenvatting statistiek S, de frequentie schakelt tussen de twee toestanden. Als afstandsmaat wordt het absolute verschil gebruikt in combinatie met een tolerantie. De achterste gevolgtrekking over de parameter kan na de vijf stappen in figuur 1:

Stap 1: Neem aan dat de waargenomen gegevens zijn de toestand AAAABAABBAAAAAABAAAA sequentie die werd gegenereerd met en. De bijbehorende samenvatting statistiek, het aantal schakelaars tussen de staten in de experimentele gegevens, is.

Stap 2: Ervan uitgaande dat er niets bekend is over een uniform vooraf in het interval wordt gebruikt. De parameter wordt bekend verondersteld en de data-genererende waarde vast, maar kan in het algemeen ook worden afgeleid uit de waarnemingen. Een aantal n parameter verwijst getrokken uit de stand en het model gesimuleerd voor elke parameter punten, waardoor sequenties van gesimuleerde data. In dit voorbeeld, n = 5, waarbij elke parameter getrokken en gesimuleerde dataset in tabel 1, kolom 2-3. In de praktijk n zou veel groter moeten zijn om een ​​passende benadering te verkrijgen.

Stap 3: De samenvatting statistiek wordt berekend voor elke reeks van gesimuleerde data ,.

Stap 4: De afstand tussen de waargenomen en gesimuleerde overgang frequenties wordt berekend voor alle parameters punten. Parameter punten waarvan de afstand kleiner is dan of gelijk aan bij benadering worden als monsters uit de achterste.

Stap 5: De achterste distributie wordt benaderd met de geaccepteerde parameter punten. De postérieure verdeling dient een niet-verwaarloosbare kans voor parameter waarden in een gebied rond de werkelijke waarde van het systeem, als de gegevens voldoende informatief. In dit voorbeeld wordt de latere kans massa gelijk verdeeld tussen de waarden 0,08 en 0,43.

Figuur 3 toont het achterste kansen verkregen door ABC en grote n met behulp van de samenvatting statistiek gecombineerd of volledige gegevensreeks. Deze worden vergeleken met de werkelijke posterior, die kan worden berekend exact en efficiënt gebruik van het Viterbi algoritme. De gebruikte statistische samenvatting is niet voldoende, en het wordt gezien dat zelfs met de afwijking van de theoretische posterior aanzienlijk. Opmerkelijk zou een veel langere waargenomen datareeks worden verplicht een achterste die geconcentreerd rond de werkelijke waarde te verkrijgen.

Dit voorbeeld toepassing van ABC gebruikt vereenvoudigingen voor illustratieve doeleinden. Een aantal overzichtsartikelen bieden verwijzingen naar meer realistische toepassingen van ABC.

Model vergelijking met ABC

Daarnaast parameterschatting, kan het ABC-raamwerk worden gebruikt met het achterste waarschijnlijkheden van verschillende kandidaatmaterialen modellen te berekenen. In dergelijke toepassingen, één mogelijkheid is om de afstoting-sampling gebruiken op een hiërarchische wijze. Eerst wordt een model bemonsterd uit de voorafgaande verdeling voor het model; Vervolgens, gezien het model bemonsterd, de modelparameters worden bemonsterd uit de stand verdeling toegewezen dat model. Tenslotte wordt een simulatie uitgevoerd zoals in de single-model ABC. De relatieve aanvaarding frequenties voor de verschillende modellen nu benaderen de posterior verdeling van deze modellen. Nogmaals, computational verbeteringen ABC in de ruimte van modellen is voorgesteld, zoals het aanleggen van een deeltjesfilter in de gezamenlijke ruimte van modellen en parameters.

Zodra de achterste waarschijnlijkheid van modellen zijn geschat, kan men volledig gebruik maken van de technieken van Bayesiaanse model vergelijking. Bijvoorbeeld, de relatieve waarschijnlijkheden twee modellen te vergelijken en kan men het onderste verhouding, die gerelateerd is aan de Bayes factor te berekenen:

Als het model prioren gelijk, de Bayes factor gelijk aan de verhouding posterior.

In de praktijk, zoals hieronder besproken, kunnen deze maatregelen zeer gevoelig voor de keuze van de parameter vooraf verdelingen en samenvattende statistieken en daarmee conclusies model vergelijking moet worden gemaakt met de nodige voorzichtigheid.

Valkuilen en remedies

Zoals voor alle statistische methoden, zijn een aantal veronderstellingen en benaderingen inherent nodig zijn voor de toepassing van de ABC-gebaseerde methoden om echte modellering problemen. Bijvoorbeeld, de parameter tolerantie op nul zorgt voor een exacte resultaat, maar meestal maakt berekeningen onbetaalbaar. Aldus zijn de waarden van groter dan nul in de praktijk, waarbij een voorspanning brengt. Evenzo voldoende statistieken zijn meestal niet beschikbaar en in plaats daarvan worden andere overzichtsstatistieken gebruikt, die een extra voorspanning brengt door het verlies van gegevens. Aanvullende bronnen van bias- bijvoorbeeld in het kader van model selectie kan zijn subtieler.

Tegelijkertijd, sommige kritiek die gericht zijn in ABC methoden, met name op het gebied van fylogeografie, zijn niet specifiek voor ABC en voor alle Bayesiaanse methoden of zelfs alle statistische methodes. Vanwege de mogelijkheid van ABC-methoden veel complexere lossen zware, sommige algemene valkuilen van bijzonder belang in de context van ABC analyses.

Deze sectie bespreekt deze potentiële risico's en beoordeelt mogelijke manieren om deze aan te pakken.

Onderlinge aanpassing van de achterste

Een niet te verwaarlozen wordt geleverd met de prijs die men monsters uit in plaats van de ware achterste. Met een voldoende kleine tolerantie en een verstandige afstand maatregel, moet de resulterende verdeling vaak benaderen het eigenlijke doel verdeling redelijk goed. Anderzijds, een tolerantie die groot genoeg is dat elk punt in de parameterruimte wordt geaccepteerd zal een replica van de voorafgaande verdeling verkregen. Er zijn empirische studies van het verschil tussen en in functie van, en theoretische resultaat een hogere afhankelijke weg naar de fout in parameterschattingen. De nauwkeurigheid van de achterste ABC geleverd als functie van is ook onderzocht. De convergentie van de verdelingen bij nul nadert, hoe afhankelijk van de afstandsmaat gebruikt, is een belangrijk onderwerp dat nog moet worden nader onderzocht. Met name blijft het moeilijk om fouten die bij deze benadering van fouten als gevolg van model misspecificatie ontwarren.

Als een poging om enkele van de fout te corrigeren door een niet-nul is, heeft het gebruik van lokale gewogen lineaire regressie met ABC de variantie van de postérieure schattingen verlagen voorgesteld. De werkwijze kent gewichten om de parameters afhankelijk van hoe goed gesimuleerd samenvattingen hechten aan de waargenomen enen en voert lineaire regressie tussen de samenvattingen en gewogen parameters in de nabijheid van waargenomen samenvattingen. De verkregen regressiecoëfficiënten worden gebruikt om parameters bemonsterd richting waargenomen samenvattingen corrigeren. Een verbetering werd voorgesteld in de vorm van niet-lineaire regressie met behulp van een feed-forward neuraal netwerkmodel. Toch is gebleken dat het achterste verdelingen verkregen bij deze benaderingen niet altijd consistent met voorafgaande distributie, die leiden wel tot een herformulering van de regressie aanpassing die voorafgaande verdeling respecteert.

Tenslotte wordt statistische inferentie gebruikt ABC met een niet-zero tolerance zichzelf niet onjuist: uitgaande van meetfouten, kan de optimale daadwerkelijk aantoonbaar niet nul zijn. Inderdaad, kan de voorspanning veroorzaakt door een non-zero tolerance gekarakteriseerd en gecompenseerd door de invoering van een specifieke vorm van lawaai aan samenvattende statistieken. Asymptotische consistentie dergelijke "noisy ABC" is gelegd, alsmede formules voor de asymptotische variantie van de parameter ramingen voor vaste tolerantie.

Keuze en toereikendheid van overzichtsstatistieken

Samenvatting statistiek kan worden gebruikt om de acceptatie van ABC voor hoge-dimensionale data te verhogen. Laagdimensionale voldoende statistische gegevens optimaal voor dit doel aangezien zij alle relevante informatie in het signaal op de meest eenvoudige vorm vangen. Echter, low-dimensionale voldoende statistieken zijn meestal onbereikbaar voor statistische modellen waar de ABC-gebaseerde gevolgtrekking het meest relevant is, en als gevolg daarvan een aantal heuristische is meestal noodzakelijk om bruikbare lage-dimensionale samenvatting statistieken identificeren. Het gebruik van een reeks van slecht gekozen samenvatting statistieken zullen vaak leiden tot opgeblazen geloofwaardige intervallen te wijten aan de impliciete verlies van informatie, die ook kan vertekening van de discriminatie tussen de modellen. Een overzicht van methoden voor het kiezen van samenvattende statistieken is beschikbaar, die waardevolle leidraad kunnen voorzien in de praktijk.

Een benadering voor de meeste van deze informatie in data vangen zou zijn om vele statistieken gebruiken, maar de nauwkeurigheid en stabiliteit van ABC lijkt snel af met toenemende aantallen overzichtsstatistieken. In plaats daarvan, een betere strategie is om zich te concentreren op de relevante statistieken enige relevantie, afhankelijk van de gehele gevolgtrekking probleem van het gebruikte model en van de gegevens bij de hand.

Een algoritme is voorgesteld voor het identificeren van een representatief deel van overzichtsstatistieken door iteratief beoordelen of een aanvullend statistiek introduceert een betekenisvolle wijziging van de posterior. Eén van de problemen is dat een groot ABC benaderingsfout sterk kan beïnvloeden conclusies over het nut van een statistiek in elk stadium van de procedure. Een andere werkwijze uiteenvalt in twee hoofdstappen. Eerst wordt een referentie aanpassing van de achterste geconstrueerd door het minimaliseren van de entropie. Sets van samenvattingen kandidaat worden vervolgens geëvalueerd door vergelijking van de ABC-benaderd posteriors met referentie posterior.

Met beide strategieën wordt een subset van statistische gekozen uit een groot aantal kandidaat statistieken. In plaats daarvan, de partiële kleinste kwadraten regressie benadering gebruikt informatie uit alle kandidaat statistieken, die elk op geschikte wijze gewogen. Onlangs is een werkwijze voor het construeren samenvattingen in een semi-automatische wijze aanzienlijk belang verkregen. Deze methode is gebaseerd op de waarneming dat de optimale keuze van overzichtsstatistieken bij het minimaliseren van de kwadratische verlies van de parameter puntschattingen, kan worden verkregen via de achterste gemiddelde van de parameters, die wordt benaderd door het uitvoeren van een lineaire regressie op basis van de gesimuleerde data .

Methoden voor de identificatie van de samenvattende statistieken die kunnen ook gelijktijdig de invloed te beoordelen op de aanpassing van het achterste van grote waarde zou zijn. Dit komt doordat de keuze van overzichtsstatistieken en de keuze van tolerantie vormen twee bronnen van fouten in de resulterende posteriori verdeling. Deze fouten kunnen corrupt de ranking van modellen en kan ook leiden tot onjuiste modelvoorspellingen. Inderdaad, geen van de werkwijzen die hierboven beoordeelt de keuze van samenvattingen behoeve van model selectie.

Bayes factor met ABC en samenvattende statistieken

Het is aangetoond dat de combinatie van onvoldoende overzichtsstatistieken en ABC voor modelselectie problematisch kan zijn. Immers, wanneer men laat de Bayes factor op basis van de samenvatting statistiek worden aangeduid met de relatie tussen en heeft de vorm:

Aldus is een samenvatting statistiek is voldoende voor het vergelijken van twee modellen als en alleen als:

waardoor die. Voorts blijkt uit de bovenstaande vergelijking dat er een groot verschil tussen en als de voorwaarde misschien niet is voldaan, zoals kan worden aangetoond met speelgoed voorbeelden. Cruciaal, werd aangetoond dat voldoende voor of alleen, of voor beide modellen, geen voldoende garantie voor de rangschikking van de modellen. Er werd echter ook aangetoond dat voldoende Samenvatting statistiek voor een model waarin beide en geneste geldt voor rangschikking van de geneste modellen.

De berekening van de Bayes factoren op bijgevolg misleidend kan zijn voor het model selectie doeleinden, tenzij de verhouding tussen de Bayes factoren op en beschikbaar zou zijn, of op zijn minst kan redelijk goed worden benaderd. Als alternatief, noodzakelijke en voldoende voorwaarden samenvatting statistieken voor een consistent Bayesiaanse model keuze zijn onlangs afgeleid, die nuttige aanwijzingen kan bieden.

Dit echter alleen relevant voor modelselectie wanneer de afmeting van de data is gereduceerd. ABC-inferentie, waarbij de eigenlijke gegevens die rechtstreeks vergeleken zoals het geval is voor sommige systemen biologie toepassingen omzeilt dit probleem.

Onmisbaar kwaliteitscontroles

Zoals de bovenstaande bespreking duidelijk maakt, elke ABC-analyse vereist keuzes en afwegingen die een aanzienlijke impact hebben op de resultaten kan hebben. Specifiek, de keuze van concurrerende modellen / hypothesen, het aantal simulaties, de keuze van de samenvattende statistieken, of acceptatiedrempel momenteel niet op basis van algemene regels, maar het effect van deze keuzes moeten worden geëvalueerd en getest in elke studie.

Verschillende heuristische methoden voor de kwaliteitscontrole van ABC zijn voorgesteld, zoals het kwantificeren van de fractie van parameter variantie verklaard door de samenvattende statistieken. Een gemeenschappelijke klasse van methoden is gericht op de beoordeling van de vraag of de gevolgtrekking levert geldige resultaten, ongeacht de daadwerkelijk waargenomen data. Bijvoorbeeld, gegeven een set van parameterwaarden, die gewoonlijk afkomstig zijn uit het voorgaande of het achterste verdelingen voor een model, kan men een groot aantal kunstmatige datasets produceren. Hierdoor kan de kwaliteit en de robuustheid van ABC gevolgtrekking worden beoordeeld in een gecontroleerde omgeving, door meten hoe goed het gekozen ABC gevolgtrekking werkwijze herstelt de werkelijke parameterwaarden, alsook modellen als meerdere structureel verschillende modellen gelijktijdig worden beschouwd.

Een andere klasse van methoden beoordeelt of de gevolgtrekking was succesvol in het licht van de gegeven waargenomen data, bijvoorbeeld door het vergelijken van de postérieure verdeling van voorspellende overzichtsstatistieken de samenvattende statistieken waargenomen. Buiten dat, cross-validatie technieken en voorspellende cheques vertegenwoordigen veelbelovende toekomst strategieën om de stabiliteit en de out-of-sample predictieve validiteit van ABC gevolgtrekkingen te evalueren. Dit is vooral van belang bij het modelleren grote datasets, omdat dan de achterste drager van een bepaald model kan lijken overweldigend overtuigend, zelfs als alle voorgestelde modellen in feite slecht stochastische representaties van het stelsel achter de waarnemingsgegevens. Out-of-sample voorspellende controles potentiële systematische fouten binnen een model kan onthullen en geven aanwijzingen over hoe de structuur of parametrisatie verbeteren.

Interessant fundamenteel nieuwe benaderingen voor model kiezen dat de kwaliteitscontrole als een integrale processtap nemen zijn recent voorgesteld. ABC staat, door de bouw, de schatting van de verschillen tussen de waargenomen gegevens en de modelvoorspellingen, met betrekking tot een uitgebreide reeks statistieken. Deze statistieken zijn niet noodzakelijkerwijs dezelfde als die in de acceptatiecriterium. Het resulterende verschil verdelingen zijn gebruikt voor het selecteren van modellen die in overeenstemming met vele aspecten van de data simultaan en model inconsistentie wordt gedetecteerd van conflicterende en co-afhankelijke samenvattingen. Een andere kwaliteitscontrole-gebaseerde methode voor het model selectie telt ABC om het effectieve aantal modelparameters en de afwijking van de posterior predictive verdelingen van samenvattingen en parameters benaderen. De afwijking informatie criterium wordt dan gebruikt als maat voor de model fit. Ook is gebleken dat de modellen voorkeur op basis van dit criterium kunnen conflicteren met die welke door Bayes factoren. Daarom is het nuttig om verschillende werkwijzen combineren voor modelselectie juiste conclusies te verkrijgen.

Kwaliteitscontroles haalbaar zijn en inderdaad uitgevoerd in vele ABC-based werken, maar voor bepaalde problemen, kan de beoordeling van de gevolgen van de parameters-methode gerelateerde uitdagend. Echter, verwacht de snel toenemende gebruik van ABC voor een beter begrip van de beperkingen en toepasbaarheid van de werkwijze.

Algemene risico's in de statistische gevolgtrekking verergerd in ABC

In deze paragraaf risico's die strikt genomen niet specifiek voor ABC, maar ook relevant voor andere statistische methoden ook. Echter, de aangeboden door ABC tot zeer complexe modellen te analyseren flexibiliteit maakt hen zeer relevant om hier te bespreken.

Voorafgaand distributie en parameterbereiken

De specificatie van het bereik en de verdeling van de voorafgaande parameters sterk profiteert van eerdere kennis over de eigenschappen van het systeem. Eén kritiek is dat in sommige studies de "parameterbereiken en verdelingen alleen verwachten op basis van de persoonlijke mening van de onderzoekers", die is aangesloten op klassieke bezwaren Bayesiaanse methoden.

Met een rekenmethode, is het meestal noodzakelijk de onderzochte parameter ranges beperken. De parameter bereiken moeten zo mogelijk worden gedefinieerd op basis van bekende eigenschappen van de onderzochte systeem, maar kan voor praktische toepassingen vereisen een educated guess. Echter, theoretische resultaten betreffende doelstelling prioren beschikbaar, die bijvoorbeeld kan zijn gebaseerd op het principe van onverschilligheid of het principe van maximale entropie. Anderzijds, geautomatiseerde of semi-geautomatiseerde werkwijzen voor het kiezen van een vooraf Uitkeringsrendement vaak onjuist dichtheden. Aangezien de meeste ABC procedures vereisen het genereren van monsters uit de eerdere, onjuiste priors zijn niet direct van toepassing op ABC.

Men moet ook het doel van de analyse in gedachten te houden bij het kiezen van de voorafgaande distributie. In principe kan uninformative en platte priors, dat onze subjectieve onwetendheid overdrijven over de parameters, nog redelijk parameterschattingen opleveren. Echter, Bayes factoren zijn zeer gevoelig voor de voorafgaande verdeling van parameters. Conclusies van het model kiezen op basis van Bayes factor kan misleidend zijn, tenzij de gevoeligheid van conclusies aan de keuze van priors zorgvuldig overwogen.

Klein aantal modellen

Modelgebaseerde methoden zijn bekritiseerd voor het niet uitputtend voor de hypothese ruimte. Inderdaad, modelgebaseerde studies vaak draaien rond een klein aantal modellen, en vanwege de hoge rekentijd tot één model in sommige gevallen te evalueren, kan het dan moeilijk zijn om een ​​groot deel van de hypotheseruimte dekken.

Een bovengrens aan het aantal als kandidaatmodellen wordt typisch door de aanzienlijke inspanning nodig is om het model te definiëren en te kiezen tussen verschillende alternatieven stellen. Er is geen algemeen aanvaarde ABC-specifieke procedure voor de modelbouw, zodat de ervaring en voorkennis worden gebruikt in plaats. Hoewel robuustere procedures voor a priori model keuze en formulering gunstig zou zijn, is er geen one-size-fits-all strategie voor de ontwikkeling van een model in de statistiek: verstandige karakterisering van complexe systemen zullen altijd noodzakelijk veel speurwerk en het gebruik van deskundige kennis van het probleem domein.

Sommige tegenstanders van ABC beweren dat aangezien slechts enkele modellen subjectief gekozen en waarschijnlijk allemaal mis kan realistisch worden beschouwd, ABC-analyses geven slechts beperkt inzicht. Er is echter een belangrijk verschil tussen het identificeren van een plausibele nulhypothese en beoordelen van de relatieve fit alternatieve hypotheses. Sinds nuttig nulhypothesen, die mogelijk opgaan, kunnen zeer zelden worden naar voren in de context van complexe modellen, voorspellend vermogen van statistische modellen zetten als uitleg van complexe fenomenen is veel belangrijker dan de test van een statistische nulhypothese in deze context. Het is ook gebruikelijk om gemiddeld over de onderzochte modellen, gewogen op basis van hun relatieve aannemelijkheid, het model functies afleiden en om voorspellingen te doen.

Grote datasets

pnNachalo Grote datasets kan een computationeel bottleneck voor modelgebaseerde methoden vormen. Het was bijvoorbeeld opgemerkt dat in sommige ABC-gebaseerde analyses deel van de gegevens moeten worden weggelaten. Verschillende auteurs hebben gesteld dat grote datasets geen praktische beperking, maar de ernst van dit probleem sterk afhangt van de kenmerken van de modellen. Verschillende aspecten van een modeleringsprobleem kan bijdragen tot de rekenkundige complexiteit, zoals steekproefomvang aantal waargenomen variabelen of functies, tijd of ruimtelijke resolutie, etc. Echter, bij toenemende rekenkracht, zal deze kwestie potentieel minder belangrijk.

In plaats van bemonsteringscriteria per simulatie van het voorafgaande, is als alternatief voorgesteld Metropolis-Hastings algoritme combineren met ABC, die zou resulteren in een hogere acceptatie dan normaal ABC. Uiteraard dergelijke benadering neemt de algemene lasten van MCMC methoden, zoals de moeilijkheid convergentie correlatie tussen de monsters van de achterste en relatief slechte parallelizability beoordelen.

Ook hebben de ideeën van sequentiële Monte Carlo en de bevolking van Monte Carlo methoden aangepast aan de ABC-instelling. Het algemene idee is iteratief benaderen de achterste uit de stand via een reeks doelwit distributies. Een voordeel van dergelijke werkwijzen vergeleken met ABC-MCMC, dat de monsters van de verkregen posterior onafhankelijk. Daarnaast, met sequentiële werkwijzen de tolerantieniveaus niet voorafgaand aan de analyse zijn, maar adaptief aangepast.

Het is relatief eenvoudig om een ​​aantal stappen in ABC algoritmen op basis van afstoting bemonstering en sequentiële Monte Carlo methoden in parallel. Ook is aangetoond dat parallelle algoritmen aanzienlijke snelheidswinst kan opleveren voor MCMC-inferentie in fylogenetica, waarbij een handelbare benadering ook ABC-gebaseerde werkwijzen kunnen worden. Nog een adequaat model van een complex systeem is zeer waarschijnlijk intensieve berekening vereisen ongeacht de gekozen wijze van gevolgtrekking, en het is aan de gebruiker om een ​​werkwijze die geschikt is voor de specifieke toepassing in kwestie selecteren.

Curse of Dimensionaliteit

Hoogdimensionale gegevens en hoog-dimensionale parameter ruimte kan vereisen een zeer groot aantal parameters punten in ABC-gebaseerde studies worden gesimuleerd om een ​​redelijke mate van nauwkeurigheid van de achterste gevolgtrekkingen te verkrijgen. In dergelijke situaties wordt de computationele kosten sterk gestegen en kan in het ergste geval maken de computationele analyse hardnekkige. Dit zijn voorbeelden van bekende verschijnselen, die meestal worden aangeduid met de overkoepelende term vloek van dimensionaliteit.

Om te beoordelen hoe ernstig de dimensionaliteit van een dataset van invloed op de analyse in het kader van ABC, zijn analytische formules afgeleid voor de fout van de ABC schatters als functies van de afmeting van de samenvatting statistieken. Bovendien Blum en François hebben onderzocht hoe de afmeting van de samenvattende statistieken is gerelateerd aan de gemiddelde kwadratische fout corrigeren voor verschillende aanpassingen van de onjuiste ABC schatters. Ook werd aangevoerd dat de dimensie reductie technieken zijn nuttig om te voorkomen dat de vloek-of-dimensionaliteit, als gevolg van een potentieel lager-dimensionale onderliggende structuur van de samenvattende statistieken. Gemotiveerd door het minimaliseren van de kwadratische verlies van ABC schatters, hebben Fearnhead en Prangle een regeling om gegevens in schattingen van de parameter posterior betekent project voorgesteld; deze middelen, nu met dezelfde afmetingen als de parameters, worden vervolgens gebruikt als samenvatting statistieken voor ABC.

ABC kan worden gebruikt om problemen bij hoogdimensionale parameter ruimten af ​​te leiden, maar men moet rekening houden met de mogelijkheid van overfitting. De waarschijnlijkheid van aanvaarding van de gesimuleerde waarden van de parameters onder een bepaalde tolerantie ABC afwijzing algoritme neemt gewoonlijk exponentieel met toenemende dimensionaliteit van de parameterruimte. Hoewel er geen rekenmethode lijkt te kunnen de vloek-van-dimensionaliteit breken zijn werkwijzen recent ontwikkeld op hoogdimensionale parameter ruimten onder bepaalde veronderstellingen behandelen. Echter, de toepasbaarheid van dergelijke methoden is probleem afhankelijk is, en de moeilijkheid van het verkennen parameter ruimten moeten in de regel niet worden onderschat. Bijvoorbeeld, het invoeren van deterministische globale parameterschatting tot berichten dat de globale optima verkregen in verscheidene eerdere studies van laag dimensionele problemen incorrect waren. Voor bepaalde problemen, kan het dus moeilijk zijn om te weten of het model correct of, zoals hierboven besproken, of het onderzocht gebied van de parameterruimte ongeschikt. Een meer praktische benadering is de omvang van het probleem doorsnijden modelreductie.

Software

Een aantal softwarepakketten beschikbaar voor toepassing van ABC om bepaalde klassen van statistische modellen. Een assortiment van ABC-gebaseerde software wordt weergegeven in Tabel 3.

De geschiktheid van individuele softwarepakketten afhankelijk van de specifieke toepassing in kwestie, het computersysteem milieu en de vereiste algoritmen.

(0)
(0)
Commentaren - 0
Geen commentaar

Voeg een reactie

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tekens over: 3000
captcha