Binaire indeling

Binaire of binomiale indeling is de taak van de indeling van de elementen van een gegeven set in twee groepen op basis van een classificatieregel. Sommige typische binaire classificatie taken zijn:

  • medische testen te bepalen of een patiënt bepaalde ziekte of niet - de eigenschap indeling is de aanwezigheid van de ziekte;
  • een 'slagen of zakken "testmethode of de kwaliteitscontrole in fabrieken; dwz beslissen of een specificatie heeft of niet is voldaan: een go / no go classificatie.
  • information retrieval, namelijk bepalen of een pagina of een voorwerp moet worden in de set een zoek- of niet resultaat - de eigenschap indeling is de relevantie van het voorwerp of het nut voor de gebruiker.

Een belangrijk punt is dat in veel praktische problemen binaire indeling, de twee groepen niet symmetrisch - plaats algehele nauwkeurigheid, het relatieve aantal verschillende typen fouten van belang. Bijvoorbeeld, bij medische tests, een vals positief wordt anders gezien vanuit een vals negatief.

Statistische classificatie in het algemeen is een van de onderzochte in de informatica problemen, om classificatiesystemen automatisch leren; een aantal methoden die geschikt zijn voor het leren van binaire classifiers: de beslissing bomen, Bayesiaanse netwerken, support vector machines, neurale netwerken, probit regressie en logit regressie.

Soms, classificatie taken zijn triviaal. Gezien 100 ballen, een aantal van hen rood en een aantal blauwe, een mens met een normale kleur visie kan ze gemakkelijk scheiden in rode en blauwe. Sommige taken, zoals die in de praktijk de geneeskunde, en die interessant vanuit de computer science oogpunt, zijn verre van triviaal, en kunnen foutieve resultaten indien onnauwkeurig uitgevoerd.

Evaluatie van binaire classifiers

Er zijn veel metrieken die kunnen worden gebruikt om de prestaties van een classifier of predictor meten; verschillende gebieden hebben verschillende voorkeuren voor specifieke statistieken te wijten aan verschillende doelen. Bijvoorbeeld, in de geneeskunde sensitiviteit en specificiteit worden vaak gebruikt, terwijl in information retrieval precisie en recall voorkeur. Een belangrijk onderscheid is tussen de statistieken die onafhankelijk zijn van de prevalentie en statistieken die afhankelijk zijn van de prevalentie - beide typen zijn handig, maar ze hebben zeer uiteenlopende eigenschappen.

Gegeven een classificatie van een bepaalde data set, zijn er vier fundamentele gegevens: het aantal ware positieven, ware negatieven valse positieven en valse negatieven. Deze kan worden geregeld in een 2 × 2 contingency tafel, met kolommen die overeenkomen met de werkelijke waarde - staat positief of negatief staat - en rijen die overeenkomt met de indeling waarde - testuitslag positieve of negatieve testuitslag. Er zijn acht fundamentele ratio's die men kan berekenen uit deze tabel, die komen in vier complementaire paren. Deze worden verkregen door elk van de vier nummers door de som van de rij of kolom, waarbij acht nummers, die in de vorm "echte positieve rij ratio" of "vals negatieve kolom ratio" generiek worden aangeduid, hoewel er conventioneel termen. Er zijn derhalve twee paren kolommen verhoudingen en twee paar tr verhoudingen, en men kan deze met vier cijfers Samenvattend één verhouding van elk paar - de andere vier nummers zijn de complementen.

De kolom verhoudingen zijn True Positieve Rate, met aanvulling van de False negatieve rente; en True negatieve rente, met complement valse meldingen. Dit zijn het percentage van de bevolking met de aandoening waarvoor de test correct is; deze zijn onafhankelijk van de prevalentie.

De rij verhoudingen zijn positief voorspellende waarde, met aanvulling van de False Discovery Rate; en negatief voorspellende waarde, met een aanvulling op de False Weglaten Rate. Dit zijn het percentage van de bevolking met een bepaalde testresultaat waarvoor de test correct is; Deze zijn afhankelijk van de prevalentie.

In de diagnostische testen, de belangrijkste ratio's gebruikt zijn de ware kolom verhoudingen - True Positief Waardeer en True negatieve rente - waar ze bekend als sensitiviteit en specificiteit. In informatieve retrieval, de belangrijkste ratio's zijn de echte positieve verhoudingen - positief voorspellende waarde en True Positief Rate - waar ze bekend als precisie en recall.

Men kan verhoudingen nemen van een complementair paar van verhoudingen, waardoor vier likelihood ratio's. Dit gebeurt vooral voor de kolom verhoudingen, waarbij likelihood ratio. Het nemen van de verhouding van een van deze groepen ratio levert een eindverhouding de diagnostische odds ratio. Dit kan ook direct worden gedefinieerd als / = /; Dit heeft een nuttige interpretatie - als een odds ratio - en is de prevalentie-onafhankelijk.

Er zijn een aantal andere metrieken eenvoudigst de nauwkeurigheid of Fraction Correct, die de fractie van alle gevallen die kunnen worden gecategoriseerd meet; het complement is de fractie Onjuist. De F-score combineert precisie en op te roepen tot een nummer via een keuze van de wegen, de meeste gewoon gelijk wegen, zoals de evenwichtige F-score. Sommige statistieken komen van regressiecoëfficiënten: de gemarkeerdheid en de informedness, en hun meetkundig gemiddelde, de Matthews correlatiecoëfficiënt. Andere statistieken omvatten Youden's J statistiek, de onzekerheid coëfficiënt, de Phi-coëfficiënt, en Cohen's kappa.

Omzetten van continue waarden naar binair

 Proeven waarvan de resultaten continue waarden, zoals de meeste bloedwaarden, kunnen kunstmatig binair worden door het definiëren van een cutoff waarde, waarbij testresultaten worden aangeduid als positief of negatief naargelang de resulterende waarde hoger of lager dan de cutoff.

Echter, een dergelijke conversie leidt tot een verlies van informatie, zoals de resulterende binaire indeling niet vertellen hoeveel boven of onder de cutoff een waarde is. Dientengevolge, bij het omzetten van een continue waarde die dicht bij de cutoff een binair, de resulterende positieve of negatieve voorspellende waarde doorgaans hoger dan de voorspellende waarde direct gegeven uit de continue waarde. In dergelijke gevallen is de aanwijzing van de test positief of negatief geeft het uiterlijk van een onredelijk grote zekerheid, terwijl de waarde in feite een interval van onzekerheid. Bijvoorbeeld, de urine concentratie hCG als een continue waarde een urinezwangerschap test die gemeten 52 mIU / ml hCG komt in een "positieve" met 50 mIU / ml als cutoff, maar is in feite in een interval van onzekerheid die duidelijk kan alleen door het kennen van de oorspronkelijke continue waarde. Anderzijds, een testresultaat ver van de cutoff in het algemeen een resulterende positieve of negatieve voorspellende waarde die lager is dan de voorspellende waarde die uit de continue waarde. Bijvoorbeeld, een urine hCG waarde van 200.000 mIU / ml geeft een zeer grote kans op zwangerschap, maar omzetting naar binaire waarden gevolg dat toont net als "positief 'als die van 52 mIU / ml.

(0)
(0)
Commentaren - 0
Geen commentaar

Voeg een reactie

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tekens over: 3000
captcha