Selv om kurven ser den samme ut, hva er forskjellen mellom distribusjon av Cauchy og Gauss?


Svar 1:

En Cauchy ser ikke ut som en normal. Hvordan nøyaktig en Cauchy ser ut avhenger av parametrene du bruker, men det ser ikke normalt ut.

f.eks

set.seed (1234) # Angir et tilfeldig tallfrø x1 <- rcauchy (1000, 0, 1) x2 <- rnorm (1000, middel (x1), sd (x1)) plott (tetthet (x1)) plott (tetthet (x2))

Ser ikke like ut i det hele tatt. Og x1 varierer fra -178 til 702 mens x2 går fra -76 til 71.


Svar 2:

Som du kan se, ser de to kurvene ut på samme måte som at de begge har en enkelt "støt" og sprer seg mindre jo lenger du kommer. De er forskjellige ved at Cauchy har en smalere topp og sprer seg saktere - det er mye større sannsynlighet for å oppnå verdier langt fra toppen sammenlignet med normalfordelingen. Denne forskjellen gir mange forskjellige konsekvenser matematisk - som at Cauchy ikke har en veldefinert middelverdi og har en særegen prøvetakingsfordeling der "loven om store tall" ikke gjelder.


Svar 3:

Selv om kurven ser den samme ut, hva er forskjellen mellom distribusjon av Cauchy og Gauss?

Overfladisk ser de like ut. Men vis meg en graf over tetthetsfunksjonen til en distribusjon og fortell meg at den enten er Cauchy eller Gaussian, jeg ville vite hvilken (forutsatt at den virkelig var en av dem). Cauchy har mye lengre haler.

Når vi har en familie med distribusjoner med ukjente parametere, ønsker vi å estimere disse parametrene.

  • Gauss-fordelingen har to parametere, middelverdien og standardavviket. Vi kan bruke andre parametere i stedet, for eksempel medianen (som er lik gjennomsnittet) og semi-interkvartilområdet (som ca.
  • 0.67450.6745
  • ganger standardavviket). Gjennomsnittet av Cauchy-distribusjonen eksisterer ikke, men medianen er sentrum av symmetri. Standardavviket eksisterer heller ikke, men gjennomsnittet av de kvadratiske avvikene fra medianen er uendelig.

Så det er den største forskjellen. Vi kan ta parametrene for en av distribusjonene til å være median- og semikvart-kvartil-området, men vi kan ikke bruke middel- og standardavviket for Cauchy da de ikke eksisterer.

Når vi tar en prøve for å hjelpe oss med å estimere parameterne for en distribusjon, beregner vi statistikk som middelverdier og standardavvik for prøveverdiene. Denne statistikken har distribusjoner. Distribusjonen av en prøvestatistikk er kjent som dens samplingsfordeling.

  • Hvis fordelingen av befolkningen er gaussisk (prøvetakingsfordelingen av) er gjennomsnittet av prøven også gaussisk og har et mye mindre standardavvik, så et stort utvalg gir mer presise estimater enn bare å ta en observasjon. Hvis fordelingen er Cauchy, utvalgsmiddel har også en Cauchy-distribusjon, men den har nøyaktig samme median- og semi-interkvartil rekkevidde som den opprinnelige fordelingen. Det er ingen fordel å ta gjennomsnittet av en prøve.

Så det er en annen forskjell. Gjennomsnittet av en prøve fra Gauss er nyttig for å estimere gjennomsnittet (eller medianen); gjennomsnittet av en prøve for Cauchy er ubrukelig for å estimere medianen. Det er bedre å bruke eksemplet median, som gir mer presise estimater.

Tilsvarende argumenter gjelder for å estimere spredningen (men du definerer den) for hver distribusjon. De vanlige estimatene for en Gauss-distribusjon fungerer ikke for en Cauchy-distribusjon.

Den reelle forskjellen er i den matematiske formelen for tettheten. I standardform har Gauss tetthet

12πe12z2\frac1{\sqrt{2\pi}}e^{-\frac12z^2}

og Cauchy har tetthet

1π(1+z2)\frac1{\pi(1+z^2)}

.

Legg merke til at de to

zz

s er forskjellige. I det første tilfellet er standardavviket

11

, i det andre tilfellet er den øvre kvartilen

11

.

Distribusjonsfunksjonen (sannsynligheten for at

ZzZ\le z

) har ikke en fin lukket form for Gauss-distribusjonen, men det gjør for Cauchy, det er det

1πtan1(z)\frac1{\pi}\tan^{-1}(z)

.

Hvis du vil tegne fordelingene på de samme aksene for å se forskjellen, bør du samsvare med parametrene. Så jeg ville standardisert Gaussian slik at nedre og øvre kvartil er

0.6745-0.6745

og

0.67450.6745

, dvs. gjøre standardavviket lik

1.48261.4826

og bruk standardskjemaet for Cauchy. Områdene under grafene skal være like, så høydene i midten skal skaleres på passende måte (

0.2690.269

for gausserne og

0.3180.318

for Cauchy - Cauchy er høyere i midten og høyere i halene).