Estimering av gjennomsnitt og 95-persentil i datasett med verdier under rapporteringsgrensen og i avkortede datasett

Last modified: 18. april 2021
Du er her:
  • Kunnskapsbase
  • Statistikk
  • Estimering av gjennomsnitt og 95-persentil i datasett med verdier under rapporteringsgrensen og i avkortede datasett
Estimated reading time: 2 min
In this article

Hvordan vi håndterer verdiene i ytterkant av datasettene våre påvirker i stor grad våre resultater. I «Estimering av gjennomsnitt og 95-persentil i datasett med verdier under rapporteringsgrensen og i avkortede datasett» (Austigard & Smedbold, 2018) har vi sett nærmere på to kilder til feil som i stor grad påvirker disse ytterkantene, nemlig verdier under eller over rapporteringsgrensen(e), kalt sensorering, og på effekter av avkorting i datasett.

Det er etter hvert konsensus om at bruk av enkle substitusjonsmetoder som eksklusjon, eller substitusjon med «0», rapporteringsgrensen eller en fraksjon av denne, i hovedsak ikke er å anbefale. Unntaket er små datasett (n<3), hvor statistiske metoder ikke kan anvendes.  Ganser og Hewett (Ganser & Hewett, 2010) har utviklet en ny metode som de har kalt β-substitusjon, som de anbefaler fremfor de enkle substitusjonsmetodene og andre statistiske metodene som MLE, LPR og KM (Hewett, 2014). Huynh et al (Huynh et al., 2014) har gjort en simuleringsstudie og kommet til samme konklusjon. Senere Huynh et al (Huynh et al., 2016) har utviklet en Bayesiansk metode, som avhengig av godheten på forhåndsinformasjon, vil kunne være bedre enn β-substitusjonsmetoden. Denne metoden gir i tillegg mulighet for å estimere usikkerheten i estimatene. Dette kan være svært viktig spesielt i større epidemiologiske studier.

Basert på våre gjennomgang av litteratur kan det synes som det er behov for å se nærmere på metoder for analyse av normale, reelle yrkeshygieniske måledata. Disse vil ofte være mer komplekse og sammensatte, enn det som kan fanges av en enkel log-normal fordeling. De vil ofte være flermodale, ha høy spredning, og ha verdier utenfor rapporteringsgrensene. Representative målinger vil i tillegg ofte inneholde reell “null”-eksponering, som ikke kan håndteres med den normale antagelsen av log-normal fordelte måledata. De studiene vi har gått gjennom synes ikke i tilstrekkelig grad å ha reflektert denne bredden i variasjonen i de yrkeshygieniske måledataene.

Referanser

Austigard, A. D., & Smedbold, H. T. (2018). Estimering av gjennomsnitt og 95-persentil i datasett med verdier under rapporteringsgrensen og i avkortede datasett. Hentet fra https://usercontent.one/wp/yrkeshygiene.no/wp-content/uploads/2021/04/Eksamensoppgave-IO8500-Analyse-av-data-under-rapporteringsgrensen-Austigard-og-Smedbold.pdf?media=1623824710

Ganser, G. H., & Hewett, P. (2010). An accurate substitution method for analyzing censored data. J Occup Environ Hyg., 7(4), 44. doi:https://doi.org/10.1080/15459621003609713

Hewett, P. (2014). A Strategy for Estimating the Mean from Small Datasets Containing Non-detects. Hentet fra www.easinc.co

Huynh, T., Quick, H., Ramachandran, G., Banerjee, S., Stenzel, M., Sandler, D. P., . . . Stewart, P. A. (2016). A Comparison of the beta-Substitution Method and a Bayesian Method for Analyzing Left-Censored Data. Ann Occup Hyg, 60(1), 56-73. https://doi.org/10.1093/annhyg/mev049

Huynh, T., Ramachandran, G., Banerjee, S., Monteiro, J., Stenzel, M., Sandler, D. P., . . . Stewart, P. A. (2014). Comparison of methods for analyzing left-censored occupational exposure data. Ann Occup Hyg, 58(9), 1126-1142. https://doi.org/10.1093/annhyg/meu067

Was this article helpful?
Dislike 0
Views: 102
X