samling av data From Wikipedia, the free encyclopedia
Et datasett eller en datamengde er en samling av data. Innen tabulare data vil et datasett korrespondere til en eller flere databasetabeller, hvor hver kolonne i en tabell representerer en variabel og hver rad representerer en oppføring (record). Datasettet lister opp verdier for hver av variablene, som for eksempel høyde og masse til et objekt, og gjør dette for hvert av medlemmene i datasettet. Datasett kan også bestå av en samling av dokumenter eller filer.[2]
Innen åpne data er et datasett en enhet for å måle informasjonen som er utgitt i et offentlig åpent datalager. Den europeiske åpne dataportalen aggregerer mer enn en halv million datasett.[3] Enkelte andre problemstillinger (som sanntids datakilder,[4] ikke-relasjonelle datasett, med mer) gjør det vanskelig å nå konsensus om dette.[4]
Det finnes flere karakteristikker som kan definere strukturen og egenskapene til et datasett, inkludert antall og typer attributter eller variabler, eller ulike statistiske fordelinger og -mål som gjelder for dem, eksempelvis standardavvik og kurtose.[5]
Verdiene kan være tall (typisk reelle tall eller heltall) som eksempelvis kan representere en persons høyde i centimeter, men kan også være nominelle data (altså ikke bestående av numeriske verdier) som for eksempel kan representere en persons etnisitet. Mer generelt kan verdiene være av hvilken som helst type så lenge det kan beskrives som et målenivå. Innenfor hver variabel er verdiene normalt av samme type, men det kan også være manglende verdier som bør indikeres på en eller annen måte.
Innen statistikk kommer datasett vanligvis fra faktiske observasjoner oppnådd ved prøvetaking av en statistisk populasjon, og hver rad korresponderer med observasjonene av ett element i den gitte populasjonen. Datasett kan også genereres av algoritmer for å teste visse typer programvare. Enkelte moderne programvarer for statistisk analyse som SPSS presenterer fortsatt dataene sine på den klassiske måten med datasett. Dersom det mangler data eller dataene fremstår mistenkelige kan imputasjon brukes for å fullføre datasettet.[6]
Det finnes flere klassiske datasett som er mye brukt i statistisk litteratur:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.