Benutzer:Annairah/Iris Datensatz

Der Iris Datensatz ist ein multivariater Datensatz, der 1936 von dem britischen Statistiker und Biologen Ronald Fisher in dem Paper The use of multiple measurements in taxonomic problems^[1] als Beispiel für den Einsatz einer Diskriminanzanalyse, eingeführt wurde. Es wird gelegentlich auch als Andersons Iris Datensatz bezeichnet, da Edgar Anderson die Daten für die Quantifizierung der morphologischen Variation der drei Arten der Iris sammelte.^[2] Zwei der drei Arten wurden auf der Halbinsel Gaspé gesammelt, "alle von der selben Wiese, gepflückt am selben Tag und zu der selben Zeit von der selben Person und dem selben Gerät vermessen".^[3]

Der Datensatz besteht aus 50 Proben von jeder der drei Arten der Iris (Iris setosa, Iris virginica and Iris versicolor). Vier Eigenschaften wurden für jede Probe vermessen: die Länge und Breite in Zentimetern der Kelchblätter und der Blütenblätter. Basieren auf der Kombination dieser vier Eigenschaften entwickelte Fisher ein Diskriminanzmodel um die Arten voneinander zu unterscheiden.

[1]

[2]

[3]