Top Qs
Linha do tempo
Chat
Contexto

Conjunto de dados flor Iris

Da Wikipédia, a enciclopédia livre

Conjunto de dados flor Iris
Remove ads
Remove ads

O conjunto de dados flor Iris ou conjunto de dados Iris de Fisher é um conjunto de dados multivariados introduzido pelo estatístico e biólogo britânico Ronald Fisher em seu artigo de 1936, O uso de múltiplas medições em problemas taxonômicos, como um exemplo de análise discriminante linear.[1] Às vezes, é chamado de conjunto de dados da íris de Anderson porque Edgar Anderson coletou os dados para quantificar a variação morfológica das flores da íris de três espécies relacionadas.[2] Duas das três espécies foram coletadas na Península de Gaspé, "todas do mesmo campo, colhidas no mesmo dia e medidas ao mesmo tempo pela mesma pessoa com a mesma aparelho".[3]

Thumb
Diferenças entre flores de Íris

O conjunto de dados consiste em 50 amostras de cada uma das três espécies de Iris ( Iris setosa, Iris virginica e Iris versicolor). Quatro variáveis foram medidas em cada amostra: o comprimento e a largura das sépalas e pétalas, em centímetros. Com base na combinação dessas quatro características, Fisher desenvolveu um modelo discriminante linear para distinguir as espécies umas das outras.

Remove ads

Uso do conjunto de dados

Resumir
Perspectiva
Thumb
Agrupamento de meios k insatisfatório (os dados não podem ser agrupados nas classes conhecidas) e espécies reais visualizadas usando ELKI
Thumb
Um exemplo do chamado "mapa do metrô" para o conjunto de dados Iris .[4] Apenas uma pequena fração de Iris-virginica é misturada com Iris-versicolor . Todas as outras amostras das diferentes espécies de íris pertencem aos diferentes nós.

Com base no modelo discriminante linear de Fisher, esse conjunto de dados se tornou um caso de teste típico para muitas técnicas de classificação estatística em aprendizado de máquina, como máquinas de vetores de suporte .[5]

Thumb
Gráfico de dispersão do conjunto de dados

O uso desse conjunto de dados na análise de cluster, no entanto, não é comum, pois o conjunto de dados contém apenas dois clusters com uma separação bastante óbvia. Um dos aglomerados contém Iris setosa, enquanto o outro aglomerado contém Iris virginica e Iris versicolor e não é separável sem as informações de espécies utilizadas por Fisher. Isso torna o conjunto de dados um bom exemplo para explicar a diferença entre técnicas supervisionadas e não supervisionadas na mineração de dados : o modelo discriminante linear de Fisher só pode ser obtido quando as espécies de objetos são conhecidas: rótulos e agrupamentos de classes não são necessariamente os mesmos.[6]

No entanto, todas as três espécies de íris são separáveis na projeção no componente principal não linear e ramificado.[7] O conjunto de dados é aproximado pela árvore mais próxima, com alguma penalidade pelo número excessivo de nós, flexão e alongamento. Em seguida, o chamado "mapa do metrô" é construído.[4] Os pontos de dados são projetados no nó mais próximo. Para cada nó é preparado o diagrama de torta dos pontos projetados. A área da torta é proporcional ao número de pontos projetados. Fica claro no diagrama (à esquerda) que a maioria absoluta das amostras das diferentes espécies de íris pertence aos diferentes nós. Apenas uma pequena fração da Iris-virginica é misturada com Iris-versicolor (os nós azul esverdeado misturados no diagrama). Portanto, as três espécies de Iris (Iris setosa, Iris virginica e Iris versicolor) são separáveis pelos procedimentos não supervisionados da análise não linear de componentes principais. Para discriminá-los, basta selecionar os nós correspondentes na árvore principal.

Remove ads

Conjunto de dados

Resumir
Perspectiva
Thumb
Iris setosa

O conjunto de dados contém um conjunto de 150 registros com cinco atributos - comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala e espécies.

Thumb
Iris versicolor
Thumb
Iris virginica
Thumb
Biplot Spectramap do conjunto de dados de íris de Fisher
Mais informação ID, Comprimento sépala ...

O conjunto de dados da íris é amplamente usado como um conjunto de dados para iniciantes para fins de aprendizado de máquina. O conjunto de dados está incluído no R (linguagem de programação) base e no Python pacote de aprendizado de máquina Scikit-learn, para que os usuários possam acessá-lo sem precisar encontrar uma fonte para ele.

O código R (linguagem de programação) seguir ilustra o uso.

iris
class(iris)
# "data.frame"

iris3
class(iris3)
#"array"

O código Python seguir ilustra o uso.

from sklearn.datasets import load_iris

iris = load_iris()
iris

Este código fornece:

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3., 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],

Várias versões do conjunto de dados foram publicadas.[8]

Remove ads

Ver também

Referências

Referências

  1. R. A. Fisher (1936). «The use of multiple measurements in taxonomic problems». Annals of Eugenics. 7: 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x |hdl-access= requer |hdl= (ajuda)
  2. Edgar Anderson (1936). «The species problem in Iris». Annals of the Missouri Botanical Garden. 23: 457–509. JSTOR 2394164. doi:10.2307/2394164
  3. Edgar Anderson (1935). «The irises of the Gaspé Peninsula». Bulletin of the American Iris Society. 59: 2–5
  4. A. N. Gorban, A. Zinovyev. Principal manifolds and graphs in practice: from molecular biology to dynamical systems, International Journal of Neural Systems, Vol. 20, No. 3 (2010) 219–232.
  5. Ines Färber, Stephan Günnemann, Hans-Peter Kriegel, Peer Kröger, Emmanuel Müller, Erich Schubert, Thomas Seidl, Arthur Zimek (2010). (PDF) http://eecs.oregonstate.edu/research/multiclust/Evaluation-4.pdf Em falta ou vazio |título= (ajuda)
  6. A.N. Gorban, N.R. Sumner, and A.Y. Zinovyev, Topological grammars for data approximation, Applied Mathematics Letters Volume 20, Issue 4 (2007), 382-386.
  7. Bezdek, J.C. and Keller, J.M. and Krishnapuram, R. and Kuncheva, L.I. and Pal, N.R. (1999). «Will the real iris data please stand up?». IEEE Transactions on Fuzzy Systems. 7 (3): 368–369. doi:10.1109/91.771092
Remove ads

Ligações externas

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads