EDA Danych dotyczących Irysów¶
O Danych¶
Zbiór danych zawiera informacje o trzech gatunkach irysów: Iris setosa, Iris versicolor, i Iris virginica.
| Iris setosa | Iris versicolor | Iris virginica |
|---|---|---|
![]() |
![]() |
![]() |
Dane obejmują pomiary czterech cech: długość i szerokość działki kielicha oraz długość i szerokość płatka.
| Budowa kwiatu |
|---|
Każdy wiersz w zbiorze danych reprezentuje pojedynczy kwiat, a wartości pomiarów są podane w centymetrach.
Zbiór składa się z 150 próbek, po 50 dla każdego gatunku, i jest szeroko stosowany jako podstawowy zbiór danych do testowania algorytmów klasyfikacji oraz w nauce o danych i uczeniu maszynowym.
Kolumny:
- długość kielicha (sepal length) - Długość kielicha w cm
- szerokość kielicha (sepal width) - Szerokość kielicha w cm
- długość płatka (petal length) - Długość płatka w cm
- szerokość płatka (petal width) - Szerokość płatka w cm
- klasa (class) - Klasa irysa (setosa, versicolor, virginica)
Ogólny przegląd danych¶
Sprawdzam losowe rekordy w celu uchwyceniu nieprawidłowości, uruchamiam kilka razy
| długość kielicha (sepal length) | szerokość kielicha (sepal width) | długość płatka (petal length) | szerokość płatka (petal width) | klasa (class) | |
|---|---|---|---|---|---|
| 55 | 5.7 | 2.8 | 4.5 | 1.3 | Iris-versicolor |
| 64 | 5.6 | 2.9 | 3.6 | 1.3 | Iris-versicolor |
| 21 | 5.1 | 3.7 | 1.5 | 0.4 | Iris-setosa |
| 101 | 5.8 | 2.7 | 5.1 | 1.9 | Iris-virginica |
| 112 | 6.8 | 3.0 | 5.5 | 2.1 | Iris-virginica |
Nie zauważyłem żadnych anomalii
Analiza brakujących wartości¶
<class 'pandas.core.frame.DataFrame'> RangeIndex: 150 entries, 0 to 149 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 długość kielicha (sepal length) 150 non-null float64 1 szerokość kielicha (sepal width) 150 non-null float64 2 długość płatka (petal length) 150 non-null float64 3 szerokość płatka (petal width) 150 non-null float64 4 klasa (class) 150 non-null object dtypes: float64(4), object(1) memory usage: 6.0+ KB
Dane wyglądają być OK - nie ma danych pustych, zamieniłem nazwy kolumn aby łatwiej było na nich operować
Kolumny:
- kd - długość kielicha (sepal length) - Długość kielicha w cm
- ks - szerokość kielicha (sepal width) - Szerokość kielicha w cm
- pd - długość płatka (petal length) - Długość płatka w cm
- ps - szerokość płatka (petal width) - Szerokość płatka w cm
- k - klasa (class)** - Klasa irysa (setosa, versicolor, virginica)
| kd | ks | pd | ps | k | |
|---|---|---|---|---|---|
| 55 | 5.7 | 2.8 | 4.5 | 1.3 | Iris-versicolor |
| 64 | 5.6 | 2.9 | 3.6 | 1.3 | Iris-versicolor |
| 21 | 5.1 | 3.7 | 1.5 | 0.4 | Iris-setosa |
| 101 | 5.8 | 2.7 | 5.1 | 1.9 | Iris-virginica |
| 112 | 6.8 | 3.0 | 5.5 | 2.1 | Iris-virginica |
Sprawdzam dane unikalne
kd 35 ks 23 pd 43 ps 22 k 3 dtype: int64
Analiza rozkładu ilościowego wg gatunku¶
| kd | ks | pd | ps | |
|---|---|---|---|---|
| k | ||||
| Iris-setosa | 50 | 50 | 50 | 50 |
| Iris-versicolor | 50 | 50 | 50 | 50 |
| Iris-virginica | 50 | 50 | 50 | 50 |
k Iris-setosa 50 Iris-versicolor 50 Iris-virginica 50 Name: kd, dtype: int64
Z każdego rodzaju irysów w zbiorze danych 150 znajduje się równo po 50
Analiza pojedyńczych zmiennych¶
Przyjąłem, że jednym z najważniejszych wskaźników jest wielkość płatka
Sprawdzam, czy jest zależność długości kielicha do długości płatka
Tak im dłuższy kielich, tym dłuższy płatek
Sprawdzam, czy jest zależność szerokości płatka do jego długości
Tak im szerszy płatek, tym jest dłuższy
Maksymalne wartości cech dla różnych gatunków Irysów¶
Dla rodzaju Irys setoasa max długość płatka nie przekracza 2 cm
Sprawdźmy szczegółowo
| kd | ks | pd | ps | |
|---|---|---|---|---|
| k | ||||
| Iris-setosa | 5.0 | 3.4 | 1.50 | 0.2 |
| Iris-versicolor | 5.9 | 2.8 | 4.35 | 1.3 |
| Iris-virginica | 6.5 | 3.0 | 5.55 | 2.0 |
Analiza relacji między zmiennymi¶
Macierz korelacji¶
Można zauważyć dużą zależność pomiędzy długością i szerokośćią płatka, jak i długością kielicha, a długością i szerokością płatka
Rozkład długości i szerokości płatków i kielichów według gatunków¶
<Figure size 1000x600 with 0 Axes>
Analiza wartości odstających¶
Uwagi:¶
Największe kwiaty posiada rodzaj Iris-virginica
- max długość płatków 6.9
- max szerokość płatków 2.5
Potem rodzaj Iris-versicolor
- max długość płatków 5.1
- max szerokość płatków 1.8
Najmniejsze kwiaty posiada rodzaj Iris-setosa
- max długość płatków 1.9
- max szerokość płatków 0.6
Raport z analizy EDA dla zbioru Iris:¶
- Dane zawierają 150 obserwacji podzielonych na trzy gatunki: Iris-setosa, Iris-versicolor, Iris-virginica.
- Nie znaleziono brakujących danych.
- Cechy numeryczne wykazują różnice w rozkładzie pomiędzy gatunkami, co zostało pokazane na wykresach pudełkowych.
- Korelacja między długością i szerokością płatków jest bardzo silna, co sugeruje możliwość uproszczenia modelu predykcyjnego.
- Iris-setosa jest wyraźnie odróżnialna od dwóch pozostałych gatunków pod względem wielkości płatków i kielichów.
Rekomendacje:¶
- Wykorzystać cechy petal_length i petal_width do klasyfikacji gatunków, gdyż mają najwyższą wartość separacyjną.
- Rozważyć zastosowanie PCA (analizy głównych składowych) w celu redukcji wymiarów.


