Zadanie domowe – Iris – moduł 10 zad. 1¶

Robert Birek¶

EDA Danych dotyczących Irysów¶

O Danych¶

Zbiór danych zawiera informacje o trzech gatunkach irysów: Iris setosa, Iris versicolor, i Iris virginica.

Iris setosa Iris versicolor Iris virginica
Iris setosa Iris versicolor Iris virginica

Dane obejmują pomiary czterech cech: długość i szerokość działki kielicha oraz długość i szerokość płatka.

Budowa kwiatu
Budowa kwiatu

Każdy wiersz w zbiorze danych reprezentuje pojedynczy kwiat, a wartości pomiarów są podane w centymetrach.

Zbiór składa się z 150 próbek, po 50 dla każdego gatunku, i jest szeroko stosowany jako podstawowy zbiór danych do testowania algorytmów klasyfikacji oraz w nauce o danych i uczeniu maszynowym.

Kolumny:

  • długość kielicha (sepal length) - Długość kielicha w cm
  • szerokość kielicha (sepal width) - Szerokość kielicha w cm
  • długość płatka (petal length) - Długość płatka w cm
  • szerokość płatka (petal width) - Szerokość płatka w cm
  • klasa (class) - Klasa irysa (setosa, versicolor, virginica)

Ogólny przegląd danych¶

Sprawdzam losowe rekordy w celu uchwyceniu nieprawidłowości, uruchamiam kilka razy

długość kielicha (sepal length) szerokość kielicha (sepal width) długość płatka (petal length) szerokość płatka (petal width) klasa (class)
55 5.7 2.8 4.5 1.3 Iris-versicolor
64 5.6 2.9 3.6 1.3 Iris-versicolor
21 5.1 3.7 1.5 0.4 Iris-setosa
101 5.8 2.7 5.1 1.9 Iris-virginica
112 6.8 3.0 5.5 2.1 Iris-virginica

Nie zauważyłem żadnych anomalii

Analiza brakujących wartości¶

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   długość kielicha (sepal length)   150 non-null    float64
 1   szerokość kielicha (sepal width)  150 non-null    float64
 2   długość płatka (petal length)     150 non-null    float64
 3   szerokość płatka (petal width)    150 non-null    float64
 4   klasa (class)                     150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB

Dane wyglądają być OK - nie ma danych pustych, zamieniłem nazwy kolumn aby łatwiej było na nich operować

Kolumny:

  • kd - długość kielicha (sepal length) - Długość kielicha w cm
  • ks - szerokość kielicha (sepal width) - Szerokość kielicha w cm
  • pd - długość płatka (petal length) - Długość płatka w cm
  • ps - szerokość płatka (petal width) - Szerokość płatka w cm
  • k - klasa (class)** - Klasa irysa (setosa, versicolor, virginica)
kd ks pd ps k
55 5.7 2.8 4.5 1.3 Iris-versicolor
64 5.6 2.9 3.6 1.3 Iris-versicolor
21 5.1 3.7 1.5 0.4 Iris-setosa
101 5.8 2.7 5.1 1.9 Iris-virginica
112 6.8 3.0 5.5 2.1 Iris-virginica

Sprawdzam dane unikalne

kd    35
ks    23
pd    43
ps    22
k      3
dtype: int64

Analiza rozkładu ilościowego wg gatunku¶

kd ks pd ps
k
Iris-setosa 50 50 50 50
Iris-versicolor 50 50 50 50
Iris-virginica 50 50 50 50
k
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: kd, dtype: int64
No description has been provided for this image

Z każdego rodzaju irysów w zbiorze danych 150 znajduje się równo po 50

Analiza pojedyńczych zmiennych¶

No description has been provided for this image

Przyjąłem, że jednym z najważniejszych wskaźników jest wielkość płatka

Sprawdzam, czy jest zależność długości kielicha do długości płatka

No description has been provided for this image

Tak im dłuższy kielich, tym dłuższy płatek

Sprawdzam, czy jest zależność szerokości płatka do jego długości

No description has been provided for this image

Tak im szerszy płatek, tym jest dłuższy

Maksymalne wartości cech dla różnych gatunków Irysów¶

No description has been provided for this image

Dla rodzaju Irys setoasa max długość płatka nie przekracza 2 cm

Sprawdźmy szczegółowo

kd ks pd ps
k
Iris-setosa 5.0 3.4 1.50 0.2
Iris-versicolor 5.9 2.8 4.35 1.3
Iris-virginica 6.5 3.0 5.55 2.0

Analiza relacji między zmiennymi¶

Macierz korelacji¶

No description has been provided for this image

Można zauważyć dużą zależność pomiędzy długością i szerokośćią płatka, jak i długością kielicha, a długością i szerokością płatka

Rozkład długości i szerokości płatków i kielichów według gatunków¶

<Figure size 1000x600 with 0 Axes>
No description has been provided for this image

Analiza wartości odstających¶

No description has been provided for this image

Uwagi:¶

Największe kwiaty posiada rodzaj Iris-virginica

  • max długość płatków 6.9
  • max szerokość płatków 2.5

Potem rodzaj Iris-versicolor

  • max długość płatków 5.1
  • max szerokość płatków 1.8

Najmniejsze kwiaty posiada rodzaj Iris-setosa

  • max długość płatków 1.9
  • max szerokość płatków 0.6

Raport z analizy EDA dla zbioru Iris:¶

  • Dane zawierają 150 obserwacji podzielonych na trzy gatunki: Iris-setosa, Iris-versicolor, Iris-virginica.
  • Nie znaleziono brakujących danych.
  • Cechy numeryczne wykazują różnice w rozkładzie pomiędzy gatunkami, co zostało pokazane na wykresach pudełkowych.
  • Korelacja między długością i szerokością płatków jest bardzo silna, co sugeruje możliwość uproszczenia modelu predykcyjnego.
  • Iris-setosa jest wyraźnie odróżnialna od dwóch pozostałych gatunków pod względem wielkości płatków i kielichów.

Rekomendacje:¶

  • Wykorzystać cechy petal_length i petal_width do klasyfikacji gatunków, gdyż mają najwyższą wartość separacyjną.
  • Rozważyć zastosowanie PCA (analizy głównych składowych) w celu redukcji wymiarów.