# sekcja importowa

import pandas as pd
import os
import itertools
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# wczytanie bazy danych, tworzenie DataFrame

df = pd.read_csv('25__iris.csv', sep=",", encoding='utf8')

# podstawowe informacje o DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   długość kielicha (sepal length)   150 non-null    float64
 1   szerokość kielicha (sepal width)  150 non-null    float64
 2   długość płatka (petal length)     150 non-null    float64
 3   szerokość płatka (petal width)    150 non-null    float64
 4   klasa (class)                     150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB

# lista kolumn
df.columns

Index(['długość kielicha (sepal length)', 'szerokość kielicha (sepal width)',
       'długość płatka (petal length)', 'szerokość płatka (petal width)',
       'klasa (class)'],
      dtype='object')

# kilka losowych rekordow, zeby zorientowac sie z czym mamy do czynienia
df.sample(5)

# sprawdzenie ilosci unikatowych wartosci
df.nunique()

długość kielicha (sepal length)     35
szerokość kielicha (sepal width)    23
długość płatka (petal length)       43
szerokość płatka (petal width)      22
klasa (class)                        3
dtype: int64

# sprawdzenie brakujacych wartosci
df.isnull().sum()

długość kielicha (sepal length)     0
szerokość kielicha (sepal width)    0
długość płatka (petal length)       0
szerokość płatka (petal width)      0
klasa (class)                       0
dtype: int64

# sprawdzenie liczby rekordow dla kazdego gatunku irysa
df['klasa (class)'].value_counts()

Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: klasa (class), dtype: int64

# podstawowe statystyki
df.describe().round(2).T

# pogrupowanie danych wedlug gatunkow
pd.set_option('max_colwidth', None)
grouped = df.groupby('klasa (class)', as_index=False)

statystyki_gatunkami = grouped.agg(['mean', 'std', 'min', 'max']).round(2)
statystyki_gatunkami

# tworzenie macierzy wykresow z 1 wierszem i 4 kolumnami
fig, axes = plt.subplots(1, 4, figsize=(18, 4))
columns = df.columns[0:4]

# rysowanie linii KDE
for i, col in enumerate(columns):
    sns.kdeplot(data=df, x=col, hue=df.columns[4], ax=axes[i])

# tworzenie macierzy wykresow z 1 wierszem i 4 kolumnami

fig, axes = plt.subplots(1, 4, figsize=(18, 4))
columns = df.columns[0:4]
fig.suptitle('Boxploty poszczegolnych cech kwiatu podzielone na klasy (gatunki)', fontsize=20)

# rysowanie boxplotow
for i, col in enumerate(columns):
       sns.boxplot(x='klasa (class)', y=col, data=df, ax=axes[i])

# tworzenie wszystkich mozliwych scatterplotow, zeby zobaczyc jak wyglada rozklad danych

# zmienna do sledzenia, ktory subplot program aktualnie rysuje
current_subplot = 1
hue = df['klasa (class)']
# tworzenie macierzy wykresow
fig, axs = plt.subplots(2, 6, figsize=(18, 6))

# rysowanie scatterplotow
for i, j in itertools.product(range(len(columns)), range(len(columns))):
    if i != j:
        ax = axs[(current_subplot - 1) // 6, (current_subplot - 1) % 6]
        sns.scatterplot(data=df, x=columns[j], y=columns[i], hue=hue, ax=ax, legend=False)
        current_subplot += 1
        if current_subplot > 12:
            break
    if current_subplot > 12:
        break
        
plt.tight_layout()
plt.show()

# tworzenie jednego, duzego wykresu scatterplot z wybrana para danych

plt.figure(figsize=(10, 8))

# odsiewanie z bazy 'Iris-setosa'
filtered_df = df[~df['klasa (class)'].isin(['Iris-setosa'])]

# agresywne i mocno kontrastowe kolorki
colors = {'Iris-versicolor': 'red', 'Iris-virginica': 'green'}

# rysowanie wykresu
plt.scatter(filtered_df['szerokość płatka (petal width)'], 
            filtered_df['długość płatka (petal length)'],  
            c=filtered_df['klasa (class)'].map(colors), 
            label=filtered_df['klasa (class)'])

# etykiety i tytul
plt.xlabel('Szerokosc platka (petal width)')
plt.ylabel('Dlugosc platka (petal length)')
plt.title('Scatter Plot: Szerokosc platka (petal width) i Dlugosc platka (petal length)')
plt.legend(handles=[plt.Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in colors.items()])
plt.grid(True)

# pionowy odcinek od osi x dla wartosci 1.7 do wysokosci 5.1
plt.axvline(x=1.7, ymin=0, ymax=(5.1-plt.ylim()[0])/(plt.ylim()[1]-plt.ylim()[0]), color='black', linestyle='--')

# poziomy odcinek od osi y na wysokosci 5.1 do wartosci 1.7
plt.axhline(y=5.1, xmin=0, xmax=(1.7-plt.xlim()[0])/(plt.xlim()[1]-plt.xlim()[0]), color='black', linestyle='--')

plt.show()

# policzenie ilosci blednie zaklasyfikowanych danych

df[(df['długość płatka (petal length)'] <= 5.1) & (df['szerokość płatka (petal width)'] <= 1.7) & (df['klasa (class)'] == 'Iris-virginica')].value_counts()

długość kielicha (sepal length)  szerokość kielicha (sepal width)  długość płatka (petal length)  szerokość płatka (petal width)  klasa (class) 
4.9                              2.5                               4.5                            1.7                             Iris-virginica    1
6.0                              2.2                               5.0                            1.5                             Iris-virginica    1
6.3                              2.8                               5.1                            1.5                             Iris-virginica    1
dtype: int64

	długość kielicha (sepal length)	szerokość kielicha (sepal width)	długość płatka (petal length)	szerokość płatka (petal width)	klasa (class)
47	4.6	3.2	1.4	0.2	Iris-setosa
147	6.5	3.0	5.2	2.0	Iris-virginica
80	5.5	2.4	3.8	1.1	Iris-versicolor
41	4.5	2.3	1.3	0.3	Iris-setosa
145	6.7	3.0	5.2	2.3	Iris-virginica

	count	mean	std	min	25%	50%	75%	max
długość kielicha (sepal length)	150.0	5.84	0.83	4.3	5.1	5.80	6.4	7.9
szerokość kielicha (sepal width)	150.0	3.05	0.43	2.0	2.8	3.00	3.3	4.4
długość płatka (petal length)	150.0	3.76	1.76	1.0	1.6	4.35	5.1	6.9
szerokość płatka (petal width)	150.0	1.20	0.76	0.1	0.3	1.30	1.8	2.5

	długość kielicha (sepal length)				szerokość kielicha (sepal width)				długość płatka (petal length)				szerokość płatka (petal width)
	mean	std	min	max	mean	std	min	max	mean	std	min	max	mean	std	min	max
klasa (class)
Iris-setosa	5.01	0.35	4.3	5.8	3.42	0.38	2.3	4.4	1.46	0.17	1.0	1.9	0.24	0.11	0.1	0.6
Iris-versicolor	5.94	0.52	4.9	7.0	2.77	0.31	2.0	3.4	4.26	0.47	3.0	5.1	1.33	0.20	1.0	1.8
Iris-virginica	6.59	0.64	4.9	7.9	2.97	0.32	2.2	3.8	5.55	0.55	4.5	6.9	2.03	0.27	1.4	2.5

Zadanie: Analiza danych dotyczących Irysów¶

1.1 Wnioski plynace z analizy podstawowych informacji o danych:¶

Hipoteza:¶

1.2 Analiza podstawowych informacji o danych:¶

2.1 Wnioski z analizy pojedynczych zmiennych:¶

Hipoteza¶

2.2 Analiza pojedynczych zmiennych:¶

3.1 Wnioski z analizy zaleznosci pomiedzy danymi:¶

3.2 Analiza zaleznosci pomiedzy danymi:¶

4.1 Koncowe wnioski z analizy danych:¶