import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

pd.set_option('display.max_columns', None)

df = pd.read_csv('26__titanic.csv', sep=",")
df

# Informacje o dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1310 entries, 0 to 1309
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   float64
 1   survived   1309 non-null   float64
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   float64
 6   parch      1309 non-null   float64
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(7), object(7)
memory usage: 143.4+ KB

# Liczba unikalnych wartości w każdej kolumnie
unique_values = df.nunique()
print("Liczba unikalnych wartości w każdej kolumnie:")
print(unique_values)

Liczba unikalnych wartości w każdej kolumnie:
pclass          3
survived        2
name         1307
sex             2
age            98
sibsp           7
parch           8
ticket        929
fare          281
cabin         186
embarked        3
boat           27
body          121
home.dest     369
dtype: int64

# Liczba brakujących wartości w każdej kolumnie
missing_values = df.isnull().sum()
print("Liczba brakujących wartości w każdej kolumnie:")
print(missing_values)

Liczba brakujących wartości w każdej kolumnie:
pclass          1
survived        1
name            1
sex             1
age           264
sibsp           1
parch           1
ticket          1
fare            2
cabin        1015
embarked        3
boat          824
body         1189
home.dest     565
dtype: int64

# Usunięcie kolumn 'ticket', 'cabin', 'boat', 'body' i 'home.dest' z dataframe
df.drop(columns=['ticket', 'cabin', 'boat', 'body', 'home.dest'], inplace=True)

# Ponowne sprawdzenie brakujących wartości w każdej kolumnie
missing_values = df.isnull().sum()
print("Liczba brakujących wartości w każdej kolumnie po usunięciu niektórych kolumn:")
print(missing_values)

Liczba brakujących wartości w każdej kolumnie po usunięciu niektórych kolumn:
pclass        1
survived      1
name          1
sex           1
age         264
sibsp         1
parch         1
fare          2
embarked      3
dtype: int64

# Uzupełnienie brakujących wartości w kolumnie `age` medianą wieku
df['age'].fillna(df['age'].median(), inplace=True)

# Uzupełnienie brakujących wartości w kolumnie `fare` medianą ceny biletu
df['fare'].fillna(df['fare'].median(), inplace=True)

# Uzupełnienie brakujących wartości w kolumnie `embarked` najczęstszą wartością
df['embarked'].fillna(df['embarked'].mode()[0], inplace=True)

# Uzupełnienie brakujących wartości w kolumnie `pclass` najczęstszą wartością
df['pclass'].fillna(df['pclass'].mode()[0], inplace=True)

# Uzupełnienie brakujących wartości w kolumnie `survived` najczęstszą wartością
df['survived'].fillna(df['survived'].mode()[0], inplace=True)

# Uzupełnienie brakujących wartości w kolumnie `sex` najczęstszą wartością
df['sex'].fillna(df['sex'].mode()[0], inplace=True)

# Uzupełnienie brakujących wartości w kolumnie `sibsp` najczęstszą wartością
df['sibsp'].fillna(df['sibsp'].mode()[0], inplace=True)

# Uzupełnienie brakujących wartości w kolumnie `parch` najczęstszą wartością
df['parch'].fillna(df['parch'].mode()[0], inplace=True)

# Zastąpienie brakujących wartości w kolumnie `name` wartością 'Unknown'
df['name'].fillna('Unknown', inplace=True)

# Ponowne sprawdzenie brakujących wartości w każdej kolumnie
missing_values = df.isnull().sum()
print("Liczba brakujących wartości w każdej kolumnie po uzupełnieniu:")
print(missing_values)

Liczba brakujących wartości w każdej kolumnie po uzupełnieniu:
pclass      0
survived    0
name        0
sex         0
age         0
sibsp       0
parch       0
fare        0
embarked    0
dtype: int64

# Połączenie kolumn `sibsp` i `parch` w nową kolumnę `family_size`
df['family_size'] = df['sibsp'] + df['parch']

# Usunięcie kolumn `sibsp` i `parch`
df.drop(columns=['sibsp', 'parch'], inplace=True)

# Mapowanie dla kolumny `sex`
sex_mapping = {'male': 0, 'female': 1}
df['sex'] = df['sex'].map(sex_mapping)

# Sprawdzenie unikalnych wartości w kolumnie `embarked`
unique_embarked = df['embarked'].dropna().unique()
unique_embarked_sorted = sorted(unique_embarked)  # Sortowanie dla spójności

# Mapowanie dla kolumny `embarked`
embarked_mapping = {port: idx for idx, port in enumerate(unique_embarked_sorted)}
df['embarked'] = df['embarked'].map(embarked_mapping)

# Wyświetlenie zaktualizowanych wartości w kolumnach `sex` i `embarked`
print("Updated 'sex' column values:\n", df['sex'].unique())
print("Updated 'embarked' column values:\n", df['embarked'].unique())

# Wyświetlenie mapowania
print("Sex mapping:", sex_mapping)
print("Embarked mapping:", embarked_mapping)

# Stworzenie kopii ramki danych do PCA
df_pca = df.copy()

Updated 'sex' column values:
 [1 0]
Updated 'embarked' column values:
 [2 0 1]
Sex mapping: {'male': 0, 'female': 1}
Embarked mapping: {'C': 0, 'Q': 1, 'S': 2}

# Podsumowanie kolumn numerycznych
numerical_summary = df.describe()

# Wyświetlenie wyników
print("Podsumowanie kolumn numerycznych:")
print(numerical_summary)

Podsumowanie kolumn numerycznych:
            pclass     survived          sex          age         fare  \
count  1310.000000  1310.000000  1310.000000  1310.000000  1310.000000   
mean      2.295420     0.381679     0.355725    29.502036    33.266714   
std       0.837742     0.485984     0.478915    12.900383    51.724348   
min       1.000000     0.000000     0.000000     0.166700     0.000000   
25%       2.000000     0.000000     0.000000    22.000000     7.895800   
50%       3.000000     0.000000     0.000000    28.000000    14.454200   
75%       3.000000     1.000000     1.000000    35.000000    31.275000   
max       3.000000     1.000000     1.000000    80.000000   512.329200   

          embarked  family_size  
count  1310.000000  1310.000000  
mean      1.493893     0.883206  
std       0.814053     1.583222  
min       0.000000     0.000000  
25%       1.000000     0.000000  
50%       2.000000     0.000000  
75%       2.000000     1.000000  
max       2.000000    10.000000

# Utworzenie wykresu
plt.figure(figsize=(20, 6))

# Histogram wieku
plt.subplot(1, 2, 1)
sns.histplot(df['age'], bins=30, kde=True)
plt.title('Rozkład wieku pasażerów')
plt.xlabel('Wiek')
plt.ylabel('Liczba pasażerów')

# Histogram ceny biletu
plt.subplot(1, 2, 2)
sns.histplot(df['fare'], bins=30, kde=True)
plt.title('Rozkład ceny biletu')
plt.xlabel('Cena biletu')
plt.ylabel('Liczba pasażerów')

plt.show()

# Ustalenie palety kolorów
palette = sns.color_palette("Blues", 6)

# Utworzenie wykresów
plt.figure(figsize=(20, 12))

# Countplot klasy
plt.subplot(2, 3, 1)
sns.countplot(data=df, x='pclass', palette=palette)
plt.title('Liczba pasażerów w każdej klasie')
plt.xlabel('Klasa')
plt.ylabel('Liczba pasażerów')

# Countplot płci
plt.subplot(2, 3, 2)
sns.countplot(data=df, x='sex', palette=palette)
plt.title('Liczba pasażerów według płci')
plt.xlabel('Płeć')
plt.ylabel('Liczba pasażerów')

# Countplot portu zaokrętowania
plt.subplot(2, 3, 3)
sns.countplot(data=df, x='embarked', palette=palette)
plt.title('Liczba pasażerów według portu zaokrętowania')
plt.xlabel('Port zaokrętowania')
plt.ylabel('Liczba pasażerów')

# Countplot liczby członków rodziny
plt.subplot(2, 3, 4)
sns.countplot(data=df, x='family_size', palette=palette)
plt.title('Liczba pasażerów według liczby członków rodziny')
plt.xlabel('Liczba członków rodziny')
plt.ylabel('Liczba pasażerów')

# Countplot przeżywalności
plt.subplot(2, 3, 5)
sns.countplot(data=df, x='survived', palette=palette)
plt.title('Liczba pasażerów, którzy nie przeżyli/przeżyli')
plt.xlabel('Przeżycie')
plt.ylabel('Liczba pasażerów')

plt.show()

# Funkcja do agregacji
def aggregate_by_class(df):
    # Grupowanie przez `pclass`
    aggregated_data = df.groupby('pclass').agg({
        'age': ['mean', 'std'],
        'sex': ['mean', 'std'],
        'family_size': ['mean', 'std'],
        'fare': ['mean', 'std'],
        'embarked': ['mean', 'std'],
        'survived': ['mean', 'std']
    }).reset_index()

    # Zmiana nazw kolumn
    aggregated_data.columns = ['pclass', 'wiek_mean', 'wiek_std', 'plec_mean', 'plec_std',
                               'liczba_czlonkow_rodziny_mean', 'liczba_czlonkow_rodziny_std',
                               'cena_biletu_mean', 'cena_biletu_std',
                               'port_mean', 'port_std', 'przezycie_mean', 'przezycie_std']
    return aggregated_data

# Agregacja danych
aggregated_data = aggregate_by_class(df)

# Wyświetlenie wyników agregacji
print("Agregacja danych ze względu na klasę:")
print(aggregated_data)

# Lista cech do analizy
features = ['wiek', 'plec', 'liczba_czlonkow_rodziny', 'cena_biletu', 'port', 'przezycie']

# Liczba wierszy i kolumn dla wykresów
n_cols = 3
n_rows = int(np.ceil(len(features) / n_cols))

# Tworzenie wykresów średnich wartości z odchyleniami standardowymi
fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, n_rows * 5))

for i, feature in enumerate(features):
    row = i // n_cols
    col = i % n_cols
    ax = axes[row, col]
    sns.barplot(data=aggregated_data, x='pclass', y=f'{feature}_mean',
                yerr=aggregated_data[f'{feature}_std'], ax=ax, palette='viridis')
    ax.set_title(f'Średnia wartość {feature} z odchyleniem standardowym według klasy')
    ax.set_xlabel('Klasa')
    ax.set_ylabel(f'Średnia wartość {feature}')
    ax.grid(False)  # Usunięcie siatki

# Usuwanie pustych wykresów
for j in range(i + 1, n_rows * n_cols):
    fig.delaxes(axes.flatten()[j])

# Ustawienie odstępów między wykresami
plt.tight_layout()

# Wyświetlenie wykresów
plt.show()

Agregacja danych ze względu na klasę:
   pclass  wiek_mean   wiek_std  plec_mean  plec_std  \
0     1.0  37.812436  14.116481   0.445820  0.497827   
1     2.0  29.419675  13.242086   0.382671  0.486919   
2     3.0  25.753521  10.146602   0.304225  0.460403   

   liczba_czlonkow_rodziny_mean  liczba_czlonkow_rodziny_std  \
0                      0.801858                     1.062224   
1                      0.761733                     1.029060   
2                      0.967606                     1.920219   

   cena_biletu_mean  cena_biletu_std  port_mean  port_std  przezycie_mean  \
0         87.508992        80.447178   1.117647  0.989902        0.619195   
1         21.179196        13.607122   1.772563  0.615828        0.429603   
2         13.306132        11.478297   1.556338  0.729440        0.254930   

   przezycie_std  
0       0.486338  
1       0.495915  
2       0.436129

# Funkcja do agregacji
def aggregate_by_sex(df):
    # Grupowanie przez `sex`
    aggregated_data = df.groupby('sex').agg({
        'age': ['mean', 'std'],
        'family_size': ['mean', 'std'],
        'fare': ['mean', 'std'],
        'embarked': ['mean', 'std'],
        'survived': ['mean', 'std']
    }).reset_index()

    # Zmiana nazw kolumn
    aggregated_data.columns = ['plec', 'wiek_mean', 'wiek_std', 'liczba_czlonkow_rodziny_mean', 'liczba_czlonkow_rodziny_std',
                               'cena_biletu_mean', 'cena_biletu_std', 'port_mean', 'port_std',
                               'przezycie_mean', 'przezycie_std']
    return aggregated_data

# Agregacja danych
aggregated_data_sex = aggregate_by_sex(df)

# Wyświetlenie wyników agregacji
print("Agregacja danych ze względu na płeć:")
print(aggregated_data_sex)

# Lista cech do analizy
features_sex = ['wiek', 'liczba_czlonkow_rodziny', 'cena_biletu', 'port', 'przezycie']

# Liczba wierszy i kolumn dla wykresów
n_cols = 3
n_rows = int(np.ceil(len(features_sex) / n_cols))

# Tworzenie wykresów średnich wartości z odchyleniami standardowymi
fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, n_rows * 5))

for i, feature in enumerate(features_sex):
    row = i // n_cols
    col = i % n_cols
    ax = axes[row, col]
    sns.barplot(data=aggregated_data_sex, x='plec', y=f'{feature}_mean',
                yerr=aggregated_data_sex[f'{feature}_std'], ax=ax, palette='viridis')
    ax.set_title(f'Średnia wartość {feature} z odchyleniem standardowym według płci')
    ax.set_xlabel('Płeć')
    ax.set_ylabel(f'Średnia wartość {feature}')
    ax.grid(False)  # Usunięcie siatki

# Usuwanie pustych wykresów
for j in range(i + 1, n_rows * n_cols):
    fig.delaxes(axes.flatten()[j])

# Ustawienie odstępów między wykresami
plt.tight_layout()

# Wyświetlenie wykresów
plt.show()

Agregacja danych ze względu na płeć:
   plec  wiek_mean   wiek_std  liczba_czlonkow_rodziny_mean  \
0     0  30.015502  12.652592                      0.661137   
1     1  28.572067  13.300806                      1.285408   

   liczba_czlonkow_rodziny_std  cena_biletu_mean  cena_biletu_std  port_mean  \
0                     1.456806         26.126875        42.440265   1.553318   
1                     1.719615         46.198097        63.292599   1.386266   

   port_std  przezycie_mean  przezycie_std  
0  0.787356        0.190758       0.393132  
1  0.850644        0.727468       0.445741

# Funkcja do agregacji
def aggregate_by_survived(df):
    # Grupowanie przez `survived`
    aggregated_data = df.groupby('survived').agg({
        'age': ['mean', 'std'],
        'family_size': ['mean', 'std'],
        'fare': ['mean', 'std'],
        'embarked': ['mean', 'std']
    }).reset_index()

    # Zmiana nazw kolumn
    aggregated_data.columns = ['przezycie', 'wiek_mean', 'wiek_std',
                               'liczba_czlonkow_rodziny_mean', 'liczba_czlonkow_rodziny_std',
                               'cena_biletu_mean', 'cena_biletu_std',
                               'port_mean', 'port_std']
    return aggregated_data

# Agregacja danych
aggregated_data_survived = aggregate_by_survived(df)

# Wyświetlenie wyników agregacji
print("Agregacja danych ze względu na przeżycie:")
print(aggregated_data_survived)

# Lista cech do analizy
features_survived = ['wiek', 'liczba_czlonkow_rodziny', 'cena_biletu', 'port']

# Liczba wierszy i kolumn dla wykresów
n_cols = 3
n_rows = int(np.ceil(len(features_survived) / n_cols))

# Tworzenie wykresów średnich wartości z odchyleniami standardowymi
fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, n_rows * 5))

for i, feature in enumerate(features_survived):
    row = i // n_cols
    col = i % n_cols
    ax = axes[row, col]
    sns.barplot(data=aggregated_data_survived, x='przezycie', y=f'{feature}_mean',
                yerr=aggregated_data_survived[f'{feature}_std'], ax=ax, palette='viridis')
    ax.set_title(f'Średnia wartość {feature} z odchyleniem standardowym według przeżycia')
    ax.set_xlabel('Przeżycie')
    ax.set_ylabel(f'Średnia wartość {feature}')
    ax.grid(False)  # Usunięcie siatki

# Usuwanie pustych wykresów
for j in range(i + 1, n_rows * n_cols):
    fig.delaxes(axes.flatten()[j])

# Ustawienie odstępów między wykresami
plt.tight_layout()

# Wyświetlenie wykresów
plt.show()

Agregacja danych ze względu na przeżycie:
   przezycie  wiek_mean   wiek_std  liczba_czlonkow_rodziny_mean  \
0        0.0  29.945165  12.216475                      0.849383   
1        1.0  28.784167  13.920034                      0.938000   

   liczba_czlonkow_rodziny_std  cena_biletu_mean  cena_biletu_std  port_mean  \
0                     1.791901         23.331856        34.105727   1.606173   
1                     1.168283         49.361184        68.648795   1.312000   

   port_std  
0  0.731905  
1  0.903487

# Funkcja do agregacji
def aggregate_by_embarked(df):
    # Grupowanie przez `embarked`
    aggregated_data = df.groupby('embarked').agg({
        'age': ['mean', 'std'],
        'family_size': ['mean', 'std'],
        'fare': ['mean', 'std']
    }).reset_index()

    # Zmiana nazw kolumn
    aggregated_data.columns = ['port', 'wiek_mean', 'wiek_std',
                               'liczba_czlonkow_rodziny_mean', 'liczba_czlonkow_rodziny_std',
                               'cena_biletu_mean', 'cena_biletu_std']
    return aggregated_data

# Agregacja danych
aggregated_data_embarked = aggregate_by_embarked(df)

# Wyświetlenie wyników agregacji
print("Agregacja danych ze względu na port zaokrętowania:")
print(aggregated_data_embarked)

# Lista cech do analizy
features_embarked = ['wiek', 'liczba_czlonkow_rodziny', 'cena_biletu']

# Liczba wierszy i kolumn dla wykresów
n_cols = 3
n_rows = int(np.ceil(len(features_embarked) / n_cols))

# Tworzenie wykresów średnich wartości z odchyleniami standardowymi
fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, n_rows * 5))

# Jeśli mamy tylko jeden wiersz, `axes` będzie jednowymiarowe
if n_rows == 1:
    axes = np.expand_dims(axes, axis=0)

for i, feature in enumerate(features_embarked):
    row = i // n_cols
    col = i % n_cols
    ax = axes[row, col]
    sns.barplot(data=aggregated_data_embarked, x='port', y=f'{feature}_mean',
                yerr=aggregated_data_embarked[f'{feature}_std'].values, ax=ax, palette='viridis')
    ax.set_title(f'Średnia wartość {feature} z odchyleniem standardowym według portu')
    ax.set_xlabel('Port')
    ax.set_ylabel(f'Średnia wartość {feature}')
    ax.grid(False)  # Usunięcie siatki

# Usuwanie pustych wykresów
for j in range(i + 1, n_rows * n_cols):
    fig.delaxes(axes.flatten()[j])

# Ustawienie odstępów między wykresami
plt.tight_layout()

# Wyświetlenie wykresów
plt.show()

Agregacja danych ze względu na port zaokrętowania:
   port  wiek_mean   wiek_std  liczba_czlonkow_rodziny_mean  \
0     0  31.401543  13.630504                      0.770370   
1     1  28.256098   9.540330                      0.455285   
2     2  29.109869  13.027331                      0.973828   

   liczba_czlonkow_rodziny_std  cena_biletu_mean  cena_biletu_std  
0                     0.944093         62.336267        84.185996  
1                     1.161204         12.409012        13.616133  
2                     1.761851         27.505229        37.101615

# Funkcja do agregacji
def aggregate_by_family_size(df):
    # Grupowanie przez `family_size`
    aggregated_data = df.groupby('family_size').agg({
        'age': ['mean', 'std'],
        'fare': ['mean', 'std']
    }).reset_index()

    # Zmiana nazw kolumn
    aggregated_data.columns = ['family_size', 'wiek_mean', 'wiek_std',
                               'cena_biletu_mean', 'cena_biletu_std']
    return aggregated_data

# Agregacja danych
aggregated_data_family_size = aggregate_by_family_size(df)

# Wyświetlenie wyników agregacji
print("Agregacja danych ze względu na liczbę członków rodziny:")
print(aggregated_data_family_size)

# Lista cech do analizy
features_family_size = ['wiek', 'cena_biletu']

# Liczba wierszy i kolumn dla wykresów
n_cols = 2
n_rows = int(np.ceil(len(features_family_size) / n_cols))

# Tworzenie wykresów średnich wartości z odchyleniami standardowymi
fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, n_rows * 5))

# Jeśli mamy tylko jeden wiersz, `axes` będzie jednowymiarowe
if n_rows == 1:
    axes = np.expand_dims(axes, axis=0)

for i, feature in enumerate(features_family_size):
    row = i // n_cols
    col = i % n_cols
    ax = axes[row, col]
    sns.barplot(data=aggregated_data_family_size, x='family_size', y=f'{feature}_mean',
                yerr=aggregated_data_family_size[f'{feature}_std'].values, ax=ax, palette='viridis')
    ax.set_title(f'Średnia wartość {feature} z odchyleniem standardowym według liczby członków rodziny')
    ax.set_xlabel('Liczba członków rodziny')
    ax.set_ylabel(f'Średnia wartość {feature}')
    ax.grid(False)  # Usunięcie siatki

# Usuwanie pustych wykresów
for j in range(i + 1, n_rows * n_cols):
    fig.delaxes(axes.flatten()[j])

# Ustawienie odstępów między wykresami
plt.tight_layout()

# Wyświetlenie wykresów
plt.show()

Agregacja danych ze względu na liczbę członków rodziny:
   family_size  wiek_mean   wiek_std  cena_biletu_mean  cena_biletu_std
0          0.0  30.619469  10.687977         21.741707        41.405247
1          1.0  32.143617  13.437696         51.228106        63.497471
2          2.0  26.672431  16.708730         41.566062        44.996721
3          3.0  20.220933  14.132646         51.186047        43.718696
4          4.0  24.727273  16.248610         80.067432       101.313185
5          5.0  20.120000  18.448848         87.081000       101.036027
6          6.0  17.375000  15.396428         28.396094         8.020605
7          7.0  18.000000  15.175168         46.900000         0.000000
8         10.0  26.772727   4.070403         69.550000         0.000000

# Funkcja do agregacji z binowaniem wieku
def aggregate_by_age_bins(df, bins):
    # Binowanie wieku
    df['age_bin'] = pd.cut(df['age'], bins=bins)

    # Grupowanie przez biny wiekowe
    aggregated_data = df.groupby('age_bin').agg({
        'fare': ['mean', 'std']
    }).reset_index()

    # Zmiana nazw kolumn
    aggregated_data.columns = ['wiek_bin', 'cena_biletu_mean', 'cena_biletu_std']
    return aggregated_data

# Określenie przedziałów wiekowych
age_bins = [0, 10, 20, 30, 40, 50, 60, 70, 80]

# Agregacja danych
aggregated_data_age_bins = aggregate_by_age_bins(df, age_bins)

# Wyświetlenie wyników agregacji
print("Agregacja danych ze względu na przedziały wiekowe:")
print(aggregated_data_age_bins)

# Tworzenie wykresów średnich wartości z odchyleniami standardowymi dla przedziałów wiekowych
fig, ax = plt.subplots(figsize=(12, 6))

sns.barplot(data=aggregated_data_age_bins, x='wiek_bin', y='cena_biletu_mean',
            yerr=aggregated_data_age_bins['cena_biletu_std'].values, ax=ax, palette='viridis')
ax.set_title('Średnia wartość cena biletu z odchyleniem standardowym według przedziałów wiekowych')
ax.set_xlabel('Przedziały wiekowe')
ax.set_ylabel('Średnia wartość cena biletu')
ax.grid(False)  # Usunięcie siatki

# Zapisanie wykresów do pliku
plt.tight_layout()

# Wyświetlenie wykresów
plt.show()

Agregacja danych ze względu na przedziały wiekowe:
   wiek_bin  cena_biletu_mean  cena_biletu_std
0   (0, 10]         29.436044        25.088494
1  (10, 20]         28.807050        45.942597
2  (20, 30]         24.629425        38.029729
3  (30, 40]         42.701507        72.449334
4  (40, 50]         47.254231        56.579850
5  (50, 60]         61.943347        75.476675
6  (60, 70]         64.217285        79.973713
7  (70, 80]         34.755567        26.987844

# Wybór kolumn numerycznych
numerical_columns = df.select_dtypes(include=['float64', 'int64']).columns

# Tworzenie macierzy korelacji dla kolumn numerycznych
correlation_matrix = df[numerical_columns].corr()

# Wizualizacja macierzy korelacji za pomocą heatmap
plt.figure(figsize=(12, 10))
heatmap = sns.heatmap(correlation_matrix, cmap='coolwarm', cbar=True, annot=False, linewidths=0.5, linecolor='gray')

# Dodanie wartości korelacji ręcznie do każdego prostokąta
for i in range(len(correlation_matrix.columns)):
    for j in range(len(correlation_matrix.columns)):
        plt.text(j + 0.5, i + 0.5,
                 '{:.2f}'.format(correlation_matrix.iloc[i, j]),
                 ha='center', va='center', color='black', fontsize=10)

# Ustawienie tytułu
heatmap.set_title('Macierz korelacji zmiennych numerycznych', fontdict={'fontsize':16}, pad=12)
plt.savefig('macierz_korelacji.png', dpi=300)
plt.show()

# Wybór cech do stworzenia współczynnika przeżywalności
features = ['pclass', 'age', 'fare', 'sex', 'embarked', 'family_size']

# Tworzenie kopii ramki danych tylko z wybranymi cechami
df_survival = df[features].copy()

# Skalowanie cech
scaler = StandardScaler()
df_survival_scaled = scaler.fit_transform(df_survival)

# Współczynniki korelacji jako wagi (na podstawie wcześniej obliczonej macierzy korelacji):
weights = {
    'pclass': -0.31,
    'age': -0.04,
    'fare': 0.24,
    'sex': 0.53,
    'embarked': -0.18,
    'family_size': 0.03
}

# Tworzenie współczynnika przeżywalności jako kombinacji liniowej skalowanych cech
df['survival_score'] = (weights['pclass'] * df_survival_scaled[:, 0] +
                        weights['age'] * df_survival_scaled[:, 1] +
                        weights['fare'] * df_survival_scaled[:, 2] +
                        weights['sex'] * df_survival_scaled[:, 3] +
                        weights['embarked'] * df_survival_scaled[:, 4] +
                        weights['family_size'] * df_survival_scaled[:, 5])

# Lista cech do wykresów
features = ['survival_score', 'pclass', 'age', 'fare', 'embarked', 'family_size']

# Tworzenie wykresów pudełkowych
plt.figure(figsize=(20, 15))
for i, feature in enumerate(features):
    plt.subplot(3, 3, i + 1)
    sns.boxplot(x=df[feature])
    plt.title(f'Boxplot dla {feature}')
    plt.xlabel(feature)

plt.tight_layout()
plt.show()

# Podział wieku na przedziały
df['age_bin'] = pd.cut(df['age'], bins=[0, 10, 20, 30, 40, 50, 60, 70, 80], labels=['(0, 10]', '(10, 20]', '(20, 30]', '(30, 40]', '(40, 50]', '(50, 60]', '(60, 70]', '(70, 80]'])

# Podział ceny biletu na przedziały
df['fare_bin'] = pd.cut(df['fare'], bins=[0, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550], labels=['(0, 50]', '(50, 100]', '(100, 150]', '(150, 200]', '(200, 250]', '(250, 300]', '(300, 350]', '(350, 400]', '(400, 450]', '(450, 500]', '(500, 550]'])

# Lista cech do wykresów
features = ['pclass', 'age_bin', 'fare_bin', 'sex', 'embarked', 'family_size']

# Tworzenie wykresów pudełkowych
plt.figure(figsize=(20, 18))
for i, feature in enumerate(features):
    plt.subplot(3, 2, i + 1)
    sns.boxplot(x=df[feature], y=df['survival_score'])
    plt.title(f'Boxplot dla {feature} a współczynnik przeżywalności')
    plt.xlabel(feature)
    plt.ylabel('Survival Score')

plt.tight_layout()
plt.show()

# Wyświetlanie 10 osób z największą szansą na przeżycie
top_10_survival = df.nlargest(10, 'survival_score')
print("10 osób z największą szansą na przeżycie:")
print(top_10_survival[['pclass', 'age', 'fare', 'sex', 'embarked', 'family_size', 'survival_score']])

# Wyświetlanie 10 osób z najmniejszą szansą na przeżycie
bottom_10_survival = df.nsmallest(10, 'survival_score')
print("\n10 osób z najmniejszą szansą na przeżycie:")
print(bottom_10_survival[['pclass', 'age', 'fare', 'sex', 'embarked', 'family_size', 'survival_score']])

10 osób z największą szansą na przeżycie:
     pclass   age      fare  sex  embarked  family_size  survival_score
302     1.0  35.0  512.3292    1         0          0.0        3.713157
50      1.0  58.0  512.3292    1         0          1.0        3.660770
250     1.0  18.0  262.3750    1         0          4.0        2.681486
251     1.0  21.0  262.3750    1         0          4.0        2.672181
49      1.0  36.0  512.3292    0         0          1.0        2.621921
183     1.0  35.0  512.3292    0         0          0.0        2.606067
253     1.0  48.0  262.3750    1         0          4.0        2.588430
66      1.0  36.0  262.3750    1         0          0.0        2.549829
97      1.0  27.0  247.5208    1         0          2.0        2.546708
35      1.0  45.0  262.3750    1         0          0.0        2.521912

10 osób z najmniejszą szansą na przeżycie:
      pclass   age     fare  sex  embarked  family_size  survival_score
1235     3.0  74.0   7.7750    0         2          0.0       -1.039690
1068     3.0  61.0   6.2375    0         2          0.0       -1.006502
896      3.0  49.0   0.0000    0         2          0.0       -0.998233
736      3.0  59.0   7.2500    0         2          0.0       -0.995599
1015     3.0  55.5   8.0500    0         2          0.0       -0.981029
979      3.0  51.0   7.0542    0         2          0.0       -0.971693
1287     3.0  51.0   7.7500    0         2          0.0       -0.968463
833      3.0  51.0   8.0500    0         2          0.0       -0.967070
1225     3.0  60.5  14.4542    0         2          0.0       -0.966811
1160     3.0  50.0   8.0500    0         2          0.0       -0.963968

# Dodanie kolumny survival_score
df_pca['survival_score'] = df['survival_score']

# Standaryzacja danych
scaler = StandardScaler()
df_pca_scaled = scaler.fit_transform(df_pca)

# Przeprowadzenie PCA
pca = PCA(n_components=2)
pca_components = pca.fit_transform(df_pca_scaled)

# Tworzenie ramki danych z wynikami PCA
df_pca_results = pd.DataFrame(data=pca_components, columns=['PC1', 'PC2'])

# Dodanie kolumny 'survival_score' do wyników PCA, aby móc kolorować punkty na wykresie
df_pca_results['survival_score'] = df['survival_score'].values

# Wizualizacja wyników PCA
plt.figure(figsize=(10, 8))
scatter = plt.scatter(x=df_pca_results['PC1'], y=df_pca_results['PC2'], c=df_pca_results['survival_score'], cmap='coolwarm', alpha=0.6)
plt.colorbar(scatter, label='Survival Score')
plt.title('Wyniki PCA z survival_score')
plt.xlabel('Główna składowa 1 (PC1)')
plt.ylabel('Główna składowa 2 (PC2)')
plt.grid(True)
plt.savefig('pcatitanic.png', dpi=300)
plt.show()

	pclass	survived	name	sex	age	sibsp	parch	ticket	fare	cabin	embarked	boat	body	home.dest
0	1.0	1.0	Allen, Miss. Elisabeth Walton	female	29.0000	0.0	0.0	24160	211.3375	B5	S	2	NaN	St Louis, MO
1	1.0	1.0	Allison, Master. Hudson Trevor	male	0.9167	1.0	2.0	113781	151.5500	C22 C26	S	11	NaN	Montreal, PQ / Chesterville, ON
2	1.0	0.0	Allison, Miss. Helen Loraine	female	2.0000	1.0	2.0	113781	151.5500	C22 C26	S	NaN	NaN	Montreal, PQ / Chesterville, ON
3	1.0	0.0	Allison, Mr. Hudson Joshua Creighton	male	30.0000	1.0	2.0	113781	151.5500	C22 C26	S	NaN	135.0	Montreal, PQ / Chesterville, ON
4	1.0	0.0	Allison, Mrs. Hudson J C (Bessie Waldo Daniels)	female	25.0000	1.0	2.0	113781	151.5500	C22 C26	S	NaN	NaN	Montreal, PQ / Chesterville, ON
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
1305	3.0	0.0	Zabour, Miss. Thamine	female	NaN	1.0	0.0	2665	14.4542	NaN	C	NaN	NaN	NaN
1306	3.0	0.0	Zakarian, Mr. Mapriededer	male	26.5000	0.0	0.0	2656	7.2250	NaN	C	NaN	304.0	NaN
1307	3.0	0.0	Zakarian, Mr. Ortin	male	27.0000	0.0	0.0	2670	7.2250	NaN	C	NaN	NaN	NaN
1308	3.0	0.0	Zimmerman, Mr. Leo	male	29.0000	0.0	0.0	315082	7.8750	NaN	S	NaN	NaN	NaN
1309	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

EDA Danych dotyczących Titanica¶

O Danych¶

1. Ogólny przegląd danych i analiza brakujących wartości¶

Podsumowanie:¶

2. Analiza pojedynczych zmiennych¶

Podsumowanie:¶

Podsumowanie:¶

3. Grupowanie i agregacja danych¶

Podsumowanie:¶

Podsumowanie:¶

Podsumowanie:¶

Podsumowanie:¶

Podsumowanie:¶

Podsumowanie:¶

4. Podsumowanie analizy zależności między zmiennymi- macierz korelacji¶

Podsumowanie:¶

5. Badanie wartości odstających- nowa zmienna współczynnik przeżywalności¶

Podsumowanie:¶

Podsumowanie:¶

Podsumowanie:¶

6. Wnioski z analizy danych i PCA¶

Kluczowe Wnioski z Analiz¶