{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# EDA Danych dotyczących Titanica" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## O Danych\n", "\n", "Dane o pasażerach Titanica\n", "\n", "Zbiór danych zawiera informacje o pasażerach RMS Titanic, który zatonął 15 kwietnia 1912 roku po zderzeniu z górą\n", "lodową. Dane obejmują takie atrybuty jak klasa podróży, wiek, płeć, liczba rodzeństwa/małżonków na pokładzie,\n", "liczba rodziców/dzieci na pokładzie, cena biletu oraz miejsce zaokrętowania.\n", "\n", "Zbiór zawiera także informację o tym, czy pasażer przeżył katastrofę.\n", "\n", "Titanic przewoził ponad 2,200 osób, z czego ponad 1,500 zginęło, co czyni tę katastrofę jedną z najbardziej\n", "tragicznych w historii morskiej.\n", "\n", "Kolumny:\n", "\n", "* **pclass** - Klasa biletu\n", "* **survived** - Czy pasażer przeżył katastrofę\n", "* **name** - Imię i nazwisko pasażera\n", "* **sex** - Płeć pasażera\n", "* **age** - Wiek pasażera\n", "* **sibsp** - Liczba rodzeństwa/małżonków na pokładzie\n", "* **parch** - Liczba rodziców/dzieci na pokładzie\n", "* **ticket** - Numer biletu\n", "* **fare** - Cena biletu\n", "* **cabin** - Numer kabiny\n", "* **embarked** - Port, w którym pasażer wszedł na pokład (C = Cherbourg, Q = Queenstown, S = Southampton)\n", "* **boat** - Numer łodzi ratunkowej\n", "* **body** - Numer ciała (jeśli pasażer nie przeżył i ciało zostało odnalezione)\n", "* **home.dest** - Miejsce docelowe" ] }, { "cell_type": "code", "execution_count": 61, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "import numpy as np\n", "\n", "from sklearn.preprocessing import StandardScaler\n", "from sklearn.decomposition import PCA\n", "\n", "pd.set_option('display.max_columns', None)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 1. Ogólny przegląd danych i analiza brakujących wartości" ] }, { "cell_type": "code", "execution_count": 62, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | pclass | \n", "survived | \n", "name | \n", "sex | \n", "age | \n", "sibsp | \n", "parch | \n", "ticket | \n", "fare | \n", "cabin | \n", "embarked | \n", "boat | \n", "body | \n", "home.dest | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1.0 | \n", "1.0 | \n", "Allen, Miss. Elisabeth Walton | \n", "female | \n", "29.0000 | \n", "0.0 | \n", "0.0 | \n", "24160 | \n", "211.3375 | \n", "B5 | \n", "S | \n", "2 | \n", "NaN | \n", "St Louis, MO | \n", "
1 | \n", "1.0 | \n", "1.0 | \n", "Allison, Master. Hudson Trevor | \n", "male | \n", "0.9167 | \n", "1.0 | \n", "2.0 | \n", "113781 | \n", "151.5500 | \n", "C22 C26 | \n", "S | \n", "11 | \n", "NaN | \n", "Montreal, PQ / Chesterville, ON | \n", "
2 | \n", "1.0 | \n", "0.0 | \n", "Allison, Miss. Helen Loraine | \n", "female | \n", "2.0000 | \n", "1.0 | \n", "2.0 | \n", "113781 | \n", "151.5500 | \n", "C22 C26 | \n", "S | \n", "NaN | \n", "NaN | \n", "Montreal, PQ / Chesterville, ON | \n", "
3 | \n", "1.0 | \n", "0.0 | \n", "Allison, Mr. Hudson Joshua Creighton | \n", "male | \n", "30.0000 | \n", "1.0 | \n", "2.0 | \n", "113781 | \n", "151.5500 | \n", "C22 C26 | \n", "S | \n", "NaN | \n", "135.0 | \n", "Montreal, PQ / Chesterville, ON | \n", "
4 | \n", "1.0 | \n", "0.0 | \n", "Allison, Mrs. Hudson J C (Bessie Waldo Daniels) | \n", "female | \n", "25.0000 | \n", "1.0 | \n", "2.0 | \n", "113781 | \n", "151.5500 | \n", "C22 C26 | \n", "S | \n", "NaN | \n", "NaN | \n", "Montreal, PQ / Chesterville, ON | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
1305 | \n", "3.0 | \n", "0.0 | \n", "Zabour, Miss. Thamine | \n", "female | \n", "NaN | \n", "1.0 | \n", "0.0 | \n", "2665 | \n", "14.4542 | \n", "NaN | \n", "C | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
1306 | \n", "3.0 | \n", "0.0 | \n", "Zakarian, Mr. Mapriededer | \n", "male | \n", "26.5000 | \n", "0.0 | \n", "0.0 | \n", "2656 | \n", "7.2250 | \n", "NaN | \n", "C | \n", "NaN | \n", "304.0 | \n", "NaN | \n", "
1307 | \n", "3.0 | \n", "0.0 | \n", "Zakarian, Mr. Ortin | \n", "male | \n", "27.0000 | \n", "0.0 | \n", "0.0 | \n", "2670 | \n", "7.2250 | \n", "NaN | \n", "C | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
1308 | \n", "3.0 | \n", "0.0 | \n", "Zimmerman, Mr. Leo | \n", "male | \n", "29.0000 | \n", "0.0 | \n", "0.0 | \n", "315082 | \n", "7.8750 | \n", "NaN | \n", "S | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
1309 | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
1310 rows × 14 columns
\n", "