{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"id": "e98e030e-9467-423f-be5d-deaf3144cfc9",
"metadata": {},
"outputs": [],
"source": [
"import math\n",
"import pandas as pd\n",
"import matplotlib.pyplot as plt"
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "0507bb14-a8d9-4c36-b45c-5822d93d8cf3",
"metadata": {},
"outputs": [],
"source": [
"df = pd.read_csv('26__titanic.csv', sep=\",\")"
]
},
{
"cell_type": "code",
"execution_count": 103,
"id": "b79d0217-cef7-45e1-a2fc-231dd9676399",
"metadata": {},
"outputs": [],
"source": [
"# zdefiniujmy sobie kilka funkcji-helperów\n",
"def format_corr_value(val):\n",
" if val == 1.0:\n",
" return '1'\n",
" v = int(val * 100)\n",
" av = (abs(v) // 10) - 4\n",
" if (av > 0):\n",
" return '%s%s' % (v, '!' * av)\n",
" return str(v)\n",
"\n",
"def format_corr(dt):\n",
" dt2 = dt.copy()\n",
" for c in dt2.columns:\n",
" dt2[c] = dt2[c].apply(format_corr_value)\n",
" return dt2"
]
},
{
"cell_type": "markdown",
"id": "3557423d-a79e-4f8e-86e1-2c14d6a801c7",
"metadata": {},
"source": [
"Kolumny:\n",
"\n",
" pclass - Klasa biletu\n",
" survived - Czy pasażer przeżył katastrofę\n",
" name - Imię i nazwisko pasażera\n",
" sex - Płeć pasażera\n",
" age - Wiek pasażera\n",
" sibsp - Liczba rodzeństwa/małżonków na pokładzie\n",
" parch - Liczba rodziców/dzieci na pokładzie\n",
" ticket - Numer biletu\n",
" fare - Cena biletu\n",
" cabin - Numer kabiny\n",
" embarked - Port, w którym pasażer wszedł na pokład (C = Cherbourg, Q = Queenstown, S = Southampton)\n",
" boat - Numer łodzi ratunkowej\n",
" body - Numer ciała (jeśli pasażer nie przeżył i ciało zostało odnalezione)\n",
" home.dest - Miejsce docelowe\n"
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "f8000c02-db74-44b9-b287-abbf71510773",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
pclass
\n",
"
survived
\n",
"
name
\n",
"
sex
\n",
"
age
\n",
"
sibsp
\n",
"
parch
\n",
"
ticket
\n",
"
fare
\n",
"
cabin
\n",
"
embarked
\n",
"
boat
\n",
"
body
\n",
"
home.dest
\n",
"
\n",
" \n",
" \n",
"
\n",
"
135
\n",
"
1.0
\n",
"
0.0
\n",
"
Goldschmidt, Mr. George B
\n",
"
male
\n",
"
71.0
\n",
"
0.0
\n",
"
0.0
\n",
"
PC 17754
\n",
"
34.6542
\n",
"
A5
\n",
"
C
\n",
"
NaN
\n",
"
NaN
\n",
"
New York, NY
\n",
"
\n",
"
\n",
"
258
\n",
"
1.0
\n",
"
1.0
\n",
"
Serepeca, Miss. Augusta
\n",
"
female
\n",
"
30.0
\n",
"
0.0
\n",
"
0.0
\n",
"
113798
\n",
"
31.0000
\n",
"
NaN
\n",
"
C
\n",
"
4
\n",
"
NaN
\n",
"
NaN
\n",
"
\n",
"
\n",
"
196
\n",
"
1.0
\n",
"
1.0
\n",
"
Marechal, Mr. Pierre
\n",
"
male
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
11774
\n",
"
29.7000
\n",
"
C47
\n",
"
C
\n",
"
7
\n",
"
NaN
\n",
"
Paris, France
\n",
"
\n",
"
\n",
"
461
\n",
"
2.0
\n",
"
0.0
\n",
"
Jarvis, Mr. John Denzil
\n",
"
male
\n",
"
47.0
\n",
"
0.0
\n",
"
0.0
\n",
"
237565
\n",
"
15.0000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
North Evington, England
\n",
"
\n",
"
\n",
"
444
\n",
"
2.0
\n",
"
0.0
\n",
"
Hickman, Mr. Stanley George
\n",
"
male
\n",
"
21.0
\n",
"
2.0
\n",
"
0.0
\n",
"
S.O.C. 14879
\n",
"
73.5000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
West Hampstead, London / Neepawa, MB
\n",
"
\n",
"
\n",
"
1043
\n",
"
3.0
\n",
"
1.0
\n",
"
Murphy, Miss. Margaret Jane
\n",
"
female
\n",
"
NaN
\n",
"
1.0
\n",
"
0.0
\n",
"
367230
\n",
"
15.5000
\n",
"
NaN
\n",
"
Q
\n",
"
16
\n",
"
NaN
\n",
"
NaN
\n",
"
\n",
"
\n",
"
976
\n",
"
3.0
\n",
"
0.0
\n",
"
Lockyer, Mr. Edward
\n",
"
male
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
1222
\n",
"
7.8792
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
153.0
\n",
"
NaN
\n",
"
\n",
"
\n",
"
955
\n",
"
3.0
\n",
"
0.0
\n",
"
Lefebre, Miss. Ida
\n",
"
female
\n",
"
NaN
\n",
"
3.0
\n",
"
1.0
\n",
"
4133
\n",
"
25.4667
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
\n",
"
\n",
"
1074
\n",
"
3.0
\n",
"
0.0
\n",
"
O'Connor, Mr. Patrick
\n",
"
male
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
366713
\n",
"
7.7500
\n",
"
NaN
\n",
"
Q
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
\n",
"
\n",
"
1015
\n",
"
3.0
\n",
"
0.0
\n",
"
Meo, Mr. Alfonzo
\n",
"
male
\n",
"
55.5
\n",
"
0.0
\n",
"
0.0
\n",
"
A.5. 11206
\n",
"
8.0500
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
201.0
\n",
"
NaN
\n",
"
\n",
"
\n",
"
98
\n",
"
1.0
\n",
"
1.0
\n",
"
Douglas, Mrs. Walter Donald (Mahala Dutton)
\n",
"
female
\n",
"
48.0
\n",
"
1.0
\n",
"
0.0
\n",
"
PC 17761
\n",
"
106.4250
\n",
"
C86
\n",
"
C
\n",
"
2
\n",
"
NaN
\n",
"
Deephaven, MN / Cedar Rapids, IA
\n",
"
\n",
"
\n",
"
235
\n",
"
1.0
\n",
"
1.0
\n",
"
Rheims, Mr. George Alexander Lucien
\n",
"
male
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
PC 17607
\n",
"
39.6000
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
Paris / New York, NY
\n",
"
\n",
"
\n",
"
1273
\n",
"
3.0
\n",
"
0.0
\n",
"
Vander Planke, Miss. Augusta Maria
\n",
"
female
\n",
"
18.0
\n",
"
2.0
\n",
"
0.0
\n",
"
345764
\n",
"
18.0000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
\n",
"
\n",
"
746
\n",
"
3.0
\n",
"
1.0
\n",
"
Daly, Mr. Eugene Patrick
\n",
"
male
\n",
"
29.0
\n",
"
0.0
\n",
"
0.0
\n",
"
382651
\n",
"
7.7500
\n",
"
NaN
\n",
"
Q
\n",
"
13 15 B
\n",
"
NaN
\n",
"
Co Athlone, Ireland New York, NY
\n",
"
\n",
"
\n",
"
1081
\n",
"
3.0
\n",
"
1.0
\n",
"
O'Leary, Miss. Hanora \"Norah\"
\n",
"
female
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
330919
\n",
"
7.8292
\n",
"
NaN
\n",
"
Q
\n",
"
13
\n",
"
NaN
\n",
"
NaN
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" pclass survived name sex \\\n",
"135 1.0 0.0 Goldschmidt, Mr. George B male \n",
"258 1.0 1.0 Serepeca, Miss. Augusta female \n",
"196 1.0 1.0 Marechal, Mr. Pierre male \n",
"461 2.0 0.0 Jarvis, Mr. John Denzil male \n",
"444 2.0 0.0 Hickman, Mr. Stanley George male \n",
"1043 3.0 1.0 Murphy, Miss. Margaret Jane female \n",
"976 3.0 0.0 Lockyer, Mr. Edward male \n",
"955 3.0 0.0 Lefebre, Miss. Ida female \n",
"1074 3.0 0.0 O'Connor, Mr. Patrick male \n",
"1015 3.0 0.0 Meo, Mr. Alfonzo male \n",
"98 1.0 1.0 Douglas, Mrs. Walter Donald (Mahala Dutton) female \n",
"235 1.0 1.0 Rheims, Mr. George Alexander Lucien male \n",
"1273 3.0 0.0 Vander Planke, Miss. Augusta Maria female \n",
"746 3.0 1.0 Daly, Mr. Eugene Patrick male \n",
"1081 3.0 1.0 O'Leary, Miss. Hanora \"Norah\" female \n",
"\n",
" age sibsp parch ticket fare cabin embarked boat \\\n",
"135 71.0 0.0 0.0 PC 17754 34.6542 A5 C NaN \n",
"258 30.0 0.0 0.0 113798 31.0000 NaN C 4 \n",
"196 NaN 0.0 0.0 11774 29.7000 C47 C 7 \n",
"461 47.0 0.0 0.0 237565 15.0000 NaN S NaN \n",
"444 21.0 2.0 0.0 S.O.C. 14879 73.5000 NaN S NaN \n",
"1043 NaN 1.0 0.0 367230 15.5000 NaN Q 16 \n",
"976 NaN 0.0 0.0 1222 7.8792 NaN S NaN \n",
"955 NaN 3.0 1.0 4133 25.4667 NaN S NaN \n",
"1074 NaN 0.0 0.0 366713 7.7500 NaN Q NaN \n",
"1015 55.5 0.0 0.0 A.5. 11206 8.0500 NaN S NaN \n",
"98 48.0 1.0 0.0 PC 17761 106.4250 C86 C 2 \n",
"235 NaN 0.0 0.0 PC 17607 39.6000 NaN S A \n",
"1273 18.0 2.0 0.0 345764 18.0000 NaN S NaN \n",
"746 29.0 0.0 0.0 382651 7.7500 NaN Q 13 15 B \n",
"1081 NaN 0.0 0.0 330919 7.8292 NaN Q 13 \n",
"\n",
" body home.dest \n",
"135 NaN New York, NY \n",
"258 NaN NaN \n",
"196 NaN Paris, France \n",
"461 NaN North Evington, England \n",
"444 NaN West Hampstead, London / Neepawa, MB \n",
"1043 NaN NaN \n",
"976 153.0 NaN \n",
"955 NaN NaN \n",
"1074 NaN NaN \n",
"1015 201.0 NaN \n",
"98 NaN Deephaven, MN / Cedar Rapids, IA \n",
"235 NaN Paris / New York, NY \n",
"1273 NaN NaN \n",
"746 NaN Co Athlone, Ireland New York, NY \n",
"1081 NaN NaN "
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# jak zwykle pierwszy rzut oka na dane\n",
"df.sample(15)"
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "338309f0-095f-4222-9096-0bed009835aa",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
"
],
"text/plain": [
" pclass survived name sex age sibsp parch \\\n",
"726 3.0 0.0 Connolly, Miss. Kate female 30.0 0.0 0.0 \n",
"925 3.0 0.0 Kelly, Mr. James male 44.0 0.0 0.0 \n",
"\n",
" ticket fare cabin embarked boat body home.dest \n",
"726 330972 7.6292 NaN Q NaN NaN Ireland \n",
"925 363592 8.0500 NaN S NaN NaN NaN "
]
},
"execution_count": 36,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# sprawdzenie, czy nie ma duplikatów po name:\n",
"df[df.duplicated(subset=['name'])]"
]
},
{
"cell_type": "code",
"execution_count": 37,
"id": "c1b0ae57-a57a-48c5-99c9-3cd70a2673fb",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
pclass
\n",
"
survived
\n",
"
name
\n",
"
sex
\n",
"
age
\n",
"
sibsp
\n",
"
parch
\n",
"
ticket
\n",
"
fare
\n",
"
cabin
\n",
"
embarked
\n",
"
boat
\n",
"
body
\n",
"
home.dest
\n",
"
\n",
" \n",
" \n",
"
\n",
"
725
\n",
"
3.0
\n",
"
1.0
\n",
"
Connolly, Miss. Kate
\n",
"
female
\n",
"
22.0
\n",
"
0.0
\n",
"
0.0
\n",
"
370373
\n",
"
7.7500
\n",
"
NaN
\n",
"
Q
\n",
"
13
\n",
"
NaN
\n",
"
Ireland
\n",
"
\n",
"
\n",
"
726
\n",
"
3.0
\n",
"
0.0
\n",
"
Connolly, Miss. Kate
\n",
"
female
\n",
"
30.0
\n",
"
0.0
\n",
"
0.0
\n",
"
330972
\n",
"
7.6292
\n",
"
NaN
\n",
"
Q
\n",
"
NaN
\n",
"
NaN
\n",
"
Ireland
\n",
"
\n",
"
\n",
"
924
\n",
"
3.0
\n",
"
0.0
\n",
"
Kelly, Mr. James
\n",
"
male
\n",
"
34.5
\n",
"
0.0
\n",
"
0.0
\n",
"
330911
\n",
"
7.8292
\n",
"
NaN
\n",
"
Q
\n",
"
NaN
\n",
"
70.0
\n",
"
NaN
\n",
"
\n",
"
\n",
"
925
\n",
"
3.0
\n",
"
0.0
\n",
"
Kelly, Mr. James
\n",
"
male
\n",
"
44.0
\n",
"
0.0
\n",
"
0.0
\n",
"
363592
\n",
"
8.0500
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" pclass survived name sex age sibsp parch \\\n",
"725 3.0 1.0 Connolly, Miss. Kate female 22.0 0.0 0.0 \n",
"726 3.0 0.0 Connolly, Miss. Kate female 30.0 0.0 0.0 \n",
"924 3.0 0.0 Kelly, Mr. James male 34.5 0.0 0.0 \n",
"925 3.0 0.0 Kelly, Mr. James male 44.0 0.0 0.0 \n",
"\n",
" ticket fare cabin embarked boat body home.dest \n",
"725 370373 7.7500 NaN Q 13 NaN Ireland \n",
"726 330972 7.6292 NaN Q NaN NaN Ireland \n",
"924 330911 7.8292 NaN Q NaN 70.0 NaN \n",
"925 363592 8.0500 NaN S NaN NaN NaN "
]
},
"execution_count": 37,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# więc sprawdzmy te nazwiska\n",
"df[df['name'].isin(['Connolly, Miss. Kate', 'Kelly, Mr. James'])]"
]
},
{
"cell_type": "code",
"execution_count": 74,
"id": "e4d5aa71-db61-4d92-af50-19c9e507fdd1",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
klasa_biletu
\n",
"
ocalal
\n",
"
plec
\n",
"
wiek
\n",
"
l_rdz_młż
\n",
"
l_dzieci_rodz
\n",
"
oplata
\n",
"
kabina
\n",
"
lodz
\n",
"
mial_lodke
\n",
"
mial_kabine
\n",
"
\n",
" \n",
" \n",
"
\n",
"
1252
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
44.0
\n",
"
0.0
\n",
"
0.0
\n",
"
8.0500
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
389
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
32.0
\n",
"
0.0
\n",
"
0.0
\n",
"
13.0000
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
638
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
35.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.0500
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
722
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
24.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.4958
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
649
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
23.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.0500
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
804
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
7.7500
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
301
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
47.0
\n",
"
0.0
\n",
"
0.0
\n",
"
34.0208
\n",
"
D46
\n",
"
NaN
\n",
"
0
\n",
"
1
\n",
"
\n",
"
\n",
"
95
\n",
"
1.0
\n",
"
1.0
\n",
"
K
\n",
"
54.0
\n",
"
1.0
\n",
"
1.0
\n",
"
81.8583
\n",
"
A34
\n",
"
5
\n",
"
1
\n",
"
1
\n",
"
\n",
"
\n",
"
206
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
44.0
\n",
"
2.0
\n",
"
0.0
\n",
"
90.0000
\n",
"
C78
\n",
"
NaN
\n",
"
0
\n",
"
1
\n",
"
\n",
"
\n",
"
433
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
30.0
\n",
"
0.0
\n",
"
0.0
\n",
"
10.5000
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
402
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
30.0
\n",
"
1.0
\n",
"
0.0
\n",
"
13.8583
\n",
"
NaN
\n",
"
12
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
849
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
26.0
\n",
"
1.0
\n",
"
0.0
\n",
"
7.8542
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1030
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
8.4583
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1155
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
7.7750
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
697
\n",
"
3.0
\n",
"
0.0
\n",
"
K
\n",
"
30.0
\n",
"
0.0
\n",
"
0.0
\n",
"
8.6625
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" klasa_biletu ocalal plec wiek l_rdz_młż l_dzieci_rodz oplata \\\n",
"1252 3.0 0.0 M 44.0 0.0 0.0 8.0500 \n",
"389 2.0 0.0 M 32.0 0.0 0.0 13.0000 \n",
"638 3.0 0.0 M 35.0 0.0 0.0 7.0500 \n",
"722 3.0 0.0 M 24.0 0.0 0.0 7.4958 \n",
"649 3.0 0.0 M 23.0 0.0 0.0 7.0500 \n",
"804 3.0 0.0 M NaN 0.0 0.0 7.7500 \n",
"301 1.0 0.0 M 47.0 0.0 0.0 34.0208 \n",
"95 1.0 1.0 K 54.0 1.0 1.0 81.8583 \n",
"206 1.0 0.0 M 44.0 2.0 0.0 90.0000 \n",
"433 2.0 0.0 M 30.0 0.0 0.0 10.5000 \n",
"402 2.0 1.0 K 30.0 1.0 0.0 13.8583 \n",
"849 3.0 0.0 M 26.0 1.0 0.0 7.8542 \n",
"1030 3.0 0.0 M NaN 0.0 0.0 8.4583 \n",
"1155 3.0 0.0 M NaN 0.0 0.0 7.7750 \n",
"697 3.0 0.0 K 30.0 0.0 0.0 8.6625 \n",
"\n",
" kabina lodz mial_lodke mial_kabine \n",
"1252 NaN NaN 0 0 \n",
"389 NaN NaN 0 0 \n",
"638 NaN NaN 0 0 \n",
"722 NaN NaN 0 0 \n",
"649 NaN NaN 0 0 \n",
"804 NaN NaN 0 0 \n",
"301 D46 NaN 0 1 \n",
"95 A34 5 1 1 \n",
"206 C78 NaN 0 1 \n",
"433 NaN NaN 0 0 \n",
"402 NaN 12 1 0 \n",
"849 NaN NaN 0 0 \n",
"1030 NaN NaN 0 0 \n",
"1155 NaN NaN 0 0 \n",
"697 NaN NaN 0 0 "
]
},
"execution_count": 74,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# czyli widzimy, że to raczej zbieżność nazwisk\n",
"\n",
"# Teraz tworzymy nową strukturę danych bardziej przejrzystą do obróbki. Nie mam ochoty analizować takich\n",
"# danych jak: home.dest, body, embarked, ticket, name - a w zasadzie to nawet boat i cabin zamienię na \n",
"# wartość bool mial_lodke i mial_kabine. Łódką będę się zajmował później, bo jest coś ciekawego z łódką 'A'.\n",
"df2 = df.copy()\n",
"df2 = df2[[c for c in df.columns if c not in ['name', 'ticket', 'home.dest', 'body', 'embarked']]]\n",
"df2.columns = ['klasa_biletu', 'ocalal', 'plec', 'wiek', 'l_rdz_młż', 'l_dzieci_rodz', 'oplata', 'kabina', 'lodz']\n",
"df2['plec'] = df2['plec'].apply(lambda x: ({'female': 'K', 'male': 'M'}.get(x, x)))\n",
"df2['mial_lodke'] = df2['lodz'].notnull().astype(int)\n",
"df2['mial_kabine'] = df2['kabina'].notnull().astype(int)\n",
"df2.drop(\n",
"df2.sample(15)\n"
]
},
{
"cell_type": "code",
"execution_count": 63,
"id": "6b8f3e69-68e4-42c6-8edf-63a93811c425",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
klasa_biletu
\n",
"
ocalal
\n",
"
plec
\n",
"
wiek
\n",
"
l_rdz_młż
\n",
"
l_dzieci_rodz
\n",
"
oplata
\n",
"
kabina
\n",
"
port
\n",
"
lodz
\n",
"
cialo
\n",
"
dest
\n",
"
mial_lodke
\n",
"
mial_kabine
\n",
"
\n",
" \n",
" \n",
"
\n",
"
7
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
39.0
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
A36
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Belfast, NI
\n",
"
0
\n",
"
1
\n",
"
\n",
"
\n",
"
70
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Liverpool, England / Belfast
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
125
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
B102
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
1
\n",
"
\n",
"
\n",
"
150
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
40.0
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
B94
\n",
"
S
\n",
"
NaN
\n",
"
110.0
\n",
"
NaN
\n",
"
0
\n",
"
1
\n",
"
\n",
"
\n",
"
170
\n",
"
1.0
\n",
"
1.0
\n",
"
M
\n",
"
49.0
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
B52 B54 B56
\n",
"
S
\n",
"
C
\n",
"
NaN
\n",
"
Liverpool
\n",
"
1
\n",
"
1
\n",
"
\n",
"
\n",
"
223
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Belfast
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
234
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
38.0
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Rotterdam, Netherlands
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
363
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Belfast
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
384
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Belfast
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
410
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Belfast
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
473
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Belfast
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
528
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Belfast
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
581
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Belfast
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
896
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
49.0
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
898
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
19.0
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
963
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
36.0
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1254
\n",
"
3.0
\n",
"
1.0
\n",
"
M
\n",
"
25.0
\n",
"
0.0
\n",
"
0.0
\n",
"
0.0
\n",
"
NaN
\n",
"
S
\n",
"
15
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" klasa_biletu ocalal plec wiek l_rdz_młż l_dzieci_rodz oplata \\\n",
"7 1.0 0.0 M 39.0 0.0 0.0 0.0 \n",
"70 1.0 0.0 M NaN 0.0 0.0 0.0 \n",
"125 1.0 0.0 M NaN 0.0 0.0 0.0 \n",
"150 1.0 0.0 M 40.0 0.0 0.0 0.0 \n",
"170 1.0 1.0 M 49.0 0.0 0.0 0.0 \n",
"223 1.0 0.0 M NaN 0.0 0.0 0.0 \n",
"234 1.0 0.0 M 38.0 0.0 0.0 0.0 \n",
"363 2.0 0.0 M NaN 0.0 0.0 0.0 \n",
"384 2.0 0.0 M NaN 0.0 0.0 0.0 \n",
"410 2.0 0.0 M NaN 0.0 0.0 0.0 \n",
"473 2.0 0.0 M NaN 0.0 0.0 0.0 \n",
"528 2.0 0.0 M NaN 0.0 0.0 0.0 \n",
"581 2.0 0.0 M NaN 0.0 0.0 0.0 \n",
"896 3.0 0.0 M 49.0 0.0 0.0 0.0 \n",
"898 3.0 0.0 M 19.0 0.0 0.0 0.0 \n",
"963 3.0 0.0 M 36.0 0.0 0.0 0.0 \n",
"1254 3.0 1.0 M 25.0 0.0 0.0 0.0 \n",
"\n",
" kabina port lodz cialo dest mial_lodke \\\n",
"7 A36 S NaN NaN Belfast, NI 0 \n",
"70 NaN S NaN NaN Liverpool, England / Belfast 0 \n",
"125 B102 S NaN NaN NaN 0 \n",
"150 B94 S NaN 110.0 NaN 0 \n",
"170 B52 B54 B56 S C NaN Liverpool 1 \n",
"223 NaN S NaN NaN Belfast 0 \n",
"234 NaN S NaN NaN Rotterdam, Netherlands 0 \n",
"363 NaN S NaN NaN Belfast 0 \n",
"384 NaN S NaN NaN Belfast 0 \n",
"410 NaN S NaN NaN Belfast 0 \n",
"473 NaN S NaN NaN Belfast 0 \n",
"528 NaN S NaN NaN Belfast 0 \n",
"581 NaN S NaN NaN Belfast 0 \n",
"896 NaN S NaN NaN NaN 0 \n",
"898 NaN S NaN NaN NaN 0 \n",
"963 NaN S NaN NaN NaN 0 \n",
"1254 NaN S 15 NaN NaN 1 \n",
"\n",
" mial_kabine \n",
"7 1 \n",
"70 0 \n",
"125 1 \n",
"150 1 \n",
"170 1 \n",
"223 0 \n",
"234 0 \n",
"363 0 \n",
"384 0 \n",
"410 0 \n",
"473 0 \n",
"528 0 \n",
"581 0 \n",
"896 0 \n",
"898 0 \n",
"963 0 \n",
"1254 0 "
]
},
"execution_count": 63,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# analiza podejrzanych danych\n",
"# 1. Dlaczego mamy dane z zerową opłatą (fare[min] == 0)?\n",
"df2[df2['oplata'] == 0]"
]
},
{
"cell_type": "code",
"execution_count": 75,
"id": "9dbb68c5-a311-4762-aaa3-ca54f438ec9d",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
klasa_biletu
\n",
"
ocalal
\n",
"
plec
\n",
"
wiek
\n",
"
l_rdz_młż
\n",
"
l_dzieci_rodz
\n",
"
oplata
\n",
"
kabina
\n",
"
lodz
\n",
"
mial_lodke
\n",
"
mial_kabine
\n",
"
\n",
" \n",
" \n",
"
\n",
"
794
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
5.0
\n",
"
0.0
\n",
"
0.0
\n",
"
12.4750
\n",
"
NaN
\n",
"
13
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
855
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
11.0
\n",
"
0.0
\n",
"
0.0
\n",
"
18.7875
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
582
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
12.0
\n",
"
0.0
\n",
"
0.0
\n",
"
15.7500
\n",
"
NaN
\n",
"
9
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
1056
\n",
"
3.0
\n",
"
1.0
\n",
"
M
\n",
"
12.0
\n",
"
1.0
\n",
"
0.0
\n",
"
11.2417
\n",
"
NaN
\n",
"
C
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
653
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
13.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.2292
\n",
"
NaN
\n",
"
C
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
513
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
14.0
\n",
"
1.0
\n",
"
0.0
\n",
"
30.0708
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
569
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
14.0
\n",
"
0.0
\n",
"
0.0
\n",
"
65.0000
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1057
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
14.0
\n",
"
1.0
\n",
"
0.0
\n",
"
11.2417
\n",
"
NaN
\n",
"
C
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
1236
\n",
"
3.0
\n",
"
1.0
\n",
"
M
\n",
"
14.0
\n",
"
0.0
\n",
"
0.0
\n",
"
9.2250
\n",
"
NaN
\n",
"
13
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
1279
\n",
"
3.0
\n",
"
0.0
\n",
"
K
\n",
"
14.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.8542
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1304
\n",
"
3.0
\n",
"
0.0
\n",
"
K
\n",
"
14.5
\n",
"
1.0
\n",
"
0.0
\n",
"
14.4542
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1007
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
15.0
\n",
"
0.0
\n",
"
0.0
\n",
"
8.0292
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1047
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
15.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.2250
\n",
"
NaN
\n",
"
C
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
1300
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
15.0
\n",
"
1.0
\n",
"
0.0
\n",
"
14.4542
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" klasa_biletu ocalal plec wiek l_rdz_młż l_dzieci_rodz oplata \\\n",
"794 3.0 1.0 K 5.0 0.0 0.0 12.4750 \n",
"855 3.0 0.0 M 11.0 0.0 0.0 18.7875 \n",
"582 2.0 1.0 K 12.0 0.0 0.0 15.7500 \n",
"1056 3.0 1.0 M 12.0 1.0 0.0 11.2417 \n",
"653 3.0 1.0 K 13.0 0.0 0.0 7.2292 \n",
"513 2.0 1.0 K 14.0 1.0 0.0 30.0708 \n",
"569 2.0 0.0 M 14.0 0.0 0.0 65.0000 \n",
"1057 3.0 1.0 K 14.0 1.0 0.0 11.2417 \n",
"1236 3.0 1.0 M 14.0 0.0 0.0 9.2250 \n",
"1279 3.0 0.0 K 14.0 0.0 0.0 7.8542 \n",
"1304 3.0 0.0 K 14.5 1.0 0.0 14.4542 \n",
"1007 3.0 1.0 K 15.0 0.0 0.0 8.0292 \n",
"1047 3.0 1.0 K 15.0 0.0 0.0 7.2250 \n",
"1300 3.0 1.0 K 15.0 1.0 0.0 14.4542 \n",
"\n",
" kabina lodz mial_lodke mial_kabine \n",
"794 NaN 13 1 0 \n",
"855 NaN NaN 0 0 \n",
"582 NaN 9 1 0 \n",
"1056 NaN C 1 0 \n",
"653 NaN C 1 0 \n",
"513 NaN NaN 0 0 \n",
"569 NaN NaN 0 0 \n",
"1057 NaN C 1 0 \n",
"1236 NaN 13 1 0 \n",
"1279 NaN NaN 0 0 \n",
"1304 NaN NaN 0 0 \n",
"1007 NaN NaN 0 0 \n",
"1047 NaN C 1 0 \n",
"1300 NaN NaN 0 0 "
]
},
"execution_count": 75,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# OK, widzimy, że to raczej wygląda na załogę, co jest dziwne - nie było tam kobiet[???] Żadne kelnerki,\n",
"# sprzątaczki, muzycy? \n",
"# One płaciły za bilety, albo nie były uwzględnione tutaj? DZIWNE!!!!\n",
"# dalej - co z wiekiem - min jest ok. 0... Ale OK, mogą być przecież z rodzicami - więc sprawdźmy tych,\n",
"# co rodziców nie mieli...\n",
"df2[(df2['l_dzieci_rodz'] == 0) & (df2['wiek'] < 16)].sort_values(by=\"wiek\", ascending=True).head(25)"
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "ee4e6284-1bc9-420e-9ed9-373e4f1c8509",
"metadata": {},
"outputs": [],
"source": [
"# Skandal na pokładzie były dzieci bez rodziców - a nawet jedno miało 5 lat!"
]
},
{
"cell_type": "code",
"execution_count": 100,
"id": "092aaf20-1735-4317-8e68-119c521a4b60",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"liczba wszystkich uczestników: 1309\n",
"W tym wyprawę przeżyło: 500\n",
"\n",
"\n",
" liczba wszystkich liczba ocalałych\n",
"plec \n",
"Kobiety 466 339.0\n",
"Mężczyźni 843 161.0\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# OK, widzimy już co nieco jak to trochę działało. Na uwagę przykuwa to, że to, czy ocalał, nie ma \n",
"# 100% korelacji z tym, czy miał łódkę - przyjrzymy się temu bliżej. Widać, że fakt posiadania kabiny był \n",
"# pewnym luksusem, który korelował z ceną, klasą biletu, a nawet miało jakieś znaczenie w tym, czy ten ktoś ocalał\n",
"# widać, że wiek koreluje z klasą biletu - wiadomo - statystycznie tych starszych bardziej może na to stać, jak\n",
"# i może się przekładać na rosnącą potrzebę komfortu wraz z wiekiem\n",
"\n",
"# W każdym razie na wszelki wypadek narysujmy sobie jeszcze rozkłady w zależności \"ocalał\" od innych czynników\n",
"# aby zobaczyć, czy da się z tego coś wyciągnąć\n",
"plt.clf()\n",
"\n",
"for k, desc in [\n",
" ('klasa_biletu', 'klasa biletu'),\n",
" ('wiek', 'Wiek'),\n",
" ('oplata', 'Opłata'),\n",
" ('l_rdz_młż', 'l. rodzeństwa/małż'),\n",
" ('l_dzieci_rodz', 'l. rodziców/dzieci'),\n",
" ('mial_lodke', 'Czy miał łódkę'),\n",
" ('mial_kabine', 'Czy miał kabinę'),\n",
" ('cena_1os', 'Cena za osobę'),\n",
"]:\n",
" df4 = df3[df3[k].notnull()][['ocalal', k]]\n",
" for survived in [0, 1]:\n",
" add_to_title = ' (ocalał)' if survived else ' (nie ocalał)'\n",
" df5 = df4[df4['ocalal'] == survived][k].copy()\n",
" df5.name = desc + add_to_title\n",
" # print(df5)\n",
" # df4.plot(kind='hist', subplots=True, sharex=True, sharey=True, title=k + add_to_title)\n",
" df5.hist(legend=True, alpha=0.8)\n",
" plt.show()\n",
" plt.clf()\n"
]
},
{
"cell_type": "markdown",
"id": "d78a5e38-dddf-4623-b6ec-799057170be4",
"metadata": {},
"source": [
"## Wnioski z wykresów\n",
"- To co się rzuca w oczy, to klasa biletu zdawała się mieć kluczowe znaczenie na fakt przeżycia, albo nie Mniej więcej tyle samo osób ocalało z klasy 1 co i z klasy 3, ale za to zginęło prawie 5x więcej z klasy 3 co z klasy 1 A to jest bardzo duża dysproporcja.\n",
"\n",
"- Co do kwestii wieku, to raczej nie odgrywa on zbyt wielkiej roli, ale dzięki rozkładowi można było zobaczyć jeden szczegół niewidoczny na tablicy korelacji - tzn. starano się jednak uratować przede wszystkim dzieci...\n",
"\n",
"- Widać też dysproporcję pomiędzy tymi, co ocaleli i nie mieli kabiny od tych, co mieli kabinę wobec proporcji tych, co nie ocaleli i nie mieli kabiny od tych, co mieli kabinę. Tutaj ci co mieli kabinę - to właśnie byli VIP-ami i najwyraźniej mieli pierwszeństwo do łódek ratunkowych.\n",
"\n",
"- Tak jak wcześniej zauważyłem - Będąc kobietą miałeś 72.7% szans na przeżycie, a będąc mężczyzną miałeś 19.1% szans na przeżycie."
]
},
{
"cell_type": "code",
"execution_count": 65,
"id": "9936308c-bd86-49d7-b26c-218502999ee3",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
klasa_biletu
\n",
"
ocalal
\n",
"
plec
\n",
"
wiek
\n",
"
l_rdz_młż
\n",
"
l_dzieci_rodz
\n",
"
oplata
\n",
"
kabina
\n",
"
port
\n",
"
lodz
\n",
"
cialo
\n",
"
dest
\n",
"
mial_lodke
\n",
"
mial_kabine
\n",
"
\n",
" \n",
" \n",
"
\n",
"
19
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
36.0
\n",
"
0.0
\n",
"
0.0
\n",
"
75.2417
\n",
"
C6
\n",
"
C
\n",
"
A
\n",
"
NaN
\n",
"
Winnipeg, MN
\n",
"
1
\n",
"
1
\n",
"
\n",
"
\n",
"
166
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
30.6958
\n",
"
NaN
\n",
"
C
\n",
"
14
\n",
"
NaN
\n",
"
New York, NY
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
192
\n",
"
1.0
\n",
"
1.0
\n",
"
K
\n",
"
58.0
\n",
"
0.0
\n",
"
0.0
\n",
"
146.5208
\n",
"
B80
\n",
"
C
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
1
\n",
"
\n",
"
\n",
"
358
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
42.0
\n",
"
0.0
\n",
"
0.0
\n",
"
13.0000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
New York, NY
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
395
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
18.0
\n",
"
0.0
\n",
"
1.0
\n",
"
23.0000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Southampton
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
396
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
34.0
\n",
"
0.0
\n",
"
1.0
\n",
"
23.0000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Southampton
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
458
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
17.0
\n",
"
0.0
\n",
"
0.0
\n",
"
10.5000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Guernsey
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
489
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
42.0
\n",
"
1.0
\n",
"
0.0
\n",
"
26.0000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Weston-Super-Mare, Somerset
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
513
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
14.0
\n",
"
1.0
\n",
"
0.0
\n",
"
30.0708
\n",
"
NaN
\n",
"
C
\n",
"
NaN
\n",
"
NaN
\n",
"
New York, NY
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
544
\n",
"
2.0
\n",
"
0.0
\n",
"
M
\n",
"
34.0
\n",
"
1.0
\n",
"
0.0
\n",
"
21.0000
\n",
"
NaN
\n",
"
S
\n",
"
12
\n",
"
NaN
\n",
"
Elizabeth, NJ
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
545
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
30.0
\n",
"
3.0
\n",
"
0.0
\n",
"
21.0000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Elizabeth, NJ
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
572
\n",
"
2.0
\n",
"
1.0
\n",
"
K
\n",
"
28.0
\n",
"
0.0
\n",
"
0.0
\n",
"
12.6500
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Columbus, OH
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
655
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
32.0
\n",
"
1.0
\n",
"
0.0
\n",
"
15.8500
\n",
"
NaN
\n",
"
S
\n",
"
D
\n",
"
NaN
\n",
"
Ruotsinphytaa, Finland New York, NY
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
656
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
33.0
\n",
"
3.0
\n",
"
0.0
\n",
"
15.8500
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
Ruotsinphytaa, Finland New York, NY
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
780
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
23.0
\n",
"
0.0
\n",
"
0.0
\n",
"
8.0500
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
London New York, NY
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
853
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
25.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.2500
\n",
"
NaN
\n",
"
S
\n",
"
B
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
860
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
26.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.9250
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
870
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
27.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.9250
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
921
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
7.2500
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
926
\n",
"
3.0
\n",
"
1.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
7.7500
\n",
"
NaN
\n",
"
Q
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
968
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
36.0
\n",
"
1.0
\n",
"
0.0
\n",
"
15.5500
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
969
\n",
"
3.0
\n",
"
0.0
\n",
"
K
\n",
"
30.0
\n",
"
1.0
\n",
"
0.0
\n",
"
15.5500
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
1000
\n",
"
3.0
\n",
"
1.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
7.7500
\n",
"
NaN
\n",
"
Q
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1007
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
15.0
\n",
"
0.0
\n",
"
0.0
\n",
"
8.0292
\n",
"
NaN
\n",
"
Q
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1037
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
7.2292
\n",
"
NaN
\n",
"
C
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1071
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
NaN
\n",
"
1.0
\n",
"
0.0
\n",
"
15.5000
\n",
"
NaN
\n",
"
Q
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1078
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
7.8792
\n",
"
NaN
\n",
"
Q
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1094
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
31.0
\n",
"
0.0
\n",
"
0.0
\n",
"
8.6833
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1198
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
7.7792
\n",
"
NaN
\n",
"
Q
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1290
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
47.0
\n",
"
1.0
\n",
"
0.0
\n",
"
7.0000
\n",
"
NaN
\n",
"
S
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1299
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
27.0
\n",
"
1.0
\n",
"
0.0
\n",
"
14.4542
\n",
"
NaN
\n",
"
C
\n",
"
C
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
1300
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
15.0
\n",
"
1.0
\n",
"
0.0
\n",
"
14.4542
\n",
"
NaN
\n",
"
C
\n",
"
NaN
\n",
"
NaN
\n",
"
NaN
\n",
"
0
\n",
"
0
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" klasa_biletu ocalal plec wiek l_rdz_młż l_dzieci_rodz oplata \\\n",
"19 1.0 0.0 M 36.0 0.0 0.0 75.2417 \n",
"166 1.0 0.0 M NaN 0.0 0.0 30.6958 \n",
"192 1.0 1.0 K 58.0 0.0 0.0 146.5208 \n",
"358 2.0 1.0 K 42.0 0.0 0.0 13.0000 \n",
"395 2.0 1.0 K 18.0 0.0 1.0 23.0000 \n",
"396 2.0 1.0 K 34.0 0.0 1.0 23.0000 \n",
"458 2.0 1.0 K 17.0 0.0 0.0 10.5000 \n",
"489 2.0 1.0 K 42.0 1.0 0.0 26.0000 \n",
"513 2.0 1.0 K 14.0 1.0 0.0 30.0708 \n",
"544 2.0 0.0 M 34.0 1.0 0.0 21.0000 \n",
"545 2.0 1.0 K 30.0 3.0 0.0 21.0000 \n",
"572 2.0 1.0 K 28.0 0.0 0.0 12.6500 \n",
"655 3.0 0.0 M 32.0 1.0 0.0 15.8500 \n",
"656 3.0 1.0 K 33.0 3.0 0.0 15.8500 \n",
"780 3.0 1.0 K 23.0 0.0 0.0 8.0500 \n",
"853 3.0 0.0 M 25.0 0.0 0.0 7.2500 \n",
"860 3.0 1.0 K 26.0 0.0 0.0 7.9250 \n",
"870 3.0 1.0 K 27.0 0.0 0.0 7.9250 \n",
"921 3.0 0.0 M NaN 0.0 0.0 7.2500 \n",
"926 3.0 1.0 M NaN 0.0 0.0 7.7500 \n",
"968 3.0 0.0 M 36.0 1.0 0.0 15.5500 \n",
"969 3.0 0.0 K 30.0 1.0 0.0 15.5500 \n",
"1000 3.0 1.0 M NaN 0.0 0.0 7.7500 \n",
"1007 3.0 1.0 K 15.0 0.0 0.0 8.0292 \n",
"1037 3.0 1.0 K NaN 0.0 0.0 7.2292 \n",
"1071 3.0 1.0 K NaN 1.0 0.0 15.5000 \n",
"1078 3.0 1.0 K NaN 0.0 0.0 7.8792 \n",
"1094 3.0 1.0 K 31.0 0.0 0.0 8.6833 \n",
"1198 3.0 1.0 K NaN 0.0 0.0 7.7792 \n",
"1290 3.0 1.0 K 47.0 1.0 0.0 7.0000 \n",
"1299 3.0 0.0 M 27.0 1.0 0.0 14.4542 \n",
"1300 3.0 1.0 K 15.0 1.0 0.0 14.4542 \n",
"\n",
" kabina port lodz cialo dest mial_lodke \\\n",
"19 C6 C A NaN Winnipeg, MN 1 \n",
"166 NaN C 14 NaN New York, NY 1 \n",
"192 B80 C NaN NaN NaN 0 \n",
"358 NaN S NaN NaN New York, NY 0 \n",
"395 NaN S NaN NaN Southampton 0 \n",
"396 NaN S NaN NaN Southampton 0 \n",
"458 NaN S NaN NaN Guernsey 0 \n",
"489 NaN S NaN NaN Weston-Super-Mare, Somerset 0 \n",
"513 NaN C NaN NaN New York, NY 0 \n",
"544 NaN S 12 NaN Elizabeth, NJ 1 \n",
"545 NaN S NaN NaN Elizabeth, NJ 0 \n",
"572 NaN S NaN NaN Columbus, OH 0 \n",
"655 NaN S D NaN Ruotsinphytaa, Finland New York, NY 1 \n",
"656 NaN S NaN NaN Ruotsinphytaa, Finland New York, NY 0 \n",
"780 NaN S NaN NaN London New York, NY 0 \n",
"853 NaN S B NaN NaN 1 \n",
"860 NaN S NaN NaN NaN 0 \n",
"870 NaN S NaN NaN NaN 0 \n",
"921 NaN S A NaN NaN 1 \n",
"926 NaN Q NaN NaN NaN 0 \n",
"968 NaN S A NaN NaN 1 \n",
"969 NaN S A NaN NaN 1 \n",
"1000 NaN Q NaN NaN NaN 0 \n",
"1007 NaN Q NaN NaN NaN 0 \n",
"1037 NaN C NaN NaN NaN 0 \n",
"1071 NaN Q NaN NaN NaN 0 \n",
"1078 NaN Q NaN NaN NaN 0 \n",
"1094 NaN S NaN NaN NaN 0 \n",
"1198 NaN Q NaN NaN NaN 0 \n",
"1290 NaN S NaN NaN NaN 0 \n",
"1299 NaN C C NaN NaN 1 \n",
"1300 NaN C NaN NaN NaN 0 \n",
"\n",
" mial_kabine \n",
"19 1 \n",
"166 0 \n",
"192 1 \n",
"358 0 \n",
"395 0 \n",
"396 0 \n",
"458 0 \n",
"489 0 \n",
"513 0 \n",
"544 0 \n",
"545 0 \n",
"572 0 \n",
"655 0 \n",
"656 0 \n",
"780 0 \n",
"853 0 \n",
"860 0 \n",
"870 0 \n",
"921 0 \n",
"926 0 \n",
"968 0 \n",
"969 0 \n",
"1000 0 \n",
"1007 0 \n",
"1037 0 \n",
"1071 0 \n",
"1078 0 \n",
"1094 0 \n",
"1198 0 \n",
"1290 0 \n",
"1299 0 \n",
"1300 0 "
]
},
"execution_count": 65,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# dziwne, że są tacy. co mieli łódkę, ale zginęli. Są też tacy, co łódki nie mieli, ale przeżyli... \n",
"# Spójrzmy na nich\n",
"df2[((df2['ocalal'] == 1) ^ (df2['mial_lodke'] == 1))]"
]
},
{
"cell_type": "code",
"execution_count": 67,
"id": "cd1e17fb-8281-4778-84e2-d7e183c17746",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
klasa_biletu
\n",
"
ocalal
\n",
"
plec
\n",
"
wiek
\n",
"
l_rdz_młż
\n",
"
l_dzieci_rodz
\n",
"
oplata
\n",
"
kabina
\n",
"
port
\n",
"
lodz
\n",
"
cialo
\n",
"
dest
\n",
"
mial_lodke
\n",
"
mial_kabine
\n",
"
\n",
" \n",
" \n",
"
\n",
"
19
\n",
"
1.0
\n",
"
0.0
\n",
"
M
\n",
"
36.0
\n",
"
0.0
\n",
"
0.0
\n",
"
75.2417
\n",
"
C6
\n",
"
C
\n",
"
A
\n",
"
NaN
\n",
"
Winnipeg, MN
\n",
"
1
\n",
"
1
\n",
"
\n",
"
\n",
"
235
\n",
"
1.0
\n",
"
1.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
39.6000
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
Paris / New York, NY
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
317
\n",
"
1.0
\n",
"
1.0
\n",
"
M
\n",
"
21.0
\n",
"
0.0
\n",
"
1.0
\n",
"
61.3792
\n",
"
NaN
\n",
"
C
\n",
"
A
\n",
"
NaN
\n",
"
Geneva, Switzerland / Radnor, PA
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
603
\n",
"
3.0
\n",
"
1.0
\n",
"
K
\n",
"
35.0
\n",
"
1.0
\n",
"
1.0
\n",
"
20.2500
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
East Providence, RI
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
605
\n",
"
3.0
\n",
"
1.0
\n",
"
M
\n",
"
25.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.6500
\n",
"
F G63
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
Perkins County, SD
\n",
"
1
\n",
"
1
\n",
"
\n",
"
\n",
"
630
\n",
"
3.0
\n",
"
1.0
\n",
"
M
\n",
"
27.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.7958
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
881
\n",
"
3.0
\n",
"
1.0
\n",
"
M
\n",
"
21.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.7958
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
921
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
NaN
\n",
"
0.0
\n",
"
0.0
\n",
"
7.2500
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
968
\n",
"
3.0
\n",
"
0.0
\n",
"
M
\n",
"
36.0
\n",
"
1.0
\n",
"
0.0
\n",
"
15.5500
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
969
\n",
"
3.0
\n",
"
0.0
\n",
"
K
\n",
"
30.0
\n",
"
1.0
\n",
"
0.0
\n",
"
15.5500
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
"
\n",
"
1088
\n",
"
3.0
\n",
"
1.0
\n",
"
M
\n",
"
32.0
\n",
"
0.0
\n",
"
0.0
\n",
"
7.7750
\n",
"
NaN
\n",
"
S
\n",
"
A
\n",
"
NaN
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" klasa_biletu ocalal plec wiek l_rdz_młż l_dzieci_rodz oplata \\\n",
"19 1.0 0.0 M 36.0 0.0 0.0 75.2417 \n",
"235 1.0 1.0 M NaN 0.0 0.0 39.6000 \n",
"317 1.0 1.0 M 21.0 0.0 1.0 61.3792 \n",
"603 3.0 1.0 K 35.0 1.0 1.0 20.2500 \n",
"605 3.0 1.0 M 25.0 0.0 0.0 7.6500 \n",
"630 3.0 1.0 M 27.0 0.0 0.0 7.7958 \n",
"881 3.0 1.0 M 21.0 0.0 0.0 7.7958 \n",
"921 3.0 0.0 M NaN 0.0 0.0 7.2500 \n",
"968 3.0 0.0 M 36.0 1.0 0.0 15.5500 \n",
"969 3.0 0.0 K 30.0 1.0 0.0 15.5500 \n",
"1088 3.0 1.0 M 32.0 0.0 0.0 7.7750 \n",
"\n",
" kabina port lodz cialo dest mial_lodke \\\n",
"19 C6 C A NaN Winnipeg, MN 1 \n",
"235 NaN S A NaN Paris / New York, NY 1 \n",
"317 NaN C A NaN Geneva, Switzerland / Radnor, PA 1 \n",
"603 NaN S A NaN East Providence, RI 1 \n",
"605 F G63 S A NaN Perkins County, SD 1 \n",
"630 NaN S A NaN NaN 1 \n",
"881 NaN S A NaN NaN 1 \n",
"921 NaN S A NaN NaN 1 \n",
"968 NaN S A NaN NaN 1 \n",
"969 NaN S A NaN NaN 1 \n",
"1088 NaN S A NaN NaN 1 \n",
"\n",
" mial_kabine \n",
"19 1 \n",
"235 0 \n",
"317 0 \n",
"603 0 \n",
"605 1 \n",
"630 0 \n",
"881 0 \n",
"921 0 \n",
"968 0 \n",
"969 0 \n",
"1088 0 "
]
},
"execution_count": 67,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Niesamowita sprawa - najwięcej z tych, którzy ocaleli pomimo braku łódki - to były kobiety... \n",
"# Jest to o tyle dziwne, że za burtą było znacznie więcej mężczyzn, niż kobiet.\n",
"# Czy to może spowodowane tym, że były na jakieś łodzi, ale tych danych brakuje? \n",
"# Czy to może dlatego, że ci z łodzi ratowali kobiety i dobijali ponad miarową ilość?\n",
"# przyjrzyjmy się też łodzi A - coś się z nią stało? Czy zatonęła? Najwięcej tych, \n",
"# którzy nie przeżyli pomimo posiadania łodzi, to było w łodzi A. Ile tam było osób?\n",
"\n",
"df2[df2['lodz'] == 'A']"
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "87a12738-bb84-4130-8668-14f13593cdee",
"metadata": {},
"outputs": [],
"source": [
"# Jednak więcej z tej łodzi się uratowała. Może miała jakąś wywrotkę, zatonięcie,\n",
"# albo był tam jakiś inny incydent?"
]
},
{
"cell_type": "code",
"execution_count": 174,
"id": "b679bd6e-609e-4b78-b9a3-03dea4b08bb2",
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
" \n",
" Liczebność\n",
"ocalal \n",
"Nie 682\n",
"Tak 161\n",
" \n",
" Liczebność\n",
"Czy ocalał Klasa biletu \n",
"Nie 1.0 118\n",
" 2.0 146\n",
" 3.0 418\n",
"Tak 1.0 61\n",
" 2.0 25\n",
" 3.0 75\n"
]
},
{
"data": {
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# No i chciałbym przeprowadzić analizę samych mężczyzn (ich przeżycie, albo zatonięcie\n",
"# w zależności od posiadanej klasy biletu. Jak wiadomo - ich ocalało jedynie 161 osób, \n",
"# a powyższy wykres histogramu przeżywalności w zależności od klasy biletu mógł nie \n",
"# odzwierciedlać dobrze rzeczywistości, bo najwyraźniej za główny cel postawiono sobie\n",
"# ratowanie kobiet...\n",
"\n",
"df4 = df3[df3['plec'] == 'M'][['ocalal', 'klasa_biletu', 'plec']]\n",
"for survived in [0, 1]:\n",
" add_to_title = ' (ocalał)' if survived else ' (nie ocalał)'\n",
" df5 = df4[df4['ocalal'] == survived]['klasa_biletu'].copy()\n",
" df5.name = 'Mężczyźni i klasa biletu' + add_to_title\n",
" df5.hist(legend=True, alpha=0.8)\n",
"plt.show()\n",
"plt.clf()\n",
"\n",
"stat = df4.copy()\n",
"stat['ocalal'].replace({0: 'Nie', 1: 'Tak'}, inplace=True)\n",
"\n",
"stat1 = stat.groupby(['ocalal']).agg({'plec': ['count']})\n",
"stat1 = stat1.rename(columns={'count': 'Liczebność'}, level=1)\n",
"stat1 = stat1.rename(columns={'plec': ''}, level=0)\n",
"print(stat1)\n",
"\n",
"stat2 = stat.groupby(['ocalal', 'klasa_biletu']).agg({'plec': ['count']})\n",
"stat2.axes[0].names = ['Czy ocalał', 'Klasa biletu']\n",
"stat2 = stat2.rename(columns={'count': 'Liczebność'}, level=1)\n",
"stat2 = stat2.rename(columns={'plec': ''}, level=0)\n",
"print(stat2)\n"
]
},
{
"cell_type": "markdown",
"id": "0c701aa3-2a02-4751-a815-c38a761abbd7",
"metadata": {},
"source": [
"Z tych danych wynika ogromna dysproporcja pomiędzy uratowanymi z klasą 1 pomiędzy uratowanymi z klasą 3 w skali wszystkich mężczyzn."
]
},
{
"cell_type": "code",
"execution_count": 179,
"id": "dada5c91-9378-4077-962d-46ab82833dfa",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
" liczba ocalałych\n",
"plec \n",
"Kobiety 21\n",
"Mężczyźni 2\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"data": {
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Teraz przeanalizujemy tych, którzy przeżyli pomimo braku łódki ratunkowej\n",
"df5 = df3[(df3['ocalal'] == 1) & (df3['mial_lodke'] == 0)]\n",
"\n",
"by_sex = df5.groupby('plec').agg({'ocalal': ['count']})\n",
"by_sex.rename(index={'M': 'Mężczyźni', 'K': 'Kobiety'}, inplace=True)\n",
"by_sex.columns = ['liczba ocalałych pomimo braku łódki']\n",
"print(by_sex)\n",
"by_sex.plot(kind='pie', subplots=True)\n",
"plt.show()\n",
"plt.clf()"
]
},
{
"cell_type": "markdown",
"id": "92214b90-3e2d-4368-95e2-b21e7eeaada4",
"metadata": {},
"source": [
"Widzimy tutaj zdumiewającą rzecz. Jaka miażdżąca statystyka na rzecz kobiet! Ciekawe z czego to wynika? \n",
"Czy z tego, że kobietom bardziej pomagano przeżyć (np. użyczając im jakieś przedmioty, których mogły się złapać, \n",
"a które wypłynęły na wierzch, czy może z tego, że co do natury mają większą wytrzymałość?"
]
},
{
"cell_type": "code",
"execution_count": 181,
"id": "3d178fdd-9932-4ad3-8078-b3cd09c3644e",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([[]], dtype=object)"
]
},
"execution_count": 181,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# a teraz sprawdzimy, czy wiek miał tutaj znaczenie w powyższym zjawisku\n",
"\n",
"df5[['wiek']].hist()\n"
]
},
{
"cell_type": "markdown",
"id": "5f76fd1c-1a82-4094-ae40-281ffdd300d2",
"metadata": {},
"source": [
"Okazuje się, że to również może mieć znaczenie. Czyżby młodszy organizm to silniejszy i wytrzymalszy?\n",
"Ale liczna tych próbek jest jednak zbyt mała, aby wyciągać jakieś wnioski."
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.9"
}
},
"nbformat": 4,
"nbformat_minor": 5
}