Graph2) 영업사원의 영업 관련 그래프

1. 시각화 목적:

1) 영업사원의 프로모션이 얼마큼 효과가 있었는지 확인하기 위한 그래프

2) 영업사원이 제시한 상품과 프리젠테이션 만족도 별 상품 신청률을 확인하여 향후 영업과 마케팅에 활용이 가능

2. 시각화 과정 소개:

1) 영업사원과 관련된 feature들만 따로 모아 df 분리
2) 추천 상품별 신청/미신청 건수를 그래프로 그림
3) 추천 제품에 대한 소비자들의 영업 만족도를 구분하여 신청률을 그래프로 표현
4) 평균선을 추가하여 전체 평균과 비교 가능하도록 표현

3. 피드백:

1) 색깔이랑 스타일 등이 조금 더 심미적인 그래프가 되도록 그릴 필요가 있음

Graph2-1) 추천 상품별 신청/미신청(ProdTaken) 건수

 
# 영업사원과 관련된 컬럼만 가져와 df 분리
pitch_list = ['DurationOfPitch', 'NumberOfFollowups', 'ProductPitched', 'PitchSatisfactionScore', 'ProdTaken']
pitch_df = df[pitch_list]
pitch_df.head(3)
 
plt.figure(figsize=(8,6))
sns.countplot(x="ProductPitched", hue="ProdTaken", data=pitch_df)
plt.title('<추천 상품별 신청/미신청 건수>')
plt.show()

Graph2-2) 상품의 프리젠테이션 만족도별 신청률

pd.DataFrame(pitch_df.groupby(['ProductPitched', 'PitchSatisfactionScore'])['ProdTaken'].mean().unstack())
# pd.DataFrame(pitch_df.pivot_table('ProdTaken', index = 'ProductPitched', columns = 'PitchSatisfactionScore'))
 

#평균선을 그리기 위한 평균값 구하기
mean_taken = np.round(pitch_df['ProdTaken'].mean(), 3)

plt.figure(figsize=(12,6))
sns.catplot(x = 'ProductPitched', hue = 'PitchSatisfactionScore', legend=False,
            y = 'ProdTaken', kind= 'bar', data = pitch_df, height = 7, aspect=2)

plt.axhline(mean_taken, label='평균', linestyle = '--', linewidth = 3, color = 'r') ## 평균값을 y좌표로 하는 수평선 생성
plt.text(4, mean_taken + 0.01, f'평균값 : {mean_taken}', fontsize=25, fontweight = 'semibold') ## 평균에 대한 텍스트 출력

plt.legend(title='PitchSatisfactionScore', loc='upper right', fontsize = 15)
plt.xlabel('추천 상품', fontsize=16);
plt.ylabel('신청률', fontsize=16);
plt.title('<추천 상품 & 만족도 별 신청률>', fontsize=20)
plt.tick_params(axis='both', which='major', labelsize=14)
plt.show()

Graph3) 연령대별 패키지 여행 신청(ProdTaken) 비율

1. 시각화 목적:

1) 각 연령대별로 패키지 여행을 얼마나 신청했는지 그 비율을 그래프로 표현

2) 신청율이 떨어지는 연령대에 대해 추가적인 마케팅과 영업을 통해 성공율을 높일 수 있을 것으로 기대

2. 시각화 과정 소개:

1) '연령대(Ageband)'와 '신청 여부('ProdTaken)'간 cross_tab_prop 테이블 생성

2) 테이블을 horizontal bar plot으로 전체 100% 기준 비율 그래프로 변환
3) 그래프의 각 비율에 몇 퍼센트인지 텍스트를 첨가

3. 피드백:

1) 'ProdTaken'에서 0은 미신청이고 1이 신청인데 그래프를 보게 되면 0에 색깔이 부여되어 미신청이 마치 신청인 것처럼 보이게 됨

2) 0과 1의 순서를 바꾸어 줄 필요가 있음

cross_tab = pd.crosstab(index=df['Ageband'],
                        columns=df['ProdTaken'],
                        normalize= False)

cross_tab_prop = pd.crosstab(index=df['Ageband'],
                             columns=df['ProdTaken'],
                             normalize= 'index')
cross_tab_prop
 
cross_tab_prop.plot(kind='barh', 
                        stacked=True, 
                        colormap='Pastel1', 
                        figsize=(10, 6))

plt.legend(loc="lower right", ncol=3)
plt.ylabel("연령", fontsize= 'large')
plt.xlabel("신청 비율", fontsize= 'large')
plt.title('<연령대별 신청율 차이>', fontsize= 'xx-large', fontweight= 'bold')


for n, x in enumerate([*cross_tab.index.values]):
    for (proportion, count, y_loc) in zip(cross_tab_prop.loc[x],
                                          cross_tab.loc[x],
                                          cross_tab_prop.loc[x].cumsum()):
                
        plt.text(x=(y_loc - proportion) + (proportion * 1/4),
                 y=n - 0.11,
                 s=f'{count} ({np.round(proportion * 100, 1)}%)', 
                 color="Black",
                 fontsize=10,
                 fontweight="normal")

plt.show()

ㄴㅇㄹㄴㅇㄹ

info) 정규세션 2주차 Tourism 데이터 시각화

Tourism 데이터를 활용하여 시각화 그래프 그리기


1. 초기 환경설정 

from IPython.core.display import display, HTML
display(HTML("<style>.container {width:80% !important;}</style>"))
%matplotlib inline

import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

mpl.rcParams['figure.figsize'] = (12,8)  #시각화 figure default 설정
mpl.rcParams['font.family'] = 'NanumGothic' #폰트 디폴트 설정
mpl.rcParams['font.size'] = 10    #폰트 사이즈 디폴트 설정
plt.rcParams['axes.unicode_minus'] = False
%config InlineBackend.figure_format='retina' # 그래프 글씨 뚜렷

2. Tourism 데이터 로드

import pandas as pd
import numpy as np

df = pd.read_csv('./tourism.csv')
df.head(3)

공간 상 일부 컬럼 생략되었습니다


3. 데이터 전처리

3.1 Gender의 'Fe Male' 오기 수정

# 오타가 발생한 'Fe Male'을 'Female'로 수정
df['Gender'].replace('Fe Male', 'Female', inplace=True)

# 수정된 결과 확인
df['Gender'].unique()

3.2 'Age' 결측치 처리

# 성별 나이 중앙값
male_median_age = df.loc[df['Gender'] == 'Male', 'Age'].median() #남자의 나이 중앙값
female_median_age = df.loc[df['Gender'] == 'Female', 'Age'].median() #여자의 나이 중앙값

print('남성 나이 중앙값: ', male_median_age, '여성 나이 중앙값: ', female_median_age)
# Age의 결측치를 중앙값으로 대치
median_age = df['Age'].median()
df['Age'].fillna(median_age, inplace = True)

# Age 값들 확인
df['Age'].unique()
 
array([28., 34., 45., 29., 42., 32., 43., 36., 35., 31., 49., 52., 33.,
       22., 50., 23., 41., 37., 40., 56., 54., 39., 20., 46., 27., 38.,
       25., 26., 24., 30., 21., 51., 47., 55., 44., 53., 48., 18., 57.,
       60., 59., 19., 58., 61.])

3.3 연령대(Ageband) 파생변수 생성

# 연령대를 반환하는 ageband() 정의
def ageband(x):
    if x < 10:
        return '10세 이하'
    elif x < 20:
        return '10대'
    elif x < 30:
        return '20대'    
    elif x < 40:
        return '30대'
    elif x < 50:
        return '40대'
    elif x < 60:
        return '50대'
    elif x < 70:
        return '70대'
    else:
        return '80대 이상'
df['Ageband'] = df['Age'].apply(lambda x: ageband(x)) 

4. 그래프 그리기

Graph1) EDA 그래프

1. 시각화 목적:

1) 전반적인 데이터의 상황을 한눈에 확인하기 위한 목적
2) 개괄적으로 데이터를 살핀 후 필요에 따라 drill-down하여 세부적으로 확인 가능

2. 시각화 과정 소개:

1) 범주형 변수 연속형 변수를 분리하여 따로 그래프를 그림
2) subplots를 통해 한번에 여러 그래프를 확인할 수 있도록 함
3) 색상은 구매선택과 미선택 사이에 극명한 차이를 둘 수 있도록 대조되는 컬러 사용
4) 연속형 변수에 대한 그래프의 경우, kde(커널 밀도 추청) 그래프를 추가하여 히스토그램에 대한 확률밀도함수를 추정하여 정밀 표현

3. 피드백:

1) 색상 지정에서 hue의 각 변수에 대해 새상을 따로 지정할 수 있는지 확인이 필

2) 가령, 0(미선택)에 대해 부정을 의미하는 빨간색, 1(선택)에 대해 긍정을 의미하는 파란색 부여가 가능한지

Graph1-1) 카테고리형 변수별 상품 신청률(ProdTaken)
 
#카테고리 변수만 따로 리스트로 분리하고 개수 출력
categorical_list = ['TypeofContact', 'CityTier', 'Occupation', 'Gender', 'NumberOfPersonVisiting', 'PreferredPropertyStar', 'MaritalStatus',
       'NumberOfTrips', 'OwnCar','NumberOfChildrenVisiting', 'Designation']
print('카테고리 변수 개수: ', len(categorical_list))

#subplot으로 11개의 변수를 한번에 표시
fig, axes = plt.subplots(3, 4, figsize = (24, 24))

for idx, cat in enumerate(categorical_list):
    row = idx // 4
    col = idx % 4
    sns.countplot(x = cat, hue = "ProdTaken", palette = 'deep', data=df, ax=axes[row][col])
    
plt.tight_layout()
plt.show()

Graph1-2) 연속형 변수별 신청률(ProdTaken)

#연속형 변수만 따로 리스트로 분리하고 개수 출력
continuous_list = ['Age', 'DurationOfPitch', 'MonthlyIncome']
print('연속형 변수 개수: ', len(continuous_list))

#subplot으로 11개의 변수를 한번에 표시
fig, axes = plt.subplots(1, 3, figsize = (12, 6), squeeze=False)

for idx, con in enumerate(continuous_list):
    row = idx // 4
    col = idx % 4
    sns.histplot(data=df, x=con, hue="ProdTaken", palette = 'Set1', kde= True, multiple='stack', ax=axes[row][col])
    
plt.tight_layout()
plt.show()

 

 

info) 정규세션 2주차 Titanic 시각화 실습

Titanic 데이터를 활용하여 시각화 그래프 그리기


Graph2) Pclass별 투숙객들의 연령 분포 BoxPlot / 가족 구성원에 따른 생존율 차이 HeatMap

1-1. 시각화 목적

1) 각 객실등급(Pclass)별 투숙객들의 정보를 확인하기 위한 목적에서 그래프를 그려보았습니다. 여러 정보들 중에서도 연령분포를 확인해보았습니다.

2) 가족관계가 생존율에 영향을 주었는지 살펴보기 위한 목적에서 그래프를 그려보았습니다. 가족에 대한 변수 중 'SibSp(형제/자매)'와 'Parch(부모/자녀)'를 사용하여 구성원에 따른 생존율 차이를 시각화하고자 하였습니다.

1-2. 시각화 과정 소개

1) 연속형 데이터에 대한 최대, 최소, 중앙값, 이상치 등을 한 눈에 확인할 수 있다는 점과 범주형 변수와 연속형 변수 사이의 비교가 용이하다는 점에서 boxplot을 사용하였습니다. seaborn의 catplot함수에서 'box' 파라미터를 지정하여 그래프를 만들었습니다. 

2) 'SibSp'와 'Parch'는 둘 다 카테고리 변수로 같은 단위("명")를 공유하고 있습니다. 2개의 변수 사이의 관계를 살펴보기 위해 crosstab(교차표)를 그려볼 수 있는데 이를 시각화하면 어떨까 하는 생각이 들었습니다. 언젠가 heatmap을 통해 시계열 데이터(월, 시간) 간의 관계를 표현한 heatmap 그래프를 본 적이 있습니다. crosstab의 형태가 heatmap과 잘 어울린다고 판단되어 crosstab을 heatmap 그래프로 변환하였습니다. (실제로 상관계수(Correlation coefficient)와 오분류표(confusion matrix)와 같은 범주형 변수 사이의 관계를 나타내는 표를 heatmap으로 시각화하는 작업이 많이 알려져 있습니다.) 

1-3. 그래프 그리기

Graph2-1) Pclass별 투숙객들의 연령 분포 BoxPlot

sns.catplot(data=df, x="Pclass", y="Age", kind="box", height = 4, aspect = 1);

분석 : 그래프를 그려본 결과 3등급에서 1등급으로 갈 수록 평균연령을 비롯한 연령 분포가 점차 높아지는 것을 확인할 수 있습니다. 1등급의 경우 정규분포에 가까운 형태라고 할 수 있고 나머지 등급의 경우에는 고령층에 이상치가 발견된다는 점에서 히스토그램으로 변환했을 때 right-skewed된 형태가 될 것으로 짐작됩니다. 

Graph2-2) 가족 구성원에 따른 생존율 차이 HeatMap

Parch와 SibSp를 각각 index와 column으로 하는 pivot table을 그려보았습니다. 앞서 설명에서는 crosstab이라고 말씀 드렸는데 지금 보니 pivot table을 그렸던 것으로 보입니다. 사실 crosstab이 pivot table의 일종이기 때문에 그다지 큰 차이는 없습니다. 그리고 여기서는 groupby 집계 후에 pivot()함수를 사용하였는데 이를 한번에 pivot_table()로 처리(aggfunc = 'mean')할 수도 있습니다. 

# 그래프를 그리기 위한 피봇테이블 생성
family_df = df[["PassengerId","SibSp", "Parch", "Survived"]]
family_df = pd.DataFrame((family_df.groupby(['SibSp','Parch'])['Survived'].mean() * 100).round(1))
family_df.reset_index(inplace = True)
pivot_df = family_df.pivot(index = 'SibSp', columns = 'Parch', values = 'Survived')
print(pivot_df)

위에서 만들어진 pivot table을 heatmap으로 변환해보도록 하겠습니다. 

# heatmap 그래프로 생존율의 차이 확인
plt.figure(figsize = (8, 6))
ax = sns.heatmap(pivot_df, annot = True, linewidths = .5, cmap = 'Reds', fmt = 'g')
plt.xlabel('부모 또는 자녀의 수')
plt.ylabel('형제 자매 수')
plt.title('<가족 관계에 따른 생존율 차이>', fontweight = 'semibold')
plt.show()

분석 : null 값이 많았던 터라 heatmap의 경우도 값이 빈 경우가 많고 때문에 적은 값(가족 인원 수)들에 분포가 몰린 것을 볼 수 있습니다. 데이터 자체가 heatmap으로 표현하기에는 부족했던 것 같습니다. 또한, 데이터 분포를 보더라도 그다지 패턴이나 군집화(cluster) 경향을 확인할 수 없습니다. 물론 더 정확한 분석을 위해서는 다른 분석 기법을 통해 확인해보아야겠지만 시각화 결과만으로는 그다지 뚜렷한 관계를 파악할 수는 없습니다. 그냥 재미로 보고 넘어가는 것이 바람직할 것 같습니다. 

info) 정규세션 2주차 Titanic 시각화 실습

Titanic 데이터를 활용하여 시각화 그래프 그리기


1. 라이브러리 import 및 환경 설정

#주피터 노트북 환경 설정
from IPython.core.display import display, HTML
display(HTML("<style>.container {width:80% !important;}</style>")) #주피터 노트북 셀 확장
%matplotlib inline #그래프를 셀에서 그리기

#필요한 라이브러리 import
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

#맷플로립 그래프 초기 환경 설정
mpl.rcParams['figure.figsize'] = (12,8)  #figure size default 설정
mpl.rcParams['font.family'] = 'NanumGothic' #한글 폰트 default 설정
mpl.rcParams['font.size'] = 15    #폰트 사이즈 default 설정
plt.rcParams['axes.unicode_minus'] = False #한글 마이너스 기호 깨짐 방지
%config InlineBackend.figure_format='retina' # 그래프 글씨를 뚜렷하게 설정

2. Titanic 데이터 불러오기

df = pd.read_csv('./Titanic.csv')
df.head(3)

3. 시각화 작업

Graph1) 생존자 연령 분포에 대한 Violin Plot(바이올린 플롯)

1-1. 시각화 목적

1) 타이타닉 생존자에 대한 대략적인 분포를 파악하기 위한 목적에서 그래프를 그려보았습니다.

2) 구체적으로 생존에 영향을 끼친 2개의 feature값 'Sex(성별)'과 'Pclass(객실등급)' 각각에 대한 생존/사망자들의 연령 분포를 확인하고자 그래프를 그렸습니다. 

1-2. 시각화 과정 소개

1) 분포를 확인할 수 있는 방법으로 hist plot, box plot 등 여러 방법이 있지만 hist plot은 두 히스토그램이 겹치게 그려진다는 단점이 있고 box plot은 그래프에 대한 지식이 없이는 직관적으로 해석하기 어렵다는 단점이 있습니다. 따라서, 이 둘을 보완할 수 있는 Violin plot을 선택하였습니다.

1-3. 그래프 그리기

#subplot으로 2개의 그래프를 한번에 그릴 수 있도록 설정
fig,ax=plt.subplots(1, 2, figsize=(18,8))

#첫 번째 그래프
sns.violinplot(data=df, x="Pclass", y="Age", hue="Survived", split = True, ax = ax[0])
ax[0].set_title('Pclass별 Survived의 Age 분포', fontsize = 20, fontweight ='bold')
ax[0].set_yticks(range(0,100,10)) #연령의 bin을 10으로 설정

#두 번째 그래프
sns.violinplot(data=df, x="Sex", y="Age", hue="Survived", split = True, ax = ax[1])
ax[1].set_title('Sex별 Survived의 Age 분포',  fontsize = 20, fontweight ='bold')
ax[1].set_yticks(range(0,100,10))  #연령의 bin을 10으로 설정

plt.tight_layout()
plt.show()


1-4.  자체 피드백

1) 위 그래프를 통해서는 생존에 대한 심층적인 분석이 불가능하다고 보입니다. 우리의 목적은 생존에 어떤 요인들이 영향을 미쳤고 어떤 사람들이 생존에 유리했는지 파악하는 것인데 상기의 그래프를 통해서는 이를 분석하기 어렵다고 생각됩니다.

2) 가령, 연령별 생존 여부를 확인하기 위해서는 생존자 분포가 아닌 생존율을 살펴볼 필요가 있습니다. 각 연령별로 인원수가 같지 않기 때문에 절대적인 수를 가지고 비교하게 되면 잘못된 해석이 될 수 있습니다.

3) 때문에 단순 count를 기반으로 하는 그래프가 아닌 생존율을 비교하는 그래프로 다시 바꾸도록 하겠습니다. 아래 그래프들은 상단의 그래프 각각을 분석 목적에 맞춰 새로 변환한 것입니다.


1-5. 피드백을 반영한 그래프

1) 연령대별 생존율

def ageband(x):
    if x < 10:
        return '0-9세'
    elif x < 20:
        return '10대'
    elif x < 30:
        return '20대'    
    elif x < 40:
        return '30대'
    elif x < 50:
        return '40대'
    elif x < 60:
        return '50대'
    elif x < 70:
        return '60대'
    elif x < 80:
        return '70대'
    else:
        return '80대 이상'
#ageband()함수를 통해 연령대를 나타내는 새로운 컬럼 Ageband 생성
df['Ageband'] = df['Age'].apply(lambda x: ageband(x)) 
df.sort_values('Ageband', inplace = True)

#연령대별 생존율에 대한 barplot
sns.catplot(data=df, x="Ageband", y="Survived", kind="bar", height=4, aspect=3)

#생존율 평균값을 그리기
mean_survived = np.round(df['Survived'].mean(), 3) #전체 승객에 대한 생존율 평균
plt.axhline(mean_survived, label='평균', linestyle = '--', linewidth = 3, color = 'r') #평균값을 y좌표로 하는 수평선 생성
plt.text(7, mean_survived + 0.05, f'평균값 : {mean_survived}', fontsize=15, fontweight = 'semibold') #평균에 대한 텍스트 출력

plt.xlabel('연령대')
plt.ylabel('생존율')
plt.ylim((0, 1))
plt.title('연령별 생존율')
plt.show()

분석 : 10대 이하, 80대 이상을 제외하고 대부분의 연령대는 평균 생존율에 근사해 있습니다. 70대의 경우에는 생존자가 없으며, 10대 이하의 생존율은 평균 이상이고 80대 이상의 생존율은 평균 이하입니다. 어린이에 비해서 노인들이 생존에 있어 취약한 면이 있었다고 보입니다.


2) 객실 등급별 남여 생존율 차이

#Pclass와 Sex별 생존율을 나타내는 df
pd.DataFrame(df.groupby(['Pclass', 'Sex'])['Survived'].mean())
fig = sns.catplot(data=df, x="Sex", y="Survived", col="Pclass", kind="bar", height=4, aspect=.6,)
fig.set_axis_labels("", "생존율")
fig.set_xticklabels(["남성", "여성"])
fig.set_titles("{col_var} {col_name}")
fig.set(ylim=(0, 1))
plt.show()

분석 : 전반적으로 남성보다 여성의 생존율이 월등히 높습니다. 남성의 경우에는 1등급 객실의 생존율이 다른 객실보다 높은 편이며 남녀 상관없이 3등급 객실의 생존율이 가장 낮습니다. 특히, 여성에 있어 다른 1,2등급 객실은 생존율이 90% 이상으로 높은 편이지만 3등급 여성 승객들은 50%의 매우 낮은 확률을 보이고 있습니다. 이 점에 대해서 그래프 상으로만은 이유를 발견하기 어렵지만 다른 참고 자료를 통해서 그 원인에 대해 찾아볼 수 있을 것 같습니다. 

Info) 정규세션 1주차 (강원도 소방 데이터)

Problem. 왼쪽의 원본 데이터를 가공하여 오른쪽 데이터 형태로 만들기


1. 데이터 불러오기

import pandas as pd

#관할서 센터별 소방용수 데이터
fire_df =  pd.read_csv('./관할서 센터별 소방용수 데이터.csv')

#관할서 센터별 소방용수 데이터 feature설명
feature_df = pd.read_excel('./관할서 센터별 소방용수 데이터.xls')

#정답 파일: 강원도 지역별 소방용수시설 별 개수
answer_df = pd.read_excel('./강원도 지역별 소방용수시설 별 개수.xlsx')

2. fire_df 확인 및 수정 

2-1. fire_df 컬럼명 변경

#feature_df의 컬럼명 리스트로 가져오기
column_names = list(feature_df.columns)

#fire_df의 컬럼명에 추가하여 변경
fire_df.columns = column_names

2-2. 결측치 확인 및 제거

#'소방용수구분명'의 결측치 확인
fire_df['소방용수구분명'].isna().sum() 

#'소방용수구분명'이 null인 행 제거
fire_df.dropna(subset=['소방용수구분명'], axis=0, inplace=True)

3. 파생변수 '지역' Column 만들기

#군구명과 동명을 합쳐 새로운 지역 컬럼 만들기
fire_df['지역'] = fire_df['구군명']+ ' ' + fire_df['동명']

4. One Hot Encoding 적용

#fire_df에서 필요한 컬럼만 추출 
fire_df = fire_df[['지역', '구군명', '동명', '소방용수구분명']]

#원핫 인코딩 적용하여 새로운 fire_df_new 생성
fire_df_new = pd.get_dummies(data = fire_df, columns = ['소방용수구분명'])

5. Column 이름 재설정 및 순서 재배치

#fire_df_new의 컬럼명 재설정
fire_df_new.columns = ['지역', '시군구', '읍면동', '급수탑', '기타', '소화전(지상식)', '소화전(지하식)', '저수조'] 

#컬럼 순서 재설정
fire_df_new = fire_df_new[['지역', '시군구', '읍면동', '소화전(지상식)', '소화전(지하식)', '급수탑', '저수조', '기타']]

6. groupby 통해 그룹별 집계

#groupby 통해 지역별 합계로 집계
fire_df_new = fire_df_new.groupby(['지역', '시군구', '읍면동']).sum()

#인덱스 초기화
fire_df_new.reset_index(inplace=True)

#최종 결과물 확인
fire_df_new

cf) 다른 방식 (crosstab 활용)

cross_tab_prop = pd.crosstab(index=[fire_df['지역'], fire_df['구군명'], fire_df['동명']],
                             columns=fire_df['소방용수구분명'],
                             normalize= False,
                             margins = False)
cross_tab_prop.reset_index(inplace = True)
cross_tab_prop.columns = ['지역', '구군명', '동명', '소화전(지상식)', '소화전(지하식)', '급수탑', '저수조', '기타']
cross_tab_prop

info) 정규세션 1주차 Pandas 실습 (World_2012 데이터 사용)


1. 데이터 확인

1-1. 데이터 불러오기

import pandas as pd
import numpy as np

df = pd.read_excel('./World_2012.xlsx')
df

1-2. 데이터 형태 확인

df.head(3) #상위 3개 확인
#df.tail() #하위 5개 확인

1-3. 데이터 크기 확인

df.shape #(행,열) 크기 확인

1-4. 데이터의 결측치 확인

df.isna().sum()

1-5.  ‘Continent’ 컬럼의 고유값 확인

df['Continent'].unique()

2. 결측치 처리

2-1. GDP 결측치 처리

- 대륙별 GDP 평균을 구하여 결측치에 대체

#{Continent : GDP평균} dictionary 생성
gdp_avg = dict(df.groupby('Continent')['GDP'].mean())

#해당 continent와 GDP가 null인 값에 대해 대륙별 GDP평균으로 대체
for (continent, gdp) in gdp_avg.items():
    df.loc[(df['Continent'] == continent) & (df['GDP'].isnull()), 'GDP'] = gdp 
    
#결측치 재확인
df['GDP'].isna().sum()

2-2. 나머지 결측치도 동일한 방식으로 처리

- 함수를 정의하여 결측치가 있는 모든 컬럼에 적용

#대륙별 feature들의 평균값 확인
df.groupby('Continent').mean()

#대륙별 평균값으로 결측치를 대체하는 함수 정의
def fillwithAverage(x):
    continent_avg = dict(df.groupby('Continent')[x].mean())
    for i in continent_avg.keys():
        df.loc[(df['Continent'] == i) & (df[x].isnull()), x] = continent_avg[i]
        
column_list =list(df.columns) #feature 목록 리스트

#GDP를 비롯한 Country, Continent, Population은 제외
remove_list = ['Country', 'Continent', 'Population', 'GDP'] 
column_list = [col for col in column_list if col not in remove_list]
print(column_list)

#반복문을 통해 함수 적용
for col in column_list:
    fillwithAverage(col)
    
#결측치 재확인
df.isna().sum()

3. 파생변수 생성

3-1. 1인당 GDP 소득인 'PCI'라는 파생변수 생성

- GDP Population 활용

df['PCI'] = df['GDP'] / df['Population']
df.head(3)

3-2. 기대수명인 'Life Expectancy'라는 파생변수 생성

- Male Life Expectancy, Femal Life Expectancy feature의 평균 활용

df['Life Expectancy'] = (df['Male Life Expectancy'] + df['Femal Life Expectancy']) / 2
df.tail(2)

4. 유럽 데이터 생성

4-1. 'Continet' 컬럼에서 '유럽'에 해당하는 것만 필터링하여 europe_data에 저장

- loc 함수 사용

europe_data = df.loc[df['Continent'] == '유럽', :]
europe_data.head(3)

4-2. europe_data Population 10,000,000이상인 나라만 필터링하여 europe_data 갱신

europe_data = europe_data[europe_data.Population >= 10000000]
europe_data.head(3)

4-3. europe_data에서 PCI(1인당 소득) 기준 상위 3개 국가 확인

europe_data.sort_values('PCI', ascending = False)[:3]

4-4. europe_data에서 PCI(1인당 소득)가 가장 작은 국가 확인

europe_data.sort_values('PCI', ascending = True)[:1]

5. 선진국 데이터 생성

5-1. Population 10,000,000이상이고 PCI 30,000이상인 국가를 필터링하여 developed_data라는 변수에 저장

developed_data = df.loc[(df['Population'] >= 10000000) & (df['PCI'] >= 30000),:]
developed_data

5-2. developed_data에서 Business TR 0.3이하 이거나, Internet 0.8 이상인 국가를 필터링

- Column Country Business, TR Loan, IR만 표시

developed_data.loc[(developed_data['Business TR'] <= 0.3) | (developed_data['Internet'] >= 0.8),:][['Country', 'Business TR', 'Loan IR']]

 

info) BACS 1주차는 Titanic 데이터를 사용하여 Pandas 실습을 진행하였습니다.

실습을 위한 Titanic csv 파일은 Kaggle의 'Titanic - Machine Learning from Disaster' 페이지에서 다운로드 가능하며 원본 파일은 train.csv이나 다른 파일과의 혼동을 방지하기 위해 Titanic으로 파일명을 변경하여 진행하였습니다. 


4. 파생변수 만들기

'Age' 컬럼을 변형하여 연령대를 의미하는 'AgeBand' 컬럼을 새로운 파생변수로 추가하고자 합니다. 이를 위해서 2가지 방법을 사용할 수 있는데 각각의 방법을 살펴보겠습니다.  'AgeBand' 컬럼의 value는 '20대 미만', '20대', '30대', '40대', '50대', '60대 이상' 총 6개의 값으로 이루어지도록 구성하겠습니다. 연령대를 더 세분화하고 싶다면 조건을 더 추가해 주시면 됩니다. 

1) loc 메소드 사용

먼저 'AgeBand'라는 컬럼을 빈 값들로 채워 지정해줍니다. 그리고 loc[행에 대한 부분, 열에 대한 부분]을 사용해 행부분에 'Age'값에 대한 조건을 지정해주고 열부분에는 'AgeBand'를 넣어 조건에 맞는 해당되는 부분을 빈값에서 연령대로 바꿔주면 됩니다.

df['AgeBand'] = '' #빈값으로 구성된 새로운 AgeBand 컬럼을 생성 

#loc메소드에 각 조건을 지정하여 빈값을 해당 연령대로 변경
df.loc[(df['Age'] < 20), 'AgeBand'] = '20대 미만'
df.loc[(df['Age'] >= 20) & (df['Age'] < 30), 'AgeBand'] = '20대'
df.loc[(df['Age'] >= 30) & (df['Age'] < 40), 'AgeBand'] = '30대'
df.loc[(df['Age'] >= 40) & (df['Age'] < 50), 'AgeBand'] = '40대'
df.loc[(df['Age'] >= 50) & (df['Age'] < 60), 'AgeBand'] = '50대'
df.loc[df['Age'] >= 60, 'AgeBand'] = '60대 이상'

2) age_band() 함수를 정의하고 apply lambda 적용

다른 방법으로는 if문을 통해 각 연령대를 반환하는 함수를 정의하고 이를 컬럼에 apply lambda를 통해 적용하는 것입니다. 아래 코드를 통해 직접 살펴보겠습니다.  

#age_band() 함수 정의
def age_band(x):
    if x < 20:
        return '20대 미만'
    elif x < 30:
        return '20대'
    elif x < 40:
        return '30대'
    elif x < 50:
        return '40대'
    elif x < 60:
        return '50대'
    else:
        return '60대 이상'
#apply lambda를 통해 함수를 적용하여 'AgeBand'컬럼 생성
df['AgeBand'] = df['Age'].apply(lambda x: age_band(x))

5. 그룹별로 집계하기

groupby를 통해 생존률에 대해 여러 조건으로 집계를 해보도록 하겠습니다. Sex별, Pclass별, Embarked별, AgeBand별 등 각 그룹별 생존율을 살펴보고 이를 통해 타이타닉 침몰 사건에서 생존을 한 사람들의 특징들을 확인해보시기 바랍니다. 번쩍이는 인사이트는 아니지만 이러한 방식으로 가설들을 세울 수 있다는 점을 살펴 볼 수 있습니다. 

추가) 생존률은 mean() 평균을 통해 구할 수 있습니다. 'Survived'컬럼이 생존 시 1, 사망 시 0으로 되어 있기 때문에 이들 값들의 평균은 '생존인원 / 전체 인원'과 동일하며 이는 생존율이라고 할 수 있습니다. 

#Sex별 생존율
df.groupby(['Sex'], as_index=False)['Survived'].mean()

 

#Pclass별 생존율
df.groupby(['Pclass'], as_index=False)['Survived'].mean()

#Embarked별 생존율
df.groupby(['Embarked'], as_index=False)['Survived'].mean()

#'AgeBand'별 생존율
df.groupby(['AgeBand'], as_index=False)['Survived'].mean()

[분석결과]

1) Sex별 생존율에서 남성에 비해 여성의 생존율이 월등히 높았습니다. 탈출 과정에서 여성, 노인 등과 같이 보호 대상들을 우선으로 하였기 때문이지 않을까 짐작됩니다. AgeBand별 생존율에서는 60대 이상을 제외하고는 거의 비슷한 확률 분포를 보였습니다. 노인분들의 경우 아무리 탈출 우선 순위에 두었다 하더라도 신체적인 제약으로 인해 생존율이 현저히 떨어진 것이 아닐까 생각됩니다. 

2) Pclass별 생존율에서는 1등급에서 낮은 등급으로 갈수록 생존율이 급격히 떨어지는 것을 확인할 수 있었습니다. 1등급 탑승객들을 우선으로 하여 탈출을 진행했을 수도 있고 1등급 객실이 2,3등급에 비해 위치 상 탈출 경로에 더 가까웠을 수도 있습니다. 물이 먼저 차오르는 낮은 층에 낮은 등급의 객실이 많이 분포되어 있었을 것 같다는 생각이 듭니다. 이러한 분석 결과는 타이타닉호의 선실 구조 자료를 통해 검증해볼 필요가 있을 것입니다. 

3) 가장 흥미로웠던 것은 Embarked별 생존율이었습니다. 개인적으로 탑승 지역은 생존율과 큰 관계가 없을 것으로 생각하였습니다. 따라서, Embarked별 생존율은 비슷하게 분포되었을 것이라고 예상하였습니다. 하지만 다른 지역과 달리 C지역에서 탑승한 승객의 생존확률이 50%이상이라는 수치를 보였습니다.

이것이 유의미한 수치인지에 대해 추가적인 가설검증의 과정이 필요하지만 대충 짐작해보면 C지역의 탑승객 중 부유층이 많지 않았을까 생각됩니다. 부유층일수록 1등급칸에 많이 탑승했을 것이고 고로 탈출 확률이 높았을 것입니다. 이를 위해 한번 Embarked별 평균 Fare(혹시 몰라 중앙값도 확인)와 Pclass 분포를 확인해보겠습니다. 즉, 탑승지역에 따라 부유층의 비율이 다른지 살펴보는 것입니다. 

#Embarked별 Fare의 평균
df.groupby(['Embarked'], as_index=False)['Fare'].mean()

##Embarked별 Fare의 중앙값
df.groupby(['Embarked'], as_index=False)['Fare'].median()

(좌) 평균 운임료 (우) 운임료 중앙값

운임료에 대한 평균값, 중앙값 둘 다 확인해본 결과 C지역 탑승객들이 다른 지역보다 더 비싼 객실을 이용한 것으로 확인되고 있습니다. 확실히 C지역의 탑승객들이 다른 지역에 비해 더 부유한 것을 알 수 있습니다. 

pclass_df = pd.DataFrame(df.groupby(['Embarked','Pclass'])['Pclass'].count())
embarked_df = pd.DataFrame(df.groupby(['Embarked'])['Pclass'].count())
ratio_df = ((pclass_df / embarked_df) * 100).round(2) 
ratio_df.columns = ['Pclass 비율']
ratio_df

한편, Embarked 지역별 Pclass 분포를 확인했을 때 절대적인 1등급 탑승객의 수는 S지역이 가장 많았지만 비율로 환산했을 때는 C지역이 제일 높았습니다. C지역 탑승객 중 무려 50%가 1등급칸을 이용한 것을 볼 수 있습니다. 지금까지의 분석을 종합해 보면 확실히 C지역의 탑승자들에 부유층이 많음을 확인할 수 있고 때문에 생존율이 높았다고 결론 지을 수 있을 듯 합니다. 물론, 탈출 과정에서 부유층이 더 우선순위에 있었는지 혹은 1등급 객실이 탈출 경로에 더 가까웠는지는 다른 자료를 통해 확인은 해보아야 할 것입니다. 하지만, 지금까지의 분석을 통해서 적어도 1등급칸을 이용한 승객이 살아남을 확률이 꽤 높았음을 충분히 유추할 수 있습니다. 

info) BACS 1주차는 Titanic 데이터를 사용하여 Pandas 실습을 진행하였습니다. 

실습을 위한 Titanic csv 파일은 Kaggle의 'Titanic - Machine Learning from Disaster' 페이지에서 다운로드 가능하며 원본 파일은 train.csv이나 다른 파일과의 혼동을 방지하기 위해 Titanic으로 파일명을 변경하여 진행하였습니다. 

 

1. 데이터 불러오기

Titanic 파일은 콤마(,)로 구분된 csv파일입니다. Titanic 파일을 read_csv()를 통해 데이터프레임 형식으로 가져오도록 하겠습니다. 이때 경로 설정에 유의해주시기 바랍니다. 1) 모든 경로를 설정해주시거나 또는 2) 사전에 디렉토리 경로를 설정해주어 파일명만을 통해 가져오는 방법이 있습니다. 편하신 방법을 이용하시면 됩니다. 

import pandas as pd

df = pd.read_csv('./Titanic.csv') #다운로드한 csv파일을 데이터프레임 형식으로 불러오기
df

 

2. 데이터 개요 확인하기

데이터프레임은 행과 열로 구성된 2차원의 자료구조입니다. 따라서, 행과 열의 크기를 통해 데이터의 전체적인 사이즈를 확인할 수 있습니다.

train.shape

또한, 행의 수가 많은 경우 상위 n개와 하위 n개만을 가져와 약식으로 데이터의 모습을 확인할 수 있습니다.  head()와 tail()의 파라미터로 원하는 개수의 숫자를 넣어주면 되고 생략시 default값은 5입니다.

df.head() #df의 상위 5개 행을 확인

df.tail(10) #df의 하위 10개 행 확인

지금까지 Titanic의 개괄적인 부분을 살펴보았으니 각 feature들의 value 빈도를 확인해보겠습니다. 그래프를 통해 값의 분포를 확인하는게 좋으나 이번에는 pandas만을 사용하는 시간이니 value_counts를 통해 결과를 가져와 보겠습니다. 수치형 데이터는 분포가 너무 퍼져 있어 한눈에 보이지가 않고 출력물이 너무 길어지게 되어 간단히 범주형 데이터로 구성된 컬럼 몇 개만 확인해보겠습니다. 

df.columns #df의 column에 어떤 항목들이 있는지 확인
category_list = ['Survived', 'Pclass', 'Sex','Embarked'] #category 데이터로 이루어진 컬럼 중 일부만 가져오기

#반복문을 활용해 출력
for col in category_list:
    print("[{}]".format(col)) #해당 컬럼을 제목으로 입력
    print(df[col].value_counts()) #value_counts()를 사용해 값의 빈도 가져오기
    print("-" * 40, end='\n') #컬럼 간 구분

 

3. 결측치 확인 및 처리

isnull() 또는 isna()를 통해 결측치에 해당하는 부분을 boolean 값(True/False)로 반환할 수 있습니다. 파이썬에서는 True를 1로 인식하고 False를 0으로 인식하기 때문에 sum()을 통해 '합계'를 구하면 결국 '개수'와 동일한 결과를 얻을 수 있게 됩니다. 

df.isna().sum() #isna() 대신 isnull()도 가능

df.notnull().sum() #notnull()을 사용하면 null값이 아닌 것의 개수를 반환

결측치를 확인한 결과 'Age' 컬럼에 177개, 'Cabin' 컬럼에 687개, 'Embarked' 컬럼에 2개가 있습니다. 그러면 각 컬럼에서 결측치를 처리해보도록 하겠습니다. 각 case별로 하나씩 해보겠습니다. 

[Case1] 'Age'의 결측치 처리

결측치가 발견되는 경우 해당 결측치를 다른 값으로 '대체'를 하거나 결측치가 존재하는 컬럼이나 행을 '삭제'할 수 있습니다. 데이터의 성격에 따라 처리 방식은 달라질 수 있기 때문에 반드시 충분한 검토 후에 결측치 처리를 진행해야 합니다. 우선 'Age' 컬럼의 경우 결측치는 177개입니다. 꽤 많은 결측치가 있으나 우리가 이후 Titanic 데이터에 대한 가설을 설정할 때 연령 데이터는 중요한 요인이 될 수 있기 때문에 제거보다는 값을 대체하는 것이 더 좋은 선택이라 할 수 있습니다. 

'대체'의 경우에도 2가지 방식을 사용할 수 있습니다. 

1) 평균 연령으로 대체

mean()함수를 통해 'Age'의 평균을 구하고 이를 fillna()값에 넣어 대체할 수 있습니다. 

df.fillna(df['Age'].mean(), inplace = True) #'Age'의 평균값으로 결측치 대체

2) 성별 별 연령의 평균으로 대체

groupby()함수를 사용해 성별 별 평균 연령을 확인해보겠습니다. 

df.groupby('Sex')['Age'].mean()

각 평균값을 반올림하여 각각 28, 31로 하고 NaN값에 대체해보겠습니다. loc()함수에 2개의 조건을 주어 male이면서 나이가 null인 경우와 female이면서 나이가 null인 경우를 확인하고 각각의 평균값을 넣어주겠습니다. 

df.loc[(df['Sex'] == 'male') & (df['Age'].isnull()), 'Age'] = 31
df.loc[(df['Sex'] == 'female') & (df['Age'].isnull()), 'Age'] = 28

[Case2] 'Cabin'의 결측치 처리

'Cabin' 컬럼의 경우 결측치가 687개로 전체 데이터 개수인 891개에서 너무 많은 비중을 차지하고 있습니다. 따라서 값을 대체해도 무의미한 결과가 나올뿐만 아니라 'Cabin' 컬럼의 특성 상 그 값들이 특정 값으로 대체되기 어려운 데이터입니다. 상식적으로 cabin(선실)이라는 것은 대부분의 사람들이 각자가 예약한 방을 사용하기 때문에 가족이 아닌 이상 모두 다른 cabin을 이용해 하나의 값으로 대체하기가 어렵습니다. 따라서, 'Cabin' 컬럼의 경우에는 아예 컬럼을 삭제하는 선택을 하도록 하겠습니다. drop()에서는 index를 통해 행을 columns를 통해 열을 삭제할 수 있습니다.

df.drop(columns = 'Cabin', inplace = True)

한편, column을 drop해주는 방법도 있지만 결측치가 있는 데이터 row를 제거해주는 방법이 있습니다. 하지만 'Cabin'의 경우 결측치가 너무 많기 때문에 추천하지는 않습니다. 왜냐하면 너무 많은 데이터 row값이 삭제되어 데이터 샘플 수가 부족해지고 데이터에 왜곡이 생기는 문제가 생기기 때문입니다. 

df.dropna(subset=['Cabin'], inplace = True) #df에서 'Cabin'컬럼이 null인 행만 삭제

[Case3] 'Embarked'의 결측치 처리

마지막으로 'Embarked' 컬럼의 경우 결측치가 2개로 적은 편입니다. 'Embarked' 데이터의 분포를 보면 다음과 같이 'S'가 644개로 가장 많습니다. 따라서, 결측치 값을 'S'로 채워줄 수 있습니다. 

df['Embarked'].value_counts() #'Embarked'컬럼의 값 분포를 확인
df['Embarked'].fillna('S', inplace =True) #결측치를 'S'로 대체

 

+ Recent posts