본문 바로가기
데이터 사이언스

데이터 사이언스(EDA 분석)

by Oceanlighth AI 2023. 4. 14.

목차

1. 머리글

2. EDA분석이란?

3. EDA분석의 과정

4. EDA분석이 필요한 이유

5. 마치며

안녕하세요 오션라이트에이아이 백승기연구원입니다.

 

머리글

 

오늘은 EDA분석에 대해서 알아보겠습니다.

 

EDA분석이란?

그림 1. 데이터 사이언스의 과정(출처 : By Farcaster at English Wikipedia, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=40129394)

 

EDA는 Exploratory Data Analysis의 약자로 탐색적 데이터 분석입니다. 

 

우리가 데이터를 학습시킬 때 외부에서 가져오는 공공데이터, 내부에서 직접 생산한 자체 데이터 등을 이용합니다.

 

하지만 이러한 데이터를 아무런 분석이나 가공 없이 그대로 사용한다면 학습의 결과가 그리 좋지 못할 것입니다.

 

아무 의미를 가지지 않는 데이터에 목적에 따라서 의미를 부여하고 의미에 맞는 데이터를 골라내기 위한 선행작업을 EDA 분석이라고 할 수 있습니다.

 

쉽게 예를 들어 설명하면, 음식을 만들 때, 만들고자 하는 요리의 목적에 맞는 재료를 선택하기 위한 과정을 EDA 분석이라고 할 수 있습니다.

 

EDA분석의 과정

 

1. EDA분석을 위해서는 프로젝트의 목적을 명확하게 해야합니다. 목적이 불명확하면 그에 맞는 데이터를 준비하는 데에 어려움을 겪을 수 있습니다.

2. 프로젝트의 목적을 정한 뒤에는 그에 맞는 데이터를 준비해야 합니다.

 

1, 2의 과정을 통해 프로젝트의 목적과 그에맞는 원천데이터(raw data)를 준비했습니다.

 

이제 이 데이터를 가지고 EDA분석을 실시합니다.

 

1. 데이터의 통일성, 일관성을 파악하기

- 텍스트 및 행렬 데이터의 경우에는 데이터의 자료형이 통일되어 있는지 확인해야 합니다. 각 Column내의 데이터는 같은 자료형으로 이루어져야 합니다. 
- 이미지 데이터의 경우에는 각각 이미지의 확장자가 동일해야 데이터 처리에 수월하며, 이미지의 채널( ex. RGB, HSV, Grayscale 등)이 동일하여야 데이터 분석에 문제가 생기지 않습니다.

2.  데이터의 결측치에 대해서 파악하기

- 텍스트나 행렬데이터의 경우에는 데이터에 결측치가 있는지 확인해야합니다. 결측치에 대해서 파악하고 결측치에 대해 처리하는 방법에 대해서 데이터의 분석을 통해 정할 수 있습니다.

3. 데이터의 시각화를 통해 데이터 상관관계 분석하기

- 데이터의 시각화를 통해서 데이터 사이의 상관관계를 분석하고, 전처리 방향에 대해서 생각할 수 있습니다.
- 시각화를 실시하면 데이터의 불균형이나 데이터들이 서로 어떠한 영향을 끼치고 있는지 확인할 수 있습니다.

그림 2. Confusion Matrix를 통해서 데이터 간 상관관계를 확인하는 방법(https://oceanlightai.tistory.com/15)


4. 카테고리 분류의 경우, 데이터 클래스에 대한 불균형을 파악하기

- 이미지 분류 프로젝트를 수행하는 경우, 이미지의 클래스에 대한 불균형이 생길 수 있습니다. 해당 문제의 처리를 위해 데이터를 분석하고 해결방안에 대해서 생각해보아야 합니다.

그림 3. YoloV5의 데이터 시각화를 통해 클래스 불균형에 대해 파악하고 분석하기

 

EDA분석이 필요한 이유

 

위에서 살펴본 대로 EDA분석을 통해 프로젝트의 목적과 진행방향에 따라서 사용하는 자료, 도구에 대해서 미리 파악하는 것은 중요합니다.

 

만약에 EDA분석을 제대로 진행하지 않고 정제되지 않은 자료, 목적에 맞지 않는 자료, 목적에 맞지않는 도구 등을 사용하면 사용자가 원하는 결과를 얻을 수 없을뿐더러, 프로젝트 수행에 차질이 생길 수 있습니다.

 

마치며

 

이번 글에서는 EDA분석에 대해서 알아보았습니다.

 

EDA 분석 기법은 다양하고 폭넓기 때문에 프로젝트의 방향성과 목적에 따라서 알맞은 방법을 채택하여야 합니다.

댓글