목차
안녕하세요. 오션라이트에이아이 백승기연구원입니다.
머리글
이전 글에서 설명하였던 빅데이터를 좀 더 자세히 알아보도록 하겠습니다.
빅데이터의 종류
빅데이터는 정형데이터, 비정형데이터, 반정형데이터 세가지로 나눌 수 있습니다.
정형데이터
먼저 정형데이터에 대해서 알아보도록 하겠습니다.
정형데이터는 데이터를 미리 정해놓은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터를 말합니다.
정형데이터는 손쉽게 데이터에 대한 부분검색 및 선택, 갱신, 삭제 등의 연산을 수행할 수 있습니다.
그림 1.과 같이 데이터의 구조가 정형화 되어있고 데이터 구조, 내용 등을 관리하기 편리합니다.
이러한 형식의 데이터는 컴퓨터의 학습을 보다 편리하게 할 수 있도록 만듭니다.
비정형데이터
비정형데이터는 데이터의 형식과 내용이 특정한 형태로 정의되어 있지 않은 데이터를 의미합니다.
그림 2.와 같이 비정형데이터는 영상, 텍스트, 이미지, 음성 등 데이터의 내용이 일정하지 않고 데이터의 형식또한 정해지지 않은 데이터라고 할 수 있습니다.
이러한 특징 때문에 비정형데이터는 원하는 데이터를 수집하는 과정이 쉽지않고 특정한 결과값을 내기도 어렵습니다.
반정형데이터
정형데이터와 비정형데이터의 특징을 모두 가지고 있는 반정형데이터는 데이터의 구조정보를 데이터와 함께 제공하는 파일형식의 데이터를 말합니다.
그림 3.은 특정한 정보를 가지고 있는 JSON형식의 반정형 데이터이며, 이 데이터는 정형데이터처럼 데이터 테이블이 행과 열로 구조화되어있지는 않지만 데이터 형식이나 구조는 포함하고 있는 데이터입니다.
데이터의 수집위치에 따른 분류
데이터를 수집하는 위치에 따라서 데이터를 내부데이터, 외부데이터로 분류할 수 있습니다.
내부데이터
내부데이터는 수집하는 데이터의 데이터베이스가 내부시스템에 존재하고 있는 데이터를 말합니다.
예를들면 기업이 보유하고 있는 영업데이터, 고객데이터 등을 내부데이터라고 할 수 있습니다.
외부데이터
외부데이터는 수집하는 데이터의 데이터베이스가 외부시스템에 존재하고 있는 데이터를 말합니다.
우리가 지금도 사용하고 있는 인터넷포털 또한 외부데이터라고 할 수 있고, 공공데이터포털, AI-Hub 등에서 얻은 데이터 또한 외부데이터라고 할 수 있습니다.
마치며
이번 글에서는 빅데이터의 종류, 데이터 수집위치에 따른 분류를 알아보았습니다.
다음 글에서는 빅데이터의 처리기술 중 하나인 분산처리기술에 대해서 알아보도록 하겠습니다.
'바삭한 인공지능' 카테고리의 다른 글
바삭한 인공지능(분류알고리즘 종류) (0) | 2023.01.11 |
---|---|
바삭한 인공지능(ML 이란? / 회귀와 분류) (0) | 2023.01.11 |
바삭한 인공지능(분산처리기술) (0) | 2023.01.11 |
바삭한 인공지능(인공지능과 빅데이터) (0) | 2023.01.11 |
바삭한 인공지능(AI, ML, DL에 대하여...) (0) | 2023.01.11 |
댓글