본문 바로가기

IT

빅데이터, 대체 뭘까요?

 

데이터는 과거의 어느 시대부터 종이나 기록할 수 있는 어떤 물리적 매체를 통해 기록하여 데이터를 축적하는 방식에서 시작되었다. 하지만, 점차 디지털 시대로 넘어오면서 데이터 생산 방식이 과거와는 비교해 혁신적으로 간편해졌고, 데이터 복사 또한 매우 편리해졌기 때문에 데이터는 기하급수적으로 증가하고 있습니다. 

게다가 음악이나 동영상의 공급이 훨씬 원활해짐에 따라, 텍스트 위주였던 데이터가 오디오와 비디오 등의 대용량 멀티미디어 콘텐츠로 전환되어 데이터 크기가 폭발적으로 상승하고 있습니다. 특히나 이런 데이터들은 최근에 SNS(카카오톡, 페이스북, 인스타그램 등)에서의 사용량이 증가함에 따라 더욱 상승하는 추세입니다.

그리고 요즘에는 개인, 기업뿐만 아니라 공공기관 등에서도 데이터를 교환할 수 있는 다양한 경로들이 더욱 많아지고 있기 때문에 빅데이터를 활용한 업무 효율석 극대화와 같은 제공 방안 제시 또한 급증하고 있습니다. 

 심지어는 빅테이터 분석을 통해 인공 지능 기술 및 기타 서비스 개발과 관련되어 개발이 수요가 급증하고 있습니다. 그에 따라 기본적인 수학적 지식, 프로그래밍 능력, 데이터 분석 등의 분야를 다루기 위해 인공지능 소프트웨어 개발 전문가와 함께 빅데이터 분석가(Big Data Analyst) 또는 데이터 사이언티스트(Data Scientist) 인력에 대한 수요도 증가하고 있습니다. 

빅데이터, 대체 뭘까요?

 

 

🔹 빅데이터의 특징

빅데이터(Big Data)에 대해 알아보기에 앞서 Data를 먼저 이해하자면 '모든 분석 혹은 활용이 가능한 디지털화된 자료'를 뜻합니다. 데이터는 우리가 관찰이나 측정으로 통해 수집이 가능한 단순한 사 실 이가 결괏값으로 가공되지 않은 상태를 의미합니다. 

빅데이터는 간단하게 보면 방대한 양의 데이터를 의미하는데, 단순히 데이터의 크기만 큰 것이 아니라 방대한 데이터의, 처리, 저장, 분석 방법이 기존 방식과 다른 데이터를 의미합니다. 빅데이터는 5V로 Volume, Velocity, Variety, Veracity, Value 특징을 가지고 있습니다. 

 

 

📌Volume(데이터의 양)

✔️ 기술적 발전과 IT 서비스의 일상화로 디지털 정보량의 증가로 데이터 집합의 크기가 Terabyte에서 Petabyte로 증가되었습니다. 

✔️ 데이터 수집•관리•처리 소프트 웨어의 수용 한계를 넘어서며 데이터의 양 및 처리 방식이 방대하게 증가하였습니다.

✔️ 기업, SNS, IoT 기기 등에서 매일 생성 및 소멸되는 엄청난 양의 데이터를 포함하고 있습니다. 

 

💡 하루 동안 생성 되는 유튜브 영상 데이터는 500시간 이상으로 지속적으로 증가하는 추세입니다.

💡 페이스 북에서는 매일 4 Petabyte 이상의 데이터가 축적되고 있습니다. 

 

📌 Velocity(데이터 생성 속도)

✔️ 데이터의 양과 내용이 끊임없이 증가 및 변화하고 있습니다. 특히나 실시간성 정보가 증가하고 있어 대규모 데이터의 빠른 처리 및 분석 속도를 요구하는 시스템이 수요가 증가하고 있습니다. 

✔️ 데이터는 실시간(Real-time)으로 생성 및 수집에 활용됩니다. 또한, 빠르게 변화하는 데이터를 실시간으로 분석하고 파악하여 대응하는 것이 중요합니다. 

 

💡 금융 거래 시스템 상에서 초당 수천 건의 누적 데이터 생성, SNS에서 트렌드 및 알고리즘에 따른 실시간 데이터 수집과 분석에 활용됩니다.

 

📌 Variety(데이터의 다양성)

✔️ 빅데이터는 구조화된 데이터(Structured Data) 뿐만 아니라, 비정형 데이터(Unstructured Data)와 반정형 데이터(Semi-structured Data)도 포함하고 있습니다.

✔️ 텍스트, 멀티미디어 등 비정형화된 데이터 유형이 증가하고 있으며 로그, SNS, 구매, IoT 데이터 등의 데이터가 다양하게 증가하고 있습니다. 

 

💡 정형 데이터(데이터 베이스, 엑스파일), 비정형 데이터(영상, 이미지, 소셜 미디어 기록물과 댓글), 반정형 데이터(JSON, XML)

 

📌Veracity(데이터의 신뢰성)

✔️ 데이터는 어떤 결정을 내리는 데 타당한 데이터인지 판단하기 위해 기본적으로 정확성과 신뢰성 그리고 타당성을 보장해야 합니다.

✔️ 빅데이터는 노이즈 데이터(Noise Data)와 오류 데이터(Error Data)가 포함되어 있을 가능성이 높기 때문에, 지속적으로 필터링이 필요합니다.

 

💡 금융 데이터에서 부정확한 거래 기록 필터링이 필요합니다. 

💡 SNS 데이터에서는 허위 정보가 포함될 가능성이 높습니다. 

📌 Value(데이터의 가치)

✔️ 기존 DBMS 또는 단순한 데이터 분석 시스템으로는 작업이 어렵기 때문에, 데이터 분석을 통해 기업은 새로운 인사이트를 찾고 효율적인 의사 결정을 할 수 있도록 대용량 데이터 내부에 함축된 가치를 분석하고 대응하는 것이 중요합니다.

✔️ 빅데이터의 최종 목적은 유용한 정보 및 가치를 분석화고 창출하는 것입니다. 

 

💡 공장의 기계와 관련된 데이터를 분석하여 기계 고장을 예측하고 유지 보수에 관한 비용을 효율적으로 관리할 수 있습니다.

💡 많은 양의 고객 데이터를 수집 및 분석하여 맞춤형 추천 시스템을 적용합니다. (넷플릭스, 아마존, 유튜브 등)

 

 

🔹 빅데이터 활용 가치

✔️ 빅데이터의 활용가치는 크게 비용 절감과 수익 증대로 구분하여 평가할 수 있습니다. 수익증대의 경우 신속하고 정교한 의사결정을 돕는 데이터 패턴 파악과 미래 예측을 통한 창출 등으로 구분할 수 있습니다.

 

✔️ 빅데이터 분석은 기업 및 기관마다 서로 다르게 분석할 수 있습니다. Gartner 그룹의 경우 빅데이터 분석의 주요 목적을 고객분석, 제품 및 처리 과정의 효율성 제고, 디지털 제품 및 서비스 제공, 운영 효율성, 리스크 관리 및 운영으로 구분해 분석한다고 합니다. 

또한, 공공 분야에서는 재난 정보의 데이터 도출로 사전에 재난 예방을 위해 노력하고 다양한 사회적 기회 창출 제공을 위해서도 빅데이터 분석을 활용합니다.

 

 

'IT' 카테고리의 다른 글

빅데이터의 다양한 영향 - 1  (0) 2025.03.29
빅데이터 처리 방식의 차이  (0) 2025.03.28
API, 대체 뭘까요?  (0) 2025.03.26
우분투, 대체 뭘까요?  (0) 2025.03.25
리눅스, 대체 뭘까요?  (0) 2025.03.24