데이터와 정보
- 데이터는 1646년 영국 문헌에 처음 등장하였으며, "주어진 것"이란 의미를 갖는 라틴어 dare의 과거분사형으로 사용되었다.
데이터의 정의
- 데이터는 추론과 추정의 근거를 이루는 사실이다.
- 현실 세계에서 관찰하거나 측정하여 수집한 사실이다.
데이터의 특징
- 단순한 객체로도 가치가 있으며, 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.
- 객관적 사실이라는 존재적 특성을 갖는다.
- 추론, 추정, 예측, 전망을 위한 근거로써 당위적 특성을 갖는다.
데이터의 구분
- 정량적 데이터(Quantitative Data) : 주로 숫자로 이루어진 데이터이다.
- 정성적 데이터(Qualitative Data) : 문자와 같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터이다.
정량적 데이터 | 정성적 데이터 | |
---|---|---|
유형 | 정형 데이터, 반정형 데이터 | 비정형 데이터 |
특징 | 여러 요소의 결합으로 의미 부여 | 객체 하나가 함축된 의미 내포 |
관점 | 주로 객관적 내용 | 주로 주관적 내용 |
구성 | 수치나 기호 등 | 문자나 언어 등 |
형태 | 데이터베이스, 스프레드시트 등 | 웹 로그, 텍스트 파일 등 |
위치 | DBMS, 로컬 시스템 등 내부 | 웹사이트, 모바일 플랫폼 등 외부 |
분석 | 통계분석 시 용이 | 통계분석 시 어려움 |
데이터의 유형
- 정형 데이터(Structured Data) : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터이며, 연산이 가능하다.
- 반정형 데이터(Semi-Structured Data) : 데이터의 형식과 구조가 비교적 유연하고, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터이며, 연산이 불가능하다.
- 비정형 데이터(Unstructured Data): 구조가 정해지지 않은 대부분의 데이터이며, 연산이 불가능하다.
데이터의 근원에 따른 분류
데이터 수집과정은 데이터의 재상산 과정으로 볼 수 있다. -> 원본 데이터로부터 재생산된 데이터는 가역 데이터와 불가역 데이터로 구분할 수 있다.
- 가역 데이터 : 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터로 원본과 1:1 관계를 갖는다. 이력 추적이 가능하여, 원본 데이터가 변경되는 경우 변경사항을 반영할 수 있다.
- 불가역 데이터 : 생산된 데이터의 원본으로 환원이 불가능한 데이터이다. 원본 데이터와는 전혀 다른 형태로 재생산되기 때문에 , 원본 데이터의 내용이 변경되었더라도 변경사항을 반영할 수 없다.
가역 데이터 | 불가역 데이터 | |
---|---|---|
환원성(추적성) | 가능(비가공 데이터) | 불가능(가공 데이터) |
의존성 | 원본 데이터 그 자체 | 원본 데이터와 독립된 새 객체 |
원본과의 관계 | 1대1의 관계 | 1대 N, N대1 또는 M대N의 관게 |
처리과정 | 탐색 | 결합 |
활용분야 | 데이터 마트, 데이터 웨어하우스 | 데이터 전처리, 프로파일 구성 |
데이터의 기능
과학적 발견은 개인의 암묵적 지식에 기초하는 경우가 많으며, 이를 활용하려면 데이터를 기반으로 한 암묵지와 형식지의 상호작용이 중요하다.
- 암묵지 : 어떠한 시행착오나 다양하고 오랜 경험을 통해 개인에게 체계화되어 있으며, 외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어렵다.
- 형식지 : 형상화된 유형의 지식으로 그 전달과 공유가 쉽다.
지식창조 매커니즘
암묵지와 형식지 간 상호작용을 위한 일본의 경영학자 노나카 이쿠지로의 지식창조 매커니즘은 다음의 4단계로 구성된다.
- 공통화 (Socialization) : 서로의 경험이나 인식을 공유하며 한 차원 높은 암묵지로 발전시킨다.
- 표출화 (Externalization) : 암묵지가 구체화되어 외부(형식지)로 표현된다.
- 연결화 (Combination) : 형식지를 재분류하여 체계화한다.
- 내면화 (Internalization) : 전달받은 형식지를 다시 개인의 것으로 만든다.
데이터, 정보, 지식, 지혜
데이터, 정보, 지식, 지혜는 인간의 사회활동 속에서 가치 창출을 위한 일련의 프로세스로 연결되어 기능한다.
- 지혜 : 축적된 지식을 통해 근본적인 원리를 이해하고, 아이디어를 결합하여 도출한 창의적 산물이다.
- 지식 : 상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고, 개인적인 경험을 결합시켜 내재화한 고유의 결과물이다.
- 정보 : 데이터를 가공하거나 처리하여, 데이터 간 관계를 분석하고 그 속에서 도출된 의미를 말하며, 항상 유용한 것은 아니다.
- 데이터 : 현실세계에서 관찰하거나 측정하여 수집한 사실이나 값으로 개별 데이터 로는 그 의미가 중요하지 않은 객관적 사실이다.
데이터베이스
데이터베이스라는 용어는 1963년 6월 컴퓨터 중심의 데이터베이스 개발과 관리라는 주제로 미국 SDC(System, Development, Corporation)가 개최한 심포지엄에서 공식적으로 사용되었다.
데이터베이스의 정의
- 체계적이거나 조직적으로 정리되고, 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물이다
- 데이터베이스는 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것이다. (저작권법)
- 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고, 저장 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합이다.
- 문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체이다.
데이터베이스 관리 시스템(DBMS, Database Management System)
데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어이다.
종류 | 설명 |
---|---|
관계형 | 데이터를 열과 행을 이루는 테이블로 표현하는 모델이다. |
객체지향 | 정보를 객체 형태로 표현하는 모델이다. |
네트워크 | 그래프 구조를 기반으로 하는 모델 |
계층형 | 트리 구조를 기반으로 하는 모델 |
- SQL(Structured Query Language)
- 데이터베이스에 접근할 때 사용하는 언어이다.
- 단순한 질의 기능뿐만 아니라 데이터 정의와 조작기능을 갖추고 있다.
- 테이블 단위로 연산을 수행하며 초보자들도 비교적 쉽게 사용이 가능하다.
데이터베이스의 특징
- 통합된 데이터 : 동일한 데이터가 중복되어 저장되지 않음을 의미한다.
- 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장매체에 데이터를 저장한다.
- 공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터를 함께 이용한다.
- 변화되는 데이터: 데이터는 현 시점의 상태를 나타내며 지속적으로 갱신된다.
데이터베이스의 장단점
장점 단점 1. 데이터 중복 최소화 2. 실시간 접근 가능 3. 데이터 보완 강화 4. 논리적 및 물리적 독립성 제공 5. 데이터 일관성 제공 6. 데이터 무결성 보장 7. 데이터 공유 용이 구축과 유지에 따른 비용 발생 백업과 복구 등 관리 필요
데이터베이스의 활용
- OLTP(Online Transaction Processing)
호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나로 데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미한다.
- 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태를 말한다.
- 현재 시점의 데이터만을 데이터베이스가 관리한다는 개념이다.
- 이미 발생한 트랜잭션에 대해서는 데이터 값이 과거의 데이터로 다른 디스크나 테이프 등에 보관될 수 있다.
- OLAP(Online Analytics Processing)
정보 위주의 분석 처리를 하는 것으로, OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악, 재무 회계 분석 등을 프로세싱하는 것을 의미한다.
- 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻을 수 있게하는 기술이다.
구분 | OLTP | OLAP |
---|---|---|
데이터 구조 | 복잡 | 단순 |
데이터 갱신 | 동적으로 순간적 | 정적으로 주기적 |
응답 시간 | 수 초 이내 | 수 초에서 몇 분 사이 |
데이터 범위 | 수 십일 전후 | 오랜 기간 저장 |
데이터 성격 | 정규적인 핵심 데이터 | 비정규적 읽기 전용 데이터 |
데이터 크기 | 수 기가바이트 | 수 테라바이트 |
데이터 내용 | 현재 데이터 | 요약된 데이터 |
데이터 특성 | 트랜잭션 중심 | 주제 중심 |
데이터 엑세스 빈도 | 높음 | 보통 |
질의 결과 예측 | 주기적이며 예측 가능 | 예측하기 어려움 |
데이터 웨어하우스(Data WareHouse)
사용자의 의사결정에 도움을 주기 위하여 기관시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스다.
데이터 웨어하우스는 일정한 시간 동안의 데이터를 축적하고 의사결정을 위한 다양한 분석 작업을 수행한다.
특징 | 내용 |
---|---|
주제지향석(Subject-Orientation) | 고객, 제품 등과 같은 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 구성된다. |
통합성(Integration) | 데이터가 데이터 웨어하우스에 입력될 떄는 일관된 형태로 변환되며, 전사적인 관점에서 통합된다. |
시계열성(Time-variant) | 데이터 웨어하우스의 데이터는 일정 기간 동안 시점별로 이어진다. |
비휘발성 (Non-volatillization) | 데이터 웨어하우스에 일단 데이터가 적재되면, 일괄 처리 작업에 의한 갱신 이외에는 변경이 수행되지 않는다. |
- 데이터 웨어하우스의 구성
구성 요소 | 내용 |
---|---|
데이터 모델 | 주제 중심적으로 구성된 다차원의 개체-관계형(Entity-Rlation) 모델로 설계된다. |
ETL(Extract, Transform, Load) | 기업의 내부 또는 외부로부터 데이터를 추출, 정제 및 가공하여 데이터 웨어하우스에 적재한다. |
ODS(Operational Data Store | 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리한다. |
DW 메타데이터 | 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공한다. |
OLAP(Online Analytical Processing) | 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션이다. |
데이터마이닝(Data Mining) | 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론이다. |
분석 도구 | 데이터마이닝을 활용하여 데이터 웨어하우스에 적재된 데이터를 분석할 수 있는 도구이다. |
경영기반 솔루션 | KMS, DSS, BI와 같은 경영의사결정을 지원하기 위한 솔루션이다. |
빅데이터 개요
빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미한다.
- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.
- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지우너하도록 고안된 차세대 기술 및 아키텍처이다.
- 빅데이터는 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내며, 나아가 이를 활용해 시장과 기업 및 시민과 정보의 관계 등 많은 분야에 변화를 가져오는 것이다.
빅데이터의 등장과 변화
- 빅데이터의 등장 배경?
디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술이 빠르게 발전하고 있다.
- 기업에서는 온,오프라인 고객 데이터가 많이 축적되면서 데이터에 숨어 있는 가치를 발굴해 새로운 성장동력으로 활용하고 있다.
- 학계에서는 인간 게놈 프로젝트, 기후 관찰 등 거대 데이터를 다루는 학문 분야가 확산되면서 필요한 기술 아키텍처 및 분석 기법들이 발전하고 있다.
- 빅데이터의 등장으로 인한 변화
- 데이터 처리시점이 사전 처리에서 사후 처리로 이동하였다.
- 기존에 필요한 정보만 수집하는 시스템에서, 가능한 한 많은 데이터를 모으고 다양한 방식으로 조합하여 숨은 정보를 얻는 방식으로 변화
- 데이터 처리 범주가 표본조사에서 전수조사로 확대되었다.
- 기술 발전으로 인한 데이터 처리비용 감소로 표본조사가 아닌 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 변화
- 데이터의 가치 판단 기준이 질보다 양으로 그 중요도가 달라졌다.
- 데이터의 지속적 추가는 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과를 산출하는 데 긍정적인 영향을 미친다는 추론을 바탕으로 변화
- 데이터를 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화되는 경향이 있다.
- 데이터 기반의 상관관계 분석으로 특정 현상의 발생 가능성을 포착하여 대응하는 방식으로 변화
빅데이터의 특징
빅데이터 용어가 사용된 초기에 가트너 그룹은 3V(규모, 유형, 속도)로 빅데이터의 특징을 설명했으며, 최근에는 빅데이터 분석을 통해 얻을 수 있는 가치와 데이터에 대한 품질의 중요성이 강조되고 있다.
- 5V
- 규모(Volume) : 데이터 양이 급격하게 증가함, 기존 데이터 관리 시스템의 성능적 한계 도달함.
- 유형(Variety) : 데이터의 종류와 근원 확대(다양화), 정형 데이터 외 반정형 및 비정형 데이터로 확장
- 속도(Velocity) : 데이터 수집과 처리 속도의 변화, 대용량 데이터의 신속하고 즉각적인 분석 요구
- 품질(Veracity) : 데이터의 신뢰성, 정확성, 타당성 보장이 필수, 고품질의 데이터에서 고수준 인사이트 도출 가능
- 가치(Value) : 대용량의 데이터 안에 숨겨진 가치 발굴이 중요, 다른 데이터들과 연계 시 가치가 배로 증대
- 전통적 데이터와 빅데이터 비교
전통적 데이터 | 빅데이터 | |
---|---|---|
규모 | 기가바이트(GB) 이하 | 테라바이트(TB) 이상 |
처리 단위 | 시간 도는 일 단위 처리 | 실시간 처리 |
유형 | 정형 데이터 | 정형+반정형, 비정형 데이터 |
처리방식 | 중앙집중식 처리 | 분산 처리 |
시스템 | Relational DBMS | Hadoop, HDFS, Hbase, NoSQL 등 |
빅데이터의 활용
- 빅데이터의 활용을 위한 3요소
구성요소 | 내용 |
---|---|
자원(Resource)[빅데이터] | 정형, 반정형, 비정형 데이터를 실시간으로 수집한다. 수집된 데이터를 전처리 과정을 통해 품질을 향상시킨다. |
기술(Technology)[빅데이터플랫폼,AI] | 분산 파일 시스템을 통해 대용량 데이터를 분산 처리한다. 데이터마이닝 등을 통해 데이터를 분석 및 시각화한다. 데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용한다. |
인력(People)[알고리즈미스트, 데이터사이언티스트] | 통계학, 수학, 컴퓨터공학, 경영학 분야 전문지식을 갖춘다. 도메인 지식을 습득하여 데이터 분석 및 결과를 해석한다. |
- 빅데이터의 활용을 위한 기본 테크닉
테크닉 | 설명 | 예시 |
---|---|---|
연관규칙학습 | 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법 | 도시락을 구매하는 사람이 음료수를 더 많이 구매하는가? |
유형분석 | 문서를 분류하거나 조직을 그룹화할 때 사용 | 이것은 어떤 특성을 가진 집단에 속하는가? |
유전 알고리즘 | 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법 | 시청률을 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가? |
기계학습 | 데이터로부터 학습한 알려진 특성을 활용하여 예측 | 시청 기록을 바탕으로 어떤 영화를 가장 보고 싶어하는가? |
회귀 분석 | 독립변수가 종속변수에 미치는 영향을 분석할 때 사용 | 경력과 학력이 연봉에 미치는 영향은? |
감정분석 | 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석 | 새로운 할인 정책에 대한 고객의 평은 어떤가? |
소셜네트워크(사회관계망)분석 | 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용 | 고객들 간 관계망은 어떻게 구성되는가? |
빅데이터의 가치
- 빅데이터 활용을 통해 얻는 가치
기관명 경제적 효과 Economist(2010) 데이터는 자본이나 노동력과 거의 동등한 레벨의 경제적 투입자본으로 비즈니스의 새로운 원자재 역할을 한다. MIT Sloan(2010) 데이터 분석을 잘 활용하는 조직일수록 차별적 경쟁력을 갖추고 높은 성과를 창출한다. Gartner(2011) 데이터는 21세기의 원유이며, 미래 경쟁 우위를 결정한다. 기업은 다가올 데이터 경제시대를 이해하고 정보고립을 경계해야 한다. McKinsey(2011) 빅데이터는 혁신, 경쟁력, 생산성의 핵심요소이다.
빅데이터의 기능과 효과
- 빅데이터는 이를 활용하는 기존 사업자에게 경쟁 우위를 제공한다.
- 새롭게 시장에 진입하려는 잠재적 경쟁자에게는 진입장벽과도 같다.
- 고객 세분화와 맞춤형 개인화 서비스를 제공할 수 있다.
- 시뮬레이션을 통한 수요 포착과 변수 탐색으로 경쟁력을 강화하고, 비즈니스 모델이나 제품 또는 서비스의 혁신을 가져온다.
- 빅데이터는 알고리즘 기반으로 의사결정을 지원하거나 이를 대신한다.
- 빅데이터는 투명성을 높여 R&D 및 관리 효율성을 제고한다.
빅데이터 가치 측정의 어려움
특정 데이터의 가치는 그 데이터의 활용 및 가치 창출 방식과 분석 기술의 발전 여부 등에 따라 달라질 수 있어 이를 측정하고 판단하는 것은 쉽지 않다.
- 데이터 활용 방식 : 데이터를 재사용하거나 재결합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어디서 활용할 지 알 수 없기에 그 가치를 측정하기 어렵다.
- 가치 창출 방식 : 데이터는 어떤한 목적을 갖고서 어떻게 가공하는가에 따라 기존에 없던 가치를 창출할 수도 있어 사전에 그 가치를 측정하기 어렵다.
- 분석 기술 발전 : 데이터는 지금의 기술 상황에서는 가치가 없어 보일지라도 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있으므로 당장 그 가치를 측정하기 어렵다.
- 데이터 수집 원가 :데이터는 달성하려는 목적에 따라 수집하거나 가공하는 비용이 상황에 따라 달라질 수 있어 그 가치를 측정하기 어렵다.
빅데이터의 영향
기업에게 혁신과 경쟁력 강화, 생산성 향상의 근간이 된다.
- 빅데이터를 활용해 소비자의 행동을 분석하고, 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴한다.
정보에게 환경 탐색과 상황 분석, 미래 대응 수단을 제공한다. - 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하여 관련 정보를 추출한다.
개인에게 활용 목적에 따라 스마트화를 통해 영향을 준다. - 빅데이터를 서비스하는 기업이 많아지고 데이터 분석 비용은 지속적으로 하락하여 활용이 용이해졌다.
데이터 산업의 이해
데이터 산업은 데이터 처리-통합-분석-연결-권리 시대로 진화하고 있다.
- 데이터 통합 시대까지 데이터의 역할은 거래를 정확하게 기록하고 거래의 자동화를 지원하는 것이었다. 데이터 분석 수준이 향상되면서 데이터의 자원 활용이 가능해졌다.
- 데이터 처리 시대
- 컴퓨터 프로그래밍 언어를 이용하여 대규모 데이터를 빠르고 정확하게 처리할 수 있게 되었으며 결과는 파일 형태로 보관되었다.
- 기업들은 EDPS(Electronic Data Processing System)를 도입하여 급여 계산, 회계 전표 처리 등의 업무에 적용하였다.
- 데이터는 업무 처리의 대상으로 새로운 가치를 제공하지는 않았다.
- 데이터 통합 시대
- 데이터 처리가 여러 업무에 적용되기 시작하면서 데이터가 쌓이기 시작했고, 전사적으로 데이터 일관성을 확보하기가 어려워졌다.
- 데이터 모델링과 데이터베이스 관리 시스템이 등장했다.
- 데이터 조회와 보고서 산출, 원인 분석 등을 위해 데이터 웨어하우스가 도입되었다.
- 데이터 분석 시대
- 대부분 업무에 정보기술이 적용되고, 모바일 기기 보급, 공정 센서 확대, 소셜 네트워크 이용 확산 등으로 인해 데이터가 폭발적으로 증가했다.
- 대규모 데이터를 보관하고 관리할 수 있는 하둡, 스파크 등의 빅데이터 기술이 등장했다.
- 데이터를 학습하여 전문가보다도 정확한 의사결정을 빠르게 내릴 수 있는 인공지능 기술도 상용화되었다.
- 데이터 소비자의 역할과 활용 역량을 높이기 위한 데이터리터러시 프로그램의 중요성도 커지고 있다.
- 데이터 연결 시대
- 기업 또는 기관, 사람, 사물 등 모든 것이 항상 그리고 동시에 둘 이상의 방식으로 연결되어 데이터를 주고 받는다.
- 연결은 네트워크를 만들고, 네트워크는 새로운 비즈니스 모델을 탄생시킨다.
- 디지털 경제의 주축 세력인 디지털 원주민은 융합된 서비스를 원한다.
- 융합된 서비스를 제공하기 위해서는 다양한 기업들의 서비스 연결이 필요하고, 이는 기업 간 데이터로 연결되어야 한다.
- 데이터 경제의 데이터 연결을 강조하는 의미에서, 오픈 API 경제라는 용어가 사용되기도 한다. 또한 오픈 API 제공 수 및 접속 수,오픈 API로 연결된 외부 실체 수 등이 기업의 지속가능성과 성장성을 확인할 수 있는 지표가 되기도 한다.
- 현재 오픈 API를 제공하느 것은 해당 기업의 자율적 판단에 달려 있지만, 점차 의무화되는 추세이다.
- 데이터 권리 시대
개인이 자신의 데이터를 자신을 위해서 사용한다.
데이터의 원래 소유자인 개인이 자신의 데이터에 대한 권리를 보유하고 있으며 스스로 행사할 수 있어야 한다는 마이데이터가 등장하였다.
데이터 권리를 개인이 갖게 된다는 것은 산업이 데이터를 중심으로 재편될 수 있다는 뜻이다.
데이터는 기본적으로 거래 행위의 분산물이었다. 기업들은 개인과 거래를 하는 과정에서 개인의 데이터가 있어야 했고, 이를 확보하였지만 몇 가지 문제(유출, 미동의 활용, 데이터의 산재)를 일으켰다.
개인의 데이터를 관리해 줄 수 있는 서비스와 필요한 수요자에게 데이터를 팔아 주는 서비스가 나타날 수 있다.
개인은 스스로 데이터를 만들고 자신이 만든 데이터를 기반으로 하는 비즈니스 모델을 구상할 수 있다.
기존 기업들은 개인 데이터 사용에 제약을 받게 됨으로써 고객 접점을 상실하게 될 수 있다.
데이터의 공정한 사용이 보장되어야 하며, 데이터 독점이 유발할 수 있는 경제 독점이 방지되어야 한다.
데이터 산업의 구조
- 인프라 영역
- 데이터 수집, 저장, 분석, 관리 등의 기능을 담당한다.
- 컴퓨터나 네트워크 장비 및 스토리지 같은 하드웨어 영역이 있다.
- 데이터를 관리하고 분석하기 위한 소프트웨어 영역이 있다.
- 서비스 영역
- 데이터를 활용하기 위한 교육이나 컨설팅 또는 솔루션을 제공한다.
- 데이터 그 자체를 제공하거나 이를 가공한 정보를 제공한다.
- 데이터를 처리하는 역할을 담당하기도 한다.
빅데이터 조직 및 인력
기업의 경쟁력 확보를 위해 비즈니스 질문을 도출하고, 이를 충족하기 위한 가치를 발굴하며, 비즈니스를 최적화하기 위하여 빅데이터 조직 및 인력 구성 방안을 수립한다.
- 필요성
- 빅데이터와 관련된 기술적인 문제들은 기술의 발전으로 어느 정도 해소되었다.
- 데이터 분석 및 활용을 위한 조직체계나 분석 전문가 확보에 어려움이 있다.
- 데이터 분석 관점의 컨트롤 타워에 대한 필요성이 제기되고 있다.
- 조직의 역할
- 전사 및 부서의 분석 업무를 발굴한다.
- 전문적인 분석 기법과 도구를 활용하여 빅데이터 속에서 인사이트를 찾아낸다.
- 발견한 인사이트를 전파하고 이를 실행한다.
- 조직의 구성
통계학이나 분석 방법에 대한 지식과 분석 경험이 있는 전문인력을 중심으로 전사 또는 특정 부서 내 조직으로 구성하여 운영한다.
- 조직 구성을 위한 체크리스트
- 비즈니스 질문을 선제적으로 찾아낼 수 있는 구조인가?
- 분석 전담조직과 타 부서 간 유기적인 협조와 지원이 원활한 구조인가?
- 효율적인 분석 업무를 수행하기 위한 분석 조직의 내부 조직구조는?
- 전사 및 단위부서가 필요시 접촉하며 지원할 수 있는 구조인가?
- 어떤 형태의 조직(집중형, 기능형, 분산형)으로 구성하는 것이 효율적인가?
- 인력 구성을 위한 체크리스트
- 비즈니스 및 IT 전문가의 조합으로 구성되어야 하는가?
- 어떤 경험과 어떤 스킬을 갖춘 사람을 구성해야 하는가?
- 통계적 기법 및 분석 모델링 전문 인력을 별도로 구성해야 하는가?
- 전사 비즈니스를 커버하는 인력이 없다면?
- 전사 분석업무에 대한 적합한 인력 규모는 어느 정도인가?
- 구성 인력과 필요역량
- 비즈니스를 이해하고 있는 인력
- 분석에 필요한 컴퓨터공학적인 기술을 이해하고 있는 인력
- 통계를 이용한 다양한 분석기법을 활용할 수 있는 분석 지식을 갖춘 인력
- 조직 내 분석 문화 확산을 위한 변화 관리 인력
- 분석조직뿐 아니라 관련 부서 조직원의 분석 역량 향상을 위한 교육담당 인력
데이터 사이언스 역량
데이터 사이언스는 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야이다.
- 데이터 사이언스는 데이터를 통해 실제 현사을 이해하고 분석하는 데 필요한 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다.
- 데이터 사이언스의 기능
- 비즈니스 성과를 좌우하는 핵심이슈에 답할 수 있다.
- 사업의 성과를 견인해 나갈 수 있다.
- 데이터 사이언스 실현을 위한 인문학적 요소
- 스토리텔링 능력
- 커뮤니케이션 능력
- 창의력과 직관력
- 비판적 시각과 열정
- 데이터 사이언스의 한계
- 분석 과정에서 가정과 같이 인간의 해석이 개입되는 단계가 불가피하다.
- 분석 결과를 바라보는 사람에 따라 서로 다른 해석과 결론을 내릴 수 있다.
- 아무리 정량적인 분석이라 할지라도 모든 분석은 가정에 근거한다.
데이터 사이언티스트
데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력과 전달력 및 협업 능력을 갖춘 데이터 분야 전문가이다.
- 데이터의 다각적 분석을 통해 인사이트를 도출하고, 이를 조직의 전략 방향 제시에 활용할 수 있는 기획자이기도 하다.
- 문제를 집중적으로 파고들어 질문을 찾고, 검증 가능한 가설을 세워야 한다.
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
Section 01 빅데이터 개요 및 활용 (2) (0) | 2024.02.29 |
---|---|
Section 01 빅데이터 개요 및 활용 (0) | 2024.02.27 |
03. 분석 방안 수립 (0) | 2024.01.18 |
02. 빅데이터 기술 및 제도 (1) | 2024.01.14 |
빅데이터 분석기사에 대해서 (0) | 2024.01.12 |