본문 바로가기
  • 내 손안 세상 보기 니 해피
IT

데이터온에어 데이터 가치와 분석

by 니해피 2024. 5. 20.
반응형

데이터온에어 청년 캠퍼스 에듀에서 데이터의 가치와 분석에 대한 총 소요 5시간 20분 강의를 들은 메모를 정리했다. 데이터 온에어는 한국데이터산업진흥원의 패밀리로서 국민 누구나 데이터 활용 능력을 키울 수 있도록 교육콘텐츠를 제공하고 있다.

 

데이터의 가치와 이해에 이어 계속해서 python 프로그래밍 활용과 실습으로 이어지는 강의를 들을 예정이다. 다음은 데이터의 가치와 분석 강의 메모이다. [ 데이터 분석의 이해 _ 윤석용 Ph.D./P.E./Data Scientist]

 

 

 

ㅁ 데이터 가치의 재발견

생존의 방향타 - 발상의 전환 - 미래 서비스 가치 도출

지난 20년간 지속되어 온 IT를 넘어 앞으로 30년간 DT혁명에 기반한 새로운 시장이 열릴 것이다(馬雲 알리바바 회장)

 

ㅁ 빅데이터와 4차 산업 혁명

제조혁신 스마트팩토리 표준모델은 4차산업 승선 티켓이다.

노동 자본 토지 3요소 변화가 일어나고 있다. 데이터기반 지식 기술이 대량 맞춤형 생산체게의 4차 산업 중심이 될 수 있다.

원천 데이터를 통하여 관련 데이터를 수집 인공지능에 활용

 

ㅁ 빅데이터의 이해

기존 데이터 단순분석을 통한 추측에서 빅데이터는 전체 분석을 통하여 사실을 도출해 비즈니스 가치를 도출해 가는 과정,

대량의 데이터 분석을 통해 일반적으로 볼 수 없었던 새로운 사실 패턴 법칙을 발견하여 새로운 비즈니스 가치를 창출하는 것이 빅데이터이다.

다양항 형태의 대용량 데이터를 빠르게 실시간으로 분석하여 3V기반의 인싸이트와 foresight를 통한 가치를 창출한다는 데에 의미가 있다.

 

ㅁ Data Scientist & Citizen Data Scientist

매력적인 직업으로써 데이터 분석가 역할이 중요하므로 데이터 분석가는 비즈니스관점, 데이터분석관점, 시스템 관리의 3가지 역량이 필요하다.

기업에서 단기간에 분석역량, IT역량, 업무지식, 인성을 갖춘 데이터분석전문가를 양성하는데 제한적이므로 citizen data scientist 데이터 분석이 필요하다. 시티즌 데이터싸이언티스트는 도메인 지식에 기반 자동화된 citizen data의 많은 데이터 분석능력이면 족하다.

 

ㅁ 빅데이터 분석 방법론

빅데이터 분석은 개개인 역량과 경험에 의존하지 않고 누가 수행하던 일정 수준의 질과 양이 보장될 수 있는 체계 시스템이어야 한다. 방법론이 부족한 상태에서의 결과는 일회성에 그칠 수 있기 때문이다.

방법론의 모델은 waterfall, spiral, prototyping 등 여러 가지가 있지만 조직 특성 경험정도 등의 특성에 따라 선택하면 될 것이다.

analysis guide : KDD, SEMMA, CRISP-DM(가장 많이 활용됨)

데이터 분석 방법 단계별 활동 : 계획 ▷ 데이터 준비 ▷ 데이터 분석 ▷ 시스템화 개발 ▷ 전개

 

ㅁ 분석기획 및 데이터 수집 단계(phase)

분석기획은 도메인 지식을 바탕으로 대이터분석에 대한 전반적 지식이 있어야 한다.

 

planning phase 과제 발굴 수집

data preparing phase 시간이 가장 오래 걸림, 분석대상으로는 open, private, external date를 검토 활용한다

 

효과적 데이터 분석을 위해서는 데이터 거버넌스가 중요하다. 데이터 거버넌스는 전사 차원의 모든 데이터에 대한 정책 지침 표준화 전략을 수립하고 데이터를 관리하는 조직과 프로세스를 구축함으로써 고품질의 데이터를 활용하여 기업의 가치 창출을 지우너 하는 체계를 말한다. 데이터 거버넌스는 데이터 품질관리, 데이터 구조관리, 데이터관리체계를 수립하게 된다.

 

ㅁ 빅데이터 분석 단계

핵심단계로서 개인 역량을 떠나 방법론에 기반하여 데이터 분석이 이루어져야 한다.

observe - explain - anticipate - act

Prepare dataset - Test analysis - EDA - Modeling - Model assese - Model deployment

 

분석도구 : excel, R, SAS SPSS.. Python..... 엄청 많다. 무료와 달리 오픈소스는 라이선스 정책에 따르므로 저작권 문제가 생길 수 있다. R, Python 은 오픈소스 라이선스 정책에 따른다. 수치 통계량에 더하여 시각화가 강점이다

시각화 방법 : 데이터시각화, 정보시각화, 인포그래픽 중 데이터 정보시각화가 주로 포함된다.

  • 시간 - 막대그래프 누적막대그래프, 점그래프
  • 분포 - 파이 차트, 도넛차트, 트리맵, 누적연속그래프
  • 관계 - 스캐터 플랏, 버블차트, 히스토그램
  • 비교 - 히트맵, 스타차트, 평행좌표계, 다차원 척도법
  • 공간 - 지도맵핑

AI 인공지능 machine learning(ML) → supervised, unsupervised, reinforcement, semi-supervised learning이 있다.

- label 데이터를 통해 학습, 인풋과 타깃 아웃풋이 쌍을 이루는 supervised와 인풋 데이터만 있으면 되는 unsupervised가 관심사

 

ML
[자료=데이터온에어]

 

deeplearning ML AI 학습자료에 대한 저작권이 누구에게 있는지 저작권 문제 개념 정리가 필요하다.

robot adviser, self-driving car(studying for level 4 : the vehicle performs all functions for the entire trip)

 

ㅁ 시스템화 및 전개 단계

데이터 분석은 분석 보고에서 그치지 않고 시스템화를 목표로 하고, 운영시스템 방화관리 실시간 미싱 데이터 처리 방안이 필요하다.

트레이닝 데이터에 그치지 않고 validation, test 데이터를 거처 모델 과적합(under/overfitting)을 선택할 필요가 있다.

 

Model validation

  • TCO(total cost of ownership)
  • ROI(return of investment)
  • IRR(internal rate of return)
  • NPV(net present value)
  • PP(payback period)

평가요소는 목적에 맞게 선택하고 모델 관리를 한다.

 

ㅁ 빅데이터프로젝트의 CSF

데이터 거버넌스 체계를 수립은 절대적이다.

데이터 싸이언티스트 양성과 analytics centre of execellence구성이 상호 유기적이어야 한다.

기업문화를 만들고 데이터기반 의사결정이 가능해야 한다.

 

데이터산업진흥원수료증
한국데이터산업진흥원_수료증

 

ㅁ R 설치 및 기초 프로그래밍

R은 2000년 후반에 들어서부터 구글 페이스북 아마존 야후 등에서 데이터 분석을 위한 언어로 사용하고 있으며, 함수형 언어의 특성과 객체 지향 언어의 특성을 갖고 있는 스크립트 언어이다.

1975년 Bell Lab에서 개발된 S언어가 모태이며, 1993년 뉴질랜드 오클랜드 대학의 Robert Gentleman과 Ross Ihaka에 의해서 오픈소스 언어로 탄생되었다.

R development Core Team멤버들에 의해서 비영리 단체로 The R Foundation이 성립되었으며 R의 배포와 수정은 R Development Core Team과 많은 기여자들에 의해 진행되고 있다.

 

R은 데이터분석 시각화에 최적화되어 있어 오픈소스로 데이터 분석에 많은 관심을 받고 있는 것이 R이다. 특징은 다음과 같다.

  1. 데이터 분석에 최적화된 그래픽 처리
  2. 다양한 BI SAS SPASS 등의 도구들과 연동
  3. R은 Base System과 만개 이상의 패키지로 구성되어 있는 메모리 기반의 데이터 분석 환경
  4. Window, Mac, Linux 등 다양한 운영체제 지원
  5. Java C#등 3GL과 연동이 용이한 API제공
  6. 새로운 알고리즘이 CRAN(comprehensive Archive Network)을 통해 빠르게 공유
  7. 사용자 정의의 패키지를 만들어 쉽게 공유 가능
  8. 다양한 함수와 데이터가 내장되어 있어 학습용으로 용이
  9. Python 등 다른 데이터 분석도구와 비교하여 다양하고 풍부한 통계량의 제시와 활용이 가능
  10. www.r-bloggers.com/ www.r-statistics.com/www. r-tutor.com 등 다양한 커뮤니티가 활성화되어 있다.

R프로젝트 설치

1. R Base 패키지 다운로드 설치

OS선택

인스톨 R

최신버전 설치 한국어 선택

 

 

 

2. R Studio 설치

www. rstudio.com에서 다운로드 //서버버전 데스크톱 무료버전

기본 레이아웃은 스크립트창 콘솔창 환경창 파일/그래픽창으로 구성되어 있다.

 

R데이터 유형 스트럭쳐를 익혀라

유형 : 수치형 논리형 문자형 복소수형이 있다.

스트럭쳐 : 자료 입력함수를 학습해라 3차원은 array를 쓴다.

 

기초문법

 

 

 

반응형

'IT' 카테고리의 다른 글

Wordcloud 특징과 기능  (0) 2024.05.24
대출 계산기 만들기  (0) 2024.05.21
스마트 스위치 설치 스마트폰 데이터 백업 복원  (0) 2024.05.13
초 초보 HTML Tag 코딩 호기심  (0) 2024.05.08
니해피의 HTML CSS 리뷰  (0) 2024.05.07

댓글