-
데이터 분석 준전문가(ADSP) 스터디 - 1. 데이터 이해자격증/ADSP 2024. 5. 8. 02:06
📌 Study
🔸 1. 데이터 이해
- 데이터 : 있는 그대로 객관적 사실, 가공되지 않은 상태
- 정보 : 데이터로부터 가공된 자료
- 정성적 데이터 : 자료의 특징을 풀어 설명 (ex : 기상특보)
- 정량적 데이터 : 자료를 수치화(온도, 풍속)
- 정형 데이터 : 정보 형태가 더해짐(관계형 DB, 엑셀-스프레드시트, CSV)
- 반정형 데이터 : 데이터를 설명하는 메타데이터 포함(로그, HTML, XML, JSON)
- 비정형 데이터 : 정보 형태가 정해지지 않음(SNS, 유튜브, 음원)
- 암묵지 : 개인에게 습득되고 겉으로 드러나지 않음
- 형식지 : 문서, 매뉴얼 등의 형상화된 지식(공표연내)
- 공통화 : 암묵지 지식을 다른사람에게 알려줌
- 표출화 : 암묵적 지식을 매뉴얼이나 문서로 전환
- 연결화 : 교재, 매뉴얼에 새로운 지식 추가
- 내면화 : 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득
- 공통화 : 암묵지 지식을 다른사람에게 알려줌
- DIKW 피라미드
- 데이터 : 있는 그대로 사실
- 정보 : 데이터를 통해 패턴 인식
- 지식 : 패턴을 통해 예측
- 지혜 : 창의적인 산물
- 데이터 : 있는 그대로 사실
- 데이터 단위
- KB < MB < GB < TB < PB < EB < ZB < YB (패지요)
- KB < MB < GB < TB < PB < EB < ZB < YB (패지요)
- DB : 일정 구조에 맞게 조직화된 데이터의 집합
- 스키마 : DB의 구조와 제약조건에 관한 전반적 명세
- 인스턴스 : 정의된 스키마에 따라 저장된 값
- 스키마 : DB의 구조와 제약조건에 관한 전반적 명세
- DBMS : DB를 관리, 접근 환경 제공하는 소프트웨어
- 관계형 DBMS : 테이블(표)로 정리(오라클, MSSQL, MARIA DB)
- 객체 지향 DBMS : 정보를 객체 형태로 정리
- NoSQL DBMS : 비정형 데이터를 저장하고 처리(HBASE, Mongo DB, Dynamo DB, Cassandra)
- 관계형 DBMS : 테이블(표)로 정리(오라클, MSSQL, MARIA DB)
- SQL : 데이터 베이스에 접근할 수 있는 하부언어
- 정의언어(DDL) : CREATE, ALTER, DROP
- 조작언어(DML) : SELECT, INSERT, DELETE, UPDATE
- 제어언어(DCL) : COMMIT, ROLLBACK, GRANT, REVOKE
- 정의언어(DDL) : CREATE, ALTER, DROP
- 데이터베이스 특징(공통저변) - 중요
- 공용 데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용
- 통합된 데이터 : 동일한 데이터 중복되어 있지 않음
- 저장된 데이터 : 저장 매체에 저장
- 변화되는 데이터 : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지
- 공용 데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용
- 데이터베이스의 구성요소
- 메타데이터 : 데이터를 설명하는 데이터
- 인덱스 : 정렬, 탐색을 위한 데이터의 이름
- 메타데이터 : 데이터를 설명하는 데이터
- 데이터베이스 설계 절차
- 요구조건 분석
- 개념적 설계 : 개념 스키마 생성
- 논리적 설계 : ERD 설계
- 물리적 설계 : 저장 구조 설계
- 요구조건 분석
- 기업 활용 데이터베이스
- OLTP : 데이터를 수시로 갱신(거래단위)
- OLAP : 다차원 데이터를 대화식으로 분석
- CRM : 고객과 관련 자료 분석, 마케팅 활용
- SCM : 공급망 연결 최적화
- ERP : 기업 경영 자원을 효율화
- BI : 기업 보유 데이터 정리, 분석하여 리포트 중심 도구
- BA : 통계 기반 비즈니스 통찰력
- Block Chain : 네트워크 참여한 모든 사용자가 정보를 분산, 저장
- KMS : 기업의 모든 지식을 포함
- OLTP : 데이터를 수시로 갱신(거래단위)
- Data Ware House(DW)
- 주제지향성 : 분석 목적 설정이 중요
- 데이터 통합 : 일관화 된 형식으로 저장
- 시계열성 : 히스토리를 가진 데이터
- 비휘발성 : 읽기전용 - 수시로 변하지 않음
- ETL(Extraction, Transformation, Load)
- ETL을 통하여 DW와 DM 등 DB 시스템에 데이터 적재
- ETL을 통하여 DW와 DM 등 DB 시스템에 데이터 적재
- 주제지향성 : 분석 목적 설정이 중요
- Data Lake
- 비정형 데이터를 저장하며 하둡과 연계하여 처리
- 하둡 : 병렬 처리 오픈소스 프레임워크
- HDFS : 분산형 파일 저장 시스템
- MapReduce : 분산된 데이터를 병렬로 처리
- 빅데이터 출현 배경
- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산
- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산
- 빅데이터 3V (가트너 정의)
- Volume(규모) : 데이터 양 증가 (구글 번역 서비스)
- Variety(다양성) : 데이터 유형 증가
- Velocity(속도) : 데이터 생성, 처리 속도 증가
- 그 외 5V에 포함되는 요소
- Value(가치)
- Veracity(신뢰성)
- Value(가치)
- Volume(규모) : 데이터 양 증가 (구글 번역 서비스)
- 빅데이터에 대한 비유
- 산업혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할
- 원유 : 정보제공으로 생산성 향상
- 렌즈 : 현미경이 생물학 발전 영향, 산업 전반에 영향 (구글 Ngram Viewer)
- 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용 (페이스북)
- 써드파티 : 원천기술을 활용한 하생상품 만드는 회사
- 써드파티 : 원천기술을 활용한 하생상품 만드는 회사
- 산업혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할
- 빅데이터가 만들어내는 변화(전후양상)- 중요
- 표본조사 -> 전수조사
- 사전처리 -> 사후처리
- 질 -> 양
- 인과관계 -> 상관관계
- 표본조사 -> 전수조사
- 빅데이터 가치 산정이 어려운 이유
- 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음
- 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출
- 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음
- 빅데이터 활용 위한 3대 요소(인자기)
- 인력, 자원(데이터), 기술
- 인력, 자원(데이터), 기술
- 빅데이터의 주요 분석 기법
- 회귀분석 : 독립 변수와 종속변수 관계, X와 Y에 어떤 영향을 미치는가? (고객만족도가 높은 사람은 재방문 확률 높은가?)
- 유형분석 : A와 B는 어디에 속하는 범주(같은 패턴을 보이는 동물)
- 연관규칙 : 여러 요소들 간의 규칙 상관관계 존재 (마트에서 치킨과 맥주를 같이 사는 관계)
- 유전자 알고리즘 : 최적화 필요한 문제의 해결책 ( 택배차량 어떻게 배치, 최대 시청률을 얻으려면 황금 시간대 방송 배치)
- 기계 학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (넷플릭스 영화 추천 시스템)
- 감정분석 : 감정(긍정/부정) 분석 (후기를 바탕으로 원하는 것 발견)
- 소셜 네트워크 분석 : (사람과의 관계 SNS 상 사용자들 관계 속 영향력 높은 사람 찾기)
- 회귀분석 : 독립 변수와 종속변수 관계, X와 Y에 어떤 영향을 미치는가? (고객만족도가 높은 사람은 재방문 확률 높은가?)
- 위기 요인과 통제 방안
- 사생활 침해 : SNS 올린 데이터가 사생활 침해
- 제공자에서 사용자 책임으로 전환
- 제공자에서 사용자 책임으로 전환
- 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제
- 결과에 대해서만 책임
- 결과에 대해서만 책임
- 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님
- 알고리즘 해석 가능한 알고리즈미스트 필요
- 알고리즘 해석 가능한 알고리즈미스트 필요
- 사생활 침해 : SNS 올린 데이터가 사생활 침해
- 개인정보 비식별화
- 데이터 마스킹 : 홍길동 -> 홍XX
- 가명처리 : 홍길동 -> 임꺽정
- 총계처리 : A: 165, B : 170, C : 175 -> 합 : 510, 평균 170
- 범주화 : 홍길동 35세 -> 홍길동 35 ~ 40세
- 데이터 마스킹 : 홍길동 -> 홍XX
- 데이터 사이언스
- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
- 정형/비정형 데이터를 막론하고 데이터를 분석(총체적 접근법) - 중요
- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
- 데이터 사이언스 핵심 구성요소
- Analytics : 이론적 지식
- IT : 프로그래밍적 지식
- 비즈니스 분석 : 비즈니스적 능력
- Analytics : 이론적 지식
- 데이터 사이언티스트의 필요역량 - 중요
- 하드 스킬(Hard Skill) : 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
- 소프트 스킬(Soft Skill) : 스토리텔링, 리더십, 창의력, 분석 등
- 하드스킬은 이과적, 소프트 스킬은 문과적 느낌
- 하드스킬은 이과적, 소프트 스킬은 문과적 느낌
- 하드 스킬(Hard Skill) : 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
- 빅데이터 가치 패러다임 변화
- Digitalization -> Connection -> Agency (순서)
- Digitalization : 아날로그 세상을 디지털화
- Connection : 디지털화된 정보들의 연결
- Agency : 연결을 효과적으로 관리
- Digitalization -> Connection -> Agency (순서)
'자격증 > ADSP' 카테고리의 다른 글
데이터 분석 준전문가(ADSP) 스터디 - 2. 데이터분석 기획 (2) 2024.05.08 - 데이터 : 있는 그대로 객관적 사실, 가공되지 않은 상태