데이터 시각화 교과서: 데이터 분석의 본질을 살리는 그래프와 차트 제작의 기본 원리와 응용
- 저자/역자
- 클라우스 윌케 지음 / 권혜정 옮김
- 펴낸곳
- 책만
- 발행년도
- 2020
- 형태사항
- 375p.: 24cm
- 원서명
- 데이터 분석의 본질을 살리는 그래프와 차트 제작의 기본 원리와 응용 Fundamentals of data visualization
- ISBN
- 9791189909109
- 분류기호
- 한국십진분류법->005.7
소장정보
위치 | 등록번호 | 청구기호 / 출력 | 상태 | 반납예정일 |
---|---|---|---|---|
이용 가능 (1) | ||||
북카페 | JG0000006521 | - |
- 등록번호
- JG0000006521
- 상태/반납예정일
- -
- 위치/청구기호(출력)
- 북카페
책 소개
통계적 본질에 근거해 데이터 분석 결과를 효율적으로 전달하는 데이터 시각화에 대한 모든 것!
데이터 시각화는 예술이자 과학이다. 과학적으로 정확하면서 미적으로 흉하지 않아야 하며, 또한 미적으로 탁월하면서도 과학적으로 오류를 용납하지 않는 결과물을 만들어야 한다. 데이터 시각화는 무엇보다도 데이터를 정확하게 전달해야 한다. 데이터 분석 결과를 정보 왜곡 없이 사실 그대로, 그리고 보는 사람에게 인지적 부담 없이 쉽고 명확하게 전달하는 '그래프와 차트, 도표' 제작 방법에 대한 기본 원리와 실전 응용에 대해 자세히 설명한다. 데이터 과학자, 디자이너, 마케터, 컨설턴트, 학생, 교수, 의사, 기자, 직장인, 기업 대표 등 누구나 할 것 없이 정확하고 올바른 정보 전달에 관심 있는 이라면 누구나 참고해서 읽어야 할 책이다.
[이 책의 구성]
이 책은 3부로 구성된다. 1부 '데이터, 시각화로 날개를 달다'에서는 막대 그래프, 산점도, 파이 차트 같은 도표와 차트 유형을 설명한다. 특히 시각화의 과학적 원리에 중점을 둔다. 세상에 존재하는 모든 시각화 방식을 백과사전처럼 나열하기보다는, 발표 자료에 많이 나오거나 도표를 직접 만들 때 유용한 핵심적인 시각적 효과들을 소개한다. 1부에서는 시각화하려는 데이터의 유형이 아니라 전하고자 하는 메시지의 유형에 따라, 시각화를 분류해 설명한다.
2부 '그래프 디자인의 원칙'에서는 도표들을 결합할 때 생기는 여러 디자인 문제를 다룬다. 데이터 시각화의 미적 측면에 가장 중점을 두지만, 물론 그게 전부는 아니다. 주어진 데이터셋에 알맞은 유형의 도표나 차트를 선택했다면 색상, 기호, 글씨 크기 같은 시각적 요소를 보기 좋게 구성해야 한다. 그래야 뜻이 명료하게 전달되고 보기에도 좋은 결과물이 나온다. 2부의 각 장에서는 그동안 내가 실무에서 거듭 겪어왔던 여러 문제를 다룬다.
3부 '시각화 레벨업 노하우'에서는 1부나 2부에 부합하지 않는 그 밖의 주제들을 다룬다. 이미지와 그래프를 저장할 때 주로 선택하는 파일 형식, 시각화 소프트웨어 선택 기준, 문서 전체의 맥락을 고려한 그래프 배치 방법을 설명한다.
이 책은 논리적인 순서로 전개되지만 각 장이 독립적인 내용으로 구성되어 있으므로 첫 장부터 차례대로 읽지 않아도 된다. 자유롭게 페이지를 건너뛰면서 그때그때 관심 있는 부분이나 고민 중인 주제를 다루는 부분을 찾아 읽자. 한 번에 끝까지 읽기보다 항상 곁에 두고 조금씩 읽으면서, 시각화 도표를 만들 때마다 책에 나오는 개념을 몇 가지씩 시도해보고, 다음번에는 다른 개념이 나오는 장을 읽거나 예전에 읽었던 장을 복습하는 편이 이 책을 더 알차게 활용하는 방법이다. 예전에 읽었던 장을 몇 달 뒤 다시 읽으면 같은 내용에서도 다른 깨달음을 얻을 수도 있다.
이 책에 나오는 시각화 도표는 대부분 R의 지지플롯2(ggplot2) 패키지로 만들었다. 그러나 책 자체는 R 언어에 국한되지 않고 시각화 도표 제작에 통용되는 원칙을 다룬다. 무슨 소프트웨어를 사용했는지는 부수적인 요소일 뿐이다. 이 책에 나오는 도표는 어떤 시각화 소프트웨어를 사용해서든 만들 수 있다. 다만 지지플롯2나 비슷한 패키지들에는 다른 시각화 라이브러리에 비해 이 책에 쓰인 기능들이 훨씬 편리하게 구현되어 있다. 무엇보다도 이 책은 R 언어 학습서가 아니므로 코드나 프로그래밍 기술을 설명하지 않는다. 따라서 코딩보다는 도표 자체의 개념에 집중하자. 시각화 도표 만드는 방법이 궁금하다면 깃허브(https://github.com/clauswilke/dataviz)에서 이 책의 소스 코드를 확인할 수 있다. 또한 관련한 패키지 설치환경과 방법은 이 책의 도서 정보 페이지(https://www.onlybook.co.kr/entry/dataviz)에서 찾아볼 수 있다.
[이 책의 주요 특징]
■ 색상을 활용해 데이터를 강조, 구별, 표현하기 위한 기본 개념
■ 중요한 정보를 다양한 방식으로 표현하는 바람직한 기호화 방법
■ 데이터 시각화의 단골 유형을 보여주는 풍부한 그림 자료
■ 좋은 그래프와 나쁜 그래프에 대한 다양한 예시
■ 문서나 보고서에서 이야기를 효율적으로 전달하는 차트 활용법
[이 책의 독자 대상]
데이터 과학자, 데이터 분석가, 디자이너, 마케터, 컨설턴트, 학생, 교수, 의사, 기자, 직장인, 기업 대표 등 누구나 할 것 없이, 정확하고 올바른 정보 전달에 관심 있는 이라면 누구나
[감수의 글]
데이터 시각화 과정에서 두 가지 원칙을 지켜야 한다. 하나는 사실의 왜곡이 없어야 하는 것이고 다른 하나는 보는 사람이 인지적인 부담 없이 쉽고 명확하게 시각화 결과물을 이해할 수 있어야 한다는 점이다. 그런데 실제 업무에서 이런 원칙을 지키는 것은 쉽지 않다. 데이터의 특징이나 분석 결과물은 숫자인데 이를 시각적 요소로 변환하는 과정에서 필연적으로 질적인 변화가 발생하기 때문이다. 마치 애니메이션과 실사물의 차이처럼 내용과 주제는 같지만 표현하는 방식이 완전히 달라지는 것이다.
이 책의 독특함과 효용성은 숫자를 시각적 요소로 변환하는 과정에서 핵심적인 고려 사항을 구체적이고도 명확하게 제시하고 있다는 점이다. 예를 들어 분석 결과는 두 그룹의 평균 값의 비교일 수도 있고, 비율의 비교일 수도 있으며, 시간에 따른 추세의 변화일 수도 있고 심지어는 확률의 불확실성마저 분석 결과의 하나로서 시각화의 대상일 수 있다. 이렇게 다양한 분석 결과를 왜곡 없이 효과적으로 전달하기 위해 차트의 모든 구성 요소, 즉 축, 스케일, 차트 모양, 기호, 색상, 그래프 면적 등이 어떻게 서로 조화롭게 조직되어야 하는지 잘 정리되어 있어서 감수 작업을 하면서도 데이터 시각화에 대해 체계적으로 다시 한번 정리할 수 있는 유익한 계기가 되었다.
목차
1장_ 시작하며: 이 책의 내용과 구성
__이 책의 예시 그래프를 이해하는 법
[1부] 데이터, 시각화로 날개를 달다
2장_ 데이터 시각화: '읽는' 데이터에서 '보는' 데이터로
__시각적 속성의 의미와 데이터 유형
__데이터 값을 시각적 속성으로 바꾸기
3장_ 위치 스케일: 좌표와 축
__데카르트 좌표
__비선형 축
__곡선 축이 있는 좌표계
4장_ 색상 스케일
__색을 활용한 데이터 구분
__색을 활용한 데이터 값 표현
__색을 활용한 강조
5장_ 다양한 시각화 방식
__수량의 시각화
__분포의 시각화
__비율의 시각화
__x-y 관계로 나타내는 시각화
__지리공간 데이터의 시각화
__불확실성의 시각화
6장_ 수량 데이터의 시각화
__막대 도표의 다양한 활용
__묶은 막대와 누적 막대
__점 도표와 히트맵
7장_ 데이터 분포의 시각화: 히스토그램과 밀도 도표
__단일 분포 상태의 시각화
__여러 분포 상태를 하나의 도표로 시각화
8장_ 데이터 분포의 시각화: 경험적 누적 분포 함수와 QQ 도표
__경험적 누적 분포 함수
__고도의 비대칭 분포
__QQ 도표
9장_ 여러 분포 상태의 결합 시각화
__가로축에 기준을 둔 분포 상태의 시각화
__세로축에 기준을 둔 분포 상태의 시각화
10장_ 비율 데이터의 시각화
__파이 차트
__병렬 막대 도표
__누적 막대와 누적 밀도 도표
__전체 대비 부분 비율의 표현
11장_ 내포된 비율 데이터의 시각화
__내포 비율 시각화의 잘못된 사례
__모자이크 도표와 트리맵
__내포 파이 차트
__평행 집합
12장_ 여러 정량 변수의 관계 시각화
__산점도
__상관곡선
__차원 축소
__쌍 데이터
13장_ 독립 변수의 시계열 데이터와 함수 시각화
__단일 시계열 데이터
__다중 시계열 데이터와 용량-반응 곡선
__2개 이상의 반응 변수를 포함한 시계열 데이터
14장_ 추세의 시각화
__평활화를 통한 데이터 보정
__정의된 함수 형식으로 추세 시각화
__추세 제거와 시계열 데이터 분해
15장_ 지리공간 데이터의 시각화
__투영 도법
__레이어를 활용한 지도
__단계구분도
__단순화한 카토그램
16장_ 불확실성의 시각화
__빈도의 개념을 이용한 확률의 시각화
__점 추정의 불확실성 시각화
__곡선 적합의 불확실성 시각화
__가설적 결과 도표
[2부] 그래프 디자인의 기본 원칙
17장_ 잉크 양 비례의 원칙
__선형 축 도표 그리기
__로그 축이 있는 도표 그리기
__데이터 값을 면적으로 나타내기
18장_ 오버플로팅: 겹치는 점 처리 방법
__반투명 값과 지터링
__2차원 히스토그램
__등고선 그래프
19장_ 효과적인 색 사용을 위한 조언
__목적 없는 무분별한 색 사용은 금물
__비단조적 색상 스케일 구성
__색각 이상자를 배려하자
20장_ 불필요한 기호화
__불필요한 기호화는 범례 디자인을 망친다
__범례가 없어도 좋은 도표
21장_ 여러 개의 패널로 구성된 도표
__소형 다중 패널
__복합형 도표
22장_ 제목, 캡션, 표의 효과적 활용
__도표 제목과 캡션
__축과 범례 제목
__표, 제대로 만들기
23장_ 데이터 이해를 돕는 시각화의 주변 요소
__적절한 수준의 요소 활용
__배경 격자
__쌍 데이터__
24장_ 축 레이블의 글자는 큼직하게
25장_ 선 그림은 피하자
26장_ 3차원 그래픽과 차트는 그만
__불필요한 3차원 그래픽은 지양하자
__3차원 위치 스케일도 이제 그만
__3차원 시각화가 필요한 경우
[3부] 시각화 레벨업을 위한 꿀팁
27장_ 가장 흔히 쓰는 이미지 파일 형식
__비트맵과 벡터 그래픽
__비트맵 그래픽 무손실 및 손실 압축
__이미지 형식 변환하기
28장_ 올바른 시각화 소프트웨어 선택법
__재현 가능성과 반복 가능성
__데이터의 탐색적 분석과 데이터 표현
__내용과 디자인은 분리하자
29장_ 스토리텔링과 요점 전달
__이야기란 무엇일까
__장군님을 위한 도표 만들기
__방대한 정보는 복잡한 도표로
__기억에 남는 도표 만들기
__일관성을 유지하되 반복은 피할 것