0312游戏活动专区 SPACE


前面几篇文档,我们已经学习了时序型数据、对比型数据、对比型数据、分布型数据、区间型数据、关系型数据、地理型数据的可视化方式,这次,我们针对几种常见的图表,根据不同数据集以及可视化的目的,对比相似图表的差别和适用的数据集,从而总结出根据可视化目的、数据集特征,去选择图表类型的一般套路。

1.柱状图vs条形图

1.1可视化目标

首先明确可视化的目的是要展示什么,比如:展示销售额TOP5的产品二级大类?

1.2数据集

其次准备所需要的数据集(这里需要汇总各类的销售额):

销售额产品二级子类别110071.02办公机器84453.586电话通信产品 68514.348桌子 42704.19容器,箱子24924.98椅子 1.3图形可视化对比

条形图vs柱状图

销售额TOP5的产品二级大类

这里的柱状图和条形图可以互换。

1.4总结

(1)相同点:

两者数据结构相同,都是类别加上对应的离散数值;当数据的记录数不大于12条,分类字段的字符长度小于5时,此时柱状图和条形图可以互换。(2)不同点:

柱状图:如果分类的类目,恰好是时间序列,此时建议使用柱状图,因为柱状图能更好地体现数据随时间的变化情况;条形图:当分类的类名长度大于5时,用条形图能更加美观地显示。2.柱状图vs直方图

2.1可视化目标

明确可视化目标,需要展示什么东西。

展示订单中,不同产品一级类别的商品销售数量;已知商品定价范围在[1.68,3511.68]之间,现需展示订单数据中商品的价格分布,要求每10元作为一个区间。2.2数据集

整理出来可视化展示所需的数据集:

数据集1:

产品一级类别商品数量办公用品4188技术产品1817家具产品1531数据集2:

单价区间商品数量1.68-11.68304311.68-21.68100221.68-31.6848531.68-41.6848141.68-51.6822451.68-61.6814661.68-71.6843271.68-81.688481.68-91.686891.68-101.68182101.68-111.68116111.68-121.68116121.68-131.68224131.68-141.6885141.68-151.68112151.68-161.6834171.68-181.6861191.68-201.6884201.68-211.68121211.68-221.6834231.68-241.6829241.68-251.682281.68-291.6813301.68-311.6823341.68-351.683361.68-371.6837371.68-381.6829391.68-401.6845411.68-421.683421.68-431.6837491.68-501.6882501.68-511.6818691.68-701.6819801.68-811.6838891.68-901.68141491.68-1501.6842031.68-2041.6833501.68-3511.6832.3可视化展示

选择合适的图表可视化展示:

2.4总结

(1)相同点:

两者数据结构类似,都为一个类别字段/分组字段+数值字段;都是由柱形条构成。(2)不同点:

两者的分析目的和适用场景不同。柱状图主要是比较不同类别数据的大小,直方图表示数据分布情况;X轴上的数据属性不同,柱状图的为不同分类,直方图为连续的分组数据;宽度代表的实际意义不同。柱状图中柱形条的宽度没有实际意义,一般宽度相同,直方图中柱形条宽度为组距,区间不同的话柱形条宽度也会不同;表示数据大小的方式不同。柱状图,是通过柱形条的高度,来映射数据的大小,且柱子之间有间隔;直方图,是通过高度(频数直方图)或面积(频率直方图)来表示数据的大小,且柱子之间没有间隔。3.堆叠柱状图vs百分比堆叠柱状图

3.1可视化目的

不同年份的商品的销售数量趋势,及其不同年份三种运输方式的数量趋势;不同年份的商品的销售三种运输方式占比趋势。3.2数据准备

数据集1:

不同年份不同运输方式运输的商品数量

年份大卡火车空运20092141299105201028817534192011142138721420123281244143数据集2:

不同年份不同运输方式运输的商品数量占比

年份大卡火车空运200913.23%80.28%6.49%201011.71%71.26%17.03%20118.15%79.58%12.28%201219.13%72.54%8.34%

3.3可视化

不同年份不同运输方式运输的商品数量

3.4总结

(1)相同点:

堆叠柱状图和百分比堆叠柱状图,都适合用来展示分类数据的构成对比或构成随时间的变化趋势;当映射到X轴上的数据为时间序列时,此时可以用堆叠面积图或者百分比堆叠面积图来代替。(2)不同点:

堆叠柱状图既可以对比各构成部分的数值差异,还可以观测各组数据的整体差距,而百分比堆叠柱状图只能对比整体中的各构成部分的占比差异,无法对比不同整体的差异。4.折线图vs面积图

4.1可视化目标

按月份展示商品的销售数量趋势;展示不同月份的三种商品不同运输方式运输的商品数量趋势。4.2数据集

数据集1:

不同月份的商品销售数量

订单日期 (月)商品数量2009年1月1922009年2月642009年3月1312009年4月1832009年5月252009年6月2302009年7月1742009年8月1312009年9月2132009年10月842009年11月712009年12月1202010年1月2552010年2月872010年3月1482010年4月292010年5月1312010年6月2982010年7月3182010年8月3312010年9月1592010年10月1952010年11月1732010年12月3362011年1月752011年2月2122011年3月1242011年4月982011年5月2172011年6月852011年7月2152011年8月992011年9月1402011年10月2952011年11月1412011年12月422012年1月912012年2月1222012年3月1862012年4月2142012年5月952012年6月372012年7月832012年8月932012年9月712012年10月2602012年11月2412012年12月222

数据集2:

订单日期大卡火车空运2009年1月23156132009年2月392142009年3月0111202009年4月18125402009年5月02502009年6月0202282009年7月2614802009年8月013102009年9月021302009年10月127202009年11月07102009年12月962402010年1月6319202010年2月315602010年3月3511302010年4月181102010年5月038932010年6月30229392010年7月151511522010年8月7242822010年9月3381452010年10月019502010年11月4912402010年12月732182011年1月284702011年2月0172402011年3月075492011年4月3338272011年5月0169482011年6月08502011年7月6215302011年8月061382011年9月0128122011年10月1927602011年11月014102011年12月04202012年1月355602012年2月3162292012年3月8210402012年4月021402012年5月052432012年6月03702012年7月053302012年8月09302012年9月07102012年10月6119902012年11月6917202012年12月50131414.3可视化

不同月份的三种商品不同运输方式运输的商品数量趋势:

4.4总结

(1)相同点:

折线图和面积图展示的是数据随时间的变化趋势,因此映射到X轴的数据类型一般为时间/日期;二者均可以展现一个或多个变量和时间的关系,这种关系包括,周期性变化、季节性变化、异常波动等;在大部分情况下,折线图和面积图可以互换。(2)不同点:

折线图是通过数据点的纵坐标来映射数值的大小,一般只用来表示数据的趋势,而面积图用面积映射数值大小,除了可以表示数据趋势,还可以用来表示整体及其构成部分随时间的变化趋势。5.堆叠面积图 VS 百分比堆叠面积图

5.1可视化目标

展示2009到2012年,火车、大卡、空运三种运输方式的运输量趋势;展示2009到2012年,火车、大卡、空运三种运输方式的运输量占比情况;5.2数据集

数据采用3.堆叠柱状图vs百分比堆叠柱状图的数据集。

5.3可视化

堆叠面积图:

百分比堆叠面积图:

5.4总结

(1)相同点:

堆叠面积图和百分比堆叠面积图,映射到X轴的均为时间序列。

两者都可以展示各构成部分随时间的变化趋势,只不过堆叠面积图的是构成部分的实际值随时间的变化趋势,百分比堆叠面积图展示的是构成部分的占比随时间的变化趋势。

(2)不同点:

堆叠面积图除了可以展示各构成部分随时间的变化趋势,还可以展示整体随时间的变化趋势。

百分比堆叠面积图只能展示各构成部分占总体的比例随时间的变化,无法观测总体随时间的变化趋势。此外,从任何一个时间节点纵切下来,各部分占比之和必须为100%,即必须等于该节点的整体。

6.堆叠面积图 VS 堆叠柱状图

6.1可视化目标

展示不同种类的商品用火车、大卡、空运三种运输方式的数量;展示2009到2012年,火车、大卡、空运三种运输方式的运输量趋势。6.2数据集

数据集1:

产品一级类别大卡火车空运办公用品1063452630技术产品2171465135家具产品649766116数据集2:

年份大卡火车空运20092141299105201028817534192011142138721420123281244143

6.3可视化

可视化1:

可视化2:

如5的堆叠面积图显示。

6.4总结

(1)相同点:

两者的数据结构都为分类字段加上多个连续值字段;两者都可以观测某一节点的总体数值和各组成部分的具体数值,都有数据对比的功能。(2)不同点:

堆叠面积图的分类字段,一般是时间序列。当既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化情况时,应该使用堆叠面积图;堆叠柱状图的分类字段,一般是非时间类型的分类数据。当既要对比不同整体的数据大小,又要观测整体各构成项的数据大小时,应该使用堆叠柱状图。7.散点图vs气泡图

7.1可视化目标

每笔订单的销售额和利润额分布;每笔订单的销售额、利润额和对应的数量;7.2数据准备

数据集1:(显示部分)

销售额利润额顾客姓名12805.255065.51谢国平3610.852235.37许磊明5677.6091680.79徐艳6168.071542赵若男3832.371322.07赵磊华4815.8621316.79赵磊华4158.12351228.89赵伟4359907.67周智宇3077.731745.48周雨生2251.9135655.91张子强2568.71590.77谢若愚1186.06511.69展大鹏1516.13493.03杨子梅6375.28489.02谢中明1435.32485.95郑则强10123.02457.81谢浩谦15897.01455.02谢子扬1041.72437.61谢平安6483.26341.98杨子梅

数据集2:

销售额利润额顾客姓名商品数量12805.255065.51谢国平143610.852235.37许磊明365677.6091680.79徐艳476168.071542赵若男123832.371322.07赵磊华364815.8621316.79赵磊华474158.12351228.89赵伟374359907.67周智宇413077.731745.48周雨生312251.9135655.91张子强412568.71590.77谢若愚431186.06511.69展大鹏421516.13493.03杨子梅226375.28489.02谢中明351435.32485.95郑则强4910123.02457.81谢浩谦4915897.01455.02谢子扬371041.72437.61谢平安296483.26341.98杨子梅29

7.3可视化

每笔订单的销售额和利润额分布情况

每笔订单的销售额、利润额和对应的数量

7.4总结

(1)相同点:

两者都是用来展示数据分布情况;

两者都是将两个字段映射到x,y轴的位置上,(x,y)的取值确定一个圆点或气泡在直角坐标系中的位置。

(2)不同点:

散点图一般是用来展示二维数据(x,y)的分布,侧重于研究二维数据的两个变量x,y之间的相关性,如身高和体重之间的相关关系;

气泡图一般用来展示三维数据(x,y,z)的分布情况,气泡图增加了一个维度的数据展示,且将其数值映射到气泡的大小上。

8.可视化实践

8.1想了解一下全部发货物品的单价的分布情况,每10元作为一个区间?

回答:如上2中直方图展示。

8.2展示销售额TOP5的产品二级大类?

回答:上1中直方图或条形图都是。

8.3按月份展示商品的销售数量趋势?

回答:上4折线图所示。

8.4展示不同年份的商品的销售数量,及其不同年份三种运输方式的数量占比?

回答:上5堆叠面积图所示。

9.总结概括

总之,可视化的实现主要分以下几个步骤:

分析明确可视化的目的;准备实现可视化目的所需要的数据集;选择合适的图表实现。常用图表对比的概括如下:(图片来源为微信公众号:数据科学家联盟)

管家婆云辉煌手机端如何快速添加商品
怎样和女生找到聊天话题?50个万能话题,让你越聊越投机

友情链接