如今你能看到的任何地方,特别是在数据驱动的组织机构,你会发现数据可视化。
数据可视化是现代公司缔造影响力的关键要素,存在于每个工具和工作流程里。
它不仅仅是数据工程师、数据科学家、数据分析员的工作中重要的部分,也是那些职位名称中不带“数据”的人的工作重要部分。数据可视化出现在产品演示中,在 Slack 上的临时通讯中、在提交给股东的领导层报告中,甚至在营销材料中。我们希望改变人们经常在数据可视化中看到的以工具为中心和以角色为中心的设计方法,这些方法强迫用户在工具间或者不同角色的权限墙中来回跳跃。
我们很清楚地设计了视觉可视化来反映当今人们在工作中如何使用数据,而不是他们在 15 年前如何使用数据。无论数据工作者的职位名称是什么,无论数据消费者在解决的问题是什么,我们正在研究他们的期望是如何增长并融合的。
我们希望改变人们经常在数据可视化中看到的以工具为中心和以角色为中心的设计方法,这些方法强迫用户在工具间或者不同角色的权限墙中来回跳跃。我们感觉通过从其他方法中引入优势,会鼓励数据可视化表达的多样性。
这意味着,即使我们在开发一个计算笔记本【1】产品,我们仍然需要跳出传统笔记本的局限性,去看数据可视化,并将其置于更广阔的背景下,即每个人如何使用数据可视化。
一、现有的工具往往倾向到具体工作/职能
创建可视化数据的设计工具无处不在的呈现与反映在各方面并没有改变。
现有可用的工具通常与某个具体的使用案例相关,并针对案例进行优化。如果你是数据科学家,你会专注于验证方法,通常你会使用 Jupyter notebooks 或者 RStudio;如果你是分析师,你可能会使用 Tableau 或者 Looker;如果你需要制作说明图表,你是软件开发你可能会使用 D3,如果你不是开发你可能会选择 Powerpoint;如果你从业于金融或人力资源,你可能会选择Excel。
二、很多工具在数据科学兴起前已存在
这些工具是在数据素养更低、数据驱动的组织机构更少、以及技术限制导致工具功能受限时设计的。
当行业继续发展,很多工具随之发展的过程和特定的数据、数据处理方法及专业角色结合得太过紧密,导致这些工具让人感觉过于专业化,例如主要为数据分析师使用的BI(商业智能)工具。
数据处理方法和工具的紧密耦合也是数据角色演变后的结果,随着它们的成熟,反而加强了让工具定义工作:研究生课程宣传如何通过学习 python 计算笔记本成为一名数据科学家,训练营告诉你要学 D3 软件这样你才可以成为一名数据可视化开发,无数的工作坊帮助你学习 Tableau 软件来成为一名分析师。
但是由 分析师 / 数据科学家 / 产品经理 所做的工作并不是离散的、孤立的数据可视化片刻。在这些领域中用的某一数据处理方法在本质上和在另一领域用到的没有任何不同。恰恰相反:如果将一种方法中使用到的技能和方法结合到另一种方法中,可能会非常有用。
我们看到这些步骤是孤立的,不是因为这是使用它们的最佳方式,而是因为它们目前是处于孤立状态下运行的。这就是为什么我们应该避开“分析师做的数据可视化与数据科学家做的不一样”的观点。我们看到这些步骤是孤立的,不是因为这是使用它们的最佳方式,而是因为它们目前是处于孤立状态下运行的。这就是便利规则被创建的原因,例如“不要用饼图”或“从不使用彩虹配色方案”或“最大化你的 数据墨水比 【2】”。
即使在孤立状态之外的进行数据分析任务时,这些便利规则仍会受到挑战,但这些步骤是将原始数据转化为洞察和行动的过程的一部分。这个过程横跨从早期对数据的完全探索到最后给股东和领导层的汇报。
三、数据可视化生命周期
简单5步,轻松学会数据可视化
最好的看待数据可视化的方式就是不要受限于角色或工具,而是专注于数据处理过程中哪里需要使用到数据可视化。
这些孤立离散的步骤中每一个都需要数据可视化的特别功能,从对原始数据的探索数据分析,到验证数据的假设、解释数据模式,再到将生成的图表产品化为定期的报告和其他数据资源。
组织或机构试图寻找数据的日子早已将一去不复返了,现在他们轻易能获得大量数据,而挑战变成了:如何从中定位正确的数据并将这些数据摘要给到正确的人。让我们来看下每个步骤,了解当今数据可视化如何应用与支撑工作。
1. 探索性数据分析
简单5步,轻松学会数据可视化
探索性数据分析(EDA)指的是 当数据可视化是用来理解数据的模式和形状,而不是来解释解释这些模式。
当它最常放在数据科学的背景下讨论时(使用例如 ggplot2 和 vega-lite 等工具优化数据处理方法),它的最佳案例是数据访问问题。组织或机构试图寻找数据的日子早已将一去不复返了,现在他们轻易能获得大量数据,而挑战变成了:如何从中定位正确的数据并将这些数据摘要给到正确的人。
为了支持探索性数据分析,数据工程师持续性的工作就是部署数据可视化来展示数据源的形状、数据的沿袭【5】、以及它们如何加入到其他数据中。
在数据集还是分析师/数据科学家的眼中独有的秘密之前,数据工程师早已在创建数据集并评估数据健康时用上了数据可视化。在这些数据源的视觉表达中,部分可能会继续保留来提供有关数据源状态的持续性报告,但一旦数据集【3】合或 数据工作流 【4】完工,大部分的此阶段数据可视化会被抛弃。
【3】数据集(dataset):一组数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。
【4】数据工作流(data pipeline):数据工作流沟通了数据源和数据应用的目标,包含了一家公司内部的数据流动全过程。它是一个贯穿了整个数据产品或者数据系统的一个管道,它连接了不同的数据处理分析的各个环节,将整个庞杂的系统变得井然有序,便于管理和扩展,因此让使用者能够集中精力从数据中获取所需要的信息,而不是把精力花费在管理日常数据和管理数据库方面。
【5】数据延袭(data lineage):通常定义为一种数据生命周期,其中包括数据的来源以及数据随时间推移的位置。该术语还可以描述数据经过不同过程时会发生什么。
用来构建这类模式的工具,例如 Superset,强调直接插入您的数据,让您可以在不同的图表和设置之间快速切换。这种快速高效地可视化任何数据集的能力,无论它是关于什么的,再怎么强调都不为过。
任何数据可视化处理的第一步几乎总是先看一看表格的一些行,不是因为这是可视化数据的最佳方式,而是因为表格几乎适用于所有数据集。
通常股东仅需要访问并概览数据,他们会接受表格视图,因为这快捷又方便。探索性数据分析(EDA)在数据科学的领域特别突出,它在一开始与上面已经描述的类似,但很快就转向更集中的方法,这些方法属于数据可视化生命周期的下一步。
2. 假说的生成和验证
简单5步,轻松学会数据可视化
数据可视化中最和工作相关的方面是生成和验证假说。
这和探索性数据分析(EDA)很像,但是更加具体,因为它在单纯的探索之外更深入数据的清晰申明。在数据科学的工作流程里,假说的生成和验证是通过具有分面等强大功能和处理几乎能处理所有类型数据的工具 —— 比如 ggplot2 和 vega —— 来完成的。这些工具通常还提供可用的功能来展示统计数据的显着性和不确定性,这是数据可视化生命周期里的其他部分所缺少的。统计测试,特别是 A/B 测试,可能会使用更定制化的界面并利用统计摘要的复杂表格来展示,为了方便那些非数据科学家进行假说的验证。
机器学习是数据可视化在假设生成部分占有重要地位的另一个主要领域。数据可视化可能提供非常不同的形式来支持机器学习的工作流程:目标是优化特定数字(例如混淆矩阵的某些方面)以验证你的假说,然后对随机样本进行可视化来尝试确认没有偏差。
3. 说明图
简单5步,轻松学会数据可视化
验证假说是不够的,你必须向观众解释它。
可能存在同样有效的竞争方法,即使没有,公司也没有无限的资源来追求每一种验证方法。数据可视化仅让建立它的人能理解是不够的,它需要被那些参与到围绕可视化数据决策的的人们所无障碍地理解并相信。
这是从业人员真正的盲点领域,他们会很惊讶在他们分析中用到的图表在报告中没有那么有效。即使这个假说简单到是“这件事很重要”,下一件需要做到的事就是让这个假说对于不熟悉原始创建者的数据集和方法的受众而言更加清楚。
你可以使用正式的 BI (商业智能)工具以及数据可视化库来完成此操作,它们能风格化并装饰那些在早期步骤中创建的简朴且杂乱的图表。
有效的说明图依赖于所有有效沟通的法则:编辑、上下文(情景)和清晰度。在前期数据分析探索中使用到(用来展示尽可能多的值)的配色方案被更深思熟虑过的颜色所取代,这些颜色强调了被分析的数据中的关键主题。图表中元素上的标签(比如如坐标轴)的格式更经过深思熟虑并弱化(不要那么视觉显眼)。
遵循无数的数据可视化指南中描述的最佳实践,图表获得了一个标题和一些文本来配合读者。
注释和上下文图表进一步说明和简单图表不同,说明图是为更多人设计的,而不仅仅是为了原始图表创建者们。
4. 产品化
简单5步,轻松学会数据可视化
让图表变得可阅读并不是最后一件事,因为它需要让它的受众阅读和分发。
大部分数据可视化指南忽略了这步,除非他们处理看板(dashboard)—— 他们真心地认为数据可视化的产品化的唯一方式就是把图表都塞到看板里。但是图表们有其他触达到它们受众的形式,无论是通过自动邮件、演讲还是备忘录。
产品化改变了图表,它能让图表:增强合作(比如可以评论)、便于分享、易于交互和自动更新(或者用邮件报告的方式定期发布)。
因此,产品化可能就像让在 Apple 和 Netflix 这样公司里的数据可视化工程师们去搭建一个完全定制化的分享应用一样,非常复杂和昂贵。或者产品化可能就像截图一个图表并把它塞到一个用于会议分享的文档里一样简单。
现代的BI(商业智能)工具有能改进共享(它们工具构建的)看板的功能,其中还包括将看板共享为电子邮件报告。在定制化的应用和标准化的BI(商业智能)工具之间,还有例如 Dash 和 Streamlit 这样的看板库,可以快速地从上文提到的探索性数据分析(EDA)和假说生成这两个模式中生成看板。除此之外,最有争议的莫过于将图表的图片嵌入文档了。
数据可视化的产品化,能像在 Notion, Coda, Quip, Confluence 或者 Google Docs 中插入图表一样简单吗?
在很多情况下,便于分享和提供评论功能,是产品化的核心需求,但这已经通过在线文档里的静态截图完成了。这是最优解吗?还差得远了。图表不能够再继续动态更新、截图的人们可能会不小心裁剪掉关键信息。但很明显,鉴于这种能够在图表上分享和评论的方法的频率,收益仍大于缺陷。
5. 战略方向
简单5步,轻松学会数据可视化
产品化可能看上去也像是在数据额可视化生命周期里的最后一步,但不是。
除了在演讲中的直接影响力之外,图表还(消极地和积极地)有助于使用数据的知识共享、最佳实践和指南。图表是一个公司的生命之血。如果公司想要改进它如何使用数据可视化,他们只能在评估如何使用数据可视化时才能做到这一点。
即使没有积极的数据可视化评估,图表仍然影响着一个公司的战略方向。因为图表提纯和强调了指标。这些我们展示的指标、特别是在数据可视化生命周期中从探索活到产品化的指标,是认真投资的结果。
它们影响决策,但也影响着之后的指标。这就是为什么数据可视化是指标设计的一个关键方面。类似地,数据本身以及数据的转变需要可视化。数据沿袭(数据生命周期)不仅包括ETL【6】过程中创建的数据、也包括让数据在语义上足够有意义来让公司使用且决策的必需步骤。
最后,每个公司产生的图表是公司里的人需要看的。这似乎是一个显而易见的观点,但图表通过提高或限制数据素养的方式表示数据。
如果你的所有图表都是条形图或者折线图,那么你所有的指标都只会是那些可以在那些条形图和折线图图表上出现的那种,并且你所有的决策都将是基于这些指标的那种。
但是,如果你有显示不确定性、分层数据、地型图、过程图、地图和其他数据类型的图表,那么你的公司将能够根据此类数据做出决策。
因此,即使图表已成功被部署,它仍然会影响你公司的数据素养。
注:文章及图片转载自网络,如有侵权请联系删除
|