密集型地理数据可视化方案探索

2015-11-09

4 min read

最近师哥给的任务是地理数据可视化的研究，首先将现有情况说明清除。我们拿到的数据不是很多，但由于数据的特点，在可视化过程中可能会出现下图这种状况，地理标识数据相互覆盖。

这就是我们遇到的第一个问题：怎么减少这种地理数据的相互覆盖。按照老习惯首先在网上搜索是否存在比较成熟的方案，然后再区论文中搜索比较新颖的解决方案。本篇文章和下一篇文章都与这个主题有关。首先这篇文件描述一个点描法地图的可视化学习，下一篇将是论文报告的形式呈现可以借鉴的思路。

####1. Dot Maps

这一部分内容是看宾夕法尼亚大学的一门地理可视化课程^[1]的学习笔记。在Lession 5: Dot Maps就介绍了这种地理图表。

点描法（dot method）又称点数法、点值法、点子法或点法，是用代表一定数值的大小相等、形状相同的点，反映某地图要素的分布范围、数量特征和密度变化的方法。采用点值法的最重要的是确定点权值，即每个点子所代表的对象数值。确定点权值的基本原则是：使密度小的地区能得到表示，而密度大的地区点子不产生连续、重叠现象。但有时因制图对象各区域分布的数量差异太大，采用一个点值无法兼顾两极值区域，这时只好采用两个不同大小的点子和两种权值加以表示。在编图时，根据点权值计算各区域的点子数目，采用定位法或根据制图现象分布规律把点子绘到地图上。

这种点描法地图最好的使用场景是呈现包含离散的、在地理上分布不均（最好是平滑的变化）的数据。这种地图上的点并不是为了呈现精确的数量统计，而是对于地图上某种现象的量级、密度及其地图上的变化趋势的描述。

这种图的关键因素有两点：点的大小和代表的数值含义。点在地图上出现太大会导致重叠(overlap)，密度的变化也会比较难以察觉。点的取值也会影响对于空间模式（spatial patterns）的识别。这种关系的趋势是一般为：越小的点和越大的数值量会给地图观察者一种现象出现比较稀疏、特征不明显的感觉。这两个属性的选择也与我们探索的现象的空间分布以及丰富程度密切相关。

前面说道的点重叠的问题也是我们正在解决的问题，这就需要考虑在高密度地图中数据合并的问题，这里引入一种诺模图（nomograph）——the Mackay nomograph^[2]（见下图），这种图的作用就是通过选定维度某一个参数后，在诺模图经过尺规作图找到你需要的另一个参数。通过该工具可以指导我们大小和取值的选择。

注意这个合并地带（zone of coalescing dots），通过图上直径维度（图中上侧的维度）选择的一点找到单位范围上点的数量（图中下侧的维度）。比如下图箭头的52就是每平方厘米的数量。

再在地图上找到密度最高的区域的面积，比如这个北美小麦产量的地图中的一个最高密度区域面积就是\( 1.2cm^2\)。

将点数以及范围相乘可以得到该区域一个放置的点数: \( 52 dots/cm^2 \times 1.2cm^2 = 62 dots \)。最后就是将该区域的总数量除以点数，得到每个点代表的数量： \( 62,000 acres / 62 dots = 1000 acres/dot \)。

当然这种系统方法在实操上可能比较复杂，直接通过试错法慢慢调优也是一种比如容易实施的方式。

点描法地图通过不同颜色的点可以延伸到多变量的地理分布比较。比如下图的芝加哥区域的人种分布^[3]，该网站提供了收入的分布以及2010的人种数据。作者探索的是城市社区（图中黑线描绘的）的一种现象，就是这些社区以不同的种族或者收入划分居住人群（具体可搜索Chicago’s official “community areas”）。

我们可以看到在不同种族的交接处有不同类型混合的点出现，这是我们可以进一步研究学习的地方。

接着我们在说说其他的问题。这个问题就是地理信息不完整的问题，就是将一些GPS不全的数据怎么在地图上展示出来。有一种做法就是将地图以区域分块，将同一区域但没有精确地理位置现象的数据通过随机放到地图上。但是这还是会影响我们获得知识的过程和精确度，这种方法的优化只有将每个区域限制得更小来减少信息的误差。

还有一种方法就是通过辅助的数据提供我们感兴趣的数据的地理信息。比如下图的人口普查，就将一些公园、公路和其他不是住房区的地理位置限制，不让我们将数据投入这些位置。

其他一些调优的方法还有将图例的展示之类，我的重点还是在其提供的两种防止点相互覆盖的方法以及缺失地理数据的展示限制。

####参考

密集型地理数据可视化方案探索

See Also