可视化之旅
八月份去参加了可视化学习,先将学习总结贴上来。
####Day 1
第一天到达北大的二教上课,首先进行的是学员的自我介绍。大家基本上都是研究生以上,并且可视化方面的水平都比我高(哭)。在简单地小组任务分配后,我和中南、中央财经、浙江工商以及东北师大的学生组成了Vis fncier组,我们基本都属于研零和研一阶段。接下来的课程是北大袁晓如老师讲述可视化的理论简介,北大他们的可视化和可视分析小组的实力是比较厉害的,大部分读个4-5年的博士都能带领团队进行比较出彩的可视分析,他们的近期成果主要有交通轨迹和微博地理数据的可视化。袁老师主要论述如下:计算机可视化呈现出来的特点有很强的对比、变化、互动的呈现特点,通过这类计算机图像的技术向在人脑思维中建立一个针对特定领域的心理模型,并能得到一些清晰和富有远见的认识。从作用出发,可视化能帮助串行思维的人类来处理需要并行处理的工作。至于为什么要研究可视化或者可视化分析,对于不同的人对于可视化这个大类别是不同需求的,但都能归于解决问题这一点上。接着老师简述了简单的可视化历史以及国际上比较有影响力的3个会议:VAST、InfoVis、SciVis以及现在他们的合体——Vis会议。
####Day 2
第二天上午由北大学生介绍了他们近期的工作:将微博地理、北京的士和南京交通基站的数据来进行可视化。他们大致的工作流程就是通过将数据进行聚类后来获得一类数据组,这样得到的结果更有意义,也更容易来进行可视化。采用的工具为C++的框架以及WebGL、mapbox和leaflit.js来将地理图层和数据层结合。其想处理的有拥堵问题分析和路段异常分析。
下午为浙江大学的陈为教授讲解的《城市大数据的可视分析》。首先开宗就谈及大数据的4个特点(Volume、Velcity、Variety、Value),并坦诚地说我们现在处理的数据很少能符合大数据的特点。以及可视化的严格定义是随着研究发展而变化的,并以互联网和云计算来举例。这种探讨的过程也是否值得玩味。当然数据来源取决于不同行业的态度,比如保密和保守的行业数据是很难得到的。
接着讲来科学研究已经走向直接对数据进行分析的数据密集型科学了。这第四范式目的是能通过处理的数据得到从抽样到全样本、从精确到模糊、从因果到关联中得到有些思考(也就是商业中的insights)。那么这种方法应用到城市大数据中通过可视化来完成智慧城市的一环,将cyber space与real space通过physical space中的传感器连通起来。这几年迅速发展的云计算、移动化以及大数据都能提供不同的数据源。而浙江大学研究的智慧城市是IBM起头的,后交由政府部门。整体的逻辑架构无非是数据层、语义层以及决策层。而可视化通过语义层的模型将数据以更适合分析的方式展现给决策层。
接下来陈老师又通过他们的几个可视化demo讲解可视化的一些方法。比如通过移动基站的数据来展示移动人群的可视化中,不同粒度涉及不同可视化的方法,单个对象需要重点设计其行动变化的可视化,群体则需要有预测其行为的能力。而在其中间状态的考虑又更加不同。第二个例子为空气质量的可视化,将区域上空的空气质量借鉴信息转移熵的结构来设计可视化呈现的数据结构。并强调可视化就是通过形与色的方式将数据所要表达的信息呈现出美观、简单、直接的结果。陈老师他们组的实际问题是交通评估,提供可视查询界面。而其在科学可视化上的工作主要就是GIS上的云层可视展示。
####Day 3
第三天请到的老师是来自中科院研究所的时磊,他讲述的内容为由简到难的《大数据网络可视化》。首先阐述了老师自己对可视化的理解以及他们以前做过的DEMO。可视化是通过计算机这种工具来通过可交互的视觉呈现。信息可视化使用抽象的对象将数据所要展示出的信息。科学可视化与信息可视化相比,它的研究对象是更加具体的物理特征数据集。无论是信息可视化还是科学可视化,可视化的主要目的都是深化认知过程。“一图胜千言”,这句话就能很好概括可视化的意义。而当我们遇到多源异构的数据,则需要进行数据清洗以及数据分析处理。所以整个可视化分析过程中,真正可视化的工作可能只有20%。人的感知系统能接收什么程度、什么维度的可视化也是一个值得研究的问题。
接下来讲述的内容是网络可视化。网络对象可以是信息网络:社交、人口迁移、文本、人脑神经,也可以是物理网络:万维网、电信网。网络数据有两类:一类是节点(node)数据,存放的是实体;一类是链接(link)数据,存放的是关系内容。其节点和链接组成了图,图又依据其表达的信息分为:无向图、有向图和有权重的图。在可视化操作前,需要将混合数据库的数据整合成可视结构。而在具体可视化处理中,边相互交叉的数目可以衡量图可视化的水平,而边自身的直线性也影响图的美观清晰程度。图的分布算法不具体展开讲,主要使用的是优化后的重心算法、最小边交叉数目算法和力导向算法。
####Day 3-4
下午与接下来的一天为北大可视化小组的学生简述科学可视化,这方面的内容需要科学家配合的内容比较多,大部分知识为物理前沿知识,吸收的内容也没太多,主要记下他的研究过程和一下工程学上的性能考虑。总结在可视化上的研究方法就是一条:先针对大规模数据分析问题,然后考虑增量和更大的规模数据下问题的复杂度,在小规模的数据集上获得解决方案然后可视化呈现这一部分的数据。
####Day 5-6
这两天的重头戏为伦敦CITY UNIVERSITY的Natalia & Gennady Andrienko教授讲述的可视化分析和他们的研究成果,他们的官网为Research homepage。他们的数据来源为城市的移动数据,运用机器学习和可视化工具研究城市人口流动规律。他们总结了一套研究方法将人类和机器组合到一起来解决数据呈现的问题,这套方法的核心就是数据,当数据达到人类无法个体分析的程度,通过机器来尝试总结模式,而可视化的展示让人类来获取知识以及确定模式和模型的准确性。当然问题的复杂性决定来其不可能完全交由单方面由人类或者机器来解决。他们阐述的关键Anlytical reasoning为基本方法,这一内容需要继续学习才能比较清楚的掌握。而根据他们的数据实例的探索方法,将可视化分析归为一下几个过程:数据结构的分析,确定数据的特征性,数据的独立性以及通过数据推论实体的行为;分析平台的设计,从流程、数据状态来设计任务的实现过程,再从简单的单数值分布扩展到空间数据(二维坐标以及数据撮)的复杂表示方法;可视化分析的呈现设计,通过可视化呈现出来的图像和交互来推论数据上的实际内容,并尝试多种方法来表达数据以及相互关系。这一部分内容也是干货较多,最后他们的可视化平台在呈现出城市人口的流动性下还能预测交通情况。
最后两天又跑到天津去参加ChinaVis会议的演讲,这一部分的收获主要是论文的撰写方法,总结就是多读多写。