MRO > 资源社区 > 清洁及办公 > 办公用品 > 计算器 > 正文

ARCGIS 空间统计笔记

文/ 发布于2018-06-05 浏览次数：2446

　　前段时间在学习空间统计相关的知识，于是把ArcGIS里Spatial Statistics 工具箱里的工具好好研究了一遍，同时也整理了一些笔记上传分享。这一篇先聊一些基础概念，工具介绍篇随后上传。

　　空间统计研究起步于上个世纪70年代，空间统计其核心就是认识与地理位置相关的数据间的空间依赖、空间关联等关系，通过空间位置建立数据间的统计关系。空间统计学依赖于tablor地理学第一定律，即空间上越临近的事物拥有越强的相似程度；和空间异质性，即空间位置差异造成的行为不确定现象。例如要度量犯罪率与教育程度的关系，不同地区(文教区、贫困区)可能不一样。

　　利用GIS进行空间统计分析最早可追溯到1854年的伦敦大霍乱（黑死病）。当时盛行的理论是“空气传染”,而不是现在的病菌传染。John Snow 医生开始也相信空气传染学说，但证据使他不得不转向病菌学说。他通过观察霍乱病例在空间上分布的特征，找到了其空间上聚集的地方，进一步找到了致病的水井。利用空间统计可帮助我们发现、判断并证实事物在空间上分布的规律和特征，从而对研究进行辅助决策。

　　几个空间统计基本概念

　　自相关指数

　　Moran指数和Geary系数是两个用来度量空间自相关的全局指标。Moran指数反映的是空间邻接或空间邻近的区域单元属性值的相似程度，Geary

　　系数与Moran指数存在负相关关系。

　　Moran指数I的取值一般在[-1,1]之间,小于0表示负相关,等于0表示不相关,大于0表示正相关;

　　Geary系数C的取值一般在[0,2]之间,大于1表示负相关,等于1表示不相关,而小于1表示正相关；

　　回归分析

　　回归分析（regression analysis)是确定两个或多个变量间相互依赖的定量关系的一种统计分析方法。按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

　　欧几里得距离&曼哈顿距离

　　欧几里得距离即两点之间平面直线距离，如果两点的坐标分别为（x1，y1）和（x2，y2）,则欧几里得距离计算公式为：

　　而曼哈顿距离又称为出租车距离，就是在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和，计算公式为：

　　Distance=|x1-x2|+|y1-y2|

　　空间权重矩阵

　　通常定义一个二元对称空间权重矩阵W，来表达n个位置的空间区域的邻近关系，其形式如下：

　　Wij表示区域i与j的临近关系，它可以根据邻接标准或距离标准来度量。

　　常用的最简单简单的二进制邻接矩阵

　　常用的基于距离的二进制空间权重矩阵

　　Z Score和P值

　　很多空间统计里的工具都会返回Z分数和P值，P值是统计学中所谓犯“第一类错误”的可能性，指零假设正确，而我们错误的拒绝了零假设的可能性。Z分数也代表拒绝零假设的可能性，也就是说，如果P值越小，Z分数的绝对值越大，就可以越放心的拒绝零假设。

　　Average Nearest Neighbor

　　工具简介

　　平均最近邻工具用来度量在不考虑属性的前提下，要素在空间上的分布趋势是离散分布、聚集分布还是随机分布。该工具会计算每一个要素的质心到最近的邻居的距离之和

　　的平均值，再与假设随机分布的距离做比较。如果比值小于1，则认为是聚集分布；如果大于1，则认为是离散分布。

　　主要参数

　　Input

　　Feature Class:输入的矢量要素类，一般是点类型；对于线类型或面类型的要素，则取他们的质心进行计算；

　　Distance

　　Method：欧几里得距离：计算平面上两点之间的直线距离；曼哈顿距离：计算两点之间两个直角边的距离之和；解释见另一篇博文

　　Area：该工具对面积是敏感的，不同的地理尺度会造成不同的分析结果。默认是输入要素类的外包矩形，可以指定实际的面积大小。

　　输出结果解析

　　该工具会给出一系列的统计值，包括计算得到的邻居之间的平均距离（Observed Mean Distance）、期望的随机分布的平均距离（Expected Mean Distance）、这两者之间的比值（Nearest Neighbor Ratio）以及Z分数和P值。同时也可以输出为HTML报表，直观地以图形形式输出分析的结果。

　　High/Low Clustering(Getis-Ord General G)

　　工具简介

　　该工具返回某个属性在空间上是高值聚类还是低值聚类的可能性，零假设是随机分布。如果P值具有统计显著性，则可推翻零假设。可以用该工具来反映GDP产值大部分是高于平均水平（高值聚集）还是低于平均水平（低值聚集）。

　　主要参数

　　Conceptualization of Spatial Relationships:度量要素间空间位置关系的方式，推荐使用Fixed Distance Band, Polygon Contiguity方法；

　　Standardization：行标准化一般是在数据存在可能的偏见性的时候采用，一般是由于有偏采样造成的，这里推荐使用None；

　　Weights Matrix

　　File(optional)：空间权重矩阵文件，可指定ASCII码格式的权重文件，如果要素的个数大于5000个，建议转换成swm格式。

　　输出结果解析

　　该工具会给出一系列的统计值，包括Observed

　　General G, Expected General G, 方差（Variance）,

　　Z分数和P值。如果P值具有显著性，则看Z值为正则Observed

　　General G大于Expected General

　　G，说明为高值聚类；如果Z值为负，则Observed General G小于Expected General G，为低至聚类。

　　Multi-Distance

　　Spatial Cluater Analysis(Ripleys K Function)

　　工具简介

　　该工具在多尺度自相关分析中经常使用，可以对给出的一系列距离内要素的离散或是聚集程度进行度量。边缘校正是该工具一个很重要的参数。在生态学中常用该工具来做种群的空间格局分析。

　　主要参数介绍

　　Number of distance bands:设置多少个距离区间；

　　Compute Confidence Envelope：确定随机分布上下包迹线的方法，Monte

　　Carlo方法是选取m组n个随机数，求出每组的l（d）值，分别取最大和最小值最为上下包迹线的取值，一般建议使用99组随机模拟值来确定包迹线的区间。可理解为不同的置信水平（90%，99%，99.9%）；

　　Weight

　　field：要素的权重字段，例如一个点要素的权重为3，则意味着在同一坐标位置有三个重复的点；

　　Beginning distance：起始距离；

　　Distance Increment：距离步长；

　　Boundary Correction Method（边缘校正）：用来对位于研究范围边界处的要素邻居个数进行估计的方法

　　NONE——不进行校正，即便输入的要素落入了研究范围外，仍会作为邻居参与位于边界处的要素的计算；

　　SIMULATE_OUTER_BOUNDARY_VALUES——对位于边界范围内的要素（一个距离步长内）会按照研究范围的边界产生镜像要素，作为其邻居参与到计算中；

　　REDUCE_ANALYSIS_AREA——该方法会按照距离步长对研究范围进行收缩，位于收缩范围内的要素就作为邻居参与计算；

　　RIPLEY'S_EDGE_CORRECTION_FORMULA——该方法会比较每个要素与研究范围边界的距离与邻居的距离，如果邻居距离大于到边界的距离会赋予额外的权重，刚方法适合研究范围是矩形的情况。

　　Study Area

　　Method：该工具算法对面积是敏感的，默认为MINIMUM_ENCLOSING_RECTANGLE（即要素的最小外包矩形）；USER_PROVIDED_STUDY_AREA_FEATURE_CLASS（指定一个多边形要素类来获取面积）

　　输出结果

　　该工具会给出图形输出和表格输出两种结果。图形输出中包括ObservedK,

　　ExpectedK，Lower Confidence Envelop，Higher Confidence

　　Envelop曲线，表格中还包括了DiffK（即ObservedK和ExpectedK的差值）。如果在某个距离内ObservedK大于ExpectedK，则为聚类分布；反之为离散分布特征。如果ObservedK大于Higher

　　Confidence Envelop的值，意味着聚集分布具有统计显著性；如果ObservedK小于Low Confidence Envelop的值，意味着这时的离散分布具有统计显著性。

免责声明：文章仅供学习和交流，如涉及作品版权问题需要我方删除，请联系我们，我们会在第一时间进行处理。