1. 遥感分类精度评估:为什么“简单粗暴”的方法行不通?
最近在赶论文,卡在了分类精度评估这一关。我最初的想法特别“直男”:用ArcGIS生成一个规则的格网,把每个格网的中心点当作我的验证点,然后提取这些点在分类影像上的值,再手动或者用Python算个混淆矩阵。听起来挺合理对吧?但导师一句话就把我问懵了:“你的抽样方法能代表整个区域的真实情况吗?尤其是那些面积很小但很重要的地类,你的格网中心点可能一个都没抽到。”
这句话点醒了我。遥感分类精度评估,核心不是“算”得准,而是“评”得准。如果你的验证点本身就有偏差,那后面算出来的精度再高也是自欺欺人。这就好比你想调查一个城市市民的收入水平,结果你只去市中心最繁华的商业街发问卷,得到的平均收入肯定高得离谱,但这能代表整个城市吗?显然不能。
我原来用的那种等间距格网抽样,就犯了类似的错误。它假设地物是均匀分布的,但现实中,林地、水体、建筑、耕地的分布极不均匀。一块巨大的农田里,你可能布了十几个点,而一小片至关重要的湿地,可能一个点都没有。用这种样本去评估,就会严重高估大面积地类的精度,同时完全忽略小面积地类的分类效果。最后的总体精度(Overall Accuracy)可能看起来不错,但一到具体某个类别,比如你想重点监测的某种特定作物或者生态湿地,结果可能一塌糊涂。
所以,一个科学的精度评估流程,必须解决两个核心问题:第一,样本点怎么选才能公平地代表每一类? 第二,选好点之后,怎么高效地对比和计算? 前者关乎评估的“准星”是否瞄对了,后者关乎评估过程的“效率”。经过一番折腾,我发现把ENVI和ArcGIS这对“黄金搭档”结合起来用,是解决这两个问题非常优雅的方案。ENVI擅长基于影像本身进行智能化的分层抽样,确保样本的代表性;ArcGIS则擅长空间数据处理、属性管理和可视化核对,让后续的目视解译和数据分析变得条理清晰。下面,我就把自己踩过坑、最终跑通的完整实战流程,掰开揉碎了分享给你。
2. 评估前的核心武器:理解分层抽样法
在动手操作之前,我们得先搞清楚手里的“武器”到底是什么原理。替换掉等间距抽样的,就是分层抽样法。这个词听起来学术,其实道理很简单。它的核心思想就一句话:按比例说话,重点照顾“弱势群体”。
想象一下,你要评估的整幅分类影像就是一个大蛋糕,被切成了林地、耕地、水体、建设用地等等好几块。分层抽样法要求,你从每一块蛋糕里取样本时,取的数量要和这块蛋糕的大小成比例。但同时,它还有一个非常重要的保护机制:即使某块蛋糕特别小(比如只占1%的湿地),也不能只给它一两个样本点,因为样本量太少,统计结果根本不可靠。所以,分层抽样通常会设定一个最小样本量下限,确保每一类,无论面积多小,都能获得足够数量的“发言权”。
具体到遥感上,这个过程是这样的:首先,你的分类结果图(比如一个TIFF文件,每个像素值代表一个地类)本身就是“分层”的依据。软件(比如ENVI)会先统计出每个类别的像素总数,也就是它们的“面积”。然后,根据你设定的总样本量或者抽样比例,结合每个类别的面积占比,计算出每一类理论上应该抽取多少个样本点。最后,再在每一个类别的区域内部,完全随机地撒下相应数量的点。
这样做的好处太明显了:
- 公平性:面积大的类别,样本点多;面积小的类别,样本点也不会被忽视。评估结果能真实反映对每一类地物的识别能力。
- 统计可靠性:每一类都有足够的样本量,计算出的生产者精度(Producer‘s Accuracy)和用户精度(User‘s Accuracy)才可信。
- 效率:相比于在整个区域盲目随机撒点(简单随机抽样),分层抽样能用更少的样本点,达到更高的评估精度。因为你避免了把大量点浪费在单一地类上。
我最初想用ArcGIS 10.2自己写脚本实现这个,发现非常麻烦,特别是如何确保随机点精确落在指定类别的像素上。也试过Erdas,但软件兼容性和数据导出流程很别扭。直到重新捡起ENVI,发现它的Generate Random Sample工具简直就是为这个场景量身定做的,后面我们会详细操作。
3. 实战第一步:在ENVI中准备分类数据与分层抽样
好了,理论铺垫完,我们进入实战。假设你现在手头已经有一幅用任何方法(最大似然、支持向量机、随机森林等)分类好的TIFF影像,我们的目标是为它生成一套科学的分层抽样验证点。
第一步:数据准备——让ENVI“认识”你的分类图
这里有个关键坑点,我踩过。你直接把自己生成的classification.tif拖进ENVI,然后去找抽样工具,可能会发现工具是灰的,用不了。因为ENVI的经典版抽样工具,需要输入的是一个“ENVI分类结果”格式的文件,而不是普通的单波段TIFF。
怎么办?有个巧妙的“伪装”方法,利用ENVI的决策树分类器。别怕,我们不是要重新分类,只是走个流程让数据格式合规。
- 在ENVI中打开你的原始多光谱影像(用于分类的那个)。
- 点击
Classification -> Decision

&spm=1001.2101.3001.5002&articleId=154340608&d=1&t=3&u=91f04c85551b4e3b8d834f325529caeb)
569

被折叠的 条评论
为什么被折叠?



