全国地表类型遥感影像样本数据集 中华文库
全国地表类型遥感影像样本数据集 作者:赵理君 郑柯 史路路 白洋 唐吉文 张伟 饶梦彬 邹松 李艳艳 2019年6月5日 |
|
摘要&关键词
摘要:全国地表类型遥感影像样本数据集是对全国(除港澳台地区外)31个省、自治区、直辖市的十米级Landsat 8多光谱影像数据和米级GF-1、QuickBird多光谱影像数据进行人工解译采集而得。本数据集使用了2013–2017年的影像数据,覆盖夏季和冬季两个典型时相,采用了面向测绘地物波谱的分类体系。所构建数据集可为土地覆盖分类提供先验训练和测试样本,指导待分类影像中同类影像样本点的采集,为应用示范研究提供样本数据支持。为了更好地利用这些数据,采用统一规范的数据处理方法、样本采集规则和质量控制体系,对地表类型遥感影像样本数据进行采集和质量控制,并已经公开共享和提供下载。
关键词:地表类型;全国;遥感影像样本;十米级多光谱;米级多光谱
Abstract & Keywords
Abstract: This dataset of remote sensing images of land cover types in China is obtained through manual interpretation of ten-meter-level Landsat 8 multispectral image data and meter-level GF-1 and QuickBird multispectral image data, which covers 31 provinces, municipalities and autonomous regions of China excluding Hong Kong, Macao and Taiwan. Based on satellite images of the past five years (2013 – 2017), including summer and winter seasons, the study uses the classification system of the ground object spectral library. The dataset can offer priori training and testing samples for land cover classification, and provide sample data support for the research on the application of land cover classification. It can also be used to guide the collection of similar image sample points in the image. To promote convenient data usage, we adopted unified and standard data processing methods, sample collecting rules and quality control system, based on which the land cover image data are formed. So far, this dataset has been made publicly available online.
Keywords: land cover type; China; remote sensing image sample; ten meter level multispectral data; meter level multispectral data
数据库(集)基本信息简介
数据库(集)名称 | 全国地表类型遥感影像样本数据集 |
数据作者 | 赵理君、郑柯、史路路、白洋、唐吉文、张伟、饶梦彬、邹松、李艳艳 |
数据通信作者 | 赵理君(zhaolj01@radi.ac.cn) |
数据时间范围 | 2013–2017年 |
地理区域 | 全国(除港澳台地区外)31个省、自治区、直辖市等区域 |
空间分辨率 | 2.4–30 m |
数据量 | 647 MB (解压缩后) |
数据格式 | *.tif, *.jpg, *.txt, *.xml |
数据服务系统网址 | http://www.sciencedb.cn/dataSet/handle/663 |
基金项目 | 科技基础性工作专项(2014FY210800) |
数据库(集)组成 | 本数据集由2个分卷压缩文件构成,解压后包含了米级空间分辨率样本点的GF1和QuickBird这两个文件夹,以及十米级空间分辨率样本点的Landsat文件夹,各个文件夹下又由以不同采样地区命名的子文件夹组成。每个子文件夹下,存储了覆盖土壤、水体、岩矿、植被、冰雪冻土、人工目标6大类地表类型的样本点压缩文件,每个压缩文件中仅压缩存储同一景影像中同一种地表类型的多个样本点数据。解压缩后,每个样本点数据又由4个数据文件组成,分别为:样本点原始影像数据文件(*.tif),样本点预览图文件(*.jpg),样本点的影像波段DN值文件(*.txt),样本点的元数据文件(*.xml)。 |
Dataset Profile
Title | Remote sensing image sample dataset of land cover types in China |
Data corresponding author | Zhao Lijun (zhaolj01@radi.ac.cn) |
Data authors | Zhao Lijun, Zheng Ke, Shi Lulu, Bai Yang, Tang Jiwen, Zhang Wei, Rao Mengbin, Zou Song, Li Yanyan |
Time range | 2013 – 2017 |
Geographical scope | 31 provinces, municipalities or autonomous regions of China excluding Hong Kong, Macao and Taiwan |
Spatial resolution | 2.4–30 m |
Data volume | 647 MB (after decompression) |
Data format | *.tif, *.jpg, *.txt, *.xml |
Data service system | http://www.sciencedb.cn/dataSet/handle/663 |
Sources of funding | Basic Research Foundation of Science and Technology (2014FY210800) |
Dataset composition | The dataset consists of two compressed files, made up of two folders storing meter-level sample data, namely GF1 and QuickBird, and one folder storing ten-meter-level sample data, namely Landsat. Each folder is comprised of several subfolders which are named after sampling regions. Each subfolder consists of compressed files that store data of six major land cover types in the sampling regions, including soil, water body, rock, vegetation, snow and ice, and man-made objects. Each of the compressed files includes only data of several samples of the same remote sensing image of the same land cover type. After being decompressed, each file is made up of four types of data files, including an original satellite image of the sample (*.tif), a sample image preview file (*.jpg), a text file of DN values of different spectral bands (*.txt), and a metadata file (*.xml). |
引 言
地表覆盖是地球表面各种物质类型及其自然属性与特征的综合体,其空间分布直接影响着地球表面的物质和能量的循环过程[1]。利用遥感影像开展地表覆盖监测是生态环境变化研究、土地资源管理和可持续发展的重要基础,在全球资源监测、全球变化检测中发挥着重要作用[2]。目前,遥感影像的计算机分类成为主要的发展方向,涌现出多种分类方法,如统计模式识别方法、人工智能分类法、遥感与GIS结合法、面向对象的分类法、多源信息复合分类法等[3]。遥感影像分类就是把图像中的每一个像元或区域划分为若干类别中的一种,即通过对各类地物的光谱特征分析来选择特征参数,将特征空间划分为互不重叠的子空间,然后将影像内各个像元划分到各子空间中去,从而实现分类[4]。在遥感影像地表覆盖分类的过程中,影像样本的采集可支持监督分类模型的构建,为地表类型的遥感影像分类提供类别先验知识。目前,国家基础地理信息中心发布了2010年GlobalLand 30全球30米地表覆盖分类产品(http://www.webmap.cn/commres.do?method=globeIndex),可免费下载使用;中国科学院遥感与数字地球研究所发布了连续多年的中国土地覆盖遥感监测产品;清华大学发布了FROM-GLC2010地表覆盖分类产品(http://data.ess.tsinghua.edu.cn/landsat_ pathList_fromglc_0_1. html)以及全球范围的验证样本点数据(http://data.ess.tsinghua.edu.cn/ data/temp/GlobalLandCoverValidationSampleSet_v1.xlsx),但训练样本并未完全公开。
本文构建的数据集是依托科技基础性工作专项“测绘地物波谱本底数据库建设”(2014FY210800)完成,与项目中的典型水体反射率数据集、典型地物反射率数据集、典型地表类型全波段波谱数据集、作物生长季时间序列反射率数据集、森林和作物多尺度反射率波谱数据集、多频率多角度森林微波辐射亮温数据集、全国岩矿标本反射率数据集等其他数据集共同构成了项目最终的测绘地物波谱本底数据库,所有数据将通过平台网站(http://210.72.27.78/spectrum/)向公众发布。需要指出的是,项目中其他数据集数据均来自地面实测波谱,而本数据集样本数据则是从遥感影像的角度采集影像样本,以期为研究影像与地面波谱之间的关联关系提供支撑,同时也期望能够为遥感影像的分类提供补充样本。本数据集利用了全国范围内与项目其他数据集试验区域相近的遥感影像,通过人工判读与比对得到最终的影像样本。相比已有的影像样本数据集(如GlobeLand 30,FROM-GLC数据集[5][6]),本数据集特色在于:(1)时相更新(2013–2017年);(2)包含影像样本空间分辨率更高(最高2.4–8 m);(3)样本类型更精细(面向测绘地物类型);(4)服务方式完全免费(所有样本数据在平台完全公开)。
1 数据采集和处理方法
本数据集包括十米级和米级两种影像的样本数据,其中十米级影像以Landsat 8卫星的30 m空间分辨率数据为主,米级影像以国产GF-1卫星的8 m空间分辨率数据为主,补充了部分QuickBird卫星的2.4 m空间分辨率数据。所有的影像数据通过地理空间数据云平台(http://www.gscloud.cn/)、购买等渠道获取下载。其中,Landsat 8数据使用L1T产品,据USGS提供的信息,该产品已使用地面控制点和数字高程模型数据进行精确校正,几何校正精度为12 m,小于0.5个像元;GF-1数据使用L1级产品,无几何信息,利用RPC参数文件进行了RPC几何精校正;QuickBird数据使用L2A级产品,已经过了几何精校正处理。上述所有数据源影像均经过了几何精校正处理,不做辐射和大气校正处理,保留原始像元值(Digital Number,DN)数据,但需要注意的是样本点的DN值一般不能直接应用于分类模型的构建。这里更多地考虑几何信息主要源于在实际应用中,不同传感器会因波段设置上的差异造成像元波谱信息无法保持一致性,在遥感影像分类过程中,可以很容易地根据地理点位和类别信息构建训练样本。通过对待分类影像进行辐射和大气校正便可以得到训练样本点的光谱反射率特征。在影像空间范围选择上,十米级影像覆盖全国(除港澳台地区外)31个省/自治区/直辖市的区域,每个行政区划单元随机选择至少2景影像;米级影像覆盖全国的7大分区,即东北、华北、华东、华中、华南、西南、西北地区,每个地区随机选择至少2景影像。在影像时相选择上,主要考虑夏季和冬季两个差异度最大的时相,其中冬季时相的时间跨度设定为12–3月,夏季时相的时间跨度设定为7–9月。在影像的获取年份上,设定为最近5年时间内的影像,以保证样本数据的时效性。最终,获得待采样的影像数据情况如表1所示。
表1 不同卫星影像数据获取情况表
卫星影像数据源 | 分辨率等级 | 数量(景) | 空间范围划分 |
Landsat 8 | 十米级 | 66 | 全国(除港澳台地区外)31个省/自治区/直辖市 |
GF-1 | 米级 | 14 | 东北、华北、华东、华中、华南、西南、西北等地区 |
QuickBird 02 | 米级 | 1 | 华北地区 |
基于上述预处理后的遥感影像,通过人工解译开展地表类型影像样本采集工作。类别体系严格遵从项目内部制定的标准规范《测绘地物波谱库地物分类编码规范(草案)》,该草案主要参考了已有的国家相关标准和公认度较高的分类原则、标准,根据测绘部门和遥感数据分类研究的实际需要制定,覆盖地表类型种类包含植被、土壤、岩矿、冰雪冻土、水体、人工目标6大类一级类,植被向下划分至6级分类体系,冰雪冻土向下划分至5级分类体系,土壤、岩矿、水体、人工目标向下划分至4级分类体系。根据遥感影像对地表区分的能力,对上述分类体系进行了精简,表2给出本数据集构建中使用的类别体系划分情况。
表2 类别体系简表
1级类 | 2级类 | 3级类 | 4级类 | ||||
编号 | 类别 | 编号 | 类别 | 编号 | 类别 | 编号 | 类别 |
1 | 植被 | 11 | 农林用地 | 1101 | 耕地 | 110101 | 稻田 |
110102 | 旱地 | ||||||
110103 | 菜地 | ||||||
110104 | 水生作物 | ||||||
1103 | 林地 | ||||||
1104 | 天然草地 | 110402 | 草地 | ||||
12 | 城市绿地 | 1201 | 人工绿地 | ||||
2 | 土壤 | 206 | 漠土 | ||||
3 | 岩矿 | 31 | 岩石 | ||||
4 | 冰雪冻土 | 41 | 冰 | 412 | 湖冰 | ||
413 | 河冰 | ||||||
42 | 雪 | ||||||
43 | 冻土 | ||||||
5 | 水体 | 51 | 河流 | 511 | 常年河 | ||
513 | 干枯河(干河床) | ||||||
52 | 沟渠 | 522 | 干渠 | ||||
53 | 湖泊 | 531 | 常年湖、塘 | 53101 | 湖泊 | ||
53102 | 池塘 | ||||||
533 | 干枯湖 | ||||||
54 | 水库 | ||||||
55 | 海洋要素 | 551 | 海域 | ||||
552 | 海岸线 | ||||||
557 | 海岛 | ||||||
6 | 人工目标 | 61 | 水系 | 6101 | 沟渠 | ||
62 | 居民地及设施 | 6201 | 居民地 | ||||
6202 | 工矿及其设施 | ||||||
63 | 交通 | 6302 | 城际公路 | ||||
6303 | 城市道路 |
在人工解译采样过程中参考了已有的专题产品和历史资料以确保样本类别标注的准确性。这里的专题产品和历史资料包括植被、水体等单一类别的分类专题产品,Google Earth高分辨率历史影像,项目组其他课题采集的地面样本实测数据等。针对不同分辨率的影像样本数据(十米级和米级),每景影像中的每一个子类别,采样数量控制在50–700个,采样大小为7像元×7像元的区域,并在采样过程中避免边缘像元的选择。按照项目内部数据入库规范与要求,每一个样本数据采用标准统一的数据组织和存储格式进行记录,每一个样本数据对应4个文件,如表3所示。
表3 样本记录文件
文件明细 | 文件内容 |
image_<top class>_< sensor type>_<acquired time>_AXXX.tif | 样本点原始影像数据 |
view_<top class>_<sensor type>_<acquired time>_AXXX.jpg | 样本点预览图 |
pixel_<top class>__<acquired time>_AXXX.txt | 影像各波段DN值 |
pixel_<top class>__<acquired time>_BXXX.xml | 样本点的元数据描述信息 |
在表3中,<top class>、、<sensor type>和<acquired time>有统一的命名规则。其中,<top class>为地物大类,限定为vege,soil,rock,snow,water,manmade,分别对应表2中的植被、土壤、岩矿、冰雪冻土、水体和人工目标等类别;为子类英文简写名称,长度不超过15个字符;<sensor type>为传感器的英文名,限定为OLI、PMS、QuickBird,分别对应Landsat 8、GF-1和QuickBird 02卫星;<acquired time>为数据获取时间,记录年月日时分秒,格式为YYYYMMDDHHMMSS;XXX为文件编号范围从001–999;A和B为文件标识,A是对样本点配套文件的标识,B是对元数据文件的标识。
2 数据样本描述
全国地表类型遥感影像样本数据集包含十米级和米级两个空间分辨率等级,其中十米级影像样本采集了118324个样本(以省/自治区/直辖市为单元采样,每个地区至少两个时相),其中夏季58317个,冬季60007个;米级影像样本采集了29551个(以全国大的区划为单元采样,每个区划至少两个时相),其中夏季15792个,冬季13759个。采样点的空间分布如图1所示。图2和图3分别给出了数据集中十米级影像样本和米级影像样本的组成情况。
图1 全国地表类型遥感影像样本数据集空间分布图审图号:GS(2019)1381号
图2 十米级影像样本数量统计
图3 米级影像样本数量统计
本数据集以“图像+描述文档”的方式组织存储,包含了影像数据和文本数据,如表3所示。图4以农林用地这一类别的一个样本点数据为例,展示了其对应的存储文件列表。
图4 影像样本数据组织存储文件示例
其中,tif文件为7像元×7像元大小的原始影像文件;jpg文件为7像元×7像元大小的预览图像,与原始影像对应;txt文件为样本点中心像元的DN值文件,内容的格式为两列数值,以Tab键分隔,第一列数据为波长,第二列数据为DN值;xml文件为元数据描述文件,采用格式化存储方式,内容如图5所示:
图5 影像样本元数据描述文件内容示例
3 数据质量控制和评估
针对遥感影像样本数据,数据质量控制过程包括对待采样影像数据的检查整理,单个样本数据点的检查,样本点配套文件的生成和入库,以及元数据的编写、检查和入库。对待采样影像数据的检查包括影像投影信息、波段数、存储损坏等明显的数据问题以及文件格式等。单个样本数据点的检查,主要针对类别标注错误的样本点数据进行修正、剔除。样本点配套文件以及元数据文件的检查包括文件命名、文件格式、文件内容中字段标准化命名以及文件内容的完整性等。
针对遥感影像样本数据集的构建,在数据入库阶段建立了完善的质量控制过程(图6),保证已入库数据的正确性、完整性和一致性。在数据采集整理和入库过程的质量控制方面,进行了原始遥感影像数据和影像样本点数据的整理和格式统一,同时通过一系列质量控制方法,如正确性检查、数据一致性检查等,以保障数据的质量。影像样本点配套文件和元数据文件由影像样本数据采集人员根据项目制定的数据标准格式(包含图像文件名、经纬度、传感器型号、观测时间、空间分辨率、光谱类型人员信息等)进行填写,为减少人工填写引起的错误,所有元数据信息均通过程序编写自动从原始影像数据和采样点数据中读取填写得到。
图6 数据质量控制
为了对数据集的质量进行定量的精度评估,我们以样本采集过程中使用到的那景遥感影像的分类结果作为评价对象,将该影像中采集到的样本点随机划分为两部分,即训练样本和测试样本,使用训练样本训练支持向量机(Support Vector Machine,SVM)分类器,使用测试样本计算分类精度,统计总体分类精度和Kappa系数。我们随机选取了不同地区不同时相的样本进行评测(见表4)。最终得到平均分类精度为81.17%,平均Kappa系数为0.78。从抽检结果可以看到,数据质量总体良好。
表4 数据集质量精度评价
样点区域 | 季相 | 总体分类精度(%) | Kappa系数 |
天津地区 | 冬 | 82.25 | 0.80 |
新疆地区 | 冬 | 77.82 | 0.75 |
黑龙江地区 | 冬 | 75.80 | 0.71 |
湖南地区 | 夏 | 84.75 | 0.82 |
广西地区 | 夏 | 85.25 | 0.81 |
平均值 | 81.17 | 0.78 |
4 数据使用方法和建议
本数据集是测绘地物波谱本底数据库平台的原始入库文件,可通过门户网站(http://210.72.27.78/spectrum/)检索查询获得检索区域内样本点的相关信息,也可以通过编程的方式批量解析读取本数据集XML文件中的样本点空间信息。数据集可以为遥感影像分类算法研究提供训练和测试样本数据,通过地理坐标与待分类影像像元坐标的转换,得到待分类影像中的样本点分布,使用最大似然(Maximum Likelihood Classification,MLC)、支持向量机(Support Vector Machine,SVM)、卷积神经网络(Convolutional Neural Network,CNN)等分类算法完成分类,使用流程如图7所示。由于本数据集并没有完全覆盖全国的每一个地区,如待分类影像的空间范围没有包含到任何影像样本点,建议相关研究者查询周边相邻地区的影像样本点,以筛选出的样本点为参考样本集,指导待分类影像中同类样本点的采集,进而利用所得到的样本点完成影像分类任务。
图7 数据集用于影像分类的应用流程
另一方面,本数据集可以与地面实测波谱数据配合使用,通过与测绘地物波谱本底数据库平台提供的其他地面实测波谱数据集进行空间位置配对(相同和相近位置),研究和分析地面实测波谱与影像波谱的关联关系,为相关算法的研究提供数据基础,为直接利用地面实测波谱数据指导影像样本自动采集提供可能。
参考文献
- ↑ 乔五十, 郭喜绒, 刘妍, 等. 地表覆盖遥感制图耕地要素提取的方法与相关问题探讨[J]. 测绘标准化, 2013, 29(3): 21–23.
- ↑ 张伟, 郑柯, 唐娉, 等. 深度卷积神经网络特征提取用于地表覆盖分类初探[J]. 中国图象图形学报, 2017, 22(8): 1144–1153.
- ↑ 史泽鹏,马友华,王玉佳, 等. 遥感影像土地利用/覆盖分类方法研究进展[J]. 中国农学通报, 2012, 28(12): 273–278.
- ↑ 王昆, 戚浩平. 土地利用与土地覆盖遥感分类方法研究综述[J]. 山西建筑, 2008, 34(5): 353–354.
- ↑ CHEN J, CHEN J, LIAO A P, et al. Global land cover mapping at 30 m resolution: A POK-based operational approach[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 103: 7–27.
- ↑ GONG P, WANG J, YU L, et al. Finer resolution observation and monitoring of global land cover: first mapping results with Landsat TM and ETM+ data[J]. International Journal of Remote Sensing, 2013, 34(7): 2607–2654.
数据引用格式
赵理君, 郑柯, 史路路, 等. 全国地表类型遥感影像样本数据集[DB/OL]. Science Data Bank, 2018. (2018-10-15). DOI: 10.11922/sciencedb.663.