技术文章 > 多源空间数据无缝集成(SIMS)技术研究

多源空间数据无缝集成(SIMS)技术研究

2017-12-13 09:16

文档管理软件,文档管理系统,知识管理系统,档案管理系统的技术资料:

宋关福
(中国科学院地理信息产业发展中心、中国科学院遥感应用研究所,北京,100101)
钟耳顺
(中国科学院地理信息产业发展中心)
程新荣
(中山大学计算机科学系)
王尔琪、滕寿威
(中国科学院地理信息产业发展中心)
 
[摘要] 地理信息系统的迅速发展和广泛应用积累了大量数据资源,它们分别存储为不同数据格式,为数据综合利用带来不便。多源空间数据无缝集成(SIMS)技术实现了一种特殊的数据访问机制,不仅提供了直接存取多种数据格式的能力,而且使GIS软件软件具有跨数据源复合分析功能。本文阐述了SIMS技术体系结构,并探讨了SIMS技术在GIS软件开发中的应用。
[关键词] 地理信息系统 多源数据 多源空间数据无缝集成 虚拟空间数据引擎
一、概述
经过三十多年的发展,随着地理信息系统(GIS)的广泛应用,积累了大量GIS数据资源。由于使用了不同的GIS软件,这些数据分别存储为不同格式和不同结构。
为了更好地综合利用这些数据,通常的做法是使用GIS软件提供的数据格式转换功能,转换为某种统一格式。众所周知,不同软件数据格式之间的转换往往会造成一定的信息损失,如MapInfo的Tab文件转换到Arc/Info的Coverage会丢失线型、颜色等与显示有关的属性;更为严重的是,Arc/Info采用拓扑数据结构,MapInfo数据则是非拓扑数据结构,转换之后还需要进行拓扑重建等大量处理工作。
另外,数据转换一般通过交换格式进行,转换过程复杂。比如,要转换MapInfo的Tab文件到Arc/Info的Coverage,首先需要使用MapInfo软件把Tab文件输出为E00或DXF文件,然后运行Arc/Info把E00或DXF文件转为Arc/Info Coverage。一些单位同时运行着几个使用不同GIS软件建立的应用系统。如果数据需要不断更新,为保证不同系统之间数据的一致性,需要频繁进行数据格式转换。
为解决数据格式转换带来的种种问题,理想的方案是在一个软件中实现对多种数据格式的直接访问。多源空间数据无缝集成—SIMS(Seamless Integration of Multisource Spatialdata)就是这样一种技术。
二、理解SIMS
SIMS是一种无须数据格式转换,直接访问多种数据格式的高级空间数据集成技术,SIMS技术具有如下特点:
多格式数据直接访问。这是SIMS技术的基本功能,由于避免了数据格式转换,为综合利用不同格式的数据资源带来了方便。
格式无关数据集成。GIS用户在使用数据时,可以不必关心数据存储于何种格式,真正实现格式无关数据集成。
位置无关数据集成。如果使用大型关系数据库(如Oracle和SQL Server)存储空间数据,这些数据可以存放在网络服务器、甚至Web服务器,如果使用文件存储空间数据,这些数据一般是本地的。通过SIMS技术访问数据,不仅不必关心数据的存储格式,也不必关心数据的存放位置。用户可以象操作本地数据一样去操作网络数据。
多源数据复合分析。SIMS技术还允许使用来自不同格式的数据直接进行联合/复合空间分析。例如,用户可以使用一个格式为Arc/Info Coverage的土地利用数据集和一个存储于SDE的行政区划数据集进行叠加
分析,叠加结果可以存储到SQL Server数据库。
经过分析表明,AutoCAD和MicroStation等CAD软件,在打开文件时,把整个文件内容全部读入内存。在这种方式下实现对多种数据格式直接访问的机制比较简单:打开其他格式文件时在内存中进行格式转换,来自无论何种格式的数据源,一律转换为软件自己的格式存储于内存中,所有对数据的修改操作都以自己的格式进行,存盘时再转换为原来的结构。
在以上方式下,数据可以被全部调入内存其操作的前提。一般而言, CAD图件大小有限,有些CAD软件的文件结构本身就限制了数据文件的大小,因此CAD软件可以做到这一点。GIS软件需要处理比CAD图件大得多的地图数据,无法全部读入内存。因此,在GIS软件中实现多源数据直接访问,不能简单地采用内存数据格式转换来解决。
SIMS技术的核心不是分析、破解和转换其他GIS软件的二进制文件格式,SIMS提出了一种内置于GIS软件中的特殊数据访问体系结构。它需要实现不同格式数据的管理、调度、缓存(Cache),并提供不同格式数据之间的互操作能力。
三、SIMS的体系结构
SIMS技术体系是一种紧凑三层结构,包括:数据消费者(Customer)、数据代理(Agency)和数据提供者(Provider)。每一层有明确分工:数据提供者直接访问数据文件或者数据库,并通过数据代理提供给其他模块使用;数据消费者消费和使用数据的模块,通常负责对数据的各种分析、处理和表现;数据代理是维系数据消费者和数据提供者之间的纽带,来自提供者的数据通过代理这个中介传递给消费者,完成一次数据访问(或者数据消费),一次数据消费行为可能产生新的数据(如:迭加分析产生的新图层、缓冲区分析产生的缓冲区多边形等),这些新的数据也是通过代理传递给提供者,由提供者完成存盘动作。
1、数据消费者
数据消费者指GIS软件中使用或者消费数据的部分。它们包括:拓扑处理、地图显示、空间分析、三维表现、专题图制作、数据转换、制图输出等等模块。这些模块使用数据,是数据消费者。
数据消费者不直接与存储数据的文件或者数据库打交道,所有对数据的访问都通过数据代理完成。
2、数据代理
数据代理是联系数据消费者和数据提供者的中介,代理负责把来自提供者的数据传递给消费者使用,并把消费者产生的新数据传递给提供者存储。
SIMS技术中的数据代理是一个虚拟空间数据引擎(Virtual Spatialdata Engine)。该引擎定义了数据访问的框架,但并不实现具体的数据访问功能,因此该引擎是“虚拟”的。
3、数据提供者
数据提供者指直接访问数据文件或者数据库的模块,这些模块获取数据并通过代理提供给消费者使用,并且把传回来的数据存储到文件或数据库。
SIMS提供了访问多种格式数据的能力,对每一种数据格式的访问,最终通过空间数据引擎(Spatialdata Engine)实现。数据提供者由一组空间数据引擎组成,每个引擎负责访问一种数据格式。比如SQL Server引擎访问存储在SQL Server中的空间数据、Oracle引擎访问Oracle Spatial数据库、SDE引擎访问ESRI SDE支持的各种数据库、Arc/Info引擎存取Arc/Info Coverage等等。
为方便引擎的管理和调度,每个引擎具有统一的接口,封装成一个动态连接库—DLL(Dynamic Linking Library)。类似于一些软件的插件(Plug-in或Add-in)机制,引擎DLL存放在特定目录下,程序启动时自动搜索该目录,动态调入并注册。

一般而言,空间数据引擎只提供存储、读取、检索、管理数据和对数据的基本处理等功能,不负责进行空间分析和复杂处理。但是基于第三方API(如:Oracle Spatial和ESRI SDE)开发的引擎可以提供更多功能。
一般而言,空间数据引擎动态连接库的实现有三种方式,即:标准API函数DLL、C++类库DLL和OLE 自动化DLL。由于空间数据引擎结构复杂、函数接口多;标准API函数DLL中的函数缺乏层次性,不便使用,而且不符合面向对象程序设计的潮流,不适合空间数据引擎。OLE自动化DLL中可以实现一系列具有标准接口的二进制对象,对象层次清晰,接口标准,适合建立空间数据引擎。
为了达到更高的数据访问速度,本研究采用了C++类库DLL。但是,使用C++类的DLL只能使用编译连接,无法实现DLL的动态载入。
使用C++的虚函数机制可以较好地解决这个问题。虚拟空间数据引擎也是一个单独的动态连接库,这个动态连接库定义了数据访问需要的所有类,比如数据源(DataSource)或工程(Project)、数据集(Dataset)或图层(Layer)、记录集(Recordset)等,这些类的大部分函数定义为纯虚函数,比如打开工程、关闭工程、创建数据集、读写空间数据、读写属性数据、查询、建立空间索引等等。由于有纯虚函数,因此虚拟空间数据引擎中的数据访问类不可实例化。每个数据引擎动态库继承虚拟空间数据引擎中的类,并且实现所有的虚函数(否则无法实例化)。为了实现C++类库的动态挂接,在每个空间数据引擎中还需要实现一个API函数来创建相应的数据源或者工程。假设虚拟空间数据引擎中的数据源类为CDataSource,该类在SQL Server引擎中的继承类为CSqlDataSource,那么这个API函数可以这样实现:
 
 
CDataSource *CreateDataSource()
{
CSqlDataSource *pDataSource = new CSqlDataSource;
return (CDataSource *)pDataSource;
}
该函数负责创建相应的数据源派生类,主调函数可以在不知道CDataSource的子类名(此例中为CSqlDataSource)的情况下创建该类的实例。其他的类如数据集、记录集等由数据源创建。一旦对象被创建,所有的操作均使用虚基类定义的函数接口进行,但是实际的运行将会自动调用子类的函数。
这种方式可以充分利用C++的优点,如继承,多态、封装等,而且不影响系统响应速度。尽管从概念模型上看,数据提供者总是通过虚拟空间数据引擎(数据代理)传递给消费者,实际上并没有任何多余的内存拷贝和数据转换,所谓的数据传递变成了调用接口的传递,这种传递通过C++类库的虚函数机制实现,不影响效率。因此,SIMS采用的是紧凑三层结构,与Web三层体系不同。
四、SIMS技术在GIS软件开发中的应用
中国科学院地理信息产业发展中心研制的新一代组件式GIS软件—SuperMap 2000采用了SIMS技术。为了适应不同层次应用的需要,SuperMap创造性地实现了以多种方式存储、管理GIS数据。除了支持其他GIS软件的一些文件格式(如:Oracle Spatial和ESRI SDE)外,SuperMap自定义的数据结构也提供了多种方式,包括: Access MDB数据库、SQL Server数据库和OLE复合文档(SuperMap SDB文件)。
这几种存储方式适合于建立不同层次的应用。MDB和SDB数据一般存储在本地、SQL Server、Oracle、SDE数据库一般存放在网络服务器。因此,SuperMap通过SIMS技术进行分析和数据处理时,不仅实现了数据格式无关,而且实现了存储位置无关。
SuperMap 2.0提供的引擎包括:SDB、MDB、SQL Server、Oracle、SDE。其中SDB、MDB、SQL Server使用了SuperMap的内部格式,Oracle、SDE基于相应的API开发工具实现。在以后的版本中,将会逐步提供Arc/Info Coverage、MicroStation DGN、ArcView Shape、AutoCAD DWG等引擎以直接访问其他GIS/CAD软件的数据格式(图2)。

1、SDB引擎
SDB(SuperMap Spatial Database)引擎是SuperMap 2.0中唯一的文件型空间数据引擎。这种引擎采用传统的文件+数据库混合存储方式。SDB引擎的一个数据工程包括两个文件,扩展名为SDB的文件存储空间数据,采用OLE复合文档技术;扩展名为SDD的文件为属性数据库,采用Access 的MDB数据库格式。由于SDB文件采用了复合文档技术,因此提供了在一个SDB工程中存储多个数据集的能力。这一点与Arc/Info Coverage、MapInfo Table文件等技术不同。SDB主要面向中、小型系统和桌面应用,目的在于提高效率,弥补纯数据库引擎在这方面的不足。
2、MDB引擎
MDB引擎是一种纯数据库引擎,采用Access的MDB数据库作为数据存储介质。基于Microsoft的Jet数据引擎实现。MDB引擎把空间数据和非空间数据存储在同一个MDB数据库中,真正实现了空间数据和非空间数据的无缝组织,同时便于维护数据。一个MDB文件中可以存储多个数据集。与SDB一样,MDB引擎面向中小型桌面应用系统,一个MDB的最大空间容量为1G。
3、SQL Server引擎
这是一个基于大型数据库SQL Server的纯关系数据库空间引擎。SuperMap中采用微软提供的开发工具DB Library实现。与SDB、MDB引擎一样,本引擎采用SuperMap自定义的数据结构。SQL Server引擎适合建立大型空间数据应用。
4、Oracle引擎
Oracle也是一种基于纯关系数据库的空间数据引擎。与前三种引擎不同,Oracle引擎的数据结构采用Oracle Spatial的空间数据存储方案。由于Oracle Spatial目前缺乏对TIN、DEM等三维数据存储的支持,功能上受到限制。Oracle引擎适合建立大型空间数据应用。
5、SDE引擎
与Oracle引擎一样,SDE引擎也是一种基于纯关系数据库的空间数据引擎。本引擎采用ESRI的SDE开发工具实现。该引擎中的一些基本数据处理和分析将直接调用SDE本身提供的功能。SDE引擎适合建立大型空间数据应用。
 
七、结论
多源空间数据无缝集成(SIMS)技术具有多格式数据直接访问、格式无关数据集成、位置无关数据集成、多源数据复合分析等特点,有效地解决了不同格式数据资源的综合利用问题;SIMS技术拓展了GIS软件的数据集成能力,提供了多种数据存储方案,增强了单个GIS软件的应用范围。