video
PSG数据分析模式在资源环境审计中的应用研究
辽宁省审计厅资源环境审计处 佟俊才
【摘要】 本文对F省审计机关资源环境审计数据分析模式进行总结和研究,创新提出PSG数据分析模式在资源环境审计中的应用并取得了实践成果。PSG数据分析模式的提出意在将Python语言、SQL语言和GIS系统有机结合起来,加大对财务数据、业务数据和空间数据等各行业数据的采集、挖掘和分析力度,解决空间数据与财务、业务数据单一分析,不能形成合力的问题,最大限度利用现有审计资源,提升审计监督质效。
【关键词】 审计 资源环境 数据分析 GIS
生态兴则文明兴,生态衰则文明衰。党的十八大以来,以习近平同志为核心的党中央高度重视生态文明建设,强调生态文明建设是关系中华民族永续发展的根本大计,要牢固树立和践行绿水青山就是金山银山的理念。审计是党和国家监督体系的重要组成部分,是推动国家治理体系和治理能力现代化的重要力量,特别在生态文明建设方面,审计机关依法对党政主要领导干部履行自然资源资产管理和生态环境保护责任情况进行了审计,将“经济体检”与“生态体检”充分融合,促进了各级领导干部牢固树立正确的生态观、发展观和政绩观。
随着F省委审计委员会《关于建立健全领导干部自然资源资产离任审计评价指标体系的实施意见(试行)》的印发,省委审计委对领导干部自然资源资产离任审计提出了新的要求,资源环境审计也要适应新时代审计工作的定位,聚焦主责主业,告别传统的“单打独斗”,大力推进数字化审计,利用信息技术和数字资源实现跨层级、跨地域、跨系统、跨部门、跨业务的综合分析,增强资源环境审计工作的整体性、协同性和系统性。本文对F省在资源环境审计中的数据分析模式进行总结和研究,创新提出PSG数据分析模式在资源环境审计中的应用,并以A市领导干部自然资源资产离任审计项目的数据分析成果作为展示,通过对Python语言、SQL语言和GIS系统的综合应用,实现对被审计对象的空间位置、网络信息、工商信息、财政支付等多维度的关联分析,进而提升数据分析工作的质量和效率。
一、资源环境审计数据分析的应用现状
从2015年领导干部自然资源资产离任审计试点工作开展至今,各地审计机关通过组建数据分析团队、建设数字化审计平台、购买企业服务、与高校或测绘部门签订合作协议等多种形式积极开展数据分析工作,不仅从空间层面直观反映自然资源资产管理使用情况,还关注其经济活动的真实性和合法性,增强了对被审计对象整体性和相关性的分析,进一步实现了审计全覆盖。
现行数据分析模式主要有两种:一种是利用SQL结构化查询语言开展的结构化数据分析,是审计人员常用的数据分析模式,应用软件和分析思路相对成熟,各地审计机关也建立了具有自身特色的数据化审计平台和云平台,大部分的数据分析方法和模型都是基于结构化数据而形成的。该模式主要是利用SQL结构化查询语言在Microsoft SQL Server、Oracle、神舟通用等数据库软件中对二维表进行关联、计算、对比、聚类等分析,主要应用包括国库集中支付数据分析、医疗保障数据分析、社会保障数据分析、工商管理数据分析等(详见图1)。
图1 结构化数据分析
另一种是利用地理信息技术开展的空间数据分析,该种模式是随着资源环境审计的开展才逐渐被审计人员广泛应用,各地审计机关通过政府购买服务、与高校或测绘部门签订合作协议等方式加深了对空间数据的挖掘和分析力度。该模式主要是利用地理信息技术(3S技术)在ArcGIS、MapGIS等软件中对空间物体的几何大小、形态、位置等数据进行分析,主要应用包括违规占用耕地、基本农田划定不合规、越界开采矿产资源等(详见图2)。
图2 空间数据分析
结构化数据与空间数据由于涉及领域不同,数据结构不同,分析方法不同,应用软件不同,使用人员专业不同,导致结构化数据与空间数据难以进行关联分析。虽然GIS软件与结构化数据库可以通过接口连接进行访问,但是由于空间数据分析结果一般表现为图斑或坐标点的集合(图2),结构化数据库难以对其进行关联分析。
二、PSG数据分析模式的研究意义
(一)PSG数据分析模式的概念描述
PSG(Python&SQL&GIS)数据分析模式是由Python编程语言实现SQL查询语言与GIS地理信息系统相互关联,进而实现结构化数据与空间数据关联分析,适用于审计人员在资源环境领域数据分析的一种全新模式。
PSG数据分析模式的定义虽然简单,但是该模式克服了结构化数据与空间数据的难以关联分析的问题,通过利用Python强大的编程能力和丰富的标准库建立结构化数据与空间数据的关联,进而实现数据分析的功能。即利用编程语言实现空间数据图层叠加与工商数据、国库集中支付数据、社会保障数据等关系型数据库查询的关联分析。
PSG模式的应用克服了土地利用现状数据、国土空间规划等“空间数据”与国库集中支付数据、工商登记数据、社会保障数据等“结构化数据”的结构束缚,使两者有机地结合起来,加大了对财务数据、业务数据和空间数据等各行业数据挖掘和分析力度,解决了空间数据与财务、业务数据单一分析,形成不了合力的问题,实现了跨层级、跨地域、跨系统、跨部门、跨业务的综合分析。
Python计算机编程语言是一种面向对象的解释型高级编程语言,也是一种功能强大而完善的通用型语言,该语言具有简洁性、可扩展性、可读性高、免费开源等特点,适合非计算机专业的审计人员学习,审计案例中的经常接触到的网络“爬虫”,高频词汇检索,词云分析,语义分析等功能都是通过Python语言的标准库进行编辑实现的。
SQL结构化查询语言(Structured Query Language)是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。SQL语言是审计署计算机审计中级培训的重要课程之一,也是审计机关开展数据分析的重要工具。现阶段主流的数据库软件有Microsoft SQL Server、Oracle、MySQL和神舟通用数据库,其中现场审计实施系统(AO)的后台数据库软件为Microsoft SQL Server。
GIS地理信息系统(Geographic Information System)是对地球表层空间中的有关地理分布数据进行采集、储存、管理、运算、分析和显示地理数据的计算机系统,主要是对空间信息进行分析和处理。现阶段我国自然资源、水利、林业和草原、住房和城乡建设、测绘等部门的业务数据大部分是利用地理信息系统(GIS)进行管理,因此熟练运用GIS开展资源环境审计是审计人员的必备技能,也是“PSG”数据分析模式的核心。现阶段主流的GIS软件有ArcGIS和MapGIS。
(二)PSG数据分析模式的产生
本人从2016年领导干部自然资源资产离任审计试点开始,就不断探索利用地理信息技术、Python语言、SQL语言开展资源环境审计,经过多年的数据分析和审计实践,形成了完整且成熟的数据分析模式,分为三个阶段。
第一阶段以“G”模式(GIS)为主,该阶段从2016年领导干部自然资源资产离任审计试点开始到2018年《领导干部自然资源资产离任审计规定(试行)》的实行为止。该阶段审计机关通过采集自然资源部门、林业部门、环保部门、测绘部门、水利部门等单位的业务数据,利用地理信息技术(3S技术)开展数据分析,审查基本农田、林地、草原、耕地等自然资源被侵占破坏的情况,采集到的空间数据资源在GB级,主要是应用ArcGIS软件进行图层叠加分析,产生疑点线索图斑,对问题图斑进行现场核实和计算。该模式适用于空间数据量较小,行政区域面积为县(区)级的审计项目,对审计人员编程能力要求较弱,审计人员主要利用图形化界面开展数据分析。
第二阶段以“SG”模式(SQL&GIS)为主,该阶段以2018年以后的党政主要领导干部自然资源资产离任审计项目和部分市、县的自然资源与生态环境审计项目为主。随着资源环境审计的不断深入,传统的ArcGIS图层叠加分析已经不能适应审计项目的深度和广度,需要将地理信息技术分析的疑点线索与财政资金使用方向相结合,进而发现自然资源被侵占破坏后涉及的深层利益。该模式采集到的数据资源在TB级,主要是通过ArcGIS软件进行空间数据分析生成问题图斑,审计人员对问题图斑进行现场勘查,根据现场勘查的结果利用省审计厅数字化审计平台查询相关人员、单位、企业、财政资金等信息。该模式适用于空间数据和结构化数据相对完整,行政区域面积为地市级的审计项目,审计人员需要具备熟练操作SQL语言和GIS软件的能力。
第三阶段以“PSG”模式(Python&SQL&GIS)为主,该阶段以党政主要领导干部自然资源资产离任审计项目和全省统一组织开展的自然资源与生态环境审计项目为主。随着全省统一组织的自然资源与生态环境审计项目的开展,加强了对全省数据资源的统筹运用,同时资源环境审计也需要考虑财政财务收支的真实合法效益,因此对数据分析工作的要求更加数字化、批量化和标准化,审计人员也从“SG”模式的“分析—现场—分析”转变为“PSG”模式的“分析—现场”,即审计人员在现场勘查时就掌握了该问题地块涉及的工商登记、财政补助资金、土地使用权等信息,节省了“SG”模型下现场勘查后查询相关信息的过程和时间。该模式采集到的数据资源在10TB级,适用于数据资源完整,行政区域面积为省级的审计项目,审计人员需要具备熟练掌握Python语言、SQL语言和ArcGIS软件的能力。
通过对资源环境审计数据分析三个阶段的总结,“PSG”数据分析模式是资源环境审计项目数据分析的新方向,也是现阶段省级资源环境审计的必然要求。
三、PSG数据分析模式在审计实践中的应用
(一)案例背景。
A市位于F省中西部,地理位置优越,交通运输便利,地势开阔平展,主要地形为平原,特别是具有河流冲积平原,土壤肥沃,为农业生产提供了得天独厚的自然条件。A市主要领导干部在任期内以建设“农业特色小镇”为主要载体,依托特色旅游乡镇和国家5A级旅游景区的优势,大力发展现代农业设施建设。
省审计组在开展A市领导干部自然资源资产离任审计项目时,创新运用PSG数据分析模式,利用Python、SQL Server、ArcGIS、奥维地图等工具和编程语言,结合网络资源和厅机关数据资源,紧紧围绕A 市在耕地保护、永久基本农田保护等方面的主要工作来开展审计。
(二)空间数据分析。
在A市领导干部自然资源资产离任审计项目中,审计组的数据分析团队利用Python的地理分析模块中对A市的永久基本农田数据库,土地利用总体规划数据库,土地利用现状数据库进行空间数据整理和分析。
数据分析结果显示,问题图斑B占用永久基本农田3X.XX公顷(见图3)。同时,该问题图斑B也占用A市禁止建设区4X.XX公顷(见图3)。
图3 黑色斜线区域为问题图斑B,左侧为占用永久基本农田,右侧为占用禁止建设区
审计人员将问题图斑B叠加历年卫星遥感影像发现,该问题图斑疑似大型游乐设施,大约从201X年开始建设,202X年完成建设。201X年至20XX年遥感影像情况详见图4和图5。
图4 问题图斑年度变化情况
图5 问题图斑年度变化情况
(三)空间数据分析成果穿透。
审计人员通过编写Python语言来将问题图斑B与政务资源数据、高德地图和百度地图的Web服务API接口进行交互操作,实现批量的坐标转换和结果标准化。通过对查询结果梳理发现,该问题地块的地面至少存在4家公司(以下简称“JTL公司”),分别为“F省JTL农业科技有限公司”“A市JTL文化生态园”“JTL度假村”和“A市JTL酒店”(详见图6)。
图6 查询结果
(四)结构化数据分析。
审计组利用Python语言将政务服务数据和Web服务返回的数据结果(JSON格式)导入到SQL Server中进行查询,通过工商信息数据库查询发现,4家JTL公司的注册地址均集中在“F省A市GC街道GCJC村XXX号”,并生成了可视化的关系图谱(详见图7)。
图7 可视化关系图谱
通过财政支付数据库查询发现,201X年至202X年之间,省、市、县三级政府部门向4家JTL公司合计支付1XXX.XX万元,其中省级财政支付0.X万元,用款单位为省H部门,用途为购买农产品;市级财政支付7XX.XX万元,用款单位为A市农业农村局,用途为奖励扶持资金、建设补助;县级财政支付4XX.XX万元,用款单位为A市B县发展和改革局、A市B县经济和信息化局、A市B县农业农村局等单位,用途为科技三项、景区建设补贴款、扶持补贴资金、建设项目补助等(详见图8)。
图8 国库集中支付数据
审计组利用Python语言对A市指标文件和会议纪要进行词云分析,输入JTL等4家公司的关键词进行搜索发现,201X年根据第X期市长办公会议精神,向“F省JTL农业科技有限公司”进行建设补助4XX.XX万元;201X年根据A市农业示范区建设领导小组办公室申请,经市政府主要领导批示同意,向“F省JTL农业科技有限公司”发放奖励扶持资金3XX.XX万元。
审计组利用Python语言在互联网进行模糊搜索发现,该4家JTL公司所在地曾经举办过A市冬季冰雪大世界,新闻通告为“F省JTL农业科技有限公司投资建设的集采摘、餐饮、儿童游乐、乡村休闲为一体的农业特色小镇,占地面积4X.XX公顷,主要有动物观赏区、儿童乐园、水上乐园、农家乐休闲广场综合体验区、大型会议接待及集装箱住宿等项目”。在携X网、艺X网、大XX评网等主流在线旅游服务网站中都有“A市JTL酒店”的客房预订服务和相关旅游项目的预订服务。
(五)PSG模式下数据分析成果。
审计组在审计前期通过PSG模式利用厅机关数据资源和网络资源对A市的重点领域进行深入分析,在未到达审计现场的情况下就形成了主要关注的问题线索。在进入审计现场后,审计组第一时间到A市政府办公室、A市自然资源局、A市农业农村局、A市B县的相关部门及问题图斑B现场等地进行现场审计和勘查。综合数据分析成果、现场勘查结果,调阅了相关文件及会议纪要等,审计组发现,4家JTL公司在未取得国有土地使用证、未在县级以上国土资源主管部门备案、未获得相关手续审批的情况下,仅与当地GC街道签订土地租赁协议后,在201X年擅自开工建设集采摘、餐饮、游乐、酒店为一体的休闲观光度假场所,违规占用永久基本农田3X.XX公顷,违规占用A市禁止建设区4X.XX公顷。同时,201X年至202X年之间,A市各级政府部门向4家JTL公司合计支付1XXX.XX万元,用于奖励扶持资金、建设补助、景区建设补贴款等。
四、PSG数据分析模式的思考
(一)PSG数据分析模式的应用将提升数据资源的利用效率,缩短现场审计时间。
PSG数据分析模式充分运用了数字化审计方式,实现了技术、业务与数据的融合,加强了对现有审计资源和网络资源的统筹,避免了传统审计项目中单一利用Python语言进行爬虫分析或利用SQL语言进行查询分析或利用GIS软件进行图层分析,而是将Python语言、SQL语言、GIS系统进行有机结合,加大对自然资源领域内财务数据、业务数据和空间数据的收集、挖掘和分析的力度,在海量的数据资源中迅速锁定疑点线索,从数据分析到现场核实,从疑点线索到审计取证,全过程用时不到一周,大幅缩短了审计的现场时间。
(二)PSG数据分析模式的应用效果受制于数据资源的准确性和完整性。
PSG数据分析模式的关联分析主要是依靠完整的数据资源和丰富的接口服务,因此在审计前期应对自然资源、国库集中支付、社会保障、工商登记等数据资源进行标准化处理,才能保障分析结果的准确性和分析过程的便利性。在数据的准确性和完整性缺乏保障的情况下,在对空间数据与结构化数据进行穿透时,无法保证返回数据的真实性,该模式就难以达到理想的效果。