一种基于GPS大数据的旅游流数据分析方法
摘要文本
本发明涉及旅游流技术领域,具体地说是一种基于GPS大数据的旅游流数据分析方法,包括发明方法和数据来源与处理。发明方法包括回归分析、GIS空间分析、旅游流节点‑廊道网络构建方法和基于最优参数的地理探测器(OPGD)分析,发明数据来源与处理包括数据来源和数据处理,发明数据来源包括GPS轨迹数据和其他数据,数据处理包括数据有效性验证和数据预处理。本发明同现有技术相比,本发明依托旅游者GPS轨迹数据刻画旅游流空间格局和GIS工具,可以系统分析旅游流空间分布的集疏特征与冷热点区域,从自然与人文视角切入,提取自然地理、社会经济、旅游资源、旅游服务维度的关键影响因子,运用基于最优参数的地理探测器模型,深入探讨各要素对旅游流空间异质性的影响机理,为旅游高质量发展提供科学依据。 来源:马 克 团 队
申请人信息
- 申请人:中国科学院地理科学与资源研究所; 北京交通大学
- 申请人地址:100101 北京市朝阳区大屯路甲11号
- 发明人: 中国科学院地理科学与资源研究所; 北京交通大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于GPS大数据的旅游流数据分析方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311183224.6 |
| 申请日 | 2023/9/13 |
| 公告号 | CN117454319A |
| 公开日 | 2024/1/26 |
| IPC主分类号 | G06F18/27 |
| 权利人 | 中国科学院地理科学与资源研究所; 北京交通大学 |
| 发明人 | 王甫园; 张之羽; 邓栊涛 |
| 地址 | 北京市朝阳区大屯路甲11号; 北京市海淀区西直门外上园村3号 |
专利主权项内容
1.一种基于GPS大数据的旅游流数据分析方法,其特征在于,包括研究方法和数据来源与处理,以及空间可视化应用的系统化技术路径;所述研究方法包括回归分析、GIS空间分析、旅游流节点-廊道网络构建方法和基于最优参数的地理探测器OPGD分析;所述回归分析为:利用Zipf回归衡量城市旅游流规模的均衡性,公式为:P=AR (1)ii-α对公式1两边取自然对数可得:lnP=-αlnR+A (2)ii所述Ri为第i个城市的位序,所述Pi为第i个城市的旅游流规模,所述A和所述α是常数;所述α为城市旅游流规模分布的Pareto指数,用来衡量规模分布的均衡程度;以α=1为基准,α<1表明城市旅游流规模分布较为分散,即低位序的城市发育更加突出,大城市发育不够;反之,α>1说明城市旅游流规模分布更加集中,即高位序的城市更加突出,中小城市发育不够;所述GIS空间分析为:采用叠加显示、标准差椭圆、缓冲区分析研究不同要素与旅游流的空间分布特征;采用核密度分析探究旅游流空间结构的集疏特征;采用冷热点分析提取旅游流的空间热点,采用空间自相关分析即莫兰指数研究旅游流的关联特征;所述核密度分析具体为:刻画地区GPS旅游轨迹的空间集散特征,初步判断旅游流空间分布的集聚或离散态势,计算公式如下:所述f(j)是点j的密度,所述r表示搜索半径,所述d为点i到点j的距离,所述k为d的权重;ijij所述空间自相关分析为:使用全局莫兰指数即Global Moran′s I和局部莫兰指数即Local Moran′s I测度旅游流的全局和局部自相关性,确定旅游流的整体空间集聚特征,以及旅游流集聚和离散的具体空间位置,计算公式为:所述n为空间单元数量,所述xi、xj为空间单元i和j旅游流GPS轨迹的观测值均值,i≠j,所述为全部空间单元旅游流强度的均值,所述w为空间权重矩阵,所述S为旅游流强度的方差;所述Moran′s I的取值范围为[-1, 1],若取值大于0且显著,说明存在正的空间自相关;ij2所述冷热点分析为:使用Getis-Ord Gi*方法来识别GPS旅游轨迹的局部空间集聚区域,热点区表示旅游流的高值集聚区,冷点区表示旅游流的低值集聚区,计算公式为:所述x是空间单元j旅游流GPS轨迹的观测值均值,w是空间单元i和j之间的空间权重,n为空间单元数量;最终计算得出的值即为z得分;置信水平即confidence level较高的条件下时,z值为正且较大时,为高值集聚区即热点,反之为低值集聚区即冷点;ji, j旅游流节点-廊道网络构建方法为:将旅游流空间格局拆分为节点和廊道两个部分;其中,节点表示在旅游流中具有较丰富的旅游资源和较大旅游吸引力的点;廊道表示不同节点之间的主要空间通道;对于节点的构建,采用冷热点分析对全域GPS轨迹数据进行识别,选取置信度95%以上的区域,结合地区热门旅游城市点即地级、县级政府驻地,以及景区选取主要旅游节点;将节点的缓冲区内路径点总数作为该节点的旅游强度;对于廊道的构建则采用多元聚类方法,利用非监督的机器学习方法根据要素属性值查找要素的非空间自然聚类;选定聚类属性为各点代表的轨迹点数量,聚类方法为K均值;确定合适的聚类数量,将聚类后的数据按照所代表轨迹点数量从少到多重编为1-n级,去掉轨迹点数量较少的等级,直到得到较为清晰的旅游流网络栅格;根据已提取的旅游流节点,将聚类结果产生的网络转为矢量线并进行修正使其平滑、联通;对于连接A、B两节点的该廊道,其旅游流强度T的计算方法为:AB其中,R1,R2,……Rn为与该廊道空间相交的各栅格所代表的聚类等级;等级越高,其所代表的轨迹点数量越多,旅游流强度越高;所述基于最优参数的地理探测器(OPGD)分析:运用基于最优参数的地理探测器的因子探测模块分析被解释变量与解释变量的空间关系,判断解释变量对被解释变量的解释力,即影响程度,其计算公式为:所述L为自变量和因变量的分层或分区,所述N和N分别表示第h层和全区的单元数,σ和σ2分别为第h层和全区的Y值的方差,所述q为统计量,取值范围为[0, 1],q值越大表示因子的解释力越强;h2h其次,运用地理探测器的交互作用探测模块识别旅游流不同影响因素之间的相互作用,判断不同因子共同作用时是否会影响对因变量的解释力;基于交互探测的结果,进一步采用交互作用变异比指数IEVR进行量化分析,其公式为:所述xi、xj代表第i、j个影响因子;所述q(xi)、q(xj)代表第i、j个影响因子的q值;所述n代表影响因子的总数;IEVR的值用于衡量某自变量的交互效应与个体效应的平均变异比,IEVR>0代表该自变量的交互效应较个体效应增强,其值越大越明显,反之亦然;所述数据来源与处理包括数据来源和数据处理;所述数据来源包括GPS轨迹数据和其他数据,所述GPS轨迹数据来源于抓取各网站用户上传的轨迹数据,所述其他数据包括空间地理数据和统计数据,所述空间地理数据包括栅格地理数据和矢量地理数据,所述统计数据来源于政府网站,具体包括自然地理条件,人口经济情况,基础设施建设和旅游发展潜力;所述数据处理包括:数据有效性验证:将所述研究方法中获得的数据与所述GPS轨迹数据和其他数据进行核密度分析,计算两套数据核密度的统计量与栅格相关性;数据预处理:采用两种尺度进行空间分析:网格尺度和行政区尺度;所述网格尺度能够较为精细地反映旅游流的空间分异,有利于冷热点与节点-廊道的识别;所述行政区尺度能够与社会经济指标相结合,反映各城市的旅游流强度及其影响因素;针对这两种尺度,首先对GPS轨迹栅格数据进行预处理:A、以均匀网格为单位的旅游流强度计算:利用ArcGIS的渔网工具将旅游地区划分均匀网格,通过统计每个网格中GPS轨迹栅格所代表的路径点个数作为该网格的旅游流强度,得到旅游地区全域分辨率的旅游流均匀网格;B、以行政区为单位的旅游流强度计算:对于具有特定形状的行政区域,采用以下公式对该行政区即市、州、县的旅游流强度进行计算:所述I为该行政区的旅游流强度,所述j为该行政区范围内GPS轨迹栅格的个数,所述nj为该行政区范围内每个GPS轨迹栅格的值即该栅格范围内路径点的数量,所述S为GPS轨迹栅格的单位面积。