文档章节

Geohash精度和原理

o
 osc_g8254g7s
发布于 2019/08/19 23:23
字数 2641
阅读 29
收藏 0

精选30+云产品,助力企业轻松上云!>>>

转自:https://blog.csdn.net/u011497262/article/details/81210634

   https://www.jianshu.com/p/1ecf03293b9a

 geohash基本原理是将地球理解为一个二维平面,将平面递归分解成更小的子块,每个子块在一定经纬度范围内拥有相同的编码,这种方式简单粗暴,可以满足对小规模的数据进行经纬度的检索

目录:

  • 经纬度常识
  • 认识geohash
  • geohash算法
  • geohash原理
  • 对照表

经纬度常识


  • 经线是纵的,经度是横的,用于表示不同的经线,纬线是横的,纬度是纵的,用于表示不同的纬线,如下图
  •    
  • 纬线:地球仪上的横线,lat,赤道是最大的纬线,从赤道开始分为北纬和南纬,都是0-90°,纬线是角度数值,并不是米;
  • 经线:地球仪上的竖线,lng,子午线为0°,分为西经和东经,都是0-180°,经线也是角度数值;
  • 经纬线和米的换算:经度或者纬度0.00001度,约等于1米,这个在GPS测算距离的时候可以体会到,GPS只要精确到小数点后五位,就是10米范围内的精度
  • 经度0度的位置为本初子午线,在180度的位置转为西经,数字由大到小依次经过北美洲到达西欧.纬度0度的位置为赤道
  • 为了便于理解,将地球看成一个基于经纬度线的坐标系。纬线就是平行于赤道平面的那些平面的周线,经线就是连接南北两极的大圆线的半圆弧。纬度分为北纬(正),南纬(负),赤道所在的纬度值为0。经度以本初子午线界(本初子午线经度为0),分为东经(正),西经(负)。故纬度范围可表示为[-90o, 0o),(0o, 90o],经度范围可表示为[-180o, 0o),(0o, 180o]
  • 将经度和纬度看成二维坐标系中的两个纬度,横轴表示经度,纵轴表示纬度,如上图

认识geohash


  • GeoHash将二维的经纬度转换成字符串,比如下图展示了北京9个区域的GeoHash字符串,分别是WX4ER,WX4G2、WX4G3等等,每一个字符串代表了某一矩形区域。也就是说,这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,这样既可以保护隐私(只表示大概区域位置而不是具体的点),又比较容易做缓存。
  • 不同的编码长度,表示不同的范围区间,字符串越长,表示的范围越精确
  • 字符串相似的表示距离相近(特殊情况后文阐述),这样可以利用字符串的前缀匹配来查询附近的POI信息。如下两个图所示,一个在城区,一个在郊区,城区的GeoHash字符串之间比较相似,郊区的字符串之间也比较相似,而城区和郊区的GeoHash字符串相似程度要低些
  • 总结:GeoHash就是一种将经纬度转换成字符串的方法,并且使得在大部分情况下,字符串前缀匹配越多的距离越近

geohash算法


    以经纬度值:(116.389550, 39.928167)进行算法说明,对纬度39.928167进行逼近编码 (地球纬度区间是[-90,90])

  1. 区间[-90,90]进行二分为[-90,0),[0,90],称为左右区间,可以确定39.928167属于右区间[0,90],给标记为1
  2. 接着将区间[0,90]进行二分为 [0,45),[45,90],可以确定39.928167属于左区间 [0,45),给标记为0
  3. 递归上述过程39.928167总是属于某个区间[a,b]。随着每次迭代区间[a,b]总在缩小,并越来越逼近39.928167
  4. 如果给定的纬度x(39.928167)属于左区间,则记录0,如果属于右区间则记录1,序列的长度跟给定的区间划分次数有关,如下图
  • 同理,地球经度区间是[-180,180],可以对经度116.389550进行编码
  • 通过上述计算,纬度产生的编码为1 1 0 1 0 0 1 0 1 1 0 0 0 1 0,经度产生的编码为1 0 1 1 1 0 0 0 1 1 0 0 0 1 1
  • 合并:偶数位放经度,奇数位放纬度,把2串编码组合生成新串如下图:
  • 首先将11100 11101 00100 01111 0000  01101转成十进制,对应着28、29、4、15,0,13 十进制对应的base32编码就是wx4g0e,如下图
  • Ø同理,将编码转换成经纬度的解码算法与之相反

 geohash原理


  • Geohash其实就是将整个地图或者某个分割所得的区域进行一次划分,由于采用的是base32编码方式,即Geohash中的每一个字母或者数字(如wx4g0e中的w)都是由5bits组成(2^5 = 32,base32),这5bits可以有32中不同的组合(0~31),这样我们可以将整个地图区域分为32个区域,通过00000 ~ 11111来标识这32个区域。第一次对地图划分后的情况如下图所示(每个区域中的编号对应于该区域所对应的编码):

  • Geohash的0、1串序列是经度0、1序列和纬度0、1序列中的数字交替进行排列的,偶数位对应的序列为经度序列,奇数位对应的序列为纬度序列,在进行第一次划分时,Geohash0、1序列中的前5个bits(11100),那么这5bits中有3bits是表示经度,2bits表示纬度,所以第一次划分时,是将经度划分成8个区段(2^3 = 8),将纬度划分为4个区段(2^2 = 4),这样就形成了32个区域。如下图

  •  

  • 同理,可以按照第一次划分所采用的方式对第一次划分所得的32个区域各自再次划分. 

对照表


  • 5.  GeoHash缺陷

            上文讲了GeoHash的计算步骤,仅仅说明是什么而没有说明为什么?为什么分别给经度和维度编码?为什么需要将经纬度两串编码交叉组合成一串编码?本节试图回答这一问题。

            如图所示,我们将二进制编码的结果填写到空间中,当将空间划分为四块时候,编码的顺序分别是左下角00,左上角01,右下脚10,右上角11,也就是类似于Z的曲线,当我们递归的将各个块分解成更小的子块时,编码的顺序是自相似的(分形),每一个子快也形成Z曲线,这种类型的曲线被称为Peano空间填充曲线。

            这种类型的空间填充曲线的优点是将二维空间转换成一维曲线(事实上是分形维),对大部分而言,编码相似的距离也相近,但Peano空间填充曲线最大的缺点就是突变性,有些编码相邻但距离却相差很远,比如0111与1000,编码是相邻的,但距离相差很大。

     
     

            除Peano空间填充曲线外,还有很多空间填充曲线,如图所示,其中效果公认较好是Hilbert空间填充曲线,相较于Peano曲线而言,Hilbert曲线没有较大的突变。但是由于Peano曲线实现更加简单,在使用的时候配合一定的解决手段,可以很好的满足大部分需求,因此TD内部Geohash算法采用的是Peano空间填充曲线。

     
     

    6. 使用注意点

        a. 由于GeoHash是将区域划分为一个个规则矩形,并对每个矩形进行编码,这样在查询附近POI信息时会导致以下问题,比如红色的点是我们的位置,绿色的两个点分别是附近的两个餐馆,但是在查询的时候会发现距离较远餐馆的GeoHash编码与我们一样(因为在同一个GeoHash区域块上),而较近餐馆的GeoHash编码与我们不一致。这个问题往往产生在边界处。

     
     

            解决的思路很简单,我们查询时,除了使用定位点的GeoHash编码进行匹配外,还使用周围8个区域的GeoHash编码,这样可以避免这个问题。

        b. 我们已经知道现有的GeoHash算法使用的是Peano空间填充曲线,这种曲线会产生突变,造成了编码虽然相似但距离可能相差很大的问题,因此在查询附近餐馆时候,首先筛选GeoHash编码相似的POI点,然后进行实际距离计算。

        c. GeoHash Base32编码长度与精度。可以看出,当geohash base32编码长度为8时,精度在19米左右,而当编码长度为9时,精度在2米左右,编码长度需要根据数据情况进行选择。

     
     

    7. 计算围栏内所有Geohash

            理解了geohash算法的基本原理之后,本节将介绍一个实际应用中常见的场景:计算围栏范围内所有的Geohash编码。该场景封装为函数可以表示如下:输入组成围栏的点经纬度坐标集合和指定的geohash长度,输出一组geohash编码。

            public static Set getHashByFence(List points, int length)

            具体算法步骤如下:

    1. 输入围栏点坐标集合List points和指定的geohash长度length

    2. 计算围栏的外包矩形的左上角和右下角坐标lat_min、lat_max、lng_min、lng_max

    3. 根据lat_min、lat_max、lng_min、lng_max,计算外包矩形对角定点的距离d

    4. 以外包矩形中心点为圆心,以d/2为半径做一个圆,计算圆覆盖范围内的geohash

        4.1 获取圆的外包矩形左上角和右下角定点坐标经纬度,存储到double[] locs

        4.2 根据geohash字符长度计算该长度geohash编码对应的经纬度间隔(latA,lngA)

        4.3 根据latA和lngA,计算出locs组成的矩形的左上角和右下角定点的经纬度,在geohash划分的网格的索引(也就是第几个),分别记为lat_min,lat_max,lng_min,lng_max

        4.4 计算lat_min,lat_max,lng_min,lng_max对应范围内左右geohash的二进制编码,然后将经纬度二进制编码uncode为geohash字符编码,保存为Set sets

    5. 剔除sets中geohash编码对应矩形的中心点不在points围栏范围内的geohash,得到最终的geohash结果集



o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
基于Ardb/Redis构建基于位置实时服务

Ardb早在半年前的0.7.0版本就已经具备了二维空间数据的存储/查询的能力;基于此能力,可以构建基于位置实时服务, 比如实时查找附近的地理位置,附近的人等LBS类型服务。以下介绍Ardb中空间索...

yinqiwen
2014/09/30
2.1K
2
空间索引 - GeoHash算法及其实现优化

前言 上篇博客中提到了空间索引的用途和多种数据库对空间索引的支持情况,那么在应用层以下,好学的小伙伴应该会考虑空间索引的实现原理了。 目前空间索引的实现有 R树和其变种GIST树、四叉树...

枕边书
2018/01/26
0
0
redis 3.2 新功能 —— GEO 地理位置命令介绍

redis3.2发布rc版本已经有一段时间了,估计RedisConf 2016左右,3.2版本就能release了。3.2版本中增加的最大功能就是对GEO(地理位置)的支持。说起redis的GEO特性,最大的贡献还是咱们中国人...

两味真火
2016/09/18
6.9K
22
Geohash编码原理解析(附代码)

本文最后修改于2018-03-26,文章有问题或者转载请及时联系本人,如果对你有帮助,别忘了点下关注和喜欢,感谢! 本文文字内容,图片参考整理自:http://www.cnblogs.com/LBSer/p/3310455.ht...

weijian6608
2018/03/26
0
0
redis3.2新功能--GEO地理位置命令介绍

一、概述 redis3.2发布rc版本已经有一段时间了,估计RedisConf 2016左右,3.2版本就能release了。3.2版本中增加的最大功能就是对GEO(地理位置)的支持。说起redis的GEO特性,最大的贡献还是...

IT--小哥
2018/07/19
113
0

没有更多内容

加载失败,请刷新页面

加载更多

Java知识回顾-基础知识(1)

面向对象和面向过程的区别 1 面向过程性能较高(面向过程语言大多是直接编译成计算机可读的机械码可直接运行) 2 面向对象易维护,易复用,易扩展(因为有封装,继承,多态可设计低耦合系统),面向对...

心田已荒
24分钟前
11
0
Vimium不使用鼠标离开地址栏的方法

使用chrome 的 Vimium 扩展也有很长一段时间了,最大的好处是可以在浏览器使用 vim 下的热键,告别鼠标和触控板也能愉快玩耍。 虽然大部分时间都使用cmd+O打开 URL或者历史,但有时候还是要用...

FalconChen
28分钟前
23
0
数据库周刊31丨openGauss 正式开源;7月数据库排行榜发布;PG解决社保问题;mysqlbinlog解析……

摘要:墨天轮数据库周刊第31期发布啦,每周1次推送本周数据库相关热门资讯、精选文章、干货文档。本周分享 华为openGauss 正式开源;7月数据库排行榜发布;浙江移动国产数据库AntDB迁移;抢鲜...

墨天轮小助手
31分钟前
6
0
婚礼行业小程序新玩法

现在婚礼行业越来越吃香,随之而来的婚庆公司、个人工作室都涌入市场。消费者可选择的越来越多,货比三家。婚礼公司都在绞尽脑汁加大推广力度,做各种优惠活动,来吸引消费者,提升销量。今天...

LOVEer1
33分钟前
9
0
Linux Ubuntu 14 Audit 系统审计服务

一、概述 系统等保要求,必须做系统审计服务,审计的目的是基于事先配置的规则生成日志,记录可能发生在系统上的事件,这里直接使用第三方插件 Audit,不用系统自带的审计服务日志。 (如需要...

华山猛男
43分钟前
22
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部