文档章节

golang: 常用数据类型底层结构分析

陈亦
 陈亦
发布于 2014/01/29 20:09
字数 2286
阅读 13308
收藏 30

虽然golang是用C实现的,并且被称为下一代的C语言,但是golang跟C的差别还是很大的。它定义了一套很丰富的数据类型及数据结构,这些类型和结构或者是直接映射为C的数据类型,或者是用C struct来实现。了解golang的数据类型和数据结构的底层实现,将有助于我们更好的理解golang并写出质量更好的代码。

基础类型

源码在:$GOROOT/src/pkg/runtime/runtime.h 。我们先来看下基础类型:

/*
 * basic types
 */
typedef signed char             int8;
typedef unsigned char           uint8;
typedef signed short            int16;
typedef unsigned short          uint16;
typedef signed int              int32;
typedef unsigned int            uint32;
typedef signed long long int    int64;
typedef unsigned long long int  uint64;
typedef float                   float32;
typedef double                  float64;

#ifdef _64BIT
typedef uint64          uintptr;
typedef int64           intptr;
typedef int64           intgo; // Go's int
typedef uint64          uintgo; // Go's uint
#else
typedef uint32          uintptr;
typedef int32           intptr;
typedef int32           intgo; // Go's int
typedef uint32          uintgo; // Go's uint
#endif

/*
 * defined types
 */
typedef	uint8			bool;
typedef	uint8			byte;

int8、uint8、int16、uint16、int32、uint32、int64、uint64、float32、float64分别对应于C的类型,这个只要有C基础就很容易看得出来。uintptr和intptr是无符号和有符号的指针类型,并且确保在64位平台上是8个字节,在32位平台上是4个字节,uintptr主要用于golang中的指针运算。而intgo和uintgo之所以不命名为int和uint,是因为int在C中是类型名,想必uintgo是为了跟intgo的命名对应吧。intgo和uintgo对应golang中的int和uint。从定义可以看出int和uint是可变大小类型的,在64位平台上占8个字节,在32位平台上占4个字节。所以如果有明确的要求,应该选择int32、int64或uint32、uint64。byte类型的底层类型是uint8。可以看下测试:

package main

import (
        "fmt"
        "reflect"
)

func main() {
        var b byte = 'D'
        fmt.Printf("output: %v\n", reflect.TypeOf(b).Kind())
}

$ cd $GOPATH/src/basictype_test
$ go build
$ ./basictype_test
output: uint8

数据类型分为静态类型和底层类型,相对于以上代码中的变量b来说,byte是它的静态类型,uint8是它的底层类型。这点很重要,以后经常会用到这个概念。

rune类型

rune是int32的别名,用于表示unicode字符。通常在处理中文的时候需要用到它,当然也可以用range关键字。

string类型

string类型的底层是一个C struct。

struct String
{
        byte*   str;
        intgo   len;
};

成员str为字符数组,len为字符数组长度。golang的字符串是不可变类型,对string类型的变量初始化意味着会对底层结构的初始化。至于为什么str用byte类型而不用rune类型,这是因为golang的for循环对字符串的遍历是基于字节的,如果有必要,可以转成rune切片或使用range来迭代。我们来看个例子:

$GOPATH/src

----basictype_test

--------main.go

package main

import (
	"fmt"
	"unsafe"
)

func main() {
	var str string = "hi, 陈一回~"
	p := (*struct {
		str uintptr
		len int
	})(unsafe.Pointer(&str))

	fmt.Printf("%+v\n", p)
}

$ cd $GOPATH/src/basictype_test
$ go build
$ ./basictype_test
output: &{str:135100456 len:14}

内建函数len对string类型的操作是直接从底层结构中取出len值,而不需要额外的操作,当然在初始化时必需同时初始化len的值。

slice类型

slice类型的底层同样是一个C struct。

struct	Slice
{				// must not move anything
	byte*	array;		// actual data
	uintgo	len;		// number of elements
	uintgo	cap;		// allocated number of elements
};

包括三个成员。array为底层数组,len为实际存放的个数,cap为总容量。使用内建函数make对slice进行初始化,也可以类似于数组的方式进行初始化。当使用make函数来对slice进行初始化时,第一个参数为切片类型,第二个参数为len,第三个参数可选,如果不传入,则cap等于len。通常传入cap参数来预先分配大小的slice,避免频繁重新分配内存。

package main

import (
	"fmt"
	"unsafe"
)

func main() {
	var slice []int32 = make([]int32, 5, 10)
	p := (*struct {
		array uintptr
		len   int
		cap   int
	})(unsafe.Pointer(&slice))

	fmt.Printf("output: %+v\n", p)
}

$ cd $GOPATH/src/basictype_test
$ go build
$ ./basictype_test
output: &{array:406958176 len:5 cap:10}

由于切片指向一个底层数组,并且可以通过切片语法直接从数组生成切片,所以需要了解切片和数组的关系,否则可能就会不知不觉的写出有bug的代码。比如有如下代码:

package main

import (
	"fmt"
)

func main() {
	var array = [...]int32{1, 2, 3, 4, 5}
	var slice = array[2:4]
	fmt.Printf("改变slice之前: array=%+v, slice=%+v\n", array, slice)
	slice[0] = 234
	fmt.Printf("改变slice之后: array=%+v, slice=%+v\n", array, slice)
}

$ cd $GOPATH/src/basictype_test
$ go build
$ ./basictype_test
改变slice之前: array=[1 2 3 4 5], slice=[3 4]
改变slice之后: array=[1 2 234 4 5], slice=[234 4]

您可以清楚的看到,在改变slice后,array也被改变了。这是因为slice通过数组创建的切片指向这个数组,也就是说这个slice的底层数组就是这个array。因此很显然,slice的改变其实就是改变它的底层数组。当然如果删除或添加元素,那么len也会变化,cap可能会变化。

那这个slice是如何指向array呢?slice的底层数组指针指向array中索引为2的元素(因为切片是通过array[2:4]来生成的),len记录元素个数,而cap则等于len。

之所以说cap可能会变,是因为cap表示总容量,添加或删除操作不一定会使总容量发生变化。我们接着再来看另一个例子:

package main

import (
	"fmt"
)

func main() {
	var array = [...]int32{1, 2, 3, 4, 5}
	var slice = array[2:4]
	slice = append(slice, 6, 7, 8)
	fmt.Printf("改变slice之前: array=%+v, slice=%+v\n", array, slice)
	slice[0] = 234
	fmt.Printf("改变slice之后: array=%+v, slice=%+v\n", array, slice)
}

$ cd $GOPATH/src/basictype_test
$ go build
$ ./basictype_test
改变slice之前: array=[1 2 3 4 5], slice=[3 4 6 7 8]
改变slice之后: array=[1 2 3 4 5], slice=[234 4 6 7 8]

经过append操作之后,对slice的修改并未影响到array。原因在于append的操作令slice重新分配底层数组,所以此时slice的底层数组不再指向前面定义的array。

但是很显然,这种规则对从切片生成的切片也是同样的,请看代码:

package main

import (
	"fmt"
)

func main() {
	var slice1 = []int32{1, 2, 3, 4, 5}
	var slice2 = slice1[2:4]
	fmt.Printf("改变slice2之前: slice1=%+v, slice2=%+v\n", slice1, slice2)
	slice2[0] = 234
	fmt.Printf("改变slice2之后: slice1=%+v, slice2=%+v\n", slice1, slice2)
}

$ cd $GOPATH/src/basictype_test
$ go build
$ ./basictype_test
改变slice2之前: slice1=[1 2 3 4 5], slice2=[3 4]
改变slice2之后: slice1=[1 2 234 4 5], slice2=[234 4]

slice1和slice2共用一个底层数组,修改slice2的元素导致slice1也发生变化。

package main

import (
	"fmt"
)

func main() {
	var slice1 = []int32{1, 2, 3, 4, 5}
	var slice2 = slice1[2:4]
	fmt.Printf("改变slice2之前: slice1=%+v, slice2=%+v\n", slice1, slice2)
	slice2 = append(slice2, 6, 7, 8)
	fmt.Printf("改变slice2之后: slice1=%+v, slice2=%+v\n", slice1, slice2)
}

$ cd $GOPATH/src/basictype_test
$ go build
$ ./basictype_test
改变slice2之前: slice1=[1 2 3 4 5], slice2=[3 4]
改变slice2之后: slice1=[1 2 3 4 5], slice2=[3 4 6 7 8]

而append操作可令slice1或slice2重新分配底层数组,因此对slice1或slice2执行append操作都不会相互影响。

接口类型

接口在golang中的实现比较复杂,$GOROOT/src/pkg/runtime/type.h中定义了:

struct Type
{
	uintptr size;
	uint32 hash;
	uint8 _unused;
	uint8 align;
	uint8 fieldAlign;
	uint8 kind;
	Alg *alg;
	void *gc;
	String *string;
	UncommonType *x;
	Type *ptrto;
};

$GOROOT/src/pkg/runtime/runtime.h中定义了:

struct Iface
{
	Itab*	tab;
	void*	data;
};
struct Eface
{
	Type*	type;
	void*	data;
};
struct	Itab
{
	InterfaceType*	inter;
	Type*	type;
	Itab*	link;
	int32	bad;
	int32	unused;
	void	(*fun[])(void);
};

interface实际上是一个结构体,包括两个成员,一个是指向数据的指针,一个包含了成员的类型信息。Eface是interface{}底层使用的数据结构。因为interface中保存了类型信息,所以可以实现反射。反射其实就是查找底层数据结构的元数据。完整的实现在:$GOROOT/src/pkg/runtime/iface.c 。

package main

import (
	"fmt"
	"unsafe"
)

func main() {
	var str interface{} = "Hello World!"
	p := (*struct {
		tab  uintptr
		data uintptr
	})(unsafe.Pointer(&str))

	fmt.Printf("%+v\n", p)
}

$ cd $GOPATH/src/basictype_test
$ go build
$ ./basictype_test
output: &{tab:134966528 data:406847688}

map类型

golang的map实现是hashtable,源码在:$GOROOT/src/pkg/runtime/hashmap.c 。

struct Hmap
{
	uintgo  count;
	uint32  flags;
	uint32  hash0;
	uint8   B;
	uint8   keysize;
	uint8   valuesize;
	uint16  bucketsize;

	byte    *buckets;
	byte    *oldbuckets;
	uintptr nevacuate;
};

测试代码如下:

package main

import (
	"fmt"
	"unsafe"
)

func main() {
	var m = make(map[string]int32, 10)
	m["hello"] = 123
	p := (*struct {
		count      int
		flags      uint32
		hash0      uint32
		B          uint8
		keysize    uint8
		valuesize  uint8
		bucketsize uint16

		buckets    uintptr
		oldbuckets uintptr
		nevacuate  uintptr
	})(unsafe.Pointer(&m))

	fmt.Printf("output: %+v\n", p)
}

$ cd $GOPATH/src/basictype_test
$ go build
$ ./basictype_test
output: &{count:407032064 flags:0 hash0:134958144 B:192 keysize:0 valuesize:64 bucketsize:30063 buckets:540701813 oldbuckets:0 nevacuate:0}

golang的坑还是比较多的,需要深入研究底层,否则很容易掉坑里。

© 著作权归作者所有

陈亦
粉丝 241
博文 23
码字总数 53194
作品 0
浦东
高级程序员
私信 提问
加载中

评论(9)

henrylee2cn
henrylee2cn
关于append重新分配底层数组这部分,楼主没有说明:什么情况下,append会重新分配底层数组?
实际上append重新分配底层数组不是必然的,只有当len(slice1)+len(slice2)>cap(slice1)时才会发生。
醉人的笑容你有没有
醉人的笑容你有没有
感谢作者的分析 解决了我心中的疑问
codepapa
codepapa
Eface是interface{}底层使用的数据结构。
这个和Iface或者interface{}怎么联系起来的?
求指教。
陈亦
陈亦 博主

引用来自“go-skyblue”的评论

大神啊,你竟然都看底层源码啦!我对你的敬仰之情宛如涛涛江水绵延不绝

10
go-skyblue
go-skyblue
大神啊,你竟然都看底层源码啦!我对你的敬仰之情宛如涛涛江水绵延不绝
陈亦
陈亦 博主

引用来自“kyli”的评论

感觉相比其他文章,稍显一般,chan没有讲么

0
Kyli
Kyli
感觉相比其他文章,稍显一般,chan没有讲么
陈亦
陈亦 博主

引用来自“喻恒春”的评论

79好文, 值得收藏. 某些时候可大用

0
喻恒春
喻恒春
79好文, 值得收藏. 某些时候可大用
golang: 详解interface和nil

golang的nil在概念上和其它语言的null、None、nil、NULL一样,都指代零值或空值。nil是预先说明的标识符,也即通常意义上的关键字。在golang中,nil只能赋值给指针、channel、func、interfa...

陈亦
2014/01/19
22.9K
29
Go圣经-学习笔记入门-面试题

常问面试题 函数返回return XX, 是原子操作吗?(不是, 如果你看过雨痕老师的内存管理,就知道) 普通函数和闭包函数的区别有哪些?后者的应用场景在哪里?(闭包函数使用外部变量,是引用传递...

cdh0805010
2017/10/20
372
0
Go圣经-学习笔记之封装还是组合

上一篇 Go圣经-学习笔记之方法 下一篇 Go圣经-学习笔记之方法值和表达式 通过结构体嵌入扩展类型 在前面文章中,已经介绍了结构体中的匿名成员。今天我们介绍下对象的行为集扩展。 上面的p对...

cdh0805010
2017/10/26
54
0
深入分析golang多值返回以及闭包的实现

一、前言 golang有很多新颖的特性,不知道大家的使用的时候,有没想过,这些特性是如何实现的?当然你可能会说,不了解这些特性好像也不影响自己使用golang,你说的也有道理,但是,多了解底...

万建宁
2018/07/17
32
0
Golang 全面深入系列之 Error

What you are wasting today is tomorrow for those who died yesterday; what you hate now is the future you can not go back. 你所浪费的今天是昨天死去的人奢望的明天; 你所厌恶的现在......

xjtuhit
2018/03/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

rime设置为默认简体

转载 https://github.com/ModerRAS/ModerRAS.github.io/blob/master/_posts/2018-11-07-rime%E8%AE%BE%E7%BD%AE%E4%B8%BA%E9%BB%98%E8%AE%A4%E7%AE%80%E4%BD%93.md 写在开始 我的Arch Linux上......

zhenruyan
今天
5
0
简述TCP的流量控制与拥塞控制

1. TCP流量控制 流量控制就是让发送方的发送速率不要太快,要让接收方来的及接收。 原理是通过确认报文中窗口字段来控制发送方的发送速率,发送方的发送窗口大小不能超过接收方给出窗口大小。...

鏡花水月
今天
10
0
OSChina 周日乱弹 —— 别问,问就是没空

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @tom_tdhzz :#今日歌曲推荐# 分享容祖儿/彭羚的单曲《心淡》: 《心淡》- 容祖儿/彭羚 手机党少年们想听歌,请使劲儿戳(这里) @wqp0010 :周...

小小编辑
今天
1K
11
golang微服务框架go-micro 入门笔记2.1 micro工具之micro api

micro api micro 功能非常强大,本文将详细阐述micro api 命令行的功能 重要的事情说3次 本文全部代码https://idea.techidea8.com/open/idea.shtml?id=6 本文全部代码https://idea.techidea8....

非正式解决方案
今天
5
0
Spring Context 你真的懂了吗

今天介绍一下大家常见的一个单词 context 应该怎么去理解,正确的理解它有助于我们学习 spring 以及计算机系统中的其他知识。 1. context 是什么 我们经常在编程中见到 context 这个单词,当...

Java知其所以然
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部