文档章节

位图排序算法的一个实践

BlackJoker
 BlackJoker
发布于 2015/10/13 13:24
字数 721
阅读 9
收藏 0
适应场景:
1,输入的数据限制在相对较小的范围内;2,数据没有重复;3,对于每条记录而言,除了单一整数外,没有任何其他相关联的数据。

2,要求
输入:一个最多包含n个正整数的文件F1,每个数小于n(n=1000000),而且整数没有重复;
输出:包含按升序排列的整数列表的文件F2;
约束:不超过1M的内存空间,运行时间10秒以内。

3,实现概要
可以用一个20位长度的0,1字符串来表示所有元素小于20的非负整数的集合。比如可以用下面的字符串来标示集合{1,2,3,5,8,13}:
S={0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 }
即S[1],S[2],S[3],S[5],S[8],S[13]都是1,其他的都是0.

利用上面的思想,可以用一个长度为n的字符串来表示文件F1里面的整数集合,然后遍历这个字符串,如果为1则输出下标的文件F2.
伪代码:
//初始化
for i=[0,n)
  bit[i]=0;
//扫描输入文件
for each i in F1
   bit[i]=1;
//输出
for each i=[0,n)
  if bit[i]==1
     write i to F2

我用java做了这个算法的实践,bit 数组采用的是JDK里面的BitSet,代码如下:
public static void main(String[] args) throws IOException {
		int n = 10000000;
		int k = 1000000;
		String srcFile = "/tmp/in.dat";
		String destFile = "/tmp/out.dat";
		long start = System.currentTimeMillis();
		genRandomNumbers2File(srcFile, n, k);
		sortAndSave2File(srcFile, destFile, n);
		long end = System.currentTimeMillis();
		System.out.println("Done in " + (end - start) + " ms");
	}

	/**
	 * 在文件fileName中生成一个所有元素互异且位于[0,n)之间的随机排列的整数序列,序列长度为k
	 * 
	 * @param fileName
	 * @param n
	 * @param k
	 * @throws IOException
	 */
	public static void genRandomNumbers2File(String fileName, int n, int k)
			throws IOException {
		File f = new File(fileName);
		if (!f.exists()) {
			f.createNewFile();
		}
		BufferedOutputStream bos = null;
		try {
			bos = new BufferedOutputStream(new FileOutputStream(f));
			int[] array = new int[n];// 定义初始数组
			for (int i = 0; i < n; i++)
				array[i] = i;
			Random random = new Random();
			for (int j = 0; j < k; j++) {
				int index = j + random.nextInt(n - j);// 生成一个[j,n)之间的随机数,作为数组下标
				// 交换array[j]和array[index],那么array[0..j]为已经获取到的随机数
				int temp = array[index];
				array[index] = array[j];
				array[j] = temp;
				// 把此次获取到的随机数存到rets里面
				bos.write(temp);
			}
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			if (bos != null) {
				bos.close();
			}
		}
	}
	//从文件srcFile读取整数序列然后排序,并写到的destFile中
	public static void sortAndSave2File(String srcFile, String destFile, int n)
			throws IOException {
		File fsrc = new File(srcFile);
		File fdest = new File(destFile);
		if (!fdest.exists()) {
			fdest.createNewFile();
		}
		BufferedInputStream bis = null;
		BufferedOutputStream bos = null;
		try {
			bis = new BufferedInputStream(new FileInputStream(fsrc));
			BitSet bs = new BitSet(n);
			int read = 0;
			while ((read = bis.read()) != -1) {
				bs.set(read);
			}
			//
			bos = new BufferedOutputStream(new FileOutputStream(fdest));
			for (int i = 0; i < n; i++) {
				if (bs.get(i)) {
					// System.out.println(i);
					bos.write(i);
				}
			}

		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			if (bos != null) {
				bos.close();
			}
			if (bis != null) {
				bis.close();
			}
		}
	}


此博客的算法思想来源于《编程珠玑(第二版)》第一章


© 著作权归作者所有

共有 人打赏支持
BlackJoker
粉丝 1
博文 17
码字总数 9270
作品 0
深圳
高级程序员
私信 提问
编程珠玑--位图法排序

位图法是《编程珠玑》第一章中出现的磁盘排序算法。 题目:一个最多包含n个正整数的文件,每个数都小于n,其中n=10^7,且所有正整数都不重复。求如何将这n个正整数升序排列。 约束:最多有1MB...

王二狗子11
2018/01/08
0
0
《编程珠玑,字字珠玑》1234读书笔记——多路归并排序

写在前面的 2012年3月25日买下《编程珠玑》,很期待但不知道它能给我带来什么! 编程珠玑,字字珠玑。但是翻译有点拗口,有时候整句话读下来都不知道在讲什么,多少有点掩饰了珠玑的魅力,真...

xumaojun
2018/04/09
0
0
Rxjs实践-各种排序算法排序过程的可视化展示

这几天学习下《算法》的排序章节,具体见对排序的总结,想着做点东西,能将各种排序算法的排序过程使用Rxjs通过可视化的方式展示出来,正好练系一下Rxjs的使用 本文不会太多介绍Rxjs的基本概念...

xiyuyizhi
2017/10/27
0
0
见山是山,见山不是山,见山只是山

“老僧三十年前未参禅时,见山是山,见水是水。及至后来,亲见知识,有个入处。见山不是山,见水不是水。而今得个休歇处,依前见山只是山,见水只是水。大众,这三般见解,是同是别?有人缁素...

mikelij
2008/10/28
0
0
快排以及基于快排思想的topk 一锅端demo

算法不好,补补基本的排序算法,弄懂了快排,发现topK问题中也能用快排的思想所以写了一个demo 填坑解释法解释快排很形象,我是看这篇看懂快排的,这里推荐一下 http://blog.csdn.net/chengqi...

霁雪清虹
2017/11/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

mariadb 内存占用优化

本文由云+社区发表 作者:工程师小熊 摘要:我们在使用mariadb的时候发现有时候不能启动起来,在使用过程中mariadb占用的内存很大,在这里学习下mariadb与内存相关的配置项,对mariadb进行调...

腾讯云加社区
54分钟前
2
0
spring security 自定义登录认证

spring security 自定义认证登录 1.概要 1.1.简介 spring security是一种基于 Spring AOP 和 Servlet 过滤器的安全框架,以此来管理权限认证等。 1.2.spring security 自定义认证流程 1)认证...

EasyProgramming
54分钟前
1
0
PAI通过流式机器学习算法解决实时热点新闻挖掘案例

(机器学习PAI Online Learning模块上线邀测,目前只支持华北2(北京)区域使用,本实验会用到流式机器学习算法) PAI地址:https://data.aliyun.com/product/learn 邀测申请地址:https://dat...

阿里云官方博客
58分钟前
2
0
Win下Jenkins-2.138源码编译及填坑笔记

源码编译篇 1、 安装JDK1.8-181,操作系统添加JDK环境变量。Java -version验证一下。 注:Jenkins2.138版本,JDK必须jkd1.8.0-101以上,不支持Java9,Maven必须3.5.3以上。 2、 解压Maven3....

编程SHA
今天
2
0
Oracle数据库常用函数 转换函数 日期函数 字符型函数 数值函数

在讲解函数的功能和用法之前,先了解一下dual这个表。 dual这个表是一张只有一个字段,一行记录的表。它是一个虚拟表,用来构成select的语法规则。所以我们接下来会用到这个表来讲解常用函数。...

Sakura20
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部