文档章节

开放数据源

xhHuang
 xhHuang
发布于 2017/04/12 22:42
字数 5481
阅读 674
收藏 3

(本文转自http://gispark.readthedocs.io/zh_CN/latest/opendatasource.html)

这里收集、整理了大量的社会、经济、地理、空间开放数据库来源,是大数据技术学习者和数据科学家研究的宝库。因为数据提供者可能会变更数据和提供的许可政策,请注意鉴别数据的有效性和适用性,以免违反许可条款或得到不准确的结论。

  • 本列表仅供参考,供技术研究使用,不对其有效性、准确性以及合法性承担任何责任。

开放数据源(一),全球地理、自然、经济数据等。

开放数据源(二),科研、论文,生物、网址、机器学习等。

编译自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/

  • Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。
  • Common crawl:建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。
  • EDRM File Formats Data Set:由381个文件夹200种文件格式组成。
  • Apache Mahout  TLP:项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。
  • StatLib,卡内基梅隆大学数据档案。
  • STATOO Datasets part 1和 STATOO Datasets part 2,Time Series Data Library。
  • Visual Analytics Benchmark Repository。
  • UCI KDD Database Repository:适用于机器学习和知识发现研究的大数据集。
  • UCI Machine Learning Repository.
  • UCR Time Series Data Archive:提供数据集、论文、链接和代码。
  • EDRM Enron Email Data Set v2:由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。
  • ClueWeb09:用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。
  • DMOZ:最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。
  • theinfo.org:这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。
  • Project Gutenberg:提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。
  • Million song data set:与tracks 和艺术家有关的数据。
  • AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。
  • GeoDa Center:地理和空间数据。

BigML big list of public data sources.

  • Bioassay data:研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。
  • Bitly 1.usa.gov data:匿名点击链接。
  • Canada Open Data:有许多政府和地理空间的数据集的试点项目。
  • Causality Workbench:数据存储库。
  • Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。

Data Source Handbook:公开数据指南。

  • Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。
  • DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。
  • Datamob:可以很好利用的公开数据。
  • DataSF.org:可向City & County of San Francisco, CA.购买的数据集信息交流中心。
  • DataFerrett:一个用来访问和使用The Data Web的数据挖掘工具,许多网上美国政务数据集的集合。
  • EconData:大量经济学的时间序列,由许多美国政府机构编制。
  • Enron Email Dataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员。
  • Europeana Data:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。
  • Europeana Data:FEDSTATS:一个美国统计资料的综合资源以及更多。
  • FIMI repository for frequent itemset mining:工具和数据集。
  • Financial Data Finder at OSU:大型财务数据集目录。
  • GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”。
  • GEO (GEO Gene Expression Omnibus):一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,用于基因表达数据的浏览,查询和检索。
  • Google ngrams datasets:来自数Google扫描的百万书籍文本。
  • Grain Market Research:财务数据,包括股票、期货等。
  • Hilary Mason research-quality Big Data sets: 收集许多文本和图片数据集.
  • HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。
  • ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文。
  • Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。
  • Investor Links:包含财物数据。
  • KDD Cup center:数据、工作表和结果。
  • Kevin Chai list of datasets:文本、SNA和其他领域。
  • KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。
  • Linking Open Data 工程,免费向所有人提供数据。
  • MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究。
  • ML Data:欧盟Pascal2网络数据储存库。
  • National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。
  • National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。
  • Open Data Census:评估世界各地的开放数据的状态。
  • OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐。
  • Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球。
  • Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库。
  • Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
  • qunb:一个用来发现和可视化的数据资料的平台。
  • Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据
  • SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据。
  • Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据。
  • SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。
  • Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据。
  • Wolfram Alpha disease and patient level dat.
  • Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛。
  • Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究。

开放数据源(三),中国,经济为主。

一、政府类

  • 1、国家统计局,如果你需要一应俱全的最新宏观经济数据,一个宝贵的来源是国家统计局提供的《进度统计数据》,网址是http://www.stats.gov.cn/tjsj/。 如果想要从数据收集之日起的完整国民经济核算资料,权威的来源是国家统计局国民经济核算司出版的《中国国内生产总值核算历史资料》(1952-1995) 和《中国国内生产总值核算历史资料》(1996-2002)。在这两本年鉴里,提供了核算中国GDP的详实数据。特别是《中国国内生产总值核算历史资料》 (1996-2002)提供了电子版,电子版数据不仅提供1996-2002年的详实数据,还大致回溯了1952-1995年间的数据,非常好用。如果你想要从数据收集之日起的较为完整的宏观经济数据,《新中国五十年统计资料汇编》和《新中国55年统计资料汇编》是一个不错的选择。遗憾的是,它们都没有提供电子版,但后者可以在中国资讯行下载。
  • 2、工业和信息化部, 较多数据在此发布,尤其是有关工业运行及信息化相关数据。
  • 3、中国人民银行, 中国金融市场政策及运行相关数据。
  • 4、银监会,银行金融相关数据。
  • 5、中国海关,中国进出口相关数据。
  • 6、国家知识产权局,专利相关查询。
  • 7、中国证监会,相关政策及招股书披露平台,以及拟上市公司排队每周披露。
  • 8、上海市政府数据服务网, 上海市政府数据服务网(dataShanghai)集中发布政府部门及第三方机构的数据产品以及数据应用,数据将涉及经济、教育、卫生、交通、地理、法 律、规划等。上海市政府数据服务网(dataShanghai)中,政府部门提供的数据产品目前都是免费的,保留收费的权利。所有的数据与服务都是无需注册可以直接使用的。搜索到需要的数据标题后,点击进入详细页面,可以看到下载图标。就可以按照需求来下载。
  • 9、上海公共研发平台,可以注册,人工审核,内包含较多数据库。

二、综合类

  • 1、中国经济数据库,司尔亚司数据信息有限公司(CEIC)成立于1992年,由经济学家和分析师组成,提供有关世界发达经济和发展中经济的最广泛、最精确的信息。作为欧洲货币机构投资公司的一个产物,我们已经成为世界各地经济学家、分析师、投资者、企业以及院校经济和投资研究的首选。
  • 2、中国经济信息网,行业研究报告,宏观数据较全。中国经济信息网简称中经网,是国家信息中心组建的、以提供经济信息为主要业务的专业性信息服务网络。
  • 3、中国资讯行数据库,收费宏观经济数据。
  • 4、国研网, 数据较为权威,有些报告可以一看。
  • 5、中国国家图书馆

三、金融类

证券

金融

  • 1、万德数据库(金融) 中国大陆领先的金融数据、信息和软件服务企业,Wind资讯的客户包括超过90%的中国证券公司、基金管理公司、保险公司、银行和投资公司等金融企业;在 国际市场,已经被中国证监会批准的合格境外机构投资者(QFII)中75%的机构是Wind资讯的客户。同时国内多数知名的金融学术研究机构和权威的监管 机构也是我们的客户,大量中英文媒体、研究报告、学术论文等经常引用Wind资讯提供的数据。 定位:高端机构客户 机构市场占有率:80%优势:(1)数据表结构还是比较科学,而且还有很多不同工具,例如WACC计算小插件、贝塔计算小插件、另外还有直接在EXCEL估值的模版。 (2)用户体现非常好,界面体验一流,符合中国人的使用习惯。 (3)特色数据库有中国A\B股数据、基金数据、债券数据和期货数据都非常突出。 (4)资讯内容结构严重模仿BLOOMBERG (5)支持API插件 缺点 (1)其实我想突出数据质量只是一般,有一些还是很多错误、例如指数的数据库的错误和雅虎Finance几乎是一样的。 (2)世界指数等国际数据库还是一般。 (3)主要是提供资讯,下单通道没有Bloomberg没有那么强大。 (4)行业数据严重缺乏,而且质量真的不太好。
  • 2、恒生聚缘(金融) 这个数据库其实也是定位为机构的,还有一套完全的信息技术系统解决方法。但是这个数据库不太出名,但是这是我用过价格便宜然后质量非常高的数据库。 优点:(1)界面设计虽然没有万德那么花哨,但是非常实在,非常实用,而且很方便。数据结构也科学,不会出现过多冗余的状况。 (2)价格比万德便宜,但是性价比挺高的。 (3)A\B股数据是强项 (4)研究报告更新速度比较快,比较全面、质量比万德好。 (5)数据质量过硬。
  • 3、CSMAR数据库(金融) 定位:中国80%的学术机构和香港高校都是使用CSMAR,美国大部分的大学例如沃顿等是使用CSMAR数据库 优点 (1)公司金融数据是强项,非常强大和齐全,我经常使用哈哈。 (2)数据库做学术还是比较全面的。年份比较早的数据都会有收录。 (3)高频数据是全国第二好。 (4)公司治理数据比较好,详细,包括公司控制链图均有收录。 缺点: (1)由于是学术数据库关系,更新速度不够快。机构是绝对不会使用的。 (2)数据结构有些设计是有问题。 (3)缺乏资讯类的数据。 (4)行业数据是更新速度是所有数据库中最慢的,建议不要使用行业数据库。
  • 4、锐思数据库(金融) 定位:学术机构 特点: 基本上是Copy外国的数据库结构,而且数据字段不够丰富,建议不要使用。
  • 5、巨潮数据库(金融) 深交所旗下的一个数据库公司,有这个得天独厚的优势. (1)交易所的公告、董事会决议总是最快可以知道。 (2)异动数据库中的异动记录肯定不止前十名,获取还能看到前15名,哈哈! 缺点 (1)数据结构太老的了,严重有问题,见过5个字段来做表主键的,无语。 (2)好像异动数据库,把所有的债券、股票、衍生证、涡轮全部放在一起,结果有一次踩地雷,把债券和股票都提了出来,原因是股票的代码=债券的代码,真的囧死了。 (3)异动数据中的计算方法严重不正确,如果你查阅交易所对涨跌幅偏离值的计算方法,你会发现在2006年8月4日前后会非常不同。结果又一次让我踩到地雷。 (4)数据质量一般,算不上好。
  • 6、清科数据库(金融) 清科研究数据库包含风险投资,私募股权,创业者相关投资,私募,并购,上市数据库,范围涉及投资机构,企业,投资人物相关TMT、传统行业、清洁技术、生技健康等行业市场事件用的比较少,专做Pe,风险投资数据的。
  • 7、人大经济论坛 http://bbs.pinggu.org/forum-55-1.html 有许多数据叫卖,提供大量的可供下载的经济学资源,而且还有许多有用的连接。当然,这是一个免费的网站,但下载某些资源时,说不定要求一定的所谓积分限制。这个强力推荐~~

四、互联网类

五、自然卫生类

  • 1、中国气象局
  • 2、中国气象科学数据共享服务网 在http://cdcNaNa.gov.cn注册为用户后(密码会发送至你的邮箱)登录,选择数据种类(共14大类),在每类中选择你所关心的数据集,这时弹出每个数据集的元数据信息页面。页面正中有检索方式,选台站或空间、时间就可得到检索结果,点击下载即可。CDC网站的数据只要是共享的数据,就是免费的。
  • 3、公共卫生科学数据中心

房地产

其他

开放数据源(四),遥感、地理信息

其它TM和MSS:

  • http://earthexplorer.usgs.gov/
  • http://edcsns17.cr.usgs.gov/earthexplorer
  • http://glovis.usgs.gov/
  • http://landsat.datamirror.csdb.cn/, 这是中科院的国际科学数据服务平台。

多光谱卫星影像:

  • http://speclab.cr.usgs.gov
  • http://asterweb.jplnasa.gov

遥感数据免费下载网址:

  • 1.http://www.landsat.org/ortho/index.htm
  • 2.http://edcdaac.usgs.gov/datapool/datatypes.asp
  • 3.modis L1B 1km,免费注册,免费下载,daily data.
  • 4.http://edcimswww.cr.usgs.gov/pub/imswelcome/
  • 5.http://glovis.usgs.gov/
  • 6.landsat etm+ and tm images for
  • http://www.landsat.org/ortho/index.htm

全球DEM、遥感图像、矢量图像免费下载

  • 全球各国shape数据下载,包括矢量要素、dem数据、遥感图片,免费,精度不知。 http://biogeo.berkeley.edu/bgm/gdata.php
  • 全球各国eoo格式数据下载,包括矢量要素、dem数据、遥感图片,需付费,也有部分类型数据免费,精度不知道。 http://data.geocomm.com/
  • 公开的DEM数据,SRTM3/SRTM,数据主要是由美国太空总署(NASA)和国防部国家测绘局(NIMA)

本文转载自:

xhHuang
粉丝 7
博文 37
码字总数 31428
作品 0
武汉
程序员
私信 提问
CRM系统最应该和哪些数据源进行连接呢?

  【IT168 评论】为了实现最佳运营和最高效率,CRM需要和一些关键数据源进行连接,那么CRM系统必须和哪些数据源连接呢?本文为大家推荐5个最适合的数据源。   社交网络   社交网络当然是...

it168网站
2018/04/30
0
0
jfinal数据源切换还能使用tx吗?

jfinal在多个数据源情况下 还能使用tx吗? @jfinal 只有modal和主数据源的record才能使用tx 分库后产生多个数据源,Tx不能用 如果Db中static int update(conn)开放的话 我们可以自己传con...

山东-小木
2013/11/10
227
1
甲骨文与谷歌打官司 让整个科技行业紧张不安

BI中文站 5月22日报道 在即将到来的这个星期一,美国的一个陪审团就将对甲骨文与谷歌(微博)之间最新庭审中的结案陈词进行听证。近来,甲骨文控诉Android侵权向谷歌索赔90亿美元一事,让整个科...

oschina
2016/05/23
9.2K
64
BIRT统一公用数据源、动态切换数据源解决方案

通过BIRT报表工具开发出来的报表,在运行时往往是走一个统一的生产环境数据源,但是开发时往往是一个开发测试用的数据源,这就 需要随时能够在两个环境下进行切换。目前针对这个问题,公开可...

李玉珏
2015/02/27
1K
6
开放数据协议--OData

Open Data Protocol (开放数据协议,OData)是用来查询和更新数据的一种Web协议,其提供了把存在于应用程序中的数据暴露出来的方式。OData运用且构建于很多 Web技术之上,比如HTTP、Atom Pu...

匿名
2011/06/21
11.1K
0

没有更多内容

加载失败,请刷新页面

加载更多

哪些情况下适合使用云服务器?

我们一直在说云服务器价格适中,具备弹性扩展机制,适合部署中小规模的网站或应用。那么云服务器到底适用于哪些情况呢?如果您需要经常原始计算能力,那么使用独立服务器就能满足需求,因为他...

云漫网络Ruan
今天
10
0
Java 中的 String 有没有长度限制

转载: https://juejin.im/post/5d53653f5188257315539f9a String是Java中很重要的一个数据类型,除了基本数据类型以外,String是被使用的最广泛的了,但是,关于String,其实还是有很多东西...

低至一折起
今天
23
0
OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
昨天
11
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
昨天
9
0
解决Mac下VSCode打开zsh乱码

1.乱码问题 iTerm2终端使用Zsh,并且配置Zsh主题,该主题主题需要安装字体来支持箭头效果,在iTerm2中设置这个字体,但是VSCode里这个箭头还是显示乱码。 iTerm2展示如下: VSCode展示如下: 2...

HelloDeveloper
昨天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部