文档章节

开放数据源(二)-生物、网址、机器学习(收藏级,更新中)

openthings
 openthings
发布于 2016/03/01 11:36
字数 1950
阅读 165
收藏 2

开放数据源,科研、论文,生物、网址、机器学习等。
你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。

Wikipedia:Database :
向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

Common crawl
建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。
Common crawl :
建立并维护一个开放的网络,向所有人开放。

EDRM File Formats Data Set:
由381个文件夹200种文件格式组成。

Apache Mahout  TLP
项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。

EDRM Enron Email Data Set v2
由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。

ClueWeb09
用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。

DMOZ –
最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。

theinfo.org –
这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。

Project Gutenberg
提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。

Million song data set:
与tracks 和艺术家有关的数据

AWS (Amazon Web Services) Public Data Sets:
提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。

BigML big list of public data sources.
Bioassay data:
研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。

Bitly 1.usa.gov data:
匿名点击政府链接

Canada Open Data:
有许多政府和地理空间的数据集的试点项目

Causality Workbench:
数据存储库

Corral Big Data repository:
在德克萨斯高级计算中心,提供以数据为中心的技术。

Data Source Handbook:
公开数据指南

Datacatalogs.org:
来自美国、欧盟、加拿大、CKAN以及其他的公开政府数据

Data.gov.uk:
英国的公共可用数据(London datastore也是)

Data.gov/Education:
对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。

DataMarket:
可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。

Datamob:
可以很好利用的公开数据

DataSF.org:
可向City & County of San Francisco, CA.购买的数据集信息交流中心

DataFerrett:
一个用来访问和使用The Data Web的数据挖掘工具,许多网上美国政务数据集的集合。

EconData:
大量经济学的时间序列,由许多美国政府机构编制。

Enron Email Dataset:
来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员

Europeana Data:
包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。

Europeana Data:
FEDSTATS:一个美国统计资料的综合资源以及更多
FIMI repository for frequent itemset mining:
工具和数据集
Financial Data Finder at OSU:
大型财务数据集目录
GDELT:
关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”
GEO (GEO Gene Expression Omnibus):
一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,一个精心策划的网上资源,用于基因表达数据的浏览,查询和检索。
GeoDa Center:
地理和空间数据

Google ngrams datasets:
来自数Google扫描的百万书籍文本

Grain Market Research:
财务数据,包括股票、期货等

Hilary Mason research-quality Big Data sets
收集许多文本和图片数据集

HitCompanies Datasets:
HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。

ICWSM-2009 dataset:
包含2008年8月1日到10月1日之间的4400万个博文

Infochimps:
一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。

Investor Links:
包含财物数据

KDD Cup center:
数据、工作表和结果

Kevin Chai list of datasets:
文本、SNA和其他领域

KONECT:
科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。
Linking Open Data 工程,免费向所有人提供数据

MIT Cancer Genomics gene expression datasets and publications:
来自麻省理工Whitehead Center用于基因组研究

ML Data:
欧盟Pascal2网络数据储存库

NASDAQ Data Store:提供市场数据

National Government Statistical Web Sites:
来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。

National Space Science Data Center (NSSDC):
美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。

Open Data Census:
评估世界各地的开放数据的状态。

OpenData from Socrata:
允许访问超过10000个数据集,包括商业、教育、政府和娱乐

Open Source Sports:
大量运动数据库,包括棒球、足球、篮球和曲棍球

Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:
基因组有关的出版物数据库

Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
qunb:一个用来发现和可视化的数据资料的平台
Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据
SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据
Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据

SourceForge.net Research Data:
包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。

StatLib,
卡内基梅隆大学数据档案

STATOO Datasets part 1和 STATOO Datasets part 2
Time Series Data Library
Visual Analytics Benchmark Repository.

UCI KDD Database Repository:
适用于机器学习和知识发现研究的大数据集

UCI Machine Learning Repository.
UCR Time Series Data Archive:
提供数据集、论文、链接和代码

United States Census Bureau.
Wikiposit:
一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据
Wolfram Alpha disease and patient level dat.

Yahoo Sandbox datasets:
语言、图表、评级、广告与营销、竞赛
Yelp Academic Dataset:
30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究

199IT编译自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/

© 著作权归作者所有

openthings
粉丝 322
博文 1138
码字总数 687611
作品 1
东城
架构师
私信 提问
WanAndroid 网站 App 实现 - WanAndroid

WanAndroid 是根据鸿神提供的WanAndroid开放Api来制作的产品级App,基本实现了所有的功能,采用Kotlin语言,基于Material Design+AndroidX + MVP + RxJava + Retrofit等优秀的开源框架开发,...

有何高见
09/09
367
0
机器学习数据集哪里找:最佳数据集来源盘点

摘要:很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的。下面的网址列表不仅包含用于实验的大型数据集,还包含描述、使用示例等,在某些情况下还包含用于解决与该数据集相...

【方向】
01/24
0
0
首发|蚂蚁金服副总裁芮雄文:首次公开两大终端核心风控技术

小蚂蚁说: 9月20日,在云栖大会次日下午的ATEC主论坛上,蚂蚁金服副总裁芮雄文首次公开分享了代表蚂蚁金服安全科技的三大底层技术能力中,最前沿的两大核心终端顶尖技术:终端生物识别技术以...

兔子酱
2018/09/25
0
0
阿里云南京云栖释放技术红利 核心产品最高降价50%

4月26日,在2018云栖大会·南京峰会上,阿里云宣布新一轮的价格调整。此次调整包含了Elasticsearch、分析型数据库、实人认证、开放搜索等多项产品,最高降幅达到50%。 阿里云Elasticsearch产...

玄学酱
2018/05/01
0
0
速度收藏丨此处有你想要的数据获取方式

大数据时代,用数据做出理性分析显然更为有力。做数据分析前,能够找到合适的数据源是一件非常重要的事,获取数据的方式有很多种,不必局限。本文中给大家推荐一些能够用得上的数据获取方式~...

小数点
2017/11/30
0
0

没有更多内容

加载失败,请刷新页面

加载更多

最简单的获取相机拍照的图片

  import android.content.Intent;import android.graphics.Bitmap;import android.os.Bundle;import android.os.Environment;import android.provider.MediaStore;import andr......

MrLins
57分钟前
4
0
说好不哭!数据可视化深度干货,前端开发下一个涨薪点在这里~

随着互联网在各行各业的影响不断深入,数据规模越来越大,各企业也越来越重视数据的价值。作为一家专业的数据智能公司,个推从消息推送服务起家,经过多年的持续耕耘,积累沉淀了海量数据,在...

个推
59分钟前
8
0
第三方支付-返回与回调注意事项

不管是支付宝,微信,还是其它第三方支付,第四方支付,支付机构服务商只要涉及到钱的交易都要进行如下校验,全部成功了才视为成功订单 1.http请求是否成功 2.校验商户号 3.校验订单号及状态...

Shingfi
今天
4
0
简述Java内存分配和回收策略以及Minor GC 和 Major GC(Full GC)

内存分配: 1. 栈区:栈可分为Java虚拟机和本地方法栈 2. 堆区:堆被所有线程共享,在虚拟机启动时创建,是唯一的目的是存放对象实例,是gc的主要区域。通常可分为两个区块年轻代和年老代。更...

DustinChan
今天
6
0
Excel插入批注:可在批注插入文字、形状、图片

1.批注一直显示:审阅选项卡-------->勾选显示批注选项: 2.插入批注快捷键:Shift+F2 组合键 3.在批注中插入图片:鼠标右键点击批注框的小圆点【重点不可以在批注文本框内点击】----->调出批...

东方墨天
今天
6
1

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部