财经

(干货)财经大数目:70五个网址让您无偿获取大额存储库

19 4月 , 2019  

FT中文网
http://www.ftchinese.com/index.php

 

您是还是不是需求多量的数目来查看你的应用程式品质?最简便的主意是从网络免费数据存款和储蓄库下载数据样本。但那种措施最大的败笔是多少很少有特有的始末还要不断定能达到预期的结果。以下是70多家能够获取无偿大数目存款和储蓄库的网址。

Wikipedia:Database :向感兴趣的用户提供全部可用的内容的无需付费别本。可以博得多样语言的多寡。内容及其图片能够下载。

Common
crawl
 建立并维护三个全数人都能够访问的开放的网络。那个数目保存在亚马逊s三bucket中,请求者大概开支一些钱来走访它。

Common
crawl
 :建立并维护贰个开放的互联网,向全数人开放。

EDRM File Formats Data
Set
:由38三个公文夹200种文件格式组成。

Apache
Mahout
  TLP项目创建三个可扩张的机械学习算法。Mahout有成都百货上千无偿的和付费的语料库语言材质。

EDRM Enron Email Data
Set
 v二由安然公司邮件音信和附属类小部件组成,存在两组可下载的压缩文件中:XML和PST。

ClueWeb09用来支撑消息寻觅和有关人类语言才具商量的资料库。它富含了从二零一零年四月到二月间搜集的光景十亿个网页,包含拾种语言。资料库被若干TREC会议的追踪检查测试采用。

DMOZ –最大的、最完美的人为编辑的开放式网址目录。它搜罗了区别品种的网址链接。Dmoz是互连网搜寻引擎的1个重中之重根源。

theinfo.org –那是三个大数据集网址,在那边大家、设计师、音乐家等可以调换手艺和诀要,一齐付出和共享工具,并发轫整合他们独有的品类。

Project
Gutenberg
 提供超过36000免费电子书的下载,能够下载到个人Computer、Kindle,
Android, iOS or 或别的便携式设备。

Million song data
set
:与tracks
和歌唱家有关的数据

AWS (Amazon Web Services) Public Data
Sets
:提供了可以无缝融合AWS(亚马逊(亚马逊(Amazon))网络服务)云应用的集体数据集的汇聚存储库。

BigML big list of public data
sources
.

Bioassay
data
:商讨小说“生物测定数据的杜撰筛选”,由AmandaSchierz编写,有二3个生物测定数据集(活性/非生理活性成分),能够下载。

Bitly 1.usa.gov
data
:无名点击政坛链接

Canada Open
Data
:有看不完当局和地理空间的数据集的试点项目

Canada Open
Data
:多数当局和地理空间数据集的试点项目。

Causality
Workbench
:数据存款和储蓄库

Corral Big Data
repository
:在俄亥俄高级计算大旨,提供以多少为主题的才具。

Data Source
Handbook
:公开数据指南

Datacatalogs.org:来自United States、欧洲结盟、加拿大、CKAN以及其余的公开政坛数据

Data.gov.uk:United Kingdom的公物可用数据(London
datastore
也是)

Data.gov/Education:对于教育数据能源的重中之重指南,包括高价值的数据集、数据可视化、课堂财富、成立自公开数量的应用程序以及别的。

DataMarket:可视化的世界经济、社会、自然和工业,具备来自联合国,世界银行,欧洲缔盟计算局和别的重要数据提供者的1亿时光连串。

Datamob:能够很好利用的公然数据

DataSF.org:可向City & County of San Francisco,
CA.购买的数额集消息交换中央

DataFerrett:二个用来访问和选拔The
Data Web的数量发现工具,大多网络美利坚协作国政务数据集的聚焦。

EconData:多量军事学的年月连串,由众多美利坚合众国政党机构编写制定。

Enron Email
Dataset
:来自大致1五十个用户的数量,那些用户大多数是心平气和公司高端处理职员

Europeana
Data
:包蕴三千万文字,图片,录像开放的元数据,以及由澳洲数位图书馆采撷的声息,对于澳大尼斯联邦(Commonwealth of Australia)文化遗产内容值得依赖的、周密的能源。

Europeana Data

FEDSTATS:多个United States民党统治计资料的归咎财富以及愈来愈多

FIMI repository for frequent itemset
mining
:工具和数据集

Financial Data Finder at
OSU
:大型财务报表集目录

GDELT:关于事件、地方和声腔的中外数量,被大不列颠及苏格兰联合王国卫报形容为“生命、宇宙和任何的大数量历史”

GEO (GEO Gene Expression
Omnibus)
财经,:三个扶助MIAME包容数据交到的基因表明/分子丰度消息库,贰个精心策划的英特网能源,用于基因表达数据的浏览,查询和搜索。

GeoDa Center:地理和空间数据

Google ngrams
datasets
:来自数谷歌(Google)扫描的百万图书文本

Grain Market
Research
:财报,包蕴期货、股票等

Hilary Mason research-quality Big Data
sets
收罗广大文件和图片数据集

HitCompanies
Datasets
:HitCompanies随机取样的一万个大不列颠及英格兰联合王国公司百科的数目,选取人造智能/机器学习实行自动更新。

ICWSM-2009
dataset
:包括二〇〇八年四月八日到四月2二十三日以内的4400万个博文

Infochimps:二个数目开放的目录和汇聚,允许分享、发卖和下载关于其余内容的数额。

Investor Links:包蕴财物数额

KDD Cup
center
:数据、工作表和结果

Kevin Chai list of
datasets
:文本、SNA和任何世界

KONECT:科布伦茨网络采访,具有大批量各体系型的网络数据集,以便在互联网发现领域实行切磋。

Linking Open
Data
 工程,无偿向全体人提供数据

MIT Cancer Genomics gene expression datasets and
publications
:来自印度孟买理工州立惠特ehead
Center用于基因组切磋

ML Data:欧洲联盟帕斯Carl二互联网数据积存库

NASDAQ Data Store:提供商场数据

National Government Statistical Web
Sites
:来自大致陆拾陆个网址的数额、报告、总结年鉴、音信和别的,包含欧洲、澳洲、亚洲和拉美的国家。

National Space Science Data
Center
 (NSSDC):美国国家航空航天局的数据集,包涵行星查究、空间和日光物工学、生命科学、天体物艺术学以及任什么地点方。

Open Data
Census
:评估世界外省的绽开数据的状态。

OpenData from
Socrata
:允许访问当先10000个数据集,包含购销、教育、政党和游乐

Open Source
Sports
:多量平移数据库,包含棒球、足球、篮球和曲棍球

Peter Skomoroch dataset
Bookmarks
 PubGene(TM)
Gene Database and
Tools
:基因组有关的出版物数据库

Quandl, a collaboratively curated portal to
millions of financial and economic time-series datasets.

qunb:八个用来开采和可视化的数据资料的平台

Robert Schiller
data
:住房屋修建筑、股市和越来越多的源于于她的书 Irrational
Exuberance的数据

SMD: Stanford Microarray
Database
,存储来自微阵列实验的原来的和规范的数码

Jerry Smith dataset
collection
:财政和经济、政坛、机器学习、科学和任何数据

SourceForge.net Research
Data
:包涵大概80000个种类和当先十0万注册用户的活动的野史和现状的计算数据的门类管理网址。

StatLib,Carnegie梅隆大学数据档案

STATOO Datasets part
1
和 STATOO
Datasets part 2

Time Series Data Library

Visual Analytics Benchmark
Repository
.

UCI KDD Database
Repository
 :适用于机器学习和知识开掘钻探的大数据集

UCI Machine Learning Repository.

UCR Time Series Data
Archive
:提供数据集、杂谈、链接和代码

United States Census Bureau.

Wikiposit:两个(虚拟的)融入了来自众多例外网址的数据(大很多是财政和经济的),允许用户统壹来自差别来源的数目

Wolfram Alpha disease and patient level
dat
.

Yahoo Sandbox
datasets
:语言、图表、评级、广告与经营发售、比赛

Yelp Academic
Dataset
:30家高校的二四伍个最相仿商业的富有数据和商量,为学生和专家来探寻和钻研

199IT编译自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/

路透社
http://cn.reuters.com/news/china

BBC
http://news.bbc.co.uk/chinese/simp/hi/default.stm

华尔街晚报
http://chinese.wsj.com/gb/index.asp

联合音讯网
http://udn.com/NEWS/main.html

明报新闻网
http://www.mingpaonews.com/

苹果早报
http://www1.appledaily.atnext.com/template/apple/sec_main.cfm

和讯财经新闻
http://news.hexun.com/

维基百科
http://zh.wikipedia.org/wiki/首页

亚洲周刊
http://www.yzzk.com/cfm/main.cfm

神州江西网
http://www.chinataiwan.org/

中时电子报
http://news.chinatimes.com/mainpage.htm

率性时报电子版
http://www.libertytimes.com.tw/index.htm

联合早报
http://www.zaobao.com/special/sitemap.shtml

《二1世纪经济报道》

http://www.21cbh.com/reg.asp?r=5C1F6EBB0A9D10891A1C6EBB

注册后得以无偿在线阅读+信箱订阅《二一早音信》、《二一全文信函电话电报子通信子版》、《21周末增选》、《二一商业案例》和《二一理财资源新闻》


相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图