新闻公告

疫期研学丨资源推介之互联网机器学习数据库(中)

 

     基于开源协议,慧源平台“互联网机器学习数据库”集中揭示了26个来自Kaggle的开源数据集。而提到大名鼎鼎的 Kaggle(https://www.kaggle.com/),你一定不陌生吧!它是由联合创始人、首席执行官Anthony Goldbloom于2010年在墨尔本正式创立,主要为公司和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的一个平台。目前平台已经吸引了80万名数据科学家。在慧源平台,你既能看到这26个数据集的中文元数据信息,同时还可以很方便地查找并下载你所需的数据集。

 

    本期将重点介绍其中9个数据集,快来看看有没有你需要的那个ta吧! 


数据集介绍(中)

1 1908年以来空难数据

数据集来自:Socrata,收集了从1908年至今全世界空难的完整历史数据,包含空难发生的时间、地点、机型、机上载员和遇难人数等数据。

 

2 2016年美国总统选举辩论数据

数据集来自:the University of California,收集了2016年第一季举行的每次民主党和共和党以及共和党Undercard辩论的数据,包含了辩论者、辩论记录、时间、地点、党派等字段。

 

3 美国假新闻数据

数据集来自:Megan Risdal,收集了由丹尼尔·西拉德斯基(Daniel Sieradski)的BS Detector Chrome扩展程序标记为“ bullshit”的244个网站所抓取的假新闻的文本和元数据。

 

4 斯坦福问答数据

数据集来自:Stanford University,Stanford Question answer Dataset(SQuAD) 是一个全新的阅读理解数据集,由众包工作者根据维基百科文章提出的问题组成,其中每个问题的答案都对应阅读文章的一段文本。SQuAD 包含 500 多篇文章的 10 万个以上的问答对。

 

5  某人基因序列数据

数据集来自:Zeeshan-ul-hassan Usmani,为他的DNA遗传基因序列原始数据,以23andMe作为DNA表型SNP。

 

6  历史棒球数据

数据集来自:Lahman’s Baseball Database,其中包含美国职业棒球大联盟(Major League Baseball)从1871年到2015年的完整击球和投球统计数据,以及守备数据、排名、球队、球场、球员、奖励、季后赛数据等。

 

7  2015年航班延误和取消数据

数据集来自:U.S. Department of Transportation's (DOT) Bureau,包含2015年延误和取消的航班和机场数据。字段包括航班代码、名称、时间、机场代码、名称、航班延误或取消的原因等。

 

8  美国H1-B签证申请数据(2011-2016)

数据集来自:Office of Foreign Labor Certification (OFLC) ,包含2011-2016年的H-1B申请数据,总共约有300万条记录,H-1B是美国为外国人提供的非移民工作签证。字段包括申请签证状态、雇主名称、工作地点坐标、职务、工资、职业代码和申请年份。

 

9  2013年美国社区统计数据

数据集来自:US Census Bureau,由美国人口普查局每年进行的美国社区普查数据,每年调查350万社区居民,问题包括居民的居住和生活情况,主体包括:籍贯、教育、工作、交通、互联网使用等诸多方面,从不同角度反映了美国居民的生活状况。

 

使用方法

1 分类浏览——互联网机器学习数据库。

 

 

2  点击“查看全文”字段。

 


3   即可查阅相关信息或进行下载。

 


如果您无法使用该资源,或在使用平台时遇到问题,请随时联系我们:

  首推关注并留言微信公众号:huiyuansharing

  也可以email联系:ihssd@fudan.edu.cn

  联系电话:021-65642106 / 55664034