新闻公告

疫期研学丨资源推介之互联网机器学习数据库(下)

       基于开源协议,慧源平台“互联网机器学习数据库”集中揭示了26个来自Kaggle的开源数据集。而提到大名鼎鼎的 Kaggle(https://www.kaggle.com/),你一定不陌生吧!它是由联合创始人、首席执行官Anthony Goldbloom于2010年在墨尔本正式创立,主要为公司和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的一个平台。目前平台已经吸引了80万名数据科学家。在慧源平台,你既能看到这26个数据集的中文元数据信息,同时还可以很方便地查找并下载你所需的数据集。

 

     本期将重点介绍其中8个数据集,快来看看有没有你需要的那个ta吧!  


数据集介绍(下)

1、2016年美国总统大选数据

数据集来自:SIZZLE,通过OCR技术识别政治相关表情包和图片上的文字,发布了有关Bern、Bernie、Clinton、Donald、Gary Johnston、Hillary、Jill Stein、Trump八位总统竞选人的数据,字段包括发布日期、id、发布网址、表情包和图片上的文字、发布站点、喜欢/赞的个数等。

 

2、美国婴儿姓名数据

数据集来自:Data.gov,从国家和州级两个维度对1880-2014年间新生婴儿姓名进行统计,字段包括id、姓名、出生年、性别、同姓名人数等,为了保障个人隐私相同姓名的婴儿均在5名以上。

 

3、世界各国经济发展数据

数据集来自:World Bank,发布全球100多个国家的1000多个经济指标,以反映各国的经济发展情况,时间跨度为1960-2015年。

 

4、NIPS会议文章信息数据(1987-2016)

神经信息处理系统(NIPS)是世界上顶级的机器学习会议之一,涵盖了从深度学习和计算机视觉到认知科学和强化学习的课题。数据集来自:Neural Information Processing Systems,收录了论文的题目、作者、内容和研究方向等数据(从1987年第一次会议到当前的2016年会议)。

 

5、食物营养成分数据

数据集来自:Open Food Facts,包括成分,过敏原,营养成分以及我们可以在产品标签上找到的所有信息等100个字段。

 

6、Kaggle各项竞赛情况数据

数据集来自Kaggle,包括竞赛名称、内容、奖励、形式、行业、参赛队伍、参赛者等相关信息,对数据竞赛举办和进行过程中发生的变化具有很好的指导意义。

 

7、纽约Uber接客数据

数据集来自Taxi&Limousine Commission,数据包含Uber在美国纽约市的乘车记录,分为两段:2014年4月到9月之间,约450万项;2015年1月到6月间1430万项。另外包括10家租车公司行车级别的数据,和329家租车公司汇总级的数据。

 

8、世界范围显著地震数据(1965-2016)

数据集来自:The National Earthquake Information Center (NEIC),包含自1965年以来报告的5.5级或更高级别的每次地震的日期,时间,位置,深度,震级和震源记录。

 

 

使用方法

1 分类浏览——互联网机器学习数据库。

 

 

2  点击“查看全文”字段。

 


3   即可查阅相关信息或进行下载。

 


如果您无法使用该资源,或在使用平台时遇到问题,请随时联系我们:

  首推关注并留言微信公众号:huiyuansharing

  也可以email联系:ihssd@fudan.edu.cn

  联系电话:021-65642106 / 55664034