东华大学图书馆

新闻公告

疫期研学丨资源推介之互联网机器学习数据库（下）

基于开源协议，慧源平台“互联网机器学习数据库”集中揭示了26个来自Kaggle的开源数据集。而提到大名鼎鼎的 Kaggle（https://www.kaggle.com/），你一定不陌生吧！它是由联合创始人、首席执行官Anthony Goldbloom于2010年在墨尔本正式创立，主要为公司和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的一个平台。目前平台已经吸引了80万名数据科学家。在慧源平台，你既能看到这26个数据集的中文元数据信息，同时还可以很方便地查找并下载你所需的数据集。

本期将重点介绍其中8个数据集，快来看看有没有你需要的那个ta吧！

数据集介绍（下）

1、2016年美国总统大选数据

数据集来自：SIZZLE，通过OCR技术识别政治相关表情包和图片上的文字，发布了有关Bern、Bernie、Clinton、Donald、Gary Johnston、Hillary、Jill Stein、Trump八位总统竞选人的数据，字段包括发布日期、id、发布网址、表情包和图片上的文字、发布站点、喜欢/赞的个数等。

2、美国婴儿姓名数据

数据集来自：Data.gov，从国家和州级两个维度对1880-2014年间新生婴儿姓名进行统计，字段包括id、姓名、出生年、性别、同姓名人数等，为了保障个人隐私相同姓名的婴儿均在5名以上。

3、世界各国经济发展数据

数据集来自：World Bank，发布全球100多个国家的1000多个经济指标，以反映各国的经济发展情况，时间跨度为1960-2015年。

4、NIPS会议文章信息数据（1987-2016）

神经信息处理系统（NIPS）是世界上顶级的机器学习会议之一，涵盖了从深度学习和计算机视觉到认知科学和强化学习的课题。数据集来自：Neural Information Processing Systems，收录了论文的题目、作者、内容和研究方向等数据（从1987年第一次会议到当前的2016年会议）。

5、食物营养成分数据

数据集来自：Open Food Facts，包括成分，过敏原，营养成分以及我们可以在产品标签上找到的所有信息等100个字段。

6、Kaggle各项竞赛情况数据

数据集来自Kaggle，包括竞赛名称、内容、奖励、形式、行业、参赛队伍、参赛者等相关信息，对数据竞赛举办和进行过程中发生的变化具有很好的指导意义。

7、纽约Uber接客数据

数据集来自Taxi&Limousine Commission，数据包含Uber在美国纽约市的乘车记录，分为两段：2014年4月到9月之间，约450万项；2015年1月到6月间1430万项。另外包括10家租车公司行车级别的数据，和329家租车公司汇总级的数据。