新闻公告

疫期研学丨资源推介之互联网机器学习数据库(上)




助力抗疫资源第四波:互联网机器学习数据库



     基于开源协议,慧源平台“互联网机器学习数据库”集中揭示了26个来自Kaggle的开源数据集。而提到大名鼎鼎的 Kaggle(https://www.kaggle.com/),你一定不陌生吧!它是由联合创始人、首席执行官Anthony Goldbloom于2010年在墨尔本正式创立,主要为公司和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的一个平台。目前平台已经吸引了80万名数据科学家。在慧源平台,你既能看到这26个数据集的中文元数据信息,同时还可以很方便地查找并下载你所需的数据集。


     本期将重点介绍其中9个数据集,快来看看有没有你需要的那个ta吧!



数据集介绍

1️⃣美国环境污染数据

数据集来自美国国家环保局(U.S.EPA),收集了美国2000~2016年二氧化氮、二氧化硫、一氧化碳和臭氧四类污染物的相关数据。


2️⃣美联航Twitter用户评论数据

数据集来自Figure Eight,包括自2015年2月开始抓取的美国航空公司Twitter的评论数据,并对每条评论进行了情感评价(正面/中性/负面),对负面评价还给出了原因,如:延迟、服务粗鲁等。


3️⃣美国医疗保险市场数据

数据集来自美国医疗保险和医疗补助服务中心(the Centers for Medicare & Medicaid Services,CMS),针对全美个人和小企业医疗健康与牙科保险市场数据,涵盖保险范围、种类、费率、保险计划内容、网络、商业条款、收益与支出等。


4️⃣英国车祸数据(2005-2015)

数据集来自UK police,包括英国警方收集的2005-2015年英国车祸的数据。


5️⃣芝加哥汽车超速数据

数据集来自the Chicago Police Department,收集了2014年7月1日至2016年12月31日芝加哥市所有摄像头所记录的每天的汽车超速数据。


6️⃣Amazon 食品评论数据

数据集来自Amazon,包括自1999年10月至2012年10月在Amazon平台的500,000条食品评论数据。包括产品信息、用户信息、评分以及评论等数据。


7️⃣ Amazon 无锁手机评论数据

数据集来自Amazon,收集了40万条在Amazon上出售的无锁手机的评论数据,包含产品名称、品牌、价格、评论、评分,以及认为评论有用的人数等字段。


8️⃣美国股票新闻数据

新闻数据集来自Reddit WorldNews Channel,包括时间、新闻标题等字段,对应时段的股票数据来自Dow Jones Industrial Average (DJIA)。


9️⃣欧洲足球运动员赛事表现数据

数据包括欧洲2008到2016赛季中的25000多场比赛,10000余位运动员,11个欧洲国家的联赛,运动员和球队的属性,赌博赔率,比赛详情等数据。


使用方法

1️⃣分类浏览——互联网机器学习数据库。




2️⃣点击“查看全文”字段。



3️⃣即可查阅相关信息或进行下载。



如果您无法使用该资源,或在使用平台时遇到问题,请随时联系我们:

首推关注并留言微信公众号:huiyuansharing,


也可以email联系:ihssd@fudan.edu.cn


联系电话:021-65642106 / 55664034