炼数成金 门户 科学探索 学术 查看内容

170多万篇论文,存储量达1.1 TB,Kaggle上线arXiv完整数据集

2020-8-10 09:53| 发布者: 炼数成金_小数| 查看: 69610| 评论: 0|来自: 机器之心

摘要: 现在,用户可以在 Kaggle 平台上获取 arXiv 论文了!众所周知,arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来,arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞大分支 ...
现在,用户可以在 Kaggle 平台上获取 arXiv 论文了!

众所周知,arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来,arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。


arXiv 上研究论文数量之多有利也有弊。一方面,对于在自身研究领域迅速成长的研究生,以及致力于用科研为公众提供服务的研究者而言,这一丰富的信息库可以提供极有效的助力。另一方面,arXiv 有时在搜索时也有不便。

与此同时,Kaggle 通常是数据科学家和机器学习工程师寻求有趣数据集、公开笔记和赛题的重要平台。研究者可以利用 Kaggle 上广泛的数据探索工具,轻松地与他人共享相关脚本和输出。

所以,是不是可以将 arXiv 上的巨量学术论文打包放在 Kaggle 上呢?

近期,为了让 arXiv 可用度更高,康奈尔大学和其他一些开发者在 kaggle 上创建了一个免费、开放的 arXiv 数据集。该数据集是一个含有 170 多万篇学术论文的存储库,用户可以获取论文的标题、作者、类别、摘要、全文 pdf 等。


arXiv 执行董事 Eleonora Presani 表示:「在 Kaggle 上放置完整的 arXiv 语料库,可以极大地增强 arXiv 论文的阅读潜力。并且,通过在 Kaggle 上提供该数据集,我们能够获取比通读这些文章更多的知识,并且能够以机器可读的格式将 arXiv 背后的数据和信息向公众开放。」

此外,她还表示:「arXiv 不仅是一个论文资源库,它还是一个知识共享平台。这就要求我们在展示和解释可用知识的方式上不断创新,Kaggle 用户能够帮助突破这种创新的局限,并且能够成为社区协作的新渠道。」

开发者希望启用能够探索出更丰富机器学习技术的新用例。这些技术还将结合面向如趋势分析、论文推荐器引擎、类别预测、共引网络、知识图谱构造、语义搜索接口等诸多应用的多模态功能。

Kaggle 上的 arXiv 数据集是什么样的
这是一个包含 170 多万篇理工科(STEM)学术论文的 arXiv 数据集和元数据。目前,开发者已经更新了 5 个版本,从第一版的 arXiv 元数据集(arXiv metadata)到版本的 arXiv 数据集,包含的论文数量越来越多,范围也更广。该数据集将每周更新一次。

第一版的 arXiv 元数据。

该数据集是原始 arXiv 数据的镜像,存储量高达 1.1TB,并且还会继续增加。数据集仅提供了 json 格式的元数据文件,它包含每篇论文的相关条目,具体如下:

id:arXiv ID,可用于访问论文;
submitter:论文提交者;
authors:论文作者;
title:论文标题;
comments:论文页数和图表等其他信息;
journal-ref:论文发表的期刊;
doi:数字对象标识符;
abstract:论文摘要;
categories:论文在 arXiv 系统的所属类别或标签;
versions:论文版本。

此外,用户可以通过以下两个链接直接在 arXiv 上访问每篇论文:
https://arxiv.org/abs/{id}:包含摘要和进一步链接的论文页面;
https://arxiv.org/pdf/{id}:论文 PDF 下载页面。

批量访问
用户可以在谷歌云存储(Google Cloud Storage, GCS)bucket gs://arxiv-dataset 上免费获取全部 PDF 论文,或通过谷歌 API json documentation 和 xml documentation 也可以获取。

PDF 论文被分组到 tarpdfs 文件夹的几个. tar.gz 文件中,具体如下所示:
tarpdfs/arXivpdf1001001.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001001.tar.gz)
tarpdfs/arXivpdf1001002.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001002.tar.gz)
tarpdfs/arXivpdf1001003.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001003.tar.gz)
Which are chunks 1, 2 and 3 for month 1001 (2010-01).
此外,用户可以使用 gsutil 工具将数据下载到本地计算机中。

arXiv 将 170 多万篇论文打包放在 Kaggle 上,更方便了用户获取和下载论文。有网友表示:「此举棒极了!」


与此同时,也有人提出要重视「同行评审」的参与。


对此,你怎么看呢?

参考链接:
https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/
https://www.kaggle.com/Cornell-University/arxiv

声明:文章收集于网络,版权归原作者所有,为传播信息而发,如有侵权,请联系小编删除,谢谢!

欢迎加入本站公开兴趣群
高性能计算群
兴趣范围包括:并行计算,GPU计算,CUDA,MPI,OpenMP等各种流行计算框架,超级计算机,超级计算在气象,军事,航空,汽车设计,科学探索,生物,医药等各个领域里的应用
QQ群:326600878

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2021-6-24 13:15 , Processed in 0.166883 second(s), 24 queries .