Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜伟、陈萍机器之心报道

近30天中国下载第一,Sci-Hub新年首更,实时查看下载统计,logo钥匙环变「锤子和镰刀」

在重重压力下,Sci-Hub 还是更新了。

科研界女神、Sci-Hub 创始人 Alexandra Elbakyan 今日发了一条推特,立刻引来科研圈的关注。Elbakyan 表示:「 Sci-Hub 更新了,现在用户可以实时查看下载统计、每月统计等,并在将来会增加更多内容。」

图片


用户可通过以下两种方式访问新版本:

  • https://sci-hub.se/

  • https://sci-hub.ru/


值得注意的是,这次新版本的 Sci-Hub 连 logo 都更新了,小乌鸦衔着的钥匙环变成了「锤子和镰刀」

图片


新版 Sci-Hub 收集了 88,343,822 份研究论文的数据库,它们都可以免费下载。就学科而言,这些研究论文涵盖了医学、化学、生物学、人类学、物理学、工程学、数学、生态学、计算机学以及地球科学。其中,占比最多的学科是医学,大约有 2,500 万,来自医疗与健康期刊。紧接着是化学、生物学、人类与社会学等。

不过,Elbakyan 表示,这些数字都是粗略的,她只能为 Sci-Hub 数据库中大约 70% 的文章划分科学领域,并且一些论文被划分到了不止一个学科。

图片

新版 Sci-Hub 数据库中各学科的研究论文数量。

就文档类型而言,大约 80% 是发表在学术期刊上的研究文章、6% 是发表在学术会议上的论文、5% 是书籍章节内容,其余是其他类型的文档。

就发表日期而言,77% 的文档发表在 1980 至 2020 年期间,36% 发表在 2010 至 2020 期间。

就覆盖范围而言,Sci-Hub 对所有主要科学出版商文章的覆盖率均超过 95%。

就数据容量而言,Sci-Hub 数据库大约为 100TB。

与此同时,Elbakyan 还展示了 Sci-Hub 数据库每年的增长情况。她指出,Sci-Hub 在 2013-2016 年期间增速最快,这是因为需要从期刊档案中下载旧论文,2016 年之后就只需要下载新论文了。

可以看到,Sci-Hub 的研究论文数量已经从 2013 年的 2,300 万增长至 2021 年的 8,800 万,足以说明 Sci-Hub 的受欢迎程度了。

图片

2013 至 2021 年期间,Sci-Hub 数据库的年增长趋势。

与此同时,Elbakyan 还统计了用户从 Sci-Hub 下载论文最多的国家或地区,其中下载数量前三的分别是中国、美国和法国

图片

Sci-Hub 内容完整列表:https://sci-hub.ru/datasets/dois-2022-02-12.7z

不过,对于 Sci-Hub,网友依然提出了一些疑问。网友 Ansil849 想知道 Sci-Hub 何时才能够重新开始添加新论文,目前仅用作旧论文的存档,甚至 2021 年的新论文都无法获取。虽然知道这肯定与印度的一些起诉案件有关,但不理解为什么这就成为了停止添加新论文的原因以及为什么还没有启动添加新论文。

图片

还要网友 @plesk 对 Sci-Hub 数据库的学科细分提出了一个小问题,「机器学习论文属于计算机学科、数学还是两者兼有?」另一网友回复表示,这或许根据具体论文而定,实验多就划分在计算机学科、理论多就划分在数学。

图片

Sci-Hub 的艰难求生之路

Sci-Hub 作为「知识开源领域」的著名网站,由来自哈萨克斯坦 Alexandra Elbakyan 创建。Elbakyan 认为,「期刊付费墙阻碍了科研的进步,让学术交流变得更封闭、更低效。」于是,2011 年,Alexandra Elbakyan 联合一些网站搭建起 Sci-Hub,试图帮助更多的人绕开出版商的付费墙。

图片

Sci-Hub 不仅包含 Elsevier,还提供 Springer、IEEE 旗下期刊、ACS 等出版商的文章,覆盖范围广泛,毫不夸张的说 99% 的付费文章都能在 Sci-Hub 里下载到。

截至目前,Sci-Hub 建立了有 10 年之久,这期间的命运可谓是一波三折,遭到多家出版商的围剿,不断被起诉。

早在 2015 年 6 月,Elsevier 就把 Sci-Hub 告上了纽约联邦法院,指控 Elbakyan 侵犯其版权。当年 10 月,法官裁定 Sci-Hub 侵犯了 Elsevier 期刊内容的版权,要求关闭其在美国的服务器。

2017 年 6 月,美国纽约地区法院宣判,Sci-Hub 须向 Elsevier 赔偿高达 1500 万美元的著作权损失费。

2020 年 12 月,三家大型出版商 Elsevier、Wiley 及其印度子公司和美国化学学会 ACS 以侵犯版权为由将 Sci-Hub 告上印度德里高等法院。

2021 年 1 月,Twitter 封禁 Sci-Hub 账号,内容被清空。

2021 年 5 月,Alexandra 收到了来自苹果公司的一封邮件,告知 2 年前她的账户数据已经交给了 FBI。
……

不得不说,在创办 10 年后,Sci-Hub 发展迎来了一段风雨飘摇期。

在出版商的多方围剿下,很多人都担心 Sci-Hub 会在一夜之间遭到全面封杀。因此众多网友发起了 Sci-Hub 救援行动,希望通过拆分内容所有权的方式确保网站内容永久免费,他们把 77TB 论文,转化成 850 个 BT 种子传播下去。此外,由于 Sci-Hub 用于接受捐款的 Paypal 账号被冻结了,无奈之下 Sci-Hub 还发起了捐款行动以进行网站的维护。

不过,这些都没有阻止 Elbakyan 的努力,也终于迎来了 Sci-Hub 版本的再一次更新。

其他有助于分析科学出版物的数据库

除了自己的 Sci-Hub,Elbakyan 还介绍了其他几个同类型的论文数据库

第一个是 Crossref 元数据。这个巨量的数据库通过 DOIs 索引研究论文,并提供论文作者、发表年份、标题和其他相关信息的元数据。该数据库包含超过 1.2 亿条记录及 API,用户可以通过 torrents 下载。
网站地址:https://www.crossref.org/

第二个是 General Index。该数据库可以索引到 1.07 亿篇学术论文。
网站地址:https://archive.org/details/GeneralIndex

第三个是 OpenCitations Corpus。这个免费开放的数据库提供了互引论文的相关信息。
网站地址:https://opencitations.net/corpus

第四个是 Scopus。该数据库虽然不是免费的,但有免费访问的科学期刊信息表,用户在注册后可以下载。
网站地址:https://www.scopus.com/sources.uri?zone=TopNavBar&origin=searchbasic

第五个是 Scimago Journal & Country Rank。这是一个免费访问的数据库,提供了科学期刊论文相关的内容。
网站地址:https://www.scimagojr.com/

希望包括 Sci-Hub 在内的所有这些论文数据库可以帮助到更多研究者。

参考链接:
https://sci-hub.ru/database
https://news.ycombinator.com/item?id=30314601
入门论文统计Sci-Hub
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

推荐文章
暂无评论
暂无评论~