他要让世上的论文都“合法免费”,用一种你意想不到的方法
2019-09-23 13:42:15 作者:本网整理 来源:Nature自然科研 分享至:

一个巨大的数据库正在印度悄无声息地建立,有望让免费的论文挖掘成为可能——但是,这合法么?

 

1.jpg

Carl Malamud 身后的数据库储存了 7300 万篇论文,他打算让科学家用来文本挖掘。

来源:Smita SharmaNature自然科

撰文:Priyanka Pulla

 

Carl Malamud 正在发起一场运动,他要解放被付费墙封锁住的信息,而且已经取得了初步胜利。此前几十年,他致力于公开那些受版权保护的法律文件,无论是建筑规范还是庭审记录。他认为这些文档代表了公有领域的法律,理应让所有公众在线获取。有些情况下他会胜诉。现在,这位 60 岁的美国技术专家又将目光转向了另一个目标:以合法途径解放付费墙背后的科学文献。


过去的一年里,Malamud 在没有告知出版商的情况下,与一些印度的研究者联合建立了一个巨大的文本图片库,其中包括了从 1847 年至今的 7300 万篇期刊文章。这一仍在创建的文档库将被保存在印度尼赫鲁大学(JNU)一个 576T 的存储器里。Malamud 说:“我们收集的文章可能不是全部,但绝对不算少。”其规模与 Web of Science 数据库的核心合集不相上下。Malamud 和他在 JNU 的合作者、生物信息学家 Andrew Lynn 将他们的存储器称为“JNU 数据仓库”。


从文档库里阅读或下载论文是不被允许的,因为这会侵犯出版商的版权。按照 Malamud 的设想,研究者可以使用计算机软件抓取其中文本和数据,在不阅读文字的情况下扫描全世界的科学文献,提取他们想要的信息。


这一前所未有的项目让许多人为之激动,因为这是第一次在文献付费墙上开了一大条口子,让它们能被用于简单的程序分析。目前,已经有几十个研究组从事着类似的数据挖掘工作,并在此基础上构建了基因和化学物质的数据库、寻找蛋白质与疾病之间的关联、生成有意义的科学假设。但是,出版商通常会对这类挖掘的速度和范围加以限制,只允许挖掘摘要部分,而非全文。为此,印度、美国和英国的研究人员正计划改用 JNU 数据仓库。Malamud 和 Lynn 会去印度各个政府实验室和大学举办讲座,解释他们的想法。Malamud 说:“我们会请一些教授来听我们的计划,他们听了之后都很激动,说‘天啊,这太赞了’。”


不过,数据仓库的合法性尚待明确。在建造仓库前,Malamud 联系过几位知识产权律师,希望能避开不必要的官司。他说:“我们的立场是,这种做法完全合法。”目前,他的每一步都迈得小心翼翼——他为 JNU 数据仓库加了物理网闸,让数据库无法通过因特网访问。用户必须亲身前往数据仓库,而且只有进行非商业数据挖掘的研究者才能获准进入。Malamud 的团队打算将来支持远程访问。“但我们希望能慢慢推进这个项目,而不是立刻对外开放。”


挖掘技术哪家强

 

数据仓库的建立可以为研究论文的软件分析扫清障碍,加州大学圣克鲁兹分校(UCSC)的生物信息学家 Max H?ussler 说,“如今对学术论文进行文本挖掘几乎不可能。”即使是像他这样能够通过学校获得付费文章的人也办不到。


自 2009 年以来,H?ussler 和他的同事们就开始构建在线的 UCSC“基因组浏览器”,将人类基因组 DNA 序列直接链到提及该序列的论文段落。起初,研究者联系了超过 40 家出版商,请求允许使用软件来筛查提到 DNA 的具体论文。但有 15 家出版商不是没有回应就是拒绝了他们的请求。H?ussler 自己也不确定在无授权情况下的数据挖掘是否违法,不敢轻易尝试。过去,曾有出版商发现他用软件爬数据库后封锁了他的访问。“我 90% 的时间都在联系出版商,或是写程序来下载论文。”H?ussler 说。


在柏林 QUEST 转化生物医学研究中心兼任职务的统计学家 Chris Hartgerink 现在只在允许开放获取的出版商那里做文本挖掘,因为“和不开放的出版商打交道太麻烦了”。几年前,当 Hartgerlink 还在荷兰读博时,他试过批量下载论文来做挖掘,随后被三家出版商取消了访问权。


一些国家已经修订了法律,确保非商业项目的研究人员可以在没有着作权人许可的情况下,对他们能合法获取的任何内容进行挖掘。英国在 2014 年就通过了这类法案,欧盟也在今年投票通过了类似条款。但这无助于落后国家的状况,那里的学术人员根本无法以合法的形式获取论文。即使在英国,出版商依然有权施加一些“合理”限制,例如以确保服务器不拥堵为由,让研究人员使用出版商专用界面并限制搜索和批量下载的速度。曼彻斯特大学国家文本挖掘中心副主任 John McNaught 认为这种限制是个很大的问题:“每 5 秒下一篇文章,对人来说好像挺快的,但是对机器来说就慢得要命。下载 600 万篇论文需要一整年的时间,单单下载生物医药的所有已发表论文就要整整五年。


McNaught 说,不差钱的医药公司通常会多付一笔钱来获取专门的文本挖掘访问权限,因为他们的工作是出于商业目的。一位来自医药公司的研究员(由于无权接受媒体采访,该研究人员拒绝透露身份)说,有些情况下,出版商会允许这些公司批量下载论文,以避开此类速度限制。但是,高校研究人员常常只能从 PubMed 一类的数据库里对文章摘要进行挖掘。摘要确实能提供一些信息,但远不及全文来得有用。2018 年,丹麦技术大学计算生物学家 Søren Brunak 的团队指出,搜索全文比搜索摘要能找到更多基因与疾病的联系 (D. Westergaard et al. PLoS Comput. Biol. 14, e1005962; 2018)。

 

2.jpg

Carl Malamud 和 Andrew Lynn 在尼赫鲁大学监督一个从 7300 万研究文献中提取文字和图片的项目。来源:Smita Sharma

 

挖掘论文还有不得不克服的一些技术壁垒。由于不同出版商使用不同的排版方式,从中提取文字本身就是一项挑战,而 JNU 团队就遇到了这个问题。例如,从 PDF 转换成纯文本的工具常常无法区分段落、脚注和图片。不过,只要 JNU 团队解决了这个难题,后人就可以”乘凉“了。Malamud 说,团队从 7300 万篇论文中的首轮提取工作已经接近完成,但下一步还要检查错误。他预计数据库最快也要到今年年底才能建成。


打开无限可能

 

JNU 数据仓库的拥护者早已迫不及待了,其中包括印度国家植物基因组研究所的计算生物学家、剑桥大学的讲师 Gitanjali Yadav。2006 年,Yadav 带领研究所的团队,为植物分泌的化学物质构建了一个数据库——EssOilDB。如今,从药物开发团队到香水制造商都在从这个数据库中寻觅线索。即将建成的”Carl 的百科全书“——用 Yadav 的话讲,可以让她的数据库更上一层楼。


构建 EssOilDB 的时候,Yadav 的团队需要从 PubMed 和谷歌学术(Google Scholar)上细筛相关论文,尽可能从全文中提取数据。如果这些还不够,他们就要实地拜访图书馆,从罕见的期刊中把图表摘抄下来。Yadav 认为数据仓库可以快进这项工作,她的团队正在为将来的数据挖掘编写查询语句。


印度基因组学与综合生物学研究所的生物信息学研究员 Srinivasan Ramachandran 对 Malamud 的计划也很激动。他的团队有一个 2 型糖尿病相关基因的数据库,并一直通过爬 PubMed 的摘要来寻找论文。他希望数据仓库可以拓宽他的挖掘网。


麻省理工学院的”知识未来小组“(Knowledge Futures Group)想藉由挖掘数据仓库,研究学术论文的发表形式随时间的演变。团队成员之一、MIT 媒体实验室的博士生 James Weis 说,团队希望能预测即将出现的新研究领域,并找出衡量研究影响力的替代方法。


解锁版权的一生

 

Malamud 不久之前才萌生了将他的解锁版权运动扩大到学术出版界的想法。Malamud 是加州一个非营利组织”公共资源“(Public Resource)的创始人,该组织会买下政府所有的法律文件并公开发表,其中包括佐治亚州的注解法典、欧洲的玩具安全标准,以及从建筑、杀虫剂到手术设备在内的逾 1.9 万项印度标准。


由于这些文件常常是政府机构的收入来源,一些机构因此将 Malamud 告上了法庭。而他的辩护理由是:具有法律效力的文件不应受到着作权的限制。在 2018 年对佐治亚州注解法典的判决中,美国上诉法院认定 Malamud 不存在侵权行为,但是州政府之后再次向最高法院上诉。与此同时,德国法院于 2017 年判定”公共资源“发布玩具标准的行为属于违法,包括一项婴儿奶嘴标准。


不过,Malamud 也胜诉过。2013 年,他向美国联邦法院起诉美国国家税务局,要求税务局公开税务豁免的非营利组织的税表——这些数据可以用来追究这些组织的责任。这一次,法院判 Malamud 胜诉,并要求美国国税局将数千个非营利组织的财务报表以机器可读的形式公开。


2017 年初,在倡导开放获取的伦敦慈善组织阿卡迪亚基金(Arcadia Fund)的协助下,Malamud 将目光转向了科研论文。根据美国法律,美国联邦政府雇员的研究不受版权保护,而”公共资源“找到了数十万篇由美国政府发表的学术文章都违反了这条规定。Malamud 要求取消对这些文章的版权保护,但法院究竟会如何判决仍然未知。他已经将初步结果发布到了网上,但决定暂缓进一步的宣传计划,因为这件事让他想到了一个更大的使命:开放所有科学论文的访问权。


印度的机遇

 

这项使命源于 2016 年德里高等法院的一项裁决。那次案件的中心是德里大学的 Rameshwari 复印店。多年来,这家复印店一直在为学生复印昂贵的课本作为教材。这些课本的价格从 500 到 19000 卢比(合人民币 50-1860 元)不等,对很多学生来说是无法接受的高价。

 

3.jpg

新德里的 Rameshwari 复印店由于替学生复印课本而被告上法庭,最终胜诉。来源:Sajjad Hussain/AFP/Getty

 

2012 年,牛津大学出版社、剑桥大学出版社和泰勒-弗朗西斯出版集团(Taylor&Francis)联合起诉了这所大学,要求它为每份复制的书籍购买许可。但德里高等法院驳回了诉讼请求。在判决书中,法院援引印度 1957 年《版权法》第 52 节,其中允许以教育为目的复制有着作权的作品,同一节的另一条款还允许出于研究目的的复制行为。


Malamud 与印度的渊源很深:他早在 1980 年代就以游客的身份拜访过印度,并在斯利那加的船屋中写下了一本关于数据库设计的书,是他的早期作品之一。当听说 Rameshwari 复印店一事时,他刚刚获得了(他拒绝透露详情)8 个装有 Sci-Hub 数百万篇期刊文章的硬盘。Sci-Hub 是一个将付费论文免费向所有人开放的盗版网站。Sci-Hub 曾因侵权问题被出版社告上美国法院,并在两起诉讼中败诉;尽管如此,它的一些域名至今依然有效。


于是,Malamud 开始思索是否能以合法的途径使用这些 Sci-Hub 的硬盘,为印度学生做些什么。在他 2018 年与印度技术企业家 Sam Pitroda 合写的关于他工作的《自治法典》(Code Swaraj)一书中,他想象自己驾驶一辆类似美式快餐车的汽车空降印度校园,把论文分发给需要它们的学生。


最终,他把想法定格在了 JNU 数据仓库。(Malamud 还在帮助德里的印度理工学院建立另一个挖掘中心,其中包含了 250T 的数据,但尚未启用。)不过,他对数据仓库的论文来源却讳莫如深。当被问及数据仓库中的有些论文是否来自 Sci-Hub 时,他不愿置评,只透露了可供免费下载论文的平台(如 PubMed Central 和一个叫”Unpaywall“的工具)。但他坦言并未与出版商就数据仓库的论文访问权签订合同。


合法吗?


在 Malamud 看来,论文的来源并不重要。他认为这种数据挖掘属于非消费型——该术语意味着研究者不能阅读或展示他们所分析文章的大部分内容。他说:”你是不能用 DOI [论文索引号] 搜索文章的。“Malamud 认为在美国等一些国家,对有着作权的内容进行挖掘是法律许可的。例如,2015年,美国法院判定”谷歌图书“(Google Books)没有违反着作权,而谷歌的做法与 JNU 数据仓库类似:在没有额外购买许可的情况下对上千本有着作权的书籍进行扫描,并在搜索服务中提供这些书籍的摘录,但是不允许用户全文下载或阅读。


旧金山律所 Durie Tangri 的知识产权律师 Joseph Gratz 是谷歌图书一案的辩护律师,并曾代表公共资源出庭。在他看来,谷歌图书一案是对非消费型数据挖掘的一个试验。虽然谷歌会提供部分预览,但法院判定片段展示的文本过少,不构成侵权。谷歌的确没有获得许可,但它扫描的是已获授权的图书(多来自图书馆)。Gratz 说,着作权人可能会辩称,如果 JNU 数据仓库是从 Sci-Hub 等未获授权的途径获得论文,情况就和谷歌不同。但是,美国法院历史上从未审理过涉及非授权来源的案件,因此结果如何很难说。”虽然来源不重要的理由很充足,但推翻这种论证也不是不可能。“又或者,数据仓库在美国是否合法根本无关紧要,因为这些内容全部来自位于印度的数据库——即使可以远程访问。美利坚大学华盛顿法学院的教授 Michael W. Carroll 因此认为,这个数据库是否合法,可能还得印度法律说了算。


而在印度,法律很有可能对 Malamud 有利——这也是他把数据库设在新德里的另一个原因。第 52 节允许的研究豁免让 JNU 数据仓库不会触犯印度法律,德里国家法律大学的助理教授 Arul George Scaria 说。但是,不是所有人都同意这种解读。第 52 节允许研究者复制期刊文章做个人使用,但不一定允许 JNU 数据仓库的大批量复制,Vidhi 法律政策中心的法学研究员 T. Prashant Reddy 说。不让用户访问全文确实会让数据库相对有利,但是通过批量复制论文来构建数据库的做法却会使其陷入”法律灰色地带“,Reddy 说。


高风险行业《自然》就 JNU 数据仓库的问题联系了 15 家出版商,其中 6 家给出了回应,并说自己是第一次听说这个项目,不愿在没有进一步信息的情况下评论其合法性。但是,这 6 家出版社——爱思唯尔、BMJ、美国化学学会、施普林格·自然、美国科学促进会和美国国家科学院——都说对他们的论文进行数据挖掘需要获得他们的许可。(施普林格·自然是《自然》的出版商;《自然》新闻团队与其出版商是编辑独立的。)Malamud 深知这个项目背后的风险,但他认为这么做在”道义上至关重要“,特别是对印度来说。他说,印度大学和政府实验室花费巨资订阅各种期刊,但仍然无法获取所有需要的论文。来自 Sci-Hub 的数据表明,印度是该网站最大的用户来源国,这意味着大学购买的权限还远远不够。Malamud 说,虽然美国和欧洲的开放获取运动难能可贵,但印度要在解放科学知识的道路上先行一步,”我们不能等欧洲和美国来解决这个问题,印度的需求太迫切了。“

免责声明:本网站所转载的文字、图片与视频资料版权归原创作者所有,如果涉及侵权,请第一时间联系本网删除。