2月5日,全球訪問Sci-Hub的網絡用戶。
Sci-Hub 上已經涵蓋了全部學術論文的 69%,而剩下的 31% 并非是它不能下載,而是沒人對網站提出獲取它們請求——是人們不需要的內容。
毫無疑問,著名的非法(根據美國法院的判決)盜版論文在線資料庫 Sci-Hub是非常受歡迎的。但是它的資源庫到底有多大?最近,賓夕法尼亞大學的生物學家丹尼爾·希默斯坦(Daniel Himmelstein)和同事開始在科學研究中心的幫助下試圖找出這個問題的答案。
他們的發現作為一篇預印本論文發表在7月20日在 Peer J 期刊的網站上。文章認為,通過Sci-Hub 可以立即獲取全部學術論文中的三分之二,希默斯坦表示,這一數字比他的預期要高得多。此外,對于受付費墻保護的研究論文,Sci-Hub 的覆蓋面更大,可以立即獲取在訂閱獲取期刊上發表的所有論文的 85%。對于一些大型出版商而言(如愛思維爾),其 97%以上的期刊文章目錄被存儲在 Sci-Hub 的服務器上,也就是說可以免費獲取這些文章。
Sci-Hub 幾乎可以訪問科研人員想要閱讀的每一篇文章,并且對于該網站上沒有的文章也可以快速獲取,那么,這個網站真的可以推翻傳統的期刊出版商嗎? 希默斯坦接受 ScienceInsider 的采訪時推測,他的研究結果表示,這可能標志著付費墻研究論文“終結階段的開始”。本文是這次訪談的簡編。
問:您為什么要研究 Sci-Hub 的覆蓋面?
答:這一切開端是,3月19日 Sci-Hub 在推特上發布了其資源庫中所有文章的列表。我當時一看:“這下我們可以研究很多之前無法研究的東西了,可以研究這個網站的運營情況和資源的覆蓋范圍。大多數人都知道 Sci-Hub 提供了一些學術文獻的獲取權限,但問題是究竟有多少文章。
問:具體的計算過程是怎樣的?
答:我們的主要步驟是弄清楚現存的學術論文總數。為此,我們使用了 Crossref 的數據,該數據庫具有日志標識符或 DOI(數字對象標識符)數據庫。這個數據庫不是唯一的,但是迄今為止最常用的學術出版數據庫。做了一些排除后,我們編制了一份包括8160萬篇文章的清單。這一步很重要,因為這讓我們的計算方程有了分母。過去研究 Sci-Hub 覆蓋范圍的人并沒有采取這個正確的步驟,要搞清 Sci-Hub 的文獻覆蓋比例,需要先弄清文獻的總量。
問:您的研究的主要發現是什么?
答:最簡單的結論是 Sci-Hub 上涵蓋了全部學術論文的69%。我們還發現,該網站會優先涵蓋封閉獲取期刊出版商和高影響力期刊的文章。我覺得很有意思的一點是,Sci-Hub 對愛斯維爾和美國化學學會的論文覆蓋率最高,這正是起訴 Sci-Hub 的兩家出版商。也許是因為意識到自己的整個資源庫都在 Sci-Hu b的涵蓋范圍之內。還有很多期刊上每一篇文章都能在 Sci-Hub 上獲得。
問:剩下的31%呢?
答:如果只是有一篇文章不在 Sci-Hub 的數據庫中,并不等于無法通過 Sci-Hub 獲得這篇文章。我們估計 Sci-Hub 能夠在99%的情況下完成獲取論文的請求,這表明它沒有涵蓋的31%的文章是人們不需要內容,沒有提出獲取請求。
問:您是否研究了不同學科領域的涵蓋范圍變化情況?
答:是的。不同學科領域之間的覆蓋率有一些變化,但我認為這個變化幅度可能不像人們過去猜測的那么大。論文覆蓋率最高的是化學學科,達到93%,而最低的計算機科學為76%。這個結果可能與這些領域內論文發表活動有關。我們發現,封閉獲取期刊的覆蓋率比開放獲取期刊高。
問:Sci-Hub 面臨一些法律上的挑戰,你認為這些問題會阻止它的發展嗎?
答:我們在這篇論文中繪制了 Sci-Hub 與 Google 趨勢圖的歷史對比,Sci-Hub每次遭遇法律上的挑戰,都導致對該網站的谷歌搜索量的飆升,這表明,這些挑戰基本上是為 Sci-Hub 做了免費廣告。我認為官司糾紛無法阻止 Sci-Hub 的發展。
問:你認為 Sci-Hub 將來會如何發展?
答:在我們的論文中提到,未來的技術可以在不存在中心點故障的情況下為用戶提供文件托管服務,所以,通過 Sci-Hub 或與之類似的服務仍然可以訪問所有這些論文,但這些服務的背后找不到某個特定的域或個人。而現在,如果 Sci-Hub 的服務器被發現,它們可能會被緝獲并銷毀。
問:您真的認為,將來會有圖書館員為 Sci-Hub 支付期刊獲取的費用嗎?
答:由于指示他人做下不法行為會引發法律問題,我認為圖書館員永遠不會這樣做。但在某種程度上,他們已經在這樣做了。現在有很多圖書館不能提供100%的學術文獻資料。在全球范圍內,能夠提供完全訪問權限的大學所占的比例很小。
問:出版商要怎么辦,才可以阻止新的論文被添加到 Sci-Hub 的資源庫中?
答:確實可以采取一些辦法,但真的可能傷及自身。問題是,出版商的態度越保守,合法獲取論文的難度就越大,而這會促使更多的人去使用 Sci-Hub。
問:您希望這項研究可以造成哪些影響?
答:我認為這項研究展現的大局是,這是訂閱獲取學術出版走向終結的開端。我認為訂閱獲取模式將不可避免地走向失敗,更多的開放模式的出現將成為必須之事。做這項研究的一個動力是,我想促進這一必須之事更快地成為現實。
原文鏈接:
http://www.sciencemag.org/news/2017/07/sci-hub-s-cache-pirated-papers-so-big-subscription-journals-are-doomed-data-analyst