圖片來源: linkedin.com
撰文 Dalmeet Singh Chawla
翻譯 王可
審校/編輯 魏瀟
— “AI AI 告訴我,誰是現(xiàn)代最有影響力的生物醫(yī)學(xué)研究者?”
— “麻省理工學(xué)院博德研究所(Broad Institute)的所長(zhǎng)及創(chuàng)始人 Eric Lander。”
這當(dāng)然不是童話故事中那個(gè)能告訴你世界上誰最美的魔鏡,這是真實(shí)發(fā)生的事情:文獻(xiàn)搜索引擎 Semantic Scholar 通過人工智能算法,將 Eric Lander 這位遺傳學(xué)家和數(shù)學(xué)家放在了現(xiàn)代最有影響力的生物醫(yī)學(xué)學(xué)者排行榜的第一位。
Semantic Scholar 創(chuàng)建于 2015 年,是一個(gè)致力于解決信息超載的學(xué)術(shù)文獻(xiàn)搜索引擎。它利用人工智能(AI)技術(shù)幫助用戶從浩如煙海的文獻(xiàn)中篩選有用信息,且能在一定程度上理解這些內(nèi)容。這個(gè)免費(fèi)工具由華盛頓州西雅圖的艾倫人工智能研究所(Allen Institute for Artificial Intelligence)研發(fā)推出。值得一提的是,這家機(jī)構(gòu)是在 2014 年由微軟創(chuàng)始人之一保羅·艾倫(Paul Allen)參與創(chuàng)立的。
Semantic Scholar 的主頁面:www.semanticscholar.org
最初 Semantic Scholar 僅關(guān)注計(jì)算機(jī)科學(xué),但在去年增加了神經(jīng)科學(xué)的文獻(xiàn);而今它又將其關(guān)注領(lǐng)域擴(kuò)展了到了生物醫(yī)學(xué),涵蓋了數(shù)百萬計(jì)收錄于 PubMed 等索引平臺(tái)的研究文獻(xiàn)。目前使用者能夠通過 Semantic Scholar 獲取近 4000 萬篇文獻(xiàn)。
2016 年,Semantic Scholar 的程序增加了評(píng)價(jià)科研人員及研究機(jī)構(gòu)的功能。這個(gè)評(píng)價(jià)體系基于引用處上下文內(nèi)容、排除自引等規(guī)則來定義論文的“高影響力引用”。同年 4 月,Semantic Scholar 就曾給出過計(jì)算機(jī)科學(xué)領(lǐng)域內(nèi)的研究者排名——最具影響力的計(jì)算機(jī)科學(xué)家是在圈外鮮為人知的人工智能先驅(qū)、加州大學(xué)伯克利分校的邁克爾·喬丹。“大家都叫他機(jī)器學(xué)習(xí)領(lǐng)域的邁克爾·喬丹,”西雅圖艾倫人工智能研究所的負(fù)責(zé)人,Semantic Scholar 的創(chuàng)造者奧倫 · 埃齊奧尼(Oren Etzioni)如此打趣。
當(dāng) 2016 年 11 月它的數(shù)據(jù)庫擴(kuò)展到神經(jīng)科學(xué)領(lǐng)域后,Semantic Scholar 也被用來評(píng)價(jià)腦科學(xué)和神經(jīng)科學(xué)研究者的影響力;現(xiàn)在,它推出了生物醫(yī)學(xué)領(lǐng)域?qū)W者影響力的排名。
Top 10 榜單如下:
1. Eric Lander
麻省理工學(xué)院(遺傳學(xué))
Eric Lander ,數(shù)學(xué)家和遺傳學(xué)家,生于 1957 年,24 歲即獲得牛津大學(xué)數(shù)學(xué)專業(yè)博士學(xué)位,40 歲當(dāng)選美國(guó)科學(xué)院院士。他是麻省理工學(xué)院博德研究所(Broad Institute)創(chuàng)始人、所長(zhǎng);也是人類基因組計(jì)劃美國(guó)部分的主要貢獻(xiàn)者,在人類基因組測(cè)序方面做出了巨大貢獻(xiàn)。
2. Karl Friston
倫敦大學(xué)學(xué)院(神經(jīng)科學(xué))
Karl Friston 生于 1959 年,英國(guó)倫敦大學(xué)學(xué)院維康基金會(huì)神經(jīng)造影中心教授。他的研究通過統(tǒng)計(jì)參數(shù)映象和基于體素的形態(tài)學(xué)分析對(duì)腦成像數(shù)據(jù)分析做出了重要貢獻(xiàn)。使得對(duì)大腦的影像學(xué)及功能研究進(jìn)一步深入。
3. Raymond Dolan
倫敦大學(xué)學(xué)院(神經(jīng)科學(xué))
英國(guó)倫敦大學(xué)學(xué)院維康基金會(huì)神經(jīng)造影中心主任,他對(duì)闡明情緒的神經(jīng)機(jī)制,以及情緒對(duì)認(rèn)知和決策的影響做出了重要的研究貢獻(xiàn)。
4. Shizuo Akira(審良靜男)
大阪大學(xué)(免疫學(xué))
日本醫(yī)學(xué)家,大阪大學(xué)教授,他的最主要貢獻(xiàn)是通過敲除 Toll 樣受體(TLR)基因,發(fā)現(xiàn) TLR 能識(shí)別一群不相關(guān)的源于微生物的分子;以及后來對(duì) RNA 解旋酶、RIG-I(維甲酸誘導(dǎo)蛋白I)以及黑色素瘤變異關(guān)聯(lián)蛋白5(MDA5)的鑒別。
5. David Botstein
Calico公司 (生物學(xué))
Calico 首席科學(xué)家,曾任普林斯頓大學(xué)負(fù)責(zé)綜合基因組學(xué)的劉易斯-西格勒研究所所長(zhǎng)。1980 年提出一個(gè)以限制性片段長(zhǎng)度多態(tài)性來建構(gòu)遺傳連鎖圖譜的方法,用于鑒別出人類疾病的基因片斷,包括亨丁頓舞蹈癥和第一型乳腺癌易感蛋白(BRCA1)。1998 年與同事合力研發(fā)出一套統(tǒng)計(jì)方法與圖形界面,被廣泛應(yīng)用于解釋基因組和生物芯片數(shù)據(jù)。
6. Dennis Smith
輝瑞公司 (藥代動(dòng)力學(xué))
輝瑞全球研發(fā)中心藥代動(dòng)力學(xué)研究室前負(fù)責(zé)人,藥物代謝方面的專家,致力于研發(fā)更安全更有效的藥物。他參與研發(fā)了 8 種美國(guó) FDA 批準(zhǔn)的全新化學(xué)實(shí)體藥物(NCEs),并發(fā)表了超過 100 篇的論文。
7. Eugene Koonin
美國(guó)國(guó)家生物技術(shù)信息中心(生物信息學(xué))
生物信息學(xué)家,美國(guó)國(guó)家生物技術(shù)信息中心資深研究員,美國(guó)科學(xué)院院士。主要研究方向?yàn)榛蚪M序列比對(duì)分析以及全基因組范圍的基因功能解析,他還對(duì)生命進(jìn)化過程中的數(shù)學(xué)建模分析有巨大貢獻(xiàn),是基因組進(jìn)化研究領(lǐng)域的領(lǐng)頭羊。
8. Walter Willett
哈佛大學(xué)公共衛(wèi)生學(xué)院(流行病學(xué))
醫(yī)學(xué)家和營(yíng)養(yǎng)學(xué)家,哈佛大學(xué)公共衛(wèi)生學(xué)院和醫(yī)學(xué)院教授。他曾在 2001 年出版了一本營(yíng)養(yǎng)學(xué)著作 Eat, Drink, and Be Healthy,顛覆了許多流行的營(yíng)養(yǎng)學(xué)觀念,甚至對(duì)美國(guó)官方機(jī)構(gòu)的指導(dǎo)意見提出了批評(píng)。這也使他成為了最著名的營(yíng)養(yǎng)學(xué)家之一。
9. Rudolf Jaenisch
麻省理工學(xué)院(遺傳學(xué))
分子生物學(xué)家和遺傳學(xué)家,通過建立小鼠轉(zhuǎn)基因模型,為研究人類疾病作出了重大貢獻(xiàn),被認(rèn)為是轉(zhuǎn)基因研究領(lǐng)域的先驅(qū)。他的小鼠模型使我們能夠深入研究癌癥、神經(jīng)性疾病等多種疾病發(fā)生的原因,還讓我們能夠觀察和探討 DNA 復(fù)制錯(cuò)誤和 X 染色體失活帶來的影響。
10. Bert Vogelstein
約翰霍普金斯大學(xué)醫(yī)學(xué)院(腫瘤學(xué))
癌癥基因組學(xué)領(lǐng)域的先驅(qū),基于對(duì)大腸癌的研究,他于 1988 年提出一個(gè)人類癌癥模型,假設(shè)連續(xù)積累的癌基因和抑癌基因的突變可以導(dǎo)致癌癥。p53 是首個(gè)印證這一假說的基因。1991 年他與人合作發(fā)現(xiàn)了另一抑癌基因 APC。這些研究為現(xiàn)在許多現(xiàn)代癌癥研究掃除了道路。
不過,這份列表中女性的缺失引發(fā)了社會(huì)媒體的注意力,以至于有些研究人員懷疑這樣的結(jié)果反映出 Semantic Scholar 的算法有性別偏差,不過也有人認(rèn)為這反映出的是長(zhǎng)久以來生物醫(yī)學(xué)乃至科學(xué)出版界對(duì)女性的差異對(duì)待。
在一份聲明中,負(fù)責(zé)監(jiān)督 Semantic Scholar 項(xiàng)目的 AI2 高級(jí)產(chǎn)品經(jīng)理瑪麗·海格曼(Marie Hagman)表示:“我認(rèn)為,這份‘高影響力引用分析’中前十名作者沒有女性,恰恰反映出了人們?cè)嵅∫丫玫目茖W(xué)出版行業(yè)內(nèi)的‘發(fā)表偏倚’,這一問題也是現(xiàn)今全球?qū)υ掙P(guān)于性別議題的重點(diǎn)內(nèi)容。同時(shí),我們也因?yàn)槿藗儗?duì)此越來越多的關(guān)注而感到備受鼓舞——要知道,去年我們給出同樣清一色的男性名單時(shí),并沒有看到這樣的輿論。
如何應(yīng)對(duì)“論文爆炸”時(shí)代
“粗略算來,每隔 9 年科學(xué)論文的數(shù)量就能翻一倍。在這樣的增長(zhǎng)速度下,想要跟上科學(xué)的發(fā)展變得越來越艱難,”海格曼說,“這些論文里存儲(chǔ)著太多我們想要‘呈現(xiàn)出來’的信息,我們認(rèn)為肯定有某些辦法能夠讓人們從成堆的 PDF 中解脫出來。”
Semantic Scholar 每月平均使用次數(shù)達(dá)到一百萬,然而她希望最終這一工具能夠走得更遠(yuǎn)——比如向研究人員直接提供一些理論假說供他們檢測(cè)。在她的展望中,這一工具能夠提取不同論文中相似實(shí)驗(yàn)的數(shù)據(jù),并將這些數(shù)據(jù)進(jìn)行比較和分析。她說:“我們相信,自動(dòng)化的薈萃分析(meta-analysis)將是我們期待達(dá)成的目標(biāo)。”
同時(shí)海格曼也指出了 Semantic Scholar 的局限性:無法捕獲需要付費(fèi)的論文。然而,她的團(tuán)隊(duì)也正在和出版商們協(xié)商,討論他們能在何種程度上達(dá)成對(duì)付費(fèi)論文的訪問。
除了 SemanticScholar,現(xiàn)今已有的很多其他學(xué)術(shù)搜索引擎,比如谷歌學(xué)術(shù)(Google Scholar)和微軟學(xué)術(shù)搜索(Microsoft Academic Search),也都能夠幫助特定領(lǐng)域的專業(yè)研究人員查找到他們想要的信息。但海格曼表示,如果想要探索不同領(lǐng)域間的聯(lián)系,或者一些新的領(lǐng)域,那么沒有任何一個(gè)工具能夠像 Semantic Scholar 一樣提供“發(fā)現(xiàn)式體驗(yàn)”。
Semantic Scholar能夠生成科學(xué)家之間的學(xué)術(shù)交流關(guān)系,這只是它眾多功能中的一條。
賓夕法尼亞大學(xué)的 AI 研究員蘭迪·奧爾森(Randy Olson)認(rèn)為,Semantic Scholar 的實(shí)用性遠(yuǎn)遠(yuǎn)超出了谷歌學(xué)術(shù)。他問道:“Semantic Scholar 能意識(shí)到在某一領(lǐng)域相對(duì)不重要的發(fā)現(xiàn)會(huì)在另一領(lǐng)域是一個(gè)重大突破嗎?現(xiàn)在只有時(shí)間能回答,但我對(duì)這個(gè)問題抱樂觀態(tài)度。”
不過對(duì)于未來這類搜索工具的發(fā)展趨勢(shì),賓夕法尼亞大學(xué)的一位數(shù)據(jù)科學(xué)家丹尼爾·希梅爾斯坦(Daniel Himmelstein)認(rèn)為:“通用型的搜索引擎可能會(huì)變得更加先進(jìn),因此我們可能不再需要專門的學(xué)術(shù)搜索引擎。”他說,“(學(xué)術(shù)搜索引擎)很難打敗已經(jīng)經(jīng)過幾十年訓(xùn)練、從整個(gè)互聯(lián)網(wǎng)中檢索信息的搜索引擎。”
聯(lián)系客服