來源:量子位(ID:QbitAI)
又一全球AI頂會,盡是中國力量舉杯相慶。
KDD,數據挖掘領域國際最高級別會議,今年在美國阿拉斯加州舉行,最佳論文及三大競賽等主要獎項,剛剛已全部揭曉。
今年,中國面孔星光璀璨。康奈爾大學華人博士Dong Kun以一作身份斬獲研究賽道最佳論文,初創公司獎項、KDD CUP三大賽事,也基本被中國公司包攬。
詳情傳送如下:
雙盲評審第一年,15%接收率
KDD,國際數據挖掘與知識發現大會,全稱:ACM SIGKDD Conference on Knowledge Discovery and Data Mining,是數據挖掘領域國際最高級別會議。
自1995年以來,KDD大會連續舉辦了二十余屆,每年的接收率不超過20%,今年的接收率不到15%。
值得一提的是,今年也是KDD采用雙盲評審的第一年。
依然分為研究賽道和應用賽道。
其中,據已公開消息,KDD研究賽道共收到1179篇投稿,其中111篇被接收為Oral論文,63篇被接收為Poster論文,入選率14.8%。
應用賽道收到700余篇論文,其中大45篇被接收為Oral論文,100篇被接收為Poster論文,接收率20.7%。
相較而言,KDD 2018年研究賽道接收181篇,接收率為18.4%,應用賽道接受112篇,接收率22.5%。
強調論文可復現
而且最重要的是,KDD今年還在投稿通知中特別強調——可復現性——且規定該項會作為最佳論文評選資格,論文需要額外提交內容展示可復現內容。
包括實驗方法、經驗評估和結果,也鼓勵在論文中公開研究代碼和數據,盡可能完整地描述論文中使用的算法和資源。
于是,KDD 2019也成為了備受關注的一屆。
來看具體獎項都被哪些團隊捧走了:
研究賽道最佳論文
Network Density of States(態網絡密度)
https://arxiv.org/pdf/1905.09758.pdf
論文來自康奈爾大學。第一作者是Dong Kun,康奈爾大學應用數學專業博士生,碩士畢業于UCLA。
其他作者還有康奈爾大學計算機系助理教授Austin Reilley Benson和康奈爾計算機系副教授David Bindel,他也是Dong Kun的博士生導師。
譜分析將圖結構與相關矩陣的特征值和特征向量聯系起來。許多譜圖理論直接來自譜幾何,通過相關微分算子的譜來研究可微分流形。但是從譜幾何到譜圖的轉換主要集中在僅涉及少數極端特征值及其相關特征值的結果上。
與幾何學不同,通過特征值的整體分布(譜密度)對圖的研究主要局限于簡單的隨機圖模型。現實世界圖譜的內部仍然在很大程度上難以計算和解釋,尚未被探索研究。
在本文中,作者深入研究了真實世界圖譜的譜密度。我們借用了凝聚態物理中的研究工具能態密度,并添加了新的適應性來處理常見圖形圖案的譜特征。所得到的方法是高效的,論文中已經通過計算單個計算節點上具有超過十億個邊緣的圖的譜密度說明了這一點。
除了提供視覺上引人注目的圖形指紋之外,本文還展示了譜密度的估計如何推動許多常見中心度量的計算,并使用譜密度來估計有關圖結構的有意義信息,這些信息無法只從極值本征對中推斷得出。
研究賽道第二名論文
Optimizing Impression Counts for Outdoor Advertising
https://dl.acm.org/citation.cfm?doid=3292500.3330829
這項研究解決的,是關于戶外廣告如何投放才最劃算的問題,作者來自墨爾本皇家理工大學、新加坡管理大學、武漢大學和華為。
具體的問題是該團隊首次提出的,稱之為戶外廣告印象數(Impression Counts for Outdoor Advertising,ICOA)。
馬路邊的廣告那么多,但能讓你有印象的很少,大部分都忘得無影無蹤,因此,只要廣告在你腦海中留下印象,許多廣告主的目的就達到了,這項研究也就是關于如何讓更多人留下更深刻印象的。
由于移動互聯網的發達,不管你用什么交通方式,開車也好,騎摩托車、自行車也好,你每次出門的軌跡都可以被記錄下來,因此研究者們找到了出行軌跡數據庫T。在此之外,還有給定的廣告牌數據庫U和廣告主的投放預算B。
因此,概括地說,戶外廣告印象數是這樣一個問題:
廣告牌和預算就那么多,路人們就那么走,在這些給定的情況下,如何提升給路人們留下的總印象,讓錢花的最值呢?
這里要解決兩個問題:
1.每塊廣告應該讓一個路人看到幾次;
2.如何布局廣告牌的擺放,讓更多路人在出行軌跡上剛好看到最佳次數。
第一個問題此前有研究解決了,是一個S形函數,隨著廣告重復次數增加,給路人留下的印象越來越深刻,之后簡單重復就沒用了,再多就只有副作用了。
而第二個問題,廣告牌分布的問題需要用算法解決。研究團隊發現直接用貪心算法是不行的,于是提出了基于切線的算法計算子模塊函數,為了提高效率,設計了θ終止方法和漸進式上限估計方法進行優化。
最后,研究團隊在用紐約和洛杉磯兩個城市的真實軌跡和廣告牌數據集進行實驗后,驗證這項研究中提出的方法是有效的。
應用賽道最佳論文
獲得應用賽道最佳論文的是Actions Speak Louder then Goals:Valuing Player Actions in Soccer(行動勝于目標:重視足球中球員的行動):
https://arxiv.org/pdf/1802.07127.pdf
論文的作者包括,來自比利時魯汶大學的Tom Decroos,來自SciSports公司的Lotte Bransean和Jesse Davis,以及比利時魯汶大學的Jesse Davis。
評估足球運動員在比賽中的個人行為表現對比賽結果的影響,是球員招募過程中的考察重點。然而,大多數傳統指標在解決此任務時都不盡如人意,因為它們要么專注于單獨的鏡頭畫面和目標行為,要么不考慮球員做出某一動作的環境背景。
這篇論文主要介紹了:(1)一種用于描述球場上各個球員動作的新語言,SPADL;(2)一種根據球員表現對比賽結果的影響來評估球員動作的新框架,VAEP,同時考慮到動作發生時的背景。
通過匯總球員的動作價值,就可以量化他們對球隊整體進攻和防守的貢獻。
這項研究的亮點在在于考慮了通常都會被忽略的動作背景信息,研究團隊在2016/2017和2017/2018賽季的歐洲頂級賽事中用該方法收集了大量的用例。
應用賽道第二名論文
這是一項用可穿戴設備來檢測認知功能障礙 (可能是癡呆前兆) 的研究,由蘋果牽頭。
Developing Measures of Cognitive Impairment in the Real World from Consumer-Grade Multimodal Sensor Streams
https://dl.acm.org/citation.cfm?doid=3292500.3330690
可穿戴設備和移動計算設備,如今無處不在,并且在技術上取得了卓越的進步;再加上傳感器歐式的多樣化,這些進步都給持續監測患者、監測他們的日常活動,提供了可能。
有這樣豐富的縱向信息 (Longitudinal Informationn) 可挖掘,就能為認知功能障礙來分析心理學和行為學上的特征,并為及時且經濟地檢測輕度認知功能障礙 (MCI) 提供新的途徑。
MCI,就是介于正常認知與癡呆之間的狀態。
這項研究提出了一個平臺,用來遠程、不侵犯地監測認知功能障礙的相關癥狀,只依靠幾個消費機的智能設備。
團隊展示了,這個平臺是怎樣在“Lilly探索性數字評估研究”里面,收集了16TB的數據,支持了為期12周的可行性研究:監測了31位有認知功能障礙的患者,和82位沒有認知功能障礙的、生活狀態自由的人類。
研究人員還說明了,嚴謹的數據統一 (Data Unification) 、時間對齊 (Time-Alignment) 以及插補技術 (Imputation) ,是怎樣處理現實中固有的數據缺失,并最終展現了這樣的數據在分辨癥狀中發揮的作用。
時間檢驗獎
今年的時間檢驗獎(test of time award)來自CMU和Nielsen BuzzMetrics,論文為:
Cost-effective outbreak detection in networks
https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf
之所以被評為這個獎,還是因為距離這篇論文在2007年首次發出已經過去了12年,當時,CMU的Jure Leskovec、Andreas Krause、Carlos Guestrin、Christos Faloutsos、Jeanne VanBriesen和Nielsen BuzzMetrics的Natalie Glance6人因為這篇文章獲得了最佳學生論文。
在這篇論文中,研究人員證明了,很多現實生活中爆發檢測(比如檢測可能性、檢測受影響人群等)表現出“子模塊”的特性。
研究人員利用子模塊開發出一種有效的算法,名為CELF算法,來優化貪心算法(Greedy Algorithm)的效率。其算法如下:
結果表明,CELF算法可以擴展應用到比較復雜的問題,還能接近最佳位置,同時,比簡單的貪心算法快700倍。
隨后,他們在幾個大型的真實問題上繼續對CELF算法進行檢驗,利用美國國家環境保護局的水分配網絡模型和實時博客數據,得到的傳感器位置可證明接近最優解,提供了最優解的常數分數。他們還證明了這種方法可以擴展,將存儲空間節省幾個數量級。
創業研究獎
ACM SIGKDD于2017年推出了創業研究獎,旨在鼓勵早期創業公司參與數據科學領域。該獎項由創業研究獎委員會從多家競爭的結果中確定。
今天獲獎的四家公司分別是:Arkive、deepair、瑞萊智慧和天眼查。
Arkive是一家利用機器學習技術管理知識和經驗的公司,這家公司的創始人是兩名華人。
deepair為旅行供應商提供基于AI的零售平臺。
瑞萊智慧是一家向企業提供工業預測性維護、工業檢測、無監督反欺詐、人工智能系統攻防等服務的公司。
天眼查在國內的知名度已經相當高,是一家向客戶提供企業大數據的公司。
人物獎
在KDD的開幕式上,IBM Watson的研究人員Charu Aggarwal因數據挖掘的終身成就獲得了SIGKDD的創新獎(Innovation Award)。他還在本次會議上發表了三篇論文。
Charu Aggarwal于1993年在印度理工學校坎普爾分校獲得學士學位,之后又獲得了博士學位1996年到麻省理工學院工作。
他在數據挖掘領域開展了廣泛的工作,特別關注數據流、隱私、不確定數據和社交網絡分析。他已經出版了19本書籍,發表350多篇論文,并已申請或獲得80多項專利。他獲得了多項發明成就獎,并且三次被評為IBM的發明大師。
同樣是來自IBM Watson的Balaji Krishnapuram獲得了KDD的服務獎(Service Award),以獎勵他對數據挖掘做出的杰出貢獻。
它曾在2014年至2016年擔任ACM SIGKDD主席,2015年加入IBM Watson Health,為制藥行業開發AI解決方案。
今年的學位論文獎(Dissertation Award)頒發給了來自華盛頓大學的Tim Althoff,該獎項第二名是來自UIUC的華人學者Chao Zhang。
KDD CUP 2019
今年的KDD CUP有3個賽道:
常規機器學習競賽(Regular ML Track)
自動機器學習競賽(Auto-ML Track)
“Research for Humanity” 強化學習競賽(Humanity RL Track)
這一賽事,素來有“大數據世界杯”之稱,競爭非常激烈。
KDD官方統計,今年有來自39個國家的超過5000個人提交了17000份申請。
從最終的成績中來看,中國軍團尤為亮眼,包攬了大多數獎項。
首先說常規機器學習競賽,由百度贊助,一共分為兩個任務。
任務1的冠軍和亞軍都來自中國。其中,冠軍來自螞蟻金服;亞軍來自上海微盟、趨勢科技、滴滴出行、北京郵電大學、華南理工大學、京東等單位。
任務2的冠軍來自日本電信公司NTT DOCOMO,亞軍來自東南大學。
此外,額外設立的PaddlePaddle特別獎則花落中國科學技術大學。
其次是自動機器學習競賽,由第四范式贊助。
冠軍來自中國的深蘭科技和北京大學;亞軍來自新加坡國立大學;第三名來自于阿里巴巴和佐治亞理工學院。
最后說“Research for Humanity” 強化學習競賽,由IBM和Hexagon ML贊助。
冠軍來自中國臺灣,國立成功大學;亞軍來自清華大學、京東和北京航空航天大學,第三名來自瓜子。
競賽詳情地址:
https://www.kdd.org/kdd2019/kdd-cup
One more thing
不止論文、競賽都被中國軍團雄霸。
KDD 2019贊助商方面,中國力量也格外顯眼。
百度、騰訊、滴滴、阿里巴巴、快手、浪潮和松鼠AI都出現在贊助名錄上。
所以也有調侃稱,AI頂會是時候考慮在中國舉辦了,畢竟離最核心參與者都更近,還無簽證之憂。
你說呢?