北理工在大數據最優抽樣取得研究成果
發布日期:2020-06-15 供稿:數學與統計學院
編輯:陶思遠 審核:田玉斌 閱讀次數:日前,北京理工大學數學與統計學院虞俊助理教授及其合作者在統計學四大國際頂級期刊《Journal of the American Statistical Association》上發表了題為“Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data”的研究論文。該論文針對如何從分布式存儲海量數據中提取有用的信息這一問題,從基于最優試驗設計理論的抽樣角度提出了一個快速解決方案。
隨著大數據時代的到來,人們所能獲取的數據源源不斷地以指數級的速度增加。分析這些作為信息載體的數據,從中提取有用的信息,一直是統計學和數據科學的核心研究課題之一。對海量數據進行統計分析時,通常面對兩個特別具有挑戰的問題,其一是數據量過大,無法將整個數據集存入一個計算機中,從而導致傳統統計分析算法無法直接應用到對應數據集;其二是盡管數據量適中,然而由于現有計算機的計算速度和計算能力的限制,進行統計分析往往耗時很長,無法在有限的時間內得到研究者想要的統計分析結果。
為了克服這兩個挑戰性問題,針對大數據集的統計分析方法大致可以分為如下兩類:第一類是并行計算方法,首先將整個大數據集分成若干個子數據集,對每個子數據集單獨計算,最后把這些子數據集的計算結果有機地結合在一起,得到整個數據集的推斷結果。第二類分析方法是子抽樣方法,從整個數據集中巧妙地抽取一組有效的子樣本,僅對子樣本進行統計推斷,利用樣本代替整體的思想,通過子樣本的推斷來推斷全樣本的估計結果,從而節省計算時間。雖然大量的研究結果表明子抽樣方法能夠有效解決大數據的統計推斷問題,然而如何高效地選擇攜帶信息量大、能夠提高統計推斷準確度的數據作為進行統計推斷的子樣仍然是大數據分析中亟待解決的問題之一。
虞俊助理教授與合作者的上述論文,基于最優設計的思想,對如何高效地選擇富含統計模型信息的數據這一問題給出了一個科學的方法。利用分布計算的優勢,首先對存儲在不同計算機上的數據集分別抽取子樣,之后將每個子樣本得到的估計巧妙地融合在一起,從而形成全數據集的最優近似估計。文章從理論和模擬兩方面證明了這一方法的科學性和可行性。
該項研究工作是虞俊助理教授與北京大學艾明要教授,康涅狄格大學統計系王海鷹助理教授等合作完成,虞俊助理教授為第一作者,本項工作得到北京理工大學青年教師學術啟動計劃的資助。
論文鏈接地址:
https://www.tandfonline.com/doi/abs/10.1080/01621459.2020.1773832?journalCode=uasa20
附研究團隊及個人簡介:
北京理工大學數學與統計學院試驗設計團隊積極開展國內外合作研究和學術交流,團隊負責人田玉斌教授以及團隊成員孔祥順博士,王典朋博士,虞俊博士等分別與國內外知名試驗設計學者,如C.F.Jeff Wu院士、艾明要教授、Roshan Vengazhiyil Joseph教授等建立了長期的合作關系。團隊成員分別開展著試驗設計理論與應用的研究,表現出強勁的發展勢頭。
虞俊,助理教授,北理工數學與統計學院試驗設計團隊主要成員。本科畢業于南開大學、博士畢業于北京大學,曾在美國佐治亞州立大學作訪問學者。主要從事試驗設計,抽樣理論以及相關的統計應用研究工作。在《Journal of the American Statistical Association》《Computational Statistics & Data Analysis》《Statistica Sinica》《Journal of Statistical Planning and Inference》等統計學權威期刊發表了多篇高水平學術論文。
分享到: