北理工團隊在激光雷達點云數據3D目標檢測領域取得新突破
發布日期:2023-12-26 供稿:光電學院 攝影:光電學院
編輯:盛筠 審核:董立泉 閱讀次數:該研究成果以題為“MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D Object Detection”的論文形式發表在國際頂級期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》上。IEEE TPAMI作為人工智能、模式識別和圖像處理等領域的頂級權威期刊,其影響因子為23.6,是中國計算機協會(CCF)推薦的人工智能領域A類期刊。論文的第一作者為北京理工大學李佳男副研究員,通訊作者為許廷發教授。
針對真實大規模場景中存在的遠距離目標誤檢漏檢和3D檢測模型在精度和計算效率之間難以平衡的瓶頸問題,科研團隊提出了一種全稀疏體素Transformer點云特征提取網絡架構(MsSVT),如圖1所示。該網絡架構引入了混合尺度注意力機制,捕獲感興趣目標的局部細粒度幾何信息與長程上下文信息;運用三維空間中非空體素的稀疏特性,僅對非空體素位置執行混合尺度注意力操作,從而提升了計算效率,實現了高效的激光雷達點云3D目標檢測。
圖1. MsSVT點云特征提取網絡架構圖
該方法基于混合尺度注意力機制的強大多尺度特征捕獲能力(見圖2(a)-(d)),在大規模Waymo數據集上的檢測精度超過了同期性能最優的雙階段檢測器。圖2(e)-(f)展示了部分在Waymo數據集上的部分檢測結果,該方法可以精確檢測僅具有極度稀疏點云表示的遠距離車輛目標,并在處理帶有巨大尺度變化的密集行人時也表現出優異的性能。
圖2. 注意力圖(a)-(d)及目標檢測結果可視化(e)-(f)
該研究成功克服了三維場景中由于遠距離目標點云極度稀疏而導致的目標定位困難以及漏檢等問題,實現了精度與計算效率的平衡,為真實大規模場景下基于激光雷達點云數據的3D目標檢測及應用提供了方法和關鍵技術支持。
論文詳情:J. Li, S. Cong, L. Ding and T. Xu, MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D Object Detection, in IEEE Transactions on Pattern Analysis and Machine Intelligence, doi: 10.1109/TPAMI.2023.3345880.
論文鏈接:https://ieeexplore.ieee.org/document/10371785
附作者簡介:
李佳男,博士,北京理工大學光電學院預聘助理教授(特別副研究員),新加坡國立大學博士后。主要從事光電成像目標探測與識別等方面的研究,主持國家自然科學基金等項目 5 項。以第一/共一作者發表IEEE TPAMI 4篇,IEEE TNNLS、CVPR等論文11篇,ESI高被引論文1篇;以通訊作者發表論文40余篇;谷歌學術總引4000余次。入選中國科協及北京市科協“青年人才托舉工程”項目,獲得中國圖象圖形學學會優秀博士學位論文,王大珩光學獎等榮譽。指導學生獲得 ICCV 2021“反無人機跟蹤”挑戰賽國際冠軍及最佳論文獎、第四屆“空天杯”創新創意大賽二等獎、中國高等教育博覽會“校企合作 雙百計劃”典型案例等。
許廷發,博士,國家一級重點學科“光學工程”學科責任教授,博士研究生導師。光電成像技術與系統教育部重點實驗室主任,北京理工大學重慶創新中心智能化和大數據技術實驗室主任。近年來帶領其科研團隊圍繞光電成像探測與識別、計算成像和人工智能等領域不斷深化研究。主持承擔國家自然科學基金委重大科研儀器研制項目等50多項。在國際、國內等系列期刊發表學術論文190余篇,其中被SCI/EI收錄100余篇。以第一發明人申請國家發明專利87項,已授權和公示35項。獲省部級科技進步二等獎等獎項3項。指導研究生獲得中國圖象圖形學學會優秀博士學位論文,二人次獲得王大珩高校學生光學獎,二人次獲得全國光學與光學工程博士生學術聯賽全國百強,獲得中國高等教育博覽會“校企合作 雙百計劃”典型案例和重慶英才創新創業示范團隊等榮譽稱號。
分享到: