상세 컨텐츠

본문 제목

Deep Learning for LiDAR Point Clouds in Autonomous Driving

AI/논문

by 쑤야. 2024. 8. 17. 14:36

본문

(Ying Li, IEEE, 2020)

https://ieeexplore.ieee.org/document/9173706

 

Deep Learning for LiDAR Point Clouds in Autonomous Driving: A Review

Recently, the advancement of deep learning (DL) in discriminative feature learning from 3-D LiDAR data has led to rapid development in the field of autonomous driving. However, automated processing uneven, unstructured, noisy, and massive 3-D point clouds

ieeexplore.ieee.org

 

1. Introduction


  • 디지털 카메라로 촬영한 이미지 데이터는 2D 모양 기반 표현, 저비용, 고효율을 특징을 하며 인식 작업에 일반적으로 사용되는 데이터지만, 3차원 지리 참조 정보가 부족하기 때문에 LiDAR에서 수집한 조밀하고 지리 참조된 정확한 3D 포인트 클라우드 데이터를 활용
  • AV를 위한 LiDAR 포인트 클라우드의 applications:
    1. 장면 이해와 객체 탐지를 위한 실시간 환경 인식 및 처리
    2. 신뢰할 수 있는 위치 파악 및 참조를 위한 high-definition(HD) 지도와 도시 모델 생성 및 구축
  • application들의 유사한 작업
    1. 3D 포인트 클라우드 segmentation
    2. 3D object detection and localization
    3. 3D object classification and recognition

 

2. Task and Challenges


A. tasks


  1. 3D point cloud semantic segmentation:
    • 입력 데이터의 같은 지역에 있는 포인트들이 동일한 속성을 갖도록 clustering하는 프로세스
    • segmentation 결과는 object detection과 classfication을 추가로 지원할 수 있다
  2. 3D object detection/localization:
    • 미리 정해진 범주의 객체를 찾아서 그것의 3D 위치, 방향, 그리고 의미에 해당하는 라벨을 제공하는 것이 목표
    • 위의 정보들은 3D 경계 상자를 사용하여 대략적으로 표현될 수 있음
  3. 3D object classification/recognition:
    • 그룹의 포인트들이 속하는 카테고리를 결정하는 것이 목표

 

B. Challenges and Problems


  • 감지 조건의 변화와 제약 없는 환경으로 인해 데이터에 대한 문제가 발생한다
  • 불규칙한 데이터 형식과 정확성 및 효율성에 대한 요구사항은 DL 모델이 해결해야 하는 문제를 야기한다
  1. challenges of LiDAR point clouds:
    • diversified point density and reflective intensity:
      • LiDAR 스캐닝 모드에 따라 물체의 점밀도와 반사 강도가 크게 달라지며, 물체와 센서 간 거리, 센서 기능, 스캐닝 시간, 해상도에 의해 영향을 받는다
    • noisy:
      • 센서의 소음으로 인해 point perturbations 및 outlier 발생
    • incompleteness:
      • 폐색, 복잡한 배경, 불량한 재료 반사 등으로 인해 포인트 클라우드 데이터가 불완전하게 수집
    • confusion categories:
      • 유사한 모양이나 반사율을 가진 물체들이 감지 및 분류에 혼란을 일으킨다
  2. problems for 3D DL models:
    • permutation and orientation invariance:
      • LiDAR 포인트 클라우드는 2D 그리드 픽셀과 달리 불규칙한 순서와 방향을 가져 네트워크가 패턴을 인식하기 어렵고, N개의 점에 대해 N!개의 가능한 순열을 고려해야 한다
    • rigid transformation challenge:
      • 3D 회전 및 3D 평행이동과 같은 rigid transformation이 네트워크 성능에 영향을 주어서는 안된다
      • rigid transformation: 물체의 모양과 크기를 유지하면서 위치와 방향의 변경
    • big data challenge:
      • 도시와 시골 환경에서 수백만에서 수십억 개의 포인트를 수집하는데 이러한 양의 데이터는 저장에 어려움을 유발
    • accuracy challenge:
      • AV에서 도로 물체를 정확히 인식하는 것이 중요하지만, 객체의 변형과 데이터 품질 문제로 인해 정확성이 떨어진다.
      • 모델은 다양한 재질, 모양, 크기의 객체를 처리하고, 불균일한 데이터에도 견고해야 한다
    • efficiency challenge:
      • 포인트 클라우드는 2D 이미지보다 처리에 더 많은 계산과 시간이 필요하며, AV의 제한된 계산 자원 때문에 효율적이고 확장 가능한 모델이 필수적

 

3. Datasets and Evaluation metrics


A. Datasets


B. Evaluation Metrics


  • for segmentation task:
    • Intersection over Union(IoU)
    • overall accuracy(OA)
  • for detection and classification task:
    • precision
    • recall
    • F1-score
    • Matthews correlation coefficient(MCC)
  • for 3D object localization and detection task:
    • average precision(AP3D)
    • average orientation similarity(AOS)

 

4. General 3D Deep learning frameworks


A. Voxel-based models


  • 기존 CNN은 2D 픽셀 배열과 같은 규칙적인 구조를 가진 데이터에 주로 적용되기 때문에 정렬되지 않은 3차원 포인트 클라우드 데이터에 CNN을 적용하기 위해 일정한 크기의 규칙적인 그리드로 나눠 3차원 공간에서의 데이터 분포를 설명
  • voxel 기반 표현의 장점:
    • 점유된 voxel을 visible, occluded, self-occluded 등 여러 유형으로 분류하여 3차원 형상 및 시점 정보를 인코딩할 수 있음
    • 3D 컨볼루션 및 풀링 작업을 voxel 그리드에 직접 적용할 수 있음
  • 일반적인 volumetric 3D 데이터 표현의 제한 사항
    1. 스캐닝 환경의 점유된 부분과 점유되지 않은 부분을 포함하기 때문에 모든 voxel 표현들이 유용한 것은 아니기 때문에 비효율적인 데이터 표현 내에서는 컴퓨터 저장에 대한 높은 수요가 실제로 불필요
    2. 입력 데이터의 크기에 영향을 미치고 포인트 간의 공간적 관계를 방해할 수 있기 때문에 그리드의 크기를 설정하는 것이 어렵다
    3. 계산 및 메모리 요구사항은 해상도에 따라 3차원적으로 증가하기 때문에 기존 voxel 기반 모델들은 낮은 3D 해상도를 유지

 

B. Point clouds based models


  • voxel 3D 데이터 표현과 달리 포인트 클라우드 데이터는 3D geospatial 정보와 internal local structure를 보존할 수 있다
  • 포인트 클라우드는 입력 데이터와 메트릭이 수용 필드의 범위를 결정하므로 효율성과 정확도가 높다
    • voxel 기반 모델은 고정 보폭으로 공간을 스캔하여 로컬 수용 필드에 의해 제한
  • 포인트 클라우드 기반 심층 모델은 주로 순열 문제를 해결하는 데 중점
  • 순열 분별성을 유지하기 위해 로컬 규모에서 점을 독립적으로 처리하지만, 이러한 독립성은 점과 이웃 사이의 기하학적 관계를 무시하여 지역적 특징이 누락되는 근본적인 한계를 제시

 

C. Graph-based models


  • 그래프는 포인트 클라우드 데이터를 나타내는데 사용할 수 있는 non-Euclidean 데이터 구조의 한 유형
  • CNN의 발전으로 3차원 데이터에 increment graph convolutional network가 적용
  • 점과 이웃 간의 기하학적 관계를 활용하는 것이 그래프 기반 모델의 장점으로, 각 노드의 그룹화된 엣지 관계에서 보다 공간적으로 지역적인 상관 특성이 추출된다
  • graph based deep model을 구성에서 발생하는 과제
    1. 동적으로 크기가 지정된 이웃에 적합한 연산자를 정의하고 CNN의 가중치 공유 방식을 유지하는 것
    2. 각 노드의 이웃 간의 공간적, 기하학적 관계 활용

 

D. View-based models


  • 2D 뷰를 사용하면 기존의 CNN(예: AlexNet, VGG, GoogLeNet, ResNet)과 사전 훈련된 네트워크를 활용할 수 있다
  • 이러한 방법은 복셀 기반 모델에 비해 계산 비용이 적고 해상도가 높으며, 다양한 3D 작업에서 성능을 향상시킬 수 있다
  • 또한, 2D 심층 학습 아키텍처와 데이터셋을 잘 활용할 수 있어 포인트 클라우드나 복셀 그리드보다 효율적

 

5. Deep Learning in LiDAR point cloud for AVs


  • 자율주행을 위한 LiDAR 포인트 클라우드의 applications
    • 3D point cloud segmentation
    • 3D object detection and localization
    • 3D objects classification and recognition
  • 포인트 클라우드 특징은 3D 공간의 특정 지점을 나타내며, 해당 지점 주변의 정보를 바탕으로 기하학적 구조와 특징을 설명하는데, 특징은 2가지로 나뉜다
    1. direct input point feature representations → 센서에서 직접 파생
      • XYZ coordinate
      • Intensity
    2. geo-local point feature representations → 각 포인트의 이웃이 제공하는 정보에서 추출
      • Local density
      • Local normal
      • Local curvature
      • Local linearity
      • Local planarity

 

A. LiDAR point cloud semantic segmentation


  • 데이터 표현의 방법에 따라 기법 분류

  1. point cloud based:
    • feature embedding과 network construction 2가지로 구성
    • local과 global feature들 모두 식별 가능한 특성 표현을 위한 CNN의 성공에 중요한 요소
  2. voxel-based:
    • 복셀 기반 네트워크에서는 포인트 클라우드를 격자 형태로 복셀화하여 이들 격자로부터 특징을 학습한다
    • voxel-based point cloud segmentation task에서 각각의 포인트에 label을 지정하는 2가지 방식 존재
      1. 예측 확률의 argmax에서 파생된 voxel label 사용
        • 간단하지만 노이즈의 영향을 받기 쉽다
      2. 공간적 일관성을 기반으로 포인트 클라우드의 클래스 레이블을 전체적으로 최적화
        • 정확하지만 추가적인 연산이 필요하므로 복잡함
    • volumetric 데이터 표현에 대한 세부 정보를 추출하기 위해 후처리 단계에서 CRF(Conditional Random Field)가 일반적으로 채택
    • CRF는 포인트 간 상호작용과 같은 하위 수준 정보를 결합하여, CNN이 놓치는 미세한 로컬 세부 정보를 보완하며 다중 클래스 라벨링 작업에서 정확한 추론을 가능하게 한다
  3. multi-view based:
    • segmentation 작업을 위해 view rendering과 deep architecture construction 2가지 키 모듈로 구성
    • view rendering은 기존 CNN 기반 deep 아키텍처를 활용할 수 있는 구조적이고 잘 구성된 2D 그리드를 생성하는데 사용
    • deep architecture는 다양한 데이터에 적합하고 생성적인 모델을 구축하기 위해 제안됨
    • hand-designed feature descriptors들이 local과 global 정보들을 동시에 추출하기 위해 사용
    • VGG16, AlexNet, GoooLeNet, ResNet과 같은 discriminative 2D deep network들이 포인트가 다중 뷰 2D 이미지에 투영될 때 semantic segmentation 작업을 수행

 

B. 3D Objects detection(localization)


  • 3D 객체들의 detection과 localization은 bounding box prediction과 obejectness prediction으로 요약
  • LiDAR-only 패러다임에서 데이터 표현 방식은 2가지로 구분
    1. 직접 3D 객체를 탐지하고 위치를 찾는 방법
    2. 3D 포인트를 정규 그리드로 변환한 후, 2D 탐지기 아키텍처를 활용해 이미지를 통해 객체를 추출하는 방식
      • 2D 탐지 결과들은 다시 3D 공간으로 투영되어 3D 객체의 위치를 추정
  1. 3D objects detection(localization) from point clouds:
    • 대규모 포인트 클라우드에서 3D object detection과 localization의 일반적인 절차
      1. 전체 장면을 대략적으로 분할한 다음 대략적인 관심 객체 위치를 제안
      2. 제안된 각 지역의 특징을 추출
      3. Bounding-Box 예측 네트워크를 통해 위치 및 객체 클래스 예측
  2. 3D objects detection(localization) from regular voxel grid:
    • 일부 접근 방식은 CNN을 더 효과적으로 활용하기 위해 3D 공간을 복셀 그리드로 변환하며, 이 그리드는 점유 상태와 같은 스칼라 값으로 표현
    • 비어 있는 셀은 0 벡터로 나타내고, 특징 벡터는 이진 점유율 및 반사율의 평균과 분산, 세 가지 형태 요인을 사용하여 설명
  3. 3D objects detection(localization) from 2D views:
    • LiDAR 포인트 클라우드를 2D 뷰로 투영하는 몇 가지 접근 방식이 있다.
    • LiDAR 포인트 클라우드를 2D 뷰로 투영하는 접근 방식의 구성
      1. 3D 포인트의 투영
      2. 투영된 이미지에서 객체 감지

 

C. 3D object classification


  • 비구조적이고 통제되지 않은 현실 환경에서 자율주행차의 안전과 신뢰성을 위해 의미적 객체 분류 및 인식이 중요
  • 기존의 3D 객체 감지 기술은 주로 CAD 데이터나 RGBD 데이터에 집중되지만, 이러한 데이터는 포인트 분포 및 형상이 균일하고 제한된 잡음, 가려짐 및 배경 혼잡을 가지고 있어 LiDAR 포인트 클라우드와 비교할 때 도전과제가 적다
  • LiDAR 데이터를 기반으로 한 deep models
    1. volumetric architectures:
      • 포인트 클라우드를 볼륨화하고, 이를 통해 정보 손실 없이 인지 가능한 정보를 제공하는 것이 핵심
    2. multi-view architectures:
      • 지역 및 전역 공간 관계를 활용하여 객체의 분류 성능을 향상시키며, 이미지 맵핑과 클러스터링 기술을 활용하여 도로 표식 분류를 한 사례도 있다.

 

6. Research challenges and opportunities


  1. Multi-source Data Fusion:
    • 이미지, LiDAR 포인트 클라우드, 레이더 데이터 등 다양한 소스의 융합은 정확하고 지리 참조된 정보를 제공하지만, 여러 문제점이 존재
    1. 포인트 클라우드의 희박성으로 인해 다중 소스 데이터를 융합할 때 데이터가 일관되지 않고 누락되는 문제 발생
    2. 기존의 DL 지식을 활용한 데이터 융합 방식이 별도의 라인에서 처리되는데, 이는 end-to-end 방식이 아니다
  2. Robust Data Representation:
    • 복셀, 포인트 클라우드, 그래프, 2D 보기 등 여러 데이터 표현 방식이 있지만, 메모리 효율적이고 강력한 3D 데이터 표현 방식은 아직 확립되지 않았다
    • 각 방식의 계산 비용과 처리 가능한 포인트 수에 제한이 있다
  3. Effective and More Efficient Deep Frameworks:
    • AV 플랫폼의 메모리와 계산 제약을 고려할 때, 효과적이고 효율적인 딥러닝 아키텍처가 필요
    • 가벼운 모델 설계와 실시간 성능 향상이 중요
  4. Context Knowledge Extraction:
    • 포인트 클라우드의 희소성과 개체 불완전성으로 인해 상황 정보의 완전한 추출이 어려우며, 다중 규모 특징 융합이나 GAN 활용이 일부 개선을 보여주지만 엔드투엔드 학습 방식으로는 해결되지 않고 있다
  5. Multi-task Learning:
    • 장면 분할, 객체 감지, 분류 등 여러 작업을 통합하여 정보를 융합하는 DL 아키텍처는 부족하며, 이를 통해 더 나은 모델을 일반화하고 계산을 줄일 필요가 있다
  6. Weakly Supervised/Unsupervised Learning:
    • 지도 학습 모델은 레이블이 지정된 데이터에 의존하지만, 데이터 부족 문제와 일반화 한계가 있다
    • 약하게 지도 학습이나 비지도 학습 방법이 데이터 부족 문제를 해결할 수 있다

 

7. Conclusion


관련글 더보기