[Paper Review] (수정중) An Overview on Visual SLAM: From Tradition to Semantic

Tech/SLAM

[Paper Review] (수정중) An Overview on Visual SLAM: From Tradition to Semantic

은가 2023. 1. 3. 21:19

Last Update : 2022.01.03

0. 초록

VSLAM의 장점

(1) Low-cost

(2) 다른 센서와 fusion이 쉬움

(3) 다량의 환경 정보(이미지)

그 외의 트랜드

- 요즘 트랜드는 DL과 SLAM의 결합이다.

- Semantic Info는 Hight level Info이다 (Robot이 환경을 더 잘 이해하기 위한 정보의 축에 속한다는 뜻).

- 이 review 논문의 저자들은 semantic info 용이성에 확신이 있는 편이다.

1. Introduction

SLAM은1986년 처음 소개되었다.

2. Development Status of SLAM

2.1. Sensors Commonly Used in VSLAM

아래 네 가지 카메라의 비교(Figure 3.)

(1) monocular CAM : 단안카메라. 싸다. 하지만 얻은 이미지만으로는 depth 정보 얻지 못함. indoor + outdoor.

(2) stereo CAM : 양안카메라. 먼 거리는 측정 가능(Q. 얼마나 멀어야 하는지?). indoor + outdoor.

(3) RGB-D CAM : depth(카메라로부터 물체가 떨어진 거리)가 output, 하지만 indoor 환경에서만 사용 가능.

(4) event CAM : 픽셀의 밝기 변화(event)가 output. 앞으로 연구가 많이 진행될 분야.

3. Traditional VSLAM

3.1. Monocular/Stereo VSLAM

VSLAM에는 direct method와 indirect method가 있다. direct method는 이미지로부터 얻은 모든 픽셀의 밝기 정보를 이용하는 방법이다. indirect method는 그 중 일부 픽셀만을 골라 사용하는 방법으로, 이때 추출하는 픽셀을 keypoint라고 한다.

3.1.1. VSLAM Based on the Feature Based Method (indirect)

keypoint를 추출하는 방법 또한 크게 두 가지로 구분할 수가 있는데, 먼저 개발된 것이 Harris, FAST, GFTT와 같은 corner detection이다. 하지만 corner들은 연구자들이 안정적으로 의존하기 어려운 면이 있었기 때문에, 이후에 개발된 것이 feature detction 기술이다. 예시로는 SIFT, SURF, ORB 등이 개발되어 왔다. 각각의 알고리즘 성능을 비교한 표는 Table 3에서 확인할 수 있다.

keypoint 추출 다음에 거치는 과정이 camera의 pose를 얻고, reprojection error를 최소화하는 과정이다. keypoint 추출을 이용한 SLAM 알고리즘의 대표적 예시들은 다음과 같다.

MonoSLAM

frontend : shi-Tomasi corner detection

backend : EKF

(단점) EKF는 storage와 state quantity의 제곱으로 시간이 늘어나기 때문에, large-scale scenario에는 적합하지 않음

(장점) sparse하게 실시간으로 지도 작성

PTAM

frontend : FAST corner detection

backend : nonlinear optimization with filter-based method

(단점) loopback detection 모듈이 없기 때문에, 러닝타임 도중 에러 누적

(장점) 꽤 높은 정확도, 실시간으로 camera pose와 map 추정 가능

ORB SLAM

PTAM에 loop closure 모듈을 추가해서 누적되는 에러 감소시킴

frontend : ORB feature 추출

backend : PTAM과 동일

loop closure detection : word bag model DBoW

(단점) 환경에 있는 feature들에 의존적이기 때문에, texture가 없는 환경에서는 feature가 적고, 성능이 낮을 수밖에 없음

(장점) BoW 기반의 알고리즘은 이미지 유사도를 기반으로 loop closure를 빠르고 정확하게 탐지할 수 있음

feature based SLAM은 환경에서 추출할 수 있는 feature들에 의존성이 높다. 따라서 위에서 설명한 것 처럼 texture scene이 아닌 경우에는 약한 성능과 낮은 정확도를 보인다. 또한 카메라의 빠른 움직임, 밝기 변화 문제로 인해 feature matching의 성능도 현저하게 떨어지게 된다. 이것에서 향상시킨 알고리즘이 LSD와 같이 line feature를 추출하는 알고리즘이다.

직선은 두 개의 endpoint를 갖는다. 이 직선은 물체의 움직임을 감지하고 추적하기 위해 사용된다. 또한 point-line feature로 함께 사용되기도 한다. 이 기법을 이용한 것이 LineSLAM이다. 특징선은 feature에 비해 밝기 변화에 덜 민감하다. 따라서 positioning accurcy와 robustness가 강하다.

PL-SLAM과 stereo PL-SLAM은 ORB-SLAM을 기반으로 LSD detection 알고리즘을 이용했다. LSD는 거의 대부분의 feature들이 사라졌을 때도 작동이 가능하지만, 실시간 퍼포먼스 면에서는 좋지 않다. 또한 환경적 특징에 따라 사용하면 좋을 feature도 다르다.

PLP-SLAM은 point, line, plane을 모두 사용한 SLAM 알고리즘이다. 정적 맵에서 로봇 pose의 초기 상태를 추정할 때는 point를 사용하고, 가상 환경 정보를 얻기 위해서는 line과 plane을 사용했다. 하지만 대부분 plane feature를 추출할 수 있는 실제 환경은 극소수이고, 주로 가상환경에서만 적용이 가능하다. feature별 장단점은 Table 4에 적혀 있다.

3.1.2. VSLAM Based on Direct Method

feature extraction 없이, 모든 픽셀의 밝기를 이용한다. 따라서 복잡한 texture를 가진 환경에서도 적용성이 좋다.

인용 논문

- CHEN, Weifeng, et al. An overview on visual slam: From tradition to semantic. Remote Sensing, 2022, 14.13: 3010.

참고자료

- "논문 양식, 스타일 가이드의 차이점"

'Tech > SLAM' 카테고리의 다른 글

[Paper Review] (수정중) Visual SLAM and Structure from Motion in Dynamic Environments: A Survey (0)	2023.01.02

현재글[Paper Review] (수정중) An Overview on Visual SLAM: From Tradition to Semantic

Where Am I

3D환경에서 로봇은 어디에 있을까? 나는 내 인생의 어디쯤에 있을까?

alike, Boundingbox, 3D Reconstruction, human eyes, ComputerVision, esri, Drone, detection, object, Paris3D, Albumentation, gaussianprocess, 가우시안프로세스, dynamic environments, 드론, Skydio, visual SLAM, Structure from Motion, vision, 3d scan,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Where Am I