[컴퓨터비전] 축구 영상 분석과 자율주행 객체 인식까지

https://youtu.be/_f-oX7ca3 Ik

내용 요약
축구 영상 비디오를 분석하는 딥 러닝 모델을 설명합니다. Foot And Ball 모델은 1920*1080의 고해상도 이미지에 대해 37FPS의 어느 정도 실시간 구동과 MAP 0.9 이상의 우수한 성능을 보여주고 있습니다. 과거에는 축구 영상을 분석하기 위해 수작업으로 진행했습니다. 예를 들어 직접 특정 선수가 공을 잡고 있는 순간을 찾아야 하고 매번 다른 경기마다 반복해야 하는 번거로움이 있었습니다. 그러나 상기 모델을 통해 이 작업을 자동화하여 처리할 수 있게 되었다는 점에서 의의가 있습니다. 모델은 크게 Player Classifier와 위치 좌표를 담당하는 Bbox regressor 그리고 Ball Classifier로 구성되어 있으며, 탑다운 프로세스를 통해 Ballconfidence를 높이는 데 주력하고 있다고 합니다. 공의 위치는 축구라는 운동의 특성상 가장 중요한 정보이기 때문입니다. 물론 아직까지 눈가리개, 양손을 들었다 내렸다 하는 혹은 넘어짐 등의 변형에 대해서는 영향을 받지만 이는 보다 다양한 데이터 구축과 전처리를 통해 개선해 나갈 수 있다고 합니다.
2. Real Time Multi Object Detecting
– 주제 선정 실시간 단위로 다양한 객체를 정확하게 탐지하는 기술에 관심이 있습니다. 특히 최근 화제가 되고 있는 ‘자율주행’ 기술에 접목될 이 기술에 기대가 큽니다.
– 개념부터 먼저 객체 인식이란 하나의 특정 이미지를 입력했을 때 주어진 이미지를 분석하여 위치(location)와 종류(class)를 파악하는 것입니다.
– 기술 원리 특히 이를 구하는 방법으로 크게 두 가지로 구분할 수 있는데 단일 단계 검출과 2단계 검출 방법입니다. 단일 단계는 모든 영역에서 위치 검출과 분류를 동시에 수행합니다. 그래서 속도는 빠르지만 정확도는 다소 떨어집니다. 단, 2단계는 우선 대략적인 위치 검출 후에 후보군 내에서 분류를 실시합니다. 그래서 정확도는 높지만 속도는 떨어진다는 단점이 있습니다. 대표적으로 단일 단계로는 YOLO, SSD가 있고, 2단계로는 R-CNN, Faster R-CNN이 있습니다.

단일 단계 검출 알고리즘, YOLO와 SSD, 참고 논문 이미지

2단계 검출 알고리즘, R-CNN과 Faster R-CNN, 참고 논문 이미지-전망 및 결론 자율주행이란 운전자의 개입 없이 자체적으로 주변을 인식하고 상황을 판단해 목적지까지 스스로 주행하는 것입니다. 즉, 충분히 성능이 보장되면 교통사고나 도로범죄 발생률을 줄일 수 있고 운전자 편의 증대 등 교통 효율성을 높일 수 있습니다. 또한 거시적인 도시 오염을 줄이고 사회경제적 비용을 절감하는 효과를 가져옵니다. 물론 아직 상용화를 위해 다양한 문제를 해결해 나가야 합니다. 예를 들어 외부와 무선으로 연결되는 컴퓨터 시스템의 보호, 사고 발생 시 책임 소재 규명, GPS가 닿지 않거나 통신이 불가능한 지역에서의 주행 등입니다. 그래도 결국 기계는 남들과 달리 집중력이 흐트러지지 않는다는 것, 그리고 점점 정확해진다는 점에서 전도유망하다고 할 수 있습니다.

참고 문헌
임헌국, 자율주행 차량 영상 기반 객체 인식 인공지능 기술 현황, 한국정보통신학회 논문지, Vol.25, No.8:1117~1123, Aug. 2021