TẠ CHÍ ISSN: 1859-316X KHOA H C - CƠNG NGH KHOA HỌC CÔNG NGHỆ HÀNG HẢI JOURNAL OF MARINE SCIENCE AND TECHNOLOGY PHÁT HI N VÀ PHÂN LO I NG I I B S D NG PH NG PHÁP H C SÂU PEDESTRIAN DETECTION AND CLASSIFICATION USING DEEP LEARNING LÊ QUY T TI N1*, NGUY N V N HÙNG2, TR N TH H NG1, NGUY N H U TUÂN1 Khoa Công ngh thông tin, Tr ng i h c Hàng h i Vi t Nam H c viên cao h c ngành Cơng ngh thơng tin - Khóa 2020.1, Tr ng i h c Hàng h i Vi t Nam *Email liên h : tienlqcnt@vimaru.edu.vn Tóm t t Trong nghiên c u này, đóng góp c a nhóm tác gi t p trung vào gi i quy t toán phát hi n phân lo i ng i b (ng i tr ng thành hay tr em) hình nh d a ph ng pháp h c sâu theo hai h ng ti p c n h ng th nh t, toán đ c chia thành hai toán thành ph n: phát hi n ng i b phân lo i ng i b Hình nh ng i b s đ c tách t hình nh đ u vào đ a qua b phân lo i đ xác đ nh ng i b ng i l n hay tr em C th , toán phát hi n ng i b đ c nghiên c u d a mơ hình phát hi n đ i t ng YOLO tốn phân lo i hình nh ng i b đ c nghiên c u mơ hình VGG, Inception, ResNet EfficientNet h ng ti p c n th hai, toán đ c nghiên c u theo h ng phát hi n phân lo i ng i b s d ng nh t m t mơ hình c th mơ hình phát hi n đ i t ng YOLO K t qu thu đ c c a nghiên c u t ng đ i t t v i c hai h ng ti p c n H ng ti p c n th nh t cho đ xác trung bình phát hi n ng i b đ t 0.797 đ xác phân lo i ng i b đ t 0.955 Tuy nhiên h ng ti p c n th hai th hi n s v t tr i cho đ xác cao h n đ t 0.851 đ ng th i có th i gian th c thi t t h n nhi u so v i h ng ti p c n th nh t T khóa: Phát hi n đ i t ng, phân lo i hình nh, ng i b , ng i l n, tr em, h c sâu Abstract In this study, the main contribution is to solve the task of pedestrian detection and adult / kid classification by using two approaches In the first one, the task is divided into two sub-tasks: pedestrian detection and adult / kid classification Pedestrian image regions are cropped from input images and passed through a classifier to determine if they are adult images or kid images Specifically, the pedestrian detection task is studied by using an object detection model YOLO while the classification task is studied by using typical deep models: VGG, Inception, ResNet and S 70 (04-2022) EfficientNet In the second approach, only one object detection model, YOLO is used to detect and classify pedestrians The obtained results are quite good for both approaches The first one has a good mean average precision of the pedestrian detection task at 0.797 and the classification accuracy is 0.955 However, the second approach has much better results with a higher mean average precision 0.851 and a much better performing time compared to the first approach Keywords: Object detection, image classification, pedestrian, adult, kid, deep learning Gi i thi u Ngày nay, tai n n giao thông v n m t v n đ n i c m c a xã h i Theo thông tin t C c C nh sát giao thông - B Công an, tháng đ u n m 2021, toàn qu c x y 6.278 v tai n n giao thông, làm ch t 3.147 ng i, b th ng 4.465 ng i Nguyên nhân ch y u l i vi ph m giao thông th c tr ng ph n ánh tính ph c t p c ng nh m c đ nguy hi m vi c tham gia giao thông t i Vi t Nam Các bi n pháp h tr ng i tham gia giao thông tr thành m t nhu c u c p thi t nh m gi m thi u r i ro tai n n Vi c ng d ng khoa h c công ngh đ gi i quy t v n đ hi n h ng gi i quy t có ti m n ng l n Bên c nh đó, cu c cách m ng khoa h c công ngh di n m nh m Vi t Nam c ng nh toàn th gi i Vi c tri n khai h th ng camera hành trình tham gia giao thơng vi c ng d ng trí tu nhân t o, th giác máy tính vào cu c s ng ngày ph bi n h n Các camera hành trình thơng th ng ch có ch c n ng ghi l i hình nh mà ch a t n d ng đ c vào vi c h tr ng i u n ph ng ti n giao thông Vi c phát hi n ng i b phân lo i ng i b ng i tr ng thành hay tr em ti n đ cho nhi u gi i pháp h tr gi m thi u r i ro tai n n (c nh báo ng i sang đ ng, c nh báo tr em ch y phía tr c,…) 87 TẠP CHÍ KHOA H C - CƠNG NGH Bài tốn phát hi n ng i b không ph i m t toán m i nh ng toán phân lo i ng i b ng i tr ng thành hay tr em hi n v n ch a đ c nghiên c u sâu Trong báo này, m t v n đ ch a có câu tr l i đ c đ a ra: Vi c t ng quát hóa đ c tr ng c a ng i b nói chung (bao g m c ng i l n tr em) hay phân bi t hóa đ c tr ng c a tr em đ c tr ng c a ng i l n riêng r hi u qu h n toán phát hi n ng i b ? Nói cách khác, vi c phân đ nh riêng bi t tr em ng i l n có làm ph c t p hóa toán phát hi n ng i b li u có hi u qu h n tách bi t toán phát hi n ng i b toán phân lo i ng i b ? Xu t phát t v n đ đ c nêu ra, toán phát hi n phân lo i ng i b đ c nghiên c u theo hai h ng ti p c n h ng ti p c n th nh t, toán đ c chia thành toán phát hi n ng i b toán phân lo i ng i b (minh h a Hình 1) C th , khn hình ng i b s đ c xác đ nh trích xu t t hình nh đ u vào b c th nh t thông qua đ c tr ng c a ng i b nói chung (bao g m c ng i l n tr em) b c th hai, khuôn hình trích xu t đ c s đ c phân lo i ng i l n hay tr em (thông qua đ c tr ng phân lo i ng i l n tr em) Hình H ng ti p c n s d ng b phát hi n b phân lo i ng i b riêng bi t Trái ng c l i, h ng ti p c n th hai, đ i t ng ng i l n b tr em b s đ c phát hi n phân lo i m t b c th c hi n thông qua đ c tr ng ng i l n b tr em b nh đ c minh h a Hình Hình H ng ti p c n s d ng b phát hi n phân lo i ng 88 i b tích h p ISSN: 1859-316X KHOA HỌC CÔNG NGHỆ HÀNG HẢI JOURNAL OF MARINE SCIENCE AND TECHNOLOGY Trong nghiên c u này, toán phát hi n phân lo i ng i b đ c t p trung nghiên c u gi i quy t ng th i, u nh c m c a hai h ng ti p c n toán c ng đ c nghiên c u, đánh giá so sánh đ tr l i câu h i đ c đ t ban đ u B i c nh nghiên c u 2.1 Bài toán phát hi n ng i b Bài toán phát hi n ng i b m t toán thu c h toán phát hi n đ i t ng Trong đó, phát hi n đ i t ng s k t h p c a toán đ nh v đ i t ng phân lo i đ i t ng xác đ nh khung bao quanh t ng đ i t ng hình đ ng th i xác đ nh l p (nhãn) c a đ i t ng Các h ng gi i quy t tiêu bi u tr c cho toán phát hi n đ i t ng có th k đ n nh "các bi n th Viola & Jones" [1], bi u đ đ nh h ng gradient (Histogram of Oriented Gradients - HOG) [2], b phát hi n ph n bi n d ng (Deformable Part Detectors - DPM) [3] Ngày nay, h ng ti p c n m ng h c sâu s d ng mơ hình CNN [8] v n h ng ti p c n hi u qu nh t cho toán phát hi n đ i t ng nói chung tốn phát hi n ng i b nói riêng V i h ng ti p c n có th k đ n hai h mơ hình tiêu bi u mơ hình R-CNN (Regions with Convolutional Neural Network - m ng n ron tích ch p vùng) [4], [6], [7] h mơ hình YOLO (You Only Look Once - b n ch nhìn m t l n) [9], [10], [11], [12] H mơ hình R-CNN đ c đ c p t i v i ba mơ hình tiêu bi u R-CNN [4], Fast R-CNN [6] Faster R-CNN [7] Mơ hình R-CNN [4] bao g m ba thành ph n chính: B đ xu t vùng (region proposal), b trích xu t đ c tr ng (feature extractor) b phân lo i u ch nh h i quy (classifier and regressor) Trong đó, b đ xu t vùng ch u trách nhi m đ xu t vùng có th ch a v t th , vùng đ c gi i h n b i các hình ch nh t g i h p gi i h n (bounding box) B trích xu t đ c tr ng làm nhi m v tính tốn trích xu t đ c tr ng t vùng đ c đ xu t thơng qua m ng n ron tích ch p Cu i b phân lo i u ch nh h i quy s phân lo i hình nh ch a vùng đ xu t v nhãn u ch nh l i h p gi i h n d a đ c tr ng đ c trích xu t Mơ hình Fast R-CNN [6] sau đ c phát tri n lên t mơ hình R-CNN v i s thay đ i b n đ đ c tr ng (feature map) đ c tính tốn cho tồn b hình nh t tr c sau b n đ đ c tr ng c c b cho t ng vùng đ xu t s đ c trích xu t t b n đ đ c tr ng tồn c c thơng qua phép g p vùng quan tâm (regions of interest pooling) S 70 (04-2022) TẠP CHÍ ISSN: 1859-316X KHOA HỌC CÔNG NGHỆ HÀNG HẢI JOURNAL OF MARINE SCIENCE AND TECHNOLOGY KHOA H C - CƠNG NGH Mơ hình Faster R-CNN [7] s nâng c p t mơ hình Fast R-CNN s d ng b n đ đ c tr ng tồn c c (đ c trích xu t cho tồn b hình nh) đ đ xu t vùng nh thay s d ng ph ng pháp tìm ki m có ch n l c (selective search) đ đ xu t vùng nh nh R-CNN Fast R-CNN Mơ hình YOLOV3 [11] đ a m t s thay đ i v ki n trúc c a m ng tích ch p so v i YOLOV2 đ ng th i vi c phát hi n đ i t ng hình nh s đ c th c hi n nhi u l n, m i l n s d ng kích th c khác nh m phát hi n đ i t ng t l nh khác N u h mơ hình R-CNN th c hi n phát hi n đ i t ng qua hai giai đo n: xu t vùng phân lo i vùng h mơ hình YOLO ch th c hi n công vi c qua m t giai đo n nh t Có th h mơ hình RCNN m t s tr ng h p có th có đ xác cao h n nh ng xét v th i gian th c thi h mơ hình YOLO cho th y s khác bi t đáng k mơ hình YOLO có th i gian th c thi nh h n nhi u so v i h mơ hình R-CNN nh ng v n đ m b o s cân b ng v i đ xác cao Mơ hình YOLOV4 [12] có nh ng s thay đ i đáng k so v i mơ hình YOLOV3 C th mơ hình YOLOV4 đ c chia thành ba thành ph n bao g m: X ng s ng (backbone), c (neck) đ u (head) Trong ph n x ng s ng dùng đ trích ch n đ c tr ng, ph n c dùng đ tr n b n đ đ c tr ng h c đ c Ph n đ u YOLOV4 đ c chia thành hai ph n b d đoán dày đ c (dense prediction) b d đoán th a th t (sparse prediction) Trong b d đốn dày đ c s d ng b phát hi n m t giai đo n b d đoán th a th t s d ng b d đoán hai giai đo n Ki n trúc YOLOV4 đ c th hi n Hình Mơ hình YOLOV1 [9] ho t đ ng d a ý t ng nh sau: nh đ u vào đ c phân chia thành m t l i g m nhi u ô, m i ô đ m nh n vi c d đoán t a đ nhãn c a h p gi i h n có tâm n m Mơ hình s d ng m t m ng h c sâu đ tính tốn b n đ đ c tr ng sau k t n i v i l p k t n i đ y đ (fully connected layer) đ đ a nhãn, t a đ kích th c c a h p gi i h n nh Hình Hình Ki n trúc mơ hình YOLOV4 Hi n mơ hình YOLOV5 đ c phát hành đ a vào s d ng M c dù ch a có nhi u tài li u th c v chi ti t mơ hình nh ng YOLOV5 đ c đánh giá đem l i hi u su t t t c ng nh đ m b o v t c đ 2.2 Bài tốn phân lo i ng Hình Ki n trúc mơ hình YOLOV1 Mơ hình YOLOV2 [10] đ c nâng c p t mơ hình YOLOV1 v i s khác bi t c b n s d ng l p chu n hóa (normalization layers) vi c thay th l p k t n i đ y đ d đoán tr c ti p t a đ , kích th c h p gi i h n b i l p h p neo (anchor box layer) u ch nh t a đ , kích th c c a h p gi i h n S 70 (04-2022) i b Bài toán phân lo i ng i b thu c vào d ng toán phân lo i hình nh (image classification) Trong kh , tốn phân lo i hình nh ch y u đ c d a đ c tr ng th cơng (handcrafted features) có k t qu không th t s n t ng nh ng v i s đ i c a ph ng pháp h c sâu, tốn phân lo i hình nh đ c gi i quy t r t t t v i hi u qu cao v t tr i [5] ã có r t nhi u mơ hình m ng h c sâu đ c đ a có th k đ n m t s mơ hình tiêu bi u nh LeNet, AlexNet [5], VGG [13], GoogLeNet [14], ResNet [15], EfficientNet [16] Các mơ hình LeNet, AlexNet [5] hay VGG [13] có ki n trúc ch y u bao g m l p tích ch p đ n thu n ch u trách nhi m h c đ c tr ng t hình nh u c a l p đ c k t n i v i l p k t n i đ y đ đ th c hi n tác v (phân lo i, h i quy,…) Ki n trúc mơ hình đ c đ i di n b i ki n trúc VGG16 đ c th hi n Hình 89 TẠP CHÍ ISSN: 1859-316X KHOA HỌC CƠNG NGHỆ HÀNG HẢI KHOA H C - CÔNG NGH JOURNAL OF MARINE SCIENCE AND TECHNOLOGY Ki n trúc ResNet [15] đ c đ a k th a m t s m ki n trúc kh i c a GoogLeNet nh ng s d ng k t n i t t (skip connection) K t n i t t gi thông tin không b m t sau nhi u phép bi n đ i b ng cách k t n i l p phía tr c v i l p phía sau khơng thơng qua m t vài l p trung gian (Hình 7) Mơ hình EfficientNet [16] đ c ti p c n theo h ng m i so v i mơ hình tr c Mơ hình t p trung vào vi c m r ng tham s theo c ba chi u bao g m đ sâu, đ r ng đ phân gi i c a m ng Mơ hình cho phép gi m chi phí tính tốn mà v n đ m b o tính hi u qu Ki n trúc EfficientNet B0 đ c th hi n Hình Hình Ki n trúc mơ hình VGG16 Mơ hình GoogLeNet hay Inception [14] đ c đ a v i ý t ng m r ng mơ hình m ng theo chi u r ng s d ng l p tích ch p thơng th ng k t h p v i kh i inception (h p thu) Kh i inception bao g m nhánh song song ch a l p tích ch p v i kích th c khác K t qu tính tốn t nhánh song song đ c ghép l i thành m t đ u nh t (Hình 6) Hình Ki n trúc kh i inception (h p thu) Hình Ki n trúc mơ hình EfficientNet B0 Bài tốn phân lo i hình nh ng i b ng i l n hay tr em ch a đ c đ a nhi u nghiên c u nhi u tr c Trong [17], toán đ c th c hi n d a vi c tính tốn t l kích th c c a khung gi i h n toàn b ng i khung gi i h n ph n m t Khung gi i h n c th đ c xác đ nh d a bi u đ đ nh h ng gradient (HOG) [2] khung gi i h n ph n m t đ c xác đ nh d a ph ng pháp Viola & Jones [1] Tuy nhiên ý t ng c a mơ hình đ a không th t s t t kích th c khung gi i h n c th s thay đ i tùy theo t th ng i ch không c đ nh nh ng i đ ng th ng Trong báo này, toán s đ c t p trung gi i quy t d a mơ hình h c sâu Nghiên c u toán phát hi n phân lo i ng i b 3.1 H ng ti p c n toán 3.1.1 H ng s d ng b phát hi n ng phân lo i ng i b riêng bi t Hình K t n i t t (skip connection) 90 i b b Xu t phát t câu h i li u vi c t ng quát hóa đ c tr ng cho ng i b nói chung có đ n gi n hi u qu h n phân bi t hóa đ c tr ng cho ng i l n b tr em b , h ng ti p c n th nh t (Hình 1) s d ng mơ hình phát hi n đ i t ng YOLOV5 (m t mơ hình n hình nh t th i m hi n t i v phát hi n đ i t ng th i gian th c) đ phát hi n ng i b Hình nh ng i b đ c trích xu t S 70 (04-2022) TẠP CHÍ ISSN: 1859-316X KHOA H C - CƠNG NGH KHOA HỌC CÔNG NGHỆ HÀNG HẢI JOURNAL OF MARINE SCIENCE AND TECHNOLOGY đ a qua b phân lo i nh phân đ xác đ nh ng i l n hay tr em s d ng m t b đ c tr ng khác giai đo n này, mô hình n hình cho tác v phân lo i hình nh bao g m mơ hình VGG16 [13], ResNet50 [15], InceptionV3 [14] EfficientNetB0 [16] đ c xem xét đ th c hi n vi c phân lo i Các mơ hình đ c thay th l p cu i b i ba l p k t n i đ y đ v i s n ron l n l t 16, 16 đ k t h p đ c tr ng h c đ c th c hi n vi c phân lo i hình nh ng i l n tr em Trong l p cu i ch có m t đ u đ th c hi n toán nh phân s đ u c a hai l p tr c không l n đ tránh hi n t ng overfitting 3.1.2 H ng s d ng b phát hi n phân lo i ng b tích h p i Khác v i h ng ti p c n th nh t s d ng đ c tr ng ng i b nói chung đ tách vùng nh ng i b s d ng đ c tr ng phân bi t ng i l n tr em đ phân bi t hình nh ng i b , cách ti p c n th hai h c tr c ti p đ c tr ng phát hi n ng i l n b tr em b (Hình 2) Do nghiên c u h ng t i gi i pháp ch y th i gian th c nên mơ hình YOLOV5 đ c l a ch n đ th c hi n công vi c 3.2 Cài đ t, th c nghi m k t qu 3.2.1 Cài đ t th c nghi m Ch ng trình th nghi m đ c cài đ t môi tr ng Google Colab v i b x lý đ h a Nvidia K80 v i b nh 12GB t c đ 0,82GHz s d ng ngôn ng Python B d li u s d ng thí nghi m Cityscapes [18] v i h n 2.700 hình nh ch p đ ng ph (ch a ph ng ti n giao thông, ng i b ,…) c a h n 20 thành ph khác k t h p v i b d li u nhóm tác gi thu th p bao g m kho ng 4000 hình nh ng i b T t c ng i b hình đ u đ c khoanh vùng gán nhãn ng i l n ho c tr em t l ng i b tr em ng i l n l n l t 44,8% 55,2% (trên t ng s h n 28.000 nhãn đ c gán) Thí nghi m th nh t đ c th c hi n đ đánh giá h ng ti p c n s d ng b phát hi n b phân lo i ng i b riêng bi t (Hình 1), mơ hình YOLOV5 đ c hu n luy n đ phát hi n ng i b b d li u g m 5.464 hình nh đ c đánh giá b d li u g m 1.193 hình nh (các hình nh có kích th c 640x640) đ c đánh d u khoanh vùng gán nhãn ng i b Mơ hình đ c hu n luy n 50 vòng (epoch) d ng b hi n S 70 (04-2022) t ng overfitting (kh p m c) Trong h ng ti p c n này, mơ hình phân lo i đ c hu n luy n v i 22.660 hình nh đánh giá 5.660 hình nh Các hình nh hình nh tr em ng i l n đ c trích xu t t hình nh thu c t p d li u nêu đ a v kích th c 128x128 T ng t mơ hình đ c hu n luy n 100 vòng v i t l h c (learning rate) 0,001 th c t đ c d ng l i s m h n n u b overfitting Các mơ hình phân lo i đ c đánh giá b i đ xác (accuracy cơng th c (1)) đ c tính b ng t l gi a s m u phân lo i (correct prediction number) t ng s m u phân lo i (sample number) (1) Thí nghi m th hai đ c th c hi n đ đánh giá h ng ti p c n s d ng b phát hi n phân lo i ng i b tích h p (Hình 2), mơ hình YOLOV5 đ c hu n luy n đ phát hi n phân lo i ng i l n b tr em b b d li u g m 5.464 hình nh đ c đánh giá b d li u g m 1.193 hình nh (các hình nh có kích th c 640x640) đ c đánh d u khoanh vùng ng i b đ ng th i đánh nhãn tr em hay ng i l n T ng t nh thí nghi m th nh t, mơ hình đ c hu n luy n 50 vòng d ng b hi n t ng overfitting Các mơ hình phát hi n đ i t ng hai thí nghi m đ c đánh giá b i b ba giá tr bao g m đ xác (precision - cơng th c (2)), ch s g i nh (recall công th c (3)) giá tr xác trung bình (mAP công th c (4)) (2) (3) V i TP (True Positive) s d đoán vùng đ i t ng xác FP (False Positive) FN (False Negative) s d đoán vùng đ i t ng sai s d đoán vùng đ i t ng b s�t V i m i phân l p, m t đ ng cong d a ch s precision recall đ c xác đ nh ph n di n tích n m d i đ ng cong đ� đ c đ i di n b i ch s AP (Average Precision) Ch s mAP đ c tính b ng trung bình giá tr AP c a t t c phân l p (4) 91 TẠP CHÍ KHOA H C - CƠNG NGH JOURNAL OF MARINE SCIENCE AND TECHNOLOGY 3.2.2 K t qu B ng K t qu th c nghi m b phát hi n phân lo i ng i b tách bi t Mơ hình YOLOv5 phát hi n ng 0,873 Ch s g i nh (recall) 0,669 Giá tr xác trung bình (mAP) 0,797 Các mơ hình phân lo i ng i b xác (accuracy) VGG16 0,943 ResNet50 0,955 InceptionV3 0,922 EfficientNetB0 0,728 Th i gian th c thi: phát hi n ng i b : 0,023 giây/ hình nh phân lo i ng i b : (0,008 giây/ ng (s ng i b / hình nh) i b ) x B ng K t qu th c nghi m b phát hi n phân lo i ng i b tích h p xác (precision) 0,880 Ch s g i nh (recall) 0,760 Giá tr xác trung bình (mAP) 0,851 Th i gian th c thi: Phát hi n phân lo i ng b : 0,024 giây/ hình nh i K t qu c a thí nghi m theo h ng ti p c n th nh t đ c th hi n B ng Có th th y hi u su t phát hi n ng i b c a mô hình m c t t v i đ xác 0,873, ch s g i nh 0,669 đ xác trung bình 0,797 Vi c hi u su t ch d ng m c t t có th gi i thích b d li u c a toán bao g m c ng i l n tr em toán phát hi n ng i b đa s nghiên c u tr c đ c th c hi n t p d li u g m hình nh ng i l n Nói cách khác b d li u có đ ph c t p cao h n vi c s d ng m t b đ c tr ng đ i di n cho c ng i l n tr em cho th y s hi u qu ch a th t s t t Bên c nh đó, hi u su t c a vi c phân lo i hình nh ng i b t t v i mơ hình VGG16, ResNet50 InceptionV3 (đ xác l n l t 0,943, 0,955 0,922) Mô hình EfficientNetB0 t khơng th t s phù h p v i tốn đ xác m c th p (0,760) tình tr ng overfitting di n nhanh ch sau kho ng 20 vòng hu n luy n (đ xác t p hu n luy n h n 0,9 đ xác t p đánh giá ch 92 h n 0,7) Ngoài ra, th i gian th c thi cho cách ti p c n th nh t c ng cao v i m c th i gian x lý kho ng 0,1 giây cho m t khung hình v i 10 ng i b i b xác (precision) Mơ hình ISSN: 1859-316X KHOA HỌC CƠNG NGHỆ HÀNG HẢI Hình So sánh hi u n ng c a h ng ti p c n tách bi t b phát hi n và b phân lo i (h ng ti p c n 1) h ng ti p c n tích h p b phát hi n phân lo i ng i b (h ng ti p c n 2) Quan sát B ng Hình 9, h ng ti p c n s d ng b phát hi n phân lo i ng i b tích h p đem l i hi u qu v t tr i so v i h ng ti p c n th nh t Các giá tr bao g m đ xác, ch s g i nh giá tr xác trung bình c a mơ hình đ u cao h n so v i mơ hình phát hi n ng i b v i giá tr l n l t 0,880, 0,760 0,851 Có th th y vi c t ng qt hóa hình nh tr em ng i l n vào m t l p hình nh ng i b đ phát hi n không hi u qu b ng vi c phân bi t hóa hình nh tr em hình nh ng i l n vào hai l p khác bi t i u có th lý gi i b i s khác gi a đ c tr ng c a hình nh tr em hình nh ng i l n M c dù hình nh ng i l n tr em đ u có nh ng đ c m chung c a hình nh ng i nh ng v n t n t i nh ng s khác bi t t l gi a ph n c th Vi c c ép hai l p hình nh ng i l n tr em vào m t l p hình nh ng i nói chung t o s m t mát đ c tr ng mô t riêng cho t ng l p Nh ng đ c tr ng m t có th nh ng đ c tr ng t t cho vi c phát hi n hình nh ng i l n ho c hình nh tr nh nói riêng u d n đ n vi c s d ng b phát hi n ng i b nói chung có hi u su t th p h n b phát hi n ng i l n tr em Nói cách khác tốn phát hi n ng i b không đ n gi n h n toán phát hi n ng i l n b tr em b Ngoài ra, n u xét v th i gian th c thi, h ng ti p c n th hai c ng đem l i hi u qu v t tr i nhanh g p h n b n l n xem xét m t hình nh có ch a 10 ng i b so v i h ng ti p c n th nh t S khác bi t xu t phát t vi c h ng ti p c n th nh t s d ng hai mơ hình (mơ hình phát hi n mơ hình phân lo i) th c hi n công vi c qua hai giai đo n h ng S 70 (04-2022) TẠP CHÍ ISSN: 1859-316X KHOA HỌC CÔNG NGHỆ HÀNG HẢI JOURNAL OF MARINE SCIENCE AND TECHNOLOGY KHOA H C - CÔNG NGH ti p c n th hai ch s d ng m t mơ hình nh t th c hi n công vi c m t giai đo n K t qu th c nghi m ch ng minh r ng vi c s d ng mơ hình ph c t p không ph i lúc c ng đ a đ c k t qu xác h n Bên c nh đó, mơ hình ph c t p s b c th c hi n l n c ng nh h ng t i th i gian hu n luy n c ng nh t c đ th c thi T có th k t lu n h ng ti p c n s d ng b phát hi n phân lo i ng i b tích h p hi u qu v t tr i so v i h ng ti p c n s d ng b phát hi n phân lo i riêng bi t [4] Girshick, Ross, et al Rich feature hierarchies for accurate object detection and semantic segmentation CVPR, pp.580-587, 2014 K t lu n [6] Girshick, Ross Fast r-cnn Proceedings of the IEEE international conference on computer vision 2015 V i m c tiêu xây d ng m t h th ng phát hi n phân lo i ng i b hình nh, nghiên c u đ xu t hai h ng ti p c n cho toán: H ng s d ng b phát hi n, b phân lo i riêng bi t h ng s d ng b phát hi n phân lo i tích h p Các h ng ti p c n đ c nghiên c u đánh giá ch t ch b d li u l n đ c k t h p t b d li u Cityscapes b d li u xây d ng b i nhóm tác gi K t qu th c nghi m cho th y h ng s d ng b phát hi n phân lo i ng i b tích h p có hi u qu v t tr i v i đ xác trung bình 0,851 th i gian th c thi 0,024 giây/ hình nh i u th hi n vi c t ng quát hóa ng i b (bao g m c ng i l n tr em) không hi u qu b ng vi c phân bi t hóa ng i l n tr em toán phát hi n ng i b Ngoài m t toán ch a đ c sâu tốn phân lo i hình nh ng i tr ng thành tr em c ng đ c gi i quy t nghiên c u Các mơ hình h c sâu đ c xem xét cho k t qu phân lo i v i đ xác n t ng Mơ hình InceptionV3, VGG16 ResNet50 l n l t có đ xác: 0,922, 0,943 0,955 Trong t ng lai h th ng c nh báo r i ro lái xe h th ng h tr lái xe t đ ng s d ng camera hành trình m c tiêu mà nhóm tác gi h ng t i đ m r ng nghiên c u TÀI LI U THAM KH O [1] Viola, Paul, and Michael Jones Rapid object detection using a boosted cascade of simple features CVPR 2001 Vol.1, 2001 doi: 10.1109/CVPR.2001.990517 [2] Dalal, N., Triggs, B., Histograms of oriented gradients for human detection CVPR (2005), doi: 10.1109/CVPR.2005.177 [3] Cho, Hyunggi, et al., Real-time pedestrian detection with deformable part models IEEE Intelligent Vehicles Symposium, 2012 doi: 10.1109/IVS.2012.6232264 S 70 (04-2022) doi: 10.1109/CVPR.2014.81 [5] A Krizhevsky, I Sutskever, and G E Hinton, ImageNet classification with deep convolutional neural networks, Commun ACM, Vol.60, No.6, pp.84-90, May 2017 doi: 10.1145/3065386 doi: 10.1109/ICCV.2015.169 [7] Ren, Shaoqing, et al Faster r-cnn: Towards realtime object detection with region proposal networks Advances in neural information processing systems 28 pp.91-99, 2015 doi: 10.1109/TPAMI.2016.2577031 [8] K Simonyan and A Zisserman, Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556 [cs], Apr 2015, Accessed: Apr 22, 2021.[Online] Available: http://arxiv.org/abs/1409.1556 [9]Redmon, Joseph, et al You only look once: Unified, real-time object detection CVPR 2016 doi: 10.1109/CVPR.2016.91 [10] Redmon, Joseph, and Ali Farhadi YOLO9000: better, faster, stronger CVPR 2017 doi: 10.1109/CVPR.2017.690 [11] Redmon, Joseph, and Ali Farhadi Yolov3: An incremental improvement arXiv preprint arXiv:1804.02767 (2018) Available at: http://arxiv.org/abs/1804.02767 [12] Bochkovskiy, Alexey, Chien-Yao Wang, and Hong-Yuan Mark Liao Yolov4: Optimal speed and accuracy of object detection arXiv preprint arXiv:2004.10934 (2020) Available at: http://arxiv.org/abs/2004.10934 [13] Simonyan, Karen, and Andrew Zisserman Very deep convolutional networks for large-scale image recognition arXiv preprint arXiv:1409.1556 (2014) Available at: http://arxiv.org/abs/1409.1556 [14] Szegedy, Christian, et al Rethinking the inception architecture for computer vision CVPR 2016 doi: 10.1109/CVPR.2016.308 93 TẠP CHÍ KHOA H C - CƠNG NGH [15] He, Kaiming, et al Deep residual learning for image recognition CVPR 2016 doi: 10.1109/CVPR.2016.90 [16] M Tan and Q V Le, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks, arXiv:1905.11946 [cs, stat], Sep 2020, Accessed: Apr 22, 2021 [Online] Available at: http://arxiv.org/abs/1905.11946 [17] Ince, Omer F., et al Child and adult classification using ratio of head and body heights in images International Journal of Computer and Communication Engineering 3.2 (2014) ISSN: 1859-316X KHOA HỌC CÔNG NGHỆ HÀNG HẢI JOURNAL OF MARINE SCIENCE AND TECHNOLOGY [18] Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S and Schiele, B The cityscapes dataset for semantic urban scene understanding Proceedings of the IEEE conference on computer vision and pattern recognition, pp.3213-3223, 2016 Ngày nh n bài: Ngày nh n b n s a: Ngày t đ ng: 11/03/2022 23/03/2022 29/03/2022 doi: 10.7763/IJCCE.2014.V3.304 94 S 70 (04-2022) ... toán phát hi n ng i b toán phân lo i ng i b ? Xu t phát t v n đ đ c nêu ra, toán phát hi n phân lo i ng i b đ c nghiên c u theo hai h ng ti p c n h ng ti p c n th nh t, toán đ c chia thành toán phát. .. hình h c sâu Nghiên c u toán phát hi n phân lo i ng i b 3.1 H ng ti p c n toán 3.1.1 H ng s d ng b phát hi n ng phân lo i ng i b riêng bi t Hình K t n i t t (skip connection) 90 i b b Xu t phát t... ISSN: 1859-316X KHOA HỌC CƠNG NGHỆ HÀNG HẢI Hình So sánh hi u n ng c a h ng ti p c n tách bi t b phát hi n và b phân lo i (h ng ti p c n 1) h ng ti p c n tích h p b phát hi n phân lo i ng i b (h