luận án tiến sĩ nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người

Một ặc trưng ược gọi là hiệu quả nếu nó biểu diễn ược các ặc iểm riêng mang tính phân biệt của ối tượng này so với các ối tượng khác.Hiện nay, có hai hướng tiếp cận chính cho bài toán tr

Trang 1

BỘ GIÁO DỤC VÀ ÀO TẠO ẠI HỌC BÁCH KHOA HÀ NỘI

Nguyễn Hồng Quân

NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TRÍCH CHỌN ẶC TRƯNG DỰA TRÊN HỌC SÂU

TRONG TÁI àNH DANH NGƯỜI

LUẬN ÁN TIẾN SĨ KỸ THUẬT IỆN TỬ

Hà Nội−2024

Trang 2

BỘ GIÁO DỤC VÀ ÀO TẠO ẠI HỌC BÁCH KHOA HÀ NỘI

Nguyễn Hồng Quân

NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TRÍCH CHỌN ẶC TRƯNG DỰA TRÊN HỌC SÂU

TRONG TÁI àNH DANH NGƯỜI

Ngành: Kỹ thuật iện tử Mã số: 9520203

LUẬN ÁN TIẾN SĨ KỸ THUẬT IỆN TỬ

NGƯỜI HƯỚNG DẪN KHOA HỌC: 1 TS VÕ LÊ CƯỜNG

2 TS NGUYỄN VŨ THẮNG

Hà Nội−2024

Trang 3

LỜI CAM OAN

Tôi xin cam oan các kết quả trình bày trong luận án là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu tại ại học Bách khoa Hà Nội dưới sự hướng dẫn của tập thể hướng dẫn khoa học Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực Các kết quả sử dụng tham khảo ều ã ược trích dẫn ầy ủ và theo úng quy ịnh.

Hà Nội, ngày 19 tháng 01 năm 2024

ẠI HỌC BÁCH KHOA HÀ NỘI TL.GIÁM ỐC

TRƯỞNG BAN ÀO TẠO

Trang 4

LỜI CẢM ƠN

Trong quá trình nghiên cứu và hoàn thành luận án này, nghiên cứu sinh ã nhận ược nhiều sự giúp ỡ và óng góp quý báu ầu tiên, nghiên cứu sinh xin ược bày tỏ lòng biết ơn sâu sắc tới tập thể hướng dẫn: Tiến sĩ Võ Lê Cường và tiến sĩ Nguyễn Vũ Thắng Các thầy cô ã tận tình hướng dẫn, giúp ỡ nghiên cứu sinh trong suốt quá trình nghiên cứu và hoàn thành luận án Nghiên cứu sinh xin chân thành cảm ơn Khoa iện tử, Trường iện -iện Tử ại học Bách Khoa Hà Nội Tôi cũng xin cám ơn các thầy cô và các anh chị em Viện Nghiên cứu quốc tế Mica ại học Bách khoa Hà Nội ã giúp tôi có ược một môi trường nghiên cứu tuyệt vời Tôi xin cám ơn trường ại học Công nghiệp Việt - Hung ã tạo nhiều iều kiện thuận lợi cho tôi về mọi mặt trong suốt thời gian tôi làm nghiên cứu sinh Xin chân thành cảm ơn Ban ào tạo - ại học Bách Khoa Hà Nội ã tạo iều kiện ể nghiên cứu sinh có thể hoàn thành các thủ tục bảo vệ luận án tiến sĩ Cuối cùng, nghiên cứu sinh xin gửi lời cảm ơn sâu sắc tới gia ình, bạn bè ồng nghiệp ã luôn ộng viên, giúp ỡ nghiên cứu sinh vượt qua khó khăn ể ạt ược những kết quả nghiên cứu như hôm nay.

Trang 5

1.3 Mạng Nơ-ron hồi quy 33

1.4 Bài toán tái ịnh danh người 36

1.4.1 ịnh nghĩa bài toán 36

1.4.2 Một số nghiên cứu liên quan 37

1.4.3 ộ o khoảng cách và ộ o tương tự 42

1.4.4 ộ o ánh giá kết quả tái ịnh danh 43

1.5 Nén mạng học sâu và triển khai trên FGPA 44

1.6 Kết luận chương 46

Chương 2 TRÍCH CHỌN ẶC TRƯNG HỌC SÂU CỤC BỘ TRONG TÁI àNH DANH NGƯỜI 47

2.1 ặt vấn ề 47

2.2 Các ề xuất cho trích chọn ặc trưng mức ảnh trong tái ịnh danh 49 2.2.1 ề xuất 1: Trích ặc trưng cục bộ cho ảnh dựa trên thay ổi kiến trúc ResNet50 49

2.2.2 ề xuất 2: Kết hợp các ặc trưng theo chiến lược kết hợp muộn 51 2.2.3 ề xuất 3: Tính khoảng cách giữa hai tập ặc trưng cục bộ bằng ộ o EMD 53

2.3 Thử nghiệm và ánh giá kết quả 55

2.3.1 Cơ sở dữ liệu cho bài toán tái ịnh danh 55

2.3.2 Kết quả thử nghiệm của ề xuất 1 - Trích ặc trưng cục bộ ảnh với kiến trúc ResNet50 58

Trang 6

2.3.3 Kết quả thử nghiệm ề xuất 2 - Chiến lược kết hợp muộn ặc trưng 60

2.3.4 Kết quả thử nghiệm của ề xuất 3- So sánh ặc trưng cục bộ với

khoảng cách EMD 64

Chương 3 KHAI THÁC ẶC TRƯNG VIDEO DỰA TRÊN MẠNG NƠ-RON HỒI QUY TÁI àNH DANH NGƯỜI 67

3.1 ặt vấn ề 67

3.2 Một số kiến trúc mạng Nơ-ron hồi quy phổ biến 69

3.2.1 Recurrent Neural Network (RNN) 69

3.2.2 Long Short-term Memory (LSTM) 70

3.2.3 Long Short-term Memory với cặp cổng (LSTMC) 71

3.2.4 Long Short-term Memory với kết nối Peephole (LSTMP) 72

3.2.5 Gated Recurrent Unit (GRU) 73

3.3 ánh giá hiệu quả của các mạng Nơ-ron hồi quy cho bài toán tái ịnh

3.5 ề xuất nâng cao hiệu quả mô hình bằng ặc trưng thủ công (GOG) kết hợp sử dụng thuật toán học ộ o khoảng cách 80

Trang 7

4.2.2 Lượng tử hóa (quantization) 98

4.3 Phương pháp ề xuất 99

4.3.1 Nhị phân hóa giá trị trọng số 99

4.3.2 Lượng tử hóa các giá trị trọng số và giá trị kích hoạt tương ứng với lớp mạng 100

4.3.3 Hàm kích hoạt Clamping Rectified Linear Unit - CReLU 101

4.3.4 Kiến trúc luồng của bộ tăng tốc mạng tích chập 103

4.3.5 Tính toán tài nguyên phần cứng 103

4.4 Thử nghiệm và kết quả 104

4.4.1 Mạng học sâu VGG16-SSD và bài toán phát hiện ối tượng trên ảnh 104 4.4.2 Cơ sở dữ liệu CIFAR-10 106

4.4.3 Cơ sở dữ liệu PASCAL VOC 106

4.4.4 Nén mạng VGG16 với bài toán phân lớp ảnh trên CSDL CIFAR-10 107 4.4.5 Nén mạng VGG16-SSD với bài toán phát hiện ối tượng trên ảnh hướng tới triển khai trên FPGA 108

KẾT LUẬN VÀ KIẾN NGHà 112

DANH MỤC CÁC CÔNG TRÌNH Ã CÔNG BỐ 115

TÀI LIỆU THAM KHẢO 116

Trang 8

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Viết tắt Nghĩa tiếng Anh Nghĩa tiếng Việt

CNN Convulutional Neural Network Mạng nơ-ron tích chập CMC Cummulative Matching

Biểu ồ kết quả ối sánh theo thứ hạng.

DNN Deep Neural Network Mạng nơ-ron sâu.

DSP Digital Signal Processing Xử lý tín hiệu số.

EMD Earth Mover’s Distance Khoảng cách Earth Mover.

FPGA Field Programmable Gate GOG Gaussian of Gaussian

GPU Graphics Processing Unit Bộ xử lý ồ họa GRU Gated Recurrent Unit

HOG Histogram of Oriented Gradi-ents

LBP Local Binary Patterns LSTM Long Short Term Memory

RNN Recurrent neural network Mạng nơ-ron hồi quy.

PE Processing Element ơn vị xử lý (trong FPGA) R-CNN Region-based Convolutional

Neural Network

Trang 9

ReLU Rectified Linear Unit Tên một ơn vị xử lý trong mạng nơ-ron.

ResNet Residual Neural Network SIFT Scale-Invariant Feature

SORT Simple Online and Realtime Tracking

SSD Single Shot multiBox Detector Một kiến trúc mạng cho bài toán phát hiện ối tượng trên ảnh.

SURF Speeded-Up Robust Features

SVM Support Vector Machine Máy véctơ hỗ trợ

một ối tượng trên các khung hình liên tiếp trong video VGG Visual Geometry Group

YOLO You look Only Once

XQDA Cross-view Quadratic Discrim-inant Analysis

Trang 10

DANH MỤC CÁC BẢNG

1.1 Thời gian thực hiện phát hiện ối tượng [Microsoft Research, NIPS2015]24 1.2 Cấu trúc mạng trích chọn ặc trưng thể hiện bề ngoài của

Deep-SORT[39] 32 2.1 Kết quả tái ịnh danh sử dụng ặc trưng ResNet ề xuất trên cơ

sở dữ liệu VIPER 59 2.2 Kết quả tái ịnh danh sử dụng ặc trưng ResNet gốc và ResNet

ề xuất trên cơ sở dữ liệu PRID-2011 và iLIDS-VID 59 2.3 So sánh kết quả ạt ược của ề xuất 2 trong luận án với các

phương pháp khác trên hai cơ sở dữ liệu PRID-2011 và

iLIDS-VID Kết quả tốt nhất ược in ậm 61 2.4 So sánh kết quả ạt ược của phương pháp trong ề xuất 2 với

các phương pháp hiện có trên cơ sở dữ liệu VIPeR Kết quả tốt

nhất ược in ậm 64 2.5 So sánh kết quả thu ược với ề xuất 3 sử dụng ộ o EMD

trong luận án và phương pháp gốc sử dụng ộ o DMLI trên 3 CSDL VIPeR, Market1501-Partial và DukeMTMCReID-Partial trong trường hợp chia ảnh thành 8 vùng Các kết quả tốt nhất

trong từng nhóm phương pháp ược bôi ậm 65 2.6 Kết quả tái ịnh danh trên CSDL VIPER dựa trên ề xuất 3 với

số lượng vùng ược chia khác nhau 66 3.1 So sánh kết quả khi dùng các kiến trúc mạng Nơ-ron hồi quy khác nhau76 3.2 So sánh thời gian thực thi 76 3.3 So sánh hiệu suất của mô hình ược ề xuất khi áp dụng các

chiến lược gộp theo thời gian khác nhau 79 3.4 So sánh hiệu quả của mô hình ược ề xuất và các công trình ã

công bố 80 3.5 So sánh kết quả của phương pháp ề xuất và một số phương pháp

khác trên 2 CSDL PRID-2011 và iLIDS-VID 83 3.6 Cơ sở dữ liệu FAPR 86

Trang 11

3.7 Kết quả thử nghiệm trên cơ sở dữ liệu FAPRkhi sử dụng bộ phát

hiện YOLOv3 và bộ theo vết DeepSORT 90 3.8 Kết quả thử nghiệm trên cơ sở dữ liệu FAPR khi sử dụng thuật

bộ phát hiện Mask R-CNN và bộ theo vết DeepSORT 90 3.9 Tÿ lệ ối sánh úng tại xếp hạng thứ nhất (%) trong bài toán tái

ịnh danh với các ngữ cảnh khác nhau 94 4.1 Bảng tham số lượng tử hóa các giá trị kích hoạt cho VGG16 thực

thi trên CIFAR-10 107 4.2 ộ chính xác và ộ rộng bít khi nén mô hình VGG16 với kỹ thuật

ược ề xuất, so sánh với các nghiên cứu khác trên CSDL CIFAR-10 108 4.3 Chi tiết các tham số lượng tử hóa mô hình VGG16-SSD thực thi

trên cơ sở dữ liệu VOC07+12 109 4.4 So sánh với các phương pháp nén khác trên mạng VGG16-SSD 110

Trang 12

DANH MỤC CÁC HÌNH VẼ, Ồ THà

1 Các mốc lịch sử về phát hiện và nhận dạng ối tượng bao gồm

các phương pháp trích chọn ặc trưng [2] 3

2 Một hệ thống tái ịnh danh ầy ủ Phạm vi bài toán tái ịnh danh ược ánh dấu bởi vùng màu ỏ 5

1.1 Học máy với các ặc trưng ược trích chọn thủ công 13

1.2 Học máy với các ặc trưng ược trích chọn thông qua mô hình học sâu14 1.3 Cấu trúc một mạng nơ-ron tích chập cơ bản 15

1.4 Cấu trúc mạng LeNet [15] 16

1.5 Cấu trúc mạng AlexNet [1] 16

1.6 Cấu trúc mạng VGG16 [17] 18

1.7 Cấu trúc mạng GoogleNet inception v1 [18] 18

1.8 Mạng ResNet-50 [19] a) Cấu trúc mạng; b) Khối nhận dạng; c) Khối tích chập 19

1.9 Một số dấu mốc và nghiên cứu áng chú ý của mạng học sâu trong bài toán phát hiện ối tượng 21

1.10 Mô hình R-CNN [27] 22

1.11 Mô hình kiến trúc một mạng Fast R-CNN [26] 22

1.12 Mô hình Faster R-CNN [26] 23

1.13 Cấu trúc mạng YOLOv1 [26] 25

1.14 Các bước dự oán ối tượng của YOLOv1 [26] 26

1.15 Thời gian thực thi và ộ chính xác một số mạng học sâu phát hiện ối tượng 27

1.16 So sánh YOLOv4 với các phương pháp phát hiện ối tượng hiện tại [31] 28

1.17 Mô hình kiến trúc mạng của SSD [21] 28

1.18 So sánh tốc ộ và ộ chính xác của một số bộ theo vết 31

1.19 Kiến trúc chung của một mạng Nơ-ron hồi quy a) Sơ ồ rút gọn; b) sơ ồ khi ược trải ra 33

1.20 Một số mô hình ứng dụng kiến trúc mạng Nơ-ron hồi quy 35

1.21 Tái ịnh danh người trong mạng camera giám sát [50] 36

1.22 Bộ mô tả GOG ược trích chọn ở mức ảnh trên các không gian màu khác nhau [51] 38

1.23 Sơ ồ trích ặc trưng LOMO cho ảnh 39

Trang 13

1.24 ặc trưng học sâu ược trích chọn trên ba vùng ảnh sử dụng trúc

mạng CNN 5 lớp [56] 40

2.1 Mô hình chung cho bài toán tái ịnh danh 48

2.2 Phân bố các vùng ảnh người theo chiều dọc 49

2.3 Trích ặc trưng sử dụng mạng ResNet-50 áp dụng chiến lược chia 7 vùng ảnh 50

2.4 Một ví dụ về tính hiệu quả của ặc trưng GOG và ặc trưng ResNet 52

2.5 Khai thác thông tin cục bộ ảnh cùng khoảng cách EMD cho mô hình bài toán tái ịnh danh 54

2.6 Một ví dụ về việc tính toán khoảng cách EMD giữa hai tập ặc trưng cục bộ của hai ảnh người 55

2.7 Một số hình ảnh trong cơ sở dữ liệu VIPER 56

2.8 Một số hình ảnh trong cơ sở dữ liệu PRID2011 và iLID-VID 56

2.9 Một số hình ảnh trong hai bộ CSDL 57

2.10 Tÿ lệ so khớp úng khi áp dụng các chiến lược kết hợp muộn trong ề xuất 2 với 3 ặc trưng khác nhau trên hai CSDL a) PRID-2011 và b) iLIDS-VID 60

2.11 Giá trị trung bình của trọng số thích nghi ứng với mỗi ặc trưng trên cơ sở dữ liệu PRID-2011 với 10 lần ngẫu nhiên chia cơ sở dữ liệu.61 2.12 Tÿ lệ so khớp úng khi áp dụng các chiến lược kết hợp muộn trong ề xuất 2 với 3 ặc trưng khác nhau trên cơ sở dữ liệu VIPeR 62 2.13 Kết quả thử nghiệm trên các CSDL a) VIPeR, b)Market1501-Partial and c) DukeMTMCReID-partial Phương pháp trong ề xuất 3 là Local (EMD) và Global + Local (EMD) 64

2.14 Minh họa kết quả tái ịnh danh trong CSDL Market1501-Partial của phương pháp cơ sở sử dụng ộ o DMLI và phương pháp ề xuất dùng ộ o EMD Các kết quả úng ược ánh dấu bằng

3.7 Cấu trúc một nút trong mạng GRU [43] 73

3.8 Các bước thử nghiệm tái ịnh danh sử dụng chuỗi hình ảnh 74

Trang 14

3.9 Kết quả thử nghiệm trên 2 CSDL 76

3.10 Mạng học sâu Không gian - thời gian cho bài toán tái ịnh danh 78

3.11 Mô hình ề xuất cải tiến mạng RFA [62] cho bài toán tái ịnh danh Sự thay ổi ược thể hiện trong hai khối màu ỏ 81

3.12 So sánh hiệu quả của LBP-Color và GOG trên CSDL PRID-2011 82

3.13 Kết quả thử nghiệm với mô hình ề xuất 83

3.14 Mô hình cho một hệ thống tái ịnh danh tự ộng 85

3.15 Một ví dụ mô tả kết quả thu ược trong bước phát hiện người a) Các bounding boxes ược dự oán và nhãn gốc tương ứng của chúng ược biểu diễn bởi các khung hình chữ nhật màu xanh lá cây và màu vàng b) một số lỗi xuất hiện trong bước phát hiện: phát hiện bộ phận cơ thể người hoặc bounding box chứa nhiều hơn một người 91

3.16 Ví dụ về kết quả thu ược trong bước theo vết a) tracklet hoàn hảo, b) chuyển ổi ID, và c) một tracklet chß có một vài bounding box.92 3.17 Ví dụ kết quả ạt ược trong bước tái ịnh danh a) so khớp úng and b) so khớp sai 94

4.1 Kỹ thuật cắt tßa mạng 98

4.2 Kỹ thuật lượng tử hóa trọng số của mạng nơ-ron 98

4.3 Biểu ồ phân bố các giá trị trọng số hoặc giá trị kích hoạt 102

4.4 Sự khác biệt giữa ReLU và CReLU [73] 102

4.5 Kiến trúc luồng cho bộ tăng tốc mạng tích chập 103

4.6 Cấu trúc mạng VGG16-SSD 105

4.7 Một số ví dụ về sự phân bố các giá trị kích hoạt trong một vài lớp của mô hình VGG-16 với 10.000 ảnh của CSDL CIFAR-10 107

Trang 15

MỞ ẦU

1 Tính cấp thiết

Thị giác máy tính (Computer Vision) là một trong những lĩnh vực ã và ang nhận ược nhiều quan tâm của cộng ồng nghiên cứu Trong bất kỳ một hệ thống thị giác máy tính nào, thành phần phân tích nội dung ảnh/video ể ưa ra những thông tin hữu ích óng vai trò rất quan trọng Ngày nay, với sự phát triển mạnh mẽ của các mô hình học máy, ặc biệt là học sâu thực sự ã em lại những cải tiến áng kể cho thành phần này Tuy nhiên, hiệu quả của các mô hình học máy lại chịu ảnh hưởng lớn bởi phương pháp trích chọn ặc trưng dữ liệu ầu vào Chính vì vậy, nghiên cứu các phương pháp trích chọn ặc trưng hiệu quả luôn cần thiết Bên cạnh ó, trong rất nhiều các bài toán của thị giác máy tính, tái ịnh danh người thực sự là một bài toán ược các nhà khoa học quan tâm, tuy rất nhiều thách thức nhưng lại mang tính ứng dụng cao Tái ịnh danh người có thể ược hiểu ơn giản là so khớp các hình ảnh người ược thu nhận bởi các cặp camera không có sự chồng lấn về trường quan sát.

Khởi nguồn từ năm 1966, Seymour Papert và Marvin Minsky, hai nhà tiên phong về trí tuệ nhân tạo, ã khởi ộng một dự án mang tên "Summer Vision Project" nhằm tạo ra một hệ thống máy tính có thể nhận dạng các vật thể trong ảnh Vào thời iểm thực hiện dự án này, công nghệ chủ ạo ược áp dụng chß là trí tuệ nhân tạo dựa trên tập luật (rule-based AI), bản chất là tìm ra các quy tắc ể phát hiện ra ối tượng ược con người xác lập dựa trên tri thức và kinh nghiệm Hướng tiếp cận này ã không em lại hiệu quả cao do không thể thiết kế ược một quy tắc tổng quát cho những thể hiện a dạng của ối tượng trong ảnh Hướng tiếp cận khác là dựa trên học máy hoặc tiếp cận dựa trên nhận dạng mẫu Các giải thuật học máy ược thiết kế ể tìm ra các mẫu hoặc các quy luật tri thức từ dữ liệu, từ ó tự suy ra các luật và dự oán cho các dữ liệu có dạng tương tự gặp ược sau khi huấn luyện ây là phương pháp học dựa trên dữ liệu và buộc phải có dữ liệu hay các quan sát trước từ môi trường Khác với phương pháp tiếp cận dựa trên luật ở trên, từ dữ liệu trong trường hợp cụ thể ể suy ra các luật ẩn trong dữ liệu nhằm dự oán và sử dụng cho trường hợp tổng quát hoặc các dữ liệu khác tương tự Dựa trên các quan sát thu ược về dữ liệu, học máy có thể cải thiện ộ chính xác theo thời gian ây là hướng tiếp cận chủ yếu của trí tuệ nhân tạo hiện nay Gần ây, các mạng Nơ-ron nhân tạo học sâu (DNN - Deep Neural Network) ã tạo ra những ột phá mới, cho

Trang 16

phép cải tiến áng kể hiệu năng cho nhiều bài toán Nhờ những tiến bộ của các mạng học sâu, lĩnh vực thị giác máy tính cũng ngày càng có những bước phát triển nhảy vọt với các kết quả áng kinh ngạc.

Khi giải quyết các bài toán cơ bản của lĩnh vực thị giác máy tính bằng học máy, trích trọn ặc trưng ảnh/video là một trong những yếu tố óng vai trò quan trọng, quyết ịnh hiệu quả của hệ thống Trích chọn ặc trưng cho phép giữ lại các ặc iểm quan trọng nhất của ối tượng cần nhận dạng trên ảnh, từ ó có thể loại bỏ dư thừa, nhiễu cũng như tạo ra biểu diễn cô ọng hơn cho ối tượng thay vì các thông tin iểm ảnh như ban ầu Một ặc trưng ược gọi là hiệu quả nếu nó biểu diễn ược các ặc iểm riêng mang tính phân biệt của ối tượng này so với các ối tượng khác.

Hiện nay, có hai hướng tiếp cận chính cho bài toán trích chọn ặc trưng ối tượng trong ảnh/video: (1) trích chọn thủ công (hand-designed/handcrafted features) và (2) trích chọn tự ộng thông qua các mạng học sâu, hay còn ược gọi là các ặc trưng học sâu (deep-learned features) Các phương pháp trích chọn ặc trưng thủ công có thể khai thác những thông tin về màu sắc (color), hình dạng (shape), hoặc kết cấu (texture) của ảnh một cách tường minh Chúng ược trích chọn theo một giải thuật ã ược thiết kế cố ịnh từ trước dựa trên kinh nghiệm của các chuyên gia Mặc dù các loại ặc trưng thủ công này em lại nhiều kết quả tốt cho các hệ thống thị giác máy tính nhưng việc áp dụng các ặc trưng thủ công vẫn tồn tại một số hạn chế như: mỗi loại ặc trưng thủ công ều hướng tới khai thác một ặc iểm nào ó của ối tượng quan sát do ó ặc trưng này chß thực sự hiệu quả ối với một loại dữ liệu nhất ịnh; số lượng các ặc trưng thủ công là có hạn trong khi dữ liệu thực tế là vô hạn và rất a dạng do có sự biến ổi lớn trong thực tế; việc triển khai các hệ thống sử dụng các ặc trưng thủ công cần có nhiều kinh nghiệm của các chuyên gia trong việc lựa chọn loại ặc trưng phù hợp cho bài toán ược triển khai Trong khi ó, các mạng học sâu ra ời theo cách tương tự như việc con người học tập từ dữ liệu thực tế Nhờ ó máy tính có thể tự ộng tìm ra cách thức trích chọn ặc trưng phù hợp cho loại dữ liệu mới thay cho con người ặc trưng ược trích chọn theo phương pháp này ược gọi là ặc trưng học sâu Hướng tiếp cận này ã giải quyết ược một số hạn chế của ặc trưng thủ công khi không còn quá phụ thuộc vào kinh nghiệm của các chuyên gia trong quá trình trích chọn ặc trưng Cùng với sự ra ời của các kiến trúc mạng học sâu, cách tiếp cận ể giải quyết các bài toán cơ bản của thị giác máy tính cũng dần thay ổi Ví dụ như bài toán phát hiện ối tượng trên ảnh Lịch sử phát triển các giải thuật phát hiện và nhận dạng ối tượng trên ảnh gắn liền với lịch sử phát triển của các giải thuật trích trọn ặc trưng iều này ược thể hiện trong Hình 1 với những mốc thời gian quan trọng Trong ó năm 2012 với sự ra ời của mạng AlexNet [1] có thể coi như là

Trang 17

(Simonyan and Zisserman)

Hình 1: Các mốc lịch sử về phát hiện và nhận dạng ối tượng bao gồm các phương pháp trích chọnặc trưng [2]

một mốc thời gian cho sự bắt ầu của các ặc trưng học sâu.

Về cấu trúc, trong mỗi mô hình học sâu ều chứa một khối quan trọng phục vụ cho việc trích chọn ặc trưng tự ộng từ các dữ liệu ầu vào, ược gọi chung là mạng lõi (backbone) Các tham số của mạng này sẽ ược cập nhật trong quá trình học từ tập dữ liệu huấn luyện Dữ liệu huấn luyện càng nhiều, càng a dạng thì càng có khả năng tạo ra ược một bộ tham số tốt cho mô hình Các thành phần khác của mô hình học sâu có thể là một bộ phân lớp, bộ phát hiện ối tượng hoặc bộ phân oạn ảnh, tuỳ vào từng ứng dụng cụ thể Trong nhiều trường hợp thuật ngữ mô hình học sâu và mạng học sâu ược sử dụng thay thế lẫn nhau Mặc dù các mạng học sâu có khả năng làm việc với hầu hết các loại dữ liệu và bài toán khác nhau nhưng trong thực tế, ể có ược những mô hình học sâu phù hợp với bài toán cụ thể cũng có nhiều thách thức Hiện nay, Có rất nhiều kiến trúc mạng học sâu khác nhau cùng với các biến thể của chúng ã ược ề xuất Mỗi kiến trúc mạng học sâu ều có những ưu iểm và hạn chế riêng Do ó, việc nghiên cứu và cải tiến các mạng học sâu vẫn luôn là chủ ề ược quan tâm nhu: cải tiến kiến trúc mạng, chiến lược huấn luyện và tối ưu hoặc ơn giản là lựa chọn mạng phù hợp với bài toán.

Như chúng ta thấy, thị giác máy tính một lĩnh vực rộng lớn với nhiều bài toán khác nhau Trong ó tái ịnh danh hay còn ược gọi là ịnh danh lại người là một bài toán ã và ang thu hút ược nhiều sự quan tâm trong thời gian gần ây Nó không những liên quan trực tiếp ến vấn ề trích chọn ặc trưng ối tượng trên ảnh/video mà nó còn liên quan mật thiết ến các vấn ề cơ bản khác của thị giác máy tính như: phát hiện ối tượng và theo vết ối tượng Trong bài toán tái ịnh danh, ối tượng ở ây có thể là người, xe cộ hay bất kỳ vật thể hữu hình nào Các kết quả nghiên cứu cho bài toán này có thể ược áp dụng vào các hệ thống tìm kiếm người thông qua camera giám sát trong thực tế Rất nhiều các bài toán trong thị giác máy tính trong ó có tái ịnh danh người ang ược tiếp cận nhiều theo hướng sử dụng học sâu Tuy nhiên học sâu cũng có

Trang 18

những nhược iểm của nó, nhược iểm lớn nhất của nó phải kể ến ó là kích thước của các mô hình học sâu thường lớn iều này gây cản trở việc triển khai các mạng học sâu trên các thiết bị phần cứng có nguồn tài nguyên hạn chế Do vậy rất cần những nghiên cứu ể giảm kích thước cho các mạng học sâu.

Như vậy, việc nghiên cứu và phát triển các phương pháp trích chọn ặc trưng dựa trên học sâu trong tái ịnh danh người là rất cần thiết ở thời iểm hiện tại 2 Mục tiêu nghiên cứu

Luận án tập trung nghiên cứu và phát triển các mô hình học sâu nhằm cải thiện chất lượng ặc trưng ảnh/video thu ược trong bài toán tái ịnh danh người Các mục tiêu cụ thể của Luận án như sau:

− Nghiên cứu, ề xuất phương pháp trích chọn ặc trưng ảnh hiệu quả cho tái ịnh danh người dựa trên học sâu Trích chọn ặc trưng ảnh là bước quan trọng, mang tính chất quyết ịnh chất lượng bước ối sánh ảnh từ ó quyết ịnh chất lượng tái ịnh danh Do vậy, ặc trưng thu ược từ phương pháp ề xuất phải có tính phân biệt cao giữa hai ảnh hai người khác nhau tương ứng, ồng thời có tính tương ồng cao giữa hai ảnh của cùng một người Ngoài ra, nhằm hướng tới các ứng dụng có thể dễ dàng triển khai trong nhiều iều kiện thực tế, mục tiêu nghiên cứu ược mở rộng hơn bao gồm nén mạng học sâu hướng tới triển khai trên các thiết bị phần cứng.

− Cải tiến mô hình tái ịnh danh người, trong ó dựa trên các kiến trúc mạng học sâu Nơ-ron hồi quy ể tổng hợp ặc trưng mức chuỗi ảnh (video) Trong trường hợp sử dụng chuỗi hình ảnh (videos) thay cho hình ảnh ơn lẻ, mô hình tái ịnh danh người có thể ược cải tiến bằng cách nâng cao chất lượng ặc trưng cho chuỗi hình ảnh người Với hướng tiếp cận dựa trên học sâu, các kiến trúc mạng Nơ-ron hồi quy sẽ ược nghiên cứu ể giải quyết vấn ề này Ngoài ra, chất lượng tái ịnh danh không chß phụ thuộc vào phương pháp trích chọn ặc trưng mà nó còn phụ thuộc vào phương pháp phát hiện, theo vết, giải thuật so khớp các ặc trưng Do ó các giải thuật phát hiện và theo vết ối tượng và các giải thuật ối sánh ặc trưng cũng sẽ ược nghiên cứu ể nâng cao chất lượng mô hình tái ịnh danh người.

3 ối tượng, phạm vi nghiên cứu và thách thức

Với các mục tiêu ặt ra như trên, ối tượng nghiên cứu chính của luận án ược xác ịnh là các phương pháp trích chọn ặc trưng ảnh/chuỗi ảnh dựa trên học sâu Phạm vi nghiên cứu là bài toán tái ịnh danh người, trong ó tập chung vào vấn ề so khớp hình ảnh/chuỗi ảnh dựa trên ặc trưng học sâu Bên cạnh

Trang 19

ó, các vấn ề liên quan khác như phát hiện, theo vết ối tượng dựa trên học sâu, nén mạng học sâu và các giải thuật nâng cao ộ chính xác cho so khớp ặc trưng cũng là những nội dung thuộc phạm vi nghiên cứu của luận án.

Phát hiện, theo vết và tái ịnh danh người

Ngữ cảnh của phát hiện, theo vết và tái ịnh danh người ược xem xét trong một hệ thống tái ịnh danh người hoàn chßnh ược chß ra như trên Hình 2 Trong hệ thống ó, các ối tượng di chuyển giữa các trường quan sát khác nhau (không chồng lấn) của các hệ thống camera giám sát Dữ liệu hình ảnh/video ược xử lý thông qua ba khối chính, bao gồm:

− Phát hiện người: Mục ích của bước phát hiện người là xác ịnh vùng không gian ảnh chứa ối tượng cần quan tâm (người), vùng này thường ược ánh dấu là một hình chữ nhật bao trọn ối tượng (bbox - bounding box).

− Theo vết người: Một bộ theo vết ối tượng (tracker) thực hiện giải thuật dự oán và kết nối các vùng không gian chứa cùng một ối tượng trên các khung hình liên tiếp Hay nói cách khác là xác ịnh ược quỹ ạo di chuyển của từng người trong vùng quan sát của một camera duy nhất Kết quả thu ược là một tập các vùng ánh dấu chứa người (bbox) và các tracklet tương ứng với mỗi người xuất hiện trong vùng quan sát của camera.

− Tái ịnh danh: Kết quả theo vết ược dùng là ầu vào bước tái ịnh danh thể hiện bằng khối cuối cùng ược ánh dấu màu ỏ trong Hình 2 Khối này là trọng tâm nghiên cứu của luận án Tái ịnh danh có nhiệm vụ so khớp (matching) hình ảnh của những người thu ược từ các cặp camera khác nhau Thao tác này ược thực hiện bằng cách so khớp các cặp ặc trưng ảnh/video tương ứng Trong ó tập hợp các hình ảnh thu ược từ camera dùng ể truy

Trang 20

vấn ược gọi là tập thăm dò (probe) nhiều khi còn ược gọi là tập truy vấn, tập hình ảnh thu ược từ camera còn lại ược gọi là tập ược truy vấn hay tập tìm kiếm (gallery) Nhờ việc so khớp này trên từng cặp camera, kết hợp với cấu trúc mạng lưới camera giám sát ã biết từ trước mà từ ó có thể xác ịnh ường i của từng người trong vùng quan sát của mạng lưới camera giám sát Trên thực tế, việc tìm ra lời giải cho bài toán tái ịnh danh này phụ thuộc rất nhiều vào iều kiện áp dụng (ràng buộc) Tùy vào các iều kiện áp dụng cụ thể mà bài toán tái ịnh danh ược phân thành các loại khác nhau.

+ Dựa vào số lượng hình ảnh ược sử dụng ể ại diện cho một người (ID) thì bài toán tái ịnh danh ược chia thành 2 loại: Tái ịnh danh sử dụng ơn hình ảnh (Single-shot) và tái ịnh danh sử dụng chuỗi ảnh (Multi-shot) Trong khi loại ơn hình ảnh chß sử dụng một hình ảnh cho mỗi người trên 1 camera thì loại chuỗi hình ảnh lại sử dụng cả một chuỗi hình ảnh (video) ể ại diện cho một người trên 1 camera.

+ Dựa vào việc không có hay có sự khác nhau (ịnh danh) giữa những người xuất hiện trong tập truy vấn và tập thư viện mà người ta chia thành 2 loại: Bài toán tái ịnh danh cho tập dữ liệu óng - tập óng (Close set) và bài toán tái ịnh danh cho tập dữ liệu mở - tập mở (Open set) Trong trường hợp tập óng, hình ảnh người ược truy vấn chắc chắn có trong tập tìm kiếm khi ó tái ịnh danh là xác ịnh người nào trong tập thư viện phù hợp nhất với người ược truy vấn ối với trường hợp tập mở, vấn ề trở nên khó khăn hơn khi người ược truy vấn sẽ có thể không tồn tại trong tập thư viện.

+ Dựa vào sự chênh lệch về thời iểm thu nhận tập ảnh truy vấn và tập ảnh thư viện mà người ta phân bài toán tái ịnh danh thành 2 loại: Bài toán tái ịnh danh ngắn hạn (Short term) và dài hạn (Long term) Tái ịnh danh ngắn hạn ít thách thức do những người xuất hiện trong hình ảnh vẫn chưa có nhiều sự thay ổi trang phục và diện mạo trong quá trình di chuyển từ vùng quan sát của camera này sang vùng quan sát của camera khác, ngược lại loại dài hại sẽ thách thức hơn nhiều khi mà thời iểm thu nhận hình ảnh truy vấn bởi camera này và hình ảnh tìm kiếm bởi camera khác cách nhau một khoảng thời gian dài Khi ó, rất có thể xảy ra sự khác biệt lớn về diện mạo, trang phục cũng như các iều kiện ngoại cảnh ảnh hưởng ến chất lượng hình ảnh thu nhận ược.

Các bước phát hiện, theo vết và tái ịnh danh ều óng vai trò quan trọng ối với một hệ thống tái ịnh danh trong thực tế Trong mỗi bước, vấn ề trích

Trang 21

chọn ặc trưng ảnh/chuỗi ảnh ều óng vai trò quan trọng Tuy nhiên, nội dung luận án tập chung chủ yếu vào giải quyết các vấn ề của khối tái ịnh danh (khối ược ánh dấu màu ỏ trong Hình 2) trong ó có vấn ề trích chọn ặc trưng ảnh/chuỗi ảnh Với ngữ cảnh ược ề cập như trên, có một số ràng buộc nhất ịnh cần xem xét ối với phát hiện, theo vết và tái ịnh danh người Các ràng buộc này bao gồm:

− Môi trường: Dữ liệu hình ảnh có ược thu nhận trong nhiều loại môi trường khác nhau Một số ược thu nhận với môi trường ngoài trời thậm chí với cường ộ ánh sáng khác nhau như CSDL VIPeR [3], PRID-2011 [4] Một số dữ liệu ược thu với iều kiện trong phòng (với ánh sáng iện) lẫn ngoài trời như FAPR hoặc ga tàu iện ngầm như iLIDS-VID [5].

− Camera: Trong tất cả trường hợp ược trình bày trong luận án này, dữ liệu hình ảnh ều ược thu nhận bởi camera RGB lắp cố ịnh và không chồng lấn nhau về trường quan sát.

− Số lượng người di chuyển trong vùng thu của camera: Số lượng người xuất hiện trong khung hình biến ổi lớn Sự di chuyển của người là hỗn ộn với tốc ộ di chuyển khác nhau, có thể cùng chiều hoặc ngược chiều do ó ôi khi dẫn ến che lấp nhau nhưng thường không che lấp trong suốt quá trình di chuyển Tÿ lệ che lấp cũng thay ổi.

− iều kiện thu nhận dữ liệu: Dữ liệu hình ảnh dạng video ều ược thu nhận với tốc ộ từ 15 ến 25fps với ộ phân giải biến ổi lớn Khoảng thời gian ối tượng xuất hiện trong trường quan sát của camera này ến khi xuất hiện trong trường quan sát của camera khác ngắn (Chưa có sự thay ổi về diện mạo bên ngoài) ối tượng ã xuất hiện trong camera này thì sẽ xuất hiện trong camera khác.

Căn cứ vào các ngữ cảnh và ràng buộc ược nêu ở trên, việc trích chọn ặc trưng ảnh người cho phát hiện, theo vết và tái ịnh danh có những thách thức sau:

− iều kiện chiếu sáng thay ổi: Ánh sáng môi trường tại các camera khác nhau trong mạng camera có thể rất khác nhau Ngoài ra, khi di chuyển, ối tượng quan tâm có thể i qua các vùng với iều kiện chiếu sáng khác nhau (nhiều trường hợp do sự cản sáng của các vật thể của môi trường) khiến cho việc tái ịnh danh người ở các vùng quan sát khác nhau của camera sẽ trở nên khó khăn hơn.

− Hiện tượng che khuất: Với những cảnh thu ông người, việc che khuất giữa người nọ với người kia trong một khung hình xảy ra thường xuyên iều

Trang 22

này cũng ảnh hưởng nhiều tới chất lượng kết quả của phát hiện, theo vết và tái ịnh danh người Việc trích chọn ặc trưng người khi bị che khuất cũng gặp thách thức lớn.

− Kích thước ối tượng trong ảnh biến ổi lớn: Trong khi di chuyển, khoảng cách của ối tượng quan sát ến camera có thể thay ổi dẫn ến kích thước hình ảnh của ối tượng biến ổi ây cũng làm một vấn ề gay khó khăn trực tiếp cho việc trích chọn ặc trưng.

− Việc sử dụng nhiều camera khác nhau cũng có thể dẫn ến sự chênh lệnh về chất lượng hình ảnh hoặc sự khác biệt về thể hiện bề ngoài của cùng một người khi ược quan sát bởi các camera khác nhau.

Nén mạng và triển khai trên FPGA Mạng học sâu em lại hiệu quả cao trong rất nhiều ứng dụng Tuy nhiên, kiến trúc mạng thường phức tạp với nhiều trọng số cũng như nhiều giá trị trung gian cần lưu trữ giữa các lớp mạng dẫn ến yêu cầu cao về bộ nhớ và tài nguyên tính toán Nén mạng và triển khai trên FPGA là một giải pháp ể khắc phục nhược iểm trên và mang lại nhiều lợi ích quan trọng như: hiệu suất tính toán cao, tiết kiệm năng lượng, tính linh hoạt và triển khai thời gian thực Những ưu iểm này làm cho FPGA trở thành một lựa chọn phù hợp cho việc triển khai các ứng dụng học sâu trên các hệ thống có tài nguyên hạn chế và yêu cầu hiệu suất cao Bên cạnh những ưu iểm trên, việc nén mạng và triển khai trên FPGA còn nhiều thách thức như: (1) Khó khăn trong việc lập trình FPGA nhất là các vấn ề song song hóa các tiến trình xử lý hoặc tối ưu hóa tài nguyên phần cứng Không giống như GPU, chạy trên phần mềm, giờ ây chúng ta chuyển ổi một thuật toán phần mềm thành các khối thực thi phần cứng trước khi ánh xạ nó lên các FPGA (2) Do các mạng DNN nói chung có một lượng tham số rất lớn nên cần phải thực hiện các giải thuật nén mạng trước khi có thể triển khai chúng trên phần cứng Trong quá trình thực hiện nén các mạng DNN, việc ề xuất ược các phương pháp nén mạng, các tham số nén mạng tối a hóa ược tÿ lệ nén nhưng vẫn giữ lại ược ộ tin cậy tương ương với mạng gốc cũng là một thách thức cần giải quyết Trong trường hợp có một phương pháp nén mạng hiệu quả, một kiến trúc phần cứng phù hợp, việc triển khai các mạng học sâu lên FPGA có thể không cần thêm bộ nhớ ngoài Khi ó hiệu xuất hoạt ộng sẽ ược phát huy tối a.

4 Phương pháp nghiên cứu

Phương pháp thu thập, phân tích và tổng kết kinh nghiệm

− Tìm hiểu các phương pháp trích chọn ặc trưng thủ công (hand-designed features) và ặc trưng học sâu trên cơ sở nghiên cứu các kiến trúc học sâu

Trang 23

phổ biến trong lĩnh vực thị giác máy tính.

− Tìm hiểu bài toán tái ịnh danh người sử dụng hình ảnh từ mạng camera giám sát bao gồm: các khó khăn, thách thức; các hướng tiếp cận; các tham số tác ộng ến hiệu quả của một hệ thống tái ịnh danh Thu thập các số liệu về kết quả tái ịnh danh ã ược công bố cũng với các iều kiện thử nghiệm làm cơ sở cho việc ối sách kết quả của phương pháp ược ề xuất sau này.

− Tìm hiểu và nghiên cứu một số chiến lược kết hợp ặc trưng nhằm nâng cao ộ chính xác của bài toán tái ịnh danh trong ó có sử dụng ặc trưng thu ược từ ề xuất cải tiến kiến trúc mạng học sâu của NCS.

− Thu thập các cơ sở dữ liệu dùng chung cho bài toán tái ịnh danh người.

− Tìm hiểu các PP nén mạng và các kết quả triển khai trên phần cứng Phân tích các ưu và nhược iểm của từng phương pháp từ ó ề xuất phương pháp nén mạng phù hợp.

Từ các kết quả tìm hiểu, tiến hành phân tích ể tìm ra ưu và nhược iểm của từng phương pháp làm căn cứ ề xuất các cái tiến phù hợp.

Phương pháp quan sát

Quan sát các cơ sở dữ liệu phục vụ bài toán tái ịnh danh người nhằm tìm ra ặc iểm chung của các CSDL này Từ ó kết hợp với kết quả tìm hiểu phương pháp trích chọn ặc trưng dựa trên học sâu ề xuất phương pháp trích chọn ặc trưng hiệu quả cho bài toán tái ịnh danh.

Phương pháp thực nghiệm và mô phỏng

− Tiến hành thực hiện các thử nghiệm phương pháp ề xuất trên các CSDL dùng chung Các kết quả thu ược sẽ ược so sánh với nghiên cứu có cùng iều kiện thử nghiệm trước ó nhằm tìm ra các ưu, nhược iểm của chúng.

− Tiến hành mô phỏng và thử nghiệm một hệ thống tái ịnh danh với ầy ủ các thành phần ánh giá kế quả cho từng thành phần của hệ thống Từ ó ưa ra nhận ịnh về ảnh hưởng của các bước ến kết quả tái ịnh danh cuối cùng.

− Tiến hành nén mạng, mô phỏng hoạt ộng cảu mạng ã nén trên phần mềm giả lập mạch FPGA và ánh giá các kết quả thu ược.

Trang 24

5 Ý nghĩa khoa học và thực tiễn của ề tài Ý nghĩa khoa học

Luận án hướng tới cải tiến và phát triển mô hình học sâu cho việc trích chọn ặc trưng ảnh/video một cách hiệu quả hơn cho tái ịnh danh người Rõ ràng trích chọn ặc trưng là vấn ề nghiên cứu quan trọng bởi nó quyết ịnh trực tiếp ến chất lượng của bất kỳ mô hình học máy nào không chß dừng lại ở bài toán tái ịnh danh người Kết quả nghiên cứu thu ược có thể làm nền tảng cho các nghiên cứu khác nhằm nâng cao chất lượng mô hình cho các bài toán tái ịnh danh người và các bài toán khác trong thị giác máy tính Ngoài ra, trong bài toán tái ịnh danh, thể hiện của cùng một người khi ược quan sát bởi nhiều camera trong nhiều iều kiện khác nhau có sự khác biệt lớn ể có thể tạo ra một biểu diễn hiệu quả, luận án ã cải tiến và áp dụng các mạng học sâu nhằm khai thác ược thông tin theo cả miền không gian và thời gian Do vậy các nghiên cứu của luận án có ý nghĩa về mặt khoa học.

Ý nghĩa thực tiễn

Tái ịnh danh người là một bài toán phổ biến và có tính ứng dụng cao Tái ịnh danh nhằm xác ịnh lại một người khi người ó ược quan sát bởi các camera giám sát khác nhau Trong bài toán này, ối tượng quan tâm là hình ảnh người ược thu nhận bởi các camera giám sát Thành công thu ược từ các kết quả nghiên cứu cho bài toán tái ịnh danh có thể ược áp dụng trong các hệ thống tìm kiếm người dựa trên hình ảnh thu nhận ược từ camera giám sát trên thực tế hoặc các hệ thống truy vết xe cộ Ngoài ra, việc nghiên cứu, thử nghiệm các phương pháp nén mạng cũng mang lại ý nghĩa rất quan trọng Nhờ ó có thể triển khai các kiến trúc mạng học sâu trên các thiết bị phần cứng có tài nguyên hạn chế Từ các phân tích trên chứng tỏ luận án có ý nghĩa về mặt khoa học và thực tiễn.

6 Các óng góp

Sau quá trình nghiên cứu ể hướng tới các mục tiêu của luận án, một số óng góp chính ược thực hiện trong Luận án này bao gồm:

− ề xuất cải tiến mạng trích chọn ặc trưng học sâu cho phép khai thác thông tin cục bộ của ảnh người nhằm nâng cao chất lượng ặc trưng ảnh trong bài toán tái ịnh danh người sử dụng hình ảnh từ mạng camera giám sát Cụ thể luận án ã thực hiện cải tiến mạng ResNet-50 ể trích ặc trưng ảnh ồng thời ề xuất phương pháp ối sánh ặc trưng thu ược dựa trên ộ o khoảng cách EMD (Earth Movers Distance) cho tái ịnh danh người Kết

Trang 25

quả ược trình bày tại [CT7, 8] Ngoài ra, luận án ề xuất một phương pháp nén mạng học sâu hướng tới việc triển khai trên phần cứng FPGA, ồng thời thử nghiệm phương pháp này với mạng học sâu VGG16 và VGG16-SSD Kết quả của óng góp này ược trình bày tại [CT6]

− ề xuất cải tiến mô hình tái ịnh danh dựa trên chuỗi hình ảnh sử dụng các biến thể mạng RNN cho việc tổng hợp các ặc trưng mức chuỗi ảnh Xây dựng ược một cơ sở dữ liệu phục vụ ánh giá ầy ủ các bước của một hệ thống tái ịnh danh ầu ủ bao gồm phát hiện, theo vết và tái ịnh danh người Các hình ảnh của CSDL ược thu nhận tại trường ại học Bách Khoa Nà Nội Kết quả của óng góp này ược công bố tại [CT1, 2, 3, 4, 5]

7 Bố cục của luận án

Luận án ược chia thành 4 chương, trước các chương là phần mở ầu, sau các chương là phần kết luận và một số hướng nghiên cứu trong tương lai:

− Mở ầu: Trình bày về tính tính cấp thiết, mục tiêu nghiên cứu, ý nghĩa khoa học và thực tiễn, các óng góp của ề tài.

− Chương 1: Trình bày các nghiên cứu liên quan ến học sâu, các mô hình mạng học sâu tiêu biểu và vấn ề trích chọn ặc trung sử dụng các mô hình học sâu, các nghiên cứu liên quan ến bài toán phát hiện, theo vết và tái ịnh danh ối tượng trên ảnh sử dụng ặc trưng học sâu.

− Chương 2: Trình bày phương án cải tiến cho mạng ResNet50 nhằm nâng cao chất lượng ặc trưng ảnh cho tái ịnh danh người bằng cách khai thác các thông tin ảnh cục bộ.

− Chương 3: ánh giá hiệu quả của một số biến thể mạng RNN cho việc trích chọn ặc trưng mức chuỗi ảnh ề xuất cải tiến mô hình tái ịnh dựa trên chuỗi ảnh sử dụng các biến thể mạng RNN.

− Chương 4: Trình bày về ề xuất một phương pháp nén mạng học sâu hướng tới việc triển khai các mạng này phần cứng FPGA.

− Kết luận và hướng nghiên cứu tiếp theo: Tóm tắt những kết quả ã ạt ược và ồng thời ề xuất một số hướng nghiên cứu có thể ược trong tương lai.

Trang 26

Chương 1

NGHIÊN CỨU TỔNG QUAN

Chương này tập trung trình bày một số nghiên cứu liên quan tới nội dung của Luận án, bao gồm: (1) Các phương pháp trích chọn ặc trưng ảnh; (2) Mô hình học sâu ược áp dụng cho bài toán trích chọn ặc trưng và phân lớp; (3) Mô hình học sâu áp dụng cho bài toán phát hiện, theo vết và tái ịnh danh người; (4) Các nghiên cứu về nén mạng học sâu và việc triển khai các mạng học sâu trên mạch logic FPGA.

1.1 Trích chọn ặc trưng hình ảnh

Trích chọn ặc trưng là một trong các bước óng vai trò quan trọng trong thị giác máy tính Mục ích của trích chọn ặc trưng ảnh là khai thác các thông tin hữu ích của ảnh, loại bớt các thông tin dư thừa, tạo ra các biểu diễn dữ liệu mới có nhiều tính chất tốt hơn Các thông tin này sẽ là ầu vào của một mô hình học máy, từ ó ưa ra một dự oán hoặc phân lớp ối tượng Một ặc trưng trong học máy là một ại lượng có thể o lường hay chứa ặc tính của một ối tượng ược quan sát Trích rút ặc trưng, lựa chọn ặc trưng là các vấn ề quan trọng của việc xử lý dữ liệu và xây dựng mô hình trong lĩnh vực học máy và khai phá dữ liệu nói chung và thị giác máy tính nói riêng.

Trích rút ặc trưng (Feature Extraction): Trích rút ặc trưng là quá trình biến ổi dữ liệu gốc từ một không gian ặc trưng ban ầu sang một không gian ặc trưng mới bằng cách sử dụng các phép biến ổi toán học hoặc kỹ thuật khác Mục tiêu của trích rút ặc trưng là tạo ra các biểu diễn dữ liệu mới có tính chất tốt hơn, giúp tách biệt dữ liệu nhờ phát huy các ặc trưng tiềm ẩn trong dữ liệu gốc Các phương pháp trích rút ặc trưng phổ biến bao gồm Principal Component Analysis (PCA) [6], Linear Discriminant Analysis (LDA) [7], t-Distributed Stochastic Neighbor Embedding (t-SNE) [8], và Autoencoders trong học sâu.

Lựa chọn ặc trưng (Feature Selection): Lựa chọn ặc trưng là quá trình chọn một tập hợp con của các ặc trưng ban ầu từ dữ liệu gốc ể tạo ra một tập dữ liệu mới với số lượng ặc trưng ít hơn Mục tiêu của lựa chọn ặc trưng là loại bỏ những ặc trưng không quan trọng hoặc không cần thiết, giúp cải thiện hiệu suất mô hình và giảm ộ phức tạp của mô hình Các phương pháp lựa chọn ặc trưng bao gồm kiểm tra thống kê, quyết ịnh dựa trên mô hình.

Trích chọn ặc trưng (Feature Extraction and Selection): Trích chọn

Trang 27

ặc trưng kết hợp giữa trích rút ặc trưng và lựa chọn ặc trưng ể tạo ra một tập dữ liệu mới với các ặc trưng ã ược biến ổi và tối ưu Khi sử dụng trích chọn ặc trưng, ta có thể thực hiện cả hai quá trình trích rút và lựa chọn ặc trưng ể tạo ra một tập dữ liệu tối ưu cho mục tiêu cụ thể Trên thực tế thuật ngữ trích chọn ặc trưng ược dùng chung cho cả trường hợp chß trích rút ặc trưng Chß khi nào cần nhấn mạnh quá trình lựa chọn ặc trưng, thuật ngữ "lựa chọn ặc trưng" mới ược sử dụng.

Trích chọn ặc trưng sẽ nhận ầu vào là hình ảnh sau ó xuất chúng thành các véc-tơ và ược gọi là các véc-tơ ặc trưng Các véc-tơ này này có thể chứa thông tin về màu sắc (color), kết cấu (texture), hay hình dạng (shape) của ối tượng trên ảnh ặc trưng ược phân chia thành hai nhóm chính dựa trên cách trích chọn ặc trưng: (1) ặc trưng thủ công (hand-crafted features) và (2) ặc trưng ược học sâu (deep-learned features) Các ặc trưng thủ công ược trích chọn theo phương pháp thủ công, ược xây dựng dựa trên kinh nghiệm của các chuyên gia Một số hướng tới khai thác các thông tin về màu sắc trong ảnh Ví dụ như ặc trưng thu ược từ biểu ồ phân bố màu sắc (color histogram) Một số khác lại hướng tới khai thác các thông tin về kết cấu của ảnh như: LBP (Local Binary Pattern) [9], HOG (Histogram of Oriented Gradients) [10], SIFT (Scale-Invariant Feature Transform) [11], SUFR (Speeded Up Robust Feature) [12], Sau này, một số nghiên cứu ề xuất tích hợp các thông tin này với nhau nhằm nâng cao khả năng biểu diễn của các ặc trưng, ví dụ như ặc trưng KDES [13] Tuy nhiên, việc tích hợp nhiều thông tin sẽ dẫn ến vấn ề tăng kích thước của các véc-tơ ặc trưng, tăng ộ phức tạp tính toán Các véc-tơ ặc trưng này ược ưa vào mô hình học máy, có thể là bộ phân lớp SVM (Support véc-tơ Machine) hoặc Adaboost ể dự oán phân lớp của ối tượng Hình 1.1 mô tả một hệ thống học máy với các ặc trưng ược trích chọn thủ công phục phục vụ bài toán phân lớp ảnh.

Hình 1.1: Học máy với các ặc trưng ược trích chọn thủ công

Trong những năm gần ây, các mạng học sâu ã và ang thu hút ược sự quan tâm lớn của cộng ồng nghiên cứu trong lĩnh vực thị giác máy tính Mạng học sâu ã và ang mang ến những hiệu quả áng kể trong lĩnh vực thị giác

Trang 28

máy tính Nếu các ặc trưng thủ công dựa chủ yếu vào tri thức cũng như kinh nghiệm của các nhà nghiên cứu, các chuyên gia, ặc trưng học sâu ược trích chọn dựa trên mô hình ã ược huấn luyện Các mô hình này thường ược huấn luyện trên một tập cơ sở dữ liệu ủ lớn, a dạng ể có thể áp dụng vào bất kỳ bài toán nào Hình 1.2 mô tả một mô hình học sâu cho bài toán phân lớp Một

Dữ liêu vào

Ô tô con

Hình 1.2: Học máy với các ặc trưng ược trích chọn thông qua mô hình học sâu

mạng học sâu sẽ ược huấn luyện ể thực hiện ồng thời hai nhiệm vụ: (1) trích chọn ặc trưng và (2) phân lớp Từ năm 2006, học sâu (Deep learning) ã nổi lên như một lĩnh vực nghiên cứu máy học mới Cho ến nay, thuật ngữ học sâu ã trở nên rất phổ biến và ược ứng dụng trong hầu hết các lĩnh vực nghiên cứu như: xử lý thông tin, xử lý tín hiệu, xử lý ngôn ngữ tự nhiên, Tác giả Deng L [14] ã ưa ra một ịnh nghĩa về học sâu như sau: "Học sâu là một lớp các kỹ thuật học máy khai thác nhiều tầng xử lý thông tin phi tuyến tính ể trích xuất và biến ổi ặc trưng có giám sát hoặc không ược giám sát, cũng như ể phân tích và phân loại mẫu" Các kiến trúc mạng học sâu cơ bản ược dựa trên mạng nơ-ron nhân tạo (Artificial neural networks) Có nhiều các kiến trúc học sâu khác nhau như:

− Mạng Nơ-ron sâu - Deep neural networks (DNN)

− Mạng Nơ-ron tích chập - Convolutional neural networks (CNN)

− Deep belief networks - DBN

− Mạng Nơ-ron hồi quy - Recurrent neural networks (RNN)

Trong ó kiến trúc mạng Nơ-ron tích chập ược sử dụng nhiều trong các bài toán thuộc lĩnh vực thị giác máy tính như: phân lớp ảnh, phát hiện ối tượng trong ảnh, phân oạn ảnh Hình 1.3 thể hiện cấu trúc tổng quát của một mạng nơ-ron tích chập Mạng nơ-ron tích chập có kiến trúc phân tầng, nó bao gồn nhiều lớp mạng và ược chia làm 2 khối chính:

− Khối trích chọn ặc trưng: Gồm nhiều lớp tích chập (Convolution) và nhiều lớp tổng hợp (Pooling) ược ghép nối với nhau Tùy thuộc vào kiến trúc

Trang 29

Phần trích chọn đặc trưngPhần phân lớp

Hình 1.3: Cấu trúc một mạng nơ-ron tích chập cơ bản

mạng mà số lượng, các tham số của các lớp này là khác nhau Ngoài ra còn một số lớp khác cũng ược sử dụng như: ReLU, batchnorm

− Khối phân lớp: Thông thường là một hoặc nhiều lớp kết nối ầy ủ (Fully-connected) Trong nhiều trường hợp, khối này có thể ược thay thế bằng một hoặc một vài lớp mạng ược thiết kế chuyên biệt ể thực một số chức năng khác.

Mạng tích chập hoạt ộng hiệu quả với dữ liệu hình ảnh ơn lẻ Trong trường hợp dữ liệu là một chuỗi các hình ảnh liên tiếp như bài toán nhận dạng hoạt ộng, cử chß, một kiến trúc học sâu kiểu mạng Nơ-ron hồi quy (và một số biến thể) thường ược áp dụng cùng với các mạng nơ-ron tích chập ể xử lý các thông tin dạng chuỗi Kiến trúc mạng nơ-ron hồi quy cho phép tạo ra ặc trưng mức chuỗi hình ảnh từ những ặc trưng hình ảnh ơn lẻ Khi ó ngoài ặc trưng về màu sắc, thể hiện bề ngoài của ối tượng trong ảnh (thu ược bởi ặc trưng mức ảnh) thì chuỗi hình ảnh sẽ cung cấp các ặc trưng mang thông tin về thời gian, từ ó, có thể ưa ra một dự oán chính xác hơn về hoạt ộng hay cử chß của một ối tượng nào ó Nội dung sau ây tập trung trình bày về một số kiến trúc mạng nơ-ron tích chập phổ biến.

1.2 Mạng nơ-ron tích chập

Ngày nay, mạng nơ-ron tích chập ược nghiên cứu ể giải quyết hầu hết các bài toán có bản của thị giác máy tính Dưới ây là một số kiến trúc mạng tiêu biểu.

Trang 30

Mạng nơ-ron tích chập cho bài toán phân lớp

LeNet-5 là kiến trúc ầu tiên áp dụng mạng tích chập hai chiều ược ề xuất bởi giáo sư Yan Lecun và nhóm nghiên cứu [15] vào năm 1998 Ông cũng ược cho là người sáng lập của kiến trúc mạng tích chập Ban ầu, Mạng LeNet (Hình 1.4) tương ối ơn giản, chß bao gồm hai lớp tích chập và ba lớp kết nối ầy ủ Mặc dù có kiến trúc ơn giản nhưng kết quả nó mang lại ối với bài toán phân loại chữ số viết tay trên CSDL MNIST ã cho thấy ưu thế vượt trội so với các thuật toán học máy truyền thống Tổng số tham số huấn luyện ược của mạng này khoảng 60.000 Dữ liệu ầu vào của mạng là ảnh mức xám có

AlexNet [1] là một mạng nơ-ron tích chập ược Alex Krizhevsky giới thiệu vào năm 2012 và kiến trúc mạng học sâu này ã dành chiến thắng cách biệt trong cuộc thi nhận dạng ảnh trên cơ sở dữ liệu lớn ImageNet (ImageNet Large Scale Visual Recognition Challenge - ILSVRC) Mục tiêu của cuộc thi này là tìm ra các giải thuật, các mô hình phân lớp ảnh và phát hiện ối tượng trên ảnh hiệu quả nhất Các thử nghiệm ược thực hiện trên cơ sở dữ liệu ImageNet [16] với hơn 14 triệu hình ảnh của 1000 lớp ối tượng khác nhau Lần ầu tiên, một kiến trúc học sâu ã phá vỡ ịnh kiến trước ó rằng các ặc trưng học ược sẽ không tốt bằng các ặc trưng ược trích chọn thủ công như SURF, HOG, SIFT, Kiến trúc mạng AlexNet vẫn ược dựa trên nền tảng kiến trúc mạng

Trang 31

LeNet với 8 lớp mạng trong ó có 5 lớp tích chập và 3 lớp kết nối ầy ủ Mạng AlexNet có kiến trúc sâu hơn và ảnh ầu vào có ộ phân giải cao hơn, do ó số lượng tham số cần huấn luyện của mạng tăng lên rất nhiều so với mạng LeNet Tổng số lượng tham số của mạng này lên ến xấp xß 60 triệu tham số Hình 1.5 mô tả kiến trúc của mạng AlexNet So với cấu trúc mạng LeNet, mạng AlexNet có một số iểm khác biệt sau:

− Làm việc với ảnh màu với ộ phân giải cao hơn (224×224×3thay vì32×32×1).

− Sử dụng các bộ lọc (kernel) với kích thước giảm dần qua các lớp tích chập Tại các lớp càng sâu thì bộ lọc có kích thước càng nhỏ.

− Sử dụng các hàm chuẩn hóa cục bộ (local normalization) ể chuẩn hóa các lớp mạng giúp cho quá trình hội tụ nhanh hơn.

Ngoài ra, trong quá trình tối ưu mạng AlexNet còn có một số cải tiến:

− Sử dụng các hàm kích hoạt (activation) là ReLU (Rectified Linear Unit) thay cho các hàm Tanh hoặc Sigmoid Hàm ReLU là hàm có tính chất phi tuyến (non-linear) và có tốc ộ tính toán nhanh.

− Sử dụng lớp "dropout" giúp giảm số lượng liên kết và kiểm soát hiện tượng quá khớp (overfitting).

VGG-16 [17] có kiến trúc sâu hơn nhiều so với AlexNet, mạng bao gồm 13 lớp tích chập (thay vì 5 so với AlexNet) và 3 lớp kết nối ầy ủ, số lượng tham số của nó lên tới 138 triệu tham số ây là một trong những mạng mà có số lượng tham số lớn nhất Tại cuộc thi ILSVRC năm 2014, VGG-16 ã giành ược vị trí Á quân với bài toán phân lớp ảnh Trong VGG-16, sử dụng kiến trúc khối (block) ược lặp lại nhiều lần trong mạng ây cũng là kiến trúc ầu tiên ghép nối tiếp nhiều lớp tích chập với nhau mà không sử dụng các lớp tổng hợp xen kẽ như các kiến trúc trước VGG-16 ã và ang ược sử dụng với vai trò là một mạng lõi cho nhiều mô hình ứng dụng khác nhau Ngoài phiên bản VGG-16 còn một phiên bản nữa là VGG-19 với nhiều lớp mạng hơn Chi tiết về mạng VGG-16 ược mô tả như trong Hình 1.6

GoogleNet [18] ược giới thiệu vào năm 2014 bởi các nhà nghiên cứu của Google và ã giành vị trí thứ nhất trong cuộc thi ILSVRC năm ó ở phần thi phân lớp ảnh (VGG16 ứng thứ 2) Kiến trúc mạng của GoogleNet có nhiều khác biệt so với các kiến trúc mạng AlexNet và VGG16, kiến trúc của nó không hoàn toàn là các lớp ghép nối tiếp nhau như các mạng trên GoogleNet là phiên bản ầu tiên sử dụng kiến trúc "Inception", ược gọi là "Inception-v1" (Hình 1.7.a) Phiên bản sau ó ("Inception-v3") ra ời vào năm 2015 và hiện nay là phiên bản "Inception-v4" Các nhà nghiên cứu của Google ưa ra một khái

Trang 32

niệm ược gọi là "inception cell" như ược mô tả trong hình 1.7.c) Một khối "inception" có thể ược coi là một mạng con với các lớp tích chập có các bộ lọc khác nhau (1 × 1,3 × 3,5 × 5) ể trích chọn ặc trưng từ dữ liệu ầu vào Chúng nhận cùng một dữ liệu ầu vào ở lớp trước và các ầu ra ược tổng hợp lại trước khi truyền cho bước kế tiếp nhờ vậy dữ liệu ầu ra bao gồm nhiều loại thông tin hơn Ngoài ra, trong kiến trúc này, nhằm tiết kiệm tài nguyên tính toán, các

Steminception max-pool

3x3 inception inception inception

Hình 1.7: Cấu trúc mạng GoogleNet inception v1 [18]

bộ lọc có kích thước 1x1 ược sử dụng ể giảm chiều sâu của dữ liệu ầu vào của lớp kế tiếp Hình 1.7.b) cho thấy, thay vì việc dùng các lớp tích chập kích thước 3 × 3,5 × 5 ể giảm kích thước dữ liệu ầu vào theo cả 3 chiều như thông

Trang 33

thường, lớp tích chập 1 × 1 ược kết hợp với các lớp tích chập 3 × 3 và 5 × 5 Trong ó lớp tích chập 1 × 1 có nhiệm vụ giảm chiều sâu của dữ liệu, lớp tích chập còn lại có nhiệm vụ giảm chiều rộng và chiều cao của dữ liệu ầu vào.

ResNet [19], viết tắt của cụm từ Residual Neural Network, ã giành chiến thắng trong cuộc thi ILSVRC năm 2015 với tÿ lệ lỗi là 3.57%, ược phát triển bởi Microsoft với cấu trúc mạng sâu hơn và một số cải tiến ể mạng có thể hoạt ộng tốt với cấu trúc sâu này Hiện nay, ResNet là kiến trúc ược sử dụng phổ biến nhất bởi sự cân bằng giữa kích thước mạng và hiệu quả sử dụng Kiến trúc này có nhiều phiên bản như ResNet-18, ResNet-50, ResNet-152 ResNet cũng là kiến trúc sớm nhất áp dụng kỹ thuật <batch normalization= Mặc dù là một mạng có cấu trúc sâu khi có số lượng lớp mạng lên tới 50 hoặc 152 nhưng nhờ có những kỹ thuật tối ưu nên số lượng tham số của ResNet-50 chß khoảng 26 triệu Kiến trúc của mạng ResNet-50 ược mô tả như Hình 1.8.a) Kiến trúc này ược tạo ra bằng việc kết hợp các khối (block) ược tạo ra bởi các lớp cơ bản của mạng tích chập, các khối này có thể ược lặp lại nhiều lần trong mạng Có hai loại khối cơ bản ược sử dụng là khối nhận dạng (Identity block hay ID block) và khối tích chập (conv block) tương ứng ược thể hiện trong Hình 1.8.b) và 1.8.c) Trong ResNet, các kết nối tắt (skip connection) giúp giữ thông

Hình 1.8: Mạng ResNet-50 [19] a) Cấu trúc mạng; b) Khối nhận dạng; c) Khối tích chập

tin không bị mất mát tại các tầng ở phía sau khi một mạng có kiến trúc quá sâu Các kết nối này cho phép truyền dữ liệu từ lớp trước ó tới lớp phía sau và bỏ qua một số lớp trung gian Do cấu trúc mạng học sâu với số lượng lớp lớn, trong quá trình lan truyền ngược, ạo hàm giảm dần và biến mất, khi ó, không thể cập nhật ược trọng số của mạng Hiện tượng này ược gọi là "vanishing gradient" Chính các kết nối tắt ã giải quyết ược vấn ề này Sự xuất hiện của kết nối tắt giúp ResNet có khả năng huấn luyện các mạng chứa hàng trăm lớp iển hình như kiến trúc mạng ResNet-105 có tới 105 lớp Hơn nữa, với kiến

Trang 34

trúc này, các lớp ở phía sau có ược thông tin trực tiếp hơn từ các lớp trước nên sẽ iều chßnh trọng số hiệu quả hơn Hiện nay, ResNet thường ược dùng làm mạng lõi làm nhiệm vụ trích trọn ặc trưng cho các mô hình như YOLO [20], SSD [21], Mask R-CNN [22],

Ngoài các kiến trúc mạng học sâu ã ược trình bày như trên, hiện nay còn rất nhiều các kiến trúc mạng khác như: DarkNet [23], U-net [24], GANs [25], Mỗi kiến trúc mạng này ều có những ưu và nhược iểm riêng và các kiến trúc mạng này vẫn ang ược tiếp tục nghiên cứu và phát triển nhằm nâng cao chất lượng cho các mô hình học máy Trong phạm vi Luận án này, kiến trúc ResNet và VGG ược Nghiên cứu sinh lựa chọn ể nghiên cứu, cải tiến và áp dụng vào một số phương pháp ược ề xuất trong các Chương 2 và Chương 3 với vai trò như một bộ trích chọn ặc trưng các ối tượng trên ảnh.

Mạng nơ-ron tích chập cho bài toán phát hiện ối tượng

Các nghiên cứu gần ây cho thấy, các bộ phát hiện ối tượng ược xây dựng dựa trên cơ sở các mạng học sâu ều em lại hiệu quả cao Trong ó phải kể ến một số kiến trúc mạng nổi tiếng như: Faster-RCNN [22], YOLO [26], SSD [21], Bên trong mỗi bộ phát hiện ối tượng ó, một thành phần quan trọng làm nhiệm vụ trích chọn ặc các vùng trên ảnh là một kiến trúc mạng học sâu hay còn gọi là mạng lõi (Backbone) Trên thực tế, các mạng lõi này hoàn toàn có thể thay ổi ể tạo ra một bộ phát hiện ối tượng mới Ví dụ, mạng lõi DarkNet của mô hình YOLO có thể ược thay thế bằng một mạng ResNet Tất nhiên cần có một số hiệu chßnh khác ể phù hợp với sự thay ổi này Do ó số lượng các mô hình học sâu và các biến thể của nó phục vụ cho bài toán phát hiện ối tượng là rất nhiều Hình 1.9 chß ra một số dấu mốc quan trọng của sự phát triển mạng học sâu trong bài toán phát hiện ối tượng Các bộ phát hiện ối tượng dựa trên học sâu này có thể ược chia làm 2 loại chính là: bộ phát hiện một giai oạn (one stage) và bộ phát hiện hai giai oạn (two stages).

− Bộ phát hiện ối tượng hai giai oạn: ại diện cho hướng tiếp cận này là các mô hình R-CNN [27], Fast-RCNN [26] và Faster-RCNN [22] ầu tiên, lựa chọn các vùng ứng viên (ROI -Region of Interest) trong bức ảnh Sau ó, tiến hành phân loại các vùng ứng viên ó sử dụng mạng CNN iều này có nghĩa là việc dự oán nhãn và vị trí của ối tượng trong toàn bộ bức ảnh ược thực hiện trong hai bước ộc lập.

− Bộ phát hiện ối tượng một giai oạn: ại diện cho hướng tiếp cận này là các mô hình YOLO (với nhiều phiên bản khác nhau) [26], SSD [21], Các bộ phát hiện ối tượng loại này sẽ dự oán nhãn và vị trí của ối tượng trong toàn bộ bức ảnh chß với một lần chạy thuật toán duy nhất.

Trang 35

Trong phần này, nghiên cứu sinh sẽ trình bày một số mô hình phát hiện ối tượng tiêu biểu có kiến trúc dựa trên học sâu.

R-CNN, Fast-RCNN và Faster-RCNN

Hình 1.9: Một số dấu mốc và nghiên cứu áng chú ý của mạng học sâu trong bài toán phát hiện ốitượng.

R-CNN (Region-based Convolutional Neural Network) [27] ược ề xuất bởi Ross Girshick và cộng sự vào năm 2014 Mô hình này ã nhanh chóng thu hút ược sự chú ý của cộng ồng nghiên cứu với kết quả phát hiện ối tượng tăng 30% so với kết quả tốt nhất trước ó trên tập cơ sở dữ liệu VOC 2012 Hình 1.10 mô tả mô hình của R-CNN với ba khối chính như sau:

− Sinh ra các vùng ứng viên (Region Proposal)

− Trích ặc trưng CNN trên các vùng ứng viên

− Phân lớp các vùng ứng viên dựa vào các ặc trưng CNN ã ược trích chọn

Dựa trên thuật toán Selective search [28], một số lượng lớn (khoảng 2.000) các vùng ứng viên ược sinh ra Sau ó, các vùng này ược ưa qua mô hình mạng CNN[1] ể trích chọn ặc trưng Mỗi vùng ứng viên ược biểu diễn bởi một véc-tơ ặc trưng với 4.096 chiều Các véc-tơ ặc trưng này ược ưa tới bộ phân lớp SVM (Support Vector Machine) ể xác ịnh xem mỗi vùng ứng viên này có chứa ối tượng hay không Tại thời iểm ó, R-CNN ược ánh giá là kỹ thuật phát hiện tốt nhất với ộ chính xác trung bình mAP=53,7% trên cơ sở dữ liệu PASCAL VOC 2010 và mAP=31,4% trên cơ sở dữ liệu ILSVRC2013 Tuy

Trang 36

Hình 1.10: Mô hình R-CNN [27]

nhiên, với việc sinh ra một số lượng lớn các vùng ứng viên và quá trình trích chọn ặc trưng ược thực hiện trên các vùng ược chồng lấn nhau, gây nên tốn bộ nhớ lưu trữ, do ó R-CNN khó ược triển khai trong các ứng dụng yêu cầu áp ứng thời gian thực.

Fast R-CNN [26] là phiên bản cải tiến của mô hình mạng R-CNN, ược cùng nhóm tác giả ề xuất vào cuối năm 2015 So với R-CNN, cấu trúc mạng Fast R-CNN có những ưu iểm vượt trội sau:

− ộ chính xác cao hơn

− Quá trình huấn luyện chß bao gồm một bước duy nhất (single-stage) và sử dụng hàm mất mát a nhiệm (multi-task loss)

− Các trọng số của mô hình mạng ược cập nhật với tất cả các lớp trong quá trình huấn luyện

− Không yêu cầu bộ nhớ trung gian cho quá trình lưu trữ các véc-tơ ặc trưng

Theo nghiên cứu này, nhóm tác giả tuyên bố tốc ộ của quá trình huấn luyện nhanh gấp 9 lần và quá trình kiểm thử nhanh gấp 213 lần so với mô hình mạng

For each RoI

Hình 1.11: Mô hình kiến trúc một mạng Fast R-CNN [26]

Trang 37

Hình 1.11 mô tả kiến trúc chung của một mô hình mạng Fast R-CNN Khác với mô hình mạng R-CNN, Fast R-CNN ưa trực tiếp ảnh ầu vào tới mạng CNN ể sinh ra bản ồ ặc trưng (feature map) Thuật toán Selective search vẫn ược sử dụng ể sinh ra các vùng ứng viên véc-tơ ặc trưng của từng vùng ứng viên ược trích từ bản ồ ặc trưng của toàn ảnh iều này hỗ trợ cho quá trình chia sẻ tính toán, do ó, thời gian huấn luyện cũng ược giảm xuống nhiều lần Tuy nhiên, do kích thước của các vùng ứng viên là khác nhau, dẫn ến số chiều của các véc-tơ ặc trưng tương ứng là khác nhau Vấn ề này ược giải quyết với chiến lược tổng hợp ROI pooling (Region of Interest) dựa trên cơ chế giữ lại giá trị lớn nhất (max pooling) Một iểm khác biệt nữa giữa R-CNN và Fast R-CNN, ó là Fast R-CNN sử dụng lớp softmax ể phân lớp ối tượng thay cho bộ phân lớp SVM trong R-CNN.

Tại thời iểm ược công bố, Fast R-CNN ã ạt kết quả tốt nhất trên cơ sở dữ liệu VOC2007, 2010, và 2012 với giá trị ộ chính xác trung bình (mAP) tương ứng là: 66,9%, 66,1%, và 65,7% Tuy nhiên tốc ộ của Fast R-CNN vẫn còn ược ánh giá là chậm [22] Một trong những lý do ó là Fast R-CNN vẫn sử dụng giải thuật Selective Search ể sinh các vùng ứng viên.

Faster R-CNN [22] ược ề xuất năm 2016, với những cải tiến nhằm tăng tốc ộ xử lý của Fast R-CNN iểm khác biệt chính giữa Faster R-CNN và Fast R-CNN hay R-CNN ó là Faster R-CNN không sử dụng thuật toán Selective search ể sinh ra các vùng ứng viên, mà nó ược thêm vào một mạng CNN mới gọi là RPN (Region Proposal Network).

Hình 1.12a và 1.12b mô tả cấu trúc của mạng Faster R-CNN và chi tiết về mạng RPN Trong mạng Faster R-CNN, khái niệm "anchor box" ra ời nhằm ưa ra dự oán vị trí của vùng ứng viên Mỗi anchor box ược xác ịnh bởi

Trang 38

4 thông số: x_center, y_center, width, height (tọa ộ của tâm, chiều rộng và chiều cao của box) ầu tiên, tâm của các anchor box ược xác ịnh (cách nhau 16 iểm ảnh) Tương ứng với mỗi tâm, 9 anchor box ược ịnh nghĩa với 3 kích thước khác nhau64×64, 128×128, 256×256 với 3 tÿ lệ khác nhau(1 : 1, 1 : 2, 2 : 1) Bên cạnh ó, kỹ thuật hồi quy tuyến tính cũng ược áp dụng ể tinh chßnh các "anchor boxes" Cuối cùng mạng RPN trả về một tập các vùng ứng viên với kích thước khác nhau cùng với xác suất cho mỗi lớp mà một vùng có thể chứa ối tượng của lớp ó Theo số liệu ược công bố trong nghiên cứu, thì tốc ộ của Faster R-CNN nhanh hơn 10 lần so với Fast R-CNN trong quá trình dự oán Bảng 1.1 so sánh thời gian thực hiện phát hiện ối tượng tính trên một ảnh ầu vào tương ứng với các kiến trúc R-CNN, Fast R-CNN và Faster R-CNN.

Bảng 1.1: Thời gian thực hiện phát hiện ối tượng [Microsoft Research, NIPS2015]ModelTime (sec)

.25 + 1000× ConvTime + 1000 × FcTimeFast R-CNN0.25 + 1× ConvTime + 1000 × FcTimeFaster R-CNN1× ConvTime + 1000 × FcTime

Trong ó 0.25 giây là thời gian sinh 1000 vùng ứng viên bằng giải thuật Edge boxes [29] Với Faster R-CNN, sử dụng mạng RPN, thời gian này gần như bằng 0 ConvTime là thời gian trích ặc trưng cho một vùng ứng viên Với R-CNN, mất tốn thời gian1000 ×ConvTime còn Fast R-CNN và Faster R-CNN thời gian này giảm 1000 lần do chß tính ặc trưng một lần cho toàn bộ ảnh Tất cả ba mô hình trên ều cần một khoảng thời gian 1000 ×FcTime chính là thời gian phân lớp cho 1000 vùng ứng viên Mặc dù Faster R-CNN ã cải thiện áng kể về mặt tốc ộ so với R-CNN và Fast R-CNN nhưng tốc ộ của nó vẫn còn quá chậm ( 7 hình/giây) Với tốc ộ này rất khó cho việc áp dụng cho các ứng dụng òi hỏi thời gian thực Nhưng ối với những ứng dụng òi hỏi ộ tin cậy cao thì Faster R-CNN là một giải pháp tốt.

YOLO (You look Only Once)

Các phương pháp ược ề cập ở trên (CNN, Fast CNN và Faster R-CNN) tiếp cận bài toán phát hiện ối tượng như một bài toán phân lớp Nhược iểm chính của các mô hình trên là tốc ộ xử lý, khó triển khai trong những ứng dụng òi hỏi áp ứng thời gian thực Một mô hình học sâu khác ược ề xuất cho bài toán phát hiện nhằm cải thiện những nhược iểm của các mô hình trên ó là mạng học sâu YOLO iểm khác biệt của mô hình này so với các mô hình trước ó là YOLO tiếp cận bài toán phát hiện ối tượng như một bài toán hồi quy Ưu iểm vượt trội của YOLO ó là tốc ộ xử lý nhanh hơn nhiều so với các mô hình trước ó, thậm chí có khả năng triển khai tốt trên các thiết bị IoT như Rasperry pi.

Trang 39

YOLO ược tạo ra từ việc kết hợp các lớp tích chập (Convolutional layers) và các lớp kết nối ầy ủ (Fully-Connected layers) (Hình 1.13) Trong ó, các lớp tích chập ược sử dụng ể trích chọn các ặc trưng của ảnh, còn các lớp kết nối ầy ủ sẽ ưa ra các dự oán về vị trí của ối tượng và xác suất thuộc vào mỗi phân lớp của ối tượng iểm khác biệt của YOLO so với các mô hình R-CNN, Fast R-CNN và Faster R-CNN ó là YOLO không sinh ra các vùng ứng viên iều này giúp YOLO có ược những ưu iểm so với các mô hình trước ó: tốc ộ nhanh hơn; chß cần một công oạn trong quá trình huấn luyện (End-to-End training); ít nhận nhầm ối tượng trên nền Tuy nhiên nhược iểm của YOLO là:

− Xác ịnh vị trí ối tượng chưa tốt;

− ộ tin cậy thấp hơn so với các mô hình khác (63.4% so với 70% của Fast R-CNN và 73.2% của Faster R-CNN trên bộ PASCAL VOC 2007);

− Khó phát hiện các ối tượng có kích thước nhỏ;

− Không cho phép phát hiện nhiều ối tượng trên cùng một vùng.

ến nay, mạng YOLO ã ược phát triển với nhiều phiên bản khác nhau: YOLOv1, YOLOv2, YOLOv3, YOLOv4, YOLOv5 Các phiên bản sau là sự phát triển của các phiên bản trước ó.

Hình 1.13: Cấu trúc mạng YOLOv1 [26]

− YOLOv1

Các bước trong quá trình dự oán vùng không gian chứa ối tượng của YOLOv1 ược mô tả trong Hình 1.14 Ảnh ầu vào ược ưa về kích thước cố ịnh 448 × 448, sau ó, ược chia thành S × S ô (cell) (thông thường có thể sẽ là 3 × 3, 7 × 7, 9 × 9, ) Số lượng ô ược chia trên ảnh sẽ ảnh hưởng trực tiếp ến kết quả phát hiện của mô hình Khi cho ảnh ầu vào qua mạng CNN, mỗi ô sẽ ược biểu diễn bởi một véc-tơ ặc trưng có số chiều là 1024 Các véc-tơ ặc trưng này ược dùng ể tiến hành dự oán N vùng (bounding box) cùng với hệ số tin cậy của mỗi vùng Hệ số tin cậy này ược

Trang 40

biểu diễn bởi xác suất phát hiện ối tượng Pr(Object), có hay không có ối tượng trong vùng không gian ó ồng thời YOLO cũng dự oán khả năng tương ứng với mỗi lớp mà ô ó có thể thuộc vào Pr ( Classi| Object) Như vậy

thứ i Mỗi ô cần dự oán N bounding box và mỗi bouding box này ược biểu diễn bởi 5 tham số: (x_center, y_center, width, height, prediction) Trong ó, (x_center, y_center) là tọa ộ tâm của bounding box,(width, height) lần lượt là chiều rộng và chiều cao của bounding box, predictionược ịnh nghĩa: prediction = Pr(Object)× IoU(pred, truth) Do ó, với mỗi ảnh ầu vào, ầu ra của mô hình là một ma trận ba chiều có kích thước:S ×S ×(5×N +M )

với số lượng tham số mỗi ô là (5 × N + M), với N và M lần lượt là số lượng Box và Class mà mỗi ô cần dự oán.

Tuy nhiên, nhược iểm của YOLOv1 ó là mỗi ô chß có thể ưa ra dự oán

N bounding box và duy nhất 1 lớp ối tượng Các ràng buộc này hạn chế khả năng phát hiện các ối tượng gần nhau hay các ối tượng có kích thước nhỏ Ngoài ra, trong quá trình huấn luyện, hàm mất mát (loss function) không có sự ánh giá phân biệt giữa lỗi (error) của bounding box có kích thước nhỏ và lỗi của bounding box có kích thước lớn, các lỗi này có vai trò tương ương nhau và ược cộng dồn ảnh hưởng ến ộ chính xác toàn cục của mạng.

S × S grid on input

Bounding boxes + confidence

Class probability map

Final detections

Hình 1.14: Các bước dự oán ối tượng của YOLOv1 [26]

− YOLOv2

YOLOv2, còn có tên gọi khác là YOLO9000, ã ược Joseph Redmon và Ali Farhadi [30] công bố vào cuối năm 2016 và có mặt trong 2017 CVPR Với cấu trúc này, YOLOv2 ã thêm vào rất nhiều các cải tiến ể tăng mAP từ