Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 74 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
74
Dung lượng
3,2 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƢỜNG ĐẠI HỌC HỒNG ĐỨC - - BÙI LƢƠNG VŨ NGỌC NGHIÊN CỨU MƠ HÌNH MẠNG NEURAL HỌC SÂU CHO BÀI TỐN NHẬN DẠNG ĐỘNG THỰC VẬT QUÝ HIẾM LUẬN VĂN THẠC SĨ MÁY TÍNH Chuyên ng nh: ho họ m y t nh M s :8 Ngƣời hƣớng dẫn kho họ : PGS , TS Phạm Thế Anh THANH HÓA, NĂM i LỜI CAM ĐOAN Tôi xin trung thự v m đo n s liệu kết nghiên cứu luận văn n y l hƣ đƣợc sử dụng để bảo vệ học vị n o Tôi ũng xin đo n gi p đ m ho việc thực luận văn đ đƣợc cảm ơn v thơng tin trích dẫn đ đƣợc rõ nguồn g c Thanh Hóa, ngày tháng 11 năm 2021 Tác giả luận văn Bùi Lương Vũ Ngọc i LỜI CẢM ƠN Luận văn l kết trình học tập, nghiên cứu Nh trƣờng kết hợp với nỗ lực c gắng thân Đạt đƣợc kết này, tơi xin bày tỏ lịng biết ơn hân th nh đến: Quý Thầy, Cô gi o Trƣờng Đại học Hồng Đứ đ truyền đạt kiến thức, nhiệt tình gi p đ ho năm học vừ qu Đặc biệt, tơi xin bày tỏ lịng biết ơn sâu sắc đến Thầy giáo, PGS.,TS.Phạm Thế Anh - ngƣời hƣớng dẫn khoa học - đ d nh nhiều thời gi n quý b u để gi p đ su t trình nghiên cứu, thực luận văn B n Gi m đ c, phòng ban Phân hiệu Trƣờng Đại học Y Hà Nội tỉnh Th nh Hó đ tạo điều kiện gi p đ tơi hồn thành khóa học năm vừa qua Cu i cùng, xin chân thành cảm ơn gi đình, bạn bè đ động viên giúp đ tơi trình thực luận văn n y Xin gửi lời chúc sức khỏe chân thành cảm ơn! Thanh Hóa, ngày tháng 11 năm 2021 Tác giả luận văn Bùi Lương Vũ Ngọc ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC CHỮ VIẾT TẮT v DANH MỤC BIỂU ĐỒ, HÌNH ẢNH vi DANH MỤC BẢNG viii MỞ ĐẦU 1 Tính cấp thiết củ đề tài Mục tiêu nghiên cứu 3 Đ i tƣợng, phạm vi nghiên cứu Nội dung nghiên ứu: Phƣơng ph p nghiên ứu Kết đạt đƣợc Chương GIỚI THIỆU 1.1 Bài toán bảo tồn động thực vật quý 1.2 Tổng quan hệ th ng xử lý ảnh thị giác máy tính 13 1.2.1 Khái niệm ảnh s , điểm ảnh xử lý ảnh 13 1.2.2 Các thành phần hệ th ng xử lý ảnh 13 Dò tìm đ i tƣợng (object detection) 15 1.2.4 Nhận dạng đ i tƣợng (object recognition) 16 1.2.5 Các ứng dụng xử lý ảnh thị giác máy tính 16 Chương TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 18 2.1 Các kỹ thuật trích chọn đặ trƣng truyền th ng 18 2.1.1 Bộ mô tả SIFT (Scale invariant feature transform) 19 2.1.2 Bộ mô tả SURF (Speeded Up Robust Features) 23 2.1.3 Bộ mô tả Shape Context 25 2.1.4 Bộ mô tả BRIEF (Binary Robust Independent Elementary iii Features) 28 2.2 Trích chọn đặ trƣng dựa vào mạng nơ ron 31 2.2.1 Mạng nơ ron nhân hập 31 2.2.2 Mạng VGG16 40 2.2.3 Mạng AlexNet 42 2.2.4 Mạng InceptionV3 43 Chương NGHIÊN CỨU MƠ HÌNH MẠNG NEURAL HỌC SÂU NHẬN DẠNG ĐỘNG THỰC VẬT QUÝ HIẾM 47 3.1 Mơ hình hóa tốn 47 3.2 Xây dựng mô hình mạng nơ ron t h hập 48 3.3 Thiết kế hàm mục tiêu 51 3.4 Chuẩn bị liệu 52 3.4.1 Cắt ảnh ngẫu nhiên (crop) 54 3.4.2 Xoay, lật ảnh 55 3.5 Huấn luyện mạng 57 3.6 Thực nghiệm v đ nh gi kết 58 KẾT LUẬN VÀ KIẾN NGHỊ 60 Kết luận 60 Kiến nghị 60 TÀI LIỆU THAM KHẢO 62 iv DANH MỤC CÁC CHỮ VIẾT TẮT AI : Artificial Intelligence BRIEF : Binary Robust Independent Elementary Features CNN : Convolutional Neural Networks DNN : Deep Neuron Network PTNT : Ph t triền nông thôn SIFT : Scale invariant feature transform SURF : Speeded Up Robust Features UBND : Ủy b n nhân dân v DANH MỤC BIỂU ĐỒ, HÌNH ẢNH Biểu đồ Biểu đồ th ng kê s lƣợng ảnh loài thực vật quý 52 Biểu đồ Biểu đồ th ng kê s lƣợng ảnh Hình lo i động vật quý 53 Sơ đồ kh i hệ th ng xử lý ảnh 14 Hình Minh họa kết dị tìm đ i tƣợng (các hình chữ nhật bao) 15 Hình Ảnh g (tr i) v điểm khóa (phải): điểm khó đƣợc biễu diễn vector tọ độ, hƣớng v k h thƣớc (chiều dài vector) 20 Hình ( ) Điểm khóa ảnh g c, (b) Chuẩn hó hƣớng cửa sổ 20 Hình (a) Các vector biểu diễn biên độ ảnh bên cửa sổ, (b) histogram v hƣớng theo hƣớng điểm ảnh (a) 21 Hình Phiên g c mô tả SIFT có 128 chiều 22 Hình C đ p ứng Haar wavelet ngang (ảnh trái) dọc (ảnh phải) 24 Hình Minh họa kỹ thuật tích phân ảnh 24 Hình Các keypoint ảnh đầu vào (trái) cửa sổ đặt điểm khóa (phải) 24 Hình Các quy tắc sinh Hình cặp điểm mô tả BRIEF 27 ( ) Lƣới dạng cực log-polar dùng mô tả Shape Context, (b) ký tự 'A' đƣợc biểu diễn dƣới dạng tập điểm mặt phẳng ảnh 28 Hình 10 Qu trình t nh to n mô tả Sh pe Context 30 Hình 11 Minh họa mơ tả Shape Context cho vị tr kh nh u đ i tƣợng 'A' 31 Hình 12 Kiến trúc mạng CNN điển hình 35 Hình 13 Kiến trúc dạng đồ họa mạng CNN 36 Hình 14 Kiến trúc mạng VGG16 41 vi Hình 15 Các thành phần mạng VGG16 41 Hình 16 Kiến trúc mạng AlexNet 42 Hình 17 Nguyên tắc thay lọc nhân chập ó k h thƣớc 5x5 thành lọ ó k h thƣớc 3x3 43 Hình 18 Ví dụ thay mạng bên trái (có lọc 5x5) thành mạng bên phải (Inception Module A) 43 Hình 19 Ngun tắc Phân tích thừa s cách sử dụng lọc nhân chập bất đ i xứng 44 Hình 20 Cấu trúc mạng Inception Module B 44 Hình 21 Cấu trúc mạng Inception Module C 45 Hình 22 Kiến trúc mạng Inception-V3 nhận dạng đ i tƣợng khác 45 Hình Kiến trúc mạng Inception residual 48 Hình 2.Ảnh g c 54 Hình 3 Ảnh sau crop 54 Hình Ảnh sau crop 55 Hình Ảnh sau crop 55 Hình Ảnh sau xoay lật 56 Hình Ảnh sau xoay lật 56 Hình Minh họa ảnh lo i Trĩ đỏ khoang cổ s u tăng ƣờng liệu 56 Hình Hàm mục tiêu tính tập huấn luyện (màu cam) tập kiểm thử (màu xanh) 57 Hình Đồ thị độ xác mạng huấn luyện 58 vii DANH MỤC BẢNG Bảng 1 Phân hạng lo i động vật Bảng Phân hạng lo i thự vật 10 Bảng Kiến trúc mạng CNN đề xuất 49 Bảng Kết nhận dạng t độ (FPS) tập test mạng 58 viii MỞ ĐẦU Tính cấp thiết đề tài Trong năm gần đây, với ph t triển mạnh mẽ ủ nhiều ông nghệ, việ xử lý v hiểu ảnh m y t nh h tự động đ đạt đƣợ nhiều th nh tựu đ ng kinh ngạ , h vƣợt trội so với lự ủ on ngƣời nhiều ho n ảnh ụ thể Trƣớ tiến phải kể đến l phổ biến ủ ảm biến hình ảnh (nhƣ sm rt phones, thiết bị mer ) đ gi p ho việ thu nhận liệu đơn giản v thuận tiện nhiều Ngo i r , với xuất gần nhƣ đ ng l ủ nhiều mạng x hội đ gi p ho việ tiện hi sẻ nguồn liệu đ phƣơng h dễ d ng, nh nh hóng v thuận lợi b o hết Ngƣời dùng nhà ph t triển, nh nghiên ứu khắp giới ó hội đƣợ tiếp ận nguồn liệu phong ph v đ dạng, v n hữu h ho việ ph t triển thuật to n v mơ hình siêu tr tuệ nhƣ mạng neuron nhân tạo Yếu t qu n trọng u i ùng định lớn đến th nh ông ủ ông nghệ tr tuệ nhân tạo (Artificial Intelligence hay AI) l ph t triển gần nhƣ trƣớ thời đại ủ on hip huyên dụng ho xử lý đồ họ v t nh to n lớn (GPU hipset) Nhờ đó, việ hạy thuật to n AI phứ tạp v n yêu ầu nhiều t i nguyên nhớ v phép t nh đ đƣợ thự th nh ông, khả thi v hiệu ết l , ông nghệ tr tuệ nhân tạo đ định hình hƣớng đầy hẹn ho ộng đồng nh kho họ m y t nh nhiều lĩnh vự , đặ biệt l ứng dụng thuộ lĩnh vự thị gi Tuy nhiên, phần lớn b i tốn m y, xử lý ảnh,… mơ hình tr tuệ nhân tạo tiên tiến xử lý liệu hình ảnh/video n y đƣợ xây dựng v ph t triển sở nghiên ứu nƣớ ngo i Tại Việt N m, ph t triển ông nghệ tr tuệ nhân tạo hủ yếu dừng việ ứng dụng mơ hình mạng neuron nhân tạo đƣợ xây dựng sẵn (prebuilt models [18], [25], [26], [27], [31]) để giải s b i to n thự tiễn nhƣ: ph t khuôn mặt ảnh/video, nhận dạng khuôn mặt, hệ th ng hấm ông mer , hệ th ng điểm d nh ngƣời họ mer x = slim.conv2d(x, 48, (3, 3), stride=1, scope='conv3_1') x = slim.conv2d(x, NUM_CLASSES, (3, 3), stride=2, scope='conv4' x = Inception_Resnet_A(x, scope='resnet4') x = slim.conv2d(x, NUM_CLASSES, (3, 3), stride=2, scope='conv5' x = Inception_Resnet_A(x, scope='resnet5') x = slim.conv2d(x, NUM_CLASSES, (3, 3), stride=2, scope='conv6') x = Inception_Resnet_A(x, scope='resnet6') x = slim.avg_pool2d(x, (3, 3), stride=1) x = slim.flatten(x) #batchSize x NUM_CLASSES features.append(x) return features 3.3 Thiết kế hàm mục tiêu Thông thƣờng, hàm mụ tiêu để huấn luyện mạng CNN phân lớp hàm Cross Entropy H m n y đƣợ định nghĩ nhƣ s u: Trong đó, yi = {1, 0} nhãn củ đ i tƣợng thứ i tập liệu X, pi xác suất xảy kiện đ i tƣợng có nhãn yi= Đây l ơng thức hàm mục tiêu có lớp đ i tƣợng CE mở rộng cho nhiều lớp đ i tƣợng theo h tƣơng tự nhƣ Trong ông thức CE, giá trị pi đƣợc xem giá trị xác suất Vì vậy, mở rộng cho nhiều lớp ( đ i tƣợng), mạng CNN sinh vector có K phần tử Các phần tử cần đƣợc chuẩn hó để trở thành chuỗi xác suất: tổng phần tử phần tử có giá trị > Để làm việc này, hàm Softm x thƣờng đƣợc áp dụng cho ve tor đầu vào Các giá trị sau chuẩn hóa đƣợ đƣ v o h m CE để tính giá trị hàm mục tiêu phục vụ điều khiển trình huấn luyện mạng Tuy nhiên, 51 cách làm tạo lỗi xử lý s (ví dụ s nhỏ), hậu tạo ngoại lệ không mong mu n trình huấn luyện Vì vậy, TensorFlow cung cấp hàm mục tiêu khác t i ƣu l h m: sparse_softmax_cross_entropy() Hàm chất h nh l h m CE nhƣng không yêu cầu vector giá trị đầu vào phải dạng chuỗi xác suất Th y v o đó, hàm mục tiêu thực đồng thời h i bƣớc chuẩn hóa tính giá trị hàm CE bƣớ để loại bỏ vấn đề tính tốn s nhỏ 3.4 Chuẩn bị liệu Dữ liệu đƣợc thu thập khu bảo tồn thiên nhiên địa bàn tỉnh Thanh Hóa gồm lo i động thực vật quý hiếm, nguy cấp Một s lo i động vật đ tuyệt chủng cịn lại ảnh mơ hình ũng đƣợc thu thập v o sở liệu (CSDL) để phục vụ huấn luyện nhận dạng, thuận tiện cho công tác quản lý tra cứu CSDL ảnh thu thập đƣợc gồm 33 lo i động vật 21 loại thực vật quý Do vậy, tổng s lớp cần nhận dạng CSDL 54 loài (xem biểu đồ sau) Biểu đồ thống kê số lượng ảnh lồi thực vật q Giổi xanh Khơi tía khơi trắng Kim giao Lan Hài lơng Lan hài vân Lan Thủy Tiên hường Na rừng Sao to Sến mật Trai lý Trầm hương (Gió bầu) Tùng la hán Cây Nhội Lan Đai Châu Lan Hồ Điệp Lan Quế Tam sắc Lim xanh Phi Điệp Sến Mật Sưa Biểu đồ Biểu đồ thống kê số lượng ảnh loài thực vật quý 52 Biểu đồ thống kê số lượng ảnh loài động vật quý Báo gấm Báo hoa mai Cày bay Cày hoa Cày mực Cày vằn bắc Cày vòi hương Chích chịe lửa chim chèo bẻo cờ chẻ Chim Công Chồn bạc má Chồn bạc má bắc Culi nhỏ Đại bàng Don Gấu ngựa Hổ Khỉ đuôi dài Khỉ đuôi lợn Khỉ mặt đỏ Khỉ vàng Mèo rừng Rái cá thường Rắn sọc vanh Rùa đất Spengler Rùa sa nhân Rùa đầu to Sóc bay trâu Sóc thơng thường Sói lửa Trăn đất Trăn gấm Trĩ đỏ khoang cổ Biểu đồ Biểu đồ thống kê số lượng ảnh loài động vật quý Tổng s ảnh chụp thu thập đƣợc khoảng 30,000 ảnh Để tăng ƣờng liệu phục vụ huấn luyện nhận dạng, áp dụng kỹ thuật tăng ƣờng liệu nhƣ (crop) ngẫu nhiên ảnh, xoay ảnh, dịch chuyển, phóng to thu nhỏ ảnh, thêm nhiễu vào ảnh, chụp lại ảnh qua thiết bị khác (điện thoại) Imgaug thƣ viện để tăng ƣờng hình ảnh thí nghiệm học máy Nó hỗ trợ loạt kỹ thuật tăng ƣờng, cho phép dễ dàng kết hợp chúng thực chúng theo thứ tự ngẫu nhiên nhiều lõi CPU, có giao diện ngẫu nhiên đơn giản nhƣng mạnh mẽ không l m tăng hình ảnh, mà cịn điểm / cột m c, hộp giới hạn, đồ nhiệt đồ phân khúc (https://imgaug.readthedocs.io/en/latest/) 53 Các phép toán hỗ trợ Img ug đƣợc thực nhƣ s u: Hình 2.Ảnh gốc 3.4.1 Cắt ảnh ngẫu nhiên (crop) Đầu tiên, đ i với hình ảnh, sử dụng biện pháp crop ảnh, tạo thêm ảnh - Cắt từ tâm hình ảnh ảnh có hình dạng làhình chữ nhật nằm ngang ó k h thƣớc ngẫu nhiên khoảng 40 % – 60% ảnh g c Hình 3 Ảnh sau crop - Cắt từ tâm hình ảnh ảnh có hình dạng hình chữ nhật dọc có kích thƣớc ngẫu nhiên khoảng 40 % – 60% ảnh g c 54 Hình Ảnh sau crop - Cắt từ tâm hình ảnh ảnh có hình dạng l hình vng ó k h thƣớc ngẫu nhiên khoảng 30% – 60% ảnh g c Hình Ảnh sau crop 3.4.2 Xoay, lật ảnh Từ ảnh đ rop, thực phép xoay ảnh khoảng ngẫu nhiên từ 10 –3 độ, lật ngang, lật dọc ảnhđể tạo ảnh từ ảnh 55 Hình Ảnh sau xoay lật Hình Ảnh sau xoay lật Hình Minh họa ảnh lồi Trĩ đỏ khoang cổ sau tăng cường liệu 56 3.5 Huấn luyện mạng Kết tăng ƣờng ảnh tạo khoảng 67,000 ảnh đƣợc chia làm tập đ i với lớp với tỉ lệ nhƣ s u: huấn luyện (50%), kiểm thử (10%) test (40%) Mạng CNN đề xuất đƣợc huấn luyện TensorFlow với tham s nhƣ s u: - S bƣớc huấn luyện (training_steps): 115,000 - Batch size: 32 Với lo i (động thực vật), h ng tơi có ảnh tập liệu huấn luyện, xác thực kiểm thử Hình 3.9 minh hóa hàm mục tiêu (loss function) trình huấn luyện Nhƣ h ng t ó thể quan sát thấy, hàm mụ tiêu đƣợc tính tốn tập huấn luyện (màu cam) tập kiểm thử (m u x nh) kh đồng dạng Từ ó thể suy đo n mơ hình khơng bị vấn đề over-fitting under-fitting kỳ vọng hoạt động t t thực tế Hình 3.10 tóm tắt độ xác hệ th ng tập liệu kiểm thử Độ h nh x đạt đƣợc dừng trình huấn luyện khoảng 96.8% Hình Hàm mục tiêu tính tập huấn luyện (màu cam) tập kiểm thử (màu xanh) 57 Hình 10 Đồ thị độ xác mạng huấn luyện 3.6 Thực nghiệm đánh giá kết Để so s nh v đ nh gi hiệu hệ th ng đề xuất, thực fine-tuning (huấn luyện lại) kiến trúc mạng khác là: mạng Inception-V3 mạng MobileNet-V2 [13] Hai mạng n y đ đƣợc huấn luyện tập liệu Im geNet, s u đƣợc fine-tuning tập liệu xây dựng Kết hiệu v t độ h nh x độ nhận dạng đƣợc trình bày Bảng 3.2 Ở đƣợ t nh nhƣ s u: Accuracy = nCorrect/nImages Trong đó: nIm ges l tổng s ảnh tập kiểm thử, nCorrect tổng s ảnh đƣợc nhận dạng đ ng nh n ủ đ i tƣợng Bảng Kết nhận dạng tốc độ (FPS) tập test mạng STT Mạng CNN Độ xác Tốc độ (FPS) Mạng đề xuất 96.7% 78.6 Inception-V3 96.65% 14.7 MobileNet-V2 69% 17 58 Kết cho thấy mạng đề xuất ó độ xác o, tƣơng đƣơng với mạng Inception-V3 v vƣợt trội so với mạng MobileNet-V2 (khoảng 29%) Bên cạnh đó, t độ nhận dạng mạng đề xuất nhanh, gấp lần mạng Inception-V3 T độ nhận dạng mạng CNN đề xuất 78.5 máy tính GPU thơng dụng (GTX 1070Ti) 59 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Luận văn đ nghiên ứu, tìm hiểu b i to n tự động nhận dạng động thự vật quý v thự ph t triển, dự tìm kiếm, th ng kê i đặt phƣơng n giải ho b i to n hƣớng tiếp ận đ đƣợ nhiều b i b o, ơng trình kho họ giới C đ đạt đƣợ tƣơng ứng với ông b qu kết h nh m luận văn mụ tiêu đề r b n đầu nhƣ s u: - Ho n thiện xây dựng sở liệu ảnh phụ vụ huấn luyện nhận dạng loại động thự vật quý ủ tỉnh Th nh Hó , với s lƣợng ảnh g trung bình ho loại từ - Tìm hiểu tổng qu n thuật to n m y họ C ảnh - phƣơng ph p tr h họn đặ trƣng để huấn luyện phƣơng ph p tìm hiểu đƣợ tiếp ận truyền th ng ( omputer vision) v hi l m loại: h h tiếp ận đại (dùng mạng deep le rning CNN) - Nghiên ứu, xây dựng v i đặt mạng nơ ron t h hập để ứng dụng v o b i to n nhận dạng động thự vật quý tỉnh Th nh Hó - ết thự nghiệm ho thấy mạng CNN đề xuất hoạt động ó độ h nh x o (96 7%) tƣơng đƣơng với mạng In eptionV3 v MobileNet-V2 (khoảng 29%).Đặc biệt, t vƣợt trội mạng độ nhận dạng mạng đề xuất nhanh khoảng 80FPS máy GPU thông dụng (GTX 1070Ti), gấp lần mạng Inception-V3 Hệ th ng nhận dạng động thự vật quý ủ tỉnh Th nh Hó ịn ần nhiều ải thiện đặ biệt l khản ăng mở rộng phạm vị động thự vật ũng nhƣ k h thƣớ , hất lƣợng ủ CSDL ảnh huấn luyện Kiến nghị Trong tƣơng l i, để ó thể ải thiện độ h nh x t giả đề xuất t h hợp ủ mô hình nhận dạng, h m mụ tiêu ải tiến ( hẳng hạn Fo lLoss [10]) để t i ƣu hó qu trình huấn luyện v gi p qu trình hội tụ nh nh, ổn định 60 T giả ũng đề nghị sản phẩm tiếp tụ đƣợ nghiên ứu, ph t triển v ho n thiện để th nh sản phẩm m ng thƣơng hiệu ứng dụng rộng r i ho ng nh iểm Lâm Th nh Hó 61 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Aurelia Michelea Vincent ColinaDiazD.Santika (2019), "MobileNet Convolutional Neural Networks and Support Vector Machines for Palmprint Recognition", Procedia Computer Science, 157, pp 110-117 [2] Calonder, Michael, et al (2010), “Brief: Bin ry robust independent element ry fe tures”, Computer Vision–ECCV, Springer Berlin Heidelberg, pp 778-792 [3] G E Hinton, N Srivastava, A Krizhevsky, I Sutskever, and R Salakhutdinov (2012), “Improving neur l networks by preventing od pt tion of fe ture dete tors”,arXiv preprint arXiv:1207.0580 [4] Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014), "Generative Adversarial Networks",Proceedings of the International Conference on Neural Information Processing Systems (NIPS), pp 2672–2680 [5] Herbert Bay, Andreas Ess, TinneTuytelaars, Luc Van Gool(2008), "SURF: Speeded Up Robust Features", Computer Vision and Image Understanding (CVIU), 110(3), pp 346–359 [6] Karen Simonyan, Andrew Zisserman (2004), “Very Deep Convolutional Networks for Large-Scale Image Recognition”, arXiv:1409.1556 [cs.CV] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna(2015), "Rethinking the Inception Architecture for Computer Vision", arXiv:1512.00567 [cs.CV] [7] Krizhevsky, Alex and Sutskever, Ilya and Hinton, Geoffrey E (2012), "ImageNet Classification with Deep Convolutional Neural Networks", Proceedings of the 25th International Conference on Neural Information Processing Systems (NIPS'12), pp 1097-1105 62 [8] LeCun, Yann; Leon Bottou; YoshuaBengio; Patrick Haffner (1998), "Gradient-based learning applied to document recognition",Proceedings of the IEEE, 86 (11),pp 2278–2324 [9] Leutenegger, Stefan, Margarita Chli, and Roland Y Siegwart (2011), “BRIS : Bin ry robust inv ri nt s l ble keypoints”, Computer Vision (ICCV), IEEE International Conference on IEEE [10] Lin, T., Goyal, P., Girshick, R., He, K., Dollar, P ( 7),“Focal loss for dense object detection”,IEEE International Conference on Computer Vision (ICCV), pp 2999–3007 ,doi 10.1109/ICCV.2017.324 [11] Lowe, David G (2004), "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 60(2), pp.91–110 [12] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen (2019), "MobileNetV2: Inverted Residuals and Linear Bottlenecks", arXiv:1801.04381 [cs.CV] [13] Rublee, Ethan, et al (2011), “ORB: n effi ient ltern tive to SIFT or SURF”, Computer Vision (ICCV), IEEE International Conference onIEEE [14] S Belongie, J Malik, and J Puzicha (2002), "Shape Matching and Object Recognition Using Shape Contexts", IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(24), pp.509–521 [15] Szegedy, C., Ioffe, S., Vanhoucke, V., Alemi, A.A ( inception-resnet and the impact of residual 7),“Inception-v4, connections on learning”,Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, AAAI17, pp 4278–4284 Internet [16] Face Detection Data Set and Benchmark, http://vis-www.cs.umass.edu/fddb/ [17] Florian Schroff, Dmitry Kalenichenko, James Philbin (2015), "FaceNet: A Unified Embedding for Face Recognition and Clustering", https://arxiv.org/abs/1503.03832 63 [18] G Huang, Z Liu and L van der Maaten (2018), “Densely Conne ted Convolutional Networks”, https://arxiv.org/pdf/1608.06993v3.pdf [19] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, Wei Liu (2018), "CosFace: Large Margin Cosine Loss for Deep Face Recognition”, https://arxiv.org/abs/1801.09414 [20] Jian Li, Yabiao Wang, Changan Wang, Ying Tai, Jianjun Qian, Jian Yang, Chengjie Wang, Jilin Li, Feiyue Huang (2018), "DSFD: Dual Shot Face Detector", https://arxiv.org/abs/1810.10220 [21] Jiankang Deng, Jia Guo, NiannanXue, Stefanos Zafeiriou (2018), "ArcFace: Additive Angular Margin Loss for Deep Face Recognition", https://arxiv.org/abs/1801.07698 [22] Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi (2015), "You Only Look Once: Unified, Real-Time Object Detection", https://arxiv.org/abs/1506.02640 [23] K He, X Zhang, S Ren, and J Sun ( 5),” Deep residual learning for image recognition”,https://arxiv.org/abs/1512.03385 [24] Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, Yu Qiao (2016), "Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks", https://arxiv.org/abs/1604.02878 [25] Labeled Faces in the Wild, http://vis-www.cs.umass.edu/lfw/ [26] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun (2015), "Faster RCNN: Towards Real-Time Object Detection with Region Proposal Networks", https://arxiv.org/abs/1506.01497 [27] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun (2016), "Faster RCNN: Towards Real-Time Object Detection with Region Proposal Networks", arXiv:1506.01497 [cs.CV], https://arxiv.org/abs/1506.01497 [28] Shuo Yang, YuanjunXiong, Chen Change Loy, Xiaoou Tang (2017), "Face Detection through Scale-Friendly Deep Convolutional Networks", https://arxiv.org/abs/1706.02863 [29] Sik-Ho Tsang (2018), “Review: Inception-v3 - 1st Runner Up (Image 64 Classification) in ILSVRC 2015”, https://sh-tsang.medium.com/reviewinception-v3-1st-runner-up-image-classification-in-ilsvrc-201517915421f77c [30] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C Berg (2015), "SSD: Single Shot MultiBox Detector", https://arxiv.org/abs/1512.02325 [31] Weiyang Liu, Yandong Wen, Zhiding Yu, Ming Li, Bhiksha Raj, Le Song (2017), "SphereFace: Deep Hypersphere Embedding for Face Recognition", https://arxiv.org/abs/1704.08063 [32] Yann LeCun, Leon Bottou, YosuhaBengio, Patrick Haffner (1998), "Gradient-Based Learning Applied to Document http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf 65 Recognition",