Xây dựng hệ thống giả lập để nhận dạng và phát hiện hành vi trộm cắp xe gắn máy: luận văn thạc sĩ

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** TRƯƠNG NGỌC TRIỀU XÂY DỰNG HỆ THỐNG GIẢ LẬP ĐỂ NHẬN DẠNG VÀ PHÁT HIỆN HÀNH VI TRỘM CẮP XE GẮN MÁY LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** TRƯƠNG NGỌC TRIỀU XÂY DỰNG HỆ THỐNG GIẢ LẬP ĐỂ NHẬN DẠNG VÀ PHÁT HIỆN HÀNH VI TRỘM CẮP XE GẮN MÁY Chuyên ngành: Công nghệ thông tin Mã số: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN VĂN LĂNG Đồng Nai - năm 2019 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi, tài liệu kết nghiên cứu luận văn trung thực Học viên Trương Ngọc Triều LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cảm ơn Ban Giám Hiệu nhà trường, thầy/ cô Khoa Sau Đại Học thầy/cô giảng chịu trách nhiệm truyền đạt dạy môn học em thời gian theo học CNTT Khóa Hơn hết, em xin chân thành cảm ơn thầy PGS.TS Trần Văn Lăng hướng dẫn, góp ý tạo điều kiện để em hồn thành luận văn Bên cạnh đó, em cảm ơn quý quan, công ty Vietnam NOK, Ban Lãnh Đạo, anh Ngơ Hồng Hồ - Giám Đốc khối Tổng Vụ Kinh Doanh, đồng nghiệp tạo điều kiện, chia sẻ thời gian, công việc em hoàn thành luận văn Em xin bày tỏ lòng biết ơn sâu sắc động viên từ Cha Mẹ, hỗ trợ quý báu từ bạn bè, để đóng góp ý kiến em thực luận văn Học viên Trương Ngọc Triều MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv MỤC LỤC vi DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT viii DANH MỤC BẢNG xi MỞ ĐẦU CHƯƠNG TỔNG QUAN 1.1 Tổng quan tình hình nghiên cứu 1.2 Khái niệm nhận dạng đối tượng 1.2.1 Nhận dạng đối tượng gì? 1.2.2 Phân biệt Nhận Dạng Đối Tượng Phát Hiện Đối Tượng 1.2.3 Việc nhận dạng đối tượng hoạt động nào? 1.3 Các phương pháp nhận dạng tiêu biểu 1.3.1 Phương pháp nhận dạng khuôn mặt (Facial Recognition) 1.3.2 Phương pháp nhận dạng dáng (Gait Recognition) 1.3.3 Phương pháp nhận dạng theo hành vi (Behavioral Detection) 11 CHƯƠNG Cơ sở lý thuyết 16 2.1 Phương pháp thu thập liệu 16 2.2 Phương pháp huấn luyện liệu thử nghiệm 17 2.2.1 Chuẩn bị liệu 17 2.2.2 Xây dựng Model CNN - Convolutional Neural Network 18 2.2.3 Các kiến trúc mạng phổ biến cho Image Classification Alexnet 21 2.2.4 Precision Recall 26 2.3 Tăng độ xác cho mơ hình huấn luyện 30 CHƯƠNG TRỘM MÔ PHỎNG VÀ THIẾT KẾ HỆ THỐNG CẢNH BÁO HÀNH VI 31 3.1 Hạ tầng phần cứng lắp đặt 31 3.1.1 Camera 31 3.1.2 Khu vực lắp đặt 33 3.1.3 Thu thập liệu 33 3.2 Phân loại liệu 33 3.2.1 Thành phần trộm 33 3.2.2 Thành phần không trộm 34 3.3 Áp dụng thuật toán Supervised Learning toán phát hành vi ăn trộm 35 3.3.1 Phân tích hành vi trộm cắp 36 3.3.2 Huấn luyện (train) liệu 36 CHƯƠNG THỬ NGHIỆM HỆ THỐNG kết thu trình train 40 4.1.1.1 Quá trình thu thập liệu 40 4.1.1.3 Phân tích lớp huấn luyện hệ thống 44 4.1.2 Kết thu thực nghiệm hệ thống 49 4.2 So sánh kết nghiên cứu với hệ thống phát trộm cắp thị trường nước 51 4.2.1 Hệ thống Vaak Eye 51 4.2.2 Hệ thống phát lỗi quét mã (Missed scan detection) 52 4.2.3 So sánh đánh giá hệ thống so với kết luận văn 52 4.3 Kết nghiên cứu 54 TÀI LIỆU THAM KHẢO 56 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT CIFAR: Canadian Institute for Advanced Research CNN: Convolutional Neural Network CNN2D: Convolutional Neural Network 2-Dimensional CPU: Central Processing Unit DL: Deep Learning FaceID: Face Identity FN: False Negative FP: False Positive GPU: Graphical Processing Unit LRN: Local Response Normalization ML: Machine Learning MNIST: Mixed National Institute of Standards of Technology ORL: Oliveltti Research Laboratory (AT&T) PCA: Principle Component Analysis RMSProp: Root Mean Quared Prop SGD: Stochastic Gradient Descent TN: True Negative TP: True Positive VGG: Visual Geometry Group DANH MỤC HÌNH Hình 1-1: Thống kê số lượng tỉ lệ trộm cắp tài sản tồn quốc- Nguồn: Phịng PC09 công an tỉnh Đồng Nai Hình 1-1:Sử dụng nhận dạng đối tượng để phân loại theo đặc trưng lồi vật Hình 1-2: Nhận dạng đối tượng (bên trái) Phát đối tượng (bên phải) Hình 1-3: Kỹ thuật nhận dạng đối tượng học máy (ML) học sâu (DL) [4] Hình 1-4: Nhận dạng gán nhãn khuôn mặt thư viện OpenCV, phân lớp Haar Cascade classifier Hình 1-5: Mơ hình luận lý giai đoạn xử lý nhận dạng khuôn mặt Hình 1-6: Mơ hình phát cảnh báo kỹ thuật nhận dạng dáng Hình 1-7: Các cảm biến FS nhận dạng bước đối tượng mô đối tượng ma trận 10 Hình 1-8: Các radar sử dụng cảm biến để thu tần số tiếp diễn di chuyển đối tượng 11 Hình 1-9: Ví dụ việc phân loại liệu 12 Hình 1-10: Vị trí thể bố trí cảm biến nhằm tiếp nhận mô hoạt động đối tượng 13 Hình 1-11: Mơ hình thiết kế hệ thống nhận dạng theo hành vi 14 Hình 2-1 Các bước huấn luyện liệu 17 Hình 2-2: Hình ảnh tập liệu CIFAR 20 Hình 2-3: Tập liệu Fashion-MNIST 21 Hình 2-4: Kiến trúc mơ hình Image Classification Alexnet [7] 22 Hình 2-5: Một module inception đơn giản với vài lớp convolution với kernel size khác lớp pooling 23 Hình 2-6: Cấu trúc module inception sau thêm filter 24 Hình 2-7: Càng nhiều lớp training, sâu huấn luyện, tỉ lệ lỗi lại gia tăng 25 Hình 2-8 lan truyền trực tiếp đạo hàm tới layer sâu thông qua residual block 25 Hình 2-9 :Cách tính Precision Recall 26 Hình 3-1: Camera giám sát hiệu HIKVision 31 Hình 3-2: Camera Qihoo 360 D603 Plus 32 Hình 3-3: Hình ảnh gán nhãn trộm lưu vào thư mục trộm 34 Hình 3-4: Thư mục chứa hình ảnh gán nhãn khơng phải trộm 34 Hình 3-5 Các đặc trưng đối tượng trộm cắp xe gắn máy 36 Hình 3-6: Khai báo tham số trước huấn luyện 37 Hình 3-7: Xây dựng model training 37 Hình 3-8: Cài đặt thơng số training 39 Hình 4-1: Lần training liệu dựa dataset từ nguồn Internet 40 Hình 4-2: Hệ thống nhận diện người dắt xe gắn máy đối tượng trộm 41 Hình 4-3: Đồ thị thể kết training model với tập liệu 42 Hình 4-4: Nhận dạng đối tượng trộm cắp xe máy dựa vào modelv9.h5 yolo-coco 43 Hình 4-5: Tải driver hỗ trợ NVIDIA CUDA cho tensorflow 43 Hình 4-6: Mơ hình hóa lớp mạng CNN sử dụng để huấn luyện model 46 Hình 4-7: Cửa sổ console hiển thị trình đào tạo 49 Hình 4-8: Kết kiểm thử chương trình frame hình khơng có trộm 50 Hình 4-9: Kết kiểm thử chương trình frame hình có trộm 50 Hình 4-10 Hệ thống Vaak-Eye phát đối tượng ăn cắp tài sản siêu thị 51 Hình 4-11 Hệ thống tích hợp camera Walmart phát người tiêu dùng không toán 52 Hình 4-12 Thử nghiệm với nhiều model training tập liệu 53 Hình 4-13 Cơng thưc tính độ xác hệ thống thử nghiệm 54 45 _ activation_2 (Activation) (None, 24, 32, 40) _ max_pooling2d_2 (MaxPooling2 (None, 12, 16, 40) _ dropout_2 (Dropout) (None, 12, 16, 40) _ conv2d_3 (Conv2D) (None, 12, 16, 60) 60060 _ activation_3 (Activation) (None, 12, 16, 60) _ max_pooling2d_3 (MaxPooling2 (None, 6, 8, 60) _ dropout_3 (Dropout) (None, 6, 8, 60) _ flatten_1 (Flatten) (None, 2880) _ dense_1 (Dense) (None, 500) 1440500 _ activation_4 (Activation) (None, 500) _ dropout_4 (Dropout) (None, 500) _ dense_2 (Dense) (None, 2) 1002 _ activation_5 (Activation) (None, 2) ================================================================= Total params: 1,523,122 Trainable params: 1,523,122 Non-trainable params: Hàng cuối “Total params: 1,523,122” tổng hợp số lượng parameters cho model 46 Hình 4-6: Mơ hình hóa lớp mạng CNN sử dụng để huấn luyện model Lớp CONV Input ảnh đầu vào có kích thước (None, 48, 64, 20) • Tham số thứ “None” Đây số lượng batch size, số lượng ảnh đưa vào hệ thống xử lý Hệ số sử dụng để thiết lập hàm fit_generator() để thực trình training, với cơng thức tính sau: Step_per_epoch * batch_size = number_row_of_training_data Trong đó, - Step_per_epoch: hay cịn gọi iteration, số lượng ảnh duyệt qua hết tập training epoch - Batch_size: số lượng ảnh sử dụng lần cập nhật trọng số - Number_row_of_training_data: số dòng liệu tập liệu input training (trainX) Lấy ví dụ tập liệu training tác giả, tơi có số lượng tập liệu training = 3,637 hình ảnh Để tìm số lượng iterations hay thông số step_per_epoch, với số batch_size ta thiết lập = 60 Ta dùng phép chia bỏ số dư, ta có kết sau: 47 Step_per_epoch = row_of_training_data // batch_size = 3637 // 60 = 60 Như vậy, ta thấy epoch, có 60 ảnh duyệt qua tập training • Tham số Output Shape (None, 48, 64, 20) Ta xét mã nguồn lớp CONV là: model.add(Conv2D(20,(5, 5), padding="same", input_shape=inputShape)) model.add(Activation("relu")) Thông số Conv2D(20, (5,5) ) có nghĩa tơi muốn tạo 20 filter với kích thước filter x Vì filter mang x weights (w1 w24) nên tổng số weights 20 x x = 500 Ngồi ra, ta cịn phải thêm trọng số quan trọng khác bias weight (w0) Do đó, kết sau là: 20 x (3 x (5 x 5) + 1) = 1,520 (như bảng trên) Từ đó, ta có cơng thức tính trọng số weight cho layer CONV sau: CONV Weight = output_channel x (input_channel x filter_size + 1) Do padding =”same”, nên kích thước output shape khơng thay đổi trượt filter (5 x 5) qua ảnh gốc (48 x 64 x 3) Do đó, 20 filter cho output có size (48 x 64 x 20) Xét lớp thứ hai Max Pooling Lớp đơn giản giảm kích thước ma trận input theo ma trận có kích thước (2 x 2) Vì lớp khơng có params (weight) Và từ Output lớp CONV, trở thành input lớp Max Pooling, output sau lớp giảm nửa có kích thước sau (24 x 32 x 20) Xét lớp thứ ba lớp Dropout Lớp sử dụng random giá trị matrix nhằm đình hoạt (deactivate) % node muốn tạm dừng, thiết lập 0.2 (tương ứng với 20%) Do đó, cịn 16/20 nodes hoạt động cho lần cập nhật, nhằm giảm tình trạng lỗi overfitting dư thừa liệu Khi thiết lập hệ số p Dropout, ta nên cân nhắc khoảng [0.2 , 0.5] Nếu p q nhỏ, khơng có tác dụng chống overfitting, hệ số p lớn gần loại bỏ layer đấy, nên dẫn đến underfitting Xét tiếp đến lớp CONV khác, CONV có thơng số Conv2D(40,(5, 5)) có nghĩa tơi muốn tạo 40 filters có kích thước filter (5 x 5) Input lớp lớp Max Pooling trước (24 x 32 x 20) Tương tự cơng thức tơi nêu trên, ta có trọng số tính sau: 40 x (20 x (5 x 5) + 1) Với 40 filters ta có số weights = 20,040 48 Bên cạnh đó, số padding=”same”, nên kích thước output size khơng thay đổi, với thơng số kích thước sau (24 x 32 x 40) Tương tự bước phía trên, lớp Max Pooling giảm nửa kích thước lấy từ input output lớp trước đó, ta có output có kích thước (12 x 16 x 40) Lớp CONV tính cách 60 x (40 x (5 x 5) + 1) có trọng số weights 60,060 Kích thước Output sau trượt qua 60 filter (12 x 16 x 60) Lớp Pooling lại có nhiệm vụ giảm kích thước lớp trước nửa, theo strides mà thiết lập (2, 2) Vì vậy, output hình ảnh tiếp tục mà ta có (6 x x 60) Lớp lớp Flatten (6 x x 60), chuyển lớp liệu chiều (2-D) thành chiều (1-D), ta có layer có 2,880 nodes Dựa số nodes có sẵn từ lớp Flatten, lớp Dense kết nối toàn phần (fully connected) với 500 nodes mà tơi khai báo Cơng thức tính số lượng weight lớp Dense sau: Dense Weight = output_size x (input_size + 1) Dựa vào số liệu , ta có số lượng weights cho lớp FC là: 500 x (2880 + 1) = 1,440,500 Tương tự với lớp FC cuối cho nodes có số lượng weights là: x (500 + 1) = 1,002 Tóm lại, tổng số lượng weights 1,523,122 Số lượng weights nhiều độ phức tạp model lớn dễ dẫn đến overfitting, số lượng weight q khơng đủ mạnh cho với liệu phức tạp Vì vậy, nhận thấy với số lượng weight tương đối đủ cho việc training model với độ xác cao 49 Hình 4-7: Cửa sổ console hiển thị trình đào tạo 4.1.2 Kết thu thực nghiệm hệ thống Kết thu cho việc kiểm tra với hình ảnh, có thay đổi thông số Epoch, batch size, kết thu theo % hình Kết thực trình bày với Bảng 3-3 Bảng 3-4 50 Bảng 4-1: Bảng kết so sánh huấn luyện với Epoch khác Name Model modelThiefGPUVer00.h5 modelThiefGPUVer01.h5 modelThiefGPUVer02.h5 modelThiefGPUVer03.h5 modelThiefGPUVer04.h5 modelThief9.h5(CPU) DATASET Tổng 4000:2200 ảnh có trộm, 1800 ảnh khơng trộm Tổng 4000:2200 ảnh có trộm, 1800 ảnh khơng trộm Tổng 4000:2200 ảnh có trộm, 1800 ảnh không trộm Tổng 4000:2200 ảnh có trộm, 1800 ảnh khơng trộm Tổng 3986: 1890 ảnh có trộm, 2096 ảnh khơng trộm Tổng 1991: 1058 ảnh có trộm, 933 ảnh khơng trộm SIZE EPOCHS BS Trom5 trom2 trom20 trom7 trom18 64x48 60 60 NT: 82,20 T: 78,79 T: 99,77 NT: 99,63 NT: 84,01 128x72 80 64 64x48 80 60 128x72 60 60 T:90,57 T:99,97 T:100,00 NT: 89,88 NT: 99,60 64x48 60 60 T: 61,51 T:92,4 T:97,59 T:100 NT: 76 64x48 60 60 T:99,9 T:99 T:98,99 T:98,30 T:70,27 T:99.95 T: 52,16 T: 77,04 NT: 81,84 NT: 96,61 NT:64,47 T: 89,31 NT:61,57 NT:97,49 NT:74,61 51 Bảng 4-2: Kết thu cho việc kiểm tra với video, có kết hợp với yo-lo để dễ dàng khoanh vùng đối tượng Tên Video khảo sát Mô tả video khảo sát Kết luận video theo khảo sát Tổng thời lượng video phút Có trộm videoTest1 Trong Video có trộm phút khơng đầu thời gian cịn lại khơng có trộm Video xác định trộm có tác động Có trộm videoTest2 đến xe: Từ giây đến giây 15, từ không 1:12s đến 1:18s trộm Video có trộm giây đầu, từ Có trộm videoTest3 giây 18 đến giây 35, từ giây 45 đến khơng giây 50 trộm Có trộm Video có trộm từ giây 11 đến kết videoTest4 không thúc trộm Có trộm Video có trộm tác động đến xe từ videoTest5 không giây 49 đến giây 57 trộm Tên model traning Mô tả model Tổng 1991: 1058 ảnh có trộm, 933 ảnh modelThief9.h5 khơng trộm, q trình traning sử dụng 1101 1163 file traning:TrainPeople.py CPU Tổng 1991: 1058 ảnh có trộm, 933 ảnh modelThief9.h5 khơng trộm,q trình traning sử dụng 2978 716 file traning:TrainPeople.py CPU Tổng 1991: 1058 ảnh có trộm, 933 ảnh modelThief9.h5 khơng trộm, q trình traning sử dụng 955 955 file traning:TrainPeople.py CPU Tổng 1991: 1058 ảnh có trộm, 933 ảnh modelThief9.h5 khơng trộm, q trình traning sử dụng 463 3297 file traning:TrainPeople.py CPU modelThief9.h5 Tổng 1991: 1058 ảnh có trộm, 933 ảnh 1962 khơng trộm Tổng 1991: 1058 ảnh có trộm, 933 ảnh Video Trộm modelThief9.h5 khơng trộm,q trình traning sử dụng file traning:TrainPeople.py CPU Tổng 1991: 1058 ảnh có trộm, 933 ảnh videoTest7 Video có trộm từ giây 11 đến giây 35 Video Trộm modelThief9.h5 khơng trộm,q trình traning sử dụng file traning:TrainPeople.py CPU Có trộm Tổng 1991: 1058 ảnh có trộm, 933 ảnh Video có trộm từ giây đến giây videoTest8 khơng modelThief9.h5 khơng trộm, q trình traning sử dụng 2:01 trộm file traning:TrainPeople.py CPU Tổng 1991: 1058 ảnh có trộm, 933 ảnh videoTest10 Video trộm Video Trộm modelThief9.h5 khơng trộm, q trình traning sử dụng file traning:TrainPeople.py CPU videoTest6 Video có trộm từ giây 27 đến giấy thứ 1:17 Kết đánh giá theo frame hình Not Tổng Thief Thief Frame 2264 3694 1710 3760 1962 2793 2793 1550 1550 197 4193 4390 613 613 50 Sau huấn luyện, tập video-testing kiểm nghiệm với model training Việc huấn luyện với tập video un-seen nhằm kiểm tra mức độ nhận diện hệ thống, để thu thập làm giàu nguồn liệu hữu tăng cường mức độ xác Hình ảnh khơng có trộm Hình 4-8: Kết kiểm thử chương trình frame hình khơng có trộm Hình ảnh phát có trộm Hình 4-9: Kết kiểm thử chương trình frame hình có trộm 51 4.2 So sánh kết nghiên cứu với hệ thống phát trộm cắp thị trường nước 4.2.1 Hệ thống Vaak Eye Vaak, cơng ty phần mềm có trụ sở Tokyo (Nhật Bản) sử dụng phương pháp deep learning để phát triển hệ thống trí tuệ nhân tạo có tên gọi Vaak Eye, hệ thống training thông qua 100,000 thu thập liệu từ tất camera giám sát, thiết bi chống trộm với loại khách hàng vào nước Ngoài ra, hệ thống sử dụng máy học để nhận diện cấc đối tượng khả nghỉ hiển thị hình 4.1 Hình 4-10 Hệ thống Vaak-Eye phát đối tượng ăn cắp tài sản siêu thị Vaak Eye dựa 100 đặc điểm, bao gồm khuôn mặt, kiểu trang phục, cách chuyển động, cách đối tượng quan sát chung quanh dấu hiệu khả nghỉ khác, … để cảnh báo cho chủ cửa hàng nhân viên an ninh đối tượng khả nghỉ cần theo dõi Một điểm đặc trưng đáng lưu ý hệ thống, dựa vào nhiều nguồn liệu khác điều kiện thời tiết, khoảng thời gian có tỷ lệ trộm cắp cao nhất, … để tối ưu hóa khả dự đốn nhận diện đối tượng khả nghỉ xác Hiện hệ thống Vaak Eye có tỉ lệ nhận dạng xác 81% [10], chạy thử nghiệm 16 siêu thị, cửa hàng tiện lợi khắp Nhật Bản, để tiếp tục thu thập thông tin đối tượng nhằm làm giàu tập liệu đào tạo đối tượng khả nghỉ 52 4.2.2 Hệ thống phát lỗi quét mã (Missed scan detection) Nhà bán lẻ lớn nước Mỹ, Walmart – triển khai hệ thống thị giác máy tính đẻ theo dõi việc tốn ngăn chặn khả trộm cắp 1,000 chuỗi cửa hàng Walmart đặt tên cho hệ thống Phát lỗi quét mã (Missed Scan Detection) [11], sử dụng camera giám sát để phát lỗi q trình qt mã tốn Hệ thống camera theo dõi phân tích tất hoạt động máy tốn lẫn quầy có nhân viên Khi xuất cố nào, ví dụ sản phẩm chưa toán tiền, hệ thống gửi cảnh báo đến nhân viên kiểm tra Hình 4-11 Hệ thống tích hợp camera Walmart phát người tiêu dùng khơng tốn Hệ thống camera tích hợp hệ thống trí tuệ nhân tạo cơng nghệ thị giác máy tính triển khai lắp đặt chuỗi 1,000 cửa hàng Walmart Mong muốn dự án tương lai Walmart phát triển hệ thống theo dõi hành vi, mua lựa chọn sản phẩm nhằm đưa số số lượng stock hàng cho chuỗi siêu thị 4.2.3 So sánh đánh giá hệ thống so với kết luận văn Cũng mục tiêu mà tác giả xác định ban đầu thực Luận Văn, công ty Vaak tác giả cố gắng làm giàu nguồn liệu đào tạo cách sử dụng tái tạo loại liệu khả năngm loại đối tượng trộm cắp Nhằm tìm điểm chung loại đối tượng trộm cắp Tuy nhiên, hệ thống Vaak Eye sử dụng hệ thống Deep 53 learning RNN (Recurrent Neuron Network) giúp tối ưu việc giám sát dựa chuỗi hành vi Hệ thống tác giả thực luận văn sử dụng hệ thống Deep learning CNN (Convolutional Neuron Network) sử dụng lọc nhằm tìm feature map từ mức điểm ánh, góc cạnh chi tiết đặc trưng đối tượng trộm cắp so với hình ảnh tại mơ hình huấn luyện Tuy nhiên, với số hình ảnh khơng trùng lắp, số người bình thường mặc loại áo khốc, váy chống nắng, mũ bảo hiểm, trùm kín mặt, hệ thống có cảnh báo sai từ 45-50% đối tượng trộm cắp Đây điểm yếu so sánh với hệ thống RNN sử dụng chuối hành vi đối tượng để phân tích Ngồi ra, điểm tương tự luận văn hệ thống nói sử dụng đến công nghệ thị giác máy tính, nhằm số hóa điểm ảnh frame, với trọng số từ 0-255, chia thành dải màu Sau đó, chuyển sang ảnh xám xử lý ảnh để tìm trích xuất điểm đặc trưng đối tượng Hình 4-12 Thử nghiệm với nhiều model training tập liệu Với hệ thống tự thu thập liệu tác giả, hệ thống đánh giá cho thấy kết xác lên khoảng 90% cho trường hợp cụ thể Tuy nhiên, để đánh giá mặt tương quan tập liệu mới, tác giả tiến hành nhiều đánh giá với tập liệu 54 có trộm, khơng có trộm, có trộm có khơng-trộm Kết sau tác giả nhận thấy, tỉ lệ xác hệ thống rơi vào khoảng 0.74 = 74% Hình 4-13 Cơng thưc tính độ xác hệ thống thử nghiệm Tỉ lệ xác hệ thống thử nghiệm: 𝑇𝑃+𝑇𝑁 = = 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 3403+628 3403+848+560+628 = 𝟎.74 = 74% 4.3 Kết nghiên cứu Các kết đạt qua thực luận văn - Tác giả tìm hiểu trình bày cách chi tiết kết thu việc phát nhận dạng đối tượng trộm cắp xe máy khu vực định - Luận văn xây dựng chương trình giả lập để đánh giá kết việc sử dụng mơ hình CNN kết hợp thư viện YOLO-COCO nhằm dễ dàng nhận dạng đối tượng người cho hệ thống - Chương trình nhận dạng tốt, theo mục tiêu mà tác giả muốn hướng tới trình nghiên cứu - Độ xác dao động với video vị trí định từ 98~99% , với vị trí khác nằm ngồi vị trí định, độ xác rơi vào khoảng 95~96% điều 55 kiện môi trường ánh sáng tương đối tốt Kết nhận dạng đối tượng hành vi trộm cắp tốt thu thập bổ sung thêm hình ảnh vào tập huấn luyện Nhược điểm phương pháp cải thiện nhận dạng: - Để có độ xác cao hơn, ta cần trích lọc frame hình vị trí khác nhau, để làm giàu nguồn liệu tập huấn luyện - Với 1,500,000 trọng số weight, ta thêm lớp Batch Normalization sau lớp Max Pooling, nhằm cải thiện hiệu trọng số để trình huấn luyện nhanh cập nhật trọng số tăng độ xác Tuy nhiên, cần cân nhắc lớp huấn luyện (hidden layer) ngày nhiều dễ dẫn đến tình trạng overfitting - Do khả phần cứng có hạn nên chưa thể đẩy nhanh việc nhận dạng đến mức realtime, mà nhận dạng với tỉ lệ khung hình (frame rate) = 30 khung/giây Với số khung hình lớn hơn, CPU GPU làm việc không ổn định dễ dẫn đến crash thiết bị kiểm định TÀI LIỆU THAM KHẢO [1] “Ứng dụng công nghệ khoa học đại vào công tác đảm bảo an ninh trật tự TP.HCM giai đoạn 2017-2020, tầm nhìn đến năm 2025", [Trực tuyến]:http://www.hfic.vn/ban-in/31486/100 [Đã truy cập: 14-01-2019] [2] Silvia Gabriel, Ruben Vera, Pedro Tome and Julian Fierrez, “Assessment of Gait Recognition Based on The Lower Part of The Human Body” , Experimental work, no 4.1 experimental protocol (2013), [Trực tuyến]: https://ieeexplore.ieee.org/docu ment/6547321 [Đã truy cập: 14-01-2019] [3] Cristyan Rufino Gil Morales, “Video Analysis to Detect Suspicious Activity Based on Deep Learning”, Methodology concept from Everis US Laboratory, [Trực tuyến]:https://medium.com/@everisUS/video-analysis-to-detect-suspiciousactivity-based-on-deep-learning-fee2032ea14a [Đã truy cập: 16-01-2019] [4] John Cherrie, "Machine Learning and Deep Learning", [Trực tuyến]: "https://www.matlabexpo.com/content/dam/mathworks/mathworks-dotcom/images/events/matlabexpo/uk/2016/machine-learning-and-deeplearning.pdf" [Đã truy cập: 03-02-2019] [5] Norton Lab, "How does facial recognition work?", [Trực tuyến]: https://us.norton.com/internetsecurity-iot-how-facial-recognition-softwareworks.html [Đã truy cập: 15-02-2019] [6] Activity Recognition, [Trực tuyến]: "https://en.wikipedia.org/wiki/Activity_recognition" [Đã truy cập: 15-02-2019] [7] Alex Krizhevsky , Ilya Sutskever , Geoffrey E Hinton, "ImageNet classification with deep convolutional neural networks", Proceedings of the 25th International Conference on Neural Information Processing Systems, p.1097-1105, December 03-06, 2012, Lake Tahoe, Nevada [Đã truy cập: 10-05-2019] [8] Zalando, MIT License) [Trực tuyến]: "Fashion-MNIST" https://github.com/zalandoresearch/fashion-mnist [Đã truy cập: 17-05-2019] [9] Powers, David M W (2003), Recall and Precision versus the Bookmaker, Proceedings of the International Conference on Cognitive Science (ICSC-2003), Sydney Australia, 2003, pp 529-534 [Đã truy cập: 21-06-2019] [10] Loz Blain, "Vaak's AI theft-detection system is already 81% accurate" [Trực tuyến]: https://newatlas.com/vaak-vaakeye-ai-theft-detection/59263 [Đã truy cập: 03-12-2019] [11] Natt Garun, "Walmart is using AI-powered cameras to prevent theft at checkout lanes.": https://www.theverge.com/2019/6/20/18693324/walmart-ai-camera- computer-vision-tracking-theft [Đã truy cập: 03-12-2019] ... DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** TRƯƠNG NGỌC TRIỀU XÂY DỰNG HỆ THỐNG GIẢ LẬP ĐỂ NHẬN DẠNG VÀ PHÁT HIỆN HÀNH VI TRỘM CẮP XE GẮN MÁY Chuyên ngành: Công nghệ thông tin Mã số: 8480201 LUẬN... vi? ?n xem hết tất kiện Hình 1-9: Ví dụ vi? ??c phân loại liệu Từ đó, hệ thống an ninh (hệ thống nhận dạng hành vi) phát triển nhằm nhận dạng hành vi bạo lực, trộm cắp, nghỉ vấn đối tượng phạm vi quét... (ngoại trừ vi? ??c nhận dạng song sinh, điểm yếu vi? ??c nhận dạng khuôn mặt) 1.3.1.2 Nhận dạng khn mặt gì? Nhận dạng khn mặt (NDKM) kỹ thuật mà hệ thống nhận dạng khuôn mặt người hệ thống công nghệ thông

Định dạng
Số trang	70
Dung lượng	3,46 MB