Với mục tiêu đánh giá tính khả thi và hiệu quả của việc áp dụng các nghiên cứu tiên tiến về nhận dạng khuôn mặt và phát hiện bất thường vào bài toán quản lý cửa hàng tiện lợi; và phát tr
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KY THUAT MAY TÍNH
LE TUAN ANH
KHOA LUAN TOT NGHIEP
PHAT TRIEN UNG DUNG DI DONG HO TRO QUAN LY CUA HANG TIEN LOI SU DUNG
CONG NGHE NHAN DANG KHUON MAT VA
PHAT HIEN HANH VI BAT THUONG
A CONVENIENCE STORE MANAGEMENT APP
USING FACIAL RECOGNITION AND ABNORMAL BEHAVIOR DETECTION
KY SƯ NGÀNH KY THUAT MAY TÍNH
TP HO CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KY THUAT MAY TÍNH
LE TUẦN ANH - 17520237
KHOA LUAN TOT NGHIEP
PHAT TRIEN UNG DUNG DI DONG HO TRO
QUAN LY CUA HANG TIEN LOI SU DUNG
CONG NGHE NHAN DANG KHUON MAT VA
PHAT HIEN HANH VI BAT THUONG
A CONVENIENCE STORE MANAGEMENT APP
USING FACIAL RECOGNITION AND
ABNORMAL BEHAVIOR DETECTION
KỸ SƯ NGÀNH KỸ THUAT MAY TÍNH
GIẢNG VIÊN HƯỚNG DAN PGS.TS LÊ ĐÌNH DUY
TP HÒ CHÍ MINH, 2021
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số 466/QD-DHCNTT
ngay 23 tháng 07 năm 2021 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Trong hành trình khám tri thức suốt bốn năm qua tại Đại học Công nghệThông tin, em cảm thấy bản thân thật may mắn khi luôn nhận được sự ủng hộ, hỗ
trợ và động viên từ gia đình, thầy cô và bạn bè Và dẫu sau này em có là ai thì
những kỷ niệm với thầy cô và các bạn sẽ còn mãi trong tâm trí em
Đầu tiên, con xin gửi lời cảm ơn đến mẹ, người đã dưỡng dục, cho phépcon được lựa chon và theo đuôi những gi con cho là đúng Mẹ luôn là người tiếpsức, động viên con có gang theo đuổi chặng đường tri thức này
Tiếp theo, em xin gửi lời cảm ơn đến thầy Lê Đình Duy, người hướng dẫn
em thực hiện khóa luận Xuyên suốt khoảng thời gian làm việc, thầy đã dànhnhiều thời gian chỉ dạy, truyền đạt kiến thức, phương pháp học tập và những kinhnghiệm quý báu Thầy cũng là người chi dẫn, giúp gỡ rối, dé em có thé tự tìm
đường ra khỏi khu rừng.
Cùng với đó, em cũng gửi cảm ơn đến các thầy cô, anh chị và các bạn tạiB2DL Lab đã luôn tạo điều kiện về cơ sở vật chất và trang thiết bị, cho những lờikhuyên hữu ích và giúp em chuẩn bị tâm lý và tinh thần cho khóa luận này
Ngoài ra, mình cũng cảm ơn những người bạn đã ở bên, động viên mình
tiếp tục cố gắng trong những thời điểm khó khăn Cảm ơn các bạn đã tạm thời bỏqua sự riêng tư, tham gia hỗ trợ mình thu thập một phần bộ dữ liệu
Và cuối cùng, em xin gửi lời cảm ơn đến các thầy cô trong Khoa Kỹ thuậtMáy tính và các thầy cô giảng dạy tại Đại học Công nghệ Thông tin, những người
đã quan tâm chỉ dạy, định hướng cơ hội nghề nghiệp và trang bị cho em phương
pháp học tập chủ động Những lời chia sẻ, nhận xét và góp ý của các thầy cô làđộng lực giúp em cố gắng trong học tập và hoàn thành khóa luận này
Do giới hạn thời gian, kiến thức và khả năng của bản thân nên khóa luậnkhó tránh khỏi những thiếu sót và hạn chế Em rất mong sẽ tiếp tục nhận được
góp ý và nhận xét từ các thầy cô để khóa luận được hoàn thiện hơn
Lê Tuấn AnhThành phố Hồ Chí Minh, tháng 06 năm 2021.
Trang 51.5 Cấu trúc Khóa luận tốt nghiỆp - + + 2 SE+SE+E£2E££E££EeEEeEEeEkerkrrerreee 9Chuong 2 | CONG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG 10
2.1 Giải pháp quản lý - tt SH HH TH HH Hà Hưng nh nh 10
2.1.1 Hệ thống nhận diện khuôn mặt - KBVISIƠN 10
2.1.2 Camera giám sát Yi — XIAOTM1 - 5 «5 «+ se ret 11
2.1.3 Mục tiêu giám sát cửa Hang eee cecceececeseeeeeeeeeeeeeeeeeeeeseeceeeesaes 12 2.2 Nhận dạng khuôn mặyt - - <1 1E 91199111 1 911 ng Hệ, 14
2.2.1 Phát hiện khuôn mmặt - - 5 5 + E211 E9 kg ng ren 14
2.2.2 Nhận diện danh tính - - 5 5 2+ x1 ghi rưy 16
2.3 Phát hiện hành vi nguy hại c5 5c 2E *E*EEEEEEEErrrrkeskrrkrekrei 17
2.3.1 Các phương pháp phát hiện bat thường - 2 2- 2 s+cszc5e2 20
2.3.2 Phát hiện bất thường không giám sát -¿¿©s+c++cx++se2 212.3.3 Phát hiện bat thường lai cecceececcscessesseessessessesseessessessessesssessesseeses 212.3.4 Phát hiện bat thường theo thời gian thực -s-csecsss2 222.3.5 MONAD - Phần mềm phát hiện hành vi bất thường 23
Trang 62.4 Module trích xuất đặc trưng - Neural -:©2+z++22vvvreccvsrresrr 24
2.5 Dự đoán khung hình
2.5.1 _ Phát hiện vat thể cccccistrrrrirrirrrrrirrrrii 27
2.5.2 Mô hình YOLO phiên ban thứ 3 - YOLOv3.
2.5.3 Mô hình YOLO phiên bản thứ 4 - YOLOv4 - - 29
2.5.4 _ Vector đặc trưng
2.6 Module phân loại hành vi - Statistical eee eee SL
Chuong3 | XAY DỰNG BO DU LIEU ĐÁNH GIÁ
3.1 Bộ dữ liệu UIT-ConStorexFaces ccceccesseeeseseeseseeseseesesscseeeeeeseseesseesaee 34
3.1.1 Xác định ngữ cảnh thu thập và chuẩn bị tài liệu hướng dẫn 36
3.1.2 Thu thập các các video và hình ảnh từ điện thoại di động 38
3.1.3 Chọn lọc và xử lý video đã thu thập ¿- - c+c+x+xseerxr+ 39 3.1.4 Phân loại và gan nhãn vVideo - ¿+ +5 sxsxcxervrerereeeerkrkree 41
3.1.5 Tổng hợp và tổ chức dữ liệu cho yêu cầu đánh giá - 46 3.1.6 Ưu điểm và hạn chế của bộ dit liệu -crrrrrrrrrrrrrrrre 48
3.2 Bộ dữ liệu UTT-ConStorexAbnormal ¿ss+ssss+ss+vxeeeexeesereezessese 49 3.2.1 Lên kịch bản và cài đặt Vi tÍ - + St St Sxkeesekkerereeee 50
3.2.2 Mô phỏng và ghi hình - 5:52 5+5+5++ccxcsezsxexsrerre 5“
Trang 73.3.3 Gán nhãn vIdeo - - - - << << << k k k1 E11 SE SE SE SE SE SE E955 111k kkkkkkkkEk 61
3.3.4 Tổng hợp và tổ chức dữ liệu ¿¿©++++cx2zxvzxesrxesrxee 62
Chương 4 PHƯƠNG PHÁP VA KET QUÁ DANH GIÁ -5- 66
"› 5 66
4.1.1 Precision-RecalÌ + << s11 11 1222311111119 1 1 11g 1 1 kg vn 66
4.2 Đánh giá phương pháp nhận diện khuôn mặt - 5 +55<+s>++ 67
4.3 Đánh giá phương pháp phát hiện hành vi bất thường . 73
4.3.1 Đánh giá trên bộ dữ liệu UTT-ConStorexAbnormal 73
4.3.2 Đánh giá trên bộ dữ liệu UTT-ConStorexWildAbnormal 75
4.4 Kết luận phương pháp ¿+ ++SE2cc2EE+EEEEECEEEEEEEEEEEErkrrkerkerkrres 79
Chương 5 ỨNG DỤNG QUẢN LÝ CUA HÀNG TIEN LỢI 81
5.1 Tại sao lại là ứng dụng di động? - - c5 - 351k vs sirrerrireerree 81
5.2 Ứng dụng quan lý cửa hàng tiện 10i sc ceceeccessesseeseessesseeseessessessessesseeseesees 84
5.3 Tính năng nhận dạng khuôn mat - 5 + + + £++EE+seEeeesereersee 85
5.4 Tính năng phát hiện hành vi bat thường - ¿2 2 + s£+z+£e+£xzszez 89
5.5 Dashboard quản Ìý - c1 1v 1 HH TH HH ng rry 92
Chương 6 KÉT LUẬN VÀ HƯỚNG PHAT TRIEN . - 93
6.1 Kết luận 22-©2< 2E22EE22EE21127112712112112711211 211111 .1ree 93
6.2 Hướng phát triỀn -:- 2 2+ ++EE+E£EE£EEEEEEEEEEEEEE2E12112112171 211111, 96TÀI LIEU THAM KHẢO ¿St St+EEEE‡EEEEEEEEEEEESEEEESEEEEEEEEEEEEEEEEkrrerkerrrkrrr 97
Trang 8DANH MỤC HÌNH
Hình 1.1: Minh họa ứng dụng đề xuất + E+EE+EE+E££EEEEEeEEeEkerkrrxrrrree 5
Hình 2.1: Giải pháp nhận diện khuôn mặt của KBVision 52-5525 <<<<+ 10 Hình 2.2: Camera giám sát Yi Home - X1aOTmI - - «6 + + xe sveeserserserske 12
Hình 2.3: Hệ thống giám sát cửa hàng tiện lợi -¿ 2 x+x+zxzxezzxerxres 13
Hình 2.4: Mô tả bài toán nhận dạng khuôn mặt -. - «+ +5 ««+++<++se+ssxes 14
Hình 2.5: Mô tả bài toán phát hiện khuôn mặt - + +2 *+++ve++sesseers 15
Hình 2.6: Mô tả bài toán nhận diện danh tính khuôn mặt - << 16
Hình 2.7: Minh họa các vùng dữ liệu bất thường và bình thường -.- 18Hình 2.8: Các ứng dụng của phát hiện bat thường -¿-2- 5¿c+z+zxzz+sc+z 19
Hình 2.9: Phương pháp Deep Multiple Instance Learning - «+s«2 19
Hình 2.10: Minh họa phương pháp phát hiện bat thường lai - 22Hình 2.11: Kiến trúc phần mềm phát hiện hành vi bất thường - MONAD 23
Hình 2.12: Module trích xuất đặc trưng - Neural - 2 2 2+s2+s+x+zx+zs+zszse2 24
Hình 2.13: Kiến trúc mang dự đoán khung hình U-Net . ¿5 52 s52 s2 25Hình 2.14: Mô hình phát hiện vật thể YOLO -2 2- ©2222 £+++£E£+£++zxerxzsz 27Hình 2.15: Minh họa kết qua dự đoán của 1 hộp bao -¿-c5¿©sz5s++cs2 28
Hình 2.16: So sánh YOLOv3 và các phương pháp khác trên tập dữ liệu COCO 29
Hình 2.17: So sánh YOLOv4 và các phương pháp khác trên tập dữ liệu COCO 29
Hình 2.18: Module phân loại hành vi - Statistical «5+ <+++se+sseesssers 31
Hình 3.1: Một số hình anh trong bộ dữ liệu UIT-ConStorexFaces - 35
Hình 3.2: Minh họa quá trình cai đặt CaIme€ra - 5 3 SE ke serree 37
Hình 3.3: Minh họa các video thuộc ngữ cảnh khó trong tập Surveillance 38
Hình 3.4: Minh họa các địa điểm thu thập dữ liệu . 25c cSSSsssessseresee 39
Hình 3.5: Minh họa tỉ lệ và kích thước khung hình của video thu thập 40
Hình 3.6: Minh họa 8 điểm tin cậy -¿- ¿5© SE‡EEEEE2EE2EEEEEEEEEEEEEkrrkrrkrree 44Hình 3.7: Minh họa những hình ảnh khó xác định điểm tự tỉn -: cscssce¿ 45Hình 3.8: Minh họa kết quả gán nhãn của tập Surveillance-Medium-[ 45Hình 3.9: Kết quả tổng hợp bộ dữ liệu UIT-ConStorexFaces - 46
Trang 9Hình 3.10: Kết quả tổng hợp bộ dữ liệu UIT-ConStorexFaces . 47
Hình 3.11: Hình thức tô chức video của UIT-ConStorexFaces - 5 47 Hình 3.12: Minh hoa cách thức bài trí mặt hàng - 5 « «+ x+++ve+sseesssees 51 Hình 3.13: Minh họa hành vi bình thường của người mua hàng - - 51
Hình 3.14: Minh họa hành vi trộm cắp hàng hóa của người mua hàng 52
Hình 3.15: Minh họa khung hình sử dụng dụng cụ hỗ trợ và thông thường 53
Hình 3.16: Hình thức tô chức dữ liệu của UIT-ConStorexAbnormal 55
Hình 3.17: Minh hoa video đã bị thao tác chỉnh sửa, thêm hiệu tng 58
Hình 3.18: Minh hoạ sự kiện diễn ra bên trong cửa hàng tiện lợi 59
Hình 3.19: Minh họa sự kiện diễn ra ở địa điểm kinh doanh khác - 60
Hình 3.20: Thống kê số FPS của các video trong cửa hàng tiện lợi - 60
Hình 3.21: Thống kê số FPS của các video được quay ở điểm kinh doanh khic 61
Hình 3.22: Thống kê số lượng video của bộ UIT-ConStorex WildAbnormal 63
Hình 3.23: Minh họa hình thức tổ chức video của UIT-ConStorexWildAbnormal 64 Hình 4.1: Phương pháp tính toán số lượng shot -2- 2 + s25+22++zxzzxezsz 67 Hình 4.2: Lay mẫu 3 FPS occcccccccsesscssssscssecscssessessessesscsecsessessessesacsscsucsecsessessessessesneaes 68 Hình 4.3: Minh hoa ma trận nhầm lẫn c.ccecccsscsescssesessscsesecscscceceesesecevsveecessveveeeers 69 Hình 4.4: Minh họa kết quả đánh giá tình huống trong tập CheckIn-Easy 70
Hình 4.5: Minh họa kết quả đánh giá tình huống trong tập CheckIn-Medium 70
Hình 4.6: Minh họa kết quả đánh giá tình huống trong tập Surveillance-Easy 71
Hình 4.7: Minh hoa kết quả đánh giá tình huống trong tap Surveillance-Medium 71
Hình 4.8: Minh họa kết quả đánh giá tình huống trong tập Surveillance-Hard 72
Hình 4.9: Minh họa các video có góc quay giống nhau 2 22 s52 76 Hình 4.10: Minh họa tình huống bat thường của UCSD Ped 2 - 78
Hình 5.1: Công cụ và tinh năng trên thiết bị di động -¿ 5¿©sz©5+ec++ 32 Hình 5.2: Mục tiêu giám sát cửa hàng tiện lỢI - - 5c + c*sskEseesersersee 83 Hình 5.3: Mô hình ứng dụng quan lý cửa hàng tiện lợi - «<< -s«++<<«++ 84 Hình 5.4: Tinh nang của ứng dụng quản lý cửa hang tiện lợi - 85
Hình 5.5: Minh họa tính năng thêm và cập nhật TG SO 525cc SvcEvEvEekrrerrree 85
Trang 10Hình 5.6: Tính năng nhận diện khuôn mặt - - 5 32+ S+*£++E+sereereereeerre 86
Hình 5.7: Thử nghiệm tinh năng khi nhiều đối tượng di chuyền qua 87Hình 5.8: Tinh năng nhận diện sai khi điều kiện ánh sáng thay đồi 88Hình 5.9: Tính năng nhận diện sai trong điều kiện ánh sáng -. - 88
Hình 5.10: Tính năng nhận diện đúng trong điều ngược sáng -s¿ 88
Hình 5.11: Tính năng nhận diện sai trong ngữ cảnh khó 5-5555 s<+<<ss+ 89
Hình 5.12: Sơ đồ tính năng phát hiện hành vi bat thường -: -5- 90Hình 5.13: Minh họa tính năng phát hiện hành vi bất thường - - 91
Hình 5.14: Lich sử giám sát hiển thị trên dashboard -¿¿©2s+cxzxz>s+ 92
Trang 11DANH MUC BANG
Điều kiện phân loại video theo độ khó của tập Surveillance 42Điều kiện phân loại video theo độ khó cho tập Checkln 43Thống kê số lượng video sau khi phân loại . ¿ ¿ 5+2 54
So sánh các bộ dữ liệu cho bai toán phát hiện hành vi bất thường 63
Ma trận nhằm lẫn -: 2:©++222+++2E2YYEEEEvttEEktrtttrrrrrtrrrrrrrrrrrre 66Kết quả đánh giá phương pháp nhận diện khuôn mặt 69Kết quả đánh MONAD trên bộ dữ liệu UIT-ConStorexAbnormal 74
So sánh bộ dữ liệu UIT-ConStorexAbnormal và UCSD Ped 2 74
Kết quả đánh MONAD trên bộ dữ liệu UTT-ConStorexWildAbnormal 77
So sánh bộ dữ liệu UIT-ConStorex WildAbnormal va UCSD Ped 2 78
Trang 12DANH MỤC TỪ VIET TAT
Viết tắt Viết đầy đủ
AU-ROC Area Under-the ROC Curve
FPS Frames Per Second
GAN Generative Adversarial Network
KNN K-Nearest Neighbor
MIL Multiple Instance Learning
MSE Mean Square Error
ROC Receiver Operating Characteristic SOTA State Of The Art
SVM Support Vector Machine
YOLO You Only Look Once
Trang 13TÓM TẮT KHÓA LUẬN
Sử dụng camera an ninh trong cửa hàng tiện lợi là nhu cầu thiết thực Tuy nhiên,việc ton tại lỗ hồng trong quản lý khi phụ thuộc vào khả năng tập trung của ngườigiám sát cộng với sự thiếu vắng của nhân viên bảo vệ và hệ thống báo động đã biếncác cửa hàng này trở thành mục tiêu của những đối tượng phạm tội, đặc biệt là tội
phạm trộm cướp.
Trong khi đó, việc cải tiến các kỹ thuật học sâu trong những năm gần đã thúc đâycác nghiên cứu về nhận dạng khuôn mặt và phát hiện bất thường trưởng thành(Arcface [6], MONAD [8] và MIL Ranking [18]) Điều này tạo tiền dé việc áp dụng
các phương pháp này vào bài toán giám sát thực tế trở nên hiệu quả hơn
Với mục tiêu đánh giá tính khả thi và hiệu quả của việc áp dụng các nghiên cứu
tiên tiến về nhận dạng khuôn mặt và phát hiện bất thường vào bài toán quản lý cửa
hàng tiện lợi; và phát triển ứng dụng, tôi đã thực hiện những công việc sau, cũng là
những đóng góp chính trong khóa luận:
e Phát triển Ứng dung quản lý cửa hàng tiện lợi gồm một ứng dụng di động hoạt
động trên hệ điều hành Android, được tính hợp tính năng nhận dạng khuônmặt và tính năng phát hiện hành vi cần cảnh báo; ứng dụng có giao diện dễ sửdụng, giúp việc triển khai giám sát nhanh chóng mà không cần lắp đặt thêmđầu thu, màn hình, Ethernet và không cần triển khai thêm camera giám sát; vàmột Dashboard cập nhật và hién thị lich sử giám sát
“ Link cài đặt ứng dụng: https://tinyurl.com/taConStore (link gốc)
= Link truy cập Dashboard: http://aiclub.uit.edu.vn/gpu/kltn_anhlt/web/
= Mã nguồn của ứng dụng: https://github.com/mausLe/face-detection
= Mã nguôn của Dashboard: https://github.com/mausLe/My-Dashboard
= Video demo về ứng dụng: https://youtu.be/wWdUGKihG7Y
Trang 14e Xây dựng bộ dữ liệu về khuôn mat UIT-ConStorexFaces gồm 13 danh tinh và
78 video phục vụ yêu cầu đánh giá khả năng xác thực và giám sát; bộ dữ liệuUIT-ConStorexAbnormal gồm 113 video mô phỏng lại các hoạt động bìnhthường: Đi ngang qua, lựa và chọn mua và các hành vi trộm cắp hàng hóa: Lay
đồ bỏ vào balo, túi áo quần, túi vải và các video được ghi ở góc nhìn bị khuất;
và bộ dữ liệu UIT-ConSotexWildAbnormal gồm 66 video ghi lại các hành vi
cần cảnh báo: Trộm, Cướp, tấn công nhân viên và bình thường tại các địa điểm:
Cửa hàng tiện lợi, ngân hàng và tiệm vàng tại Việt Nam.
“ Link tông hợp 3 bộ dit liệu: https://tinyurl.com/talDatasets (link gốc)
e Đánh giá kết quả của việc áp dụng các phương pháp tiên tiễn về nhận dang
khuôn mặt và phát hiện bat thường trên các bộ dữ liệu đã thu thập Kết quả khi
đánh giá:
= Phuong pháp nhận dạng khuôn mặt trên bộ dữ liệu UIT-ConStorexFace
cho kết quả trên tập CheckIn (Precision = 0.97, Recall = 0.97) vàgiảm dần theo độ khó của tập Surveillance (Precision = 0.63,Recall = 0.59), đồng thời khóa luận cũng chỉ ra các trường hợp màtính năng không nhận diện được đối tượng giám sát và đưa ra khuyến
nghị ngữ cảnh triển khai phù hợp.
“ Phương pháp phát hiện hành vi bất thường - MONAD [8] trên bộ dữ
liệu UIT-ConStorexAbnormal cho kết quả (Precision = 0.25,Recall = 0.82) cho thấy hiệu quả phân loại hành vi trộm thấp
= Phương pháp MONAD trên bộ dữ liệu UIT-ConStorex WildAbnormal
cho kết qua (Precision = 0.25, Recall = 0.26) do các yếu tô: Dia
điểm, góc quay và ngữ cảnh của UIT-ConStorexWildAbnormal phứctạp hơn bộ đữ liệu UCSD Ped 2 [13] mà MONAD cho kết quả cao nhất
Từ khóa: Convenience Store Management, Facial Recognition, Abnormal Behavior
Detection, MONAD, ConStorexFaces, ConStorexWildAbnormal, ConStorex Abnormal.
Trang 15Minh, đã xảy ra hàng loạt vụ cướp các cửa hàng tiện lợi Đơn cử vào khuya ngày
21/01/2021, Công an quận Tân Bình thông báo đã bắt giữ một đối tượng gây ra liên
tiếp 3 vụ cướp cửa hàng tiện lợi Các hành vi này làm ảnh hướng đến tài sản, sức khỏecủa nhân viên cửa hàng đồng thời cũng gây hoang mang trong dư luận Vì vậy, cần
có hệ thống hỗ trợ cửa hàng phát hiện và báo động sự cố ảnh hưởng đến an ninh dé
kip thời có giải pháp ngăn chặn.
Ứng dụng những tiến bộ của các kỹ thuật học sâu trong thời gian qua, dé tài “Pháitriển ứng dụng di động hỗ trợ quản lý cửa hàng tiện lợi sử dung công nghệ nhận dạngkhuôn mặt và phát hiện hành vi bắt thường ” đặt mục tiêu thực nghiệm và đánh giákết quả của việc áp dụng các phương pháp tiên tiến về nhận dạng khuôn mặt trên bộ
dữ liệu UIT-ConStorexFaces và phương pháp phát hiện bất thường trực tuyến
MONAD [8] trên bộ dữ liệu ConStorexAbnormal và bộ dữ liệu ConStorex WildAbnormal cho bài toán quan lý cửa hàng tiện lợi.
UIT-Cùng với đó, với mục tiêu thay thé camera giám sát quản lý cửa hàng tiện lợi,khóa luận cũng đề xuất xây dựng một ứng dụng đi động hoạt động trên hệ điều hành
Android, được tích hợp tính năng nhận tính năng nhận diện người trong danh sách
theo dõi và phát hiện hành vi cần cảnh báo của người mua hàng: ứng dụng có giaodiện dễ sử dụng, có thê nhanh chóng triển khai và không cần lắp đặt thêm cameragiám sát; và một Dashboard giúp cập nhật và hién thị lịch sử giám sát
Trong phan tiếp theo, tôi sẽ trình bày về các khó khăn, thách thức và giải pháp đềxuất cho ứng dụng quản lý cửa hàng tiện lợi
Trang 16Chương 1 TONG QUAN ĐÈ TÀI
Trong chương này, tôi giới thiệu tổng quan về thực trạng quản lý cửa hàng tiện lợi,thách thức và giải pháp dé xuất cho bài toán này Đông thời, tôi cũng trình bày vềmục tiêu, phạm vì thực hiện và những đóng góp của dé tài trong khóa luận này
1.1 Giới thiệu bài toán
Mỗi năm, ngành bán lẻ toàn cầu thiệt hại hàng tỷ Đô la do thất thoát sản phẩm, hàng
hóa có nguyên nhân từ các hành vi trộm cướp [15] Việc sử dung camera an ninh
trong giám sát là nhu cầu thiết thực và được kỳ vọng sẽ giảm thiểu các thiệt hại này.Tại Việt Nam, quá trình giám sát hiện chủ yếu vẫn dựa vào sức người Với đặc thù là
số lượng cửa hàng tại mỗi hệ thống lên đến hàng trăm khiến việc giám sát từng địađiểm bộc lộ một số thách thức và hạn chế:
e Không có nhân viên bảo vệ hoặc chỉ hoạt động vào ban ngày.
e Camera không có khả bao quát do hình thức bài trí kệ đặc trưng.
e Nhân viên giám sát không có khả năng xử lý nhiều video hay tập trung quan
sát nhiều màn hình camera cùng lúc
e Khó duy trì hiệu suất giám sát trong thời gian dài (không quá 20 phút) [11]
e Chưa được trang bị hệ thông cảnh báo, báo động khi xảy ra sự cố mat an toàn
Từ đó cho cho thay công tác quản lý, đảm bảo an ninh tại các cửa hàng tiện lợivẫn còn nhiều lỗ hồng, chức năng giám sát chưa hoạt động hiệu quả khi chủ yếu dùng
dé lưu trữ và trích xuất lại hình ảnh khi sự cố đã xảy ra Vì vậy, cần có hệ thống hỗtrợ cửa hàng nhận diện các đối tượng trong danh sách quản lý và phát hiện hành vi
cân cảnh báo của người mua hàng.
1.2 Giải pháp đề xuất
Trong khuôn khô đề tài khóa luận này, tôi đề xuất xây dựng một ứng dụng quản lýcửa hàng tiện lợi (xem Hình 1.1) Ứng dụng giúp chuyền đổi mục dich sử dụng thiết
bị di động thay thay thế camera giám sát, nhận diện các đối tượng trong danh theo
dõi và cảnh báo hành vi vi phạm của người mua hang; có giao diện dé sử dụng, không
Trang 17yêu cầu lắp đặt đầu thu, màn hình, Ethernet và không cần triển khai thêm camera
Đối tượng: 23 Bình thường
Hình 1.1: Minh hoa ứng dụng đề xuất!
Bên cạnh đó, với mục tiêu đánh giá tính khả thi và hiệu quả của việc áp dụng công
nghệ học sâu cho bài toán quản lý cửa hàng tiện lợi, tôi cũng đề xuất xây dựng bộ dữ
liệu UIT-ConStorexFaces cho việc đánh giá độ chính xác của phương pháp nhận dạng
khuôn mặt, bộ dữ liệu UIT-ConStorexAbnormal mô phỏng lại các hành vi bình
thường và trộm và bộ dữ liệu UIT-ConStorex WildAbnormal gồm các các hành vi:Trộm, cướp, tan công nhân viên tại các dia điểm: Cửa hàng tiện lợi, ngân hàng, tiệmvàng tại Việt Nam; cho việc đánh giá phương pháp phát hiện bất thường vào bài toán
phát hiện hành vi cân cảnh báo” của người mua hàng.
! Ảnh được tác giả thực hiện với các thành phan tông hợp từ Internet.
2 Trên thực tế, các hành vi cần cảnh báo trong cửa hàng tiện lợi rất da dạng: Tan công nhân viên, đánh lộn,
phá hoại tài sản, cướp Và khó phân biệt: Trộm cắp, quấy rối Khóa luận tập trung vào các hành vi: Trộm,
cướp, tan công nhân viên; là những hành vi ảnh hưởng tài sản, sức khỏe và gây hoang mang luận.
Trang 181.3 Thách thức, mục tiêu và phạm vi
1.3.1 Thách thức
Trong quá trình nghiên cứu, hoàn thiện đề tài, tôi gặp phải một số thách thức sau:
Chưa có nhiều bộ dit liệu thé hiện ngữ cảnh phạm tội trong cửa hàng Trong
các bộ dữ liệu mô tả hành vi phạm tội, UCF-Crime [18] là bộ dữ liệu lớn hơn
cả với 1900 video thé hiện 13 hành vi phạm tội được thu thập từ trên Internet
Tuy nhiên, hạn chế của bộ dữ liệu này là chỉ được gán nhãn theo hình thứcgiám sát yêu, ngữ cảnh đa dang mà không tập trung vào lĩnh vực bán lẻ vàkhông thê hiện được bối cảnh đặc trưng ở Việt Nam
Trong bối cảnh đại dịch COVID-19 diễn biến phức tạp và quy định đeo khẩu
trang ở nơi công cộng đã tạo ra thách thức với các hệ thống nhận dạng khuôn
mặt Vì vậy đề tài cũng đánh giá phương pháp phát hiện bất thường vào bàitoán phát hiện hành vi vi phạm của người mua hàng, bé trợ cho phương pháp
nhận dạng khuôn mặt.
Các quy định giãn cách xã hội cũng ảnh hưởng đến quá trình thu thập, xâydựng bộ dữ liệu và đánh giá của khóa luận Tôi đã lựa chọn giải pháp thế là
thu thập bộ dữ liệu UIT-ConStorexFaces cho mục tiêu đánh giá độ chính xác
của phương pháp nhận dạng khuôn mặt và bộ dữ liệu ConStorex Abnormal và ConStorex WildAbnormal cho mục tiêu hiện thực và
UII-đánh giá phương pháp phát hiện hành vi cần cảnh báo của người mua hàng
Các hành vi vi phạm trong cửa hàng tiện lợi rat đa dang: Tan công nhân viên,
đánh lộn, phá hoại tài sản, cướp Và khó phân biệt: Trộm cắp, quấy rối Đềtài khóa luận tập trung vào các hành vi: Trộm, cướp, tấn công nhân viên; lànhững hành vi làm thiệt hại về tài sản, sức khỏe và gây hoang mang dư luận
Các thiết bị di động có cấu hình thấp, bị giới hạn về phần cứng khiến việc
triển khai những mô hình học sâu đang có kết quả tiên tiến trở nên khônghiệu quả Do đó, cần kết hợp các hình thức tiền xử lý trên thiết bị di động kết
hợp với Server đê cải thiện hiệu năng giám sát.
Trang 191.3.2 Mục tiêu
Khóa luận đặt mục tiêu đánh giá tính khả thi và hiệu quả của việc áp dụng công
nghệ nhận dạng khuôn mặt và phát hiện bất thường cho bài toán quản lý cửa hàngtiện lợi? dựa trên kết quả đánh giá phương pháp nhận dạng khuôn mặt tiên tiến trên
bộ dữ liệu UIT-ConStorexFaces và phương pháp phát hiện bat thường MONAD [8]
trên bộ dữ liệu UIT-ConStorexAbnormal và UIT-ConStorex WildAbnormal.
Cùng với đó, khóa luận cũng đặc mục tiêu xây dựng ứng dụng chuyên đổi mụcđích sử dụng của thiết bị di động thay thế camera giám sát quản lý cửa hàng tiện
lợi, ứng dụng được tích hợp tính năng nhận tính năng nhận diện người trong danh
sách theo dõi và phát hiện hành vi vi phạm của người mua hàng; có giao diện dễ sử
dụng và có thé có thé nhanh chóng triển khai giám sát Trong đó:
e Tận dụng camera và bộ xử lý của các thiết bi di động dé thu nhận hình ảnh
và xử lý Điều này sẽ giúp triển khai ứng dụng đơn giản, hiệu qua tai các cửahàng tiện lợi, không cần triển khai thêm camera giám sát
e Các công nghệ nhận dạng khuôn mặt và phát hiện hành vi bất thường được
sử dụng như là các hộp đen trên cơ sở lựa chọn các API đã được phát triển
từ bên thứ ba.
143.3 Phạm vi
e Hình ảnh giám sát sẽ được thu thập trực tiếp trên thiết bi di động, không cần
triển khai thêm camera giám sát
e - Do không thể triển khai trong môi trường cửa hàng tiện lợi thực tế Hệ thống
được đánh giá trong môi trường mô phỏng lại các điều kiện bên ngoài cửa
hàng tiện lợi.
3 Thi trường bán lẻ Việt Nam hiện đang xuất hiện nhiều hình thức cửa hàng tiện lợi Trong khóa luận này, thuật
ngữ cửa hàng tiện lợi nói chung được sử dụng cho loại hình kinh doanh các sản phẩm thiết yếu có quy mô nhỏ như: Cửa hàng tiện lợi, cửa hàng tiện ích, cửa hàng bách hóa, cửa hàng tạp hóa và siêu thi mini.
Trang 201.4 Đóng góp
Từ mục tiêu đề ra và những kết quả trong quá trình thực nghiệm, những đóng góp
của tôi trong khóa luận bao gồm:
e Ứng dụng quản lý cửa hàng tiện lợi gồm một ứng dụng di động hoạt động trên
hệ điều hành Android, được tính hợp tính năng nhận dạng khuôn mặt và tínhnăng phát hiện hành vi cần cảnh báo; ứng dụng có giao diện dễ sử dụng, giúpviệc triển khai giám sát nhanh chóng mà không cần lắp đặt thêm đầu thu, màn
hình, Ethernet và không cần triển khai thêm camera giám sát; và một
Dashboard cập nhật và hiển thị lịch sử giám sát
“ Link cài đặt ứng dụng: https://tinyurl.com/taConStore (link gốc)
" Link truy cập Dashboard: http://aiclub.uit.edu.vn/gpu/kltn_anhlt/web/
= M4§ nguồn của ứng dụng: https://github.com/mausLe/face-detection
= Mã nguồn của Dashboard: https://github.com/mausLe/My-Dashboard
“ Video demo về ứng dụng: https://youtu.be/wWdUGKihG7Ye_ Xây dựng bộ dữ liệu về khuôn mặt UIT-ConStorexFaces gồm 13 danh tính và
78 video phục vụ yêu cầu đánh giá khả năng xác thực và giám sát; bộ dữ liệuUIT-ConStorexAbnormal gồm 113 video mô phỏng lại các hoạt động bìnhthường: Đi ngang qua, lựa và chọn mua và các hành vi trộm cắp hàng hóa: Lấy
đồ bỏ vào balo, túi áo quan, túi vải và các video được ghi ở góc nhìn bị khuất;
và bộ dữ liệu UIT-ConSotexWildAbnormal gồm 66 video ghi lại các hành vicần cảnh báo: Trộm, cướp, tan công nhân viên và bình thường tại các địa điểm:
Cửa hàng tiện lợi, ngân hàng và tiệm vàng tại Việt Nam.
" Link tổng hợp 3 bộ dữ liệu: https://tinyurl.com/talDatasets (link gốc)
e Đánh giá kết quả của việc áp dụng các phương pháp tiên tiến về nhận dang
khuôn mặt và phát hiện bất thường trên các bộ dữ liệu đã thu thập Kết quả khi
đánh giá:
=" Phương pháp nhận dạng khuôn mặt trên bộ dữ liệu UIT-ConStorexFace
cho kết quả trên tập CheckIn (Precision = 0.97, Recall = 0.97) và
giảm dần theo độ khó của tập Surveillance (Precisiơn = 0.63,
Trang 21Recall = 0.59), đồng thời khóa luận cũng chỉ ra các trường hợp ma
tính năng không nhận diện được đối tượng giám sát và đưa ra khuyếnnghị ngữ cảnh triển khai phù hợp
= Phương pháp phát hiện hành vi bất thường - MONAD [8] trên bộ dữ
liệu UIT-ConStorexAbnormal cho kết qua (Precision = 0.25,Recall = 0.82) cho thay hiệu quả phân loại hành vi trộm thấp
= Phương pháp MONAD trên bộ dữ liệu UTT-ConStorexWildAbnormal
cho kết quả (Precision = 0.25, Recall = 0.26) do các yếu tố: Địađiểm, góc quay và ngữ cảnh của UIT-ConStorexWildAbnormal phứctạp hơn bộ đữ liệu UCSD Ped 2 [13] mà MONAD cho kết quả cao nhất
1.5 Cấu trúc Khóa luận tốt nghiệp
Phần còn lại của Khóa luận tốt nghiệp được tô chức như sau:
e Chương 1: Tổng quan dé tài
© Chương 2: Các công trình liên quan và kiến thức nền tảng
e Chương 3: Xây dựng bộ dữ liệu đánh giá.
e Chương 4: Phương pháp và kết quả đánh giá
© Chương 5: Ung dụng quản lý cửa hàng tiện lợi
© Chương 6: Kết luận và hướng phát triên
Trang 22Chương2 CÔNG TRÌNH LIEN QUAN VÀ KIEN THỨC NEN TANG
Trong chương này, tôi trình bày các giải quản lý cửa hàng tiện lợi đã được triển khai,kiến thức nên tảng và các công trình liên quan đến tính năng nhận dạng khuôn mặt
và phát hiện hành vi bat thường
2.1 Giải pháp quản lý
Đề hạn chế sự phụ thuộc vào yếu tố con người trong khâu đảm bảo an ninh, một số
giải pháp giám sát thông minh đã được đề xuất:
2.1.1 Hệ thống nhận diện khuôn mặt - KBVISION
Hệ thống đảm bảo an ninh cho công ty, cửa hàng, ngân hàng đến từ công tyKBVISION (xem Hình 2.1) có một số tính năng chính: Nhận diện khách hang VIP,báo động người trong danh sách đen, thống kê số lượng người ra vào
Hình 2.1: Giải pháp nhận diện khuôn mặt của KB Vision*
4 Ảnh được tham khảo từ kbvision.vn.
10
Trang 23Đây là một hệ thống hoàn chỉnh với các thiết bị đầu cuối, trong đó:
e Phần cứng: Camera giám sát, bộ chuyên mạch, đầu thu nhận diện khuôn mặt,
máy chủ quản lý và thiết bị di động
e Phần mềm: Ung dụng quản lý trên máy tính và ứng dụng cảnh báo trên thiết
bị di động.
e Uudiém: Hệ thong hoàn chỉnh, chức nang phat hiện, nhận diện và thống kê
được thực hiện ngay trên đầu thu xử lý; ứng dụng theo dõi cho phép kiểm
tra camera và nhận cảnh báo từ xa.
e Nhược điểm: Cần triển khai đồng bộ các thiết bị đầu cuối mà KBVISION
yêu cầu, quy trình cài đặt và cấu hình mạng của thiết bị phức tạp, tốn nhiềuthời gian khi triển giám sát cho nhiều cửa hàng trong cùng một hệ thống
Bên cạnh đó, KBVISION cho phép khách hàng lựa chọn chất lượng cameragiám sát và năng lực đầu thu xử lý phù hợp cho mục đích giám sát tại những địađiểm có không gian rộng: Siêu thị, trường học, bãi giữ xe
Nhìn chung, ứng dụng phù hợp đề lắp đặt tại những địa điểm riêng lẻ, đòi hỏilưu trữ và xử lý tại địa điểm giám sát Tuy nhiên, sản phẩm này chưa đáp ứng yêucầu giám sát tại các cửa hàng tiện lợi do phụ thuộc vào thiết bị đầu cuối, quy trình
lắp đặt, cầu hình phức tạp, khó triển khai đồng bộ cho các cửa hang trong hệ thống
2.1.2 Camera giám sát Yi— Xiaomi
Yi Camera là dòng sản phẩm camera giám sát không dây, gồm nhiều thiết bị được
phát triển bởi Xiaomi cho nhu cầu giám sát trong hộ gia đình, cửa hàng và ngoài
trời (xem Hình 2.2) Sản pham có thiết kế nhỏ gọn, tích hợp tính năng phát hiệnchuyền động và phát hiện âm thanh Với quy trình cài đặt và sử dụng dễ dàng thôngqua qua ứng dụng Mihome, Yi Camera được nhiều người lựa chọn cho giám sát,
dam bảo an ninh Các đặc điêm của Yi Camera:
e Phân cứng: Camera giám sát, thiệt bị có màn hình dé theo dõi.
e Phần mềm: Ung dụng Mihome quản lý camera, cho phép theo dõi và nhận
cảnh báo từ xa.
lãi
Trang 24e Ưu điểm: Thiết kế nhỏ gon, cai đặt dé dàng qua ứng dụng; tích hợp chức
năng phát hiện chuyển động, phát hiện âm thanh, cảnh báo online.
e Nhược điểm: Cần thiết bị có màn hình dé theo dõi, chưa được trang bị tính
2.1.3 Muc tiêu giám sát cửa hang
Hình 2.3 mô tả mục tiêu giám sát của hệ thống quan lý cửa hàng tiện Dé việc quan
lý các cửa hàng một cách an toàn, hệ thống giám sát cần nhanh chóng nhận diện các
đối tượng tình nghi ngay khi đối tượng này bước vào cửa hàng và cảnh báo đề nhân
viên tập trung theo dõi các đối tượng này Bên cạnh đó, hệ thống cũng cần thông
Ảnh được tham khảo từ www.smartworld.it.
12
Trang 25báo sự có mặt của khách hàng thân thiệt dé nâng cao trải nghiệm mua sam, hướng đên sự thoải mái của nhóm khách hàng này.
Tuy nhiên, việc phân loại đối tượng khách hàng chỉ là một bước trong quá trình
quản lý và đảm bảo an toàn cho cửa hàng Hệ thống giám sát cũng cần phát hiện vàcảnh báo các vi phạm: Trộm, cướp, tan công nhân viên Trong khi quá trình phân
loại khách hàng chỉ xác định được những đối tượng mà danh tính của họ đã ton tại
trong cơ sở dữ liệu Điều này khiến việc bỏ qua những đối tượng không có trong cơ
sở dit liệu là điều có thể xảy ra Dé bồ sung cho khoảng trống này, trong phạm vi
dé tài khóa luận, tôi cũng tiến hành khảo sát và đánh giá phương pháp phát hiện batthường cho bài toán phát hiện các hành vi cần cảnh báo
cần cảnh báo
Hình 2.3: Hệ thông giám sát cửa hàng tiện lợi”
Cuôi cùng, đê có thê triên khai cho nhiêu cửa hàng trong hệ thông, sản phâm
can có giao diện dé sử dụng, không cân kết nói với nhiều thiết bị đầu cuối.
Trong phân còn lại của chương, tôi sẽ trình bày các công trình liên quan và các
kiến thức nền tảng cho từng tính năng trong hệ thống
5 Ảnh được tác giả thực hiện với các thành phần tổng hợp từ Internet.
13
Trang 262.2 Nhận dạng khuôn mặt
Nhận dạng khuôn mặt là bai toán xác định danh tinh của một hoặc nhiêu người thông qua khuôn mặt của người đó Đâu vào của bài toán có thê là hình ảnh hoặc video, đâu
ra là vi trí khuôn mặt và danh tính (nêu có) của người xuât hiện trong dữ liệu dau vào
(minh họa trong Hình 2.4).
Bộ nhận dạng khuôn mặt
Đầu vào Đầu ra
Hình 2.4: Mô tả bài toán nhận dạng khuôn mặt”
Nhận dạng khuôn mặt có hai 2 toán con tương ứng với 2 module:
e Phát hiện khuôn mặt - Bộ phát hiện khuôn mặt.
e_ diện danh tính khuôn mặt - Bộ nhận diện danh tính.
Độ chính xác của chương trình phụ thuộc vào độ chính xác của từng module trong
hệ thống
2.2.1 Phat hiện khuôn mặt
Là quá trình xác định liệu trong khung ảnh đầu vào có chứa khuôn mặt hay không
và trả về vị trí của khuôn mặt trong ảnh nếu có (minh họa trong Hình 2.5) Phát hiệnkhuôn mặt có thé mô tả theo:
e Đầu vào: Một khung ảnh có một hay nhiều khuôn mặt hoặc không chứa
khuôn mặt nào.
e Đâura: VỊ trí của các khuôn mặt (nêu có) trong hình.
7 Ảnh được tác giả thực hiện với các thành phần tổng hợp từ Internet.
14
Trang 27Đầu vào Đầu ra
Hình 2.5: Mô tả bài toán phát hiện khuôn mat®
Sự phát triển của các kỹ thuật học sâu cũng gắn liền với sự cải tiến của các
phương pháp phát hiện khuôn mặt Trong khóa luận này, với mục tiêu thực hiện
quá trình thu nhận hình ảnh và xử lý cục bộ trên thiết bị di động, tôi tiễn hành khảo
sat các phương pháp pháp hiện khuôn mặt cho ứng dụng di động.
Microsoft Azure Face Detection: Được phát triển bởi Microsoft và triển khai
trên nền tảng đám mây Azure, tính năng phát hiện khuôn mặt của hãng có một số
ưu điêm:
e Quá trình phát hiện được thực hiện thông qua API.
© Có thé phát hiện khuôn mặt có kích thước tối thiểu 36x36 pixel và tối đa
1920x1080 pixel Có dung lượng từ IKB đến 6MB Xác định 27 điểm đặc
trưng có trên khuôn mặt.
© Có thé phát hiện tối đa 100 khuôn mặt và tối đa 10 giao dịch/giây
Nhược điểm lớn nhất của giải pháp này là chi phí 1$ cho 1000 ngàn giao dịch
KAIROS: Dịch vu phát hiện và nhận dạng khuôn mặt của KAIROS, được triểnkhai trên nền tang AWS - Amazon Web Services Tính năng phát hiện và nhận dạng
khuôn mặt của hãng có một sô đặc diém:
e Sử dụng dịch vụ thông qua API.
e Hỗ trợ phát hiện, xác thực và nhận dạng khuôn mặt.
e H6 trợ theo dõi (tracking) nhiều đối tượng trong video
e Hỗ trợ tối đa 500 giao dịch/phút
8 Ảnh được tác giả thực hiện với các thành phần tổng hợp từ Internet.
15
Trang 28Giống với Microsoft Azure, nhược điểm của giải pháp này là chi phí khi bên
cạnh chi phí cố định $249, KAIROS còn tính phí $0.002 trên mỗi giao dich
Google ML Kit: Công cụ hé trợ lập trình ứng dụng của Google Thông qua ML
Kit API, người lập trình có thể sử dụng các mô hình máy học đã được Google tíchhợp sẵn trên hệ điều hành Android vào ứng dụng của mình Với các thiết bị có hệđiều hành khác, ML Kit cũng cho phép người lập trình sử dụng các mô hình tự xâydựng dé tích hợp vào trong ứng dụng thông qua TensorFlow-Lite Một số đặc điểm
trong tính năng phát hiện khuôn mặt khi được sử dụng thông qua ML Kit:
e_ Quá trình xử lý được thực hiện nhanh chóng, ngay trên thiết bị, thông qua
API.
e Hỗ trợ xác định tối đa 133 điểm của đường contour
e H6 trợ theo dõi những người xuất hiện trong ảnh trong một khoảng thời gian
Do được xử lý trên thiết bị, quá trình phát hiện khuôn mặt không tốn nhiều chỉ
phí như những giải pháp khác Bên cạnh đó, khi áp dụng các phương pháp lọc và
giới hạn khuôn mặt, số lượng khuôn mặt cần phải nhận dạng trong mỗi khung hìnhcũng giảm, điều này giúp giảm khối lượng công việc cho bộ nhận diện danh tính
2.2.2 Nhận diện danh tính
Là quá trình xác định danh tính của khuôn mặt đã được bộ phát hiện khuôn mặt xác
định trước đó (xem Hình 2.6) Nhận diện danh tính có thể mô tả theo:
Bộ nhận diện
Đầu vào Đầu ra
Hình 2.6: Mô tả bài toán nhận diện danh tính khuôn mặt?
° Ảnh được tác giả thực hiện với các thành phần tổng hợp từ Internet.
16
Trang 29e Đầu vào: Ảnh chỉ chứa khuôn mặt người.
e Đầu ra: Danh tính của người trong ảnh (nếu có)
Quá trình nhận dạng khuôn mặt từ hình ảnh được bộ phát hiện khuôn mặt xác
định được thực hiện thông qua API mà [1] cung cấp Việc sử dụng API cho mục
đích nhận dạng khuôn mặt tuy có một số nhược điểm:
e Phụ thuộc vào việc triển khai của mô hình nhận dạng khuôn mặt tại Server
e Phụ thuộc vào tốc độ và đường truyền Internet
e_ Tiêu tốn chi phi dé duy trì dịch vụ
Tuy nhiên, bên cạnh đó là các lợi ích:
© Có thé triển khai những mô hình nhận dạng khuôn mặt đang dẫn đầu về độ
chính xác.
e C6 thể triển khai cho nhiều thiết bị giám sát trong một thời gian ngăn Có thê
mở rộng tài nguyên để gia tăng quy mô của hệ thống nhận dạng
e _ Do cùng sử dụng một cơ sở dữ liệu, hồ sơ của thành viên mới có thể cập nhật
cho nhiều thiết bị khác trong hệ thống
e_ Quá trình gửi và nhận phản hồi từ [1] kéo dài trong khoảng từ 130-270 ms,
tùy vào dung lượng ảnh trong hồ sơ của người đó, tương đương với khả năng
thực hiện nhận dạng từ 4-7 khuôn mặt mỗi giây Cùng với đó, khi bộ phát
hiện khuôn mặt áp dụng các phương pháp lọc và giới hạn danh tính, số lượnglần request giảm, giúp tiết kiệm chi phí và giảm tải cho Server
Do đó, khi xét về hiệu quả sử dụng lâu dài, việc thực hiện quá trình nhận diện
thông qua API cũng gia tăng hiệu quả và giảm chi phí cho các cửa hàng.
2.3 Phát hiện hành vi nguy hai
Trong những năm gần đây, phát hiện bất thường trong video đã trở thành một hướng
nghiên cứu quan trọng và đạt được một số kết quả an tượng [12], [18] Phát hiện bất
thường là chủ đề nghiên cứu rộng và nhiều thách thức khi phải nhận diện được những
sai lệch so với những mau dữ liệu bình thường Cùng với đó, đây cũng là giải pháp
17
Trang 30được nghiên cứu cho đa dạng các lĩnh vực (xem Hình 2.8) như: Giám sát giao thông, chăm sóc sức khỏe, an ninh mạng, IoT
Bất thường (abnormalities) hay di thường (anomalies) có thé được liên hệ tới như
là những sai lệch, ngoại lệ trong thống kê và khai thác dữ liệu [2] Như minh họa
trong Hình 2.7, Ni và Na chứa phan lớn quan sát và do đó được coi là những vùng dữ
liệu bình thường Trong khi đó, những vùng O¡ và điểm dit liệu O2, O3 nằm xa nhữngvùng được coi là bình thường, do đó được coi là những điểm dữ liệu bất thường.Những di thường này thường truyền tải thông tin có giá trị về dit liệu dang xử lý Do
đó, phát hiện các dị thường là nhiệm vụ quan trọng của các hệ thống hỗ trợ ra quyết
Trang 31(b) Detecting Retinal Damage
SUL
(d) Internet Of Things (loT) Big-Data (c) Cyber-Network Intrusion detection Anomaly detection
Hình 2.8: Các ứng dụng của phát hiện bat thuong!!
Nhận thấy tiềm năng có thể áp dụng phát hiện bất thường trong ứng dụng giám
sát và đảm bảo an ninh, Sultani và các đồng sự [18] đã đề xuất phương pháp Deep
Multiple Instance Learning (MIL) (xem Hình 2.9) cho bài toán phát hiện bạo lực qua
camera giám sát Sử dụng phương pháp huấn luyện giám sát yếu (weak-supervised
learning) trên bộ dữ liệu được gán nhãn yếu, MIL đã đạt kết quả vượt những nghiên
cứu trước đó (AUC = 75.41) và có tỉ lệ báo động giả thấp (False alarm rate = 1.9)trên bộ dữ liệu mà nhóm tác giả đề xuất
Positive bag Instance scores in positive bag
Anomaly video Bag instance (video segment)
MIL Ranking Loss with sparsity and smoothness constraints
Hình 2.9: Phương pháp Deep Multiple Instance Learning!”
"I Ảnh được trích từ công bố [4].
12 Anh được trích từ công bô [18].
19
Trang 32Tuy đạt được kết quả ấn tượng, nhưng do kiến trúc mạng nơ-ron học sâu phức
tạp, nhóm tác giả không đánh giá hiệu năng của phương pháp Deep MIL Thông qua
một số quan sát, tôi nhận thấy rằng, phương pháp này có hiệu năng thấp khi tốn 130s
để xử ly đoạn video có độ dai 20s, độ phân giải 240x320, với GPU: Tesla P100 PCIe16GB Cùng với đó, do sử dụng kiến trúc ngoại tuyến với đầu vào là một đoạn video,hướng tiếp cận này không thích hợp khi triển khai phát hiện bat thường trên hệ thống
camera giám sát trực tuyên.
2.3.1. Các phương pháp phát hiện bắt thường
Do tính chất đa dạng của các kiểu dữ liệu, có thể phân loại các kỹ thuật phát hiện
bất thường theo: Ứng dụng, kiểu đị thường và kiến trúc mô hình Dựa trên kiến trúc
mô hình, Chalapathy và các đồng sự [4] đã phân các kỹ thuật phát hiện bất thường
thành 5 loại:
Hoàn toàn giám sát (Supervised deep anomaly detection): Các kỹ thuật
phát hiện bắt thường có giám sát cho hiệu suất vượt trội so với các kỹ thuật
không giám sát do kỹ thuật này sử dụng dữ liệu đã được gán nhãn [10].
Bán giám sát (Semi-supervised deep anomaly detection): Các kỹ thuật
phát hiện bất thường bán giám sát giả định răng tất cả ví dụ dùng cho huấnluyện chỉ có duy nhất một lớp gán nhãn - lớp dữ liệu bình thường Khi huấn
luyện, các kỹ thuật phát hiện bất thường sẽ học cách xác định một đường
biên quanh các ví dụ bình thường đã gan nhãn Khi đánh giá, những điểm dữliệu không nằm trong đường biên đã xác định thì sẽ được đánh dấu là bất
thường.
Lai (Hybrid deep anomaly detection): Là sự kết hợp các kỹ mô hình họcsâu cho mục đích trích xuất các đặc trưng có tính phân biệt với các phươngpháp học máy truyền thống
Mạng ron một lớp (One-class neural networks): Mô hình mạng
nơ-ron một lớp kết hợp các mô hình học sâu có khả năng trích xuất các đặc trưng
20
Trang 33thể hiện tính phong phú của đữ liệu theo các dạng ranh giới (siêu phẳng, siêucầu) đề tách biệt tất cả các điểm dữ liệu bình thường với các bất thường.
e Không giám sát (Unsupervised anomaly detection): Các phương pháp
phát hiện bất thường không giám sát tập trung vào mô tả tính chất và đặc
trưng của dữ liệu.
2.3.2 Phát hiện bất thường không giám sát
Trong quá trình giám sát thực tế, các sự kiện bất thường xảy ra với tần suất rất thấp.Điều này khiến việc thu thập một bộ dữ liệu thể hiện được sự đa dạng của các hành
vi bất thường là công việc khó khăn Trong khi đó, các video bình thường, khôngchứa hành vi nguy hại, có thể thu thập một cách dễ dàng hơn
Là phương pháp học có tính tong quát hóa trên các kiểu dit liệu đa dạng, phương
pháp phát hiện bất thường không giám sát được cho là có khả năng định nghĩa các
hành vi bất thường tốt [19] Hướng tiếp cận sử dụng bộ dữ liệu có tập huấn luyệngồm những video không chưa hành vi nguy hại Điều này giúp tiết kiệm chi phí choviệc thu thập và gan nhãn dữ liệu Tuy nhiên, diém yêu của học không giám sát này
là phương pháp dé phát sinh cảnh báo giả Điều này đòi hỏi giải pháp lọc nhiễu, hạn
chế số lượng báo động giả
2.3.3 Phát hiện bất thường lai
Giống với phương pháp học không giám sát, phương pháp phát hiện bat thường laithường sử dung dit liệu huấn luyện là những dữ liệu chứa các hành vi được gannhãn bình thường do tần suất phô biến của hành vi này lớn hơn rất nhiều so với tần
suất xuất hiện hành vì bất thường
Về kiến trúc mô hình, như minh họa trong Hình 2.10, phương pháp phát hiện
bất thường lai được phát triển trên cơ sở kết hợp các kỹ thuật học sâu và phương
pháp học máy truyền thống Thông qua mạng nơ-ron học sâu, các đặc trưng có tínhphân biệt được trích xuất và mã hóa dưới dạng vector nhiều chiều Các vector này
sau đó được bộ phát hiện bat thường (anomaly detector) sử dụng các thuật toán máy
21
Trang 34học truyền thống như Support Vector Machine (SVM) hay K-Nearest Neighbor
Sequence (eg Protein)
Hình 2.10: Minh họa phương pháp phát hiện bat thường lai !22.3.4 Phát hiện bất thường theo thời gian thực
Thách thức lớn nhất với các hệ thống giám sát tự động là nhanh chóng phát hiệncác sự có mat an toàn xảy ra, dé kịp thời có giải pháp ngăn chặn Tuy nhiên, đa phầncác nghiên cứu hiện nay đều tập trung vào cải thiện độ chính xác mà ít chú trọngđến việc đánh giá hiệu năng của phương pháp và khả năng triển khai áp dụng giám
sát trực tuyến.
Trong quá trình khảo sát các nghiên cứu cho bài toán phát hiện hành vi cần cảnh
báo của người mua hàng, tôi tìm hiểu nghiên cứu Online Anomaly Detection in
Surveillance Videos with Asymptotic Bounds on False Alarm Rate do tac gia Doshi
va đồng sự [8] đề xuất, được đăng trên tạp chí Pattern Recognition, tập 114, xuấtbản tháng 06/2021 Trong đó, nhóm tác giả công bố một kiến trúc mô hình theophương pháp phát hiện bất thường lai cho bài toán phát hiện bất thường trong dữ
liệu camera giám sát.
!3 Ảnh được trích từ công bé [4].
22
Trang 35Vệ tông quan, nhóm tác gia đã dé xuât:
e Phan mềm MONAD (xem Hình 2.11) sử dụng mô hình học sâu cho mục
đích trích xuất các đặc trưng và phương pháp máy học truyền thống để phânloại khung hình là bình thường hay bất thường.
e Phương pháp hạn chế tỷ lệ báo động giả
2.3.5 MONAD - Phần mềm phát hiện hành vi bat thường
Là một trong những giải pháp duy nhất cho bài toán phát hiện bat thường trực tuyến.Tuy nhiên, trong mã nguồn cung cấp, nhóm tác giả chỉ đánh giá phương pháp này
ngoại tuyến: Lần lượt trích xuất vật các vật thể và độ lỗi của toàn bộ khung hình rồi
mới thực hiện quá trình phân loại hành vi Tôi đã tiến hành chỉnh sửa và đánh giá
lại phương pháp này cho mục tiêu đánh giá phương pháp theo hình thức online trên
bộ dữ liệu UIT-ConStorexAbnormal và bộ dữ liệu UIT-ConStorexWildAbnormal.
Generator (U-Net)
Predicted: Ý
x
ae Center
a a ow y 4 3% 2 Sequential
iscriminator Brea ||} ——| Anomaly
(Real vs Fake) Detection
Hình 2.11: Kiến trúc phần mềm phát hiện hành vi bat thường - MONAD'
MONAD được xây dựng trên cơ sở của phương pháp phát hiện bất thường laigồm có 2 module chính:
4 Ảnh được trích từ công bố của [8].
23
Trang 36e Module neural: Sử dụng các mô hình học sâu trích xuất các đặc trưng có tính
phân biệt va mã hóa (encode) các đặc trưng thành thành 1 vector.
e Module statistical: Là một bộ phát hiện bat thường (anomaly detector), phân
loại trường dữ liệu trong vector thuộc nhóm bình thường hay bất thường,đồng thời kết hợp với một bộ lọc dé xác định kết quả trả về có sự kiện bat
thường hay không.
Sau đây, tôi sẽ lần lượt trình bày các thành phần có trong 2 module này
2.4 Module trích xuất đặc trưng - Neural
Module bao gồm mô hình mạng GAN dự đoán khung hình và bộ phát hiện vật thê
YOLOv3 cho mục đích trích xuất các đặc trưng có ý nghĩa Các đặc trưng này sau đó
được mã hóa vào một vector đặc trưng để từ đó module Statistical có thể phân loại
khung hình là bình thường hay bất thường
Generator
(U-Net)
Predicted: Ÿ;
Discriminator (Real vs Fake)
Hình 2.12: Module trích xuất đặc trưng - Neural!Š
15 Ảnh được trích từ công bố của [8].
24
Trang 372.5 Dự đoán khung hình
Phương pháp này dự đoán khung hình tương lai XƑ red sử dụng các khung hình trước
đó X›, X¿, ,X;¡ và so sánh nói với khung hình X; thực tế, từ đó tính toán sai số toàn
phương trung bình (Mean Square Error - MSE).
Là một công cụ đã thành công trong việc tạo ra những hình ảnh có nhiều điểmgiống với thực tế, GAN - Generative Adversarial Network, được sử dụng cho phươngpháp này với kỳ vọng có thể huấn luyện bộ tạo ảnh (Generator) phát sinh ra nhữngkhung ảnh thật và giống với khung hình cần dự đoán nhất có thê Tuy nhiên, việc dựđoán khung hình mới là công việc khó khăn khi bị ảnh hưởng bởi sự thay đổi độ sáng
và sự di chuyên của các đôi tượng trong hình.
Hình 2.13: Kiến trúc mạng dự đoán khung hình U-Net!®
Trong công bồ [14], Liu và các đồng sự đã đề xuất kiến trúc mạng U-Net (xemHình 2.13) với các ràng buộc về cường độ, sự khác biệt về hướng, dòng quang học
và huấn luyện đối kháng giúp mô hình Generator phát sinh ra những hình ảnh tốt vàgiống thật nhất
'6 Anh được trích từ công bố của [14].
25
Trang 38Hàm mat mát dùng dé huấn luyện Generator:
_ oe (2.1)
Yof Lot (X, X) + ad» hadu(X, X)
Trong đó, Vint, Yga> Yor: Yadv > 9 là trong số của các hàm mat mát thành phan
Ham mắt mát cường độ đo lường mắt mát giữa khung hình dự đoán XP"°° và
khung hình thực tế X, nhằm duy trì su thống nhất giữa các điểm anh, công thức của
Ham mat mát dòng quang học được sử dụng dé cải thiện sự liên kết về chuyển
động cho khung hình dự đoán theo công thức:
Log Sa, Xt41, Xt) = (Ren, Xi) — f(Xe41, Xt) | ‘ (2.4)
Trong đó f là một hàm có dạng giống với ham mat mát được huấn luyện từ mô hìnhFlownet, được sử dụng dé xác định dòng quang học
Ham mắt mát huấn luyện đối kháng, trong khi Generator được huấn luyện déphát sinh hình ảnh càng khó phân biệt càng tốt thì Discriminator được huấn luyện
sao cho khả năng phân biệt của nó chỉ tương đương lựa chọn ngẫu nhiên, theo hàm mat mát:
ES 1 =
Ladv(X) = 3” >Emse(D(Š:), 1) (2.5)
26
Trang 392.5.1 Phát hiện vật thé
Tuy nhiên, phương pháp dự đoán khung hình chỉ cho chúng ta biệt chuyển độngcủa các đối tượng trong khung hình mà bỏ qua yếu tố quan trọng là tính chất của
các đôi tượng này.
Ví dụ: Hành vi cầm dao khống chế nhân viên cửa hàng dưới góc độ chuyên động
có thé được phân loại vào nhóm ít bién động, tức bình thường Tuy nhiên, khi quansát thuộc tính, con dao là yếu tố giúp xác định đây là có thé một hành vi nguy hại
Nhiều phương pháp khác nhau đã được đề xuất cho bài toán phát hiện vật thẻ,tuy nhiên, YOLO [17] là phương pháp đã chứng minh hiệu quả có thể xử lý nhiềuFPS khi so sánh với những mô hình tiên tiến khác như SSD hay ResNet trong những
hệ thống thời gian thực
Khác với các phương pháp khác khi xây dựng bộ phân loại cho bài toán phát
hiện vật thé bằng việc xác định sự xuất hiện của vật thé tại các vị tri với nhiều tỉ lệkhác nhau, rồi sử dụng bộ phân loại lên các vùng được đề xuất để xác định đối
tượng và xác suất có trong vùng YOLO xem bài toán phát hiện vật thé như bài toán
quy hồi và sử dụng một hình phát hiện vật thé một tang, xem Hình 2 14
Hình 2.14: Mô hình phát hiện vật thé YOLO!”
So với các mô hình khác, YOLO vượt trội ở một sô điêm:
e Thời gian xử lý rất nhanh so với những mô hình khác YOLOv4 đạt 65 FPS
ở 40 AP so với 40 FPS của EficientDet là một SOTA vào thời điểm công bó
7 Ảnh được trích từ công bé của [17].
27
Trang 40e Do kiến trúc không sử dụng phương pháp cửa số trượt hay vùng đề xuất mà
nhìn lại toàn bộ kích thước ảnh nên YOLO nắm được những thông tin vềngữ cảnh của các vật thê trong ảnh
Tuy nhiên, YOLO cho kết quả không tốt khi vật thể có kích thước nhỏ
2.5.2 Mô hình YOLO phiên bản thứ 3 - YOLOv3
Vẫn giữ nguyên hướng tiếp cận so với 2 phiên bản trước,như mô tả trong Hình 2.15,YOLOv3 chia ảnh ra thành nhiều lưới, có kích thước SxS và dự đoán b hộp bao,ứng với mỗi hộp bao là giá trị thể hiện tọa độ, kích thước, điểm tự tin và lớp đốitượng thuộc về
y=(P,.b,.b,„b,.b,„„C)
Tuy nhiên, do có rất nhiều lưới và bao, và hầu hết các lưới và bao này khôngchứa vật thé bên trong nó, YOLO đã có một giá trị ngưỡng dé loại bỏ những hộp
bao có điểm số tự tin thấp
So với các phiên bản trước, YOLOv3 thay đổi cách tính hàm mat mát, với
backbone là Darknet - framework được xây dựng trên CUDA API và ngôn ngữ C
khiến nó phù hợp cho ứng dụng đòi hỏi sự khắt khe về thời gian So với nhữngphương pháp tiên tiễn khác, YOLOv3 cũng vượt trội về thời gian thực thi
18 Ảnh được lay từ: https:/www.kdnuggets.com/2018/09/object-detection-image-classification-yolo.html
28