Khóa luận tốt nghiệp Kỹ thuật máy tính: Phát triển ứng dụng di động hỗ trợ quản lý cửa hàng tiện lợi sử dụng công nghệ nhận dạng khuôn mặt và phát hiện hành vi bất thường

Với mục tiêu đánh giá tính khả thi và hiệu quả của việc áp dụng các nghiên cứu tiên tiến về nhận dạng khuôn mặt và phát hiện bất thường vào bài toán quản lý cửa hàng tiện lợi; và phát tr

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KY THUAT MAY TÍNH

LE TUAN ANH

KHOA LUAN TOT NGHIEP

PHAT TRIEN UNG DUNG DI DONG HO TRO QUAN LY CUA HANG TIEN LOI SU DUNG

CONG NGHE NHAN DANG KHUON MAT VA

PHAT HIEN HANH VI BAT THUONG

A CONVENIENCE STORE MANAGEMENT APP

USING FACIAL RECOGNITION AND ABNORMAL BEHAVIOR DETECTION

KY SƯ NGÀNH KY THUAT MAY TÍNH

TP HO CHÍ MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KY THUAT MAY TÍNH

LE TUẦN ANH - 17520237

KHOA LUAN TOT NGHIEP

PHAT TRIEN UNG DUNG DI DONG HO TRO

QUAN LY CUA HANG TIEN LOI SU DUNG

CONG NGHE NHAN DANG KHUON MAT VA

PHAT HIEN HANH VI BAT THUONG

A CONVENIENCE STORE MANAGEMENT APP

USING FACIAL RECOGNITION AND

ABNORMAL BEHAVIOR DETECTION

KỸ SƯ NGÀNH KỸ THUAT MAY TÍNH

GIẢNG VIÊN HƯỚNG DAN PGS.TS LÊ ĐÌNH DUY

TP HÒ CHÍ MINH, 2021

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số 466/QD-DHCNTT

ngay 23 tháng 07 năm 2021 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Trong hành trình khám tri thức suốt bốn năm qua tại Đại học Công nghệThông tin, em cảm thấy bản thân thật may mắn khi luôn nhận được sự ủng hộ, hỗ

trợ và động viên từ gia đình, thầy cô và bạn bè Và dẫu sau này em có là ai thì

những kỷ niệm với thầy cô và các bạn sẽ còn mãi trong tâm trí em

Đầu tiên, con xin gửi lời cảm ơn đến mẹ, người đã dưỡng dục, cho phépcon được lựa chon và theo đuôi những gi con cho là đúng Mẹ luôn là người tiếpsức, động viên con có gang theo đuổi chặng đường tri thức này

Tiếp theo, em xin gửi lời cảm ơn đến thầy Lê Đình Duy, người hướng dẫn

em thực hiện khóa luận Xuyên suốt khoảng thời gian làm việc, thầy đã dànhnhiều thời gian chỉ dạy, truyền đạt kiến thức, phương pháp học tập và những kinhnghiệm quý báu Thầy cũng là người chi dẫn, giúp gỡ rối, dé em có thé tự tìm

đường ra khỏi khu rừng.

Cùng với đó, em cũng gửi cảm ơn đến các thầy cô, anh chị và các bạn tạiB2DL Lab đã luôn tạo điều kiện về cơ sở vật chất và trang thiết bị, cho những lờikhuyên hữu ích và giúp em chuẩn bị tâm lý và tinh thần cho khóa luận này

Ngoài ra, mình cũng cảm ơn những người bạn đã ở bên, động viên mình

tiếp tục cố gắng trong những thời điểm khó khăn Cảm ơn các bạn đã tạm thời bỏqua sự riêng tư, tham gia hỗ trợ mình thu thập một phần bộ dữ liệu

Và cuối cùng, em xin gửi lời cảm ơn đến các thầy cô trong Khoa Kỹ thuậtMáy tính và các thầy cô giảng dạy tại Đại học Công nghệ Thông tin, những người

đã quan tâm chỉ dạy, định hướng cơ hội nghề nghiệp và trang bị cho em phương

pháp học tập chủ động Những lời chia sẻ, nhận xét và góp ý của các thầy cô làđộng lực giúp em cố gắng trong học tập và hoàn thành khóa luận này

Do giới hạn thời gian, kiến thức và khả năng của bản thân nên khóa luậnkhó tránh khỏi những thiếu sót và hạn chế Em rất mong sẽ tiếp tục nhận được

góp ý và nhận xét từ các thầy cô để khóa luận được hoàn thiện hơn

Lê Tuấn AnhThành phố Hồ Chí Minh, tháng 06 năm 2021.

Trang 5

1.5 Cấu trúc Khóa luận tốt nghiỆp - + + 2 SE+SE+E£2E££E££EeEEeEEeEkerkrrerreee 9Chuong 2 | CONG TRÌNH LIEN QUAN VÀ KIÊN THUC NEN TANG 10

2.1 Giải pháp quản lý - tt SH HH TH HH Hà Hưng nh nh 10

2.1.1 Hệ thống nhận diện khuôn mặt - KBVISIƠN 10

2.1.2 Camera giám sát Yi — XIAOTM1 - 5 «5 «+ se ret 11

2.1.3 Mục tiêu giám sát cửa Hang eee cecceececeseeeeeeeeeeeeeeeeeeeeseeceeeesaes 12 2.2 Nhận dạng khuôn mặyt - - <1 1E 91199111 1 911 ng Hệ, 14

2.2.1 Phát hiện khuôn mmặt - - 5 5 + E211 E9 kg ng ren 14

2.2.2 Nhận diện danh tính - - 5 5 2+ x1 ghi rưy 16

2.3 Phát hiện hành vi nguy hại c5 5c 2E *E*EEEEEEEErrrrkeskrrkrekrei 17

2.3.1 Các phương pháp phát hiện bat thường - 2 2- 2 s+cszc5e2 20

2.3.2 Phát hiện bất thường không giám sát -¿¿©s+c++cx++se2 212.3.3 Phát hiện bat thường lai cecceececcscessesseessessessesseessessessessesssessesseeses 212.3.4 Phát hiện bat thường theo thời gian thực -s-csecsss2 222.3.5 MONAD - Phần mềm phát hiện hành vi bất thường 23

Trang 6

2.4 Module trích xuất đặc trưng - Neural -:©2+z++22vvvreccvsrresrr 24

2.5 Dự đoán khung hình

2.5.1 _ Phát hiện vat thể cccccistrrrrirrirrrrrirrrrii 27

2.5.2 Mô hình YOLO phiên ban thứ 3 - YOLOv3.

2.5.3 Mô hình YOLO phiên bản thứ 4 - YOLOv4 - - 29

2.5.4 _ Vector đặc trưng

2.6 Module phân loại hành vi - Statistical eee eee SL

Chuong3 | XAY DỰNG BO DU LIEU ĐÁNH GIÁ

3.1 Bộ dữ liệu UIT-ConStorexFaces ccceccesseeeseseeseseeseseesesscseeeeeeseseesseesaee 34

3.1.1 Xác định ngữ cảnh thu thập và chuẩn bị tài liệu hướng dẫn 36

3.1.2 Thu thập các các video và hình ảnh từ điện thoại di động 38

3.1.3 Chọn lọc và xử lý video đã thu thập ¿- - c+c+x+xseerxr+ 39 3.1.4 Phân loại và gan nhãn vVideo - ¿+ +5 sxsxcxervrerereeeerkrkree 41

3.1.5 Tổng hợp và tổ chức dữ liệu cho yêu cầu đánh giá - 46 3.1.6 Ưu điểm và hạn chế của bộ dit liệu -crrrrrrrrrrrrrrrre 48

3.2 Bộ dữ liệu UTT-ConStorexAbnormal ¿ss+ssss+ss+vxeeeexeesereezessese 49 3.2.1 Lên kịch bản và cài đặt Vi tÍ - + St St Sxkeesekkerereeee 50

3.2.2 Mô phỏng và ghi hình - 5:52 5+5+5++ccxcsezsxexsrerre 5“

Trang 7

3.3.3 Gán nhãn vIdeo - - - - << << << k k k1 E11 SE SE SE SE SE SE E955 111k kkkkkkkkEk 61

3.3.4 Tổng hợp và tổ chức dữ liệu ¿¿©++++cx2zxvzxesrxesrxee 62

Chương 4 PHƯƠNG PHÁP VA KET QUÁ DANH GIÁ -5- 66

"› 5 66

4.1.1 Precision-RecalÌ + << s11 11 1222311111119 1 1 11g 1 1 kg vn 66

4.2 Đánh giá phương pháp nhận diện khuôn mặt - 5 +55<+s>++ 67

4.3 Đánh giá phương pháp phát hiện hành vi bất thường . 73

4.3.1 Đánh giá trên bộ dữ liệu UTT-ConStorexAbnormal 73

4.3.2 Đánh giá trên bộ dữ liệu UTT-ConStorexWildAbnormal 75

4.4 Kết luận phương pháp ¿+ ++SE2cc2EE+EEEEECEEEEEEEEEEEErkrrkerkerkrres 79

Chương 5 ỨNG DỤNG QUẢN LÝ CUA HÀNG TIEN LỢI 81

5.1 Tại sao lại là ứng dụng di động? - - c5 - 351k vs sirrerrireerree 81

5.2 Ứng dụng quan lý cửa hàng tiện 10i sc ceceeccessesseeseessesseeseessessessessesseeseesees 84

5.3 Tính năng nhận dạng khuôn mat - 5 + + + £++EE+seEeeesereersee 85

5.4 Tính năng phát hiện hành vi bat thường - ¿2 2 + s£+z+£e+£xzszez 89

5.5 Dashboard quản Ìý - c1 1v 1 HH TH HH ng rry 92

Chương 6 KÉT LUẬN VÀ HƯỚNG PHAT TRIEN . - 93

6.1 Kết luận 22-©2< 2E22EE22EE21127112712112112711211 211111 .1ree 93

6.2 Hướng phát triỀn -:- 2 2+ ++EE+E£EE£EEEEEEEEEEEEEE2E12112112171 211111, 96TÀI LIEU THAM KHẢO ¿St St+EEEE‡EEEEEEEEEEEESEEEESEEEEEEEEEEEEEEEEkrrerkerrrkrrr 97

Trang 8

DANH MỤC HÌNH

Hình 1.1: Minh họa ứng dụng đề xuất + E+EE+EE+E££EEEEEeEEeEkerkrrxrrrree 5

Hình 2.1: Giải pháp nhận diện khuôn mặt của KBVision 52-5525 <<<<+ 10 Hình 2.2: Camera giám sát Yi Home - X1aOTmI - - «6 + + xe sveeserserserske 12

Hình 2.3: Hệ thống giám sát cửa hàng tiện lợi -¿ 2 x+x+zxzxezzxerxres 13

Hình 2.4: Mô tả bài toán nhận dạng khuôn mặt -. - «+ +5 ««+++<++se+ssxes 14

Hình 2.5: Mô tả bài toán phát hiện khuôn mặt - + +2 *+++ve++sesseers 15

Hình 2.6: Mô tả bài toán nhận diện danh tính khuôn mặt - << 16

Hình 2.7: Minh họa các vùng dữ liệu bất thường và bình thường -.- 18Hình 2.8: Các ứng dụng của phát hiện bat thường -¿-2- 5¿c+z+zxzz+sc+z 19

Hình 2.9: Phương pháp Deep Multiple Instance Learning - «+s«2 19

Hình 2.10: Minh họa phương pháp phát hiện bat thường lai - 22Hình 2.11: Kiến trúc phần mềm phát hiện hành vi bất thường - MONAD 23

Hình 2.12: Module trích xuất đặc trưng - Neural - 2 2 2+s2+s+x+zx+zs+zszse2 24

Hình 2.13: Kiến trúc mang dự đoán khung hình U-Net . ¿5 52 s52 s2 25Hình 2.14: Mô hình phát hiện vật thể YOLO -2 2- ©2222 £+++£E£+£++zxerxzsz 27Hình 2.15: Minh họa kết qua dự đoán của 1 hộp bao -¿-c5¿©sz5s++cs2 28

Hình 2.16: So sánh YOLOv3 và các phương pháp khác trên tập dữ liệu COCO 29

Hình 2.17: So sánh YOLOv4 và các phương pháp khác trên tập dữ liệu COCO 29

Hình 2.18: Module phân loại hành vi - Statistical «5+ <+++se+sseesssers 31

Hình 3.1: Một số hình anh trong bộ dữ liệu UIT-ConStorexFaces - 35

Hình 3.2: Minh họa quá trình cai đặt CaIme€ra - 5 3 SE ke serree 37

Hình 3.3: Minh họa các video thuộc ngữ cảnh khó trong tập Surveillance 38

Hình 3.4: Minh họa các địa điểm thu thập dữ liệu . 25c cSSSsssessseresee 39

Hình 3.5: Minh họa tỉ lệ và kích thước khung hình của video thu thập 40

Hình 3.6: Minh họa 8 điểm tin cậy -¿- ¿5© SE‡EEEEE2EE2EEEEEEEEEEEEEkrrkrrkrree 44Hình 3.7: Minh họa những hình ảnh khó xác định điểm tự tỉn -: cscssce¿ 45Hình 3.8: Minh họa kết quả gán nhãn của tập Surveillance-Medium-[ 45Hình 3.9: Kết quả tổng hợp bộ dữ liệu UIT-ConStorexFaces - 46

Trang 9

Hình 3.10: Kết quả tổng hợp bộ dữ liệu UIT-ConStorexFaces . 47

Hình 3.11: Hình thức tô chức video của UIT-ConStorexFaces - 5 47 Hình 3.12: Minh hoa cách thức bài trí mặt hàng - 5 « «+ x+++ve+sseesssees 51 Hình 3.13: Minh họa hành vi bình thường của người mua hàng - - 51

Hình 3.14: Minh họa hành vi trộm cắp hàng hóa của người mua hàng 52

Hình 3.15: Minh họa khung hình sử dụng dụng cụ hỗ trợ và thông thường 53

Hình 3.16: Hình thức tô chức dữ liệu của UIT-ConStorexAbnormal 55

Hình 3.17: Minh hoa video đã bị thao tác chỉnh sửa, thêm hiệu tng 58

Hình 3.18: Minh hoạ sự kiện diễn ra bên trong cửa hàng tiện lợi 59

Hình 3.19: Minh họa sự kiện diễn ra ở địa điểm kinh doanh khác - 60

Hình 3.20: Thống kê số FPS của các video trong cửa hàng tiện lợi - 60

Hình 3.21: Thống kê số FPS của các video được quay ở điểm kinh doanh khic 61

Hình 3.22: Thống kê số lượng video của bộ UIT-ConStorex WildAbnormal 63

Hình 3.23: Minh họa hình thức tổ chức video của UIT-ConStorexWildAbnormal 64 Hình 4.1: Phương pháp tính toán số lượng shot -2- 2 + s25+22++zxzzxezsz 67 Hình 4.2: Lay mẫu 3 FPS occcccccccsesscssssscssecscssessessessesscsecsessessessesacsscsucsecsessessessessesneaes 68 Hình 4.3: Minh hoa ma trận nhầm lẫn c.ccecccsscsescssesessscsesecscscceceesesecevsveecessveveeeers 69 Hình 4.4: Minh họa kết quả đánh giá tình huống trong tập CheckIn-Easy 70

Hình 4.5: Minh họa kết quả đánh giá tình huống trong tập CheckIn-Medium 70

Hình 4.6: Minh họa kết quả đánh giá tình huống trong tập Surveillance-Easy 71

Hình 4.7: Minh hoa kết quả đánh giá tình huống trong tap Surveillance-Medium 71

Hình 4.8: Minh họa kết quả đánh giá tình huống trong tập Surveillance-Hard 72

Hình 4.9: Minh họa các video có góc quay giống nhau 2 22 s52 76 Hình 4.10: Minh họa tình huống bat thường của UCSD Ped 2 - 78

Hình 5.1: Công cụ và tinh năng trên thiết bị di động -¿ 5¿©sz©5+ec++ 32 Hình 5.2: Mục tiêu giám sát cửa hàng tiện lỢI - - 5c + c*sskEseesersersee 83 Hình 5.3: Mô hình ứng dụng quan lý cửa hàng tiện lợi - «<< -s«++<<«++ 84 Hình 5.4: Tinh nang của ứng dụng quản lý cửa hang tiện lợi - 85

Hình 5.5: Minh họa tính năng thêm và cập nhật TG SO 525cc SvcEvEvEekrrerrree 85

Trang 10

Hình 5.6: Tính năng nhận diện khuôn mặt - - 5 32+ S+*£++E+sereereereeerre 86

Hình 5.7: Thử nghiệm tinh năng khi nhiều đối tượng di chuyền qua 87Hình 5.8: Tinh năng nhận diện sai khi điều kiện ánh sáng thay đồi 88Hình 5.9: Tính năng nhận diện sai trong điều kiện ánh sáng -. - 88

Hình 5.10: Tính năng nhận diện đúng trong điều ngược sáng -s¿ 88

Hình 5.11: Tính năng nhận diện sai trong ngữ cảnh khó 5-5555 s<+<<ss+ 89

Hình 5.12: Sơ đồ tính năng phát hiện hành vi bat thường -: -5- 90Hình 5.13: Minh họa tính năng phát hiện hành vi bất thường - - 91

Hình 5.14: Lich sử giám sát hiển thị trên dashboard -¿¿©2s+cxzxz>s+ 92

Trang 11

DANH MUC BANG

Điều kiện phân loại video theo độ khó của tập Surveillance 42Điều kiện phân loại video theo độ khó cho tập Checkln 43Thống kê số lượng video sau khi phân loại . ¿ ¿ 5+2 54

So sánh các bộ dữ liệu cho bai toán phát hiện hành vi bất thường 63

Ma trận nhằm lẫn -: 2:©++222+++2E2YYEEEEvttEEktrtttrrrrrtrrrrrrrrrrrre 66Kết quả đánh giá phương pháp nhận diện khuôn mặt 69Kết quả đánh MONAD trên bộ dữ liệu UIT-ConStorexAbnormal 74

So sánh bộ dữ liệu UIT-ConStorexAbnormal và UCSD Ped 2 74

Kết quả đánh MONAD trên bộ dữ liệu UTT-ConStorexWildAbnormal 77

So sánh bộ dữ liệu UIT-ConStorex WildAbnormal va UCSD Ped 2 78

Trang 12

DANH MỤC TỪ VIET TAT

Viết tắt Viết đầy đủ

AU-ROC Area Under-the ROC Curve

FPS Frames Per Second

GAN Generative Adversarial Network

KNN K-Nearest Neighbor

MIL Multiple Instance Learning

MSE Mean Square Error

ROC Receiver Operating Characteristic SOTA State Of The Art

SVM Support Vector Machine

YOLO You Only Look Once

Trang 13

TÓM TẮT KHÓA LUẬN

Sử dụng camera an ninh trong cửa hàng tiện lợi là nhu cầu thiết thực Tuy nhiên,việc ton tại lỗ hồng trong quản lý khi phụ thuộc vào khả năng tập trung của ngườigiám sát cộng với sự thiếu vắng của nhân viên bảo vệ và hệ thống báo động đã biếncác cửa hàng này trở thành mục tiêu của những đối tượng phạm tội, đặc biệt là tội

phạm trộm cướp.

Trong khi đó, việc cải tiến các kỹ thuật học sâu trong những năm gần đã thúc đâycác nghiên cứu về nhận dạng khuôn mặt và phát hiện bất thường trưởng thành(Arcface [6], MONAD [8] và MIL Ranking [18]) Điều này tạo tiền dé việc áp dụng

các phương pháp này vào bài toán giám sát thực tế trở nên hiệu quả hơn

Với mục tiêu đánh giá tính khả thi và hiệu quả của việc áp dụng các nghiên cứu

tiên tiến về nhận dạng khuôn mặt và phát hiện bất thường vào bài toán quản lý cửa

hàng tiện lợi; và phát triển ứng dụng, tôi đã thực hiện những công việc sau, cũng là

những đóng góp chính trong khóa luận:

e Phát triển Ứng dung quản lý cửa hàng tiện lợi gồm một ứng dụng di động hoạt

động trên hệ điều hành Android, được tính hợp tính năng nhận dạng khuônmặt và tính năng phát hiện hành vi cần cảnh báo; ứng dụng có giao diện dễ sửdụng, giúp việc triển khai giám sát nhanh chóng mà không cần lắp đặt thêmđầu thu, màn hình, Ethernet và không cần triển khai thêm camera giám sát; vàmột Dashboard cập nhật và hién thị lich sử giám sát

“ Link cài đặt ứng dụng: https://tinyurl.com/taConStore (link gốc)

= Link truy cập Dashboard: http://aiclub.uit.edu.vn/gpu/kltn_anhlt/web/

= Mã nguồn của ứng dụng: https://github.com/mausLe/face-detection

= Mã nguôn của Dashboard: https://github.com/mausLe/My-Dashboard

= Video demo về ứng dụng: https://youtu.be/wWdUGKihG7Y

Trang 14

e Xây dựng bộ dữ liệu về khuôn mat UIT-ConStorexFaces gồm 13 danh tinh và

78 video phục vụ yêu cầu đánh giá khả năng xác thực và giám sát; bộ dữ liệuUIT-ConStorexAbnormal gồm 113 video mô phỏng lại các hoạt động bìnhthường: Đi ngang qua, lựa và chọn mua và các hành vi trộm cắp hàng hóa: Lay

đồ bỏ vào balo, túi áo quần, túi vải và các video được ghi ở góc nhìn bị khuất;

và bộ dữ liệu UIT-ConSotexWildAbnormal gồm 66 video ghi lại các hành vi

cần cảnh báo: Trộm, Cướp, tấn công nhân viên và bình thường tại các địa điểm:

Cửa hàng tiện lợi, ngân hàng và tiệm vàng tại Việt Nam.

“ Link tông hợp 3 bộ dit liệu: https://tinyurl.com/talDatasets (link gốc)

e Đánh giá kết quả của việc áp dụng các phương pháp tiên tiễn về nhận dang

khuôn mặt và phát hiện bat thường trên các bộ dữ liệu đã thu thập Kết quả khi

đánh giá:

= Phuong pháp nhận dạng khuôn mặt trên bộ dữ liệu UIT-ConStorexFace

cho kết quả trên tập CheckIn (Precision = 0.97, Recall = 0.97) vàgiảm dần theo độ khó của tập Surveillance (Precision = 0.63,Recall = 0.59), đồng thời khóa luận cũng chỉ ra các trường hợp màtính năng không nhận diện được đối tượng giám sát và đưa ra khuyến

nghị ngữ cảnh triển khai phù hợp.

“ Phương pháp phát hiện hành vi bất thường - MONAD [8] trên bộ dữ

liệu UIT-ConStorexAbnormal cho kết quả (Precision = 0.25,Recall = 0.82) cho thấy hiệu quả phân loại hành vi trộm thấp

= Phương pháp MONAD trên bộ dữ liệu UIT-ConStorex WildAbnormal

cho kết qua (Precision = 0.25, Recall = 0.26) do các yếu tô: Dia

điểm, góc quay và ngữ cảnh của UIT-ConStorexWildAbnormal phứctạp hơn bộ đữ liệu UCSD Ped 2 [13] mà MONAD cho kết quả cao nhất

Từ khóa: Convenience Store Management, Facial Recognition, Abnormal Behavior

Detection, MONAD, ConStorexFaces, ConStorexWildAbnormal, ConStorex Abnormal.

Trang 15

Minh, đã xảy ra hàng loạt vụ cướp các cửa hàng tiện lợi Đơn cử vào khuya ngày

21/01/2021, Công an quận Tân Bình thông báo đã bắt giữ một đối tượng gây ra liên

tiếp 3 vụ cướp cửa hàng tiện lợi Các hành vi này làm ảnh hướng đến tài sản, sức khỏecủa nhân viên cửa hàng đồng thời cũng gây hoang mang trong dư luận Vì vậy, cần

có hệ thống hỗ trợ cửa hàng phát hiện và báo động sự cố ảnh hưởng đến an ninh dé

kip thời có giải pháp ngăn chặn.

Ứng dụng những tiến bộ của các kỹ thuật học sâu trong thời gian qua, dé tài “Pháitriển ứng dụng di động hỗ trợ quản lý cửa hàng tiện lợi sử dung công nghệ nhận dạngkhuôn mặt và phát hiện hành vi bắt thường ” đặt mục tiêu thực nghiệm và đánh giákết quả của việc áp dụng các phương pháp tiên tiến về nhận dạng khuôn mặt trên bộ

dữ liệu UIT-ConStorexFaces và phương pháp phát hiện bất thường trực tuyến

MONAD [8] trên bộ dữ liệu ConStorexAbnormal và bộ dữ liệu ConStorex WildAbnormal cho bài toán quan lý cửa hàng tiện lợi.

UIT-Cùng với đó, với mục tiêu thay thé camera giám sát quản lý cửa hàng tiện lợi,khóa luận cũng đề xuất xây dựng một ứng dụng đi động hoạt động trên hệ điều hành

Android, được tích hợp tính năng nhận tính năng nhận diện người trong danh sách

theo dõi và phát hiện hành vi cần cảnh báo của người mua hàng: ứng dụng có giaodiện dễ sử dụng, có thê nhanh chóng triển khai và không cần lắp đặt thêm cameragiám sát; và một Dashboard giúp cập nhật và hién thị lịch sử giám sát

Trong phan tiếp theo, tôi sẽ trình bày về các khó khăn, thách thức và giải pháp đềxuất cho ứng dụng quản lý cửa hàng tiện lợi

Trang 16

Chương 1 TONG QUAN ĐÈ TÀI

Trong chương này, tôi giới thiệu tổng quan về thực trạng quản lý cửa hàng tiện lợi,thách thức và giải pháp dé xuất cho bài toán này Đông thời, tôi cũng trình bày vềmục tiêu, phạm vì thực hiện và những đóng góp của dé tài trong khóa luận này

1.1 Giới thiệu bài toán

Mỗi năm, ngành bán lẻ toàn cầu thiệt hại hàng tỷ Đô la do thất thoát sản phẩm, hàng

hóa có nguyên nhân từ các hành vi trộm cướp [15] Việc sử dung camera an ninh

trong giám sát là nhu cầu thiết thực và được kỳ vọng sẽ giảm thiểu các thiệt hại này.Tại Việt Nam, quá trình giám sát hiện chủ yếu vẫn dựa vào sức người Với đặc thù là

số lượng cửa hàng tại mỗi hệ thống lên đến hàng trăm khiến việc giám sát từng địađiểm bộc lộ một số thách thức và hạn chế:

e Không có nhân viên bảo vệ hoặc chỉ hoạt động vào ban ngày.

e Camera không có khả bao quát do hình thức bài trí kệ đặc trưng.

e Nhân viên giám sát không có khả năng xử lý nhiều video hay tập trung quan

sát nhiều màn hình camera cùng lúc

e Khó duy trì hiệu suất giám sát trong thời gian dài (không quá 20 phút) [11]

e Chưa được trang bị hệ thông cảnh báo, báo động khi xảy ra sự cố mat an toàn

Từ đó cho cho thay công tác quản lý, đảm bảo an ninh tại các cửa hàng tiện lợivẫn còn nhiều lỗ hồng, chức năng giám sát chưa hoạt động hiệu quả khi chủ yếu dùng

dé lưu trữ và trích xuất lại hình ảnh khi sự cố đã xảy ra Vì vậy, cần có hệ thống hỗtrợ cửa hàng nhận diện các đối tượng trong danh sách quản lý và phát hiện hành vi

cân cảnh báo của người mua hàng.

1.2 Giải pháp đề xuất

Trong khuôn khô đề tài khóa luận này, tôi đề xuất xây dựng một ứng dụng quản lýcửa hàng tiện lợi (xem Hình 1.1) Ứng dụng giúp chuyền đổi mục dich sử dụng thiết

bị di động thay thay thế camera giám sát, nhận diện các đối tượng trong danh theo

dõi và cảnh báo hành vi vi phạm của người mua hang; có giao diện dé sử dụng, không

Trang 17

yêu cầu lắp đặt đầu thu, màn hình, Ethernet và không cần triển khai thêm camera

Đối tượng: 23 Bình thường

Hình 1.1: Minh hoa ứng dụng đề xuất!

Bên cạnh đó, với mục tiêu đánh giá tính khả thi và hiệu quả của việc áp dụng công

nghệ học sâu cho bài toán quản lý cửa hàng tiện lợi, tôi cũng đề xuất xây dựng bộ dữ

liệu UIT-ConStorexFaces cho việc đánh giá độ chính xác của phương pháp nhận dạng

khuôn mặt, bộ dữ liệu UIT-ConStorexAbnormal mô phỏng lại các hành vi bình

thường và trộm và bộ dữ liệu UIT-ConStorex WildAbnormal gồm các các hành vi:Trộm, cướp, tan công nhân viên tại các dia điểm: Cửa hàng tiện lợi, ngân hàng, tiệmvàng tại Việt Nam; cho việc đánh giá phương pháp phát hiện bất thường vào bài toán

phát hiện hành vi cân cảnh báo” của người mua hàng.

! Ảnh được tác giả thực hiện với các thành phan tông hợp từ Internet.

2 Trên thực tế, các hành vi cần cảnh báo trong cửa hàng tiện lợi rất da dạng: Tan công nhân viên, đánh lộn,

phá hoại tài sản, cướp Và khó phân biệt: Trộm cắp, quấy rối Khóa luận tập trung vào các hành vi: Trộm,

cướp, tan công nhân viên; là những hành vi ảnh hưởng tài sản, sức khỏe và gây hoang mang luận.

Trang 18

1.3 Thách thức, mục tiêu và phạm vi

1.3.1 Thách thức

Trong quá trình nghiên cứu, hoàn thiện đề tài, tôi gặp phải một số thách thức sau:

Chưa có nhiều bộ dit liệu thé hiện ngữ cảnh phạm tội trong cửa hàng Trong

các bộ dữ liệu mô tả hành vi phạm tội, UCF-Crime [18] là bộ dữ liệu lớn hơn

cả với 1900 video thé hiện 13 hành vi phạm tội được thu thập từ trên Internet

Tuy nhiên, hạn chế của bộ dữ liệu này là chỉ được gán nhãn theo hình thứcgiám sát yêu, ngữ cảnh đa dang mà không tập trung vào lĩnh vực bán lẻ vàkhông thê hiện được bối cảnh đặc trưng ở Việt Nam

Trong bối cảnh đại dịch COVID-19 diễn biến phức tạp và quy định đeo khẩu

trang ở nơi công cộng đã tạo ra thách thức với các hệ thống nhận dạng khuôn

mặt Vì vậy đề tài cũng đánh giá phương pháp phát hiện bất thường vào bàitoán phát hiện hành vi vi phạm của người mua hàng, bé trợ cho phương pháp

nhận dạng khuôn mặt.

Các quy định giãn cách xã hội cũng ảnh hưởng đến quá trình thu thập, xâydựng bộ dữ liệu và đánh giá của khóa luận Tôi đã lựa chọn giải pháp thế là

thu thập bộ dữ liệu UIT-ConStorexFaces cho mục tiêu đánh giá độ chính xác

của phương pháp nhận dạng khuôn mặt và bộ dữ liệu ConStorex Abnormal và ConStorex WildAbnormal cho mục tiêu hiện thực và

UII-đánh giá phương pháp phát hiện hành vi cần cảnh báo của người mua hàng

Các hành vi vi phạm trong cửa hàng tiện lợi rat đa dang: Tan công nhân viên,

đánh lộn, phá hoại tài sản, cướp Và khó phân biệt: Trộm cắp, quấy rối Đềtài khóa luận tập trung vào các hành vi: Trộm, cướp, tấn công nhân viên; lànhững hành vi làm thiệt hại về tài sản, sức khỏe và gây hoang mang dư luận

Các thiết bị di động có cấu hình thấp, bị giới hạn về phần cứng khiến việc

triển khai những mô hình học sâu đang có kết quả tiên tiến trở nên khônghiệu quả Do đó, cần kết hợp các hình thức tiền xử lý trên thiết bị di động kết

hợp với Server đê cải thiện hiệu năng giám sát.

Trang 19

1.3.2 Mục tiêu

Khóa luận đặt mục tiêu đánh giá tính khả thi và hiệu quả của việc áp dụng công

nghệ nhận dạng khuôn mặt và phát hiện bất thường cho bài toán quản lý cửa hàngtiện lợi? dựa trên kết quả đánh giá phương pháp nhận dạng khuôn mặt tiên tiến trên

bộ dữ liệu UIT-ConStorexFaces và phương pháp phát hiện bat thường MONAD [8]

trên bộ dữ liệu UIT-ConStorexAbnormal và UIT-ConStorex WildAbnormal.

Cùng với đó, khóa luận cũng đặc mục tiêu xây dựng ứng dụng chuyên đổi mụcđích sử dụng của thiết bị di động thay thế camera giám sát quản lý cửa hàng tiện

lợi, ứng dụng được tích hợp tính năng nhận tính năng nhận diện người trong danh

sách theo dõi và phát hiện hành vi vi phạm của người mua hàng; có giao diện dễ sử

dụng và có thé có thé nhanh chóng triển khai giám sát Trong đó:

e Tận dụng camera và bộ xử lý của các thiết bi di động dé thu nhận hình ảnh

và xử lý Điều này sẽ giúp triển khai ứng dụng đơn giản, hiệu qua tai các cửahàng tiện lợi, không cần triển khai thêm camera giám sát

e Các công nghệ nhận dạng khuôn mặt và phát hiện hành vi bất thường được

sử dụng như là các hộp đen trên cơ sở lựa chọn các API đã được phát triển

từ bên thứ ba.

143.3 Phạm vi

e Hình ảnh giám sát sẽ được thu thập trực tiếp trên thiết bi di động, không cần

triển khai thêm camera giám sát

e - Do không thể triển khai trong môi trường cửa hàng tiện lợi thực tế Hệ thống

được đánh giá trong môi trường mô phỏng lại các điều kiện bên ngoài cửa

hàng tiện lợi.

3 Thi trường bán lẻ Việt Nam hiện đang xuất hiện nhiều hình thức cửa hàng tiện lợi Trong khóa luận này, thuật

ngữ cửa hàng tiện lợi nói chung được sử dụng cho loại hình kinh doanh các sản phẩm thiết yếu có quy mô nhỏ như: Cửa hàng tiện lợi, cửa hàng tiện ích, cửa hàng bách hóa, cửa hàng tạp hóa và siêu thi mini.

Trang 20

1.4 Đóng góp

Từ mục tiêu đề ra và những kết quả trong quá trình thực nghiệm, những đóng góp

của tôi trong khóa luận bao gồm:

e Ứng dụng quản lý cửa hàng tiện lợi gồm một ứng dụng di động hoạt động trên

hệ điều hành Android, được tính hợp tính năng nhận dạng khuôn mặt và tínhnăng phát hiện hành vi cần cảnh báo; ứng dụng có giao diện dễ sử dụng, giúpviệc triển khai giám sát nhanh chóng mà không cần lắp đặt thêm đầu thu, màn

hình, Ethernet và không cần triển khai thêm camera giám sát; và một

Dashboard cập nhật và hiển thị lịch sử giám sát

“ Link cài đặt ứng dụng: https://tinyurl.com/taConStore (link gốc)

" Link truy cập Dashboard: http://aiclub.uit.edu.vn/gpu/kltn_anhlt/web/

= M4§ nguồn của ứng dụng: https://github.com/mausLe/face-detection

= Mã nguồn của Dashboard: https://github.com/mausLe/My-Dashboard

“ Video demo về ứng dụng: https://youtu.be/wWdUGKihG7Ye_ Xây dựng bộ dữ liệu về khuôn mặt UIT-ConStorexFaces gồm 13 danh tính và

78 video phục vụ yêu cầu đánh giá khả năng xác thực và giám sát; bộ dữ liệuUIT-ConStorexAbnormal gồm 113 video mô phỏng lại các hoạt động bìnhthường: Đi ngang qua, lựa và chọn mua và các hành vi trộm cắp hàng hóa: Lấy

đồ bỏ vào balo, túi áo quan, túi vải và các video được ghi ở góc nhìn bị khuất;

và bộ dữ liệu UIT-ConSotexWildAbnormal gồm 66 video ghi lại các hành vicần cảnh báo: Trộm, cướp, tan công nhân viên và bình thường tại các địa điểm:

Cửa hàng tiện lợi, ngân hàng và tiệm vàng tại Việt Nam.

" Link tổng hợp 3 bộ dữ liệu: https://tinyurl.com/talDatasets (link gốc)

e Đánh giá kết quả của việc áp dụng các phương pháp tiên tiến về nhận dang

khuôn mặt và phát hiện bất thường trên các bộ dữ liệu đã thu thập Kết quả khi

đánh giá:

=" Phương pháp nhận dạng khuôn mặt trên bộ dữ liệu UIT-ConStorexFace

cho kết quả trên tập CheckIn (Precision = 0.97, Recall = 0.97) và

giảm dần theo độ khó của tập Surveillance (Precisiơn = 0.63,

Trang 21

Recall = 0.59), đồng thời khóa luận cũng chỉ ra các trường hợp ma

tính năng không nhận diện được đối tượng giám sát và đưa ra khuyếnnghị ngữ cảnh triển khai phù hợp

= Phương pháp phát hiện hành vi bất thường - MONAD [8] trên bộ dữ

liệu UIT-ConStorexAbnormal cho kết qua (Precision = 0.25,Recall = 0.82) cho thay hiệu quả phân loại hành vi trộm thấp

= Phương pháp MONAD trên bộ dữ liệu UTT-ConStorexWildAbnormal

cho kết quả (Precision = 0.25, Recall = 0.26) do các yếu tố: Địađiểm, góc quay và ngữ cảnh của UIT-ConStorexWildAbnormal phứctạp hơn bộ đữ liệu UCSD Ped 2 [13] mà MONAD cho kết quả cao nhất

1.5 Cấu trúc Khóa luận tốt nghiệp

Phần còn lại của Khóa luận tốt nghiệp được tô chức như sau:

e Chương 1: Tổng quan dé tài

e Chương 3: Xây dựng bộ dữ liệu đánh giá.

e Chương 4: Phương pháp và kết quả đánh giá

Trang 22

Chương2 CÔNG TRÌNH LIEN QUAN VÀ KIEN THỨC NEN TANG

Trong chương này, tôi trình bày các giải quản lý cửa hàng tiện lợi đã được triển khai,kiến thức nên tảng và các công trình liên quan đến tính năng nhận dạng khuôn mặt

và phát hiện hành vi bat thường

2.1 Giải pháp quản lý

Đề hạn chế sự phụ thuộc vào yếu tố con người trong khâu đảm bảo an ninh, một số

giải pháp giám sát thông minh đã được đề xuất:

2.1.1 Hệ thống nhận diện khuôn mặt - KBVISION

Hệ thống đảm bảo an ninh cho công ty, cửa hàng, ngân hàng đến từ công tyKBVISION (xem Hình 2.1) có một số tính năng chính: Nhận diện khách hang VIP,báo động người trong danh sách đen, thống kê số lượng người ra vào

Hình 2.1: Giải pháp nhận diện khuôn mặt của KB Vision*

4 Ảnh được tham khảo từ kbvision.vn.

10

Trang 23

Đây là một hệ thống hoàn chỉnh với các thiết bị đầu cuối, trong đó:

e Phần cứng: Camera giám sát, bộ chuyên mạch, đầu thu nhận diện khuôn mặt,

máy chủ quản lý và thiết bị di động

e Phần mềm: Ung dụng quản lý trên máy tính và ứng dụng cảnh báo trên thiết

bị di động.

e Uudiém: Hệ thong hoàn chỉnh, chức nang phat hiện, nhận diện và thống kê

được thực hiện ngay trên đầu thu xử lý; ứng dụng theo dõi cho phép kiểm

tra camera và nhận cảnh báo từ xa.

e Nhược điểm: Cần triển khai đồng bộ các thiết bị đầu cuối mà KBVISION

yêu cầu, quy trình cài đặt và cấu hình mạng của thiết bị phức tạp, tốn nhiềuthời gian khi triển giám sát cho nhiều cửa hàng trong cùng một hệ thống

Bên cạnh đó, KBVISION cho phép khách hàng lựa chọn chất lượng cameragiám sát và năng lực đầu thu xử lý phù hợp cho mục đích giám sát tại những địađiểm có không gian rộng: Siêu thị, trường học, bãi giữ xe

Nhìn chung, ứng dụng phù hợp đề lắp đặt tại những địa điểm riêng lẻ, đòi hỏilưu trữ và xử lý tại địa điểm giám sát Tuy nhiên, sản phẩm này chưa đáp ứng yêucầu giám sát tại các cửa hàng tiện lợi do phụ thuộc vào thiết bị đầu cuối, quy trình

lắp đặt, cầu hình phức tạp, khó triển khai đồng bộ cho các cửa hang trong hệ thống

2.1.2 Camera giám sát Yi— Xiaomi

Yi Camera là dòng sản phẩm camera giám sát không dây, gồm nhiều thiết bị được

phát triển bởi Xiaomi cho nhu cầu giám sát trong hộ gia đình, cửa hàng và ngoài

trời (xem Hình 2.2) Sản pham có thiết kế nhỏ gọn, tích hợp tính năng phát hiệnchuyền động và phát hiện âm thanh Với quy trình cài đặt và sử dụng dễ dàng thôngqua qua ứng dụng Mihome, Yi Camera được nhiều người lựa chọn cho giám sát,

dam bảo an ninh Các đặc điêm của Yi Camera:

e Phân cứng: Camera giám sát, thiệt bị có màn hình dé theo dõi.

e Phần mềm: Ung dụng Mihome quản lý camera, cho phép theo dõi và nhận

cảnh báo từ xa.

lãi

Trang 24

e Ưu điểm: Thiết kế nhỏ gon, cai đặt dé dàng qua ứng dụng; tích hợp chức

năng phát hiện chuyển động, phát hiện âm thanh, cảnh báo online.

e Nhược điểm: Cần thiết bị có màn hình dé theo dõi, chưa được trang bị tính

2.1.3 Muc tiêu giám sát cửa hang

Hình 2.3 mô tả mục tiêu giám sát của hệ thống quan lý cửa hàng tiện Dé việc quan

lý các cửa hàng một cách an toàn, hệ thống giám sát cần nhanh chóng nhận diện các

đối tượng tình nghi ngay khi đối tượng này bước vào cửa hàng và cảnh báo đề nhân

viên tập trung theo dõi các đối tượng này Bên cạnh đó, hệ thống cũng cần thông

Ảnh được tham khảo từ www.smartworld.it.

12

Trang 25

báo sự có mặt của khách hàng thân thiệt dé nâng cao trải nghiệm mua sam, hướng đên sự thoải mái của nhóm khách hàng này.

Tuy nhiên, việc phân loại đối tượng khách hàng chỉ là một bước trong quá trình

quản lý và đảm bảo an toàn cho cửa hàng Hệ thống giám sát cũng cần phát hiện vàcảnh báo các vi phạm: Trộm, cướp, tan công nhân viên Trong khi quá trình phân

loại khách hàng chỉ xác định được những đối tượng mà danh tính của họ đã ton tại

trong cơ sở dữ liệu Điều này khiến việc bỏ qua những đối tượng không có trong cơ

sở dit liệu là điều có thể xảy ra Dé bồ sung cho khoảng trống này, trong phạm vi

dé tài khóa luận, tôi cũng tiến hành khảo sát và đánh giá phương pháp phát hiện batthường cho bài toán phát hiện các hành vi cần cảnh báo

cần cảnh báo

Hình 2.3: Hệ thông giám sát cửa hàng tiện lợi”

Cuôi cùng, đê có thê triên khai cho nhiêu cửa hàng trong hệ thông, sản phâm

can có giao diện dé sử dụng, không cân kết nói với nhiều thiết bị đầu cuối.

Trong phân còn lại của chương, tôi sẽ trình bày các công trình liên quan và các

kiến thức nền tảng cho từng tính năng trong hệ thống

5 Ảnh được tác giả thực hiện với các thành phần tổng hợp từ Internet.

13

Trang 26

2.2 Nhận dạng khuôn mặt

Nhận dạng khuôn mặt là bai toán xác định danh tinh của một hoặc nhiêu người thông qua khuôn mặt của người đó Đâu vào của bài toán có thê là hình ảnh hoặc video, đâu

ra là vi trí khuôn mặt và danh tính (nêu có) của người xuât hiện trong dữ liệu dau vào

(minh họa trong Hình 2.4).

Bộ nhận dạng khuôn mặt

Đầu vào Đầu ra

Hình 2.4: Mô tả bài toán nhận dạng khuôn mặt”

Nhận dạng khuôn mặt có hai 2 toán con tương ứng với 2 module:

e Phát hiện khuôn mặt - Bộ phát hiện khuôn mặt.

e_ diện danh tính khuôn mặt - Bộ nhận diện danh tính.

Độ chính xác của chương trình phụ thuộc vào độ chính xác của từng module trong

hệ thống

2.2.1 Phat hiện khuôn mặt

Là quá trình xác định liệu trong khung ảnh đầu vào có chứa khuôn mặt hay không

và trả về vị trí của khuôn mặt trong ảnh nếu có (minh họa trong Hình 2.5) Phát hiệnkhuôn mặt có thé mô tả theo:

e Đầu vào: Một khung ảnh có một hay nhiều khuôn mặt hoặc không chứa

khuôn mặt nào.

e Đâura: VỊ trí của các khuôn mặt (nêu có) trong hình.

14

Trang 27

Hình 2.5: Mô tả bài toán phát hiện khuôn mat®

Sự phát triển của các kỹ thuật học sâu cũng gắn liền với sự cải tiến của các

phương pháp phát hiện khuôn mặt Trong khóa luận này, với mục tiêu thực hiện

quá trình thu nhận hình ảnh và xử lý cục bộ trên thiết bị di động, tôi tiễn hành khảo

sat các phương pháp pháp hiện khuôn mặt cho ứng dụng di động.

Microsoft Azure Face Detection: Được phát triển bởi Microsoft và triển khai

trên nền tảng đám mây Azure, tính năng phát hiện khuôn mặt của hãng có một số

ưu điêm:

e Quá trình phát hiện được thực hiện thông qua API.

1920x1080 pixel Có dung lượng từ IKB đến 6MB Xác định 27 điểm đặc

trưng có trên khuôn mặt.

Nhược điểm lớn nhất của giải pháp này là chi phí 1$ cho 1000 ngàn giao dịch

KAIROS: Dịch vu phát hiện và nhận dạng khuôn mặt của KAIROS, được triểnkhai trên nền tang AWS - Amazon Web Services Tính năng phát hiện và nhận dạng

khuôn mặt của hãng có một sô đặc diém:

e Sử dụng dịch vụ thông qua API.

e Hỗ trợ phát hiện, xác thực và nhận dạng khuôn mặt.

e H6 trợ theo dõi (tracking) nhiều đối tượng trong video

e Hỗ trợ tối đa 500 giao dịch/phút

15

Trang 28

Giống với Microsoft Azure, nhược điểm của giải pháp này là chi phí khi bên

cạnh chi phí cố định $249, KAIROS còn tính phí $0.002 trên mỗi giao dich

Google ML Kit: Công cụ hé trợ lập trình ứng dụng của Google Thông qua ML

Kit API, người lập trình có thể sử dụng các mô hình máy học đã được Google tíchhợp sẵn trên hệ điều hành Android vào ứng dụng của mình Với các thiết bị có hệđiều hành khác, ML Kit cũng cho phép người lập trình sử dụng các mô hình tự xâydựng dé tích hợp vào trong ứng dụng thông qua TensorFlow-Lite Một số đặc điểm

trong tính năng phát hiện khuôn mặt khi được sử dụng thông qua ML Kit:

e_ Quá trình xử lý được thực hiện nhanh chóng, ngay trên thiết bị, thông qua

API.

e Hỗ trợ xác định tối đa 133 điểm của đường contour

e H6 trợ theo dõi những người xuất hiện trong ảnh trong một khoảng thời gian

Do được xử lý trên thiết bị, quá trình phát hiện khuôn mặt không tốn nhiều chỉ

phí như những giải pháp khác Bên cạnh đó, khi áp dụng các phương pháp lọc và

giới hạn khuôn mặt, số lượng khuôn mặt cần phải nhận dạng trong mỗi khung hìnhcũng giảm, điều này giúp giảm khối lượng công việc cho bộ nhận diện danh tính

2.2.2 Nhận diện danh tính

Là quá trình xác định danh tính của khuôn mặt đã được bộ phát hiện khuôn mặt xác

định trước đó (xem Hình 2.6) Nhận diện danh tính có thể mô tả theo:

Bộ nhận diện

Hình 2.6: Mô tả bài toán nhận diện danh tính khuôn mặt?

° Ảnh được tác giả thực hiện với các thành phần tổng hợp từ Internet.

16

Trang 29

e Đầu vào: Ảnh chỉ chứa khuôn mặt người.

e Đầu ra: Danh tính của người trong ảnh (nếu có)

Quá trình nhận dạng khuôn mặt từ hình ảnh được bộ phát hiện khuôn mặt xác

định được thực hiện thông qua API mà [1] cung cấp Việc sử dụng API cho mục

đích nhận dạng khuôn mặt tuy có một số nhược điểm:

e Phụ thuộc vào việc triển khai của mô hình nhận dạng khuôn mặt tại Server

e Phụ thuộc vào tốc độ và đường truyền Internet

e_ Tiêu tốn chi phi dé duy trì dịch vụ

Tuy nhiên, bên cạnh đó là các lợi ích:

chính xác.

e C6 thể triển khai cho nhiều thiết bị giám sát trong một thời gian ngăn Có thê

mở rộng tài nguyên để gia tăng quy mô của hệ thống nhận dạng

e _ Do cùng sử dụng một cơ sở dữ liệu, hồ sơ của thành viên mới có thể cập nhật

cho nhiều thiết bị khác trong hệ thống

e_ Quá trình gửi và nhận phản hồi từ [1] kéo dài trong khoảng từ 130-270 ms,

tùy vào dung lượng ảnh trong hồ sơ của người đó, tương đương với khả năng

thực hiện nhận dạng từ 4-7 khuôn mặt mỗi giây Cùng với đó, khi bộ phát

hiện khuôn mặt áp dụng các phương pháp lọc và giới hạn danh tính, số lượnglần request giảm, giúp tiết kiệm chi phí và giảm tải cho Server

Do đó, khi xét về hiệu quả sử dụng lâu dài, việc thực hiện quá trình nhận diện

thông qua API cũng gia tăng hiệu quả và giảm chi phí cho các cửa hàng.

2.3 Phát hiện hành vi nguy hai

Trong những năm gần đây, phát hiện bất thường trong video đã trở thành một hướng

nghiên cứu quan trọng và đạt được một số kết quả an tượng [12], [18] Phát hiện bất

thường là chủ đề nghiên cứu rộng và nhiều thách thức khi phải nhận diện được những

sai lệch so với những mau dữ liệu bình thường Cùng với đó, đây cũng là giải pháp

17

Trang 30

được nghiên cứu cho đa dạng các lĩnh vực (xem Hình 2.8) như: Giám sát giao thông, chăm sóc sức khỏe, an ninh mạng, IoT

Bất thường (abnormalities) hay di thường (anomalies) có thé được liên hệ tới như

là những sai lệch, ngoại lệ trong thống kê và khai thác dữ liệu [2] Như minh họa

trong Hình 2.7, Ni và Na chứa phan lớn quan sát và do đó được coi là những vùng dữ

liệu bình thường Trong khi đó, những vùng O¡ và điểm dit liệu O2, O3 nằm xa nhữngvùng được coi là bình thường, do đó được coi là những điểm dữ liệu bất thường.Những di thường này thường truyền tải thông tin có giá trị về dit liệu dang xử lý Do

đó, phát hiện các dị thường là nhiệm vụ quan trọng của các hệ thống hỗ trợ ra quyết

Trang 31

(b) Detecting Retinal Damage

SUL

(d) Internet Of Things (loT) Big-Data (c) Cyber-Network Intrusion detection Anomaly detection

Hình 2.8: Các ứng dụng của phát hiện bat thuong!!

Nhận thấy tiềm năng có thể áp dụng phát hiện bất thường trong ứng dụng giám

sát và đảm bảo an ninh, Sultani và các đồng sự [18] đã đề xuất phương pháp Deep

Multiple Instance Learning (MIL) (xem Hình 2.9) cho bài toán phát hiện bạo lực qua

camera giám sát Sử dụng phương pháp huấn luyện giám sát yếu (weak-supervised

learning) trên bộ dữ liệu được gán nhãn yếu, MIL đã đạt kết quả vượt những nghiên

cứu trước đó (AUC = 75.41) và có tỉ lệ báo động giả thấp (False alarm rate = 1.9)trên bộ dữ liệu mà nhóm tác giả đề xuất

Positive bag Instance scores in positive bag

Anomaly video Bag instance (video segment)

MIL Ranking Loss with sparsity and smoothness constraints

Hình 2.9: Phương pháp Deep Multiple Instance Learning!”

"I Ảnh được trích từ công bố [4].

12 Anh được trích từ công bô [18].

19

Trang 32

Tuy đạt được kết quả ấn tượng, nhưng do kiến trúc mạng nơ-ron học sâu phức

tạp, nhóm tác giả không đánh giá hiệu năng của phương pháp Deep MIL Thông qua

một số quan sát, tôi nhận thấy rằng, phương pháp này có hiệu năng thấp khi tốn 130s

để xử ly đoạn video có độ dai 20s, độ phân giải 240x320, với GPU: Tesla P100 PCIe16GB Cùng với đó, do sử dụng kiến trúc ngoại tuyến với đầu vào là một đoạn video,hướng tiếp cận này không thích hợp khi triển khai phát hiện bat thường trên hệ thống

camera giám sát trực tuyên.

2.3.1. Các phương pháp phát hiện bắt thường

Do tính chất đa dạng của các kiểu dữ liệu, có thể phân loại các kỹ thuật phát hiện

bất thường theo: Ứng dụng, kiểu đị thường và kiến trúc mô hình Dựa trên kiến trúc

mô hình, Chalapathy và các đồng sự [4] đã phân các kỹ thuật phát hiện bất thường

thành 5 loại:

Hoàn toàn giám sát (Supervised deep anomaly detection): Các kỹ thuật

phát hiện bắt thường có giám sát cho hiệu suất vượt trội so với các kỹ thuật

không giám sát do kỹ thuật này sử dụng dữ liệu đã được gán nhãn [10].

Bán giám sát (Semi-supervised deep anomaly detection): Các kỹ thuật

phát hiện bất thường bán giám sát giả định răng tất cả ví dụ dùng cho huấnluyện chỉ có duy nhất một lớp gán nhãn - lớp dữ liệu bình thường Khi huấn

luyện, các kỹ thuật phát hiện bất thường sẽ học cách xác định một đường

biên quanh các ví dụ bình thường đã gan nhãn Khi đánh giá, những điểm dữliệu không nằm trong đường biên đã xác định thì sẽ được đánh dấu là bất

thường.

Lai (Hybrid deep anomaly detection): Là sự kết hợp các kỹ mô hình họcsâu cho mục đích trích xuất các đặc trưng có tính phân biệt với các phươngpháp học máy truyền thống

Mạng ron một lớp (One-class neural networks): Mô hình mạng

nơ-ron một lớp kết hợp các mô hình học sâu có khả năng trích xuất các đặc trưng

20

Trang 33

thể hiện tính phong phú của đữ liệu theo các dạng ranh giới (siêu phẳng, siêucầu) đề tách biệt tất cả các điểm dữ liệu bình thường với các bất thường.

e Không giám sát (Unsupervised anomaly detection): Các phương pháp

phát hiện bất thường không giám sát tập trung vào mô tả tính chất và đặc

trưng của dữ liệu.

2.3.2 Phát hiện bất thường không giám sát

Trong quá trình giám sát thực tế, các sự kiện bất thường xảy ra với tần suất rất thấp.Điều này khiến việc thu thập một bộ dữ liệu thể hiện được sự đa dạng của các hành

vi bất thường là công việc khó khăn Trong khi đó, các video bình thường, khôngchứa hành vi nguy hại, có thể thu thập một cách dễ dàng hơn

Là phương pháp học có tính tong quát hóa trên các kiểu dit liệu đa dạng, phương

pháp phát hiện bất thường không giám sát được cho là có khả năng định nghĩa các

hành vi bất thường tốt [19] Hướng tiếp cận sử dụng bộ dữ liệu có tập huấn luyệngồm những video không chưa hành vi nguy hại Điều này giúp tiết kiệm chi phí choviệc thu thập và gan nhãn dữ liệu Tuy nhiên, diém yêu của học không giám sát này

là phương pháp dé phát sinh cảnh báo giả Điều này đòi hỏi giải pháp lọc nhiễu, hạn

chế số lượng báo động giả

2.3.3 Phát hiện bất thường lai

Giống với phương pháp học không giám sát, phương pháp phát hiện bat thường laithường sử dung dit liệu huấn luyện là những dữ liệu chứa các hành vi được gannhãn bình thường do tần suất phô biến của hành vi này lớn hơn rất nhiều so với tần

suất xuất hiện hành vì bất thường

Về kiến trúc mô hình, như minh họa trong Hình 2.10, phương pháp phát hiện

bất thường lai được phát triển trên cơ sở kết hợp các kỹ thuật học sâu và phương

pháp học máy truyền thống Thông qua mạng nơ-ron học sâu, các đặc trưng có tínhphân biệt được trích xuất và mã hóa dưới dạng vector nhiều chiều Các vector này

sau đó được bộ phát hiện bat thường (anomaly detector) sử dụng các thuật toán máy

21

Trang 34

học truyền thống như Support Vector Machine (SVM) hay K-Nearest Neighbor

Sequence (eg Protein)

Hình 2.10: Minh họa phương pháp phát hiện bat thường lai !22.3.4 Phát hiện bất thường theo thời gian thực

Thách thức lớn nhất với các hệ thống giám sát tự động là nhanh chóng phát hiệncác sự có mat an toàn xảy ra, dé kịp thời có giải pháp ngăn chặn Tuy nhiên, đa phầncác nghiên cứu hiện nay đều tập trung vào cải thiện độ chính xác mà ít chú trọngđến việc đánh giá hiệu năng của phương pháp và khả năng triển khai áp dụng giám

sát trực tuyến.

Trong quá trình khảo sát các nghiên cứu cho bài toán phát hiện hành vi cần cảnh

báo của người mua hàng, tôi tìm hiểu nghiên cứu Online Anomaly Detection in

Surveillance Videos with Asymptotic Bounds on False Alarm Rate do tac gia Doshi

va đồng sự [8] đề xuất, được đăng trên tạp chí Pattern Recognition, tập 114, xuấtbản tháng 06/2021 Trong đó, nhóm tác giả công bố một kiến trúc mô hình theophương pháp phát hiện bất thường lai cho bài toán phát hiện bất thường trong dữ

liệu camera giám sát.

!3 Ảnh được trích từ công bé [4].

22

Trang 35

Vệ tông quan, nhóm tác gia đã dé xuât:

e Phan mềm MONAD (xem Hình 2.11) sử dụng mô hình học sâu cho mục

đích trích xuất các đặc trưng và phương pháp máy học truyền thống để phânloại khung hình là bình thường hay bất thường.

e Phương pháp hạn chế tỷ lệ báo động giả

2.3.5 MONAD - Phần mềm phát hiện hành vi bat thường

Là một trong những giải pháp duy nhất cho bài toán phát hiện bat thường trực tuyến.Tuy nhiên, trong mã nguồn cung cấp, nhóm tác giả chỉ đánh giá phương pháp này

ngoại tuyến: Lần lượt trích xuất vật các vật thể và độ lỗi của toàn bộ khung hình rồi

mới thực hiện quá trình phân loại hành vi Tôi đã tiến hành chỉnh sửa và đánh giá

lại phương pháp này cho mục tiêu đánh giá phương pháp theo hình thức online trên

bộ dữ liệu UIT-ConStorexAbnormal và bộ dữ liệu UIT-ConStorexWildAbnormal.

Generator (U-Net)

Predicted: Ý

x

ae Center

a a ow y 4 3% 2 Sequential

iscriminator Brea ||} ——| Anomaly

(Real vs Fake) Detection

Hình 2.11: Kiến trúc phần mềm phát hiện hành vi bat thường - MONAD'

MONAD được xây dựng trên cơ sở của phương pháp phát hiện bất thường laigồm có 2 module chính:

4 Ảnh được trích từ công bố của [8].

23

Trang 36

e Module neural: Sử dụng các mô hình học sâu trích xuất các đặc trưng có tính

phân biệt va mã hóa (encode) các đặc trưng thành thành 1 vector.

e Module statistical: Là một bộ phát hiện bat thường (anomaly detector), phân

loại trường dữ liệu trong vector thuộc nhóm bình thường hay bất thường,đồng thời kết hợp với một bộ lọc dé xác định kết quả trả về có sự kiện bat

thường hay không.

Sau đây, tôi sẽ lần lượt trình bày các thành phần có trong 2 module này

2.4 Module trích xuất đặc trưng - Neural

Module bao gồm mô hình mạng GAN dự đoán khung hình và bộ phát hiện vật thê

YOLOv3 cho mục đích trích xuất các đặc trưng có ý nghĩa Các đặc trưng này sau đó

được mã hóa vào một vector đặc trưng để từ đó module Statistical có thể phân loại

khung hình là bình thường hay bất thường

Generator

(U-Net)

Predicted: Ÿ;

Discriminator (Real vs Fake)

Hình 2.12: Module trích xuất đặc trưng - Neural!Š

15 Ảnh được trích từ công bố của [8].

24

Trang 37

2.5 Dự đoán khung hình

Phương pháp này dự đoán khung hình tương lai XƑ red sử dụng các khung hình trước

đó X›, X¿, ,X;¡ và so sánh nói với khung hình X; thực tế, từ đó tính toán sai số toàn

phương trung bình (Mean Square Error - MSE).

Là một công cụ đã thành công trong việc tạo ra những hình ảnh có nhiều điểmgiống với thực tế, GAN - Generative Adversarial Network, được sử dụng cho phươngpháp này với kỳ vọng có thể huấn luyện bộ tạo ảnh (Generator) phát sinh ra nhữngkhung ảnh thật và giống với khung hình cần dự đoán nhất có thê Tuy nhiên, việc dựđoán khung hình mới là công việc khó khăn khi bị ảnh hưởng bởi sự thay đổi độ sáng

và sự di chuyên của các đôi tượng trong hình.

Hình 2.13: Kiến trúc mạng dự đoán khung hình U-Net!®

Trong công bồ [14], Liu và các đồng sự đã đề xuất kiến trúc mạng U-Net (xemHình 2.13) với các ràng buộc về cường độ, sự khác biệt về hướng, dòng quang học

và huấn luyện đối kháng giúp mô hình Generator phát sinh ra những hình ảnh tốt vàgiống thật nhất

'6 Anh được trích từ công bố của [14].

25

Trang 38

Hàm mat mát dùng dé huấn luyện Generator:

_ oe (2.1)

Yof Lot (X, X) + ad» hadu(X, X)

Trong đó, Vint, Yga> Yor: Yadv > 9 là trong số của các hàm mat mát thành phan

Ham mắt mát cường độ đo lường mắt mát giữa khung hình dự đoán XP"°° và

khung hình thực tế X, nhằm duy trì su thống nhất giữa các điểm anh, công thức của

Ham mat mát dòng quang học được sử dụng dé cải thiện sự liên kết về chuyển

động cho khung hình dự đoán theo công thức:

Log Sa, Xt41, Xt) = (Ren, Xi) — f(Xe41, Xt) | ‘ (2.4)

Trong đó f là một hàm có dạng giống với ham mat mát được huấn luyện từ mô hìnhFlownet, được sử dụng dé xác định dòng quang học

Ham mắt mát huấn luyện đối kháng, trong khi Generator được huấn luyện déphát sinh hình ảnh càng khó phân biệt càng tốt thì Discriminator được huấn luyện

sao cho khả năng phân biệt của nó chỉ tương đương lựa chọn ngẫu nhiên, theo hàm mat mát:

ES 1 =

Ladv(X) = 3” >Emse(D(Š:), 1) (2.5)

26

Trang 39

2.5.1 Phát hiện vật thé

Tuy nhiên, phương pháp dự đoán khung hình chỉ cho chúng ta biệt chuyển độngcủa các đối tượng trong khung hình mà bỏ qua yếu tố quan trọng là tính chất của

các đôi tượng này.

Ví dụ: Hành vi cầm dao khống chế nhân viên cửa hàng dưới góc độ chuyên động

có thé được phân loại vào nhóm ít bién động, tức bình thường Tuy nhiên, khi quansát thuộc tính, con dao là yếu tố giúp xác định đây là có thé một hành vi nguy hại

Nhiều phương pháp khác nhau đã được đề xuất cho bài toán phát hiện vật thẻ,tuy nhiên, YOLO [17] là phương pháp đã chứng minh hiệu quả có thể xử lý nhiềuFPS khi so sánh với những mô hình tiên tiến khác như SSD hay ResNet trong những

hệ thống thời gian thực

Khác với các phương pháp khác khi xây dựng bộ phân loại cho bài toán phát

hiện vật thé bằng việc xác định sự xuất hiện của vật thé tại các vị tri với nhiều tỉ lệkhác nhau, rồi sử dụng bộ phân loại lên các vùng được đề xuất để xác định đối

tượng và xác suất có trong vùng YOLO xem bài toán phát hiện vật thé như bài toán

quy hồi và sử dụng một hình phát hiện vật thé một tang, xem Hình 2 14

Hình 2.14: Mô hình phát hiện vật thé YOLO!”

So với các mô hình khác, YOLO vượt trội ở một sô điêm:

e Thời gian xử lý rất nhanh so với những mô hình khác YOLOv4 đạt 65 FPS

ở 40 AP so với 40 FPS của EficientDet là một SOTA vào thời điểm công bó

7 Ảnh được trích từ công bé của [17].

27

Trang 40

e Do kiến trúc không sử dụng phương pháp cửa số trượt hay vùng đề xuất mà

nhìn lại toàn bộ kích thước ảnh nên YOLO nắm được những thông tin vềngữ cảnh của các vật thê trong ảnh

Tuy nhiên, YOLO cho kết quả không tốt khi vật thể có kích thước nhỏ

2.5.2 Mô hình YOLO phiên bản thứ 3 - YOLOv3

Vẫn giữ nguyên hướng tiếp cận so với 2 phiên bản trước,như mô tả trong Hình 2.15,YOLOv3 chia ảnh ra thành nhiều lưới, có kích thước SxS và dự đoán b hộp bao,ứng với mỗi hộp bao là giá trị thể hiện tọa độ, kích thước, điểm tự tin và lớp đốitượng thuộc về

y=(P,.b,.b,„b,.b,„„C)

Tuy nhiên, do có rất nhiều lưới và bao, và hầu hết các lưới và bao này khôngchứa vật thé bên trong nó, YOLO đã có một giá trị ngưỡng dé loại bỏ những hộp

bao có điểm số tự tin thấp

So với các phiên bản trước, YOLOv3 thay đổi cách tính hàm mat mát, với

backbone là Darknet - framework được xây dựng trên CUDA API và ngôn ngữ C

khiến nó phù hợp cho ứng dụng đòi hỏi sự khắt khe về thời gian So với nhữngphương pháp tiên tiễn khác, YOLOv3 cũng vượt trội về thời gian thực thi

18 Ảnh được lay từ: https:/www.kdnuggets.com/2018/09/object-detection-image-classification-yolo.html

28

Tiêu đề	Phát triển ứng dụng di động hỗ trợ quản lý cửa hàng tiện lợi sử dụng công nghệ nhận dạng khuôn mặt và phát hiện hành vi bất thường
Tác giả	Lê Tuấn Anh
Người hướng dẫn	PGS.TS. Lê Đình Duy
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Kỹ thuật máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	110
Dung lượng	83,58 MB