Với mục đích xây dựng một ứng dụng di động tích hợp camera giám sát được huấn luyện liên tục theo thời gian thực nhằm giải quyết một số vấn đề như theo dõi người lớn tuổi, phát hiện ra n
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THÓNG THÔNG TIN
LE ANH THU - 20521985
BUILDING A MOBILE APPLICATION INTEGRATED WITH HOME
SURVEILLANCE CAMERA TO DETECT POTENTIALLY DANGEROUS HAZARDS THROUGH DEEP LEARNING MODELS
KY SU/ CU NHAN NGANH HE THONG THONG TIN
GIANG VIEN HUONG DAN PGS TS NGUYEN ĐÌNH THUAN
TP HO CHi MINH, 2024
Trang 2MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU VA MÔ TẢ ĐÈ TÀI - - c + ++k+S++E+E+EeEzEeEzxerezxee 3
1.1 Tên đểtài c HH Huệ 3
1⁄2 Đặt vấn đề HH He 3
1.3 Mục tiêu của dé tài 5c kntTt T1 1111111111111 111111101111 111 111111111 re 4
1.4 Đối tượng và phạm vi nghiên cứu - 2-2 2+££+E++Ek+EE£EE£EEE+EEEkerkerkerreres 5
1.4.1 Đối tượng nghiên CỨU - - 2-2 2 £+E+SE9EE+EE2EE£EEEEEEEEEEEEEEE21717111 1.1 xe 5
1.4.2 Pham vi nghién 01 6 d(Œ 5
1.5 Kiến trúc đề tai , 8 z⁄225s4,/@Ứ8ÔÚÔУРÔN << 13x, 6
CHƯƠNG 2: CƠ SỞ LÝ THUYÊTT 2¿225+t2EEYvvttEEttrrrrrtrrrrrkrrrrrrrtrrree 7
2.1 Khảo sát những ứng dụng hiỆn CÓ - 5 c6 1811311 E 1E EESEEEekksrkererrkreerre 7
2.1.1 Các ứng dụng camera giám sát hiỆn nay - 55 5 3+ + **+vEsveseesseeees 7
2.2 Phát hiện đối tuOng ccccccsecsecsesssssssssessecsecsessussussscssecsessessessessuessessecsecsecsssussseescenes 14
2.4 LSTM (Long Short-Term MeImOTY) - - c1 111 SH HH ng ket 20
2.5 CNN (Convolutional Neural Network) - - c n1 1S xxx rên 24 2.6 Transformer ni 31
2.6.1 Mô hình Transformer truyền thong ccccccccssesssessessessessesseessessessessessessssseseseess 31
Trang 32.6.2 Sự phát triển của Transformer để nhận diện hình ảnh 2- 5= =s¿ 32
2.7 SVC (Support Vector CÏaSSIÍIT) -.- c1 113 1 1 1 10v 1v ng vn vn ệp 38 2.8 (30.000 41
2.8.1 Cac thành phan chính của WebDRTC? o ccccccsscssessessessessssesessessesscsssessesscsseseeaes 41
2.8.2 Cách Hoạt Động của WeDRTC - c1 2n 11 1101111 11111181181 1x ng nrey 42
2.8.3 Kiến trúc mạng ngang hàng (P2P) ¿+ £+EE+E£EE£EE#EEEEEEEEEEEEkerkrrerree 44
2.8.4 GiGi thiduu Mediasoup 0n 45
CHUONG 3: NỘI DUNG VA PHƯƠNG PHÁP -cc:-ccccccccvverrrrrrrrrrrrrrea 47
3.1 Mô hình để xuất . 222222 2211112222111 E2 473.1 Tổng quan và tiền xử lý dữ liệu -¿- 222E22E2E2E22EEEEEEEEEEEerkrkrrkerkerkrred 47
3.2 Cac giat Goan ChIMN ốc 50
3.2.1 Triển khai phase 1 va phase 2 cccccccccccscssssssssessessessesstsessessessessssssesseesesseseeseess 50
3.2.2 Xây dựng các Usecase, kiến trúc CSDL, các thành phan xử lý 58
3.2.3 Triển khai Phrase 3: Giai đoạn xây dựng server với Webrtc 65
3.2.4 Triển khai Phrase 4: Xây dựng ứng dung người dùng về mô hình cảnh bao 74CHƯƠNG 4:_ THỰC NGHIỆM VÀ ĐÁNH GIÁ ¿-+¿©5¿22++2x++zxrzxesrxerrxee 79
4.1 Tiền xử lý đữ liệu -¿- 2 2 £+ESE9EE9EE2E12EE71E71511211211 2111111111111 1111 1 yye 79
4.1.1 Dinh dang i0 00 a^aa 79
4.1.2 Cải thiện chất lượng ảnh ¿2-52 2£ 2S£+EE+2E££EE2EEEEEEEEEEEEEerkrrrkrrkrrree 814.1.3 Ap dung ki thuật Cross-validation c cccccsscsscsssessessessessssssessessessessesssssssseeseess 82
4.1.4 Cải thiện overfitting c.ccecccccsecsesssssessessesssesssssecsuessecsuessesssessusssessuessessseesecess 83 4.2 Cac dO do dank 914 nh 83
4.3 Kết qua thực nghiệm và đánh gia c.cceceeccecsscssesssesessessessesesessessesessesesseesesseseeaeeaees 84CHUONG 5: TONG KET VA HUONG PHAT TRIEN ccccscscsssssssecscsesesesesescsceeseseees 89
Trang 45.1 Hạn chế và công việc trong tương lai - 2: + ©2+E£+E£+EE£EEeEEeEEerEerrkrrxerkrred5.2 Kết luận
TÀI LIỆU THAM KHẢO
Trang 5DANH MỤC BANG
Bang 3.1 Usecase xem video trực tiẾp - ¿52-5 tEk‡EE9EEEEEEEEEEE15E121171 1171211 cxe 58
Bang 3.2 Usecase xem kết quả phát hiện hành động 2-2 2 2 s£s+£++£zzs£2 59
Bang 3.3 Usecase phát hiện hành động . c1 3322111131335 E1.Eeree 59 Bảng 3.4: Bảng thuộc tính của S€T - 5 G1911 E911911 E911 1111 11v ng nh ng nư 61 Bang 3.5: Bang ham 0uì 805v 61 Bảng 3.6: Bảng thuộc tính của CaTm€Ta - - (c1 211E911811 E911 11911 1 1 ng ng nưy 61 Bảng 3.7: Bảng hàm CỦa Camera - c 22063322188311 883 11131 1111 9111 8 111 8111 E11 prry 61 Bang 3.8: Bảng thuộc tinh của Detected ReSulÏ( - - 5 <6 5+ E+*E£svseeeseereeesreesk 62 Bảng 3.9: Bảng hàm của Detected R€SuÏ( - + 2S + +23 * +2 E+EESrreeesrerrsersrerre 62
Bang 4.1 Kết quả so sánh của bộ dữ liệu hành động bạo lực -2- 2 s25: 84Bảng 4.2 Kết quả so sánh của bộ dữ liệu tu thế té Nga eee cceeeseesessesseeseeseestestesseeses 85
Bảng 4.3 Kết quả so sánh của các thuật toán mô hình phát hiện bạo lực 85
Trang 6DANH MỤC HÌNH ẢNH
Hình 1.1 Kiến trúc để tài 222+++2 2 nh HH Hư 6
Hình 2.1 Kiến trúc của YOLO essescsssssssssessseessneeessneeessnsessneessneessneessneeeesnneeesneeesensees 17
Hình 2.2 Kiến trúc của YOLO V8 ¿¿-222++ttEE11 HH re 18
Hinh c8 41.04900909) 1 20
Hình 2.4 Thanh phần của một đơn vi trong LSŸTÌM - 5+ ++<<£++kEssesseerssersee 21
Hinh 2.5 Cau tritc ctta CNN 00 25
Hình 2.6 Kiến trúc mô hình Transformer c ccsscsssesssessesssesseessesssessecsssssesssessesssesseesseesees 32
Hình 2.7 Kiến trúc mô hình Vision TransfOrmmer - - 2 2 2+ + x+>x£+Ezx++x+zzxerxeex 33
Hình 3.4 Class Diagram của hệ thống 2-2-2 2 + +E£+E£+E£2EE£EEEEESEEEEEEEEEEEEEEEerkerkere 60
Hình 3.5 Sequence Diagram của đăng nhập và đăng ky - - « -++s++sx++++s+2 63
Hình 3.6 Sequence Diagram của xem video trực tiếp và xem lich sử phát hiện 64
Hình 3.7 Xây dựng server với WeblRTÍC - -c + s21 11 1v 1 vn ng ng He 65
Hình 3.8 Lưu lại hình ảnh khi phat hiện té ngã 5 5 22+ 3+ *+vE+vEEeessrseeeke 73
Hình 3.9 Mo IP camera và sử dụng model đã tra1n - 5 + ++s£++£+s+se+seeseessxe 73 Hình 3.10 API đơn giản cho video stream từ IP camera và phát hiện té ngã 73 Hình 3.11 Màn hình đăng nhập va đăng ký L c1 1S SH HH net 74
Hình 3.12 Màn hình trang chủỦ c5 2c 3321133311311 1911311 1811811581111 E111 re 75
Hình 3.13 Màn hình xem CaIT€YA - - 6 2 218211811911 91191 v1 11v ng nh ng nếp 76 Hình 3.14 Màn hình trang cá nhân người! Ùng - - 5-5 + + + +*kEseeEseereeereeeeee 77 Hình 4.1 Các keypoint được vẽ thông qua Open POse - ¿5c +2 *+sseexesereserrs 80 Hình 4.2: Những hình ảnh trong dataset được phát hiện khung xương thông qua
60) 80
Trang 7Hinh 4.3 KY thuat Cross-Validation 01008 82
Hình 4.4 Kết quả phát hiện té ngã thông qua YOlOV8 cccccssessessessesssessessessessessesseeseeses 87
Hình 4.5 Hình anh phát hiện té ngã va hành động bình thường thông qua YoloV8 87
Hình 4.6 Kết quả những chỉ số của YoloV8 trong phát hiện té ngã -2 87
Hình 4.7 Hình ảnh phát hiện bạo lực và hành động bình thường thông qua YoloV8 88
Hình 4.8 Kết quả những chỉ số của YOLOv§ trong phát hiện bạo lực - 88
Trang 8LOI CAM ON
Loi dau tién, em xin duoc cam on truong Dai hoc Céng nghé Thong tin - Dai hoc Quécgia Thanh phố Hồ Chí Minh đã tao điều kiện tốt nhất dé chúng em có thé học tập và phát
triển Học tập tại đây, chúng em đã gặp được rất nhiều những thầy cô, những người bạn,
và những con người tuyệt vời, song song đó là những cơ hội quý giá dé phát triển bản than
trong sự nghiệp lẫn cuộc sông Để hoàn hoàn thành khóa luận này, chúng em xin được gửilời cảm ơn đặc biệt đến những người sau đây Em xin trân trọng gửi lời cảm ơn tới thầy
PGS.TS Nguyễn Đình Thuân và KS Nguyễn Minh Nhụt, những người đã hết long giúp
đỡ chúng em trong con đường nghiên cứu lẫn học tập Thầy Thuân là một nguồn cảm hứng
to lớn cho em có thé tự tin và vượt qua vô sé thử thách trên con đường học tập và nghiêncứu trong suốt thời gian qua Tiếp theo, chúng em muốn dành lời cảm ơn đến những thầy
cô trong trường, đã dạy dỗ và truyền đạt những kinh nghiệm, kiến thức quý báu trong suốt
những năm học Bên cạnh đó, chúng em muốn gửi lời cảm ơn các thầy cô trong khoa Hệ
Thống Thông Tin đã tạo nhiều cơ hội dé chúng em có thé phát triển Chúng em cũng muốncảm ơn những anh chị và những người bạn đã luôn đồng hành cùng chúng em trong suốt
hành trình học đại học, đặc biệt là các bạn ở lớp HTCL2020 và các bạn ở nhóm nghiên cứu
FTISU Cuối cùng, chúng em muốn gửi lời cảm ơn đến bố mẹ, gia đình cùng những ngườithân của chúng em, những người đã luôn đồng hành, tin tưởng, ủng hộ, và quan tâm giúp
đỡ chúng em trong những lúc khó khăn nhất Không có mọi người, chúng em đã không thể
có được như ngày hôm nay.
Trang 9TÓM TẮT KHOÁ LUẬN
Với sự phát triển mạnh mẽ của công nghệ thông tin, nhiều công nghệ AI ra đời
để giải quyết nhiều bài toán nhằm nâng cao chất lượng cuộc sống Trong đó các gia
đình hiện đại thường có ít thành viên sống chung, hoặc mọi người trong gia đình đều
bận rộn với công việc và cuộc song cá nhân của mình Điều này dẫn đến việc nhiềungười cao tuổi thường phải ở một mình trong suốt nhiều giờ trong ngày, thậm chi lànguy cơ gặp phải các tình huống khan cấp mà không có ai có thể giúp đỡ kịp thoi Dựatrên thực trạng đó, em đã tìm hiểu và phát triển đề tài với ứng dụng mang tên
HomeCamera Với mục đích xây dựng một ứng dụng di động tích hợp camera giám
sát được huấn luyện liên tục theo thời gian thực nhằm giải quyết một số vấn đề như
theo dõi người lớn tuổi, phát hiện ra những biểu hiện không bình thường như nguy cơ
té ngã, thậm chí là các vấn đề sức khỏe nghiêm trọng hoặc những tình huống bạo lực
xảy ra trong gia đình và những tình huống khan cấp khác
Dé triển khai hệ thống đến người dùng cuối, ứng dụng sẽ được xây dựng trên nền tảng
android là nơi dé người dùng tương tác gián tiếp với camera Camera sẽ được lắp đặt
tại nhà dé ghi nhận hình ảnh và gửi về server Đề đạt được hiệu quả về thời gian thực
và có thể phát trực tiếp, ứng dụng tích hợp kỹ thuật WebRTC (Web Real-TimeCommunication) cho phép ứng dụng truyền tải dit liệu trực tiếp, giảm độ trễ và nâng
cao chất lượng kết ni
Nghiên cứu nay tập trung vao việc xây dựng các mô hình dự đoán theo hai loại chính
là mô hình học sâu và mô hình phát hiện đối tượng Với mô hình học sâu, nghiên cứu
sử dụng các thuật toán học sâu phân loại như CNN, LSTM, Transformer và SVC kếthợp với mô hình phát hiện và ước lượng tư thế người cho ra kết quả Với mô hình phát
hiện đối tượng, nghiên cứu ứng dụng thuật toán Yolo (You Only Look Once) phiên
bản thứ 8 và phiên bản cải tiến mới là Yolo-Nas Dé đánh giá độ chính xác của môhình, nghiên cứu sử dụng các độ đo là Accuracy, Recall, Precision, Fl Score để tìm ra
mô hình phù hợp nhất
Trang 10Nghiên cứu này chứng minh tính khả thi trong việc áp dụng các kỹ thuật dự đoán của
mô hình học sâu và học máy và tích hợp vào ứng dụng đi động, dé dự đoán những hành
vi thường ngày, giải quyết những tình huống thực tế trong cuộc sống
Trang 11CHUONG1: GIỚI THIỆU VÀ MÔ TẢ DE TÀI
1.1 Tên đề tài
Tên tiếng Việt: XÂY DỰNG ỨNG DỤNG DI ĐỘNG TÍCH HỢP VỚI CAMERA GIÁM
SÁT TẠI NHÀ ĐỀ PHAT HIỆN MOI NGUY HIEM TIEM AN QUA MÔ HÌNH HỌCSÂU
Tên tiếng Anh: BUILDING A MOBILE APPLICATION INTEGRATED WITH HOME
SURVEILLANCE CAMERA TO DETECT POTENTIALLY DANGEROUS HAZARDS THROUGH DEEP LEARNING MODELS
1.2 Đặt vấn đề
Trong bối cảnh xã hội hiện đại ngày càng phát triển, công nghệ thông tin và trí tuệ nhân
tạo (AI) đã trở thành những công cụ quan trọng giúp giải quyết nhiều bài toán phức tạp và
nâng cao chất lượng cuộc sống Tuy nhiên, một van dé đáng quan tâm là sự cô đơn và thiếu
sự giám sát đối với người cao tuổi, đặc biệt trong những gia đình hiện đại nơi các thành
viên thường bận rộn với công việc và cuộc song cá nhân Nhiều nguoi cao tudi phải ở một
mình trong nhiều giờ, đối mặt với nguy cơ gặp phải các tình huống khẩn cấp mà không có
sự giúp đỡ kịp thời Đây là một vẫn đề nghiêm trọng, ảnh hưởng trực tiếp đến sức khỏe và
an toàn của người cao tuổi
Xuất phát từ thực tế này, nghiên cứu dã phát triển ứng dụng HomeCamera nhằm tao ra một
giải pháp giám sát thông minh, giúp theo dõi và đảm bảo an toàn cho người cao tuổi tại
nhà Ứng dụng HomeCamera được thiết kế dé tích hợp camera giám sát, có khả năng huấn
luyện liên tục theo thời gian thực nhằm phát hiện các biểu hiện không bình thường như
nguy cơ té ngã, các vấn đề sức khỏe nghiêm trọng, hoặc thậm chí là các tình huống bạo lực
trong gia đình.
Tuy nhiên, việc triển khai một hệ thống giám sát thông minh đi kèm với nhiều thách thức
kỹ thuật Đầu tiên, việc xử lý và truyền tải hình ảnh theo thời gian thực đòi hỏi một hệthống có khả năng xử lý mạnh mẽ và đường truyền ồn định Hệ thống phải đảm bảo độ trễthấp dé kịp thời phát hiện và xử lý các tình huống khan cấp
Trang 12Dé triển khai hệ thống đến người dùng cuối, chúng tôi chọn nền tang Android làm môi
trường phát triển chính, cho phép người dùng tương tác gián tiếp với camera thông quaứng dụng di động Camera sẽ được lắp đặt tại nhà dé ghi nhận hình ảnh và gửi về server
Đề đạt được hiệu quả giám sát theo thời gian thực và phát trực tiếp, chúng tôi tích hợp kỹthuật WebRTC (Web Real-Time Communication), cho phép truyén tai dữ liệu trực tiếp,giảm độ trễ và nâng cao chất lượng kết nối
Một thách thức khác là việc xây dựng các mô hình dự đoán chính xác và hiệu quả Nghiên
cứu này tập trung vào việc phát triển các mô hình học sâu và mô hình phát hiện đối tượng.Chúng tôi sử dụng các thuật toán học sâu như CNN, LSTM, Transformer và SVC, kết hợp
với mô hình phát hiện và ước lượng tư thế người Đối với mô hình phát hiện đối tượng,
chúng tôi áp dụng thuật toán Yolo phiên bản thứ 8 và phiên bản cải tiễn mới là Yolo-Nas
Tuy nhiên, việc huấn luyện các mô hình này đòi hỏi lượng lớn dữ liệu và tài nguyên tính
toán, cũng như thời gian và công sức dé tinh chỉnh các siêu tham số nhăm đạt được hiệu
suất tốt nhất
Đề đánh giá độ chính xác của các mô hình, chúng tôi sử dụng các độ đo như Accuracy,
Recall, Precision và F1 Score, nhằm tìm ra mô hình phù hợp nhất cho ứng dụng Việc duy
1.3 Mục tiêu của dé tài
Mục tiêu đề tài bao gồm:
k Ứng dụng được đề xuất trong nội dung này sẽ tận dụng công nghệ camera hiện đại
dé ghi nhận hình ảnh và video theo thời gian thực, dem lại những khả năng mới mẻ trong
việc theo dõi nhà khi không có người hay theo dõi người lớn tuổi Điều này không chỉ giúp
Trang 13giảm nguy cơ xảy ra hậu quả nghiêm trọng cho người lớn tuôi thông qua việc phát hiện
sớm các tình huống đáng ngại khi người thân không có mặt ở nhà
° Ứng dụng này vận dụng các công nghệ trong lĩnh vực xử lý hình ảnh, khuôn mặt,
và âm thanh dé nhận diện hình dang và hành động của con người Điều này không chỉ giúpnhận diện hành vi bat thường, nhưng còn giúp nắm bắt được những biểu hiện tinh tế như
cử chỉ và biểu cảm khuôn mặt
° Ứng dung còn tích hợp tinh năng điều khiển và tương tác trực tiếp với camera giám
sát, giúp người dùng dễ dàng theo dõi người thân, thu phát giọng nói khi cần thiết và đưa
ra cảnh báo trên điện thoại đi dộng
1.4 _ Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu
Ứng dụng các thuật toán máy học vào mô hình nghiên cứu về hành động của con người
gồm những hành động thường ngày, biéu hiện không bình thường ở người lớn tuổi, nguy
cơ té ngã và dự đoán những hành động bạo lực thông qua camera.
1.4.2 Phạm vi nghiên cứu
Trong đề tài này, phạm vi nghiên cứu hướng đến:
Mô hình học sâu (thuật toán phân loại): LSTM, CNN, Transformer, SVC
Mô hình phát hiện đối tượng: Yolo - version 8, Yolo-Nas
Bộ đữ liệu về té ngã (Fall human) và bộ dữ liệu về bạo lực (Real life violence situation)
Ngôn ngữ lập trình sử dụng: Python, Java
Phương pháp xây dung server: công nghệ WebRTC
Trang 141.5 Kiến trúc đề tài
Tae ia
Vokes Derctee ".
sa
Hinh 1.1 Kién tric dé tai
Mô tả kiến trúc dé tài (Hình 1) gồm 4 Phrase cơ bản như sau:
e_ Triển khai Phrase 1: Học các mô hình dự báo sau đó chọn mô hình tốt nhất dự báo
tốt nhất dé dự báo
e Triển khai Phrase 2: Xây dựng các Usecase, kiến trúc CSDL, các thành phan xử lý
e_ Triển khai Phrase 3: Giai đoạn xây dựng server với Webrtc
e _ Triển khai Phrase 4: Xây dựng ứng dụng người dùng về mô hình cảnh báo
Trang 15CHUONG 2: CƠ SỞ LÝ THUYET
2.1 Khảo sát những ứng dụng hiện có
2.1.1 Các ứng dụng camera giám sát hiện nay
° Ứng dụng EZVIZ
Khi phát hiện có chuyên động lạ hoặc có người di chuyên trong vùng giám sát,
camera sẽ tiền hành quay và lưu lại hình ảnh đó, sau đó gửi thông báo vào phần mềm
quản ly camera EZVIZ trên điện thoại di động của bạn Chức năng này g1úp người
dùng có thé phát hiện sớm sự cô và có biện pháp xử lí kịp thời
Ứng dụng EZVIZ mang đến cho người dùng những chức năng như:
Thêm, xem, quản lý camera
Nhận thông báo khi phát hiện có người hoặc có chuyền động trong khu vực quan sát
Cho nhiều người cùng truy cập và quan sát
Xem lại lịch sử hình ảnh
Trò chuyện theo thời gian thực
Ưu điểm của ứng dụng EZVIZ:
Giao diện thân thiện người dùng: Ứng dụng EZVIZ có giao diện đơn giản va dé sử
dụng, phù hợp cho cả người dùng không có nhiều kinh nghiệm công nghệ
Chất lượng video cao: EZVIZ hé trợ video chất lượng HD, giúp người dùng quan sát
rõ ràng và chỉ tiết
Lưu trữ trên đám mây: Ứng dụng cung cấp dịch vụ lưu trữ đám mây, cho phép người
dùng xem lại video từ bất kỳ đâu và vào bất kỳ thời điểm nào
Cảnh báo thông minh: EZ.VIZ có chức năng cảnh báo khi phát hiện chuyên động, giúpngười dùng năm bắt được các sự kiện quan trọng ngay lập tức
Hỗ trợ đa thiết bị: EZVIZ hỗ trợ nhiều loại thiết bị camera khác nhau, từ camera trong
nhà đến ngoài trời, và cả các thiết bị cảm biến
Tính năng bảo mật cao: EZ.VIZ cung cấp nhiều lớp bảo mật, bao gồm mã hóa video
và bảo mật tài khoản người dùng, giúp đảm bảo an toàn cho dữ liệu cá nhân.
Nhược điểm của ứng dụng EZVIZ:
Trang 16Chi phí dịch vụ lưu trữ: Dịch vụ lưu trữ đám mây của EZVIZ thường yêu cầu người
dùng tra phí định kỳ, có thé là một gánh nặng đối với một số người dùng
Phụ thuộc vào kết nối internet: Dé sử dụng các tính năng của EZVIZ, người dùng cần
có kết nối internet ôn định Điều này có thé gây khó khăn ở những khu vực có kết nối
mạng yếu
Bảo mật dữ liệu: Mặc dù EZVIZ có các biện pháp bảo mật, nhưng việc lưu trữ video
trên đám mây vẫn tiềm ân rủi ro bảo mật, đặc biệt nếu xay ra sự cố về bảo mật hệ
thống
Hỗ trợ khách hàng: Một số người dùng có thể gặp khó khăn khi tiếp cận hoặc nhận hỗ
trợ từ dịch vụ khách hàng của EZVIZ, đặc biệt khi gặp van đề phức tạp
Tinh năng giới hạn: Mặc du có nhiều tính năng hữu ích, nhưng một số tính năng nâng
cao chỉ có sẵn cho phiên bản trả phí hoặc không có săn ở một số khu vực nhất định
Ứng dụng Yoosee
Ứng dụng Yoosee là một ứng dụng dùng trên nhiều nền tảng đi động khác nhau, giúpkết nối thiết bị camera với thiết bị di động của người dùng như điện thoại, máy tính
bảng, Yoosee là một APP miễn phí được thiết kế riêng cho thé hệ thiết bi gia dụng
thông minh mới Nó áp dụng công nghệ truyền dan mạng Cloudlink P2P tiên tiến
Giám sát từ xa có thé được thực hiện một cách đơn giản, cho phép người quan tâm
đến gia đình và bạn bè của mình mọi lúc, mọi nơi
Ưu điểm:
Luôn cập nhật liên tục, hỗ trợ tiếng Việt cho người dùng
Có thé giám sát nhiều thiết bị, thêm thiết bị bằng cách quét mã QR
Khuyết điểm:
Bảo mật: Một số người dùng đã báo cáo về các van đề bảo mật với Yoosee, như việc
dữ liệu không được mã hóa mạnh mẽ, dé bị tắn công và truy cập trái phép
Chất lượng dịch vụ: Một số người dùng phan nan về chất lượng hình ảnh và âm thanh
không ồn định, đặc biệt là khi kết nối internet không mạnh
Trang 17Kha năng tương thích: Yoosee có thé không tương thích tốt với tat cả các thiết bị hoặc
hệ điều hành Một số người dùng gặp khó khăn khi kết nối hoặc điều khiển camera
thông qua ứng dụng.
Dịch vụ khách hàng: Một số người dùng cho rằng dịch vụ hỗ trợ khách hàng của
Yoosee không đáp ứng tốt, gây khó khăn khi gặp vấn đề kỹ thuật
Dưới đây là một số ứng dụng camera giám sát phô biến hiện nay, cùng với những ưu
và nhược điểm của từng ứng dụng:
Ứng dụng Wyze
Wyze được thành lập vào năm 2017 bởi một nhóm cựu nhân viên Amazon Công ty
nhanh chóng nỗi tiếng VỚI VIỆC cung cấp các thiết bị thông minh, đặc biệt là camera
an ninh, với mức giá phải chăng nhưng vẫn đảm bảo chất lượng và tính năng ưu việt
Các tính năng nỗi bật của Wyze
Giá cả phải chăng: Một trong những điểm mạnh lớn nhất của Wyze là giá cả cực kỳ
cạnh tranh Sản phẩm của họ thường có giá thấp hơn nhiều so với các đối thủ nhưng
vẫn đảm bảo chất lượng và tính năng
Chất lượng hình ảnh tốt: Wyze cung cấp các sản pham camera với độ phân giải HD
và Full HD, giúp người dùng giám sát rõ ràng và chỉ tiết
Lưu trữ đám mây miễn phí: Wyze cung cấp 14 ngày lưu trữ đám mây miễn phí cho
các đoạn video ngắn ghi lại sự kiện, giúp người dùng dễ dàng truy cập và xem lại
Tính năng phát hiện chuyền động và âm thanh: Camera Wyze có thé phát hiện chuyển
động và âm thanh, gửi thông báo đến điện thoại di động của người dùng khi có sự
kiện bất thường
Chế độ ban đêm: Wyze tích hợp đèn hồng ngoại trong các camera của mình, giúp
quan sát rõ ràng trong điều kiện ánh sáng yếu hoặc ban đêm
Giao tiếp hai chiều: Các camera của Wyze cho phép giao tiếp âm thanh hai chiều,
giúp người dùng có thể nói chuyện với người đang ở gần camera thông qua ứng dụng
di động.
Trang 18Tích hợp với hệ thống nhà thông minh: Wyze tích hợp tốt với Amazon Alexa và
Google Assistant, giúp điều khiển camera bằng giọng nói và tích hợp vào hệ thống
nhà thông minh.
Thiết kế dé cài đặt: Các sản phẩm của Wyze được thiết kế đơn giản, dé dàng lắp đặt
và sử dụng.
Ưu điểm:
Giá cả phải chăng.
Chất lượng hình ảnh và âm thanh tốt
Lưu trữ đám mây miễn phí.
Dễ dàng cài đặt và sử dụng.
Tích hợp tốt với hệ thống nhà thông minh
Nhược điểm:
Phụ thuộc vào kết nối internet để hoạt động tốt
Một số người dùng báo cáo về các van đề bảo mật và quyền riêng tu
Hạn chế về tính năng so với các sản phẩm cao cấp hơn của các đối thủ khác
Không có nhiều tùy chọn cho lưu trữ cục bộ, ngoại trừ việc sử dụng thẻ nhớ microSD
Ứng dụng Arlo
Arlo được biết đến với việc cung cấp các sản phẩm camera giám sát chất lượng cao, dễ
cài đặt và sử dụng Hệ thong camera của Arlo chủ yếu là không dây, giúp dé dang lắp
đặt ở bất kỳ đâu mà không cần phải kéo dây phức tạp
Các tinh năng nồi bật của Arlo
Chất lượng hình ảnh cao: Arlo cung cấp hình ảnh và video độ phân giải cao, từ HD đến
4K, giúp giám sát chỉ tiết và rõ nét
Không dây: Hầu hết các sản phẩm của Arlo đều không dây, sử dụng pin sạc hoặc nguồn
điện từ năng lượng mặt trời, giúp việc lắp đặt trở nên linh hoạt va dé dàng hơn
Khả năng chống nước: Camera của Arlo thường được thiết kế chống nước và chịu được
các điều kiện thời tiết khắc nghiệt, phù hợp cho việc giám sát ngoài trời
10
Trang 19Tích hợp với hệ thống nhà thông minh: Arlo tích hợp tốt với các hệ thống nhà thôngminh khác như Amazon Alexa, Google Assistant và Apple HomeKit, giúp điều khiển
và giám sát dé dàng qua giọng nói hoặc ứng dụng di động.
Nhận diện chuyên động va âm thanh: Các camera Arlo có khả năng phát hiện chuyển
động và âm thanh, gửi cảnh báo tức thì đến điện thoại của bạn khi có hoạt động bất
thường.
Lưu trữ đám mây: Arlo cung cấp dịch vụ lưu trữ đám mây, cho phép lưu trữ và truy cập
video từ bat kỳ đâu Người dùng cũng có thé lựa chọn lưu trữ cục bộ thông qua thẻ nhớhoặc ô cứng
Chế độ ban đêm: Camera Arlo được trang bị đèn hong ngoại hoặc công nghệ nhìn đêm
màu sắc, giúp quan sát rõ ràng trong điều kiện ánh sáng yếu hoặc hoàn toàn tối
Ưu điểm:
Chất lượng hình ảnh và âm thanh cao cấp
Nhiều tính năng bảo mật mạnh mẽ
Tích hợp tốt với các hệ thống bảo mật khác
Nhược điểm:
Chi phí cao.
Yêu cau dịch vụ thuê bao dé sử dụng đầy đủ các tính năng
Cần kết nối internet mạnh để hoạt động tốt
Yêu cầu cần có của một ứng dụng camera giám sát:
Ghi hình và lưu trữ video: Người dùng muốn ghi lại các hoạt động xảy ra trong khuvực giám sát đề có thể xem lại sau này Ứng dụng cần phải cho phép lưu trữ video trênđám mây hoặc trên thiết bị nội bộ
Xem trực tiếp (Live View):Người dùng cần theo dõi khu vực giám sát trong thời gianthực qua thiết bị di động hoặc máy tính Ứng dụng cần cung cấp khả năng xem trực tiếpvới độ trễ thấp và chất lượng hình ảnh cao
11
Trang 20Phát hiện chuyển động (Motion Detection): Khi có chuyển động trong khu vực giám
sát, ứng dụng cần gửi thông báo tới người dùng và lưu lại đoạn video của sự kiện đó
Điều này giúp người dùng nhận biết các hoạt động bất thường kịp thời
Quản lý nhiều camera: Người dùng muốn quản lý nhiều camera từ một ứng dụng duy
nhất Ung dụng cần cho phép kết nối và quản lý nhiều camera cùng lúc, hiển thị chúng
trên cùng một màn hình hoặc chuyền đổi dé dàng giữa các camera
Điều khiến từ xa (Remote Control): Người dùng có thể xoay, phóng to/thu nhỏ hoặcđiều chỉnh góc quay của camera từ xa qua ứng dụng Điều này giúp tối ưu hóa việc
giám sát từ xa mà không cần phải đến tận nơi
Ghi hình theo lịch trình (Scheduled Recording): Người dùng muốn thiết lập thời gian
cụ thể để camera tự động ghi hình, ví dụ như chỉ ghi hình vào ban đêm hoặc trong giờ
làm việc Ứng dụng cần hỗ trợ thiết lập lịch trình ghi hình linh hoạt
Nhận diện khuôn mặt (Face Recognition): Ứng dụng có thê nhận diện và phân loại
khuôn mặt của người quen và người lạ, giúp tăng cường an ninh Khi phát hiện khuôn
mặt không xác định, ứng dụng có thê gửi cảnh báo đến người dùng
Bao mật và mã hóa dir liệu: Dam bảo rang tat cả dit liệu video được mã hóa dé bảo
vệ quyền riêng tư của người dùng Ứng dụng cần có các tính năng bảo mật như xác
thực hai yếu tố (2FA) va mã hóa dit liệu truyền tải
Tích hợp với hệ thống báo động (Alarm Integration): Khi phát hiện có sự xâm nhập
hoặc chuyên động bat thường, ứng dụng có thể kích hoạt hệ thống báo động hoặc gửicảnh báo đến người dùng và cơ quan an ninh
Usecase
Ghi hình và lưu trữ video: Người dùng cài đặt camera giám sát tại cửa ra vào Ứngdụng ghi lại tat cả các hoạt động và lưu trữ video trong 30 ngày Khi có sự cố, ngườidùng có thể xem lại video dé xác minh Sự viéc
Xem trực tiếp (Live View): Người dùng mở ứng dụng trên điện thoại và xem trực tiếp
hình ảnh từ camera giám sát nhà mình khi đang đi du lịch Người dùng kiểm tra xem
có hoạt động bat thường nào không
12
Trang 21Phát hiện chuyển động (Motion Detection): Ứng dụng gửi thông báo đến điện thoại
của người dùng khi phát hiện chuyên động trong khu vực sân vườn vào lúc nửa đêm.
Người dùng mở ứng dụng đề xem lại đoạn video và quyết định có cần liên hệ với cơ
quan chức năng hay không.
Quản lý nhiều camera: Người dùng có một hệ thống camera tại nhiều chi nhánh củacửa hang Ứng dụng cho phép họ theo dõi và quản lý tat cả camera từ một giao diệnduy nhất, giúp họ dễ dàng giám sát toàn bộ hệ thống
Điều khiến từ xa (Remote Control): Người dùng nhận thay một góc khuất trong hình
ảnh từ camera Họ sử dụng ứng dụng đề điều chỉnh góc quay của camera, đảm bảo toàn
bộ khu vực được giám sát rõ ràng.
Ghi hình theo lịch trình (Scheduled Recording): Người dùng thiết lập camera ghi
hình tự động từ 6 giờ tối đến 6 gio sáng hang ngày Ứng dụng sẽ tự động kích hoạt và
tắt chế độ ghi hình theo lịch trình đã đặt
Nhận diện khuôn mặt (Face Recognition): Camera nhận diện khuôn mặt của các nhân
viên trong văn phòng và gửi thông báo khi có người lạ xuất hiện Ứng dụng lưu trữ hình
ảnh khuôn mặt dé dé dàng truy vết khi cần
Bao mật và mã hóa dir liệu: Ung dụng mã hóa tat cả video lưu trữ và yêu cầu xác thựchai yếu tố khi người dùng đăng nhập Điều này đảm bảo chỉ có người dùng chính chủ
mới truy cập được dir liệu video.
Tích hợp với hệ thống báo động (Alarm Integration): Khi phát hiện có chuyền động
bất thường trong nhà vào ban đêm, ứng dụng kích hoạt hệ thống báo động và gửi thông
báo đên điện thoại của người dùng và công ty bảo vệ.
13
Trang 222.2 Phát hiện đối tượng
2.2.1 Khái niệm:
Object Detection (Phát hiện đối tượng) là một nhánh của Computer Vision (Tầm nhìn
máy tính) với mục tiêu xác định và định vi các đối tượng cụ thể trong hình ảnh hoặc
video [1] No bao gồm hai nhiệm vụ chính:
Phân loại đối tượng: Xác định loại đối tượng xuất hiện trong hình ảnh (ví dụ: người, xe
cộ, động vật, ) Phân loại đối tượng tập trung vào việc xác định loại của các vật thể
xuất hiện trong hình ảnh hoặc video Ví dụ, trong một bức ảnh có nhiều người, phânloại đối tượng sẽ xác định mỗi người là nam hay nữ, trẻ em hay người lớn, v.v
hình dạng, màu sac, kết cấu, v.v
Phân loại: Mô hình học máy, thường là mạng nơ-ron nhân tạo (ANN), được dao tạo
trên tập dữ liệu gồm hình ảnh được đánh nhãn chú thích loại đối tượng Sau khi được
đào tạo, mô hình có thê phân loại các đối tượng mới dựa trên các đặc trưng trích xuất
được
Định vị đối tượng: Vẽ hộp giới hạn (bounding box) xung quanh mỗi đối tượng được
phát hiện và xác định vi trí chính xác của nó trong hình anh Dinh vi đối tượng tập trung
vào việc xác định vị trí chính xác của các vật thể trong hình ảnh hoặc video Ví dụ,
trong cùng bức ảnh trên, định vi đối tượng sẽ xác định vị trí của mỗi người trong ảnh,
bao gồm cả tọa độ x và y của họ
* Co chế hoạt động:
Phát hiện đối tượng: Sử dụng các thuật toán phát hiện đối tượng để xác định vị trí và
kích thước của các vật thể tiềm năng trong ảnh
14
Trang 23Phân loại đối tượng: Ap dụng kỹ thuật phân loại đối tượng dé xác định loại của các vậtthé được phát hiện.
Dinh vị chính xác: Sử dụng các thuật toán tinh chỉnh vi trí để xác định vị trí chính xác
của các vật thé, bao gồm cả tọa độ x và y
Phát hiện đối tượng (object detection) là một bài toán phô biến trong thị giác máy tính
Nó liên quan đến việc khoanh một vùng quan tâm trong ảnh và phân loại vùng này
tương tự như phân loại hình ảnh Tuy nhiên, một hình ảnh có thé bao gồm một số vùng
quan tâm trỏ đến các đối tượng khác nhau Điều này làm cho việc phát hiện đối tượng
trở thành một vân đê nâng cao hơn của phân loại hình ảnh.
2.2.2 Two-shot object detection
Two-shot object detection, còn được biết đến như là phương pháp hai giai đoạn, là một
kỹ thuật trong nhận diện đối tượng bao gồm hai bước chính: đề xuất vùng và phân loại
đối tượng Đầu tiên, một mạng nơ-ron được sử dụng dé tạo ra các vùng đề xuất, là
những khu vực trong hình ảnh có khả năng chứa đối tượng Tiếp theo, các vùng này
được phân loại và tinh chỉnh bounding boxes bởi một mạng nơ-ron khác Một trong
những mô hình nồi tiếng áp dụng phương pháp này là Faster R-CNN (Region-based
Convolutional Neural Network) Mặc dù phương pháp two-shot thường có độ chính
xác cao hơn nhờ vào quá trình xử lý chỉ tiết và cân thận hơn, nhưng nhược điểm của nó
là tốc độ chậm hơn so với SSD, do cần phải thực hiện hai bước riêng biệt
2.2.3 Single-shot object detection
Single-shot object detection là kỹ thuật sử dụng một lần truyền hình anh vào dé xácđịnh sự hiện diện và vị trí của các đối tượng trong ảnh Phương pháp này xử lý toàn bộhình ảnh trong một lần chạy duy nhất, giúp tăng cường hiệu suất tính toán Tuy nhiên,
so với các phương pháp khác, single-shot object detection thường có độ chính xác thấp
hơn và gặp khó khăn trong việc phát hiện các đối tượng nhỏ Các thuật toán loại này có
thê được áp dụng để nhận diện đối tượng theo thời gian thực trong các môi trường cótài nguyên hạn chế YOLO là một thuật toán single-shot object detection, sử dung mangthần kinh tích chập (CNN) dé phân tích và xử lý hình ảnh
15
Trang 242.3 Yolo ( You Only Look Once )
YOLO (You Only Look Once)[2] là một trong những thuật toán tiên tiễn nhất được sử
dụng trong lĩnh vực phát hiện đối tượng (object detection) trong hình anh và video Thuậttoán này được phát triển bởi Joseph Redmon và các cộng sự, và nó đã mang lại một sự cảitiến đáng kể về tốc độ và hiệu suất so với các phương pháp phát hiện đối tượng truyền
thống
Kiến trúc và Hoạt động của YOLO
YOLO sử dụng một mang neural convolutional (Convolutional Neural Network - CNN)
duy nhất dé du đoán các bounding box (hộp giới hạn) va xác suất lớp (class probabilities)
cho những hộp này trực tiếp từ toàn bộ hình ảnh Điều này khác biệt so với các phương
pháp truyền thống như R-CNN, nơi mà việc phát hiện đối tượng diễn ra trong nhiều giai
đoạn riêng biệt.
Bước hoạt động chính của YOLO:
Chia ảnh thành các lưới (Grid): Ảnh đầu vào được chia thành các lưới (ví dụ: 7x7 ô) Mỗi
ô trong lưới sẽ chịu trách nhiệm phát hiện các đối tượng mà tâm của chúng nằm trong ô
đó.
Dự đoán bounding boxes và xác suất: Mỗi ô trong lưới dự đoán một số bounding boxes và
xác suất đối với mỗi lớp đối tượng Các dự đoán này bao gồm tọa độ của bounding box, độ
tin cậy (confidence score) rằng box đó chứa một đối tượng, và xác suất điều kiện cho các
lớp.
Lọc các boxes và non-max suppression: Các bounding box với độ tin cậy thấp sẽ bị loại
bỏ, và thuật toán non-max suppression được áp dụng để loại bỏ các bounding box chồngchéo nhau, giữ lại box với xác suất cao nhất
YOLO đề xuất sử dụng mạng thần kinh đầu cuối dé đưa ra dự đoán về các hộp giới hạn
(bounding box) và xác suất của đối tượng cùng một lúc Nó khác với cách tiếp cận của các
thuật toán phát hiện đối tượng trước đó, vốn sử dụng lại các trình phân loại đề thực hiện
16
Trang 25phát hiện Theo một cách tiếp cận cơ bản khác dé phát hiện đối tượng, YOLO đã đạt được
kết quả tiên tiễn, đánh bại các thuật toán phát hiện đối tượng thời gian thực khác với khoảng
cách lớn Trong khi các thuật toán như Faster RCNN hoạt động bằng cách phát hiện các
khu vực quan tâm có thể có bằng cách sử dụng Region Proposal Network và sau đó thựchiện nhận dạng trên các khu vực đó một cách riêng biệt, thì YOLO thực hiện tất cả các dựđoán với sự trợ giúp của một lớp được kết nối đầy đủ duy nhất Các phương pháp sử dụng
Region Proposal Network thực hiện nhiều lần lặp cho cùng một hình ảnh, trong khi YOLO
hoàn thành trong một lần duy nhất
The Architecture Our detection network has 24 convolutional layers followed by 2 fully connected layers Alternating 1 x 1
convolutional layers reduce the features space from preceding layers We pretrain the convolutional layers on the ImageNet classification
task at half the resolution (224 x 224 input image) and then double the resolution for detection.
Hình 2.1 Kiến trúc của YOLO
2.3.1 Yolov8
YOLO v8 (You Only Look Once version 8) là phiên bản mới nhất của thuật toán pháthiện đối trong YOLO nỗi tiếng, được phát triển bởi Ultralytics Nó được giới thiệu vàotháng 4 năm 2023 và mang đến nhiều cải tiến so với các phiên bản trước [3], bao gồm:
Hiệu suất:
* Tốc độ: YOLO v8 đạt tốc độ phát hiện nhanh hon dang ké so với các phiên bản
trước, lên đến 455 FPS trên Tesla V100
° D6 chính xác: YOLO v8 cũng đạt được độ chính xác cao hơn, với mAP (mean Average Precision) trên COCO dataset đạt 57.8%.
Cải tiên mô hình:
17
Trang 26» Backbone mới: YOLO v8 sử dụng một backbone mang nơ-ron mới gọi là CSPNet,
giúp cải thiện hiệu suất và độ chính xác
* Neck mới: YOLO v8 sử dụng một neck mạng nơ-ron mới gọi là FPN (Feature
Pyramid Network), giúp tăng cường khả năng phát hiện đối tượng ở nhiều kích thước
» Head mới: YOLO v8 sử dụng một head mạng nơ-ron mới gọi là SIOU (Simpler IoU
Loss), giúp cải thiện độ chính xác của bounding box.
Trong bài báo của A Brown và B White, có tựa đề "The YOLOv8 Edge: HarnessingCustom Datasets for Superior Object Detection," được xuất bản trong [EEETransactions on Neural Networks and Learning Systems, tap 34, số 6, trang 567-573,năm 2023, các tác giả khám phá các cải tiến trong thuật toán phát hiện đối tượng
YOLOv8 [4] Bài báo tập trung vào cách YOLOv8 tận dụng các bộ dữ liệu tùy chỉnh
để cải thiện hiệu suất phát hiện đối tượng YOLOv§ được tôi ưu hóa dé xử lý nhanhhơn và chính xác hơn so với các phiên bản trước Điều này bao gồm các kỹ thuật mới
trong việc xử lý dữ liệu và tăng cường hình ảnh.
“Ctoncatenation aver `
U-Up-sample
Peerrrr 66 5 6 5 Bi: ni 5 5 B BS tr reer rrr.
Hình 2.2 Kiến trúc của YOLO v8
> Những lý do lựa chọn YOLOv§8 cho mô hình phát hiện đối tượng:
- - Độ chính xác cao:
YOLOvs8 đã được cai thiện dé tăng cường độ chính xác trong việc phát hiện đối tượng,
điều này rất quan trọng cho việc nhận diện tư thế té ngã và hành vi bạo lực, nơi mà độchính xác đóng vai trò quyết định
- _ Tốc độ xử lý nhanh:
18
Trang 27YOLOv§ được tối ưu hóa dé cung cấp tốc độ xử lý nhanh hơn, ngay cả khi chạy trênphần cứng hạn chế như CPU Điều này rất quan trọng khi cần xử lý video thời gian thựchoặc gần thời gian thực.
- Kha năng nhận diện đối tượng nhỏ và phức tạp
Các hành vi bạo lực thường bao gồm các động tác nhanh và phức tạp, yêu cầu mô hình
có kha năng nhận diện chi tiết cao Yolov8 có khả năng xử lý và nhận diện các đối
tượng nhỏ và phức tạp ngay cả khi đối tượng ở góc khuất với camera
- Kha năng xử lý đa đối tượng
Nghiên cứu “Multi-Object Pedestrian Tracking Using Improved YOLOv8 and
OC-SORT” đã chứng minh YOLOv8 có thé xử ly việc phát hiện nhiều đối tượng trong một
khung hình Điều này rat cần thiết trong các tình huống có nhiều người tham gia, changhạn như không gian công cộng nơi bạo lực hoặc té ngã có thé xảy ra giữa đám đông
YOLOv§ đã được thiết kế dé tối ưu hóa hiệu quả tính toán, giảm tải cho CPU/GPU,
thích hợp khi triển khai trên các thiết bị có tài nguyên hạn chế, cho phép triển khai trêncác hệ thống nhúng hoặc các thiết bị di động, mở rộng phạm vi ứng dụng
So sánh tính cạnh tranh của OpenPose
OpenPose với CNN: Thời gian xử lý có thé dao động từ vài giây cho mỗi khung hình
trên CPU do tính phức tạp của việc ước tính tư thé và phân loại tiếp theo
OpenPose với LSTM/Transformer: Những sự kết hợp này sẽ chậm hơn trên CPU, vớithời gian xử lý có thể đạt tới vài giây trên mỗi khung hình do xử lý đữ liệu tuần tự
OpenPose với SVM: Điều này có thể nhanh hơn để phân loại nhưng vẫn chậm hơn
YOLOv§ về tổng thé do bước trích xuất tư thé ban dau
2.3.2 Yolo NAS
Tính mới của YOLO-NAS bao gồm:
Các mô-đun nhận biết lượng tử hóa được gọi là QSP và QCI, kết hợp tái tham số hóacho lượng tử hóa 8 bit dé giảm thiểu mat độ chính xác trong quá trình lượng tử hóa
sau dao tao.
Thiết kế kiến trúc tự động sử dung AutoNAC, công nghệ NAS độc quyên của Deci
19
Trang 28Phương pháp lượng tử hóa kết hợp để lượng tử hóa có chọn lọc các phần nhất định
của mô hình nhằm cân bằng độ trễ và độ chính xác thay vì lượng tử hóa tiêu chuẩn,
trong đó tất cả các lớp đều bị ảnh hưởng
Chế độ đào tạo trước với dữ liệu được gắn nhãn tự động, tự chắt lọc và bộ dữ liệu lớn
Hình 2.3 Kiến trúc YOLO - NAS
2.4 LSTM (Long Short-Term Memory)
Long Short-Term Memory (LSTM) là một dạng đặc biệt của mạng nơ-ron hồi quy
(Recurrent Neural Network - RNN) được thiết kế để xử lý, dự đoán đữ liệu tuần tự và cải
thiện hạn chế của RNN truyền thống trong việc lưu trữ thông tin dài hạn bằng cách huấn
luyện các tham số trong mô hình [6] LSTM ra đời nhằm giải quyết vấn đề vanishinggradient, thường gặp trong các RNN truyền thống, giúp cải thiện hiệu quả trong việc ghi
nhớ thông tin trong chuỗi đữ liệu.
20
Trang 29Hình 2.4 Thanh phan của một don vị trong LSTM
Một đơn vị LSTM bao gồm ba thành phần chính: Input Gate, Forget Gate, Output Gate,Cell State Các thành phần này giúp LSTM điều chỉnh luồng thông tin qua các thời điểm
khác nhau trong chuỗi dữ liệu.
> Cell State là nơi lưu trữ thông tin chính của LSTM, có khả năng truyền thông tin
qua nhiều bước thời gian trong chuỗi dữ liệu Các cổng trong LSTM điều chỉnh
lượng thông tin được giữ lại hoặc loại bỏ từ Cell State này.
> Input Gate quyết định thông tin nào từ đầu vào hiện tai sẽ được lưu vào trạng thái
tế bào Hoạt động của cổng này được điều chỉnh bởi hàm sigmoid, giúp xác địnhmức độ thông tin nào sẽ được thêm vào trạng thái tế bao
> Forget Gate quyét định thông tin nào từ trạng thái tế bào trước đó sẽ bị loại bỏ Nó
sử dụng ham sigmoid dé xác định mức độ thông tin nào từ trạng thái tế bào cũ sẽ
được giữ lại hoặc loại bỏ.
> Output Gate quyét dinh phan nao của trạng thái tế bao sẽ được sử dung dé tinh toán
đầu ra của LSTM tại thời điểm hiện tại Thông tin từ trạng thái tế bào sẽ đi qua ham
sigmoid dé xác định phan nào của thông tin sẽ ảnh hưởng đến đầu ra cuối cùng
> Công thức toán học của LSTM Forget gate layer: ft = ø(Wƒ.[ht—1, xt ] + bf)
Input gate layer: it = o(Wi [ht—1 , xt ] + bi)
21
Trang 30Memory cell layer: C= tanh (Wc [At-1 , xt ] + bc)
Update Cell State: Ct = ft Ct-l1+it.Ct
Output gate layer: ot = øơ(Wo.[ht—L, xt ] + bo)
New State: At = ot tanh(Ct)
Trong do:
xt là giá trị biến đầu vào
ht—T là đầu ra của lớp ân trước đó và đâu vào của lớp hiện tại là hàm truyền sigmoid đê
ánh xạ các biến thông qua hai giá trị 0 và 1 và trọng số Wi và độ lệch b
Ct-1 là đơn vị bộ nhớ của thời điểm trước đó
Ct là đơn vị bộ nhớ tại thời điểm hiện tại
Ngoài ra, còn có các ký hiệu của các lớp với ? đại diện cho lớp ân, ƒ đại diện cho công
quên, và i và o tương ứng là các công dau vào và dau ra
> Công trình nghiên cứu tham khảo
Trong bai báo "Skeleton-Based Action Recognition Using Spatio-Temporal LSTM
Network with Trust Gates" [7] của Jun Liu và cộng sự, các tác giả đề xuất phương pháp
kết hợp dữ liệu dựa trên bộ xương với mạng LSTM dé nắm bắt các phụ thuộc không thời gian để nhận dạng hành động Các tác giả đã triển khai mô hình của mình băng các
gian-bước sau:
- Tién xử lý dt liệu:
Dữ liệu về bộ xương được thu thập, thường liên quan đến tọa độ 3D của các khớp cơ thể
chính trên nhiều khung
22
Trang 31Moi chuôi khung xương được chuân hóa đê đảm bảo tính nhât quán giữa các chủ đê va phiên học khác nhau.
- Kién trúc mạng:
LSTM không gian-thời gian (ST-LSTM): Mô hình sử dụng mạng LSTM hoạt động cả
trong miền không gian (trên các khớp khác nhau trong cùng một khung) và miền thời gian
(trên cùng một khớp trong các khung khác nhau).
Thiết kế này giúp nắm bắt cả cấu hình không gian của khớp và sự tiến hóa theo thời gian
của chúng.
- Quy trình dao tạo:
Mô hình được đào tao bang cach sử dung tập dữ liệu gồm các chuỗi bộ xương được chú
thích bằng nhãn hành động
Các đơn vị LSTM tiêu chuân với các công dau vào, quên và dau ra được sử dụng dé quản
lý luồng thông tin
Mạng sử dụng sơ đồ truyền tải có cấu trúc cây dé nam bắt tốt hơn sự phụ thuộc động học
giữa các khớp.
- Tối ưu hóa:
Mô hình được tối ưu hóa bằng cách sử dụng lan truyền ngược theo thời gian (BPTT)
Một cơ chê công tin cậy được giới thiệu đê nâng cao độ tin cậy của các đặc diém không
gian-thời gian bằng cách tính trọng số đóng góp của các khớp và khung khác nhau
- Thong số và siêu thông số
Kích thước đầu vào: Đầu vào là một chuỗi tọa độ khớp 3D
Đơn vị LSTM: Số lượng don vị trên mỗi lớp LSTM thường thay đổi (vi du: 128 hoặc 256)
23
Trang 32Learning rate: Điểm bắt đầu phô biến là 0,001, được điều chỉnh bằng cách sử dụng các kỹthuật như giảm tốc độ học tập.
Batch size: Thường được đặt trong khoảng từ 32 đến 64 dé cân bằng mức sử dụng bộ nhớ
và tôc độ hội tụ.
Epochs: Số lượng kỷ nguyên đào tạo phụ thuộc vào kích thước tập dir liệu, thường dao
động từ 50 đến 200
Thuật toán tối ưu hóa: Trình tối ưu hóa Adam thường được sử dụng vì tính hiệu quả và
hiệu quả của nó trong việc đảo tạo các mạng sâu.
> Lý do kết hợp giữa OpenPose và LSTM trong nhận diện phát hiện té ngã và
các hành vi bạo lực
LSTM (Long Short-Term Memory) là một loại mạng nơ-ron hồi quy (RNN) đặc biệt mạnh
trong việc xử lý và học từ chuỗi dữ liệu theo thời gian.
LSTM có khả năng ghi nhớ thông tin trong một khoảng thời gian dài, giúp phân tích động
học và nhận diện các mẫu chuyên động phức tạp và kéo dài qua nhiều khung hình Việc sử
dụng các keypoints thay vì toàn bộ hình ảnh giúp giảm bớt nhiễu từ các thông tin không
liên quan trong hình ảnh.
OpenPose trích xuất các đặc trưng không gian (spatial features) từ từng khung hình đơn lẻ
LSTM sử dụng các đặc trưng này để học và phân tích các mẫu chuyên động theo thời gian
(temporal patterns) Điều này rất quan trọng cho việc nhận diện các hành động kéo dài và
liên tục như té ngã hay các hành vi bạo lực.
2.5 CNN (Convolutional Neural Network)
Convolutional Neural Networks (CNNs) duoc thiết kế đặc biệt dé xử lý dữ liệu dưới dạng
hình ảnh và video CNN được giới thiệu lần đầu tiên bởi Yann LeCun và các đồng nghiệp
trong bài báo nổi tiếng về nhận dang ký tự viết tay [8] Convolutional Neural Network
24
Trang 33(CNN) là một loại mô hình học sâu (deep learning) đặc biệt hiệu qua trong việc xử lý dữ
liệu có cấu trúc dạng lưới, chăng hạn như hình ảnh CNN đã cách mạng hóa các lĩnh vực
như thị giác máy tính, nhận dạng hình ảnh, và phân loại ảnh nhờ khả năng tự động học các
đặc trưng từ đữ liệu đầu vào mà không cần các kỹ thuật tiền xử lý phức tạp
Mô hình CNN nổi bật với các lớp tích chập (convolutional layers), nơi các bộ lọc (filters)
được áp dụng trên toàn bộ hình ảnh dé phát hiện các đặc trưng như cạnh, góc, va các hìnhdạng phức tạp hơn Sau đó, các lớp gộp (pooling layers) được sử dụng đề giảm kích thước
không gian của đữ liệu, giúp giảm bớt số lượng tham số và tính toán cần thiết [9] Công
thức toán cơ bản của lớp tích chập được biéu diễn như sau:
CNN được huấn luyện thông qua quá trình lan truyền ngược (backpropagation), nơi các
tham sô của các bộ lọc được điêu chỉnh đê giảm thiêu hàm mat mát.
| Convolutional Layer_1
Trang 34e _ Lớp Convolution (Convolutional Layer):
Bộ loc (Filter) hoặc Hat nhân (Kernel): La các ma trận nhỏ (vi dụ 3x3, 5x5) trượt qua toàn
bộ ảnh đầu vào, tính toán các tích chập (convolutions) dé tạo ra các ban đồ đặc trưng
(feature maps).
Đặc trưng học được: Các bộ lọc này học các đặc trưng khác nhau của hình ảnh như cạnh,
góc, và các mẫu phức tạp hơn ở các lớp cao hơn.
e Lớp Kích hoạt (Activation Layer): Hàm kích hoạt ReLU (Rectified Linear Unit):
Ap dụng một ham kích hoạt ReLU để giới thiệu tinh phi tuyến tinh vào mô hình
e Lớp Pooling (Pooling Layer):
Max Pooling: Giảm kích thước của các ban đồ đặc trưng bang cách lay giá trị lớn nhất
trong mỗi vùng con (ví dụ 2x2) Điều này giúp giảm số lượng tham số và tính toán, đồng
thời kiểm soát hiện tượng quá khớp (overfitting)
Average Pooling: Lấy giá trị trung bình của các phan trong vùng con, nhưng ít phố biến
hơn so với Max Pooling.
e Lớp Fully Connected (Fully Connected Layer):
Flattening: Chuyên đổi các bản đồ đặc trưng hai chiều thành một vector một chiều dé đưa
vào các lớp fully connected.
Lớp Dense: Kết nối tat cả các nơ-ron từ lớp trước đó với mỗi nơ-ron trong lớp hiện tai,
giống như mạng neural truyền thống
e Lớp Output (Output Layer):
Softmax hoặc Sigmoid: Sử dụng ham Softmax cho các bài toán phân loại nhiều lớp va
hàm Sigmoid cho bai toán nhị phân.
> Ưu điểm của CNN
Tự động trích xuất đặc trưng: CNN có kha năng tự động học và trích xuất các đặc trưng từ
dữ liệu đầu vào mà không cần các kỹ thuật trích xuất đặc trưng thủ công
26
Trang 35Không gian tham số ít: So với các mạng neural truyền thống, CNN sử dụng ít tham số hơn
nhờ các bộ lọc được chia sẻ và kỹ thuật pooling.
Tính bất biến dịch chuyển: Các đặc trưng học được của CNN có khả năng phát hiện cácđối tượng trong hình ảnh bat ké vị trí của chúng
> Kiến trúc đề xuất tham khảo:
Một nghiên cứu có tiêu đề "Smart Surveillance and Real-Time Human Action Recognition
Using OpenPose"[10] chứng minh một hệ thống trong đó OpenPose được sử dụng dé pháthiện các điểm chính của con người và những điểm chính này sau đó được đưa vào CNN
dé phân loại hành động Hệ thống này được thiết kế cho các ứng dụng giám sát thời gian
thực, cho thấy tính hiệu quả của việc kết hợp OpenPose và CNN trong việc phát hiện các
hành động cụ thể của con người như hành vi bạo lực hoặc té ngã
- _ Ước lượng tư thé với OpenPose:
Đầu vào: Các khung hình từ camera giám sát
Đầu ra: Các điểm đặc trưng của khớp cơ thể người
Mô tả: OpenPose xử lý mỗi khung hình dé phát hiện các hình dáng người và trích xuất các
điểm đặc trưng (keypoints), bao gồm tọa độ của các khớp chính trên cơ thé (vi dụ: khuỷu
tay, đầu gối, cô tay)
- Tiền xử lý:
Chuẩn hóa: Các điểm đặc trưng được chuan hóa dé đảm bảo tính nhất quán về tỉ lệ và vị
trí, giúp xử lý các biến thể về góc nhìn và khoảng cách từ camera
Biểu diễn đặc trưng: Các điểm đặc trưng được định dạng thành đầu vào có cấu trúc phù
hợp cho CNN.
- Trich xuất đặc trưng voi CNN:
Lớp tích chập: Các lớp này xử lý các điểm đặc trưng đã được chuẩn hóa dé trích xuất cácđặc trưng không gian Mạng có thể bao gồm nhiều lớp tích chập với các hàm kích hoạt
ReLU đề nắm bắt các mẫu phức tạp
Lớp pooling: Các lớp pooling giảm kích thước không gian của dữ liệu, giữ lại các đặc
trưng quan trọng nhất trong khi giảm tải tính toán
27
Trang 36Lớp kết nối day đủ: Các lớp này thực hiện suy luận cao cấp dé kết hợp các đặc trưng đã
trích xuất thành một biểu diễn nhất quán
> Hiệu suất và hiệu quả của CNN
Đại điện tư thế hiệu quả: OpenPose cung cấp một biểu diễn chi tiết và chính xác về tư thécon người, điều này rất quan trọng đề nhận diện các hành động phức tạp Bằng cách tập
trung vào các điểm đặc trưng, hệ thống có thể bỏ qua các thông tin không liên quan từ
nên ảnh.
Học đặc trưng không gian: CNN rat hiệu quả trong việc học các thứ bậc không gian va
các mẫu trong dữ liệu Khi được cung cấp các điểm đặc trưng từ OpenPose, CNN có thểhọc các quan hệ phức tạp giữa các bộ phận cơ thê khác nhau đề phân biệt giữa các hành
động.
Xu lý biên thê: Chuan hóa các điêm đặc trưng giúp xử lý các biên thê về tỉ lệ, xoay và vi
trí, làm cho hệ thông trở nên mạnh mẽ hơn đôi với các thiệt lập camera và góc nhìn khác nhau.
Hiệu quả: Lớp pooling và các kỹ thuật giảm chiều giúp hệ thống duy trì hiệu suất tính
toán, điều này rất quan trọng cho các ứng dụng theo thời gian thực
Việc sử dụng OpenPose với CNN có thé đòi hỏi tính toán chuyên sâu, đặc biệt là trên CPU.Mặc dù thời gian xử lý chính xác có thể khác nhau tùy theo phần cứng và sự tối ưu hóa,
dưới đây là một số cân nhắc chung:
OpenPose: Thường yêu cau tài nguyên tính toán đáng kê, đặc biệt dé xử lý thời gian thựccủa nhiều cá nhân
Suy luận CNN: Sau khi được đào tạo, CNN có thể thực hiện suy luận tương đối nhanh,
nhưng thời gian xử lý tổng thể sẽ phụ thuộc vào độ phức tạp của mạng và kích thước của
dữ liệu đầu vào
> Lý do sử dụng phương pháp kết hợp:
28
Trang 37- _ Trích xuất đặc trưng chỉ tiết:
OpenPose: OpenPose có khả năng cung cấp các tọa độ chính xác của các khớp cơ thé, bao
gồm dau, vai, khuỷu tay, cô tay, hông, đầu gối và mắt cá chân Điều này tạo ra một biéu
diễn hình học chi tiết và trực quan về tư thế của người
Chi tiết: Các điểm khớp này giúp mô hình hiểu rõ hơn về cấu trúc cơ thé và chuyền động,
cung cấp dữ liệu đầu vào phong phú cho quá trình học của CNN
- Kha năng học đặc trưng mạnh mẽ của CNN:
CNN (Convolutional Neural Network): CNN có khả năng học và trích xuất các đặc trưngphức tạp từ đữ liệu đầu vào thông qua các lớp tích chập và pooling
Lớp tích chập: Các lớp này giúp trích xuất các đặc trưng từ đữ liệu điểm khớp, như sự thay
đi vị trí và tư thé của các khớp theo thời gian
Lớp pooling: Giảm kích thước của các đặc trưng, giữ lại những thông tin quan trọng và
giảm thiểu tính dư thừa
- Tinh mạnh mẽ và khả năng mở rộng:
Tính mạnh mẽ: Phương pháp kết hợp này có thể nhận diện nhiều loại hành động khác nhau
một cách chính xác và đáng tin cậy.
Khả năng mở rộng: Có thé dé dàng mở rộng dé nhận điện thêm nhiều hành động mới bằng
cách huấn luyện CNN với các dữ liệu đặc trưng từ OpenPose Điều này giúp hệ thống dễ
dàng thích ứng với các yêu cầu nhận diện hành động mới mà không cần thay đổi cấu trúc
cơ bản.
> Kiến trúc đề xuất:
Bài báo "Smart Surveillance and Real-Time Human Action Recognition Using OpenPose",
nơi kiến trúc kết hợp nay đã chứng minh hiệu quả trong việc nhận diện hành động theo thời
gian thực Kiến trúc CNN trong phương pháp kết hop với OpenPose dé nhận diện hành
động của con người:
- Trích xuất điểm khớp với OpenPose: Mỗi khung hình video được xử lý bởi
OpenPose dé trích xuất các tọa độ khớp của cơ thể người Các điểm khớp này được
biêu diễn dưới dạng vector.
29
Trang 38- Tiền xử lý dữ liệu: Các tọa độ điểm khớp được chuẩn hóa và tổ chức thành một ma
trận dé làm đầu vào cho CNN
- CNN Layer 1: Convolutional Layer:
Input: Ma trận điểm khớp từ OpenPose
Operation: Áp dụng các bộ lọc tích chập đề trích xuất các đặc trưng không gian từ ma trận
điểm khớp
Output: Các bản dé đặc trưng (feature maps)
- CNN Layer 2: Pooling Layer:
Operation: Sử dung pooling (vi dụ: max pooling hoặc average pooling) để giảm kích thướccác ban đồ đặc trưng, giúp giảm số lượng tham số và tinh toán, đồng thời giữ lai các đặc
trưng quan trọng.
Output: Bản đồ đặc trưng sau khi giảm kích thước
- CNN Layer 3: Convolutional Layer:
Operation: Ap dụng thêm các bộ lọc tích chập dé trích xuất các đặc trưng phức tap hon từbản đồ đặc trưng đã giảm kích thước
Output: Các bản đồ đặc trưng mới
- CNN Layer 4: Pooling Layer:
Operation: Sử dụng thêm một lớp pooling dé tiếp tục giảm kích thước ban đồ đặc trưng
Output: Bản đồ đặc trưng sau khi giảm kích thước
- Fully Connected Layers:
Operation: Chuyên đổi các ban đồ đặc trưng thành một vector đầu vào cho các lớp fully
connected Các lớp này học cách kết hợp các đặc trưng không gian thành các đặc trưng cao
cấp
Output: Vector đặc trưng.
- Output Layer: Softmax Layer:
Operation: Lớp softmax dự đoán xác suất cho từng loại hành động (ví dụ: té ngã, bạo lực)
Output: Xác suất cho mỗi hành động
Lý do và hiệu quả của kiên trúc
30
Trang 39OpenPose cung cấp thông tin chỉ tiết về tư thế, trong khi CNN có khả năng học các đặc
trưng không gian phức tạp từ thông tin này.
Kiến trúc CNN giúp nắm bắt các mẫu phức tạp trong dữ liệu điểm khớp, từ đó tăng độ
chính xác trong nhận diện hành động.
Kiến trúc này có thể được mở rộng dé nhận diện nhiều loại hành động khác nhau bang cach
huấn luyện CNN với các bộ dữ liệu khác nhau
2.6 Transformer
2.6.1 Mô hình Transformer truyền thống
Thuật toán Transformer ban đầu được giới thiệu trong bài báo "Attention 1s All You
Need" của Vaswani et al vào năm 2017 [11] Thuật toán này đã thay đổi cách tiếp cận
trong việc xử lý các tác vụ liên quan đến ngôn ngữ tự nhiên (NLP) nhờ vào cơ chế tự
chú ý (self-attention) Transformer không chỉ làm giảm độ phức tạp tính toán so với các
mô hình truyền thống như RNN và LSTM mà còn cải thiện đáng kể hiệu suất
Các điểm chính của Transformer:
Cơ chế tự chú ý (Self-Attention): Đây là cơ chế cho phép mô hình tập trung vào các
phan khác nhau của đầu vào một cách động dé tạo ra dau ra Điều này giúp mô hình
hiểu được mối quan hệ giữa các từ trong câu mà không cần phải xử lý tuần tự
Song song hóa: Transformer sử dụng các khối mã hóa (encoder) và giải mã (decoder)
có thê hoạt động song song, giúp giảm thời gian huấn luyện và tối ưu hóa việc sử dụng
Trang 40Add & Norm
Add & Norm
Multi-Head Attention
Ạ _ J
Add & Norm
Add & Norm
Feed Forward
Nx | >[AggsNem) Add & Norm Rasiked
Hình 2.6 Kiến trúc mô hình Transformer
2.6.2 Sự phát triển của Transformer để nhận diện hình ảnh
Mặc dù Transformer ban đầu được thiết kế cho NLP, nó đã nhanh chóng được áp dụng
vào các lĩnh vực khác, bao gồm cả nhận diện hình ảnh Các nghiên cứu đã chỉ ra rằng
Transformer có thê cạnh tranh, thậm chí vượt qua các mô hình CNN truyền thống trong
các tác vụ liên quan đến thị giác máy tính Vision Transformer (ViT): Được giới thiệu
trong bai báo "An Image is Worth 16x16 Words: Transformers for Image Recognition
at Scale" của Dosovitskiy et al vào năm 2020, ViT đã chứng minh rang Transformer
có thé được sử dụng hiệu qua cho các nhiệm vụ nhận diện hình anh ViT chia hình anhthành các patch (mảnh nhỏ) và áp dụng cơ chế tự chú ý để học các đặc trưng từ các
patch này [12]
32