1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Hệ thống thông tin: Xây dựng ứng dụng di động tích hợp camera giám sát tại nhà nhằm phát hiện những nguy cơ tiềm ẩn nguy hiểm thông qua mô hình học sâu

100 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 100
Dung lượng 34,89 MB

Nội dung

Với mục đích xây dựng một ứng dụng di động tích hợp camera giám sát được huấn luyện liên tục theo thời gian thực nhằm giải quyết một số vấn đề như theo dõi người lớn tuổi, phát hiện ra n

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA HỆ THÓNG THÔNG TIN

LE ANH THU - 20521985

BUILDING A MOBILE APPLICATION INTEGRATED WITH HOME

SURVEILLANCE CAMERA TO DETECT POTENTIALLY DANGEROUS HAZARDS THROUGH DEEP LEARNING MODELS

KY SU/ CU NHAN NGANH HE THONG THONG TIN

GIANG VIEN HUONG DAN PGS TS NGUYEN ĐÌNH THUAN

TP HO CHi MINH, 2024

Trang 2

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU VA MÔ TẢ ĐÈ TÀI - - c + ++k+S++E+E+EeEzEeEzxerezxee 3

1.1 Tên đểtài c HH Huệ 3

1⁄2 Đặt vấn đề HH He 3

1.3 Mục tiêu của dé tài 5c kntTt T1 1111111111111 111111101111 111 111111111 re 4

1.4 Đối tượng và phạm vi nghiên cứu - 2-2 2+££+E++Ek+EE£EE£EEE+EEEkerkerkerreres 5

1.4.1 Đối tượng nghiên CỨU - - 2-2 2 £+E+SE9EE+EE2EE£EEEEEEEEEEEEEEE21717111 1.1 xe 5

1.4.2 Pham vi nghién 01 6 d(Œ 5

1.5 Kiến trúc đề tai , 8 z⁄225s4,/@Ứ8ÔÚÔУРÔN << 13x, 6

CHƯƠNG 2: CƠ SỞ LÝ THUYÊTT 2¿225+t2EEYvvttEEttrrrrrtrrrrrkrrrrrrrtrrree 7

2.1 Khảo sát những ứng dụng hiỆn CÓ - 5 c6 1811311 E 1E EESEEEekksrkererrkreerre 7

2.1.1 Các ứng dụng camera giám sát hiỆn nay - 55 5 3+ + **+vEsveseesseeees 7

2.2 Phát hiện đối tuOng ccccccsecsecsesssssssssessecsecsessussussscssecsessessessessuessessecsecsecsssussseescenes 14

2.4 LSTM (Long Short-Term MeImOTY) - - c1 111 SH HH ng ket 20

2.5 CNN (Convolutional Neural Network) - - c n1 1S xxx rên 24 2.6 Transformer ni 31

2.6.1 Mô hình Transformer truyền thong ccccccccssesssessessessessesseessessessessessessssseseseess 31

Trang 3

2.6.2 Sự phát triển của Transformer để nhận diện hình ảnh 2- 5= =s¿ 32

2.7 SVC (Support Vector CÏaSSIÍIT) -.- c1 113 1 1 1 10v 1v ng vn vn ệp 38 2.8 (30.000 41

2.8.1 Cac thành phan chính của WebDRTC? o ccccccsscssessessessessssesessessesscsssessesscsseseeaes 41

2.8.2 Cách Hoạt Động của WeDRTC - c1 2n 11 1101111 11111181181 1x ng nrey 42

2.8.3 Kiến trúc mạng ngang hàng (P2P) ¿+ £+EE+E£EE£EE#EEEEEEEEEEEEkerkrrerree 44

2.8.4 GiGi thiduu Mediasoup 0n 45

CHUONG 3: NỘI DUNG VA PHƯƠNG PHÁP -cc:-ccccccccvverrrrrrrrrrrrrrea 47

3.1 Mô hình để xuất . 222222 2211112222111 E2 473.1 Tổng quan và tiền xử lý dữ liệu -¿- 222E22E2E2E22EEEEEEEEEEEerkrkrrkerkerkrred 47

3.2 Cac giat Goan ChIMN ốc 50

3.2.1 Triển khai phase 1 va phase 2 cccccccccccscssssssssessessessesstsessessessessssssesseesesseseeseess 50

3.2.2 Xây dựng các Usecase, kiến trúc CSDL, các thành phan xử lý 58

3.2.3 Triển khai Phrase 3: Giai đoạn xây dựng server với Webrtc 65

3.2.4 Triển khai Phrase 4: Xây dựng ứng dung người dùng về mô hình cảnh bao 74CHƯƠNG 4:_ THỰC NGHIỆM VÀ ĐÁNH GIÁ ¿-+¿©5¿22++2x++zxrzxesrxerrxee 79

4.1 Tiền xử lý đữ liệu -¿- 2 2 £+ESE9EE9EE2E12EE71E71511211211 2111111111111 1111 1 yye 79

4.1.1 Dinh dang i0 00 a^aa 79

4.1.2 Cải thiện chất lượng ảnh ¿2-52 2£ 2S£+EE+2E££EE2EEEEEEEEEEEEEerkrrrkrrkrrree 814.1.3 Ap dung ki thuật Cross-validation c cccccsscsscsssessessessessssssessessessessesssssssseeseess 82

4.1.4 Cải thiện overfitting c.ccecccccsecsesssssessessesssesssssecsuessecsuessesssessusssessuessessseesecess 83 4.2 Cac dO do dank 914 nh 83

4.3 Kết qua thực nghiệm và đánh gia c.cceceeccecsscssesssesessessessesesessessesessesesseesesseseeaeeaees 84CHUONG 5: TONG KET VA HUONG PHAT TRIEN ccccscscsssssssecscsesesesesescsceeseseees 89

Trang 4

5.1 Hạn chế và công việc trong tương lai - 2: + ©2+E£+E£+EE£EEeEEeEEerEerrkrrxerkrred5.2 Kết luận

TÀI LIỆU THAM KHẢO

Trang 5

DANH MỤC BANG

Bang 3.1 Usecase xem video trực tiẾp - ¿52-5 tEk‡EE9EEEEEEEEEEE15E121171 1171211 cxe 58

Bang 3.2 Usecase xem kết quả phát hiện hành động 2-2 2 2 s£s+£++£zzs£2 59

Bang 3.3 Usecase phát hiện hành động . c1 3322111131335 E1.Eeree 59 Bảng 3.4: Bảng thuộc tính của S€T - 5 G1911 E911911 E911 1111 11v ng nh ng nư 61 Bang 3.5: Bang ham 0uì 805v 61 Bảng 3.6: Bảng thuộc tính của CaTm€Ta - - (c1 211E911811 E911 11911 1 1 ng ng nưy 61 Bảng 3.7: Bảng hàm CỦa Camera - c 22063322188311 883 11131 1111 9111 8 111 8111 E11 prry 61 Bang 3.8: Bảng thuộc tinh của Detected ReSulÏ( - - 5 <6 5+ E+*E£svseeeseereeesreesk 62 Bảng 3.9: Bảng hàm của Detected R€SuÏ( - + 2S + +23 * +2 E+EESrreeesrerrsersrerre 62

Bang 4.1 Kết quả so sánh của bộ dữ liệu hành động bạo lực -2- 2 s25: 84Bảng 4.2 Kết quả so sánh của bộ dữ liệu tu thế té Nga eee cceeeseesessesseeseeseestestesseeses 85

Bảng 4.3 Kết quả so sánh của các thuật toán mô hình phát hiện bạo lực 85

Trang 6

DANH MỤC HÌNH ẢNH

Hình 1.1 Kiến trúc để tài 222+++2 2 nh HH Hư 6

Hình 2.1 Kiến trúc của YOLO essescsssssssssessseessneeessneeessnsessneessneessneessneeeesnneeesneeesensees 17

Hình 2.2 Kiến trúc của YOLO V8 ¿¿-222++ttEE11 HH re 18

Hinh c8 41.04900909) 1 20

Hình 2.4 Thanh phần của một đơn vi trong LSŸTÌM - 5+ ++<<£++kEssesseerssersee 21

Hinh 2.5 Cau tritc ctta CNN 00 25

Hình 2.6 Kiến trúc mô hình Transformer c ccsscsssesssessesssesseessesssessecsssssesssessesssesseesseesees 32

Hình 2.7 Kiến trúc mô hình Vision TransfOrmmer - - 2 2 2+ + x+>x£+Ezx++x+zzxerxeex 33

Hình 3.4 Class Diagram của hệ thống 2-2-2 2 + +E£+E£+E£2EE£EEEEESEEEEEEEEEEEEEEEerkerkere 60

Hình 3.5 Sequence Diagram của đăng nhập và đăng ky - - « -++s++sx++++s+2 63

Hình 3.6 Sequence Diagram của xem video trực tiếp và xem lich sử phát hiện 64

Hình 3.7 Xây dựng server với WeblRTÍC - -c + s21 11 1v 1 vn ng ng He 65

Hình 3.8 Lưu lại hình ảnh khi phat hiện té ngã 5 5 22+ 3+ *+vE+vEEeessrseeeke 73

Hình 3.9 Mo IP camera và sử dụng model đã tra1n - 5 + ++s£++£+s+se+seeseessxe 73 Hình 3.10 API đơn giản cho video stream từ IP camera và phát hiện té ngã 73 Hình 3.11 Màn hình đăng nhập va đăng ký L c1 1S SH HH net 74

Hình 3.12 Màn hình trang chủỦ c5 2c 3321133311311 1911311 1811811581111 E111 re 75

Hình 3.13 Màn hình xem CaIT€YA - - 6 2 218211811911 91191 v1 11v ng nh ng nếp 76 Hình 3.14 Màn hình trang cá nhân người! Ùng - - 5-5 + + + +*kEseeEseereeereeeeee 77 Hình 4.1 Các keypoint được vẽ thông qua Open POse - ¿5c +2 *+sseexesereserrs 80 Hình 4.2: Những hình ảnh trong dataset được phát hiện khung xương thông qua

60) 80

Trang 7

Hinh 4.3 KY thuat Cross-Validation 01008 82

Hình 4.4 Kết quả phát hiện té ngã thông qua YOlOV8 cccccssessessessesssessessessessessesseeseeses 87

Hình 4.5 Hình anh phát hiện té ngã va hành động bình thường thông qua YoloV8 87

Hình 4.6 Kết quả những chỉ số của YoloV8 trong phát hiện té ngã -2 87

Hình 4.7 Hình ảnh phát hiện bạo lực và hành động bình thường thông qua YoloV8 88

Hình 4.8 Kết quả những chỉ số của YOLOv§ trong phát hiện bạo lực - 88

Trang 8

LOI CAM ON

Loi dau tién, em xin duoc cam on truong Dai hoc Céng nghé Thong tin - Dai hoc Quécgia Thanh phố Hồ Chí Minh đã tao điều kiện tốt nhất dé chúng em có thé học tập và phát

triển Học tập tại đây, chúng em đã gặp được rất nhiều những thầy cô, những người bạn,

và những con người tuyệt vời, song song đó là những cơ hội quý giá dé phát triển bản than

trong sự nghiệp lẫn cuộc sông Để hoàn hoàn thành khóa luận này, chúng em xin được gửilời cảm ơn đặc biệt đến những người sau đây Em xin trân trọng gửi lời cảm ơn tới thầy

PGS.TS Nguyễn Đình Thuân và KS Nguyễn Minh Nhụt, những người đã hết long giúp

đỡ chúng em trong con đường nghiên cứu lẫn học tập Thầy Thuân là một nguồn cảm hứng

to lớn cho em có thé tự tin và vượt qua vô sé thử thách trên con đường học tập và nghiêncứu trong suốt thời gian qua Tiếp theo, chúng em muốn dành lời cảm ơn đến những thầy

cô trong trường, đã dạy dỗ và truyền đạt những kinh nghiệm, kiến thức quý báu trong suốt

những năm học Bên cạnh đó, chúng em muốn gửi lời cảm ơn các thầy cô trong khoa Hệ

Thống Thông Tin đã tạo nhiều cơ hội dé chúng em có thé phát triển Chúng em cũng muốncảm ơn những anh chị và những người bạn đã luôn đồng hành cùng chúng em trong suốt

hành trình học đại học, đặc biệt là các bạn ở lớp HTCL2020 và các bạn ở nhóm nghiên cứu

FTISU Cuối cùng, chúng em muốn gửi lời cảm ơn đến bố mẹ, gia đình cùng những ngườithân của chúng em, những người đã luôn đồng hành, tin tưởng, ủng hộ, và quan tâm giúp

đỡ chúng em trong những lúc khó khăn nhất Không có mọi người, chúng em đã không thể

có được như ngày hôm nay.

Trang 9

TÓM TẮT KHOÁ LUẬN

Với sự phát triển mạnh mẽ của công nghệ thông tin, nhiều công nghệ AI ra đời

để giải quyết nhiều bài toán nhằm nâng cao chất lượng cuộc sống Trong đó các gia

đình hiện đại thường có ít thành viên sống chung, hoặc mọi người trong gia đình đều

bận rộn với công việc và cuộc song cá nhân của mình Điều này dẫn đến việc nhiềungười cao tuổi thường phải ở một mình trong suốt nhiều giờ trong ngày, thậm chi lànguy cơ gặp phải các tình huống khan cấp mà không có ai có thể giúp đỡ kịp thoi Dựatrên thực trạng đó, em đã tìm hiểu và phát triển đề tài với ứng dụng mang tên

HomeCamera Với mục đích xây dựng một ứng dụng di động tích hợp camera giám

sát được huấn luyện liên tục theo thời gian thực nhằm giải quyết một số vấn đề như

theo dõi người lớn tuổi, phát hiện ra những biểu hiện không bình thường như nguy cơ

té ngã, thậm chí là các vấn đề sức khỏe nghiêm trọng hoặc những tình huống bạo lực

xảy ra trong gia đình và những tình huống khan cấp khác

Dé triển khai hệ thống đến người dùng cuối, ứng dụng sẽ được xây dựng trên nền tảng

android là nơi dé người dùng tương tác gián tiếp với camera Camera sẽ được lắp đặt

tại nhà dé ghi nhận hình ảnh và gửi về server Đề đạt được hiệu quả về thời gian thực

và có thể phát trực tiếp, ứng dụng tích hợp kỹ thuật WebRTC (Web Real-TimeCommunication) cho phép ứng dụng truyền tải dit liệu trực tiếp, giảm độ trễ và nâng

cao chất lượng kết ni

Nghiên cứu nay tập trung vao việc xây dựng các mô hình dự đoán theo hai loại chính

là mô hình học sâu và mô hình phát hiện đối tượng Với mô hình học sâu, nghiên cứu

sử dụng các thuật toán học sâu phân loại như CNN, LSTM, Transformer và SVC kếthợp với mô hình phát hiện và ước lượng tư thế người cho ra kết quả Với mô hình phát

hiện đối tượng, nghiên cứu ứng dụng thuật toán Yolo (You Only Look Once) phiên

bản thứ 8 và phiên bản cải tiến mới là Yolo-Nas Dé đánh giá độ chính xác của môhình, nghiên cứu sử dụng các độ đo là Accuracy, Recall, Precision, Fl Score để tìm ra

mô hình phù hợp nhất

Trang 10

Nghiên cứu này chứng minh tính khả thi trong việc áp dụng các kỹ thuật dự đoán của

mô hình học sâu và học máy và tích hợp vào ứng dụng đi động, dé dự đoán những hành

vi thường ngày, giải quyết những tình huống thực tế trong cuộc sống

Trang 11

CHUONG1: GIỚI THIỆU VÀ MÔ TẢ DE TÀI

1.1 Tên đề tài

Tên tiếng Việt: XÂY DỰNG ỨNG DỤNG DI ĐỘNG TÍCH HỢP VỚI CAMERA GIÁM

SÁT TẠI NHÀ ĐỀ PHAT HIỆN MOI NGUY HIEM TIEM AN QUA MÔ HÌNH HỌCSÂU

Tên tiếng Anh: BUILDING A MOBILE APPLICATION INTEGRATED WITH HOME

SURVEILLANCE CAMERA TO DETECT POTENTIALLY DANGEROUS HAZARDS THROUGH DEEP LEARNING MODELS

1.2 Đặt vấn đề

Trong bối cảnh xã hội hiện đại ngày càng phát triển, công nghệ thông tin và trí tuệ nhân

tạo (AI) đã trở thành những công cụ quan trọng giúp giải quyết nhiều bài toán phức tạp và

nâng cao chất lượng cuộc sống Tuy nhiên, một van dé đáng quan tâm là sự cô đơn và thiếu

sự giám sát đối với người cao tuổi, đặc biệt trong những gia đình hiện đại nơi các thành

viên thường bận rộn với công việc và cuộc song cá nhân Nhiều nguoi cao tudi phải ở một

mình trong nhiều giờ, đối mặt với nguy cơ gặp phải các tình huống khẩn cấp mà không có

sự giúp đỡ kịp thời Đây là một vẫn đề nghiêm trọng, ảnh hưởng trực tiếp đến sức khỏe và

an toàn của người cao tuổi

Xuất phát từ thực tế này, nghiên cứu dã phát triển ứng dụng HomeCamera nhằm tao ra một

giải pháp giám sát thông minh, giúp theo dõi và đảm bảo an toàn cho người cao tuổi tại

nhà Ứng dụng HomeCamera được thiết kế dé tích hợp camera giám sát, có khả năng huấn

luyện liên tục theo thời gian thực nhằm phát hiện các biểu hiện không bình thường như

nguy cơ té ngã, các vấn đề sức khỏe nghiêm trọng, hoặc thậm chí là các tình huống bạo lực

trong gia đình.

Tuy nhiên, việc triển khai một hệ thống giám sát thông minh đi kèm với nhiều thách thức

kỹ thuật Đầu tiên, việc xử lý và truyền tải hình ảnh theo thời gian thực đòi hỏi một hệthống có khả năng xử lý mạnh mẽ và đường truyền ồn định Hệ thống phải đảm bảo độ trễthấp dé kịp thời phát hiện và xử lý các tình huống khan cấp

Trang 12

Dé triển khai hệ thống đến người dùng cuối, chúng tôi chọn nền tang Android làm môi

trường phát triển chính, cho phép người dùng tương tác gián tiếp với camera thông quaứng dụng di động Camera sẽ được lắp đặt tại nhà dé ghi nhận hình ảnh và gửi về server

Đề đạt được hiệu quả giám sát theo thời gian thực và phát trực tiếp, chúng tôi tích hợp kỹthuật WebRTC (Web Real-Time Communication), cho phép truyén tai dữ liệu trực tiếp,giảm độ trễ và nâng cao chất lượng kết nối

Một thách thức khác là việc xây dựng các mô hình dự đoán chính xác và hiệu quả Nghiên

cứu này tập trung vào việc phát triển các mô hình học sâu và mô hình phát hiện đối tượng.Chúng tôi sử dụng các thuật toán học sâu như CNN, LSTM, Transformer và SVC, kết hợp

với mô hình phát hiện và ước lượng tư thế người Đối với mô hình phát hiện đối tượng,

chúng tôi áp dụng thuật toán Yolo phiên bản thứ 8 và phiên bản cải tiễn mới là Yolo-Nas

Tuy nhiên, việc huấn luyện các mô hình này đòi hỏi lượng lớn dữ liệu và tài nguyên tính

toán, cũng như thời gian và công sức dé tinh chỉnh các siêu tham số nhăm đạt được hiệu

suất tốt nhất

Đề đánh giá độ chính xác của các mô hình, chúng tôi sử dụng các độ đo như Accuracy,

Recall, Precision và F1 Score, nhằm tìm ra mô hình phù hợp nhất cho ứng dụng Việc duy

1.3 Mục tiêu của dé tài

Mục tiêu đề tài bao gồm:

k Ứng dụng được đề xuất trong nội dung này sẽ tận dụng công nghệ camera hiện đại

dé ghi nhận hình ảnh và video theo thời gian thực, dem lại những khả năng mới mẻ trong

việc theo dõi nhà khi không có người hay theo dõi người lớn tuổi Điều này không chỉ giúp

Trang 13

giảm nguy cơ xảy ra hậu quả nghiêm trọng cho người lớn tuôi thông qua việc phát hiện

sớm các tình huống đáng ngại khi người thân không có mặt ở nhà

° Ứng dụng này vận dụng các công nghệ trong lĩnh vực xử lý hình ảnh, khuôn mặt,

và âm thanh dé nhận diện hình dang và hành động của con người Điều này không chỉ giúpnhận diện hành vi bat thường, nhưng còn giúp nắm bắt được những biểu hiện tinh tế như

cử chỉ và biểu cảm khuôn mặt

° Ứng dung còn tích hợp tinh năng điều khiển và tương tác trực tiếp với camera giám

sát, giúp người dùng dễ dàng theo dõi người thân, thu phát giọng nói khi cần thiết và đưa

ra cảnh báo trên điện thoại đi dộng

1.4 _ Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu

Ứng dụng các thuật toán máy học vào mô hình nghiên cứu về hành động của con người

gồm những hành động thường ngày, biéu hiện không bình thường ở người lớn tuổi, nguy

cơ té ngã và dự đoán những hành động bạo lực thông qua camera.

1.4.2 Phạm vi nghiên cứu

Trong đề tài này, phạm vi nghiên cứu hướng đến:

Mô hình học sâu (thuật toán phân loại): LSTM, CNN, Transformer, SVC

Mô hình phát hiện đối tượng: Yolo - version 8, Yolo-Nas

Bộ đữ liệu về té ngã (Fall human) và bộ dữ liệu về bạo lực (Real life violence situation)

Ngôn ngữ lập trình sử dụng: Python, Java

Phương pháp xây dung server: công nghệ WebRTC

Trang 14

1.5 Kiến trúc đề tài

Tae ia

Vokes Derctee ".

sa

Hinh 1.1 Kién tric dé tai

Mô tả kiến trúc dé tài (Hình 1) gồm 4 Phrase cơ bản như sau:

e_ Triển khai Phrase 1: Học các mô hình dự báo sau đó chọn mô hình tốt nhất dự báo

tốt nhất dé dự báo

e Triển khai Phrase 2: Xây dựng các Usecase, kiến trúc CSDL, các thành phan xử lý

e_ Triển khai Phrase 3: Giai đoạn xây dựng server với Webrtc

e _ Triển khai Phrase 4: Xây dựng ứng dụng người dùng về mô hình cảnh báo

Trang 15

CHUONG 2: CƠ SỞ LÝ THUYET

2.1 Khảo sát những ứng dụng hiện có

2.1.1 Các ứng dụng camera giám sát hiện nay

° Ứng dụng EZVIZ

Khi phát hiện có chuyên động lạ hoặc có người di chuyên trong vùng giám sát,

camera sẽ tiền hành quay và lưu lại hình ảnh đó, sau đó gửi thông báo vào phần mềm

quản ly camera EZVIZ trên điện thoại di động của bạn Chức năng này g1úp người

dùng có thé phát hiện sớm sự cô và có biện pháp xử lí kịp thời

Ứng dụng EZVIZ mang đến cho người dùng những chức năng như:

Thêm, xem, quản lý camera

Nhận thông báo khi phát hiện có người hoặc có chuyền động trong khu vực quan sát

Cho nhiều người cùng truy cập và quan sát

Xem lại lịch sử hình ảnh

Trò chuyện theo thời gian thực

Ưu điểm của ứng dụng EZVIZ:

Giao diện thân thiện người dùng: Ứng dụng EZVIZ có giao diện đơn giản va dé sử

dụng, phù hợp cho cả người dùng không có nhiều kinh nghiệm công nghệ

Chất lượng video cao: EZVIZ hé trợ video chất lượng HD, giúp người dùng quan sát

rõ ràng và chỉ tiết

Lưu trữ trên đám mây: Ứng dụng cung cấp dịch vụ lưu trữ đám mây, cho phép người

dùng xem lại video từ bất kỳ đâu và vào bất kỳ thời điểm nào

Cảnh báo thông minh: EZ.VIZ có chức năng cảnh báo khi phát hiện chuyên động, giúpngười dùng năm bắt được các sự kiện quan trọng ngay lập tức

Hỗ trợ đa thiết bị: EZVIZ hỗ trợ nhiều loại thiết bị camera khác nhau, từ camera trong

nhà đến ngoài trời, và cả các thiết bị cảm biến

Tính năng bảo mật cao: EZ.VIZ cung cấp nhiều lớp bảo mật, bao gồm mã hóa video

và bảo mật tài khoản người dùng, giúp đảm bảo an toàn cho dữ liệu cá nhân.

Nhược điểm của ứng dụng EZVIZ:

Trang 16

Chi phí dịch vụ lưu trữ: Dịch vụ lưu trữ đám mây của EZVIZ thường yêu cầu người

dùng tra phí định kỳ, có thé là một gánh nặng đối với một số người dùng

Phụ thuộc vào kết nối internet: Dé sử dụng các tính năng của EZVIZ, người dùng cần

có kết nối internet ôn định Điều này có thé gây khó khăn ở những khu vực có kết nối

mạng yếu

Bảo mật dữ liệu: Mặc dù EZVIZ có các biện pháp bảo mật, nhưng việc lưu trữ video

trên đám mây vẫn tiềm ân rủi ro bảo mật, đặc biệt nếu xay ra sự cố về bảo mật hệ

thống

Hỗ trợ khách hàng: Một số người dùng có thể gặp khó khăn khi tiếp cận hoặc nhận hỗ

trợ từ dịch vụ khách hàng của EZVIZ, đặc biệt khi gặp van đề phức tạp

Tinh năng giới hạn: Mặc du có nhiều tính năng hữu ích, nhưng một số tính năng nâng

cao chỉ có sẵn cho phiên bản trả phí hoặc không có săn ở một số khu vực nhất định

Ứng dụng Yoosee

Ứng dụng Yoosee là một ứng dụng dùng trên nhiều nền tảng đi động khác nhau, giúpkết nối thiết bị camera với thiết bị di động của người dùng như điện thoại, máy tính

bảng, Yoosee là một APP miễn phí được thiết kế riêng cho thé hệ thiết bi gia dụng

thông minh mới Nó áp dụng công nghệ truyền dan mạng Cloudlink P2P tiên tiến

Giám sát từ xa có thé được thực hiện một cách đơn giản, cho phép người quan tâm

đến gia đình và bạn bè của mình mọi lúc, mọi nơi

Ưu điểm:

Luôn cập nhật liên tục, hỗ trợ tiếng Việt cho người dùng

Có thé giám sát nhiều thiết bị, thêm thiết bị bằng cách quét mã QR

Khuyết điểm:

Bảo mật: Một số người dùng đã báo cáo về các van đề bảo mật với Yoosee, như việc

dữ liệu không được mã hóa mạnh mẽ, dé bị tắn công và truy cập trái phép

Chất lượng dịch vụ: Một số người dùng phan nan về chất lượng hình ảnh và âm thanh

không ồn định, đặc biệt là khi kết nối internet không mạnh

Trang 17

Kha năng tương thích: Yoosee có thé không tương thích tốt với tat cả các thiết bị hoặc

hệ điều hành Một số người dùng gặp khó khăn khi kết nối hoặc điều khiển camera

thông qua ứng dụng.

Dịch vụ khách hàng: Một số người dùng cho rằng dịch vụ hỗ trợ khách hàng của

Yoosee không đáp ứng tốt, gây khó khăn khi gặp vấn đề kỹ thuật

Dưới đây là một số ứng dụng camera giám sát phô biến hiện nay, cùng với những ưu

và nhược điểm của từng ứng dụng:

Ứng dụng Wyze

Wyze được thành lập vào năm 2017 bởi một nhóm cựu nhân viên Amazon Công ty

nhanh chóng nỗi tiếng VỚI VIỆC cung cấp các thiết bị thông minh, đặc biệt là camera

an ninh, với mức giá phải chăng nhưng vẫn đảm bảo chất lượng và tính năng ưu việt

Các tính năng nỗi bật của Wyze

Giá cả phải chăng: Một trong những điểm mạnh lớn nhất của Wyze là giá cả cực kỳ

cạnh tranh Sản phẩm của họ thường có giá thấp hơn nhiều so với các đối thủ nhưng

vẫn đảm bảo chất lượng và tính năng

Chất lượng hình ảnh tốt: Wyze cung cấp các sản pham camera với độ phân giải HD

và Full HD, giúp người dùng giám sát rõ ràng và chỉ tiết

Lưu trữ đám mây miễn phí: Wyze cung cấp 14 ngày lưu trữ đám mây miễn phí cho

các đoạn video ngắn ghi lại sự kiện, giúp người dùng dễ dàng truy cập và xem lại

Tính năng phát hiện chuyền động và âm thanh: Camera Wyze có thé phát hiện chuyển

động và âm thanh, gửi thông báo đến điện thoại di động của người dùng khi có sự

kiện bất thường

Chế độ ban đêm: Wyze tích hợp đèn hồng ngoại trong các camera của mình, giúp

quan sát rõ ràng trong điều kiện ánh sáng yếu hoặc ban đêm

Giao tiếp hai chiều: Các camera của Wyze cho phép giao tiếp âm thanh hai chiều,

giúp người dùng có thể nói chuyện với người đang ở gần camera thông qua ứng dụng

di động.

Trang 18

Tích hợp với hệ thống nhà thông minh: Wyze tích hợp tốt với Amazon Alexa và

Google Assistant, giúp điều khiển camera bằng giọng nói và tích hợp vào hệ thống

nhà thông minh.

Thiết kế dé cài đặt: Các sản phẩm của Wyze được thiết kế đơn giản, dé dàng lắp đặt

và sử dụng.

Ưu điểm:

Giá cả phải chăng.

Chất lượng hình ảnh và âm thanh tốt

Lưu trữ đám mây miễn phí.

Dễ dàng cài đặt và sử dụng.

Tích hợp tốt với hệ thống nhà thông minh

Nhược điểm:

Phụ thuộc vào kết nối internet để hoạt động tốt

Một số người dùng báo cáo về các van đề bảo mật và quyền riêng tu

Hạn chế về tính năng so với các sản phẩm cao cấp hơn của các đối thủ khác

Không có nhiều tùy chọn cho lưu trữ cục bộ, ngoại trừ việc sử dụng thẻ nhớ microSD

Ứng dụng Arlo

Arlo được biết đến với việc cung cấp các sản phẩm camera giám sát chất lượng cao, dễ

cài đặt và sử dụng Hệ thong camera của Arlo chủ yếu là không dây, giúp dé dang lắp

đặt ở bất kỳ đâu mà không cần phải kéo dây phức tạp

Các tinh năng nồi bật của Arlo

Chất lượng hình ảnh cao: Arlo cung cấp hình ảnh và video độ phân giải cao, từ HD đến

4K, giúp giám sát chỉ tiết và rõ nét

Không dây: Hầu hết các sản phẩm của Arlo đều không dây, sử dụng pin sạc hoặc nguồn

điện từ năng lượng mặt trời, giúp việc lắp đặt trở nên linh hoạt va dé dàng hơn

Khả năng chống nước: Camera của Arlo thường được thiết kế chống nước và chịu được

các điều kiện thời tiết khắc nghiệt, phù hợp cho việc giám sát ngoài trời

10

Trang 19

Tích hợp với hệ thống nhà thông minh: Arlo tích hợp tốt với các hệ thống nhà thôngminh khác như Amazon Alexa, Google Assistant và Apple HomeKit, giúp điều khiển

và giám sát dé dàng qua giọng nói hoặc ứng dụng di động.

Nhận diện chuyên động va âm thanh: Các camera Arlo có khả năng phát hiện chuyển

động và âm thanh, gửi cảnh báo tức thì đến điện thoại của bạn khi có hoạt động bất

thường.

Lưu trữ đám mây: Arlo cung cấp dịch vụ lưu trữ đám mây, cho phép lưu trữ và truy cập

video từ bat kỳ đâu Người dùng cũng có thé lựa chọn lưu trữ cục bộ thông qua thẻ nhớhoặc ô cứng

Chế độ ban đêm: Camera Arlo được trang bị đèn hong ngoại hoặc công nghệ nhìn đêm

màu sắc, giúp quan sát rõ ràng trong điều kiện ánh sáng yếu hoặc hoàn toàn tối

Ưu điểm:

Chất lượng hình ảnh và âm thanh cao cấp

Nhiều tính năng bảo mật mạnh mẽ

Tích hợp tốt với các hệ thống bảo mật khác

Nhược điểm:

Chi phí cao.

Yêu cau dịch vụ thuê bao dé sử dụng đầy đủ các tính năng

Cần kết nối internet mạnh để hoạt động tốt

Yêu cầu cần có của một ứng dụng camera giám sát:

Ghi hình và lưu trữ video: Người dùng muốn ghi lại các hoạt động xảy ra trong khuvực giám sát đề có thể xem lại sau này Ứng dụng cần phải cho phép lưu trữ video trênđám mây hoặc trên thiết bị nội bộ

Xem trực tiếp (Live View):Người dùng cần theo dõi khu vực giám sát trong thời gianthực qua thiết bị di động hoặc máy tính Ứng dụng cần cung cấp khả năng xem trực tiếpvới độ trễ thấp và chất lượng hình ảnh cao

11

Trang 20

Phát hiện chuyển động (Motion Detection): Khi có chuyển động trong khu vực giám

sát, ứng dụng cần gửi thông báo tới người dùng và lưu lại đoạn video của sự kiện đó

Điều này giúp người dùng nhận biết các hoạt động bất thường kịp thời

Quản lý nhiều camera: Người dùng muốn quản lý nhiều camera từ một ứng dụng duy

nhất Ung dụng cần cho phép kết nối và quản lý nhiều camera cùng lúc, hiển thị chúng

trên cùng một màn hình hoặc chuyền đổi dé dàng giữa các camera

Điều khiến từ xa (Remote Control): Người dùng có thể xoay, phóng to/thu nhỏ hoặcđiều chỉnh góc quay của camera từ xa qua ứng dụng Điều này giúp tối ưu hóa việc

giám sát từ xa mà không cần phải đến tận nơi

Ghi hình theo lịch trình (Scheduled Recording): Người dùng muốn thiết lập thời gian

cụ thể để camera tự động ghi hình, ví dụ như chỉ ghi hình vào ban đêm hoặc trong giờ

làm việc Ứng dụng cần hỗ trợ thiết lập lịch trình ghi hình linh hoạt

Nhận diện khuôn mặt (Face Recognition): Ứng dụng có thê nhận diện và phân loại

khuôn mặt của người quen và người lạ, giúp tăng cường an ninh Khi phát hiện khuôn

mặt không xác định, ứng dụng có thê gửi cảnh báo đến người dùng

Bao mật và mã hóa dir liệu: Dam bảo rang tat cả dit liệu video được mã hóa dé bảo

vệ quyền riêng tư của người dùng Ứng dụng cần có các tính năng bảo mật như xác

thực hai yếu tố (2FA) va mã hóa dit liệu truyền tải

Tích hợp với hệ thống báo động (Alarm Integration): Khi phát hiện có sự xâm nhập

hoặc chuyên động bat thường, ứng dụng có thể kích hoạt hệ thống báo động hoặc gửicảnh báo đến người dùng và cơ quan an ninh

Usecase

Ghi hình và lưu trữ video: Người dùng cài đặt camera giám sát tại cửa ra vào Ứngdụng ghi lại tat cả các hoạt động và lưu trữ video trong 30 ngày Khi có sự cố, ngườidùng có thể xem lại video dé xác minh Sự viéc

Xem trực tiếp (Live View): Người dùng mở ứng dụng trên điện thoại và xem trực tiếp

hình ảnh từ camera giám sát nhà mình khi đang đi du lịch Người dùng kiểm tra xem

có hoạt động bat thường nào không

12

Trang 21

Phát hiện chuyển động (Motion Detection): Ứng dụng gửi thông báo đến điện thoại

của người dùng khi phát hiện chuyên động trong khu vực sân vườn vào lúc nửa đêm.

Người dùng mở ứng dụng đề xem lại đoạn video và quyết định có cần liên hệ với cơ

quan chức năng hay không.

Quản lý nhiều camera: Người dùng có một hệ thống camera tại nhiều chi nhánh củacửa hang Ứng dụng cho phép họ theo dõi và quản lý tat cả camera từ một giao diệnduy nhất, giúp họ dễ dàng giám sát toàn bộ hệ thống

Điều khiến từ xa (Remote Control): Người dùng nhận thay một góc khuất trong hình

ảnh từ camera Họ sử dụng ứng dụng đề điều chỉnh góc quay của camera, đảm bảo toàn

bộ khu vực được giám sát rõ ràng.

Ghi hình theo lịch trình (Scheduled Recording): Người dùng thiết lập camera ghi

hình tự động từ 6 giờ tối đến 6 gio sáng hang ngày Ứng dụng sẽ tự động kích hoạt và

tắt chế độ ghi hình theo lịch trình đã đặt

Nhận diện khuôn mặt (Face Recognition): Camera nhận diện khuôn mặt của các nhân

viên trong văn phòng và gửi thông báo khi có người lạ xuất hiện Ứng dụng lưu trữ hình

ảnh khuôn mặt dé dé dàng truy vết khi cần

Bao mật và mã hóa dir liệu: Ung dụng mã hóa tat cả video lưu trữ và yêu cầu xác thựchai yếu tố khi người dùng đăng nhập Điều này đảm bảo chỉ có người dùng chính chủ

mới truy cập được dir liệu video.

Tích hợp với hệ thống báo động (Alarm Integration): Khi phát hiện có chuyền động

bất thường trong nhà vào ban đêm, ứng dụng kích hoạt hệ thống báo động và gửi thông

báo đên điện thoại của người dùng và công ty bảo vệ.

13

Trang 22

2.2 Phát hiện đối tượng

2.2.1 Khái niệm:

Object Detection (Phát hiện đối tượng) là một nhánh của Computer Vision (Tầm nhìn

máy tính) với mục tiêu xác định và định vi các đối tượng cụ thể trong hình ảnh hoặc

video [1] No bao gồm hai nhiệm vụ chính:

Phân loại đối tượng: Xác định loại đối tượng xuất hiện trong hình ảnh (ví dụ: người, xe

cộ, động vật, ) Phân loại đối tượng tập trung vào việc xác định loại của các vật thể

xuất hiện trong hình ảnh hoặc video Ví dụ, trong một bức ảnh có nhiều người, phânloại đối tượng sẽ xác định mỗi người là nam hay nữ, trẻ em hay người lớn, v.v

hình dạng, màu sac, kết cấu, v.v

Phân loại: Mô hình học máy, thường là mạng nơ-ron nhân tạo (ANN), được dao tạo

trên tập dữ liệu gồm hình ảnh được đánh nhãn chú thích loại đối tượng Sau khi được

đào tạo, mô hình có thê phân loại các đối tượng mới dựa trên các đặc trưng trích xuất

được

Định vị đối tượng: Vẽ hộp giới hạn (bounding box) xung quanh mỗi đối tượng được

phát hiện và xác định vi trí chính xác của nó trong hình anh Dinh vi đối tượng tập trung

vào việc xác định vị trí chính xác của các vật thể trong hình ảnh hoặc video Ví dụ,

trong cùng bức ảnh trên, định vi đối tượng sẽ xác định vị trí của mỗi người trong ảnh,

bao gồm cả tọa độ x và y của họ

* Co chế hoạt động:

Phát hiện đối tượng: Sử dụng các thuật toán phát hiện đối tượng để xác định vị trí và

kích thước của các vật thể tiềm năng trong ảnh

14

Trang 23

Phân loại đối tượng: Ap dụng kỹ thuật phân loại đối tượng dé xác định loại của các vậtthé được phát hiện.

Dinh vị chính xác: Sử dụng các thuật toán tinh chỉnh vi trí để xác định vị trí chính xác

của các vật thé, bao gồm cả tọa độ x và y

Phát hiện đối tượng (object detection) là một bài toán phô biến trong thị giác máy tính

Nó liên quan đến việc khoanh một vùng quan tâm trong ảnh và phân loại vùng này

tương tự như phân loại hình ảnh Tuy nhiên, một hình ảnh có thé bao gồm một số vùng

quan tâm trỏ đến các đối tượng khác nhau Điều này làm cho việc phát hiện đối tượng

trở thành một vân đê nâng cao hơn của phân loại hình ảnh.

2.2.2 Two-shot object detection

Two-shot object detection, còn được biết đến như là phương pháp hai giai đoạn, là một

kỹ thuật trong nhận diện đối tượng bao gồm hai bước chính: đề xuất vùng và phân loại

đối tượng Đầu tiên, một mạng nơ-ron được sử dụng dé tạo ra các vùng đề xuất, là

những khu vực trong hình ảnh có khả năng chứa đối tượng Tiếp theo, các vùng này

được phân loại và tinh chỉnh bounding boxes bởi một mạng nơ-ron khác Một trong

những mô hình nồi tiếng áp dụng phương pháp này là Faster R-CNN (Region-based

Convolutional Neural Network) Mặc dù phương pháp two-shot thường có độ chính

xác cao hơn nhờ vào quá trình xử lý chỉ tiết và cân thận hơn, nhưng nhược điểm của nó

là tốc độ chậm hơn so với SSD, do cần phải thực hiện hai bước riêng biệt

2.2.3 Single-shot object detection

Single-shot object detection là kỹ thuật sử dụng một lần truyền hình anh vào dé xácđịnh sự hiện diện và vị trí của các đối tượng trong ảnh Phương pháp này xử lý toàn bộhình ảnh trong một lần chạy duy nhất, giúp tăng cường hiệu suất tính toán Tuy nhiên,

so với các phương pháp khác, single-shot object detection thường có độ chính xác thấp

hơn và gặp khó khăn trong việc phát hiện các đối tượng nhỏ Các thuật toán loại này có

thê được áp dụng để nhận diện đối tượng theo thời gian thực trong các môi trường cótài nguyên hạn chế YOLO là một thuật toán single-shot object detection, sử dung mangthần kinh tích chập (CNN) dé phân tích và xử lý hình ảnh

15

Trang 24

2.3 Yolo ( You Only Look Once )

YOLO (You Only Look Once)[2] là một trong những thuật toán tiên tiễn nhất được sử

dụng trong lĩnh vực phát hiện đối tượng (object detection) trong hình anh và video Thuậttoán này được phát triển bởi Joseph Redmon và các cộng sự, và nó đã mang lại một sự cảitiến đáng kể về tốc độ và hiệu suất so với các phương pháp phát hiện đối tượng truyền

thống

Kiến trúc và Hoạt động của YOLO

YOLO sử dụng một mang neural convolutional (Convolutional Neural Network - CNN)

duy nhất dé du đoán các bounding box (hộp giới hạn) va xác suất lớp (class probabilities)

cho những hộp này trực tiếp từ toàn bộ hình ảnh Điều này khác biệt so với các phương

pháp truyền thống như R-CNN, nơi mà việc phát hiện đối tượng diễn ra trong nhiều giai

đoạn riêng biệt.

Bước hoạt động chính của YOLO:

Chia ảnh thành các lưới (Grid): Ảnh đầu vào được chia thành các lưới (ví dụ: 7x7 ô) Mỗi

ô trong lưới sẽ chịu trách nhiệm phát hiện các đối tượng mà tâm của chúng nằm trong ô

đó.

Dự đoán bounding boxes và xác suất: Mỗi ô trong lưới dự đoán một số bounding boxes và

xác suất đối với mỗi lớp đối tượng Các dự đoán này bao gồm tọa độ của bounding box, độ

tin cậy (confidence score) rằng box đó chứa một đối tượng, và xác suất điều kiện cho các

lớp.

Lọc các boxes và non-max suppression: Các bounding box với độ tin cậy thấp sẽ bị loại

bỏ, và thuật toán non-max suppression được áp dụng để loại bỏ các bounding box chồngchéo nhau, giữ lại box với xác suất cao nhất

YOLO đề xuất sử dụng mạng thần kinh đầu cuối dé đưa ra dự đoán về các hộp giới hạn

(bounding box) và xác suất của đối tượng cùng một lúc Nó khác với cách tiếp cận của các

thuật toán phát hiện đối tượng trước đó, vốn sử dụng lại các trình phân loại đề thực hiện

16

Trang 25

phát hiện Theo một cách tiếp cận cơ bản khác dé phát hiện đối tượng, YOLO đã đạt được

kết quả tiên tiễn, đánh bại các thuật toán phát hiện đối tượng thời gian thực khác với khoảng

cách lớn Trong khi các thuật toán như Faster RCNN hoạt động bằng cách phát hiện các

khu vực quan tâm có thể có bằng cách sử dụng Region Proposal Network và sau đó thựchiện nhận dạng trên các khu vực đó một cách riêng biệt, thì YOLO thực hiện tất cả các dựđoán với sự trợ giúp của một lớp được kết nối đầy đủ duy nhất Các phương pháp sử dụng

Region Proposal Network thực hiện nhiều lần lặp cho cùng một hình ảnh, trong khi YOLO

hoàn thành trong một lần duy nhất

The Architecture Our detection network has 24 convolutional layers followed by 2 fully connected layers Alternating 1 x 1

convolutional layers reduce the features space from preceding layers We pretrain the convolutional layers on the ImageNet classification

task at half the resolution (224 x 224 input image) and then double the resolution for detection.

Hình 2.1 Kiến trúc của YOLO

2.3.1 Yolov8

YOLO v8 (You Only Look Once version 8) là phiên bản mới nhất của thuật toán pháthiện đối trong YOLO nỗi tiếng, được phát triển bởi Ultralytics Nó được giới thiệu vàotháng 4 năm 2023 và mang đến nhiều cải tiến so với các phiên bản trước [3], bao gồm:

Hiệu suất:

* Tốc độ: YOLO v8 đạt tốc độ phát hiện nhanh hon dang ké so với các phiên bản

trước, lên đến 455 FPS trên Tesla V100

° D6 chính xác: YOLO v8 cũng đạt được độ chính xác cao hơn, với mAP (mean Average Precision) trên COCO dataset đạt 57.8%.

Cải tiên mô hình:

17

Trang 26

» Backbone mới: YOLO v8 sử dụng một backbone mang nơ-ron mới gọi là CSPNet,

giúp cải thiện hiệu suất và độ chính xác

* Neck mới: YOLO v8 sử dụng một neck mạng nơ-ron mới gọi là FPN (Feature

Pyramid Network), giúp tăng cường khả năng phát hiện đối tượng ở nhiều kích thước

» Head mới: YOLO v8 sử dụng một head mạng nơ-ron mới gọi là SIOU (Simpler IoU

Loss), giúp cải thiện độ chính xác của bounding box.

Trong bài báo của A Brown và B White, có tựa đề "The YOLOv8 Edge: HarnessingCustom Datasets for Superior Object Detection," được xuất bản trong [EEETransactions on Neural Networks and Learning Systems, tap 34, số 6, trang 567-573,năm 2023, các tác giả khám phá các cải tiến trong thuật toán phát hiện đối tượng

YOLOv8 [4] Bài báo tập trung vào cách YOLOv8 tận dụng các bộ dữ liệu tùy chỉnh

để cải thiện hiệu suất phát hiện đối tượng YOLOv§ được tôi ưu hóa dé xử lý nhanhhơn và chính xác hơn so với các phiên bản trước Điều này bao gồm các kỹ thuật mới

trong việc xử lý dữ liệu và tăng cường hình ảnh.

“Ctoncatenation aver `

U-Up-sample

Peerrrr 66 5 6 5 Bi: ni 5 5 B BS tr reer rrr.

Hình 2.2 Kiến trúc của YOLO v8

> Những lý do lựa chọn YOLOv§8 cho mô hình phát hiện đối tượng:

- - Độ chính xác cao:

YOLOvs8 đã được cai thiện dé tăng cường độ chính xác trong việc phát hiện đối tượng,

điều này rất quan trọng cho việc nhận diện tư thế té ngã và hành vi bạo lực, nơi mà độchính xác đóng vai trò quyết định

- _ Tốc độ xử lý nhanh:

18

Trang 27

YOLOv§ được tối ưu hóa dé cung cấp tốc độ xử lý nhanh hơn, ngay cả khi chạy trênphần cứng hạn chế như CPU Điều này rất quan trọng khi cần xử lý video thời gian thựchoặc gần thời gian thực.

- Kha năng nhận diện đối tượng nhỏ và phức tạp

Các hành vi bạo lực thường bao gồm các động tác nhanh và phức tạp, yêu cầu mô hình

có kha năng nhận diện chi tiết cao Yolov8 có khả năng xử lý và nhận diện các đối

tượng nhỏ và phức tạp ngay cả khi đối tượng ở góc khuất với camera

- Kha năng xử lý đa đối tượng

Nghiên cứu “Multi-Object Pedestrian Tracking Using Improved YOLOv8 and

OC-SORT” đã chứng minh YOLOv8 có thé xử ly việc phát hiện nhiều đối tượng trong một

khung hình Điều này rat cần thiết trong các tình huống có nhiều người tham gia, changhạn như không gian công cộng nơi bạo lực hoặc té ngã có thé xảy ra giữa đám đông

YOLOv§ đã được thiết kế dé tối ưu hóa hiệu quả tính toán, giảm tải cho CPU/GPU,

thích hợp khi triển khai trên các thiết bị có tài nguyên hạn chế, cho phép triển khai trêncác hệ thống nhúng hoặc các thiết bị di động, mở rộng phạm vi ứng dụng

So sánh tính cạnh tranh của OpenPose

OpenPose với CNN: Thời gian xử lý có thé dao động từ vài giây cho mỗi khung hình

trên CPU do tính phức tạp của việc ước tính tư thé và phân loại tiếp theo

OpenPose với LSTM/Transformer: Những sự kết hợp này sẽ chậm hơn trên CPU, vớithời gian xử lý có thể đạt tới vài giây trên mỗi khung hình do xử lý đữ liệu tuần tự

OpenPose với SVM: Điều này có thể nhanh hơn để phân loại nhưng vẫn chậm hơn

YOLOv§ về tổng thé do bước trích xuất tư thé ban dau

2.3.2 Yolo NAS

Tính mới của YOLO-NAS bao gồm:

Các mô-đun nhận biết lượng tử hóa được gọi là QSP và QCI, kết hợp tái tham số hóacho lượng tử hóa 8 bit dé giảm thiểu mat độ chính xác trong quá trình lượng tử hóa

sau dao tao.

Thiết kế kiến trúc tự động sử dung AutoNAC, công nghệ NAS độc quyên của Deci

19

Trang 28

Phương pháp lượng tử hóa kết hợp để lượng tử hóa có chọn lọc các phần nhất định

của mô hình nhằm cân bằng độ trễ và độ chính xác thay vì lượng tử hóa tiêu chuẩn,

trong đó tất cả các lớp đều bị ảnh hưởng

Chế độ đào tạo trước với dữ liệu được gắn nhãn tự động, tự chắt lọc và bộ dữ liệu lớn

Hình 2.3 Kiến trúc YOLO - NAS

2.4 LSTM (Long Short-Term Memory)

Long Short-Term Memory (LSTM) là một dạng đặc biệt của mạng nơ-ron hồi quy

(Recurrent Neural Network - RNN) được thiết kế để xử lý, dự đoán đữ liệu tuần tự và cải

thiện hạn chế của RNN truyền thống trong việc lưu trữ thông tin dài hạn bằng cách huấn

luyện các tham số trong mô hình [6] LSTM ra đời nhằm giải quyết vấn đề vanishinggradient, thường gặp trong các RNN truyền thống, giúp cải thiện hiệu quả trong việc ghi

nhớ thông tin trong chuỗi đữ liệu.

20

Trang 29

Hình 2.4 Thanh phan của một don vị trong LSTM

Một đơn vị LSTM bao gồm ba thành phần chính: Input Gate, Forget Gate, Output Gate,Cell State Các thành phần này giúp LSTM điều chỉnh luồng thông tin qua các thời điểm

khác nhau trong chuỗi dữ liệu.

> Cell State là nơi lưu trữ thông tin chính của LSTM, có khả năng truyền thông tin

qua nhiều bước thời gian trong chuỗi dữ liệu Các cổng trong LSTM điều chỉnh

lượng thông tin được giữ lại hoặc loại bỏ từ Cell State này.

> Input Gate quyết định thông tin nào từ đầu vào hiện tai sẽ được lưu vào trạng thái

tế bào Hoạt động của cổng này được điều chỉnh bởi hàm sigmoid, giúp xác địnhmức độ thông tin nào sẽ được thêm vào trạng thái tế bao

> Forget Gate quyét định thông tin nào từ trạng thái tế bào trước đó sẽ bị loại bỏ Nó

sử dụng ham sigmoid dé xác định mức độ thông tin nào từ trạng thái tế bào cũ sẽ

được giữ lại hoặc loại bỏ.

> Output Gate quyét dinh phan nao của trạng thái tế bao sẽ được sử dung dé tinh toán

đầu ra của LSTM tại thời điểm hiện tại Thông tin từ trạng thái tế bào sẽ đi qua ham

sigmoid dé xác định phan nào của thông tin sẽ ảnh hưởng đến đầu ra cuối cùng

> Công thức toán học của LSTM Forget gate layer: ft = ø(Wƒ.[ht—1, xt ] + bf)

Input gate layer: it = o(Wi [ht—1 , xt ] + bi)

21

Trang 30

Memory cell layer: C= tanh (Wc [At-1 , xt ] + bc)

Update Cell State: Ct = ft Ct-l1+it.Ct

Output gate layer: ot = øơ(Wo.[ht—L, xt ] + bo)

New State: At = ot tanh(Ct)

Trong do:

xt là giá trị biến đầu vào

ht—T là đầu ra của lớp ân trước đó và đâu vào của lớp hiện tại là hàm truyền sigmoid đê

ánh xạ các biến thông qua hai giá trị 0 và 1 và trọng số Wi và độ lệch b

Ct-1 là đơn vị bộ nhớ của thời điểm trước đó

Ct là đơn vị bộ nhớ tại thời điểm hiện tại

Ngoài ra, còn có các ký hiệu của các lớp với ? đại diện cho lớp ân, ƒ đại diện cho công

quên, và i và o tương ứng là các công dau vào và dau ra

> Công trình nghiên cứu tham khảo

Trong bai báo "Skeleton-Based Action Recognition Using Spatio-Temporal LSTM

Network with Trust Gates" [7] của Jun Liu và cộng sự, các tác giả đề xuất phương pháp

kết hợp dữ liệu dựa trên bộ xương với mạng LSTM dé nắm bắt các phụ thuộc không thời gian để nhận dạng hành động Các tác giả đã triển khai mô hình của mình băng các

gian-bước sau:

- Tién xử lý dt liệu:

Dữ liệu về bộ xương được thu thập, thường liên quan đến tọa độ 3D của các khớp cơ thể

chính trên nhiều khung

22

Trang 31

Moi chuôi khung xương được chuân hóa đê đảm bảo tính nhât quán giữa các chủ đê va phiên học khác nhau.

- Kién trúc mạng:

LSTM không gian-thời gian (ST-LSTM): Mô hình sử dụng mạng LSTM hoạt động cả

trong miền không gian (trên các khớp khác nhau trong cùng một khung) và miền thời gian

(trên cùng một khớp trong các khung khác nhau).

Thiết kế này giúp nắm bắt cả cấu hình không gian của khớp và sự tiến hóa theo thời gian

của chúng.

- Quy trình dao tạo:

Mô hình được đào tao bang cach sử dung tập dữ liệu gồm các chuỗi bộ xương được chú

thích bằng nhãn hành động

Các đơn vị LSTM tiêu chuân với các công dau vào, quên và dau ra được sử dụng dé quản

lý luồng thông tin

Mạng sử dụng sơ đồ truyền tải có cấu trúc cây dé nam bắt tốt hơn sự phụ thuộc động học

giữa các khớp.

- Tối ưu hóa:

Mô hình được tối ưu hóa bằng cách sử dụng lan truyền ngược theo thời gian (BPTT)

Một cơ chê công tin cậy được giới thiệu đê nâng cao độ tin cậy của các đặc diém không

gian-thời gian bằng cách tính trọng số đóng góp của các khớp và khung khác nhau

- Thong số và siêu thông số

Kích thước đầu vào: Đầu vào là một chuỗi tọa độ khớp 3D

Đơn vị LSTM: Số lượng don vị trên mỗi lớp LSTM thường thay đổi (vi du: 128 hoặc 256)

23

Trang 32

Learning rate: Điểm bắt đầu phô biến là 0,001, được điều chỉnh bằng cách sử dụng các kỹthuật như giảm tốc độ học tập.

Batch size: Thường được đặt trong khoảng từ 32 đến 64 dé cân bằng mức sử dụng bộ nhớ

và tôc độ hội tụ.

Epochs: Số lượng kỷ nguyên đào tạo phụ thuộc vào kích thước tập dir liệu, thường dao

động từ 50 đến 200

Thuật toán tối ưu hóa: Trình tối ưu hóa Adam thường được sử dụng vì tính hiệu quả và

hiệu quả của nó trong việc đảo tạo các mạng sâu.

> Lý do kết hợp giữa OpenPose và LSTM trong nhận diện phát hiện té ngã và

các hành vi bạo lực

LSTM (Long Short-Term Memory) là một loại mạng nơ-ron hồi quy (RNN) đặc biệt mạnh

trong việc xử lý và học từ chuỗi dữ liệu theo thời gian.

LSTM có khả năng ghi nhớ thông tin trong một khoảng thời gian dài, giúp phân tích động

học và nhận diện các mẫu chuyên động phức tạp và kéo dài qua nhiều khung hình Việc sử

dụng các keypoints thay vì toàn bộ hình ảnh giúp giảm bớt nhiễu từ các thông tin không

liên quan trong hình ảnh.

OpenPose trích xuất các đặc trưng không gian (spatial features) từ từng khung hình đơn lẻ

LSTM sử dụng các đặc trưng này để học và phân tích các mẫu chuyên động theo thời gian

(temporal patterns) Điều này rất quan trọng cho việc nhận diện các hành động kéo dài và

liên tục như té ngã hay các hành vi bạo lực.

2.5 CNN (Convolutional Neural Network)

Convolutional Neural Networks (CNNs) duoc thiết kế đặc biệt dé xử lý dữ liệu dưới dạng

hình ảnh và video CNN được giới thiệu lần đầu tiên bởi Yann LeCun và các đồng nghiệp

trong bài báo nổi tiếng về nhận dang ký tự viết tay [8] Convolutional Neural Network

24

Trang 33

(CNN) là một loại mô hình học sâu (deep learning) đặc biệt hiệu qua trong việc xử lý dữ

liệu có cấu trúc dạng lưới, chăng hạn như hình ảnh CNN đã cách mạng hóa các lĩnh vực

như thị giác máy tính, nhận dạng hình ảnh, và phân loại ảnh nhờ khả năng tự động học các

đặc trưng từ đữ liệu đầu vào mà không cần các kỹ thuật tiền xử lý phức tạp

Mô hình CNN nổi bật với các lớp tích chập (convolutional layers), nơi các bộ lọc (filters)

được áp dụng trên toàn bộ hình ảnh dé phát hiện các đặc trưng như cạnh, góc, va các hìnhdạng phức tạp hơn Sau đó, các lớp gộp (pooling layers) được sử dụng đề giảm kích thước

không gian của đữ liệu, giúp giảm bớt số lượng tham số và tính toán cần thiết [9] Công

thức toán cơ bản của lớp tích chập được biéu diễn như sau:

CNN được huấn luyện thông qua quá trình lan truyền ngược (backpropagation), nơi các

tham sô của các bộ lọc được điêu chỉnh đê giảm thiêu hàm mat mát.

| Convolutional Layer_1

Trang 34

e _ Lớp Convolution (Convolutional Layer):

Bộ loc (Filter) hoặc Hat nhân (Kernel): La các ma trận nhỏ (vi dụ 3x3, 5x5) trượt qua toàn

bộ ảnh đầu vào, tính toán các tích chập (convolutions) dé tạo ra các ban đồ đặc trưng

(feature maps).

Đặc trưng học được: Các bộ lọc này học các đặc trưng khác nhau của hình ảnh như cạnh,

góc, và các mẫu phức tạp hơn ở các lớp cao hơn.

e Lớp Kích hoạt (Activation Layer): Hàm kích hoạt ReLU (Rectified Linear Unit):

Ap dụng một ham kích hoạt ReLU để giới thiệu tinh phi tuyến tinh vào mô hình

e Lớp Pooling (Pooling Layer):

Max Pooling: Giảm kích thước của các ban đồ đặc trưng bang cách lay giá trị lớn nhất

trong mỗi vùng con (ví dụ 2x2) Điều này giúp giảm số lượng tham số và tính toán, đồng

thời kiểm soát hiện tượng quá khớp (overfitting)

Average Pooling: Lấy giá trị trung bình của các phan trong vùng con, nhưng ít phố biến

hơn so với Max Pooling.

e Lớp Fully Connected (Fully Connected Layer):

Flattening: Chuyên đổi các bản đồ đặc trưng hai chiều thành một vector một chiều dé đưa

vào các lớp fully connected.

Lớp Dense: Kết nối tat cả các nơ-ron từ lớp trước đó với mỗi nơ-ron trong lớp hiện tai,

giống như mạng neural truyền thống

e Lớp Output (Output Layer):

Softmax hoặc Sigmoid: Sử dụng ham Softmax cho các bài toán phân loại nhiều lớp va

hàm Sigmoid cho bai toán nhị phân.

> Ưu điểm của CNN

Tự động trích xuất đặc trưng: CNN có kha năng tự động học và trích xuất các đặc trưng từ

dữ liệu đầu vào mà không cần các kỹ thuật trích xuất đặc trưng thủ công

26

Trang 35

Không gian tham số ít: So với các mạng neural truyền thống, CNN sử dụng ít tham số hơn

nhờ các bộ lọc được chia sẻ và kỹ thuật pooling.

Tính bất biến dịch chuyển: Các đặc trưng học được của CNN có khả năng phát hiện cácđối tượng trong hình ảnh bat ké vị trí của chúng

> Kiến trúc đề xuất tham khảo:

Một nghiên cứu có tiêu đề "Smart Surveillance and Real-Time Human Action Recognition

Using OpenPose"[10] chứng minh một hệ thống trong đó OpenPose được sử dụng dé pháthiện các điểm chính của con người và những điểm chính này sau đó được đưa vào CNN

dé phân loại hành động Hệ thống này được thiết kế cho các ứng dụng giám sát thời gian

thực, cho thấy tính hiệu quả của việc kết hợp OpenPose và CNN trong việc phát hiện các

hành động cụ thể của con người như hành vi bạo lực hoặc té ngã

- _ Ước lượng tư thé với OpenPose:

Đầu vào: Các khung hình từ camera giám sát

Đầu ra: Các điểm đặc trưng của khớp cơ thể người

Mô tả: OpenPose xử lý mỗi khung hình dé phát hiện các hình dáng người và trích xuất các

điểm đặc trưng (keypoints), bao gồm tọa độ của các khớp chính trên cơ thé (vi dụ: khuỷu

tay, đầu gối, cô tay)

- Tiền xử lý:

Chuẩn hóa: Các điểm đặc trưng được chuan hóa dé đảm bảo tính nhất quán về tỉ lệ và vị

trí, giúp xử lý các biến thể về góc nhìn và khoảng cách từ camera

Biểu diễn đặc trưng: Các điểm đặc trưng được định dạng thành đầu vào có cấu trúc phù

hợp cho CNN.

- Trich xuất đặc trưng voi CNN:

Lớp tích chập: Các lớp này xử lý các điểm đặc trưng đã được chuẩn hóa dé trích xuất cácđặc trưng không gian Mạng có thể bao gồm nhiều lớp tích chập với các hàm kích hoạt

ReLU đề nắm bắt các mẫu phức tạp

Lớp pooling: Các lớp pooling giảm kích thước không gian của dữ liệu, giữ lại các đặc

trưng quan trọng nhất trong khi giảm tải tính toán

27

Trang 36

Lớp kết nối day đủ: Các lớp này thực hiện suy luận cao cấp dé kết hợp các đặc trưng đã

trích xuất thành một biểu diễn nhất quán

> Hiệu suất và hiệu quả của CNN

Đại điện tư thế hiệu quả: OpenPose cung cấp một biểu diễn chi tiết và chính xác về tư thécon người, điều này rất quan trọng đề nhận diện các hành động phức tạp Bằng cách tập

trung vào các điểm đặc trưng, hệ thống có thể bỏ qua các thông tin không liên quan từ

nên ảnh.

Học đặc trưng không gian: CNN rat hiệu quả trong việc học các thứ bậc không gian va

các mẫu trong dữ liệu Khi được cung cấp các điểm đặc trưng từ OpenPose, CNN có thểhọc các quan hệ phức tạp giữa các bộ phận cơ thê khác nhau đề phân biệt giữa các hành

động.

Xu lý biên thê: Chuan hóa các điêm đặc trưng giúp xử lý các biên thê về tỉ lệ, xoay và vi

trí, làm cho hệ thông trở nên mạnh mẽ hơn đôi với các thiệt lập camera và góc nhìn khác nhau.

Hiệu quả: Lớp pooling và các kỹ thuật giảm chiều giúp hệ thống duy trì hiệu suất tính

toán, điều này rất quan trọng cho các ứng dụng theo thời gian thực

Việc sử dụng OpenPose với CNN có thé đòi hỏi tính toán chuyên sâu, đặc biệt là trên CPU.Mặc dù thời gian xử lý chính xác có thể khác nhau tùy theo phần cứng và sự tối ưu hóa,

dưới đây là một số cân nhắc chung:

OpenPose: Thường yêu cau tài nguyên tính toán đáng kê, đặc biệt dé xử lý thời gian thựccủa nhiều cá nhân

Suy luận CNN: Sau khi được đào tạo, CNN có thể thực hiện suy luận tương đối nhanh,

nhưng thời gian xử lý tổng thể sẽ phụ thuộc vào độ phức tạp của mạng và kích thước của

dữ liệu đầu vào

> Lý do sử dụng phương pháp kết hợp:

28

Trang 37

- _ Trích xuất đặc trưng chỉ tiết:

OpenPose: OpenPose có khả năng cung cấp các tọa độ chính xác của các khớp cơ thé, bao

gồm dau, vai, khuỷu tay, cô tay, hông, đầu gối và mắt cá chân Điều này tạo ra một biéu

diễn hình học chi tiết và trực quan về tư thế của người

Chi tiết: Các điểm khớp này giúp mô hình hiểu rõ hơn về cấu trúc cơ thé và chuyền động,

cung cấp dữ liệu đầu vào phong phú cho quá trình học của CNN

- Kha năng học đặc trưng mạnh mẽ của CNN:

CNN (Convolutional Neural Network): CNN có khả năng học và trích xuất các đặc trưngphức tạp từ đữ liệu đầu vào thông qua các lớp tích chập và pooling

Lớp tích chập: Các lớp này giúp trích xuất các đặc trưng từ đữ liệu điểm khớp, như sự thay

đi vị trí và tư thé của các khớp theo thời gian

Lớp pooling: Giảm kích thước của các đặc trưng, giữ lại những thông tin quan trọng và

giảm thiểu tính dư thừa

- Tinh mạnh mẽ và khả năng mở rộng:

Tính mạnh mẽ: Phương pháp kết hợp này có thể nhận diện nhiều loại hành động khác nhau

một cách chính xác và đáng tin cậy.

Khả năng mở rộng: Có thé dé dàng mở rộng dé nhận điện thêm nhiều hành động mới bằng

cách huấn luyện CNN với các dữ liệu đặc trưng từ OpenPose Điều này giúp hệ thống dễ

dàng thích ứng với các yêu cầu nhận diện hành động mới mà không cần thay đổi cấu trúc

cơ bản.

> Kiến trúc đề xuất:

Bài báo "Smart Surveillance and Real-Time Human Action Recognition Using OpenPose",

nơi kiến trúc kết hợp nay đã chứng minh hiệu quả trong việc nhận diện hành động theo thời

gian thực Kiến trúc CNN trong phương pháp kết hop với OpenPose dé nhận diện hành

động của con người:

- Trích xuất điểm khớp với OpenPose: Mỗi khung hình video được xử lý bởi

OpenPose dé trích xuất các tọa độ khớp của cơ thể người Các điểm khớp này được

biêu diễn dưới dạng vector.

29

Trang 38

- Tiền xử lý dữ liệu: Các tọa độ điểm khớp được chuẩn hóa và tổ chức thành một ma

trận dé làm đầu vào cho CNN

- CNN Layer 1: Convolutional Layer:

Input: Ma trận điểm khớp từ OpenPose

Operation: Áp dụng các bộ lọc tích chập đề trích xuất các đặc trưng không gian từ ma trận

điểm khớp

Output: Các bản dé đặc trưng (feature maps)

- CNN Layer 2: Pooling Layer:

Operation: Sử dung pooling (vi dụ: max pooling hoặc average pooling) để giảm kích thướccác ban đồ đặc trưng, giúp giảm số lượng tham số và tinh toán, đồng thời giữ lai các đặc

trưng quan trọng.

Output: Bản đồ đặc trưng sau khi giảm kích thước

- CNN Layer 3: Convolutional Layer:

Operation: Ap dụng thêm các bộ lọc tích chập dé trích xuất các đặc trưng phức tap hon từbản đồ đặc trưng đã giảm kích thước

Output: Các bản đồ đặc trưng mới

- CNN Layer 4: Pooling Layer:

Operation: Sử dụng thêm một lớp pooling dé tiếp tục giảm kích thước ban đồ đặc trưng

Output: Bản đồ đặc trưng sau khi giảm kích thước

- Fully Connected Layers:

Operation: Chuyên đổi các ban đồ đặc trưng thành một vector đầu vào cho các lớp fully

connected Các lớp này học cách kết hợp các đặc trưng không gian thành các đặc trưng cao

cấp

Output: Vector đặc trưng.

- Output Layer: Softmax Layer:

Operation: Lớp softmax dự đoán xác suất cho từng loại hành động (ví dụ: té ngã, bạo lực)

Output: Xác suất cho mỗi hành động

Lý do và hiệu quả của kiên trúc

30

Trang 39

OpenPose cung cấp thông tin chỉ tiết về tư thế, trong khi CNN có khả năng học các đặc

trưng không gian phức tạp từ thông tin này.

Kiến trúc CNN giúp nắm bắt các mẫu phức tạp trong dữ liệu điểm khớp, từ đó tăng độ

chính xác trong nhận diện hành động.

Kiến trúc này có thể được mở rộng dé nhận diện nhiều loại hành động khác nhau bang cach

huấn luyện CNN với các bộ dữ liệu khác nhau

2.6 Transformer

2.6.1 Mô hình Transformer truyền thống

Thuật toán Transformer ban đầu được giới thiệu trong bài báo "Attention 1s All You

Need" của Vaswani et al vào năm 2017 [11] Thuật toán này đã thay đổi cách tiếp cận

trong việc xử lý các tác vụ liên quan đến ngôn ngữ tự nhiên (NLP) nhờ vào cơ chế tự

chú ý (self-attention) Transformer không chỉ làm giảm độ phức tạp tính toán so với các

mô hình truyền thống như RNN và LSTM mà còn cải thiện đáng kể hiệu suất

Các điểm chính của Transformer:

Cơ chế tự chú ý (Self-Attention): Đây là cơ chế cho phép mô hình tập trung vào các

phan khác nhau của đầu vào một cách động dé tạo ra dau ra Điều này giúp mô hình

hiểu được mối quan hệ giữa các từ trong câu mà không cần phải xử lý tuần tự

Song song hóa: Transformer sử dụng các khối mã hóa (encoder) và giải mã (decoder)

có thê hoạt động song song, giúp giảm thời gian huấn luyện và tối ưu hóa việc sử dụng

Trang 40

Add & Norm

Add & Norm

Multi-Head Attention

Ạ _ J

Add & Norm

Add & Norm

Feed Forward

Nx | >[AggsNem) Add & Norm Rasiked

Hình 2.6 Kiến trúc mô hình Transformer

2.6.2 Sự phát triển của Transformer để nhận diện hình ảnh

Mặc dù Transformer ban đầu được thiết kế cho NLP, nó đã nhanh chóng được áp dụng

vào các lĩnh vực khác, bao gồm cả nhận diện hình ảnh Các nghiên cứu đã chỉ ra rằng

Transformer có thê cạnh tranh, thậm chí vượt qua các mô hình CNN truyền thống trong

các tác vụ liên quan đến thị giác máy tính Vision Transformer (ViT): Được giới thiệu

trong bai báo "An Image is Worth 16x16 Words: Transformers for Image Recognition

at Scale" của Dosovitskiy et al vào năm 2020, ViT đã chứng minh rang Transformer

có thé được sử dụng hiệu qua cho các nhiệm vụ nhận diện hình anh ViT chia hình anhthành các patch (mảnh nhỏ) và áp dụng cơ chế tự chú ý để học các đặc trưng từ các

patch này [12]

32

Ngày đăng: 06/12/2024, 15:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN