1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng mô hình phát hiện bạo lực trong học Đường

60 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng mô hình phát hiện bạo lực trong học đường
Tác giả Lê Tấn Lộc, Huỳnh Thanh Phong
Người hướng dẫn TS. Nguyễn Viết Hưng, ThS. Trần Thanh Nha
Trường học Trường Đại học Sư phạm TPHCM
Chuyên ngành Khoa học Máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 60
Dung lượng 4,79 MB

Nội dung

Theo khoản 5 Điều 2 Nghị định Ấ02017/NĐ.CP tỉ bạo lực học đường là hành vi lành họ, ngược đãi, đẳnh đập; xâm lành vỉ d ÿ khác gộ tẫn lại v thé chat, tink thần của người hoe xdy ra trong

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN

LE TAN LOC

HUYNH THANH PHONG

XÂY DỰNG MÔ HÌNH

PHÁT HIỆN BẠO LỰC TRONG HỌC ĐƯỜNG

KHÓA LUẬN TÓT NGHIỆP

THANH PHO HO CHÍ MINH - NĂM 2023

Trang 2

KHOA CÔNG NGHỆ THÔNG TIN

LE TAN LOC

HUYNH THANH PHONG

XÂY DỰNG MÔ HÌNH PHÁT HIỆN BẠO LỰC TRONG HỌC ĐƯỜNG

CHUYÊN NGHÀNH: KHOA HỌC MÁY TÍNH

KHÓA LUẬN TÓT NGHIỆP

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYEN VIET HUNG

THS TRAN THANH NHÃ THANH PHO HO CHÍ MINH - NĂM 2023

Trang 3

Tôi xin chịu trách nhiệm về lời cam đoan nà

Thành phổ Hỗ Chí Minh, ngùy 8 thing 5 năm 2023

Trang 4

“rước tiên, chẳng em xin cảm ơn và biễt ơn sâu sắc đến TS Nguyễn Viết Hưng

và Thế, Trần Thanh Nhã người đã tận tỉnh hướng dẫn, chỉ bảo, giúp đỡ chúng em trong

suốt thời gian nghiên cứu khóa luận Và cũng là người đưa rà những ý tướng,

sự phủ hợp của luận văn

“Chúng em cũng xin gửi lời cảm ơn đến toàn thể các thầy cô trường Đại học Sư phạm Thành phố Hỗ Chí Minh đã giảng dạy, và tạo điều kiện cho chúng em trong quá hành trang giúp chúng em vững bước trong tương hi

“Cuối cùng, chúng em xin cảm ơn gia đình, bạn bè, người thân đã luôn ở bên để động viên và là nguồn cổ vũ lớn lao, là động lực giúp chúng em hoàn thành luận văn này

Mặc dù đã cổ gắng hoàn thành luận văn trong phạm vi và khả năng có thể Tuy nhiên sẽ không tránh khỏi những thiểu sót Chúng em rất mong nhận được sự cảm thông

và tận tình chỉ bảo của quý thầy cô và toàn thể các bạn

Thành ph Hỗ Chí Minh, ngày 8 thắng 5 năm 2023

Trang 5

MỤC LỤC LOI CAM DOAN

Mặc tiêu nghiên cứu

Đối tượng và phạm vĩ nghiên cứu

Phương pháp nghiên cứu

`Ý nghĩa khoa học và thực tiễn

.Cấu trúc luận văn

CHUONG 1 TÔNG QUAN TÌNH HÌNH NGHIÊN COU

LA Téng quan

12 Các phương pháp áp dung cho bai toán phát hiện bạo lực 12.1, Machine learning

122, Deep learning

L3 Các bộ dữliệu tiêu chuẩn

CHUONG 2 CƠ SỞ LÝ THUYẾT

2:1 - Phương pháp pháthiện đổi tượng 2.1, Region-based Convolutional Neural Networks (RNN)

2.1.2, Fast CNN,

Trang 6

2.1.5 Exceeding YOLO Series in 2021 (YOLOX) 29 2.2 Phuong pháp ước lượng tư thé - trich xudt khung xwong, 30

23 Phuong pháp nhận dạng hành động dựa trên khung xương 3 2.4, Phương pháp phát hiện bạo lực dựa trên chuỗi khung hình 34

CHUONG 3 PHƯƠNG PHÁP PHÁT HIỆN H

VIDEO CAMERA GIAM SAT

Trang 7

42 Dữliệu đầu vào

4.3 — Phương pháp đánh giá 43.1, Accuracy

43.2 Fl-score,

CHUONG 5 KET LUAN VA HUONG PHAP TRIEN 5.1 Kếtluận

52 - Hướng phat tién

TÀI LIỆU THAM KHẢO

1 Tiếng Việt

Tiếng Anh

Trang 8

Graph Convolutional Networks Graph Neural Network

Long Short-Term Memory Long-range Temporal structure Region-based Convolutional Neural Networks Residual Network

Region of Interest,

Region Proposal Network Spatial Temporal Graph Convolutional Networks Space-Time Interest Points

‘Support Vector Machine Visual Geometry Group You Only Look One

Exceeding YOLO Series in 2021

Trang 9

Bảng 1.1 Các bộ dữ liệu được sử dụng trong bài toán Violence Detection 20

Bảng 4.1 Thông kẻ s lượng video của các bộ dữ liệu 48

Bảng 4.3 So sánh kết quả giữa cac pretrained-model SI Bing 44 So sinh kt qua kiểm thử của các mô hình rên tập test tng hop 51

Bảng 4.5 So sánh kết quả huấn luyện của các mô hình trên bộ Hockey 52

Trang 10

Hình 1.1 Thống kẻ số bài báo về bài toán phát hiện bạo lực 2015 ~ 2022 [21]J25]

“ Hình L2 Thống kê các phương pháp đã sử dụng cho bài toán phát hiện bạo lực

Hình L3 Hình mình họa ý tưởng tích xuất STACOG feate [7] 16 Hình 1.4 Hinh minh hoa biéu diễn theo chiều dọc từ trái sang là khung hình,

Hình L.5 Hình mỉnh họa tổng quan phương pháp của Peng và các cộng sự [34]

18 Hình 1.6 Hình mình họa mô hình 3D Convolutional Neural Networks [18] 19 Hình 1.7 Hình minh họa mô hình CNN-BiLSTM [13] 20 Hình 1.8 Một số hình ảnh trong bộ dữ liệu Hockey Eight 2] 21 Hình 1.9 Một số hình ảnh trong bộ dữ liệu Violenee in Movies [2] 2 Hình 1.10 Một số hình ảnh trong bộ dit ligu Real life violence situations [29] 22

Hình 2.8 Vĩ dụ ước lượng tơ thể của một người (khung xương của một người)

Trang 11

khớp dĩ chuyển khác nhau khi thực hiện một hành động (c) Biểu đồ không -

Hình 3.2 Minh họa cho 3D heatmap volume, bén trái là khung hình ban đầu, bên phải là khung hình của 3D heatmap volume từ bộ dữ liệu Real life violence

Hinh 4.1 Mink họa cho kỹ thuật lấy mẫu Uniform Sampling 48 Hình 42 Kết quả thu được với các tình huồng bạo lực (cột tr), không bạo lực

Trang 12

“rong giáo dục, vẫn đề bạo lực học đường vẫn diễn ra vô cùng phức tạp và phổ biến gi

nhức nhối không chỉ ở Việt nam mà các nước phát triển cũng đối mặt về vấn đề nan giải

này Đây là mối quan tâm của mỗi gia nh có con em tong giai đoạn cắp sách đến trường, của các cắp lãnh đạo và cũng như toàn xã hội Theo khoản 5 Điều 2 Nghị định Ấ02017/NĐ.CP tỉ bạo lực học đường là hành vi lành họ, ngược đãi, đẳnh đập; xâm lành vỉ d ÿ khác gộ tẫn lại v thé chat, tink thần của người hoe xdy ra trong eo sr giáo dục hoặc lấp độc lập I] Tuy nhiên, trong phạm vỉ của để ti, bạ lực à những

it thé chat trong trường hợp ít người (đưới 7 người)

"ảnh vi gây tổn hại về

“Trong thời gian gần đây, trên các phương tiện truyền thông đang xuất hiện nhiều thông tỉn về hành vỉ bạo lực của học sinh, bao gồm việc sử dụng vũ lực để đánh nhau, thậm chí cỏ những trường hợp sử dụng vũ khí vàtỉn công nhóm ở trong và ngoài trường

tăng ở học sinh nữ với mức độ không

chỉ xuắthiện ở học inh nam mổ còn ngây căng

thể dự đoán Nguyên nhân của vấn đề này là do ý thức của học sinh chưa được nững cao, các em chưa thực sự hiểu rõ về hậu quả của hành vị bạo lực trong học đường Ngoài

Tạ việc kiểm soát hành vi của học sinh cũng chưa được quân lý chặt chẽ, chỉ cần vi li kích động lả có thé dẫn đến những cuộc đánh nhau đáng tiếc

Dé gia quyết vẫn đề đó, nhiều nhà trường dã lắp đặt các camera để có thể quan

sát và xử lý kịp thời Như một lẽ dĩ nhiên số lượng camera tăng dẫn tới số người giám

sit cde camera ny tăng theo Việc giám sắt một cách thủ công như vậy sẽiêu tổn nhiều chỉ phí và cũng không thể đảm bảo những vụ bạo lực đều được phát hiện kip thi

Vì lý do như trên, luận văn xây dựng mô hình phát hiện bạo lực trong học đường cdựa trên dữ liệu video được ghỉ từ các camera giám sát

Trang 13

Xay dựng một mô hình phát hiện bạo lực

“Thực nghiệm mô hình rên nhiều bộ dỡ ligu: Hockey Fight, Violence in Movies, Real lf violence situations, RWF-2000 va Violence detection,

Đối tượng và phạm vi nghiên cứu

Đối tượng người trong cic video thu được từ camera giảm sắt Phát hiện có bạo lực hoặc không bạo lực trong các video thu được từ camera giám sát

Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết

« ——_ Tim hiểu tổng quan các công tình nghiền cứu về phát hiệ các hành vỉ bạo lực thông qua video camera giám sát

«——_ Nghiên cửu cơ sở lý thuyếtliên quan đến đề dài

« — Nghiên cứu kỹ thuật trích xuất đặc trưng trên dữ iệu video sử dụng mô, hình học sâu

se Nghiên cứu kỹ thuật phát hiện bạo lực

© _ ĐÈ xuất hướng phát triển trong tương lai

Phương pháp nghiên cứu thực nghiệm

Thu thập dữ liệu đáp ứng yêu cầu bài toán

« ——_ Tiến hình xây dụng môhinh

-Đảnh giá và so sánh kết quả đạt được

`Ý nghĩa khoa học và thực tiễn

"Để tải "Xây dựng mô hình phát hiện bạo lực trong học đường” là một bài toán

phát hiện bạo lực, bước phát tr

VỀ mặt thực tiễn, th sau khi địch COVID 19 đã đi qua các học sinh có thé quay

từ bài toán nhận diện hành động (Action recognition) lại trường học đi học bình thường Nhưng do nghỉ dịch quá lâu dẫn tới tỉnh thần vẫn

Trang 14

xây mà trong môi trường học đường Nên với đề tải này có th giúp người giám sắt hệ

đồ đồng gốp vào công tác đảm an ninh rong trường học

Cấu trúc luận văn

Dựa vào những mục tiêu đã trình bày, nội dung luận văn được chỉa thành các phần như sau

nghĩa khoa học và thục tiễn, cùng cầu trúc chung của để

Chương 1: Tổng quan tình hình nghiên cứu

“Chương này giới thiệu tổng quan trình hình nghiên cứu trong lĩnh vực phát hiện bao luc (Violence Detecon), giới thiệu về các bộ dữ liệu tiêu chuẳn đang được các nhà tiêu biểu tương ứng với từng phương pháp

Chương 2: Cư sở lý thuyết

“Chương này sẽ trình bày lần lượt tông quan các phương pháp phát hiện đối tượng tước lượng tư thể - tích xuất khung xương, nhận dạng hành động đựa trên khung xương,

và phát hiện bạo lực dựa trên chuỗi khung hình Đồng thời trong từng phương pháp, chúng tôi cũng nêu ra khái niệm cũng như ưu điểm và khuyết điểm vỀ một sổ thuật toán, kiến trúc mô hình tiêu biểu để làm cơ sở chọn lựa mô hình phủ hợp với đề tải Chương 3: Phương pháp phát hiện hành vi bạo lực qua video

Trang 15

bạo lực đựa trên chuỗi khung hình

Chương 4: Thực nghiệm và đánh giá

Trang 16

1.1 Téng quan

"Trong nhiều năm qua, việc ứng đụng công nghệ trong giáo đục đã phát triển mạnh

mẽ Nghiên cứu vẻ trí tuệ nhân tạo và học sâu hiện dang là một trong những lĩnh vực đang được quan tâm nhiều nhất Đặc biệt, mô hình học sâu đang được ấp dụng rộng rãi trong nhiều lĩnh vực như nhận dạng đối tượng, phân loại văn bản và nhỉ

“Trong trường học, việc phát hiện và giải quyết vẫn đề bạo lục là một vấn đề quan trọng Tuy nhiên, việc phát hiện bạo lực thông qua phương pháp truyền thống có thể rất

¡nh vực khác khó khăn và tốn thời gian Vì vậy, sử dụng máy học để giúp phát hiện bạo lực trong trường học có thể là một giải pháp hiệu quả

Mô hình học sâu có thể được sử dụng dé phát hiện bạo lực bằng cách học các đặc trưng về bạo lực từ các video và đề xuất các giải pháp để giải quyết vấn đề, Các mô hình

"Networks (ConvNets) hoge Recurrent Neural Networks (RNNS)

“Trong những năm gần đây, việc nghiên cứu về phát hiện bạo lực liên quan tới cđánh nhau từ video và hình ảnh đã trở thành một lĩnh vực được quan tâm rất nhiều, Các

Trang 17

sau sy phat triển công nghệ dẫn tới có thê huấn luyện mô hình của các phương pháp học dẫn qua các năm

“Trong các phương pháp dùng để giải quyết bài toán phát hiện bạo lực, SVM là một trong những phương pháp máy học được ứng dụng phổ biển nhất, chiếm tỷ lệ 24% trong số các phương pháp được sử dụng Từ năm 2015 đến 2018, các phương pháp thông thường chiếm khoảng một phần năm trong số các phương pháp được áp dụng Các thuật toán khác trong phương pháp máy học được sử dụng bao gồm k nearest neighbors (2%), Adaptive boosting (4%), Random Forest (74) va k-means (2%)

Hình L2 Thông kê các phi p đã sử dụng

0 bai toán phát hiện bạo lực [21]

"Nhờ sự phát triển nhanh chống của công nghệ tính toán với hiệu suất ngày cảng cao, phương pháp học sâu đã trở thành một trong nhờng phương pháp chính được sử cdụng trong bi toán phát hiện bạo lực, chiếm tỷ lệ 43% Trong số các phương pháp này mạng nơron tích chập (Convolutional Neural Networks - CNN) được ưa chuộng và sử cdụng nhiều nhất Một trong những đặc điểm của CNN là khả năng tự động học các đặc

“ho việc phát hiện bạo lực trở nên hiệu quả hơn, đặc biệt là trong các video có tính chất

phức tạp Các mô hình CNN cũng được cải tiến liên tục để đáp ứng với những thách thức mới trong việc giải quyết bài toán phát hiện bạo lực

Trang 18

Để có thể giảm mức độ tính toán đến mức tối thiểu các nhà nghiên cứu đã sử

‘dung các đặc trưng thủ công (hand erafted feature), dựa trên ý tưởng riêng của từng nhà spatio temporal autocorrelation of gradient (STACOG) [7], motion boundary SIET(MoBSIET) |9| và đặc trưng âm thanh [34]

được xuất từ các chuỗi khung hình được chọn tại các điểm mật độ trên trục thời gian Sau khi đã trích xuất được đặc trưng STACOG,, các tác giả sử đụng SVM để phát hiện hành động bạo lực

Trang 19

sự [9] đề xuất một phương pháp trích xuất đặc trưng cùng tên

là MoBSIFT Với sự kết hợp giữa hai phương pháp khác là motion SIFT(MoSIFT) vi

moion boundary hitogram (MBH), Phương pháp MoBSIFT gồm hai bước chính: phát

đoạn video ngắn hoc các kịch bản cụ thể, rong khi các nghiền cấu khác đã sử đụng các

Trang 20

"và xác định bạo lực, các tác giả đề xuất một mạng nơron với ba nhánh song song Nhánh bằng cách sử dụng một mô hình dựa trên độ tương tự Nhánh thứ hai được gọi là nhánh

tùng, nhánh thứ ba được gọi là nhánh "score",

Bằng cách kết hợp ba nhánh này, Peng và các cộng sự đề xuất mô hình có thể nắm bắt được các loại mỗi quan hệ khác nhau trong các đoạn video và tích hợp các đặc

tác giả sử dụng phương pháp học có giám sit yếu (weak supervision) để huấn luyện mô

hình, chỉ sử dụng một số từ khỏa hoặc cụm từ chỉ ra sự hiện diện của bạo lực trong dữ

một cách tự động và có khả năng khai thác các đặc trưng đó đẻ phân loại và dự đoán

đầu ra Các mô hình học sâu như Convolutional Neural Networks (CNN), Recurrent

18

Trang 21

sắc nghiên cứu liên quan đến phát hiện bạo lực và đạt được kết quả tốt hơn sơ với các

có thể tự động học và khai tác các đặc trưng có lợi cho việc phân loại các video bạo lực

Hình 1.6 Hình mình họa mô hình 3D Convolutional Neural Networks [18]

“Tác giả Lí và các cộng sự [18] đã để xuất mô hình 3D Convolutional Neural 'Networks với ý tưởng sử dụng lớp tích chập 3D (3D Convoluional layer) có thể đồng

thời thu nhập các đặc trưng không gian và thời gian vì kemel tích chập được mở rộng

„ điều đó kéo theo không cần áp dụng các kiến trúc RNN hoặc LSTM (được thiết kế để mã hóa thông tin thời gian và các pixel thô có thể được đưa trực tiếp

n động tư thể nên được xử ý riêng biệt hỗ trợ cho nhau để đạt được kết quả tốt nhất với lớp Separable Convolutional LSTM (SepConvLSTM) Lớp SepConvLSTM được các tác giả tự tạo ra với ý tưởng làm giảm đi mức độ tính toán so với Lớp

'ConvLSTM thông thường nhưng vẫn giữ được độ hiểu quả cao trong việc trích xuất các

19

Trang 22

để cải thiện độ chính xác của mô hình, họ sử dụng BiLSTM là sự kết hợp của hai lớp học được thông tin đến từ các đặc trưng thời gian trước va sau của một khung hình như: thể, đạt được kết quả cao với 99.27% trong bộ dữ liệu Hockey Eights

13 Các bộ dữ liệu tiêu chuẩn

“Chúng tôi giới thiệu các bộ đữ liệu (dataste) được sử dụng phổ biến trong việc giải quyết bài toán phát hiện bạo lực:

Băng 1.1 Các bộ dữ liệu được sử dụng trong bài toán Violence Detection

Non- [Average | Is Dataset | Year | Violence violence | duration | crowded Resolution Hockey | son | soo Fight | F 300 | second oy |“ 360 x 288 *

Trang 23

Hockey Fight [2]: Day là bộ dữ liệu rất phổ biển và được sử dụng rộng rãi để

phat hiện bạo lực bởi hẳu hết phương pháp rong các bài báo liên quan dén Violence

Deiection Bộ dữ liệu được đề xuất bởi Nievas và các cộng su, chita 1000 video clip

Bộ dữ liệu được cân bằng đồng đều với 500 video được phân loại là bạo lực và

500 video còn lại được xếp vào danh mục không bạo lực được ghi hình ở các trận khúc

cn clu (National Hockey League ~ NHL) Mỗi video clip chứa khoảng 50 khung hình

và độ phân giải của những video này là không đổi, đó là 360 x 288 pixel Nhờ có sự cân

bằng đồng đều giãn các video được phân loại là đánh nhau và không đảnh nhau, cũng,

với số lượng lớn video clip và độ phân giải én định, bộ dữ liệu Hockey Eight đã trở

thành một trong những tài nguyên quan trọng và hữu ích trong việc giải quyết bãi toán

học sâu

Trang 24

nhau và hành động Dung lượng tương đối nhỏ hơn, chỉ chứa 200 video clp cổ kích đáng kể hoặc thậm chí không có chuyển động nào trong một số trường hợp, giúp dễ đảng phát hiện các mẫu với hành vỉ bắt thường, tức là những người có hành vỉ đảnh

YouTube, Các video bạo lực rong tập dỡ liệu này bao gồm nhiều tỉnh buồng đảnh nhau

trong môi trường đường phổ thực tế với các điều kiện khác nhau Ngoài ra, bộ dữ liệu nhau của con người như thể thao, ăn uống, đi bộ và nhiều hành động khác

Hình 1.10 Một số hình ảnh trong bộ dữ liệu Real le violence situations

29]

Trang 25

được quay bởi camera giám sắt đ mang litỉnh chân thực và thực tẾ cho việc phát hiện

giả có thể thay đối Các video được phân loại thành hai lớp: hành động bạo lực và không

bạo lực Tuy nhiên, tập dữ liệu này đòi hỏi sự khó khăn khi một số video có chất lượng

Hình L.11 Một số hình ảnh trong bộ dữ liệu RAWE-2000 [5]

Violenee đetection [3]: Bộ dỡ liệu này này chứa 350 video clip tự gh hình được cđần nhãn là không bạo lực và bạo lực, được sử dụng để đảo tạo và thử nghiệm các thuật

‘g6m các hành vi (ôm, vỗ tay, vui mừng, v.v.) có thể gây ra dự đoán nhằm lẫn trong

lực Tập dữ liệu được chia thành hai thư mục con, “cam!” va “cam2” được quay bing

‘video clip không bạo lực, “cam2” chứa 115 video bạo lực và 115 video không bạo lực,

Hình 1.12 Một số hình ảnh trong bộ dữ liệu Violence detection [3]

2B

Trang 26

(Chung niy ching (i sé tinh bay lin lugt tong quan cde phurong php phithign đối tượng, ước lượng tư thể trích xuất khung xương nhận dạng hành động đa trên

khung xương và phát hiện bạo lực dựa trên chuỗi khung hình Đông thời trong từng phương pháp, chúng tôi cũng nêu ra khái niệm cũng như u điểm và khuyết diễm về một số thuật toán, kiến trúc mô hình tiêu biểu đẻ làm cơ sở chọn lựa mô hình phù hợp void ti

3-1 Phương pháp phát hiện đối tượng

Nhân dạng đổi tượng (Object Recognition) la mot fish vực trong Computer Vislonliên quan đến khả năng của hệ thống máy tính để phát hiện và phân loại các đối tượng trong hình ảnh hoặc video Các đối tượng này có thể Li các vật thể, khuôn mặt, chữ viết hoặc bất kỷ thứ gỉ cần được nhận dạng bằng hình ảnh Khi hệ thống nhận diện

đối tượng, nỗ tạo ra các đối tượng khác nhau và liên kết chúng với các nhãn hoặc tên

và xe tự lái đến các ứng dụng y tế và công nghiệp sản xuất, Các thuật toán nhận diện đối

ng cá

mạng nơron học sâu được sử dụng để học các đặc trưng của hình ảnh và tạo ra các dự

tượng phức tạp được pháttiển :h sử dụng mô hình Deep Leaming, trong đồ các đoán nhân đối tượng chính xác hơn

Phát hiện đối tượng (Objeet Detecion) cung cắp một khả năng phúc tạp hơn so với ObjecL Recognition bằng cách xác định vị trí cụ thể của đổi tượng trong hình ảnh và bao gằm cả phạm vĩ của đối tượng đó bằng cách tạo ra một bounding box quanh dối tượng Trong quá trình này, các thuật toán nhận diện đối tượng sẽ phân tích hình ảnh đầu vào, tìm kiểm các đối tượng trên hình ảnh và đưa ra các thông tin bao gồm toạ độ Detection được ứng dụng rộng rãi trong các lĩnh vực như: nhận dạng khuôn mặt, đếm

xe ong giao thông, phát hiện và phòng chống tội phạm, giám sắt an nỉnh và tự động hóa sản xuất, là cơ sở để hình thành nên nhiều tác vụ khác trong lĩnh vực thị giác máy tính như phân vùng thực thé (instance segmentation), tạo chú thích ảnh (image

z

Trang 27

cdụng trong Object Detection la Faster R-CNN, YOLO (You Only Look Once)

‘cia Object Detection Kiến trúc R-CNN gồm ba thành phần chính: Vồng hình ảnh đề xuất (Region proposal), Bộ trích xuất đặc trung (Feature extractor), BO phan loại (Classifier

Region proposal li ving 66 xée suit cao chira d6i twyng (Khong 2000 vùng) được chọn ra từ một thuật toán tìm kiểm có chọn lọc (Selective search), ngoai ra kich Feature extractor

Trang 28

thể là AlecNet - một mô hình học sâu đã chiến thắng cuộc thỉ phân loại hình ảnh TLSVRC-2012, vi dt liu du vio li ci Region proposal nhằm tich xuất các đc trưng

‘i với từng vùng đề xuất, Cuỗi cùng các đặc trưng này sẽ được truy qua một mổ hình phân lip - Classifier, cu th là SVM để xác định lớp của các đối tượng trong céc Region proposal

Do RNN mô hình đầu tên trong vic áp dụng các mô hình sâu để phục vụ cho mục đích eta Object Detecion cho nên cũng có một số hạn chế như: Nhiễu giai đoạn

phát hiện đối tượng còn châm

R-CNN: Regions with CNN features arped region

Hình 2.2

iến trúc mô hình R-CNN [11] Fast R-CNN

Hạn chế lớn nhất của RNN đó là tốc độ phát hiện đối tượng còn chậm, không phù

"hợp để áp dụng vào thực thể, do vậy Fast R-CNN [12] được phát triển nhằm cải thiện tốc độ phát hiện đối tượng bằng cách tiền hành tính toán một lẫn trên toàn bộ hình ảnh

“Trong khi, R-CNN chỉ tính toán một cách độc lập mỗi vũng trong số khoảng hai nghĩn

‘ving quan tâm

Trang 29

Đầu tiên Eist R-CNN sẽ trích xuất các đặc trưng từ bức ảnh tạo thành một tập hợp cae Region proposal Các vùng này sau khi được trích xuất sẽ là đầu vào của một

mang CNN da được huấn luyện trước (VGG-16 ), đề trích xuất và chọn lọc các đặc

trưng, tuy nhiên tác giả đã tự xây dựng ở lớp cuối cũng của mô hình bằng một lớp vùng

‘quan tam (Region of Interest Pooling - Rol Pooling) nhằm trích xuất các đặc trưng cho

một vùng ủnh đầu vào nhất định Đây là mắu chốt giáp East R-CNN có độ chính xác đánh kể so với R-CNN trước đây Sau đó các đặc trưng được kết nổi với một lớp kết nói

dy di (FC -fally-connected), Đầu ra của mô hình được chỉa thành hai luỗng, một luỗng

“dự đoán nhãn thông qua một hàm softumax và một luồng khác dự đoán bounding box dựa trên hồi qui tuyển tính Quá tình này sẽ được fp đi lặp li cho mỗi vùng quan tâm

(Rol - Region of Interest) trong một ảnh Tốc độ về thời gian huần luyện và dự đoán đã được cải thiện và nhanh hơn đáng kể so với mô hình RNN trước đây vi chỉ phải huấn luyện qua mô hình CNN một lằn duy nhất Tuy nhiên Fast R-CNN vẫn sử dụng một tập hợp cae Region proposal cho mỗi hình ảnh đầu vào vẫn chưa được cải thiện đến mức tối tụ

2.1.3 Faster R-CNN

Faster R-CNN [24] là một đột quá về tốc độ so với mô hình thuộc họ RNN trước đây Thay vì dùng thuật toán tìm kiểm có chọn lọc để tạo ra các khu vực để xuất như cả xuất Region Proposal Network (RPN)

Trang 30

Ảnh sau khi đưa qua một CNN được huấn luyện trước sẽ thu được bản đồ đặc trưng (feature maps) Cac Feature map này sẽ được RPN tim ra các vùng có khả năng, chứa đối tượng (Rol) Sau đó, hực hiện các bước tiếp theo tương tự như Fast R-CNN 2.14 You Only Look Once (YOLO)

YOLO [28] được đề xuất sử dụng mạng lưới noron diu cudi (end-to-end) dé dua

ra dự đoán về các bounding box và xác suất phân loại các lớp đối tượng cùng một thời

Ngày đăng: 30/10/2024, 11:03

w