1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường

70 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ thống camera thông minh phát hiện các hành vi bất thường
Tác giả Nguyễn Văn Thắng, Nguyễn Đông Quân
Người hướng dẫn TS. Đoàn Duy, ThS. Nguyễn Thanh Thiện
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Kỹ thuật Máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 70
Dung lượng 36,07 MB

Cấu trúc

  • 2.2. Linh vurc 000i (0)
    • 2.2.1. Trí tuệ nhân tao (Artificial Intelligence — Al).. 2.2.2. Học máy (Machine Learning) ........................--¿- - + ¿55+ ++x‡v+£ervrexekereree 7 2.2.3. Học sâu (Deep Learning) ..................................----- 5 55+5c+c+ssece+xexerereexes 8 2.3. Tổng quan về mang n€ur0n...................---:---2222++£2222EESS22++++ttEEE2vvvrrerrrrrr 0 2.3.1. I\(01000830.)08.19ã2010107557 (18)
    • 2.3.2. Neuron nhan li (0)
    • 2.3.3. Lịch sử phát triển mạng neuron nhân tạo.........................----- eects 1 2.3.4. Mang Neuron nhân tạO....................... + 5c St SvEEkekekerkrrrerrkrvek 2 2.3.5. Mang Neuron tích chập (CNN)..........................- cành 3 2.4. Cac bài toán phân loại trên dit liệu đa phương tiện (ảnh và video) (23)
    • 2.4.1. Phân loại anh đa lớp (Multiclass Image Classification) (0)
    • 2.5.1. Resnet — 18 oc 4. 19 2.5.2. ResNet-3D-18....................... cuc HH HH HH HH HH it 20 2.5.3. MMobilenet_ V2...........................--- - c c1 11111 1112 1112 111511 110111 v1 kg tư 22 Chương 3. GIẢI PHÁP DE XUẤT............................---22¿¿22222+222E+Szrtvrrxeerrrrrscee 23 3.1. Mô hình tổng quan.........................----222++222EEE2++++ttttEEEEYvrrrrtrrrrrrrrrrrrrrrrrr 23 3.2. Các thiết bị phần cứng sử dụng.... 3.2.1. NVIDIA Jetson Nano Developer Kit (31)
    • 3.2.2. Camera PI NOIR V2.....................................---c- 55+ ctetsterererrerrrrerrrre 26 3.3. Các công cụ SU dỤng..........................- tàn HT HH ngư 27 3.3.1. Pytorchf 6... le ÂỄ s=sss<es sesEKerersesrsesrerreeree 27 3.3.2. Open ...ĐMPe=...c@\E (38)
    • 3.3.3. Google Colab.................................................. Ăn. 28 3.4. Bộ dữ liệu sử dụng.............................. St nưết 28 3.4.1. Bộ dữ liệu CityScene...........................--- + ch HH. 1 rưến 28 3.4.2. Bộ dữ liệu UCF — Crime....................................------cc+ccreeceeeeeeere... oO) 3.4.3. Bộ dữ liệu tông hợp............................----c-:2222+ccSccvvrrrerrkrrrrrrrkrrrrrrrvee 32 3.5. Xây dựng phương pháp phân loại ảnh đa lớp (Multiclass Image (40)
  • 3.6. Xây dựng phương pháp phân loại video (Video Classification) .. 3.7. Gửi cảnh bỏo qua âImaiẽ.................... - - - + xxx Ek*EvEvEkEkskrknhnhngrrtrưy 38 3.7.1. _ Giới thiệu về Gmail.................................---5cccccccccescccceeeecrceerreeeeec (49)
    • 3.7.2. Giao thức SMTP và Máy chủ SMTP của Gmail (50)

Nội dung

Dữ liệu từ camera được thu về, sau đó sẽ áp dụng các công nghệ xử lý ảnh số, xử lý video số, áp dụng thuật toán phát hiện các hành vi dựa trên thị giác máy tính để trích xuất các đặc điể

Linh vurc 000i

Trí tuệ nhân tao (Artificial Intelligence — Al) 2.2.2 Học máy (Machine Learning) ¿- - + ¿55+ ++x‡v+£ervrexekereree 7 2.2.3 Học sâu (Deep Learning) - 5 55+5c+c+ssece+xexerereexes 8 2.3 Tổng quan về mang n€ur0n -: -2222++£2222EESS22++++ttEEE2vvvrrerrrrrr 0 2.3.1 I\(01000830.)08.19ã2010107557

Trí tuệ nhân tạo tức là trí thông minh của máy móc do con người sáng tạo và lập trình ra, đặc biệt dành cho các siêu máy tính, robot, hay các thiết bị điện tử có khả năng tính toán Đây là một lĩnh vực quan trọng trong khoa học máy tính, được ưu tiên nghiên cứu và phát triển hàng đầu trong nền công nghiệp 4.0 hiện nay trên thế giới.

Nhờ có trí tuệ nhân tạo, máy tính đạt được khả năng suy nghĩ, phân tích, lập luận giải quyết các van dé, thậm chí có thé giao tiếp trực tiếp với con người do có thé tự học hỏi ngôn ngữ và tiếng nói Một vài sản phẩm công nghệ nổi tiếng sử dụng trí tuệ nhân tạo có thể kế đến như robot ASIMO (hình 2.2), chương trình Alpha Go chuyên giải cờ vây (hình 2.3),

Hình 2.2 Robot ASIMO, một trong những sản phẩm trí tuệ nhân tạo vào những năm

Hình 2.3 AlphaGo — Chương trình AI giải cờ vay cua Google [3]

Học máy hay máy học (Machine Learning - ML) là một lĩnh vực con của Trí tuệ nhân tạo, có khả năng “học hỏi” dựa trên dữ liệu đưa vào sau đó có thể phân tích, trích xuất các đặc trưng từ dữ liệu dựa trên các thuật toán phân tích cú pháp dữ liệu và đưa ra quyết định đưa ra dự đoán từ dữ liệu mà máy đã học hỏi Vì vậy, con người không phải lập trình thủ công bang hàng loạt các chỉ dẫn cụ thé mà máy tính có thé sử dụng các thuật toán do con người viết cùng với một số lượng lớn dữ liệu dé thé học được cách hoàn thành tác vụ.

Các kĩ thuật ML giúp máy tính có thể tìm được những thông tin đặc trưng có giá trị an rất sâu trong bộ dữ liệu mà việc lập trình thông thường không thể thực hiện được Với các kĩ thuật máy học hiện đại có thể áp dụng vào rất nhiều lĩnh vực trong đời sống: phân tích được về thị trường chứng khoán, chân đoán trong y khoa, dự đoán giá nhà đất, phân loại thư rác (hình 2.4),

Delete all spam messages now (messages that have been in Spam more than 30 days will be aul deleted)

Mr Collins Belly Attention Funds Owner, - Attention Funds Own Anti-Fraud Unit ICPC PAYMENT NOTIFICATION - ICP€ NIGERIA (An ằ Zipeem Per raggiungere i tuoi progetti, scopri le rego

Anti-Fraud Unit ICPC PAYMENT NOTIFICATION - ICPC NIGERIA (An ằ UsTrendy Indie Fashion New Arrivals Just Added! - This message was

YOU'RE-APPROVED YOUR Roof is Covered FREE!! ằ WORK @ HOME (PLEASE REPLY) Woburn FULL TIME - 2 Rem

Office Re:Confirm deposit - DEPC INHERITAN

Mr.Sambo Ngene Message From Mr.Sambo Ngene Director, Fore: ằ Congratulations! Here is your chance to win a brand new Ford! ằ Jocelyn Weir Do not regret skipping these jobs - Jul 27, 20°

Registered_Offender_List SEX-Offender living near-YOU!! {Find-Out}

Hình 2.4 Phân loại email spam — Một ứng dụng cua ML [4]

Học sâu (Deep Learning - DL) là một tập con của học máy, lay cam hứng từ cách hoạt động của não bộ con người Các kĩ thuật học sâu sử dụng mạng neuron (nơ- ron) nhân tạo giúp các mô hình máy học giải quyết các bài toán tưởng chừng không thé thực hiện được: phân loại hàng nghìn vật thé khác nhau trong một bức ảnh, tự động tạo chú thích cho ảnh, tự động bắt chước giọng nói và giao tiếp với con người, thậm chí có thê tự động sáng tác thơ văn và âm nhạc.

DL có thé coi là một sự phát triển phức tạp và tinh vi từ các thuật toán máy học Khác với việc trích xuất các đặc trưng một cách thủ công của ML, DL sẽ tự trích xuất các đặc trưng mà nó cho là phù hợp Một bai toán có thê gặp trong thực tế là dé máy tính nhận biết được được biển báo STOP, DL sẽ tự trích xuất các đặc trưng phù hợp như màu sắc, hình dáng, các kí tự, Trong khi đó với ML, con người sẽ phải xác định các đặc trưng rôi kiêm tra kêt quả đâu ra mà máy tính dự đoán có đúng yêu cầu đặt ra hay không và điều chỉnh lại các đặc trưng cần trích xuất nếu không phải.

Hình 2.5 Sự khác nhau giữa May học va DL [5]

Hình 2.6 Sự phát triển cua lĩnh vực AI và mối quan hệ giữa các lĩnh vực liên quan

2.3 Tổng quan về mạng neuron

Một neuron sinh học gồm có thân neuron, tua gai thần kinh, sợi trục thần kinh, trong đó: e Thân neuron là nơi xử lý các tín hiệu được đưa vao. e Tua gai thần kinh là nơi nhận các xung điện vào trong neuron. ¢ Soi trục thần kinh là nơi đưa tín hiệu ra ngoài sau khi được xử lý bởi neuron. e Khớp thần kinh là vị trí nằm giữa tua gai thần kinh và sợi trục thần kinh. Đây là điêm liên kêt dau ra của neuron nay với đâu vào của neuron khác.

Neuron nhân tạo là một mô hình toán học mô phỏng neuron sinh học trong hệ thông thân kinh con người Dựa vào câu tạo của một neuron sinh học, các nhà khoa học đã đưa ra kiên trúc của một neuron nhân tạo như sau: Đầu ra

Hàm tổng Hàm kích hoạt

Xn) Trọng số liên kết

Hình 2.7 Mô hình toán học của một neuron nhân tạo [6]

Trong đó: e Danh sách đâu vào: là các thuộc tính đâu vào của một neuron Sô lượng thuộc tính đâu vao thường nhiêu hơn một Dữ liệu dau vào thường là một vector nhiêu chiêu hoặc nhiêu neuron tang trước kêt nôi tới một neuron tâng sau.

10 e Trọng sô liên kêt: các liên kêt thê hiện độ mạnh yêu qua một giá tri được gọi là trọng sô liên kêt Kêt hợp với các đâu truyên, tín hiệu đên các neuron nhân tạo khác sẽ được tính bằng w;X;. e Hàm tông: tông các tích của các đầu vào với trọng số liên kết mô phỏng các khớp kết nối Sau đó đi qua hàm tính tông dé tính ra giá trị trước khi đưa vào hàm kích hoạt. e Hàm kích hoạt: được sử dụng dé tính toán giá trị của đầu ra dựa vào giá trị của hàm tông.

2.3.3 Lịch sử phát triển mạng neuron nhân tạo

Vào năm 1943, nhà vật lý thần kinh học Warren McCulloch cùng nhà toán học Walter Pitts đã nghiên cứu, phân tích và mô phỏng các tế bào thần kinh đơn giản hóa

(idealized artificial neurons) và chỉ ra chúng có thé thực hiện các phép tính logic Sau đó, họ đã thực hiện mô phỏng một mạng thần kinh đơn giản trên một mạch điện.

Vào năm 1949, Donald Hebb đã viết cuén sách “Organization of Behavior” (Sự tô chức của hành vi), đưa ra lý thuyết về sự truyền tín hiệu giữa các tế bào thần kinh bằng khớp thần kinh Điểm nhắn của cuốn sách là khớp thần kinh nao càng được sử dụng nhiều dé truyền tín hiệu thì càng mạnh lên, tức là càng dễ truyền tín hiệu những lân sau đó.

Vào năm 1959, David Hubel và Torsten Wiesel đã xuất bản cuốn sách

“Receptive fields of single neurons in the cat’s striate cortex”, miêu tả về phản ứng của các tế bao thần kinh thị giác trên loài mèo, cũng như cách loài mèo ghi nhớ và nhận diện hình dạng trên kiên trúc vỏ não của nó. lãi

Electrical signal from brain Recording electrode ——.

Visual area ee of brain

Hình 2.8 Thí nghiệm phản ứng tế bào thân kinh trên loài mèo [7]

Vào năm 1989, Yann LeCun đã sử dung sự lan truyền ngược dé đề xuất kiến trúc có tên Lenet được sử dụng cho Nhận diện mã Zip viết tay của Bưu điện Hoa Kỳ. Sau đó đến năm 1998, LeCun đã công bố LeNet-5 Có thé nói, LeNet-5 là một trong những mạng neuron tích chập sơ khai nhất Tuy nhiên các dau ấn của nó van ton tại cho đến ngày nay, có thê thấy thông qua một số thành phần thiết yếu mà các mạng neuron tích chập ngày nay vẫn đang sử dụng.

Lịch sử phát triển mạng neuron nhân tạo . - eects 1 2.3.4 Mang Neuron nhân tạO + 5c St SvEEkekekerkrrrerrkrvek 2 2.3.5 Mang Neuron tích chập (CNN) - cành 3 2.4 Cac bài toán phân loại trên dit liệu đa phương tiện (ảnh và video)

Vào năm 1943, nhà vật lý thần kinh học Warren McCulloch cùng nhà toán học Walter Pitts đã nghiên cứu, phân tích và mô phỏng các tế bào thần kinh đơn giản hóa

(idealized artificial neurons) và chỉ ra chúng có thé thực hiện các phép tính logic Sau đó, họ đã thực hiện mô phỏng một mạng thần kinh đơn giản trên một mạch điện.

Vào năm 1949, Donald Hebb đã viết cuén sách “Organization of Behavior” (Sự tô chức của hành vi), đưa ra lý thuyết về sự truyền tín hiệu giữa các tế bào thần kinh bằng khớp thần kinh Điểm nhắn của cuốn sách là khớp thần kinh nao càng được sử dụng nhiều dé truyền tín hiệu thì càng mạnh lên, tức là càng dễ truyền tín hiệu những lân sau đó.

Vào năm 1959, David Hubel và Torsten Wiesel đã xuất bản cuốn sách

“Receptive fields of single neurons in the cat’s striate cortex”, miêu tả về phản ứng của các tế bao thần kinh thị giác trên loài mèo, cũng như cách loài mèo ghi nhớ và nhận diện hình dạng trên kiên trúc vỏ não của nó. lãi

Electrical signal from brain Recording electrode ——.

Visual area ee of brain

Hình 2.8 Thí nghiệm phản ứng tế bào thân kinh trên loài mèo [7]

Vào năm 1989, Yann LeCun đã sử dung sự lan truyền ngược dé đề xuất kiến trúc có tên Lenet được sử dụng cho Nhận diện mã Zip viết tay của Bưu điện Hoa Kỳ. Sau đó đến năm 1998, LeCun đã công bố LeNet-5 Có thé nói, LeNet-5 là một trong những mạng neuron tích chập sơ khai nhất Tuy nhiên các dau ấn của nó van ton tại cho đến ngày nay, có thê thấy thông qua một số thành phần thiết yếu mà các mạng neuron tích chập ngày nay vẫn đang sử dụng.

Mạng neuron nhân tạo là một chuỗi các giải thuật lập trình được mô phỏng dựa trên cách hoạt động của mạng lưới thần kinh trong não bộ con người Mạng neuron nhân tạo được sử dụng dé tim ra mối quan hệ của một tập dữ liệu thông qua một thiết kế kiến trúc chứa nhiều tầng ân, mỗi tầng lại chứa nhiều neuron Các neuron được kết nối với nhau và độ mạnh yếu của các liên kết được biểu hiện qua trọng số liên kết.

Mạng neuron nhân tạo là sự kết hợp của nhiều nút mạng và những tín hiệu sẽ được xử lý theo từng tang, tầng ở giữa được gọi là tầng ấn, còn lại là tang đầu vào va tâng đâu ra.

Hình 2.9 Cau tạo cua mang neuron nhân tạo

Tang dau vào nhận các dữ liệu dau vào, tang ân thực hiện các phép tinh toán học đôi với các dữ liệu dau vào va tang dau ra trả về các dữ liệu dau ra Tang sau sẽ nhận giá tri dau ra của tang trước đê tiên hành xử lý Tùy vào từng bài toán mà công việc xử lý sẽ khác nhau Số lượng tầng ân là không giới hạn. Áp dụng với các kỹ thuật học sâu, mạng neuron nhân tạo hiện nay đang được áp dụng dé giải quyết những van dé mà lập trình theo logic thông thường khó có thé giải quyết được Do đó, mạng neuron nhân tao đang nhanh chóng trở nên phô biến và là xu thế trên nhiều lĩnh vực.

2.3.5 Mạng Neuron tích chập (CNN)

Mang neuron tích chập (CNN) là một mô hình DL phổ biến và tiên tiễn nhất hiện nay Hau hết các hệ thống nhận diện và xử lý ảnh ngày nay đều sử dụng mạng

CNN vì có độ chính xác cao.

CNN gồm các lớp cơ bản: Convolution layer (lớp tích chập) + Nonlinear layer, Pooling layer và Fully connected layer Các lớp này liên kết với nhau theo một thứ tự nhất định Thông thường, một ảnh sẽ được đưa vào lớp Convolution layer + Nonlinear layer đầu tiên, sau đó các giá trị tính toán được sẽ được đưa qua lớp Pooling layer. Các lớp Convolution layer, Nonlinear layer, Pooling layer có thé được lặp lại nhiều lần và sau đó đữ liệu được đưa qua tầng fully connected layer và softmax để tính xác suất chứa đối tượng gì.

| Fuu input TION + EM: T com TÔM x E FLAT ti lt mur CONVOLUTION + RfLU Poouino CONVOLUTION + ELLY FOOLING : LATION cawgrypg #OFTMAN

Hình 2.10 Cấu trúc mang CNN [8]

Convolution layer là lớp dau tiên và cũng là lớp quan trọng nhất của của mô hình CNN Lớp này có chức năng chính là phát hiện các đặc trưng Trong lớp này có

4 đối tượng chính là: ma trận đầu vào, bộ filter, receptive field và feature map. Convolution layer nhận đầu vào là ảnh và một bộ filter Bộ filter này sẽ trượt qua từng vị trí trên bức ảnh dé tính tích chập giữa bộ filter và phần tương ứng trên bức ảnh dé trích xuất ra các đặc trưng của ảnh Phan tung ứng này trên bức ảnh được gọi là receptive field và ma trận tạo ra bởi quá trình này được gọi là feature map Tùy bộ filter mà người lập trình có thể trích xuất được các đặc trưng khác nhau như góc, cạnh, màu sắc hoặc đặc trưng phức tạp hơn như texture của ảnh Vì bộ filter quét qua toàn bộ bức ảnh, nên những đặc trưng này có thê nằm ở vị trí bất kì trong bức ảnh, cho dù ảnh bị xoáy trái /phải thì những đặc trưng này vẫn bị phát hiện.

Hình 2.11 Một vai bộ filter thông dụng [9]

Kích thước bộ filter tỉ lệ thuận với số tham số cần học tại mỗi lớp Convolution layer và là tham số quyết định receptive field của tang này Kích thước phổ biến nhất của bộ filter là 3x3 Kích thước filter nhỏ được ưu tiên lựa chọn thay kích thước lớn vì những lý do sau: e Áp dụng trên một vùng nhỏ các pixel. e Rut trích được đặc trưng có tính cục bộ cao. e Phat hiện được các đặc trưng nhỏ hon. e Đặc trưng trích xuất được sé đa dạng, hữu ích hơn ở tang sau.

15 e Giảm kích thước ảnh chậm hơn, do đó cho phép mang sâu hơn. sô Ít trọng số hơn, chia sẻ trọng số tốt hơn.

Kích thước filter của lớp Convolution layer đa số đều là số lẻ, ví dụ như 3x3 hay 5x5 Với kích thước filter lẻ, các giá trị của feature map sẽ xác định một tâm điểm ở lớp phía trước Nếu filter có kích thước 2x2, 4x4 thì việc tìm vị trí tương ứng của các giá tri feature map trên không gian ảnh sẽ trở nên khó khăn hơn. a feature map

Hình 2.12 Phép tích chập giữa anh dau vào và filter tương ứng [10]

Nonlinear layer là hàm kích hoạt (activation function) phi tuyến tính thường là hàm ReLU dùng để ánh xạ các đầu vào của một node với đầu ra tương ứng của nó. Hàm ReLU biến tổng thành 1 số, nếu số đó là âm thì sẽ trở thành 0.

Resnet — 18 oc 4 19 2.5.2 ResNet-3D-18 cuc HH HH HH HH HH it 20 2.5.3 MMobilenet_ V2 - - c c1 11111 1112 1112 111511 110111 v1 kg tư 22 Chương 3 GIẢI PHÁP DE XUẤT -22¿¿22222+222E+Szrtvrrxeerrrrrscee 23 3.1 Mô hình tổng quan . 222++222EEE2++++ttttEEEEYvrrrrtrrrrrrrrrrrrrrrrrr 23 3.2 Các thiết bị phần cứng sử dụng 3.2.1 NVIDIA Jetson Nano Developer Kit

ResNet [12] (Residual Network) được phát triển bởi các nhà nghiên cứu tại Microsoft vào cuối năm 2015 Mạng học sâu này giành được vị trí thứ nhất trong cuộc thi ILSVRC 2015 với tỉ lệ lỗi 3.57% ResNet khiến cho việc huấn luyện hàng trăm thậm chí hàng nghìn lớp của mạng neuron trở nên khả thi và hiệu quả.

Giống với tên gọi của nó Residual Network, kiến trúc mạng ResNet bao gồm các khối phan dư (residual block) Ý tưởng chính là sử dụng kết nối tắt đồng nhất dé xuyên qua một hay nhiều lớp Input (x) sau khi qua 1 số layer sẽ thu được F(x) sau

19 đó cộng thêm x vào sẽ được H(x) = F(x) + x Mô hình sẽ dễ học hơn khi thêm đặc trưng từ layer trước vảo. weight layer x identity

Resnet — 18 là một biến thé của kiến trúc Resnet với 18 lớp.

A | PJIE Gee Bie ais Lí GES Aik ie] {|e Ble fs Sie ets) leis Sit) lic | = s elie 2 if slis ER Ellis bm Bit Gls E š at 8 Lễ +5 45 ơló| Biel Jet elie) Jeb i elt le) gil a 8

E 5 § Sr 18! S| is} ‘ist “lel ‘is; ‘isi ‘lel ‘lel isi isl ial cm T

— S| ô ii 3 ° IS ig lH S| |S S| |8 li ied = |8

Layer 2 Layer 3 Layer 4 Fully connected fc 128

Hình 2.16 Kiến trúc của Resnet — 18 [14]

Mạng ResNet-3D-18 [15] được phát triển bởi Viện Nghiên cứu Công nghệ Công nghiệp Tiên tiến Quốc gia Nhật Bản vào năm 2017.

Kiến trúc lớp tích chập: Các lớp tích chập 3D giúp lưu trữ thông tin tạm thời và truyền tai chúng qua các lớp khác của cả mô hình Tensor zi của lớp này có kích thước [Ni x L x Hi x Wi] trong đó Nj là số lượng bộ lọc được dùng ở khối thứ i Mỗi bộ lọc là một không gian bốn chiều bao gồm [N:¡ x t x d x d] với t biểu thị mức độ thời gian của bộ lọc (trong nghiên cứu này sử dụng t = 3) Các bộ lọc được biến đổi thành dạng 3D trên cả chiều không gian và thời gian như hình 2.17.

Hình 2.17 Kiến trúc lớp tích chập [ I6]

Kiến trúc các lớp của mang ResNet-3D-18 được mô tả như hình: layer name | output size R3D-18 R3D-34 convl Lx56x56 3x7x7, 64, stride | x 2x 2

3x3x3, 512 IxIxI | spatiotemporal pooling, fc layer with softmax

Hình 2.18 Kiến trúc của ResNet-3D-18 [16]

Mobilenet [17] là mô hình được phát triển dé có thé chạy trên các thiết bị hạn chế về khả năng tính toán như các thiết bị nhúng hay mobile Mobilenet_v2 [18] là phiên bản thứ 2 của mô hình này với việc sử dụng tích chập chiều sâu, sử dụng các kết nối tắt như Resnet và loại bỏ các hàm phi tuyến tính tại layer input và layer output đã khiến Mobilenet_v2 có kích thước nhỏ nhưng độ chính xác khá cao.

142 x 64 bottleneck |6 | 96 |3 |1 14? x 96 bottleneck | 6 | 160 | 3 |3 7? x 160 bottleneck | 6 | 320 | 1 |1 7? x 320 conv2d Ixl | - | 1280 |1 |1 7* x1280 | avgpool 7x7 | - - 1]-

Hình 2.19 Kiến trúc của Mobilenet_v2 [18]

Chương 3 GIẢI PHÁP DE XUẤT

Phát hiện hành vi bất thường

Hình 3.1 Tổng quan phương pháp phát hiện hành vi bat thường

Khối thu dữ liệu là camera có chức năng thu dữ liệu (hình ảnh) và gửi dữ liệu cho khối xử lý.

Khối xử lý là máy tính nhúng có chức năng sử dụng các mô hình DL đề phát hiện các hành vi bất thường Nếu phát hiện hành vi bất thường khối xử lý sẽ dữ liệu cho khối cảnh báo.

Khối thông báo có chức năng gửi email cảnh báo tới người giám sát.

3.2 Các thiết bị phần cứng sử dụng

3.2.1 NVIDIA Jetson Nano Developer Kit

Hình 3.2 May tinh nhúng NVIDIA Jetson Nano [19]

NVIDIA Jetson Nano Developer Kit là một máy tính nhúng hỗ trợ Trí tuệ nhân tạo nhỏ gọn và mạnh mẽ dùng trong nghiên cứu và phát triển các ứng dụng, robot thông minh Máy có thể chạy song song nhiều mạng neuron sử dụng cho các ứng dụng như phân loại hình ảnh, phát hiện đối tượng, phân đoạn và xử lý giọng nói Mặc dù có thể thực hiện nhiều công việc như trên nhưng máy chỉ tiêu thụ ít hơn 5W điện năng.

Jetson Nano được NVIDIA hỗ nền tảng phát triển phan mềm là NVIDIA JetPack SDK bao gồm Hệ điều hành Ubuntu (Linux), bộ Linux Driver Package (L4T)

24 mới nhất, cùng với thư viện CUDA và các API hỗ trợ cho việc phát triển các ứng dụng DL.

Bang 3.1 Thông số kỹ thuật máy tinh NVIDIA Jetson Nano

CPU 64 bit Quad Core ARM A57 @ 1.43 GHz

GPU 128 Core Maxwell 921Mhz | 472 GFLOPs (FP16)

Memory 4 GB 64 bit LPDDR4 1600MHz | 25.6 GB/s

14FPS TP ues 10FPS TE

= ia il ssp SSD Super U-Net

ResNet-SO SSD ResNet- SSD ResNet- SSO ResNet- inception V4 TinyYOLO OpenPose VGG-19

Hình 3.3 Tốc độ của NVIDIA Jetson Nano khi chạy các mô hình khác nhau [20]

Camera PI NOIR V2 -c- 55+ ctetsterererrerrrrerrrre 26 3.3 Các công cụ SU dỤng - tàn HT HH ngư 27 3.3.1 Pytorchf 6 le ÂỄ s=sss<es sesEKerersesrsesrerreeree 27 3.3.2 Open ĐMPe= c@\E

Camera Pi NoIR V2 gồm thành phan chính là cảm biến Sony IMX219 8MP (Megapixel) So với phiên bản VI sử dụng cảm biến cũ là OV5647, phiên bản V2 được nâng cấp vượt trội về cả chất lượng hình ảnh, video, cũng như về độ bền Sản phẩm dùng được cả trên các dòng máy tính nhúng Raspberry Pi, cũng như dùng ôn định trên cả kit NVIDIA Jetson Nano Điểm khác biệt của loại camera này là nó không sử dụng bộ lọc hồng ngoại (No Infrared — NoIR).

Thông số kỹ thuật: ° Ong kinh tiéu cu cé dinh. e Cảm biến 8MP đến từ Sony IMX219. e Chụp anh kích thước lên đến 3280 x 2464 pixel. e Quay video: 1080p30, 720p60 và 640 x 480p60/90. e Giao tiếp: CSI.

3.3 Các công cụ sử dụng

Pytorch [22] là một framework được phát triển bởi Facebook Pytorch được phát triển với giấy phép mã nguồn mở nên nó tạo được cho mình một cộng đồng rất lớn Pytorch cùng với Tensorflow và Keras là một trong những framework phổ biến được sử dụng trong các bài toán về DL hiện nay Vào năm 2019, Pytorch vươn lên vị trí số 2 về số lượng người dùng trong những framework hỗ trợ DL (chỉ đứng sau

Tensorflow) Pytorch sử dụng các thư viện của CUDA và C/C++ hỗ trợ các tính toán trên GPU nên tốc độ xử lý trên mô hình được tăng lên tương đối Framework này hướng tới 2 mục tiêu chính: e Thay thé kiến trúc của numpy dé có thé tính toán được trên GPU. e Cung cấp các xử lý tốc độ và linh hoạt.

Khóa luận sử dụng Pytorch đề huấn luyện và kiểm thử mô hình.

OpenCV (Open Computer Vision) là một thư viện mã nguồn mở hàng đầu về thị giác máy tính va ML OpenCV duoc viết bằng C/ C++, vì vậy có tốc độ tính toán rất nhanh, có thể sử dụng với các ứng dụng liên quan đến real time Opencv có các interface cho C/C++, Python và Java vì vậy hỗ trợ được cho Window, Linux, MacOs lẫn Android và iOS.

OpenCV được sử dụng trong khóa luận dé giao tiếp với module camera, xử lý dataset, xử lý hình ảnh đầu vào và đọc các định dạng ảnh, video khác nhau.

Google Colab Ăn 28 3.4 Bộ dữ liệu sử dụng St nưết 28 3.4.1 Bộ dữ liệu CityScene - + ch HH 1 rưến 28 3.4.2 Bộ dữ liệu UCF — Crime cc+ccreeceeeeeeere oO) 3.4.3 Bộ dữ liệu tông hợp c-:2222+ccSccvvrrrerrkrrrrrrrkrrrrrrrvee 32 3.5 Xây dựng phương pháp phân loại ảnh đa lớp (Multiclass Image

Google Colab (Google Colaboratory) là một dịch vụ đám mây của Google nhằm hỗ trợ cộng đồng nghiên cứu và học tập về AI, đặc biệt là phát trién các ứng dụng

DL Do được phát triển dựa trên Jupiter Notebook nên việc sử dụng Colab cũng tương tự như việc sử dung Jupiter Notebook Colab cai đặt sẵn rất nhiều thư viện phô biến trong nghiên cứu DL như PyTorch, TensorFlow, Keras, OpenCV, Đối với phiên bản miễn phí, Google cung cấp sẵn cấu hình như bảng 3.2.

Bang 3.2 Cau hình Google Colab

Hé diéu hanh CPU RAM GPU Luu trữ

Ubuntu 18.04.2 | Intel Xeon ~12.6 GB | Tesla K80 voi ~68 GB

LTS 64-bit @ 2.3 GHz 12 GB VRAM

Ngoài ra, người dùng có thé mua phiên bản trả phí dé được sử dụng nguồn tài nguyên mạnh mẽ hơn.

3.4 Bộ dữ liệu sử dụng

Bộ dữ liệu CityScene [24] bao gồm 1321 video với tổng thời lượng 4 giờ 23 phút 27 giây thuộc 12 loại hành vi bat thường có thé gây hại đến an ninh công cộng

28 bao gồm: Tai nan (Accident), Mang vác (Carrying), Đám đông (Crowd), Cháy nỗ (Explosion), Đánh nhau (Fighting), Vẽ Graffiti (Graffiti), Cướp giật (Robbery), Ban nhau (Shooting), Hút thuốc (Smoking), Trộm cắp (Stealing), Quét don (Sweeping), Dẫn chó đi dao (WalkingDog) Ngoài ra còn có 758 video với tổng thời lượng 4 giờ

26 phút 34 giây là các Sự kiện bình thường (Normal).

Bảng 3.3 Bộ đữ liệu CityScene

Các loại hành vi Định nghĩa Số lượng video

Cảnh tai nạn giao thông trên đường Accident (Tai nạn) , 57 phô.

Hành vi mang vác, di chuyên hàng hóa

Carrying (Mang vác) 85 lên xe container.

Cảnh đám đông ở các vi trí khác nhau:

Crowd (Đám đông) lễ hội, trung tâm thương mại, trên 68 đường phố lớn,

, Cảnh cháy né lớn: cháy nỗ nhà may,

Explosion (Cháy nô) , 210 cháy nô xe,

Hành vi đánh nhau giữa 2 cá nhân;

Fighting (Đánh nhau) 264 đánh nhau giữa một nhóm người.

Hanh vi vẽ bay trên tường trong đường Graffiti (Vẽ Graffiti) , 103 phô, thân tàu hỏa,

Hành vi cướp giật một cách bao lực tai Robbery (Cướp giật) 171 sản cá nhân.

Shooting (Bắn nhau) Hành vi bắn nhau bằng súng 75

Smoking (Hút thuốc) Hành vi hút thuốc ở nơi công cộng 89

Stealing (Trộm cắp) Hành vi trộm cắp tài sản 30

Sweeping (Quét don) | Hành vi quét don rác trên đường phó 98

Walkingdog (Dan Hành vi dan chó di dao trên đường 69 chó di dạo) phô.

Normal (Sự kiện bình | Cảnh các sự kiện diễn ra bình thường 758 trong đời sống.

Trong phạm vi khóa luận, nhóm chỉ thực nghiệm trên 4 lớp của bộ dữ liệu này, bao gồm các lớp: Đánh nhau (Fighting), Sự kiện bình thường (Normal), Stealing (Trộm cắp) và Robbery (Cướp giật).

3.4.2 Bộ dữ liệu UCF — Crime

Bộ dữ liệu UCF — Crime [25] bao gồm 1900 video với tông thời gian 128 giờ, trung bình 7247 frame mỗi video với 14 hành vi thê hiện trong bảng 3.4.

Bang 3.4 Định nghĩa các hành vi trong bộ dit liệu UCF — Crime

Hành vi Định nghĩa video

Chứa các hành vi xấu, bạo lực với trẻ em,

Abuse ơ 50 người gia, động vật và phụ nữ.

Arrest Cảnh sát bắt giữ người khác 50

Arson Chứa hành vi cé tình đốt tài sản 50

Người nao đó bat ngờ bị tắn công nhưn

Assault 5 , 5 5 50 người đó không chông trả.

Người đột nhập vào nhà với ý định trộm cắp Burglary nhưng không có cảnh vũ lực (trộm cắp không 100 bị người khác phát hiện).

Vụ nỗ với một vài thứ bị thôi bay một cách tự Explosion nhiên, không bao gồm các cảnh con người tạo 50 ra vu cháy hoặc tao ra vu nô.

Fighting Hai hoặc nhiều người đánh nhau 50

Cảnh bình thường ở trong nha (trung tâm mua Normal Event , TS 950 săm) và ngoài trời.

Tai nạn giao thông liên quan đến phương tiện 150

Road Accident | CO gidi, người đi bộ hoặc người đi xe đạp.

Lấy tiền bất hợp pháp bằng vũ lực hoặc đe dọa

Robbery 150 vũ lực, không có cảnh dùng súng.

Shooting Dùng súng bắn người khác 50 ơ Đúng giả người mua hàng dộ trộm đồ tại siờu

Shoplifting 50 thị hoặc cửa hang.

Lay tài sản hoặc tiền ma không được sự cho

Stealing ` ; ơ 100 phép, không bao gôm hành vi “Shoplifting”.

Làm hư hỏng tài sản công hoặc tư Làm hư hại

Vandalism (vi du vé bay) va bién dang tai san ma không 50 được sự cho phép.

Nhóm sử dụng 4 lớp: Fighting, Normal Event, Stealing và Vandalism dé huấn luyện và triển khai mô hình.

3.4.3 Bộ dữ liệu tổng hợp

Theo thử nghiệm ban đầu, nhóm sử dụng các lớp: Fighting, Normal, Stealing,

Robbery của bộ dữ liệu CityScene và các lớp Fighting, Normal Event, Stealing va

Vandalism của bộ dit liệu UCF — Crime Kết quả thực nghiệm ban đầu với tập dit liệu trên chưa được tốt do dữ liệu còn ít, đồng thời sự khác biệt giữa các lớp không thật sự rõ nét, dé gây nhằm lẫn cho mô hình trong quá trình huấn luyện Vì vậy, để cải thiện kết quả, nhóm quyết định thu thập thêm dữ liệu thông qua việc bé sung các lớp Stealing Motor va Stealing Car Mirror Dữ liệu 2 lớp nay được tổng hop từ các video camera an ninh tại Việt Nam với độ phân giải 480 x 360 hoặc 858 x 480 Dữ liệu lớp Vandalism nhóm tìm thêm dữ liệu từ các camera an ninh từ nước ngoài với độ phân giải 480 x 360 Bộ dữ liệu tổng hợp mới này gồm 5 lớp: Fighting, Normal,

Stealing_Motor, Stealing Car_Mirror va Vandalism Chi tiết các lớp được mô tả trong bảng 3.5.

Bảng 3.5 Mô tả các lớp trong bộ dữ liệu tổng hợp

Hành vi Định nghĩa video

Hai hoặc nhiều người đánh nhau Được Fighting lay từ 2 bộ dữ liệu CityScene và UCF — 314

Các sự kiện bình thường Được lấy từ 2

Normal 1708 bộ dữ liệu CityScene và UCF — Crime.

Chia hành vi bẻ trộm khóa xe máy do Stealing_ Motor 139 nhóm tự thu thập.

Chứa hành vi ăn trộm gương xe 6 tô Dữ Stealing_ Car_Mirror 91 liệu được nhóm tự thu thập.

Vẽ bay graffiti Nhóm sử dụng các video từ 2 bộ dữ liệu CityScene và UCF — Vandalism 183

Crime va 73 video khác do nhóm tự thu thập.

3.5 Xây dựng phương pháp phân loại anh đa lớp (Multiclass Image

Cac video thuộc các lớp khác nhau trong tập dữ liệu được chuyên về frame rôi tiên hành chia vào các tap train, val và test. Đưa các frame cần dự đoán vào model Mô hình Resnet — 18

Mô hình dự đoán class cho các frame Fighting

Hình 3.6 Mô hình phân loại lớp dựa trên dữ liệu được huấn luyện

Nhóm tiến hành huấn luyện mô hình trên Google Colab Trước tiên nhóm cần thực hiện các phép biến đồi anh đầu vào từ thư viện Pytorch như: Center Crop, Resize, Normalize dé cuối cùng ảnh có kích thước 224x224 rồi sau đó biến đổi thành Tensor để có thể phù hợp mô hình.

Nhóm dùng tập dữ liệu đã được gan nhãn ở trên dé tiến hành huấn luyện trên

2 mô hình Resnet - 18 và Mobilenet_v2 Việc huấn luyện chỉ diễn ra trong 10 epoch vì thời gian không cho phép do Google Colab chi cho kết nối liên tục trong 12 giờ.

Số lượng ảnh dùng cho huấn luyện và đánh giá được liệt kê theo bảng 3.6.

Bang 3.6 Số lượng hình dùng cho huấn luyện và đánh giá

Hình 3.7 Mẫu hình dữ liệu train cho lớp Stealing_motor

Sau khi tiễn hành thử nghiệm trên 2 mô hình, nhóm tiễn hành xây dựng chương trình phát hiện hành vi bất thường với dữ liệu được lấy từ camera và thông báo đến người theo dõi nếu phát hiện hành vi bất thường Chương trình nhóm xây dựng được mô tả như hình 3.8.

Lẫy dữ liệu từ camera

Tach frame từ dữ liệu thu được

Frame có hảnh vi bat thường không

Thông bảo cho người giảm sat

Hình 3.8 Sơ đô hoạt động của chương trình

Sau khi bắt đầu, hệ thống lấy dữ liệu từ camera và đưa vào mô hình để dự đoán dữ liệu đó thuộc lớp nào Một khi mô hình đã huấn luyện xong sẽ thu được file save_weights lưu giữ các trọng số của mô hình File này sẽ được sử dụng cho việc thực thi và đánh giá kết quả của mô hình.

Khi mô hình đã dự đoán được frame thuộc lớp nào nhóm có thể tiến hành gửi cảnh báo tới người theo dõi nếu frame đó là các hành vi: Fighting, Stealing hoặc

Xây dựng phương pháp phân loại video (Video Classification) 3.7 Gửi cảnh bỏo qua âImaiẽ - - - + xxx Ek*EvEvEkEkskrknhnhngrrtrưy 38 3.7.1 _ Giới thiệu về Gmail . -5cccccccccescccceeeecrceerreeeeec

Giao thức SMTP và Máy chủ SMTP của Gmail

SMTP là viết tắt của Simple Mail Transfer Protocol Đây là một giao thức gửi email thông dụng nhất và được hỗ trợ hầu hết ở các dịch vụ email miễn phí. Đề thiết lập việc gửi email thông qua máy chủ SMTP của Gmail cần thiết lập các thông số sau: e SMTP Server: smtp.gmail.com. ® SMTP Port: 587.

38 e Sender Email: . e Sender Password: .

Hình 3.11 Mô hình gửi — nhận email hiện nay [27]

3.7.3 Thư viện dùng để gửi mail bằng Python

Thông thường, việc trién khai hệ thống gửi email là một công việc phức tap và tốn thời gian Tuy nhiên, Python cung cấp các thư viện hiệu quả giúp tối ưu hóa thời gian khi thực hiện những tác vụ liên quan đến email.

Thư viện “smtplib” của Python được xây dựng dé gửi email bằng giao thức SMTP Trong phạm vi khóa luận, nhóm sử dụng máy chủ Gmail SMTP dé thực hiện gửi email nhưng các dịch vụ gửi email khác cũng được áp dụng một cách tương tự.

Các hàm cần thiết trong thư viện smtplib: e SMTP(host=", port=0, local_hostname=None, [timeout, |source_add ress=None): Khởi tao kết nỗi SMTP đến SMTP Server. e Starttls (keyfile=None, certfile=None, context=None): Bảo mật kết nối bang TLS. e login(user, password, *, initial_response_ok=True): Tién hành đăng nhap vao SMTP Server.

39 e sendmail(from_addr, to_addrs, msg, mail_options=(), rcpt_options=(

)): Tiến hành gửi email. e qui(Q: Đóng kết nối.

Sau đây là các bước đề thực hiện quá trình gửi email bằng Python: e Bước 1: Khởi tạo kết nối SMTP đến server Gmail SMTP. e Bước 2: Bảo mật kết nối TLS đến SMTP Server. e _ Bước 3: Đăng nhập vào server Gmail SMTP. e Bước 4: Tiến hành gửi email. e Bước 5: Đóng kết nói và kết thúc.

Bảo mật kết nỗi SMTP bằng TLS Đăng nhập vào

Hình 3.12 Các bước dé thực hiện quá trình gửi email bang Python

3.7.4 Giải pháp gửi email với phương pháp phân loại ảnh đa lớp

Do video là tập hợp của một chuỗi frame nên khi mô hình dự đoán có thé nhằm lẫn frame thuộc lớp nảo (ví dụ frame thuộc lớp Fighting nhưng mô hình lại dự đoán thuộc lớp Normal) Khi đó sẽ xảy ra hiện tượng flickering Flickering là hiện tượng mô hình thay đổi dự đoán liên tục cho các frame liên tiếp trong video mặc dù các frame đó thuộc về 1 lớp xác định Trong thực tế, hiện tượng flickering có thể xảy ra khi 1 video thuộc lớp fighting được đưa vào mô hình, 5 frame đầu tiên mô hình dự đoán thuộc lớp fighting nhưng frame thứ 6 mô hình lại dự đoán thuộc lớp khác, frame

41 thứ 7 đến frame thứ 10 thuộc lớp fighting và tiếp tục sự thay đổi dự đoán về các lớp như vậy cho đến khi hết các frame thuộc video Khi đó mô hình sẽ dự đoán bị sai nếu xét trên từng frame khi frame này là fighting rồi frame sau đó lại dự đoán thuộc lớp khác Khi mô hình dự đoán sai thì hệ thống cũng sẽ gửi cảnh báo sai cho frame bị dự đoán sai đó. Đề khắc phục vấn đề này, thay vì dự đoán lớp cho từng frame riêng lẻ nhóm tiễn hành gộp 50 frame liên tiếp thành 1 đoạn frame và tiến hành dự đoán lớp đại diện cho đoạn frame đó Lớp đại diện này là lớp có số lượng frame chiếm tỷ lệ lớn nhất trong đoạn 50 frame đó.

Nhóm hiện thực giải pháp trên băng cách cho các frame vào một stack với kích thước xác định, kích thước stack tương ứng với khoảng frame cần dự đoán Các frame được lần lượt cho vào stack cho đến khi stack day Khi stack đầy, hệ thống sẽ lay kết quả dự đoán lớp đại diện cho khoảng frame đó bằng cách lấy lớp có số lượng frame cao nhất trong stack Sau khi có được lớp dự đoán đại diện trong stack, hệ thống tiễn hành gửi cảnh báo dựa trên lớp dự đoán đó và sau đó tiến hành làm sạch stack Hệ thống quay lại bước ban đầu là cho các frame vào stack đến khi đầy Sơ đồ hoạt động của giải pháp được mô tả trong hình 3.13.

Dự đoản lớp đại diện cho các frame trong stack với tỉ lệ dự đoán Gửi cảnh bao

Hình 3.13 Giải pháp hạn chế hiện tượng flickering

Chương4 KET QUA THUC NGHIEM

4.1 Phương pháp phân loại anh da lớp (Multiclass Image

Trong khuôn khổ khóa luận, nhóm tiến hành thực nghiệm bài toán phân lớp trên hai mô hình Resnet — 18 và Mobilenet_ v2.

Tiến hành huấn luyện và đánh mô hình Resnet — 18 với bộ dit liệu UCF — Crime và Cityscene, nhóm thu được kết quả như hình 4.1 và 4.2. class top1 top3 loss cat train cnt val_cnt test_cnt

Hình 4.1 Kết quả sau khi đánh giá trên tập test của bộ dữ liệu UCF - Crime trên mô hình Resnet - lồ

Mô hình Resnet — 18 dự đoán lớp fighting với độ chính xác 92.04%, lớp normal 31.18%, lớp stealing 49.97% và lớp vandalism 35.6% Mô hình bị nhầm lẫn khá nhiều ở các lớp normal, stealing, vandalism vì các lớp này có nhiều frame tương tự nhau Một số video bị nhằm lẫn có thé kể đến như cảnh người chủ xe ô tô đi vòng quanh xe kiêm tra sau đó mở cửa lái xe đi trong lớp normal, trong khi bên lớp stealing cũng có cảnh tương tự nhưng không thê xác định được là chủ xe hay ăn trộm Với lớp vandalism cũng vậy khi có người đi vòng quanh xe dùng vật nhọn dé làm xước

Còn đối với bộ dữ liệu Cityscene, mô hình dự đoán khá chính xác đối với các lớp fighting (độ chính xác 96.1%) và normal (độ chính xác 87.72%) Trong khi đó, lớp robbery chỉ đạt được độ chính xác trung bình với 60.87% còn lớp stealing thì mô

44 hình dự đoán rất kém khi chỉ đạt độ chính xác 11.64% do dữ liệu dùng đề huấn luận cho lớp này khá ít (chỉ có 937 frame). class top1 top3 loss cat train cnt val cnt test_cnt

Hình 4.2 Kết quả sau khi đánh giá trên tập test cua bộ dit liệu CityScene trên mô hình Resnet -18

Nhóm tiến hành thử nghiệm mô hình Resnet — 18 với bộ dữ liệu UCF — Crime trên máy tính nhúng Jetson Nano với tap test gồm 7 video từ lớp Fighting, 7 video từ lớp Normal, 10 video từ lớp Stealing, 7 video từ lớp Vandalism, nhóm thu được kết quả như bảng 4.1.

Bang 4.1 Kết quả thử nghiệm tốc độ các lóp bộ dữ liệu UCF — Crime bằng mô hình

Resnet - 18 trên NVIDIA Jetson Nano

Tương tự nhóm sử dụng tập test của bộ dữ liệu Cityscene gồm 22 video lớp fighting, 96 video lớp normal, 12 video lớp robbery và 3 video lớp stealing dé thử nghiệm mô hình Resnet - 18 Kết quả thử nghiệm được thé hiện trong bang 4.2.

Bang 4.2 Kết quả thử nghiệm tốc độ các lóp bộ dit liệu CityScene bằng mô hình

Resnet - 18 trên NVIDIA Jetson Nano

Robbery Từ 15.37 đến 18.25 Stealing Từ 8.05 đến 14.23

Từ kết quả thực nghiệm 2 bộ dữ liệu UCF — Crime và CityScene, nhóm nhận thấy tốc độ thực thi của mô hình Resnet — 18 trên kit NVIDIA Jetson Nano là từ 8 —

Sau khi thử nghiệm 2 bộ dữ liệu CityScene và UCF — Crime trên mô hình

Resnet — 18, nhóm tiến hành thử nghiệm bộ dữ liệu hỗn hợp mới.

Tiến hành huấn luyện mô hình Resnet — 18 với bộ dữ liệu hỗn hợp mới, nhóm thu được kết quả như hình 4.3.

Hình 4.3 Kết quả train mô hình Resnet — 18 với bộ dữ liệu hỗn hợp

Ngày đăng: 02/10/2024, 03:57

HÌNH ẢNH LIÊN QUAN

Hình 2.2 Robot ASIMO, một trong những sản phẩm trí tuệ nhân tạo vào những năm - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 2.2 Robot ASIMO, một trong những sản phẩm trí tuệ nhân tạo vào những năm (Trang 19)
Hình 2.8 Thí nghiệm phản ứng tế bào thân kinh trên loài mèo [7] - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 2.8 Thí nghiệm phản ứng tế bào thân kinh trên loài mèo [7] (Trang 24)
Hình 2.9 Cau tạo cua mang neuron nhân tạo - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 2.9 Cau tạo cua mang neuron nhân tạo (Trang 25)
Hình 2.11 Một vai bộ filter thông dụng [9] - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 2.11 Một vai bộ filter thông dụng [9] (Trang 27)
Hình 2.12 Phép tích chập giữa anh dau vào và filter tương ứng [10] - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 2.12 Phép tích chập giữa anh dau vào và filter tương ứng [10] (Trang 28)
Hình 2.13 Ví dụ về áp dụng max pooling [10] - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 2.13 Ví dụ về áp dụng max pooling [10] (Trang 29)
Hình 3.1 Tổng quan phương pháp phát hiện hành vi bat thường - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 3.1 Tổng quan phương pháp phát hiện hành vi bat thường (Trang 35)
Hình 3.3 Tốc độ của NVIDIA Jetson Nano khi chạy các mô hình khác nhau [20] - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 3.3 Tốc độ của NVIDIA Jetson Nano khi chạy các mô hình khác nhau [20] (Trang 37)
Hình 3.4 Camera Pi NoIR V2 [21] - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 3.4 Camera Pi NoIR V2 [21] (Trang 38)
Hình 3.6 Mô hình phân loại lớp dựa trên dữ liệu được huấn luyện - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 3.6 Mô hình phân loại lớp dựa trên dữ liệu được huấn luyện (Trang 46)
Hình 3.8 Sơ đô hoạt động của chương trình - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 3.8 Sơ đô hoạt động của chương trình (Trang 48)
Sơ đồ hoạt động của hệ thống phân loại video được biểu diễn như hình 3.9: - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Sơ đồ ho ạt động của hệ thống phân loại video được biểu diễn như hình 3.9: (Trang 49)
Hình 3.12 Các bước dé thực hiện quá trình gửi email bang Python - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 3.12 Các bước dé thực hiện quá trình gửi email bang Python (Trang 53)
Hình 3.13 Giải pháp hạn chế hiện tượng flickering - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 3.13 Giải pháp hạn chế hiện tượng flickering (Trang 55)
Hình 4.3 Kết quả train mô hình Resnet — 18 với bộ dữ liệu hỗn hợp - Khóa luận tốt nghiệp Kỹ thuật máy tính: Hệ thống camera thông minh phát hiện các hành vi bất thường
Hình 4.3 Kết quả train mô hình Resnet — 18 với bộ dữ liệu hỗn hợp (Trang 59)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN