(Tóm tắt luận văn thạc sĩ) xây dựng mô hình học sâu đa tầng phát hiện hành vi bạo lực

26 0 0
(Tóm tắt luận văn thạc sĩ) xây dựng mô hình học sâu đa tầng phát hiện hành vi bạo lực

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHẠM ĐỨC CƯỜNG XÂY DỰNG MƠ HÌNH HỌC SÂU ĐA TẦNG PHÁT HIỆN HÀNH VI BẠO LỰC Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ Hà Nội - NĂM 2023 Đề án tốt nghiệp hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: GS TS Từ Minh Phương (Ghi rõ học hàm, học vị) Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… MỞ ĐẦU Tính cấp thiết đề án Trong kỉ nguyên Internet nay, cảnh bạo lực phim ảnh, phương tiện truyền thông hay mạng xã hội trở nên phổ biến, truy cập dễ dàng dẫn đến nhiều hành động bạo lực, đặc biệt từ giới trẻ Hành vi bạo lực thường xảy hành vi bạo lực thể chất - hành vi cố ý xâm hại tính mạng gây thương tích thể cho nạn nhân Hành vi bạo lực nói chung bạo lực thể chất nói riêng gây nhiều hệ lụy cho xã hội, gây tổn hại sức khỏe, tinh thần, tài sản đơi tính mạng người Đã có nhiều biện pháp khắc phục đưa tình trạng bạo lực thường xuyên xảy ra, khơng có dấu hiệu thun giảm Camera giám sát triển khai khắp giới, với mục đích góp phần tăng cường an ninh, bảo vệ người Với số lượng camera giám sát khổng lồ khơng ngừng gia tăng vậy, hồn tồn sử dụng để phát hành vi bạo lực thể chất Một phương pháp phát hành vi bạo lực từ video đủ tốt có thể giúp quan chức ngăn chặn hay chí giảm thiểu tối đa thiệt hại bạo lực gây Hơn nữa, phương pháp cịn ứng dụng vào lọc video mạng xã hội Facebook, Tiktok,… để kiểm duyệt nội dung, ngăn chặn video bạo lực xuất tràn lan mạng xã hội, hạn chế phần truy cập từ người dùng – nguyên nhân dẫn đến tình trạng bạo lực gia tăng Ở Việt Nam, dù có nghiên cứu phát hành vi bạo lực từ video chưa ứng dụng rộng rãi thực tế Gần đây, BKAV phát triển hệ thống AI view kết hợp camera AI phục vụ giám sát trật tự an ninh có tính phát hành bạo lực, nhiên tính dừng lại chức phát súng đám đơng Chính vậy, đề án lựa chọn nghiên cứu đề tài “Xây dựng mơ hình học sâu đa tầng phát hành vi bạo lực” Trong phạm vi kiến thức, đề án tập trung nghiên cứu xây dựng mơ hình học sâu đa tầng cho toán phát hành vi bạo lực thể chất từ video, cụ thể hành vi bạo lực mà đối tượng sử dụng phận thể tác động gây thương tích lên đối tượng khác mà khơng sử dụng vũ khí hay cơng cụ hỗ trợ Với mục đích trình bày đề án cách khoa học khơng dài dịng, kể từ đây, đề án sử dụng cụm từ “phát hành vi bạo lực” thay cho “phát hành vi bạo lực thể chất từ video” Đề án trình bày số nội dung sau: • Chương 1: Tổng quan tốn phát hành vi bạo lực Nội dung chương giới thiệu toán phát hành vi bạo lực, hướng tiếp cận tốn, trình bày nghiên cứu liên quan vấn đề tồn phương pháp, kiến thức sở cần thiết đưa kết luận chương • Chương 2: Mơ hình học sâu đa tầng Nội dung chương trình bày mơ hình học sâu đa tầng, sâu vào mô tả kiến trúc cách hoạt động tầng sau đưa kết luận chương • Chương 3: Thực nghiệm đánh giá Nội dung chương trình bày cách xây dựng liệu cho tốn, mơ tả q trình thực nghiệm, phương pháp đánh giá kết quả, từ trình bày kết thực nghiệm đưa đánh giá kết luận chương Tổng quan vấn đề nghiên cứu Trong năm gần đây, toán phát hành vi bạo lực nhận nhiều quan tâm Chính vậy, nhiều phương pháp đề xuất để giải toán Các phương pháp tập trung vào sử dụng xử lý ảnh truyền thống để trích xuất đặc trưng sau dùng mơ hình học máy để phân loại hành vi, số phương pháp sử dụng học sâu Một số nghiên cứu bật trình bày chương đề án Mục đích nghiên cứu Ứng dụng cơng nghệ trí tuệ nhân tạo để xây dựng mơ hình học sâu đa tầng phát hành vi bạo lực Từ ứng dụng vào hệ thống camera giám sát giúp nâng cao lực hiệu làm việc quan quản lý Kịp thời phát ngăn chặn hành vi bạo lực, giảm thiểu thiệt hại người tài sản Hơn nâng cao ý thức người dân góp phần ổn định trật tự xã hội, nâng cao chất lượng sống Mơ hình cịn ứng dụng vào lọc video mạng xã hội Facebook, Tiktok, … để kiểm duyệt nội dung, ngăn chặn video bạo lực xuất tràn lan mạng xã hội, hạn chế phần truy cập từ người dùng – nguyên nhân dẫn đến tình trạng bạo lực gia tăng Đối tượng phạm vi nghiên cứu  Bài toán phát hành vi bạo lực giới Việt Nam  Xây dựng tập liệu mới, chuẩn hố mơi trường Việt Nam dành riêng cho toán phát hành vi bạo lực  Xây dựng thử nghiệm mơ hình học sâu đa tầng phát hành vi bạo lực tập liệu sẵn có xây dựng  Đưa so sánh nhận xét mơ hình học sâu đa tầng  Kết luận đề xuất hướng nghiên cứu Phương pháp nghiên cứu  Tham khảo mơ hình học sâu hiệu cao, từ đưa mơ hình học sâu phù hợp để giải tốn  Phân tích, đánh giá phương pháp có sẵn giới Việt Nam phát hành vi bạo lực  Đánh giá độ xác tốc độ mơ hình thơng qua kiểm tra thử nghiệm tập liệu sẵn có tập liệu xây dựng, chuẩn hóa mơi trường Việt Nam CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN HÀNH VI BẠO LỰC Nội dung chương giới thiệu toán phát hành vi bạo lực hướng tiếp cận toán Do phạm vi nghiên cứu luận án tập trung chủ yếu phát hành vi bạo lực từ video, nên để làm sở trình bày chương sau, phần trình bày kết nghiên cứu có nội dung vấn đề tồn phương pháp Các kiến thức sở cần thiết đưa phần cuối kết luận chương 1.1 Bài toán phát hành vi bạo lực 1.1.1 Giới thiệu toán Phát hành vi bạo lực trình giám sát, theo dõi phân tích hành vi đối tượng trạng thái môi trường xung quanh nhằm suy diễn/nhận dạng hoạt động xảy có phải hành vi bạo lực hay không Trong phạm vi đề án, hành vi bạo lực bao gồm hành vi cố ý xâm hại tính mạng gây thương tích thể cho nạn nhân  Đầu vào: Video có chứa hành vi bạo lực, hành vi bình thường hai, với độ dài  Đầu ra: Cảnh báo hành vi bạo lực xuất video So với phương pháp khác, phương pháp đề án trình bày khơng đưa cảnh báo mà cịn vị trí xác nhóm người có hành vi bạo lực video 1.1.2 Hướng tiếp cận Phát hành vi bạo lực sử dụng học sâu hướng tiếp cận hiệu với chi phí thấp cho thu thập liệu nhờ hệ thống camera rộng lớn nguồn video khổng lồ Internet Phát hành vi bạo lực sử dụng học sâu chia thành bước bản, bao gồm:  Bước 1: thu thập, lưu trữ gán nhãn video hành vi bạo lực video bình thường (bước gán nhãn bao gồm thao tác chia cắt, phân loại video thành nhóm chứa video bạo lực video bình thường)  Bước 2: huấn luyện, kiểm tra mơ hình học sâu dựa liệu gán nhãn  Bước 3: phân tích kết quả, từ đưa phương án cải thiện liệu mơ hình cần thiết để đạt kết tốt 1.2 Các nghiên cứu liên quan Trong năm gần đây, toán phát hành vi bạo lực nhận nhiều quan tâm Chính vậy, nhiều phương pháp đề xuất để giải toán Qua nghiên cứu “Vision-based Fight Detection from Surveillance Cameras”, tác giả cho thấy CNN-LSTM áp dụng tốt cho tốn phát hành vi bạo lực Đầu tiên, khung hình liên tiếp đưa vào CNN để trích xuất đặc trưng Sau đặc trưng đưa vào Bidirectional LSTM, kết hợp Attention để phân loại khung hình liên tiếp bạo lực hay không Sơ đồ tổng quan phương pháp mô tả hình 1.1 Phương pháp thử nghiệm tập liệu Hockey, Peliculas Collected Surveillance Camera cho kết tốt sử dụng để phân loại video có chuyển động liên tục Hình 1.1 Sơ đồ tổng quan mơ hình CNN-LSTM (Nguồn: paper) Dù vậy, phương pháp đạt độ xác khơng cao phân loại video có cảnh bạo lực chiếm phần nhỏ so với khung hình Ví dụ hình 1.2, cảnh bạo lực lấy từ tập liệu PTIT, chiếm phần diện tích nhỏ khung hình, thuật tốn hoạt động khơng tốt Ngun nhân sử dụng tồn ảnh để trích chọn đặc trưng phần đặc trưng mô tả hành vi bạo lực không thực bật so với đối tượng khác Để khắc phục nhược điểm này, đề án trình bày phương pháp phát hành vi bạo lực đa tầng Mơ hình cho phép mạng tập trung vào vị trí xảy hành vi bạo lực, từ cho kết có độ xác cao Ngồi mơ hình đưa vị trí xác đối tượng có hành vi bạo lực khung hình, thay đưa dự đốn có/khơng phải hành vi bạo lực tồn khung mơ hình CNN-LSTM Hình 1.2 Cảnh bạo lực tập liệu PTIT 1.3 Kiến thức sở Để giải toán phát hành vi bạo lực, đề án chia toán thành ba toán giải với mơ hình học sâu đa tầng trình bày Ba tốn bao gồm:  Phát đối tượng  Theo dõi đối tượng  Phân loại hành vi bạo lực 1.3.1 Phát đối tượng 1.3.2 Theo dõi đối tượng 1.3.3 Phân loại hành vi bạo lực 1.3.3.1 CNN 1.3.3.2 LSTM 1.4 Kết luận chương Chương giới thiệu toán phát hành vi bạo lực hướng tiếp cận tốn, trình bày kết nghiên cứu có nội dung vấn đề tồn phương pháp Ngoài ra, kiến thức sở cần thiết nhắc đến Dựa vào nội dung đó, chương trình bày mơ hình học sâu đa tầng cho toàn phát hành bạo lực, sâu vào kiến trúc cách hoạt động tầng CHƯƠNG 2: MƠ HÌNH HỌC SÂU ĐA TẦNG Chương trình bày mơ hình học sâu đa tầng cho toán phát hành vi bạo lực, sâu vào mô tả kiến trúc cách hoạt động tầng 2.1 Đặt vấn đề 2.2 Mơ hình học sâu đa tầng Với đầu vào video, mô hình học sâu đa tầng cho tốn phát hành vi bạo lực minh hoạ hình 2.1 Cách tiếp cận chia thành ba tầng, giải ba toán tương ứng Tầng – tầng phát đối tượng, giải toán phát đối tượng, khung hình liên tiếp – phụ thuộc vào số lượng bước thời gian LSTM, hình ảnh liên tiếp từ video đưa vào tầng này, mơ hình phát đối tượng sử dụng có nhiệm vụ phát khoanh vùng đối tượng người Tầng thứ hai – tầng theo dõi đối tượng, giải toán theo dõi đối tượng, có nhiệm vụ theo dõi đối tượng phát từ tầng thứ thuật toán theo dõi đối tượng Do hành vi bạo lực thể chất xảy với đối tượng gần nhau, nên tầng thứ hai sử dụng thêm thuật tốn GroupPeople với mục đích kết hợp đối tượng người gần thành nhóm, hành động liên tiếp từ nhóm người sử dụng làm đầu vào cho tầng Tầng thứ ba - tầng phân loại hành vi bạo lực, giải tốn phân loại hành vi bạo lực với mơ hình CNN-LSTM, hành động nhóm người từ khung hình liên tiếp đưa vào CNN để trích xuất đặc trưng sau đưa vào LSTM để định xem nhóm người có hành vi bạo lực thực hành động bình thường Hình 2.1 Sơ đồ tổng quan mơ hình học sâu đa tầng 2.2.1 Tầng phát đối tượng Tầng phát đối tượng giải tốn phát đối tượng, có nhiệm vụ phát đối tượng người hình ảnh video:  Đầu vào: hình ảnh video  Đầu ra: vị trí đối tượng người hình ảnh Với ưu điểm vượt trội tốc độ độ xác, YOLOv7 – mơ hình thuộc lớp YOLO lựa chọn sử dụng cho tầng phát đối tượng 2.2.1.1 Giới thiệu YOLOv7 2.2.1.2 Cách hoạt động YOLOv7 YOLOv7 sử dụng mạng nơ-ron tích chập, thường gọi xương sống mạng, để đưa dự đoán hộp giới hạn (bounding box) xác suất đối tượng lúc YOLOv7 vượt qua mơ hình phát đối tượng tốc độ độ xác từ FPS tới 160 FPS đạt độ xác cao với 56.8% AP số toàn mơ hình phát đối tượng thời gian thực, có tốc độ 30 FPS GPU NVIDIA Tesla V100 YOLOv7 cung cấp nhiều mơ hình huấn luyện trước (pretrain) với độ xác kiểm tra tập MS COCO - sở liệu khổng lồ Microsoft cho tác vụ phát đối tượng với khoảng 1,5 triệu hình ảnh dán nhãn Những pretrain YOLOv7 đánh giá pretrain tốt mà độ xác đạt cao với thang đo AP – thang đo chuyên để đánh giá mơ hình phát đối tượng tốc độ xử lý nhanh Thử nghiệm pretrain YOLOv7 tập liệu mà đề án sử dụng cho thấy kết tốt, kết MS COCO, biến thể YOLOv7-E6E đem lại kết tốt Pretrain YOLOv7-E6E phát đối tượng người bị che khuất phần Vì đề án sử dụng pretrain YOLOv7-E6E cho tầng phát đối tượng mà không tiến hành huấn luyện lại mơ hình Những đối tượng người phát từ YOLOv7, bao gồm vị trí khung hình đối tượng điểm tin cậy dự đốn, đưa vào tầng – tầng theo dõi đối tượng để tiến hành theo dõi nhóm lại 10  Bước 1: Tính tốn ma trận kết nối Hai hộp giới hạn định nghĩa gần có khoảng cách nhỏ giá trị chiều rộng hộp Hai hộp gần có giá trị connection_matrix ngược lại Mã giả bước trình bày connection_matrix[1, 2, , M][1, 2, , M] = {0} For i = To M: For j = i + To M: If distance(Di, Dj) < min(Di.w, Dj.w): connection_matrix[i][j] = connection_matrix[j][i] = Endfor Endfor  Bước 2: Kết hợp toàn hộp giới hạn gần thành nhóm đưa tồn nhóm Nếu coi hộp giới hạn đỉnh đồ thị, hộp giới hạn có khoảng cách gần coi có kết nối đến nhau, thuật tốn tìm kiếm theo chiều rộng (Breadth-first search – BFS) đưa toàn đỉnh kết nối đến đỉnh đầu vào tương đương với đưa toàn hộp giới hạn có khoảng cách gần với hộp giới hạn đầu vào Đưa tất nhóm tương đương với thành phần liên thơng đồ thị Nhóm đối tượng định danh đối tượng bên đưa sau bước Mã giả bước trình bày 11 checked{1, 2, , M} = {} BFS(s): group = {s} group_of_id = {id(s)} checked[s] = queue = {s} While Size(queue) != 0: u = queue.pop() For v = To M: If checked[s] == and connection_matrix[u][v] == 1: group.add(v) group_of_id.add(id(v)) queue.push(v) checked[v] = EndWhile Return group, group_id  GroupPeople nhận đầu vào hộp giới hạn từ YOLO sau ByteTrack gắn định danh, cho đầu nhóm người gần định danh ByteTrack gắn từ trước Những định danh giúp xác định nhóm người khung hình Trong khung hình liên tiếp, nhóm người có phần lớn định danh giống đối tượng bên (để tránh trường hợp đối tượng bị che khuất trình theo dõi), coi nhóm người tạo thành chuỗi hành 12 vi Chuỗi hành vi đưa vào tầng cuối – tầng phân loại hành vi bạo lực, để đưa dự đoán nhóm người có hành vi bạo lực hành động bình thường 2.2.3 Tầng phân loại hành vi bạo lực Tầng phân loại hành vi bạo lực giải toán cuối – phân loại hành vi bạo lực:  Đầu vào: chuỗi hành động nhóm người, chuỗi hành động thu thập dựa vào vị trí nhóm người gần vị trí định danh tương ứng đối tượng thuộc nhóm – đầu tầng theo dõi đối tượng  Đầu ra: chuỗi hành động nhóm người đầu vào hành vi bạo lực hay hành vi bình thường Tầng phân loại hành vi bạo lực sử dụng mơ hình CNN-LSTM, nhận đầu vào chuỗi hình ảnh nhóm người theo thời gian khung hình cho đầu kết dự đốn nhóm người có hành vi bạo lực hay khơng Mơ hình CNN-LSTM kết hợp thành phần: CNN LSTM, thành phần đồ án lựa chọn sử dụng biến thể khác phù hợp với toán 2.2.3.1 Thành phần CNN Từ CNN bản, tạo nhiều kiến trúc khác nhau, từ mạng nơ-ron có vài lớp hàng trăm lớp Từ CNN bản, tạo nhiều kiến trúc khác nhau, từ mạng nơ-ron có vài lớp hàng trăm lớp Kiến trúc ResNet-50 EfficientNet-B0 đề án lựa chọn sử dụng cho tầng CNN ResNet-50 giữ nguyên đầu vào 224x224x3 chỉnh sửa đầu để tạo thành vector đặc trưng có độ dài 256 EfficientNet-B0 giữ nguyên đầu vào 224x224x3 chỉnh sửa đầu để tạo thành vector đặc trưng có độ dài 256 tương tự ResNet50 trình bày 2.2.3.1 Thành phần LSTM Với thành phần LSTM, đề án lựa chọn sử dụng biến thể Bi-LSTM Bi-LSTM không lưu trữ thông tin từ khứ mà cịn lưu trữ thơng tin đến từ tương lai, kiến trúc giúp mơ hình dễ đưa dự đoán mà chuỗi hành vi tiếp nhận thông tin từ hai chiều thời gian Đề án sử dụng liên tiếp hai Bi-LSTM qua thực nghiệm, so 13 với Bi-LSTM kiến trúc hai Bi-LSTM liên tiếp cho kết tốt nhiều dù tốc độ có tăng thêm chút, sử dụng nhiều hai Bi-LSTM độ xác khơng thay đổi Sơ đồ chi tiết mơ hình học sâu đa tầng mơ tả hình 2.2 Tầng phát đối tượng nhận chuỗi hình ảnh hành vi với số lượng khung thời gian thành phần LSTM từ khung hình liên tiếp video đưa vị trí đối tượng người khung hình với YOLOv7 Sau đó, đối tượng theo dõi tách thành nhóm người tầng theo dõi đối tượng với ByteTrack thuật toán GroupPeople Cuối cùng, tầng phân loại hành vi bạo lực với mơ hình CNN-LSTM có thành phần CNN ResNet-50 EfficientNet-B0 làm nhiệm vụ trích xuất đặc trưng nhóm đưa vào thành phần LSTM hai tầng Bi-LSTM để đưa dự đốn nhóm đối tượng có hành vi bạo lực nhóm người bình thường 14 Hình 2.2 Sơ đồ chi tiết mơ hình học sâu đa tầng 2.3 Kết luận chương Chương mơ tả chi tiết mơ hình học sâu đa tầng, bao gồm kiến trúc tầng cách hoạt động thành phần bên Chương trình bày cách xây dựng liệu cho tốn, mơ tả q trình thực nghiệm, phương pháp đánh giá kết quả, trình bày kết thực nghiệm đưa đánh giá kết luận CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương trình bày cách xây dựng liệu cho tốn, mơ tả q trình thực nghiệm, phương pháp đánh giá kết quả, trình bày kết thực nghiệm đưa đánh giá kết luận 15 3.1 Mô tả liệu i) Tập liệu Hockey Fight: Tập liệu chứa cảnh bạo lực không từ trị chơi khúc cầu băng Có tổng cộng 1000 video, 500 mẫu bạo lực 500 mẫu bình thường Tất video có độ dài giây, tốc độ khung hình 25 fps, kích thước khung hình video giống cảnh bạo lực chiếm phần lớn khung hình Các video có chung có chuyển động Hình 3.1 Một số hình ảnh tập liệu HockeyFight ii) Tập liệu Peliculas: Tập liệu bao gồm phân cảnh bạo lực không từ phim Hollywood, trị chơi bóng đá kiện khác Có tổng cộng 200 video tất 100 video bạo lực 100 cịn lại video bình thường Độ dài video giây, tốc độ khung hình 25 fps, kích thước khung hình video khơng giống tồn cảnh bạo lực chiếm phần lớn khung hình Mơi trường người video khác Những video có chuyển động Hình 3.2 Một số hình ảnh tập liệu Peliculas iii) Tập liệu PTIT: Đây tập liệu đề án thu thập Học viện Cơng nghệ Bưu Viễn thông Tập liệu thu thập với đối tượng nhóm sinh viên thực hành vi bạo lực thể chất với hành vi di chuyển bình thường, 16 điều kiện sáng tối khác Thiết bị sử dụng trình thu thập liệu máy quay Sony CX405 Handycam Những video thu thập có độ phân giải 1920x1080, tốc độ khung hình 30 fps, có chung kích thước khung hình, quay với bối cảnh khác khoảng cách tới camera khác từ gần đến xa Độ dài video từ đến 10 giây Hành vi video có hành vi bạo lực bình thường tương ứng với nhãn nó, khơng có trường hợp video có hành vi bạo lực bình thường Tập liệu có tổng cộng 490 video, 274 video bạo lực 210 video bình thường Hình 3.3 Một số hình ảnh tập liệu PTIT Bảng thống kê tập liệu trình bày bảng 3.1 Đề án tiến hành thực nghiệm mơ hình học sâu đa tầng tập liệu Bảng 3.1 Thống kê tập liệu Tập liệu Hockey Fight Peliculas PTIT Hành vi bạo lực 500 Hành vi bình thường 500 100 100 274 216 3.2 Mô tả thực nghiệm Mỗi tập liệu chia thành hai tập liệu huấn luyện – kiểm tra với tỉ lệ 80%-20% để tiến hành trình thực nghiệm Quá trình chia thực video gốc độ dài video tập liệu tương đồng Các hành vi bạo lực video tách dựa vào số lượng bước thời gian LSTM cách tự động trình thực nghiệm Số lượng videos cho tập liệu trình thể biểu đồ hình 3.4 17 Hình 3.4 Biểu đồ phân chia liệu Thực nghiệm tiến hành với mơ hình CNN-LSTM mơ hình học sâu đa tầng với hai mơ hình CNN ResNet-50 EfficientNet-B0 Thực nghiệm triển khai máy tính có cấu sau:  Hệ điều hành (OS): Windows 10  Vi xử lý (CPU): I9-10900K  Ổ cứng: SSD Samsung 970 EVO Plus 500GB  Dung lượng nhớ RAM: 32GB  Card đồ hoạ: GEFORCE RTX 2070 SUPER Qua trình thực nghiệm, đề án đưa siêu tham số khuyến nghị để mơ hình đạt kết tốt nhất:  Kích thước mẫu (Batch size):  Tốc độ học (Learning rate): 0.0001  Số lượng bước thời gian (timesteps): 16  Độ phân giải video đầu vào: 224x224  Số lần huấn luyện: 1000 epochs  Thuật toán tối ưu: Adam 18 3.3 Phương pháp đánh giá Một video chứa nhiều cảnh bạo lực bình thường liên tiếp Các video tập liệu có độ dài giống nên số lượng liệu cho hành vi bạo lực bình thường tập liệu tương đối cân Vì vậy, đề án sử dụng thang đo Accuracy làm phương pháp đánh giá, tổng số trường hợp tổng tất hành vi bạo lực bình thường sau tách dựa vào số lượng bước thời gian LSTM Accuracy= số trường hợp mơhình dự đốn xác tổng số trường hợp 3.4 Kết thực nghiệm đánh giá 3.4.1 Quá trình huấn luyện Hình 3.5 3.6 thể thay đổi loss accuracy q trình huấn luyện đánh giá mơ hình CNN-LSTM mơ hình học sâu đa tầng tập liệu HockeyFight Loss accuracy trình huấn luyện tương đối ổn định hội tụ nhanh, nhiên loss accuracy trình đánh giá lại khơng Ngun nhân số lượng liệu đánh giá chưa đủ lớn, gây nên chênh lệch epoch Một nguyên nhân khác góp phần gây nên tượng liệu tập huấn luyện đánh giá chưa phân chia xác (những hành động khơng xuất liệu huấn luyện hành động tương tự gần tương tự lại có liệu đánh giá)

Ngày đăng: 24/08/2023, 10:19

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan