Phát hiện một số sự kiện bất thường dựa trên hình ảnh sử dụng mô hình phân cấp tt

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG VŨ HỒI NAM PHÁT HIỆN MỘT SỐ SỰ KIỆN BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MƠ HÌNH PHÂN CẤP Chun ngành: Kỹ thuật Máy tính Mã số: 9.48.01.06 TĨM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN (ghi ngành học vị công nhận) Hà Nội - 2023 DANH MỤC KÝ HIỆU 𝐼τ Tập hợp tensor đầu vào τ Tensor ℎ! (.) Hàm lọc tầng ℎ" (.) Hàm lọc tầng ℎ#$%& (.) Hàm lọc theo luật ℎ'% (.) Hàm mơ hình học sâu MobileNet tốn phát sạt lở ℎ()) (.) Hàm mơ hình học sâu CNN 𝑁 Số lượng tensor tập hợp 𝑂 Tập hợp tensor đầu 𝐴𝑃 Chỉ số độ xác trung bình 𝐴𝑅 Chỉ số recall trung bình 𝑡*+ Ngưỡng chồng lấn để xác định tỉ lệ phát xác đối tượng bất thường 𝑠𝑤𝑖𝑠ℎ( ) 𝑌 Hàm Swish Đầu dự đoán mơ hình mạng nơ ron hồi quy RNN 𝑋#&/)&- Tập hợp vector đặc trưng đối tượng có khả đối tượng bất thường thời điểm t Tập hợp vector đặc trưng đối tượng có khả đối tượng bất thường thời điểm t trích xuất từ mơ hình Resnet ℎ#&/)&- Hàm mơ hình học sâu Resnet toán phát lửa (-) 𝑋()) (-) i MỞ ĐẦU Sự kiện bất thường kiện xảy dự đoán, kế hoạch người [1] Sự kiện bất thường không giám sát cảnh báo kịp thời gây ảnh hưởng lớn đến hạ tầng, tài sản, chí tính mạng người Sự kiện bất thường chia làm hai loại chính: Sự kiện bất thường tự nhiên kiện bất thường hoạt động người gây Sự kiện bất thường tự nhiên gây thường có yếu tố ngẫu nhiên khó dự đốn phát sớm, phịng tránh [2] Trong đó, kiện bất thường hoạt động người gây dự đốn phòng tránh để cảnh báo sớm Sự kiện bất thường nguyên nhân hàng đầu thiệt hại người kinh tế Do đó, việc xây dựng hệ thống cảnh báo sớm thực cần thiết Với trợ giúp hệ thống phần cứng giám sát dựa công nghệ Internet vạn vật (IoT) trí tuệ nhân tạo (AI), kiện bất thường phát cảnh báo sớm Tuy nhiên, để hệ thống giám sát dựa công nghệ cao vào thực tiễn, cần lõi xử lý đủ mạnh để phát hiện, cảnh báo tự động với độ xác cao tỉ lệ cảnh báo giả thấp Trong mơ hình giám sát thu thập liệu, bên cạnh hệ cảm biến truyền thống, cảm biến hình ảnh (camera) triển khai ngày nhiều rộng khắp toàn giới tầm quan sát rộng, linh hoạt, chi phí thấp khả tích hợp cơng nghệ xử lý tiên tiến Thêm vào đó, số lượng camera giám sát (CCTV – Closed-circuit Television) đạt ngưỡng tỷ đơn vị năm 2022, ngày tăng lên nhanh chóng quốc gia phát triển Các hệ thống camera giám sát thường thu thập lưu trữ liệu trung tâm liệu (DC – Data Center) tập trung Để hệ thống camera giám sát theo dõi, phát kiện bất thường, thuật toán học máy, xử lý ảnh phải áp dụng vào phần lõi xử lý cài đặt trung tâm liệu thiết bị biên Thời gian gầy đây, mơ hình học sâu cho kết tốt nhiều lĩnh vực đặc biệt hệ thống giám sát sử dụng camera [3] Trong phạm vi luận án, mô hình học sâu tích hợp vào hệ thống giám sát để phát hiện, cảnh báo kiện bất thường chia thành hai nhóm theo tính chất kiện bất thường quan sát: Sự kiện bất thường tĩnh kiện bất thường động Sự kiện bất thường tĩnh kiện bất thường chứa đối tượng bất thường tĩnh (khơng có yếu tố chuyển động), ví dụ sạt lở đất đá, hố sụt Trong đó, kiện bất thường động kiện bất thường chứa đối tượng bất thường có yếu tố chuyển động ví dụ lửa, hành vi bạo lực Với toán phát đối tượng bất thường tĩnh xử lý ảnh đơn, luận án hướng đến đề xuất mơ hình phân cấp cho phép trích xuất lọc đối tượng nghi ngờ bất thường chặng đầu, chặng sau cho phép nhận dạng đối tượng bất thường sử dụng phân loại học sâu Mơ hình phân cấp tăng hiệu so với mơ hình nhận xử lý trực tiếp ảnh đầu vào, đảm bảo tốc độ xử lý cao loại bỏ nhiều đối tượng nhiễu chặng lọc Tương tự, với kiện bất thường động, luận án đề xuất mô hình phân cấp, đối tượng nghi ngờ bất thường sau lọc chặng đầu, bám vết trích xuất đặc trưng thời gian trước đưa vào nhận dạng đối tượng chặng cuối Mơ hình cho hiệu cao phương pháp trích xuất đặc trưng khơng gian, mơ hình trích xuất đặc trưng thời gian xử lý hoàn toàn từ ảnh gốc, đảm bảo thời gian xử lý theo thời gian thực Ngồi ra, việc sử dụng mơ hình phân cấp cho phép hệ thống phát đối tượng bất thường tránh tượng cảnh báo giả xuất đối tượng nhiễu bị nhận dạng nhầm đối tượng bất thường a Mục đích nghiên cứu Mục đích luận án nghiên cứu thành phần mơ hình phân cấp để đề xuất cấu trúc mơ hình phân cấp cho nhận dạng, phát kiện bất thường Mục tiêu cuối đề xuất mơ hình phân cấp cho nhận dạng bất thường động, nơi đối tượng bất thường có tính chất chuyển động Việc sử dụng mơ hình phân cấp cho nhận dạng bất thường trả lời câu hỏi nghiên cứu đề cập đến phần mở đầu, là: tăng độ xác cải thiện tốc độ xử lý mơ hình huấn luyện theo kiểu đầu cuối (endto-end) Mơ hình phân cấp xây dựng với nhiều cấp lọc để loại bỏ đối tượng nhiễu theo cấp độ liên quan đến đối tượng cần phát Mơ hình phân cấp giúp lõi xử lý ảnh hệ thống cảnh báo bất thường trở nên mạnh việc tăng độ xác (giảm tỉ lệ cảnh báo giả), đặc biệt tăng đáng kể tốc độ xử lý Hai yếu tố giúp cho hệ thống cảnh báo trở nên đáng tin cậy b Phạm vi nghiên cứu - - c Đề tài luận án tập trung vào nghiên cứu đề xuất mơ hình phân cấp để nhận dạng kiện bất thường ảnh/video Các mơ hình học sâu phân cấp sử dụng luận án mơ hình học sâu dựa hai mơ hình mạng nơ ron tích chập CNN (Convolutional Neural Network) để trích xuất đặc trưng khơng gian mạng nhớ dài ngắn hạn LSTM (Long Short Term Memory) để trích xuất đặc trưng thời gian Ngoài ra, phương pháp xử lý ảnh truyền thống sử dụng kết hợp với mơ hình học sâu để tăng hiệu hệ thống Mô hình mạng phân cấp tư tưởng chủ đạo để áp dụng nhận dạng, phát kiện bất thường thơng qua việc trích xuất phân tích đặc tính đối tượng bất thường ảnh/video Tuy nhiên, mơ hình mạng phân cấp khơng thể áp dụng với kiến trúc tham số giống cho loại kiện bất thường Thay vào đó, mơ hình mạng phân cấp cụ thể áp dụng vào để nhận dạng loại kiện bất thường có thay đổi thành phần bên mơ hình Dữ liệu kiện bất thường thu thập từ nhiều nguồn camera khác ứng với toán khác Những đóng góp luận án Mục đích luận án nghiên cứu đề xuất mơ hình mạng học sâu phân cấp cho nhận dạng, phát kiện bất thường liệu giám sát Dữ liệu giám sát chủ yếu thu thập luận án liệu video, ảnh Do đó, mơ hình mạng học sâu phân cấp thiết kế cho phù hợp với dạng liệu Đóng góp thứ nhất, nghiên cứu sinh xây dựng hai liệu làm tiêu chuẩn đánh giá mơ hình nhận dạng kiện bất thường Đó liệu LandslidePTIT cho toán pahts sạt lở FirePTIT cho toán phát lửa video Đóng góp thứ hai, luận án đề xuất mơ hình mạng phân cấp cho phép nhận dạng kiện bất thường tĩnh Do đặc thù kiện bất thường tĩnh khơng có yếu tố chuyển động, nên tồn q trình phát hiện, nhận dạng xử lý lên ảnh đơn Mơ hình đề xuất cải thiện hiệu tốc độ xử lý so với kỹ thuật khác cho toán nhận dạng bất thường tĩnh Đóng góp thứ ba, luận án đề xuất mơ hình mạng phân cấp cho đối tượng chuyển động dựa mơ hình phân cấp cho nhận dạng đối tượng bất thường tĩnh đóng góp thứ d Bố cục luận án Ngồi phần mở đầu phụ lục, Luận án chia thành chương Trong đó, chương trình bày lý thuyết tổng quan nghiên cứu kiện bất thường bao gồm phương pháp nghiên cứu, kỹ thuật xử lý nguyên lý xây dựng liệu Chương trình bày đề xuất mơ hình mạng phân cấp cho kiện bất thường tĩnh Chương báo cáo mơ hình mạng phân cấp cho kiện bất thường động Phần kết luận trình bày đóng góp luận án hướng nghiên cứu tiềm tương lai đề tài nghiên cứu phát kiện bất thường hệ thống giám sát CHƯƠNG TỔNG QUAN VỀ GIÁM SÁT SỰ KIỆN BẤT THƯỜNG BẰNG THỊ GIÁC MÁY TÍNH VÀ HỌC MÁY 1.1 Tổng quan kiện bất thường Sự kiện bất thường nguyên nhân gây lên thiệt hai nghiêm trọng người kinh tế xã hội Chúng nhiều trạng thái, cường độ khác nhau, từ va chạm giao thông hay đám cháy khu vực nhỏ đến thảm họa tự nhiên lớn phá hủy đất nước với hàng nghìn người Quản lý kiện bất thường trở nên đặc biệt quan trọng để giảm thiểu tác động xấu chúng mang lại Do vậy, sử dụng công nghệ tiên tiến để triển khai giải pháp sáng tạo để bảo vệ, giải quyết, đặc biệt cảnh báo sớm kiện bất thường lĩnh vực nghiên cứu sơi động có tính chất liên nghành với cơng nghệ làm trung tâm Quản lý kiện bất thường có liên quan đến bước: bảo vệ; phát hiện; trợ giúp; nghiên cứu sâu nguyên nhân gây kiện bất thường [4] Trong bước cơng nghệ đóng vai trị hạt nhân để tham gia vào bước bảo vệ phát kiện bất thường Mặc dù hệ thống quản lý kiện bất thường triển khai đạt kết khả quan việc cảnh báo sớm kiện bất thường gây thiệt hại lớn người tài sản Lĩnh vực nghiên cứu phương pháp, kỹ thuật học máy cho phát cảnh báo sớm kiện bất thường lĩnh vực nghiên cứu sơi động Các nhóm nghiên cứu tập trung nhiều vào việc cải thiện hiệu kỹ thuật nhận dạng phát bất thường dựa học máy Ngoài ra, yếu tố đặc thù kiện bất thường, việc triển khai hệ thống phát cảnh báo có khả hoạt động theo thời gian thực nhu cầu cần thiết Các kỹ thuật nhận dạng cải tiến theo hướng nâng cao tốc độ xử lý tối ưu tài nguyên sử dụng để triển khai hệ thống thiết bị nhúng Dựa góc nhìn phần mềm hệ thống giám sát, giám sát kiện bất thường hệ thống camera thường gắn với việc phát bám theo đối tượng bất thường để phân tích hành vi đối tượng, đưa cảnh báo kịp thời Do đó, kiện bất thường giám sát công nghệ xử lý ảnh thị giác máy tính chia làm hai loại: Sự kiện bất thường tĩnh kiện bất thường động Sự kiện bất thường tĩnh thường gắn liền với đối tượng bất thường tĩnh, đối tượng bất thường tĩnh khơng có chuyển động tương đối so với xung quanh, vậy, thuật tốn để phát bất thường tĩnh triển khai dựa đầu vào ảnh đơn khung hình đơn từ camera Trong đó, kiện bất thường động thường gắn liền với đối tượng bất thường chuyển động so với đối tượng xung quanh Khi đó, bên cạnh việc sử dụng đặc trưng mặt không gian khung hình đơn truyền từ camera, phương pháp phát kiện bất thường động cần phải tích hợp liên kết khung hình để trích xuất đặc trưng thời gian để phát hiệu Các kiện bất thường động kể đến lửa, khói, hành động bất thường người bạo lực, tai nạn giao thông Việc chia kiện bất thường thành nhóm làm đơn giản hóa việc chọn lựa mơ hình trí tuệ nhân tạo để xử lý phân tích Nội dung chương sau luận án sâu vào xử lý loại kiện bất thường việc đề xuất mơ hình cho đối tượng bất thường tĩnh đối tượng bất thường động 1.2 Dữ liệu cho phát kiện bất thường Sự phát triển học máy kèm tiến vượt bậc việc xây dựng hệ thống giám sát thông minh tạo nhu cầu lớn liệu Các thuật toán học máy, đặc biệt học sâu cần liệu lớn để tạo mơ hình cho độ xác cao Phát kiện bất thường ngoại lệ mơ hình học máy nhận dạng, phát kiện bất thường cần liệu lớn để huấn luyện Việc thu thập liệu tình bất thường khơng dễ dàng, đặc biệt tình bất thường nguy hiểm thảm họa tự nhiên cháy rừng, sạt lở đất, lũ lụt [5], [6] Để xây dựng liệu cho phát kiện bất thường, hệ thống camera cảm biến thiết lập để thu thập liệu quy mô lớn khu vực mà bất thường xảy [7], [8] Ngoài ra, thảm họa tự nhiên lớn phát thu thập liệu thông qua ảnh vệ tinh thiết bị bay không người lái hoạt động độ cao định Trong lĩnh vực phát kiện bất thường, tính chất đặc trưng tình huống, liệu thường cơng bố rộng rãi giới nghiên cứu gây khó khăn việc đánh giá, so sánh mơ hình đề xuất Các liệu cơng bố với quy trình thu thập gán nhãn công phu đem lại giá trị lớn cho cộng đồng nghiên cứu, thúc đẩy lĩnh vực nghiên cứu 1.3 Học máy cho phát kiện bất thường Do kiện bất thường chia làm hai loại kiện bất thường tĩnh liên quan đến đối tượng bất thường tĩnh, kiện bất thường động liên quan đến đối tượng bất thường động Các phương pháp học máy sử dụng cho phát kiện bất thường chia làm hai cách tiếp cận Trong tiếp cận học máy cho phát đối tượng bất thường tĩnh, toàn xử lý thực khung ảnh đơn, không cần thêm thông tin từ liên kết khung hình (trong trường hợp thu liệu dạng video) Trong cách tiếp cận học máy cho phát đối tượng bất thường động, thơng tin sử dụng hình dáng, kích thước đối tượng khung hình đơn phải liên kết với khung hình khác theo thời gian Nói cách khác, sử dụng học máy để phát đối tượng bất thường động, đặc trưng không gian đặc trưng thời gian đối tượng cần xem xét đồng thời Bên cạnh đó, dù phương pháp tiếp cận học máy theo cách nào, việc phân tích đối tượng bất thường ảnh đặc biệt cần thiết Một số ứng dụng tiếp cận toán phát bất thường theo hướng lấy đầu vào ảnh chứa đối tượng bất thường đối tượng khác gặp phải vấn đề độ xác khơng cao thiếu liệu huấn luyện mơ hình Các phương pháp học máy truyền thống áp dụng thường yêu cầu trích chọn đặc trưng đối tượng ảnh trước làm đầu vào cho mơ hình Các đặc trưng trích xuất từ đối tượng bao gồm: đặc trưng màu sắc kênh màu RGB [9]; đặc trưng hình dáng kết cấu bề mặt đối tượng đặc trưng HOG; đặc trưng thời gian wavelet [10] luồng quang học (optical flow) [11] Các phương pháp học máy truyền thống sau dựa đặc trưng để tiếp tục phân tích đưa nhận định kiện bất thường Khi đặc trưng trích xuất phương pháp học máy mạng nơ ron, SVM sử dụng để đưa kết cuối Khác với kỹ thuật học máy truyền thống, học máy đại sử dụng mơ hình học sâu có chứa trích chọn học đặc trưng bên cấu trúc mơ hình Do vậy, với học sâu, khơng cần liệu đầu vào phải dạng vector đặc trưng, đầu vào dạng liệu thơ ảnh, video, âm liệu dạng chuỗi thời gian từ cảm biến Học sâu cho nhận dạng phát bất thường ảnh video thường có hai mơ hình áp dụng mạng nơ ron tích chập CNN mạng nơ ron hồi quy RNN Trong mạng nơ ron tích chập cho phép sử dụng thông tin không gian đối tượng kiện bất thường để đưa kết luận, mạng nơ ron hồi quy sử dụng thông tin thời gian để kết hợp với đặc trưng không gian đưa kết luận 1.4 Các nghiên cứu liên quan Các nghiên cứu liên quan đến nhận dạng kiện bất thường chia hai nhóm theo đặc thù kiện bất thường kiện bất thường tĩnh kiện bất thường động Trong thực tế, coi kiện bất thường tĩnh trường hợp riêng kiện bất thường động Sự kiện bất thường tĩnh xảy đối tượng bất thường khơng chuyển động tồn khung hình Do đó, nhận dạng bất thường động toán thách thức so với nhận dạng bất thường tĩnh Trong nhận dạng bất thường tĩnh, tồn xử lý khung hình đơn cho kết xác đối tượng khơng có chuyển động tương nền, đó, hình dạng đối tượng giữ ngun khung hình khác Chính vậy, hệ thống giám sát đối tượng bất thường tĩnh trả liệu dạng video, xử lý nhận dạng, cần trích xuất khung hình đơn đưa vào mơ hình nhận dạng Ngược lại, với đối tượng bất thường động, có chuyển động đối tượng bất thường so với nền, cần phối hợp trích xuất đặc trưng thời gian khung hình để tăng độ xác mơ hình nhận dạng Những nghiên cứu liên quan xem xét để thấy điểm mạnh, yếu kỹ thuật, mơ hình có để đề xuất mơ hình phân cấp cho nhận dạng bất thường tĩnh Sau đó, dựa thành phần mơ hình phân cấp này, tích hợp thêm mơ đun trích xuất đặc trưng thời gian cho tốn tổng qt nhận dạng bất thường động 1.5 Kết luận chương Chương trình bày ngắn gọn vấn đề phát kiện bất thường ảnh, video thu từ hệ thống giám sát, hệ thống quản lý kiện bất thường Các phương pháp học máy liệu liên quan đến kiện bất thường tĩnh, bất thường động trình bày Phần cuối chương giới thiệu khảo sát, phân tích cơng trình nghiên cứu ngồi nước có liên quan đến chủ đề luận án nhận dạng bất thường tĩnh, nhận dạng bất thường động Mục tiêu cuối luận án hướng đến xây dựng mơ hình phân cấp tổng qt, áp dụng cho phát đối tượng, kiện bất thường động Tuy nhiên, đối tượng bất thường động thường liên quan đến việc phân tích nhiều khung hình liên tiếp video đối tượng bất thường phải bám vết xác để xác định đường di chuyển Một trường hợp riêng kiện bất thường động kiện bất thường tĩnh đối tượng khơng di chuyển so với Chính vậy, việc xử lý nhận dạng đối tượng bất thường cần hoạt động ảnh tĩnh trích xuất từ video CHƯƠNG ĐỀ XUẤT MƠ HÌNH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TĨNH SỬ DỤNG MẠNG PHÂN CẤP 2.1 Mơ hình hệ thống Mơ hình mạng phân cấp hình 2.1 tư tưởng chủ đạo tồn cơng trình cơng bố chương Đầu vào mơ hình tập hợp đối tượng có khả đối tượng liên quan đến đối tượng quan tâm Tập hợp đối tượng trích xuất phương pháp phân đoạn đối tượng ảnh (semantic segmentation) phân tích thành phần liên kết (Connected Componnent Analysis) Mơ hình gồm hai nhóm lọc phân chia theo độ mạnh, yếu tốc độ Các lọc yếu với tốc độ xử lý nhanh đặt nhóm thứ với mục tiêu loại bỏ nhiều nhiễu có thể, phải giữ lại toàn đối tượng quan tâm Sau kết thúc nhóm lọc thứ nhất, đối tượng lại loại bỏ phần lớn nhiễu cịn chứa nhiễu Những nhiễu có phân bố, hình dạng, kích thước giống so với đối tượng cần phát hiện, đó, nhóm lọc thứ hai (là mơ hình học sâu phân loại) nhiễu phân loại để trích xuất đối tượng cần phát Hình Mơ hình mạng phân cấp Dữ liệu đầu vào mô tả dạng tập hợp 𝐼 τ tensor τ Tùy thuộc vào toán, mà tensor có dạng hai chiều (ảnh xám) bai chiều (ảnh màu thông thường) ::::: 𝐼 τ= {τ0 }, 𝑣ớ𝑖 𝑖 = 1, 𝑁 (2.1) 𝑁 số lượng tensor ứng với đối tượng tiềm tập 𝐼 τ trích xuất từ bước mơ hình đề xuất trước vào mơ hình phân cấp Sau đó, lọc yếu tầng nhận đầu vào 𝐼 τ , cho đầu tập hợp tensor đầu 𝑂! :::::: 𝑂! = ℎ! (𝐼 τ) = {τ0 }, 𝑣ớ𝑖 𝑖 = 1, 𝑁! (2.2) Với ℎ! () hàm số lọc tầng Tại bước này, tensor nhiễu loại đi, 𝑁! ≤ 𝑁 Sau qua hết lọc tầng này, số lượng tensor lại 𝑁! tập hợp 𝑂! trở thành đầu vào cho lọc tầng hai Nhiệm vụ lọc mạnh tầng hai cần phải đưa kết luận xác đối tượng quan tâm Một đối tượng tiềm phân loại đối tượng hay nhiễu bước Bộ lọc tầng có cơng thức sau: 𝑂" = ℎ" (𝑂1) = {τ0 }, 𝑣ớ𝑖 𝑖 = :::::: 1, 𝑁" (2.3) Với 𝑁" số lượng đối tượng mơ hình phân loại bất thường kết cuối Trong đó, ℎ" () hàm số lọc tầng 2, thường mơ hình học sâu nhận dạng đối tượng Mơ hình nhận đầu vào tensor tập hợp 𝑂! phân loại xem tensor có phải đối tượng bất thường mà hệ thống tìm kiếm hay không Những tensor đối tượng bất thường mà hệ thống tìm kếm giữ lại tập hợp 𝑂" Những tensor coi nhiễu loại bỏ Sau qua hết lọc, đối tượng bất thường ứng với kiện xác định có hay khơng có ảnh vị trí Các hệ thống xây dựng dựa mơ hình phân cấp sử dụng kết kèm hình ảnh để đưa cảnh báo tương ứng xuất kiện bất thường 2.2 Phát hố sụt ảnh nhiệt thu từ UAV Dựa kiến trúc mơ hình mạng phân cấp mơ tả mục 2.1, mơ hình phát hố sụt phần kết hợp mơ hình đa tầng phát hố sụt ảnh đơn mơ hình liên kết ảnh liền kề theo thời gian để tăng độ xác Mơ hình đề xuất phát hố sụt mơ tả Hình 2.2 bên Mơ hình có khả theo dõi nhiều hố sụt xuất khung hình Ví dụ, Hình 2.2, hai hố sụt xuất khung thứ (𝑡 − 1) Đầu tiên, giai đoạn phát hố sụt mạng phân cấp, tất đường bao quanh đối tượng (BB – Bounding Box) xuất tất khung hình trích xuất Sau đó, vị trí tất BB đầu vào thuật toán theo dõi hố sụt liên kết liệu Mục đích liên kết liệu gán BB khung (tức khung 𝑡) cho quỹ đạo xác chúng từ khung thứ (𝑡 − 1) trước Một Tracklet Hình 2.2 định nghĩa quỹ đạo hố sụt - trình tự thời gian bao gồm vị trí đa chiều điểm trung tâm hố sụt Đầu cuối mơ hình đề xuất Tracklet liên kết với vị trí hố sụt thực khung Hình 2.2 Mơ hình đề xuất phát hố sụt 2.2.1 Phát hố sụt mơ hình mạng phân cấp Trong mơ hình mạng phân cấp mơ tả Hình 2.1, Mơ hình mạng học sâu kiến trúc phân đoạn hình ảnh dựa U-Net [12] sử dụng để trích xuất đối tượng tiềm có khả hố sụt ảnh Các đối tượng thể dạng hình bao (BB) mơ tả Mỗi hình bao có dạng hình chữ nhật bao quanh đối tượng thực tế cắt từ ảnh gốc để tạo thành ảnh đối tượng Tập hợp hình bao 𝐼11 đầu vào mơ hình mạng phân cấp bao gồm lọc theo luật ℎ#$%& mơ hình học sâu phân loại đối tượng ℎ'% Mơ hình học sâu phân loại đối tượng dựa kiến trúc MobileNet v3 [13], đóng vai trò lọc mạnh để phân biệt hố sụt thực đối tượng nhiễu khác Mơ hình nhận đầu vào ảnh lấy từ lọc theo luật Trong trình huấn luyện mơ hình, liệu ảnh trích xuất từ lọc theo luật 2.2.1.1 Mơ hình phân đoạn đối tượng dựa mạng U-Net Mơ hình U-Net nhận ảnh đầu vào với kích thước 256x336 Kiến trúc bao gồm thành phần: phận thu gọn, phận cầu nối, phận mở rộng (contraction, bridge, expansion) Bộ phận thu gọn bao gồm ba khối thu gọn, khối nhận dầu vào áp dụng hai lớp tích chập 3x3, theo sau hai lớp max pooling Sau khối thu gọn, số lượng đồ đặc trưng tăng lên gấp đôi để kiến trúc học cấu trúc phức tạp hiệu Bộ phận cầu nối làm trung gian cho phận thu gọn phận mở rộng Bộ phận sử dụng hai lớp tích chập 3x3, hai lớp tích chập 2x2 Tương tự phận thu gọn, phận mở rộng bao gồm ba khối mở rộng Mỗi khối chuyển đàu vào đến hai lớp tích chập 3x3, theo sau hai lớp tích chập 2x2 Sau khối, đồ đặc trưng bị giảm nửa để trì tính đối xứng mơ hình Để huấn luyện mơ hình UNET này, hàm mát Jaccard sử dụng Hàm mát Jaccard thường gọi điểm giao kết hợp Hàm mát Jaccard thường sử dụng để đo lường độ tương đồng hai tập hợp, trường hợp đo lường độ tương đồng tập hợp điểm ảnh dự đoán tập hợp điểm ảnh thực tế ảnh Hàm mát Jaccard tính tốn tỉ lệ diện tích phần giao hai tập hợp diện tích phần hợp chúng Hàm mát Jaccard sử dụng để huấn luyện mơ hình phân đoạn đối tượng hàm mát Jaccard độc lập với kích thước đối tượng có độ phức tạp tính tốn thấp, phù hợp với ứng dụng thời gian thực 2.2.1.2 Mơ hình lọc theo luật (bộ lọc yếu) Như đề cập trên, hệ thống đề xuất dựa mơ hình mạng phân cấp, sau có danh sách hình bao 𝐼11 , lọc theo luật sử dụng lọc yếu nhanh để lọc bỏ nhiễu tập danh sách hình bao Bộ lọc dựa luật sử dụng bước xử lý sau cho mơ hình Nếu khơng có lọc dựa luật, tất hình bao tập danh sách hình bao 𝐼11 đầu vào mơ hình học sâu thứ hai để phân loại, điều gây tính tốn dư thừa giảm hiệu hệ thống Mỗi hình bao tập hình bao 𝐼11 chuyển qua lọc dựa luật ℎ#$%& () Bộ lọc theo luật mô tả công thức sau: ::::: 𝑂#$%& = ℎ#$%& (𝐼 BB) = {τ0 }, 𝑣ớ𝑖 𝑖 = 1, 𝑁 (2.4) 𝜏0 biểu thị hình bao thứ 𝑖 hình ảnh, 𝑂#$%& danh sách hình bao sau qua lọc theo luật 𝑁 số lượng hình bao tập 𝐼11 sau vào lọc 2.2.1.3 Mơ hình học sâu phân loại dựa mạng Mobilenet v3 (bộ lọc mạnh) Trong luận án này, phân loại dựa CNN sử dụng để phân biệt hố sụt thực với vật thể khác Phân loại hình ảnh cách sử dụng mơ hình CNN học chuyển tiếp bao gồm hai giai đoạn: huấn luyện dự đoán Trong giai đoạn huấn luyện, mơ hình CNN huấn luyện cách sử dụng tập liệu biết hình ảnh gán nhãn với kiểu tương ứng chúng Sau mơ hình học, chúng sử dụng để dự đoán loại đối tượng hình ảnh Trong số mơ hình CNN phổ biến, MobileNet mơ hình có tham số trì độ xác cạnh tranh so với mơ hình đại khác Mơ hình MobileNet chạy thiết bị di 2.3 Phát đường sạt lở ảnh thu từ UAV Hình 2.5 mơ tả luồng xử lý mơ hình đề xuất Sau phát đối tượng khu vực sạt lở tiềm năng, đối tượng đưa đến phân loại dựa học sâu để đưa kết luận cuối đường có sạt lở hay khơng Khối lọc theo luật triển khai trước phân loại học sâu sau khối phát đối tượng tiềm sạt lở ảnh Việc sử dụng lọc theo luật giảm tải tính tốn cho phân loại dựa học sâu tương tự tốn phát hố sụt trình bày phần trước Mơ hình đề xuất tốn phát sạt lở tuân theo tư tưởng mơ hình phân cấp bao gồm nhiều cấp lọc với vai trị khác Hình 2.5 Luồng xử lý hệ thống phát sạt lở đường 2.3.1 Phân đoạn đường Phân đoạn đường bước toàn hệ thống Sự kiện đường bị sạt lở thường dẫn đến đứt gãy đối tượng đường hình ảnh phân đoạn Do đó, phân đoạn đường giúp cho hệ thống có khả trích xuất đối tượng (khu vực) hình ảnh có khả đoạn đường bị sạt lở Để giải toán phân đoạn đường này, mơ hình SD-UNet sử dụng mơ hình bản, mơ hình chỉnh sửa thành phiên rút gọn với tham số hơn, qua đạt 12 hiệu suất cao phương pháp gốc u cầu lượng tính tốn lần Để đạt hiệu suất này, tất lớp mạng nhân chập tiêu chuẩn thay lớp phân tách theo chiều sâu (deepwise separable layer) Bằng cách này, tham số mơ hình U-Net giảm đáng kể Tuy nhiên, việc sử dụng lớp phân tách theo chiều sâu nhiều dẫn đến suy giảm hiệu so với lớp nhân chập tiêu chuẩn Do đó, phương pháp chuẩn hóa nhóm áp dụng đầu lớp ReLU để khôi phục, cải thiện hiệu cho mơ hình rút gọn Kiến trúc SD-UNet bao gồm khối SD-UNet thiết lập dựa lớp phân tách theo chiều sâu Một khối SD-UNet bao gồm: lớp phân tách theo chiều sâu với kích thước 3x3, lớp nhân chập với kích thước 1x1, lớp ReLU, lớp chuẩn hóa nhóm 2.3.2 Phát sạt lở mơ hình phân cấp 2.3.2.1 Trích xuất đối tượng tiềm sạt lở ảnh phân đoạn Ảnh sau phân đoạn dạng nhị phân gồm điểm ảnh đen điểm ảnh trắng Điểm ảnh đen đại diện cho nền, điểm ảnh trắng đại diện cho đường Do đặc thù sạt lở, đường vị trí sạt lở bị đứt gãy trở nên không liền mạch, thông thường sạt lở xảy ra, đường bị đứt gãy hồn tồn, có nghĩa điểm ảnh trắng đối tượng đường bị đứt gãy khơng liền mạch Mục đích bước xử lý trích xuất đối tượng tiềm sạt lở tìm tất vị trí đường bị đứt gãy để làm đầu vào mơ hình phân cấp Đầu bước xử lý tập hợp ảnh có khả sạt lở, ảnh biểu diễn dạng tensor 𝜏 chuẩn hóa kích thước 227x227 Gọi 𝐼%/ tập hợp 𝜏, ta có biểu diễn 𝐼%/ sau: ::::: 𝐼%/ = {τ0 }, 𝑣ớ𝑖 𝑖 = 1, 𝑁 (2.8) Hình Các bước q trình trích xuất đối tượng nghi ngờ sạt lở Để trích xuất tensor 𝜏 ảnh phân đoạn, bước xử lý ảnh triển khai theo sơ đồ khối Hình 2.6 Trong thực tế, tập hợp ảnh 𝐼%/ đầu bước xử lý tồn hai dạng tensor nhiễu cần phải loại bỏ để đạt độ xác cao nhất: Loại nhiễu thứ trình xử lý ảnh truyền thống, nhiễu cạnh trích xuất sai, tốn tử dilation làm dính số đối tượng, lấy tâm đường khơng hồn tồn xác Loại nhiễu thứ hai thực khơng thực nhiễu tensor ảnh sạt lở cuối mà mơ hình cần lấy Loại nhiễu xuất có đối tượng xe cộ lại đường, cối che lấp đường, hiệu ứng 13 ánh sáng camera gây Hai loại nhiễu xử lý mơ hình phân cấp, chặng lọc theo luật đề xuất, nhiễu loại thứ loại bỏ đây, nhiễu thứ cịn xót lại nhiễu thứ hai loại bỏ chặng thứ hai mơ hình học sâu phân loại đối tượng 2.3.2.2 Mơ hình phân cấp phát sạt lở Hình 2.7 Kiến trúc mơ hình phân cấp phát sạt lở Mơ hình phân cấp phát sạt lở đề xuất Hình 2.7 để xử lý đối tượng trích xuất từ trích xuất đối tượng tiềm sạt lở Sau lọc theo luật, tập hợp tensor lúc thu gọn lại so với tập hợp tensor lúc đầu 𝐼%/ Nếu coi lọc theo luật có cơng thức tổng qt ℎ#$%& , ta có tập hợp tensor lại sau lọc 𝑂#$%& theo luật sau: :::::::::: 𝑂#$%& = ℎ#$%& (𝐼%/ ) = {τ0 }, 𝑣ớ𝑖 𝑖 = 1, 𝑁#$%& (2.9) Trong đó, 𝑁#$%& số lượng tensor lại sau lọc theo luật 𝑁#$%& ≤ 𝑁 Cuối cùng, mạng học sâu dựa kiến trúc MobileNet v3 với số chỉnh sửa lớp cuối sử dụng để phân loại tensor lại sau lọc theo luật vào hai nhóm: sạt lở, khơng phải sạt lở Mơ hình MobileNet sử dụng hàm kích hoạt thay cho hàm kích hoạt cũ Hàm kích hoạt hswish dựa việc thay hàm kích sigmoid với tính tốn nặng hàm ReLU6 có tính tốn nhẹ 𝑠𝑤𝑖𝑠ℎ(𝑥) = 𝑥 𝜎(𝑥) (2.10) ℎ − 𝑠𝑤𝑖𝑠ℎ(𝑥) = 𝑥 7&:;) < (2.11) Giả sử mạng học sâu MobileNet v3 biểu diễn hàm ánh xạ từ tập hợp tensor sau lọc theo luật 𝑂#$%& thành tập hợp tensor chứa sạt lở 𝑂'% Ta biểu diễn tập hợp tensor chứa sạt lở theo công thức sau: ::::::: 𝑂'% = ℎ'% (𝑂#$%& ) = {τ0 }, 𝑣ớ𝑖 𝑖 = 1, 𝑁'% (2.12) Trong 𝑁'% số lượng tensor chứa đối tượng sạt lở cuối 𝑁'% ≤ 𝑁#$%& Lý lựa chọn mạng MobileNet v3 số mơ hình mạng phân loại đối tượng mạng MobileNet có lượng tính tốn khơng lớn, phù hợp cho ứng dụng triển khai thiết bị nhúng 2.3.3 Kết thực nghiệm 2.3.3.1 Bộ liệu LandslidePTIT Để phục vụ cho việc thử nghiệm hiệu mô hình đề xuất, NCS tiến hành tự xây dựng liệu LandslidePTIT Bộ liệu xây dựng dựa nguồn kết hợp sau: liệu tự thu thập khu vực miền núi huyện Nam Trà My, Quảng Nam; dự liệu thu thập internet; liệu sinh tự động từ liệu sạt lở ảnh đường không sạt lở Sự kiện sạt lở đường sau mưa lũ kiện bất thường gặp, liệu tự thu thập khơng nhiều đường di chuyển lên khu vực để thu liệu điều kiện mưa lũ tương đối nguy hiểm Tổng hợp lại, liệu bao gồm 1320 ảnh chứa ảnh sạt lở ảnh khơng có sạt lở Để thuận tiện cho việc đánh giá mơ hình, liệu chia làm hai phần theo tỉ lệ 14 8:2, 80% liệu ảnh dùng cho huấn luyện mô hình, 20% liệu ảnh (khơng chứa liệu ảnh sinh tự động) dùng việc đánh giá mơ hình Dựa liệu này, liệu sử dụng để huấn luyện mơ hình MobileNet phân loại đối tượng thuộc lớp (sạt lở, không sạt lở) lọc bước “trích xuất đối tượng tiềm sạt lở ảnh phân đoạn” Phần liệu chia thành nhóm tương ứng với hai kiện có sạt lở khơng có sạt lở, nhóm thứ ảnh đối tượng sạt lở, nhóm thứ hai ảnh đối tượng khơng phải sạt lở Dữ liệu bao gồm tổng cộng 1540 ảnh có 840 ảnh sạt lở 700 ảnh sạt lở Để huấn luyện mà đánh giá tính hiệu mơ hình MobileNet, phần liệu chia nhỏ thành hai nhóm liệu huấn luyện liệu đánh giá với tỉ lệ 8:2 MobileNet lọc mạnh đặt cuối mơ hình phân cấp nhằm mục đích phân loại đối tượng tiềm sạt lở thành đối tượng sạt lở hay đối tượng bình thường không chứa sạt lở 2.3.3.2 Kết thực nghiệm So sánh Bảng 2.2 đánh giá tổng thể tính hiệu mơ hình đề xuất Trên thực tế, mơ hình phân đoạn phân loại trực tiếp phát sạt lở ảnh mơ hình MobileNet, ResNet, VGGNet EfficientNet Các mơ hình thân có khả dự đoán kiện sạt lở ảnh Tuy nhiên, độ xác mơ hình khơng cao Các mơ hình sử dụng thực nghiệm so sánh có kiến trúc gốc cơng bố mơ hình tương ứng Để thuận lợi cho việc so sánh, tất siêu tham số mơ hình lấy từ cơng bố gốc Các mơ hình huấn luyện trước với liệu Imagenet, sau huấn luyện tiếp (transfer learning) với liệu LandslidePTIT Mơ hình đề xuất đạt điểm F1 cao 96,2%, cao 4,2% so với mơ hình thứ hai (YOLO) Hiệu suất từ phân đoạn đường với mơ hình FCN cộng với lọc theo luật với điểm F1 80,7% Những kết chứng minh mơ hình mạng phân cấp cần thiết để đạt hiệu suất cao việc phát kiện sạt lở đường từ hình ảnh đầu vào Bảng 2 So sánh hiệu phương pháp Method MobileNet ResNet-18 VGGNet EfficientNet YOLO Faster RCNN SSD U-Net + Bộ lọc theo luật SDNet + Bộ lọc theo luật FCN + Bộ lọc theo luật SD-Net + Bộ lọc theo luật + MobileNet 2.4 F1 score 0.822 0.852 0.841 0.835 0.92 0.91 0.893 0.814 0.823 0.807 0.962 Kết luận chương Dựa phân tích kiện bất thường tĩnh, chương trình bày mơ hình học sâu phân cấp cho phép phát kiện bất thường tĩnh thông qua việc phân tích đối tượng bất thường ảnh Do yếu tố không chuyển động đối tượng bất thường, mơ hình đề xuất áp dụng đối tượng ảnh trích xuất từ video giám sát Mơ hình học sâu phân cấp áp dụng vào toán phát kiện bất thường tĩnh có ưu điểm sau: - Mơ hình phân cấp cho độ xác cao so với mơ hình khác, đặc biệt trường hợp đối tượng bất thường xuất chiếm diện tích nhỏ ảnh 15 - Mơ hình phân cấp cho tốc độ cải thiện so với mơ hình huấn luyện từ đầu đến cuối (end-toend model) đối tượng nhiễu lọc qua chặng đầu mơ hình, làm giảm số lượng ảnh đối tượng tới phân loại - Mơ hình phân cấp khơng u cầu nhiều liệu cho việc huấn luyện mơ hình học sâu huấn luyện từ đầu đến cuối Những kết thực nghiệm thông qua hai liệu phát hố sụt, sạt lở chứng minh cho ưu điểm mơ hình phân cấp Những nội dung mơ hình phân cấp đề xuất chương tiền đề cho nghiên cứu sinh xây dựng mơ hình phân cấp để phát kiện bất thường tốn tổng qt hơn, tốn phát kiện bất thường động 16 CHƯƠNG ĐỀ XUẤT MƠ HÌNH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG ĐỘNG SỬ DỤNG MẠNG PHÂN CẤP 3.1 Mơ hình hệ thống Hình 3.1 Mơ hình mạng phân cấp phát đối tượng bất thường động Với khung ảnh, đối tượng quan tâm qua lọc theo luật để lọc đối tượng nhiễu Qua đó, từ khung ảnh đầu vào thời điểm 𝑡, chặng đầu mơ hình mạng phân cấp lọc tập hợp đối tượng quan tâm, bị nghi ngờ đối tượng kiện bất thường Các đối tượng (-) (-) cắt nhỏ từ ảnh gốc, với ký hiệu tập hợp đối tượng 𝑂0)?$- , ta có 𝑂0)?$- bao gồm tensor tương ứng với ảnh đối tượng cắt từ ảnh gốc (-) (-) ::::: 𝑂0)?$- = G𝜏0 H , 𝑣ớ𝑖 𝑖 = 1, 𝑁 (3.1) Với 𝑁 số lượng đối tượng quan tâm khung hình Trong trình bám vết đối tượng quan tâm Nếu đối tượng bám vết bị khỏi khung hình số lần liên tiếp khởi tạo bám vết lại từ đầu (-) Sau trích xuất bám vết, tập hợp 𝑂0)?$- thời điểm 𝑡 trở thành đầu vào để trích xuất vector (-) đặc trưng đối tượng quan tâm Ứng với 𝜏0 (-) ta trích xuất vector đặc trưng 𝑥0 Tập (-) hợp vector ký hiệu 𝑋()) , hàm ánh xạ sử dụng mạng nơ ron tích chập ℎ()) (), ta có cơng thức sau: (-) (-) (-) ::::: 𝑋()) = ℎ()) (𝑂 ) = G𝑥 H , 𝑣ớ𝑖 𝑖 = 1, 𝑁 (3.2) 0)?$- 17 Cuối cùng, vector đối tượng thời điểm khác (timestep) đưa vào mơ hình mạng hồi quy để nhận dạng đối tượng kiện bất thường cuối Giả sử số lượng bước thời gian phải sử dụng để đưa kết luận đối tượng bất thường 𝑇, với hàm ánh xạ từ mơ hình mạng nơ ron hồi quy ℎ#)) (), với đầu dự đoán cuối 𝑌 cho tập hợp đối tượng quan tâm bám vết Với đối tượng, kết dự đoán 𝑦0 (-) (-3!) (-3+@!) 𝑌 = ℎ#)) (𝑋()) , 𝑋()) , … , 𝑋()) ) = {𝑦0 }, 𝑣ớ𝑖 𝑖 = ::::: 1, 𝑁 (3.3) Sau kết luận xong đối tượng quan tâm, tồn thơng tin bám vết đối tượng khứ bước thời gian trước xóa bỏ thiết lập đối tượng Quá trình lặp lại để giám sát tất đối tượng bất thường có video 3.2 Phát lửa sử dụng mơ hình mạng phân cấp Hình 3.2 Mơ hình phát lửa video sử dụng mạng CNN-BiLSTM 18 Dựa mơ hình phân cấp mơ tả mục 3.1, mơ hình phát lửa phần kết hợp mơ hình phân cấp phát lửa ảnh đơn, bám vết trích xuất đặc trưng đối tượng, mạng BiLSTM cho phép liên kết đặc trưng đối tượng theo thời gian để đưa dự đốn xác đối tượng lửa Sở dĩ, mơ hình đề xuất chương khác so với phương pháp chương chỗ đối tượng bất thường có chuyển động theo thời gian thực để phân biệt đối tượng lửa thực với đối tượng khác Mơ hình đề xuất phát lửa mơ tả Hình 3.2 Hệ thống có khả theo dõi nhiều đối tượng lửa khung hình Đầu tiên, đối tượng lửa, đối tượng nghi ngờ lửa trích xuất sử dụng đặc trưng màu sắc đặc trưng chuyển động biên đối tượng Do đặc thù màu sắc chuyển động biên (hình dạng), đối tượng lửa đối tượng có khả lửa trích xuất làm đầu vào mơ hình phân cấp Sau bước lọc đối tượng này, mơ hình ResNet sử dụng để trích xuất đặc trưng khơng gian đối tượng nghi ngờ lửa Các đối tượng nghi ngờ lửa trích xuất từ phần trước bám vết đơn giản (sử dụng vị trí hình dạng đối tượng) qua khung hình để tạo thành chuỗi hình ảnh đối tượng Chuỗi hình ảnh đối tượng sau sử dụng để làm đầu vào cho mơ hình học sâu trích xuất đặc trưng thời gian BiLSTM 3.2.1 Trích xuất đặc trưng đối tượng nghi ngờ lửa khung ảnh Trong bước này, tất đối tượng nghi ngờ lửa khung hình trích xuất sử dụng đặc trưng màu sắc Ảnh màu ban đầu chuyển đổi sang không gian màu HSV (Hue - Saturation – Value of intensity), không gian màu có khả mơ tả màu sắc dễ dàng không gian màu khác thường sử dụng đầu vào cho phương pháp xử lý ảnh truyền thống Ngoài ra, đối tượng lửa chuyển động liên tục theo thời gian thực, đường viền đối tượng lửa thực xuất nhấp nháy liên tục, tạo lượng cho khu vực Dựa vào yếu tố này, đối tượng đặc trưng đường viền loại bỏ để đạt hiệu tốt cho lọc theo luật Đạo hàm theo thời gian độ chói khơng với khu vực tĩnh, khác khơng với khu vực chuyển động Do đó, đạo hàm hình ảnh video sử dụng để bám vết đối tượng di chuyển Tổng giá trị tuyệt đối đạo hàm tăng đối tượng di chuyển quanh khu vực Trong trường hợp đối tượng lửa, nhấp nháy quanh đường viền đối tượng lửa làm tăng liên tục giá trị điểm ảnh quanh khu vực lửa Dựa vào quan sát đồ lượng nhấp nháy đường viền xây dựng để lọc đối tượng có màu sắc giống lửa khơng phải lửa Trong kết cuối cùng, phép tính tốn hình thái học ảnh nhị phân eroding, dilating, opening closing sử dụng để chỉnh lại đối tượng lửa thành khối thống trích xuất đối tượng phục vụ cho bước sử dụng mơ hình ResNet trích xuất đặc trưng từ tập (-) hợp đối tượng Giả sử tập hợp đối tượng trích xuất thời điểm 𝑡 𝑂A0#& Mỗi đối tượng (-) đại diện hình ảnh cắt đối tượng thời điểm 𝑡 là 𝜏0 (-) (-) :::::: 𝑂A0#& = G𝜏0 H , 𝑣ớ𝑖 𝑖 = 1, 𝑁 (3.4) Với 𝑁 tổng đối tượng nghi ngờ lửa trích xuất bám vết từ khung ảnh Sau đó, tập hợp trích xuất đặc trưng mơ hình ResNet-18 Tập hợp đặc trưng thời (-) điểm t ký hiệu 𝑋#&/)&- bao gồm vector 256 chiều (-) (-) (-) 𝑋#&/)&- = ℎ#&/)&- (𝑂A0#& ) = G𝑥0 H , 𝑣ớ𝑖 𝑖 = ::::: 1, 𝑁 (3.5) Với ℎ#&/)&- () hàm ánh xạ đại diện cho mơ hình ResNet-18 bao gồm tham số mơ hình mạng (-) (-) nơ ron tích chập, sử dụng để biến đối ảnh đầu vào đối tượng 𝜏0 thành vector đặc trưng 𝑥0 Hàm ánh xạ sử dụng nhiều lần cho tất ảnh đối tượng nghi ngờ lửa xuất khung hình bám vết thời điểm 𝑡 bước thời gian khác Hàm ánh xạ sử dụng với tham 19 số huấn luyện trước cho tất ảnh đầu vào Kết thúc bước xử lý này, hệ thống có tập hợp đặc trưng tất đối tượng nghi ngờ lửa bám vết thời điểm 𝑡 tất bước thời gian từ hệ thống khởi chạy đến thời điểm 𝑡 (dữ liệu khứ) Toàn liệu cần thiết đưa đến mơ hình BiLSTM sau để đưa kết cuối 3.2.2 Trích xuất đặc trưng thời gian đối tượng sử dụng mơ hình BiLSTM Xem xét mội đối tượng 𝜏 danh sách đối tượng bám vết 𝑂A0#& Khi bám vết, vị trí tất đối tượng ảnh khung ảnh liền kề trích xuất, từ ảnh tương ứng đối tượng ứng với khung ảnh gốc trích xuất Giả sử mơ hình BiLSTM (bao gồm lớp LSTM xếp chồng lên nhau) phải dùng tới 𝑇 bước thời gian để dự đốn đối tượng có phải lửa hay khơng Khi đó, tế bào LSTM lớp nhận vector đặc trưng đối tượng 𝜏 bước thời gian làm đầu vào Một cụm vector đặc trưng đẩy vào tế bào lớp LSTM kí hiệu 𝑋BC-(D , với thời gian bước thời gian 𝑡 𝑋BC-(D = L𝑥 (-@+3!) , 𝑥 (-@+3!) , … , 𝑥 (-) M (3.6) Với đầu vào 𝑋BC-(D , hoạt động mơ hình LSTM giải thích Hình 3.7 Hình 3.3 Hoạt động mạng LSTM Hình 3.7b mơ tả lại hoạt động mơ hình BiLSTM Đầu vào lớp 𝑋BC-(D , giả sử xét cho thời điểm 𝑡 Đầu vào tế bào lớp LSTM thời điểm 𝑡 𝑥 (-) Trong đó, đầu vào cho tế bào thời điểm t lớp LSTM thứ hai trạng thái ẩn bước thời gian trước (-@!) (-) ℎ" đầu tế bào lớp LSTM ℎ! thời điểm 𝑡 Một điểm mạnh mơ hình BiLSTM ngồi việc sử dụng thơng tin bước thời gian trước đó, mơ hình có khả sử dụng thông tin bước thời gian tương lại để dự đoán kết cuối 3.2.3 Bộ liệu lửa video FirePTIT Dữ liệu liệu FirePTIT thu thập video giám sát đặt khu vực không phép có xuất lửa Các hệ thống camera thiết lập khu vực giám sát để trực tiếp thu thập video Mục đích xây dựng liệu để phục vụ đánh giá, so sánh mơ hình nghiên cứu sinh đề xuất với mơ hình khác Sau đó, liệu công bố công khai cho nghiên cứu sau sử dụng tiêu chuẩn để đánh giá, so sánh Tổng hợp lại, tập liệu thu thập phần bao gồm 1032 video có 532 video chứa lửa khung hình Xét mặt kích thước đối tượng lửa, video chứa lửa phân chia vào nhóm lửa nhỏ, lửa vừa, lửa lớn Lửa nhỏ 20 đối tượng lửa chiếm vài điểm ảnh ảnh, lửa lớn đối tượng lửa chiếm lớn 1/3 kích thước ảnh Việc thống kê theo kích thước cho thấy độ đa dạng thống kê đối tượng lửa liệu Tập liệu chia làm hai phần, phần lớn liệu sử dụng để huấn luyện mơ hình, phần nhỏ liệu cịn lại đưa vào tập liệu kiểm tra Trong trình huấn luyện, mơ hình khơng sử dụng liệu tập kiểm tra mà sử dụng liệu tập huấn luyện để tăng tính khách quan mơ hình phát lửa 3.2.4 Kết thực nghiệm Tất thực nghiệm đánh giá mơ hình tiến hành phần cứng có cấu hình CPU: i9; GPU: Nvidia Geforce RTX2070 Super chạy hệ điều hành windows 10 Các mơ hình triển khai đánh giá, so sánh với mơ hình đề xuất mơ hình [15], [10], [16], [17], [18] Trong video mà đối tượng lửa xuất với kích thước lớn, rõ ràng, hầu hết mơ hình có khả trích xuất đặc trưng hình ảnh tốt để phát lửa cách rõ ràng khung hình Tuy nhiên, với đối tượng lửa nhỏ trung bình khoảng cách xa, mà đặc trưng bật lửa không rõ ràng so với đối tượng khác, mơ hình hoạt động khơng tốt Những mơ hình phát đối tượng lửa nhỏ Ngoài ra, cảnh báo giả vấn đề mà hầu hết mơ hình gặp phải, đối tượng có hình dạng màu sắc giống lửa làm cho mơ hình nhầm lẫn với đối tượng lửa thực Đặc biệt, có trường hợp, chí mắt người khó phân biệt lửa đối tượng khác khung hình đơn Khi hệ thống phải liên kết khung liên thời gian để trích xuất đặc trưng thời gian làm sở cho việc phân tích phát đối tượng lửa cách xác Với video dạng này, mơ hình dựa phân tích hình ảnh khung ảnh đơn phát lửa Mơ hình [17] phát lửa sử dụng đặc trưng màu sắc chuyển động Sau đó, biến đổi thời gian độ sáng đối tượng lửa phân tích thêm để loại bỏ cảnh báo giả Mơ hình dựa hồn tồn ngưỡng cố định, đó, khó khăn cho mơ hình chọn ngưỡng phù hợp cho nhiều ngữ cảnh khác với trường hợp sử dụng thực tế Việc chọn lựa ngưỡng phải cân hai thông số tỉ lệ phát lửa tỉ lệ cảnh báo giả Nếu tỉ lệ phát lửa tốt tỉ lệ cảnh báo giả cao, ngược lại ngưỡng lựa chọn để giảm tỉ lệ cảnh báo giả tỉ lệ phát lửa bị giảm Kết Bảng 3.5 cho thấy, mơ hình có khả phát tốt lửa tỉ lệ cảnh báo giả cao Tương tự, mơ hình [10] sử dụng đặc trưng màu sắc biến đổi thời gian để phát lửa Mơ hình [17] sử dụng biến đổi wavelet 1D biến đổi wavelet 2D cho đặc trưng thời gian không gian để loại bỏ cảnh báo giả Kết bảng 3.4 cho thấy mơ hình gặp vấn đề có kết cảnh báo giả nhiều Tác giả [15] sử dụng mơ hình mạng nơ ron tích chập để phát lửa trực tiếp từ khung hình Tuy nhiên, mạng nơ ron tích chập có khả mơ hình hóa đặc trưng khơng gian, thiếu đặc trưng thời gian mô tả biến đổi hình dạng đối tượng động qua khung hình liên tiếp Do đó, mơ hình khơng cho độ xác cao, lại có tỉ lệ cảnh báo giả tương đối khơng cao hai mơ hình [10] [17] Tác giả [18] sử dụng đặc trưng màu biến đổi biên đối tượng lửa để phát lửa, sau mơ hình mạng phân cấp dựa mạng nơ ron tích chập sử dụng kết cuối Mơ hình cải thiện yếu điểm mơ hình trước, nhiên với đối tượng nhỏ xa đối tượng trơng giống lửa mơ hình khơng hoạt động tốt mơ hình chưa tận dụng đặc trưng thời gian thơng qua biến đổi hình dạng đối tượng lửa khung hình Để giải vấn đề này, mơ hình [16] áp dụng mạng kết hợp CNN-LSTM để phát đối tượng lửa Tuy nhiên, mơ hình nhận ảnh đầu vào ảnh gốc lấy trực tiếp từ luồng video Do đó, mơ hình gặp hạn chế phát đối tượng nhỏ hình, với đối tượng có hình dạng giống đối tượng lửa mơ hình cho cảnh báo giả 21 Bảng So sánh độ xác với phương pháp khác Phương pháp XiaoJun Qi [17] Toyerin [10] NVHuan [16] DungNM [18] Sharma [15] CNN-BiLSTM (đề xuất) 3.3 Precision 0,78 0,78 0,87 0,89 0,86 0,92 Recall 0,81 0,8 0,84 0,85 0,81 0,91 F1 score 0,794 0,789 0,854 0,867 0,843 0,915 Kết luận chương Chương trình bày mơ hình học sâu phân cấp cho phép phát kiện bất thường động thông qua việc kết hợp đặc trưng không gian đặc trưng thời gian thông qua việc liên kết khung hình video Việc áp dụng mạng học sâu trích xuất đặc trưng thời gian vào mơ hình phân cấp cho phép đối tượng bất thường động phát cách xác theo thời gian thực Mơ hình học sâu phân cấp áp dụng vào toán phát kiện bất thường động có ưu điểm sau: - Mơ hình phân cấp cho độ xác cao so với mơ hình khác thơng qua việc sử dụng đặc trưng thời gian để mơ hình hóa biến đổi hình dạng, vị trí đối tượng bất thường khung hình liên tiếp - Giống mơ hình phân cấp phát kiện bất thường tĩnh, mơ hình phân cấp khơng u cầu nhiều liệu cho việc huấn luyện mơ hình học sâu huấn luyện từ đầu đến cuối - Mơ hình phân cấp cho nhận dạng bất thường động cho hiệu cao mơ hình phân cấp cho nhận dạng bất thường tĩnh áp dụng vào nhận dạng bất thường động Tuy nhiên, áp dụng mơ hình phân cấp cho nhận dạng bất thường động, kỹ thuật bám vết cần phải áp dụng để xác định lịch sử di chuyển đối tượng khung hình, đó, tốc độ xử lý mơ hình phân cấp cho nhận dạng bất thường động chậm 22 KẾT LUẬN Mục đích luận án nghiên cứu đề xuất mơ hình học sâu phân cấp để cải thiện hiệu năng, tốc độ xử lý cho nhận dạng, phát kiện bất thường hệ thống giám sát camera Hệ thống giám sát thu thập hình ảnh từ khu vực cần quan tâm, liệu sau xử lý mơ hình mạng học sâu phân cấp Luận án tập trung đề xuất mơ hình mạng học sâu phân cấp thử nghiệm mơ hình học phân cấp cho phát hiện, nhận dạng kiện bất thường Mơ hình mạng học sâu phân cấp áp dụng để nhận dạng, phát kiện bất thường cải thiện hiệu tốc độ xử lý so với mơ hình khác Đặc biệt, kiện bất thường kiện xảy ra, đó, liệu để huấn luyện khơng có q nhiều, dẫn đến mơ hình học sâu huấn luyện từ đầu đến cuối khơng hiệu Mơ hình phân cấp trách việc sử dụng nhiều liệu mà đảm bảo hiệu xử lý việc kết hợp kỹ thuật xử lý ảnh truyền thống kỹ thuật học sâu Để thử nghiệm, đánh giá mơ hình phân cấp, luận án này, nghiên cứu sinh thu thập hai liệu liệu phát sạt lở đường LandslidePTIT, liệu phát lửa FirePTIT Các kết đánh giá hai liệu chứng tỏ mơ hình phân cấp cho hiệu cao giữ tốc độ xử lý nhanh đáp ứng tính thời gian thực hệ thống nhúng Tuy đạt kết khả quan bước đầu việc thử nghiệm liệu, mơ hình đề xuất cịn vài hạn chế khắc phục nghiên cứu tương lai Mơ hình đề xuất chưa có khả huấn luyện từ đầu đến cuối (end-to-end) làm cho việc xây dựng nhãn cho liệu gặp nhiều khó khăn Mơ hình đề xuất chưa tính đến yếu tố ngữ cảnh xung quanh đối tượng bất thường để tăng hiệu nhận dạng Việc nghiên cứu thêm đặc trưng đặc thù loại đối tượng bất thường cần thiết để tăng tính hiệu mơ hình Ngồi ra, nội dung luận án chưa đánh giá mức độ thiếu liệu kiện bất thường ảnh hưởng lên kết cuối Hướng phát triển nghiên cứu tương lai 1) Một số chủ đề tiềm mở rộng từ nghiên cứu luận án này, sử dụng mơ hình phân cấp, kiện bất thường người nghiên cứu ngữ cảnh phối hợp hoạt động camera cảm biến đeo Khi mơ hình kết hợp nguồn liệu đặt bối cảnh mơ hình phân cấp, nâng cao hiệu nhận dạng 2) Mô hình mạng phân cấp kết hợp với ngữ cảnh để nâng cấp lọc yếu 3) Nghiên cứu phương pháp học máy để giải tốn liệu few-shot learning sinh liệu 23 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ [CT1] Hoai, Nam Vu, Nguyen Manh Dung, and Soonghwan Ro "Sinkhole detection by deep learning and data association." In 2019 Eleventh International Conference on Ubiquitous and Future Networks (ICUFN), pp 211-213 IEEE, 2019 [CT2] Vu, Hoai Nam, Cuong Pham, Nguyen Manh Dung, and Soonghwan Ro "Detecting and tracking sinkholes using multi-level convolutional neural networks and data association." IEEE Access (2020): 132625-132641 [CT3] Vu, Hoai Nam, Huong Mai Nguyen, Cuong Duc Pham, Anh Dat Tran, Khanh Nguyen Trong, Cuong Pham, and Viet Hung Nguyen "Landslide Detection with Unmanned Aerial Vehicles." In 2021 International Conference on Multimedia Analysis and Pattern Recognition (MAPR), pp 1-7 IEEE, 2021 [CT4] Tran-Anh, Dat, Bao Bui-Quoc, Anh Vu-Duc, Trung-Anh Do, Hung Nguyen Viet, Hoai-Nam Vu, and Cong Tran "Integrative Few-Shot Classification and Segmentation for Landslide Detection." IEEE Access 10 (2022): 120200-120212 [CT5] Vu, Hoai Nam, Anh Dat Tran, Manh Dung Nguyen, Bokgil Choi, and Soonghwan Ro "Investigation of Deep Learning Method for Fire Detection from Videos." In 2021 International Conference on Information and Communication Technology Convergence (ICTC), pp 593-595 IEEE, 2021 [CT6] Nguyen, Manh Dung, Hoai Nam Vu, Duc Cuong Pham, Bokgil Choi, and Soonghwan Ro "Multistage real-time fire detection using convolutional neural networks and long short-term memory networks." IEEE Access (2021): 146667-146679 [CT7] Nguyen-Trong, Khanh, Hoai Nam Vu, Ngon Nguyen Trung, and Cuong Pham "Gesture recognition using wearable sensors with bi-long short-term memory convolutional neural networks." IEEE Sensors Journal 21, no 13 (2021): 15065-15079 [CT8] Nam, Vu Hoai, and Phạm Văn Cường "Nhận dạng ngôn ngữ ký hiệu Tiếng Việt Video LSTM I3D đa khối." Journal of Science and Technology on Information and Communications 1, no (2020): 115-123 [CT9] Vu, Hoai Nam, Mai Huong Nguyen, and Cuong Pham "Masked face recognition with convolutional neural networks and local binary patterns." Applied Intelligence 52, no (2022): 5497-5512 24 TÀI LIỆU THAM KHẢO [1] F Jiang, Y Wu, and A K Katsaggelos, “Abnormal Event Detection from Surveillance Video by Dynamic Hierarchical Clustering,” in 2007 IEEE International Conference on Image Processing, San Antonio, TX, USA: IEEE, 2007, p V-145-V–148 doi: 10.1109/ICIP.2007.4379786 [2] E Weber et al., “Detecting Natural Disasters, Damage, and Incidents in the Wild,” in Computer Vision – ECCV 2020, A Vedaldi, H Bischof, T Brox, and J.-M Frahm, Eds., in Lecture Notes in Computer Science, vol 12364 Cham: Springer International Publishing, 2020, pp 331–350 doi: 10.1007/9783-030-58529-7_20 [3] O Elharrouss, N Almaadeed, and S Al-Maadeed, “A review of video surveillance systems,” J Vis Commun Image Represent., vol 77, p 103116, May 2021, doi: 10.1016/j.jvcir.2021.103116 [4] L Lopez-Fuentes, J van de Weijer, M González-Hidalgo, H Skinnemoen, and A D Bagdanov, “Review on computer vision techniques in emergency situations,” Multimed Tools Appl., vol 77, no 13, pp 17069–17107, Jul 2018, doi: 10.1007/s11042-017-5276-7 [5] G F Shidik, E Noersasongko, A Nugraha, P N Andono, J Jumanto, and E J Kusuma, “A Systematic Review of Intelligence Video Surveillance: Trends, Techniques, Frameworks, and Datasets,” IEEE Access, vol 7, pp 170457–170473, 2019, doi: 10.1109/ACCESS.2019.2955387 [6] M Yu et al., “Spatiotemporal event detection: a review,” Int J Digit Earth, vol 13, no 12, pp 1339–1365, Dec 2020, doi: 10.1080/17538947.2020.1738569 [7] A Adam, E Rivlin, I Shimshoni, and D Reinitz, “Robust Real-Time Unusual Event Detection using Multiple Fixed-Location Monitors,” IEEE Trans Pattern Anal Mach Intell., vol 30, no 3, pp 555– 560, Mar 2008, doi: 10.1109/TPAMI.2007.70825 [8] G Chen et al., “NeuroAED: Towards Efficient Abnormal Event Detection in Visual Surveillance With Neuromorphic Vision Sensor,” IEEE Trans Inf Forensics Secur., vol 16, pp 923–936, 2021, doi: 10.1109/TIFS.2020.3023791 [9] P V K Borges and E Izquierdo, “A Probabilistic Approach for Vision-Based Fire Detection in Videos,” IEEE Trans Circuits Syst Video Technol., vol 20, no 5, pp 721–731, May 2010, doi: 10.1109/TCSVT.2010.2045813 [10] B U Töreyin, Y Dedeoğlu, U Güdükbay, and A E Çetin, “Computer vision based method for realtime fire and flame detection,” Pattern Recognit Lett., vol 27, no 1, pp 49–58, Jan 2006, doi: 10.1016/j.patrec.2005.06.015 [11] S S Beauchemin and J L Barron, “The computation of optical flow,” ACM Comput Surv., vol 27, no 3, pp 433–466, Sep 1995, doi: 10.1145/212094.212141 [12] O Ronneberger, P Fischer, and T Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation,” in Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, N Navab, J Hornegger, W M Wells, and A F Frangi, Eds., in Lecture Notes in Computer Science, 25 vol 9351 Cham: Springer International Publishing, 2015, pp 234–241 doi: 10.1007/978-3-31924574-4_28 [13] A Howard et al., “Searching for MobileNetV3,” 2019, doi: 10.48550/ARXIV.1905.02244 [14] E J Lee, S Y Shin, B C Ko, and C Chang, “Early sinkhole detection using a drone-based thermal camera and image processing,” Infrared Phys Technol., vol 78, pp 223–232, Sep 2016, doi: 10.1016/j.infrared.2016.08.009 [15] J Sharma, O.-C Granmo, M Goodwin, and J T Fidje, “Deep Convolutional Neural Networks for Fire Detection in Images,” in Engineering Applications of Neural Networks, G Boracchi, L Iliadis, C Jayne, and A Likas, Eds., in Communications in Computer and Information Science, vol 744 Cham: Springer International Publishing, 2017, pp 183–193 doi: 10.1007/978-3-319-65172-9_16 [16] H V Nguyen, T X Pham, and C N Le, “Real-time long short-term glance-based fire detection using a CNN-LSTM neural network,” Int J Intell Inf Database Syst., vol 14, no 4, p 349, 2021, doi: 10.1504/IJIIDS.2021.118545 [17] X Qi and J Ebert, “A computer vision based method for fire detection in color videos,” Int J Imaging, vol 2, no S09, pp 22–34, 2009 [18] N M Dung and S Ro, “Algorithm for Fire Detection using a Camera Surveillance System,” in Proceedings of the 2018 International Conference on Image and Graphics Processing - ICIGP 2018, Hong Kong, Hong Kong: ACM Press, 2018, pp 38–42 doi: 10.1145/3191442.3191450 26

Định dạng
Số trang	28
Dung lượng	2,06 MB