Tiểu luận phương pháp phân tích video thông minh phát hiện sự kiện bất thường trong hệ thống giao thông thông minh

TRƯỜNG ĐẠI HỌC GIAO THƠNG VẬN TẢI TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN PHƯƠNG PHÁP PHÂN TÍCH VIDEO THƠNG MINH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TRONG HỆ THỐNG GIAO THÔNG THÔNG MINH Học phần: Chuyên đề hệ thống giao thông thông minh Chuyên ngành: Công nghệ thông tin Sinh viên thực hiện: Phạm Văn Trọng 1951120156 Lớp CN19B Hồ Ngọc Tài 1951120133 Lớp CN19B Phạm Ngọc Phong 1951120120 Lớp CN19B Giảng viên hướng dẫn: ThS Trần Anh Quân TP Hồ Chí Minh, năm 2022 LỜI MỞ ĐẦU Ngày nay, với bùng nổ khoa học kỹ thuật công nghệ thông tin, tốc độ thị hố ngày phát triển, nhu cầu lại người ngày cao Tuy nhiên cở sở hạ tầng, hệ thống giao thông chưa đáp ứng đủ nhu cầu Hiện tượng ùn tắc xảy thường xuyên, liên tục hầu khắp tuyến phố, môi trường ngày ô nhiễm Hàng ngày xảy vụ tai nạn thương tâm Trước bách địi hỏi phải có giải pháp để giải vấn đề nói Hệ thống giao thơng thơng minh (ITS- Intelligent Transport System) đời để đáp ứng thực Tại nước phát triển Mỹ, Trung Quốc, Pháp, Nhật Bản , khái niệm “Hệ thống giao thơng thơng minh” khơng cịn xa lạ Cụ thể, việc đưa công nghệ cao thông tin - truyền thông ứng dụng vào sở hạ tầng phương tiện giao thông (chủ yếu ô tô), tối ưu hoá quản lý, điều hành nhằm giảm thiểu ùn tắc, tai nạn, tăng cường lực vận tải hành khách, phát cố giao thông để giải cố kịp thời tốt Tất thứ giúp cải thiện rõ rệt tình hình giao thơng Con người ngày thoải mái đường khơng cịn chứng kiến cảnh tắc đường số Đây lý nhóm chúng em chon báo “An Intelligent Video Analysis Method for Abnormal Event Detection in Intelligent Transportation Systems” để làm đề tài tiểu luận kết thúc học phần chuyên đề hệ thống giao thông thông minh MỤC LỤC CHƯƠNG 1: TỔNG QUAN 1.1 Tổng quan hệ thống giao thông thông minh 1.1.1 Lịch sử đời phát triển ITS 1.1.2 Khái niệm hệ thống giao thông thông minh 1.1.3 Một số dự án ứng dụng ITS thành phố 1.2 Tổng quan đề tài nghiên cứu 1.2.1 Khái quát 1.2.2 Giới thiệu đề tài CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 10 2.1 Truy xuất kiện video dài 10 2.2 Mô tả ngữ nghĩa video 11 2.3 Tạo phụ đề cho video với trả lời câu hỏi 13 CHƯƠNG 3: ĐỀ XUẤT PHƯƠNG PHÁP 17 3.1 Phát khung hình thừa video dài 17 3.2 Trích xuất SOI dựa phân đoạn siêu khung 17 3.3 Trích xuất đặc điểm trực quan 19 3.4 Chuyển đổi vectơ từ ngữ văn câu hỏi 20 3.5 Sự kết hợp đặc điểm trực quan vectơ văn 21 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ PHÂN TÍCH 23 4.1 Đánh giá thuật tốn phân đoạn siêu khung hình video dài 23 4.2 Kết hợp văn câu hỏi truy xuất kiện 26 CHƯƠNG 5: KẾT LUẬN VÀ NHẬN XÉT 29 5.1 Kết luận nghiên cứu 29 5.2 Nhìn nhận người đọc nghiên cứu 30 TÀI LIỆU THAM KHẢO 31 i DANH MỤC CÁC TỪ VIẾT TẮT CNN Convolutional Neural Network DAQUAR Dataset for Question Answering on Real-world images DT – RNN Decision Tree – Recurrent Neural Network IEEE Institute of Electrical and Electronics Engineers ITS Intelligent Transportation Systems ITSS Intelligent Transportation Systems Society LPF Low-Pass Filter LSTM Long Short Term Memory MQA Manipulation Question Answering QA SH-DPP Question Answering Sequential and Hierarchical Determinantal Point Process SOI Segments of Interest VGG Visual Geometry Group VQA Visual Question Answering ii DANH MỤC CÁC HÌNH ẢNH Số hiệu hình ảnh Tên hình ảnh Trang Hình Hệ thống camera giám sát giao thông đô thị Hình Trạm kiểm tra tải trọng xe Hình Tổng quan tóm tắt video Các khu vực thú vị xác định phân đoạn siêu khung Mỗi phân đoạn thích Tất thích đưa vào mơ-đun tóm tắt văn [1] Hình Hình Phương pháp tác giả tạo tóm tắt dựa câu chuyện từ video không chỉnh sửa Một đoạn video Spiderman, cảnh quay thứ tất hành động ném dội ghi lại khung chọn ảnh Trong cảnh quay thứ hai, máy ảnh phóng to gần với quái vật trước Nó phù hợp để kiểm tra mạnh mẽ thuật tốn tác giả mơi trường chuyển động cao Hình Phân đoạn video dài truy xuất kiện cụ thể Hình Minh họa video câu tác giả nhúng Thành phần màu cam mơ hình nhúng câu có câu hình ảnh web tương ứng đầu vào Mơ hình nhúng video biểu thị thành phần màu xanh 10 Hình Khung từ hai clip trả cho truy vấn khắp nhà bếp Điểm bắt đầu quỹ đạo có màu xanh cây, điểm cuối màu đỏ 11 Hình Phân cụm hướng dẫn lời nói 11 Hình 10 Tóm tắt video tập trung vào truy vấn cách tiếp cận tác giả vấn đề 12 Hình 11 Tổng quan khung đánh giá video 12 Hình 12 Hình 13 Hình 14 Các mẫu hình ảnh, câu hỏi liên quan câu trả lời theo tảng, câu trả lời mơ hình CNN đề xuất Minh họa kiến trúc mơ hình MQA, phương pháp sử dụng CNN LSTM để đưa câu trả lời có tính xác phương pháp sử dụng CNN Hệ thống thị giác máy xử lý hình ảnh thành lớp khác iii 14 14 15 Hình 15 Hình 16 Hình 17 Câu hỏi mẫu câu trả lời loạt mô hình : Ví dụ câu hỏi (đen), (một tập hợp của) câu trả lời đưa nhìn vào hình ảnh (màu xanh cây) câu trả lời đưa khơng Nhìn vào hình ảnh (màu xanh) cho nhiều ví dụ đại diện liệu Phân đoạn video dài thành phân đoạn thuật toán phân đoạn siêu khung 15 16 19 Hình 18 Các đường dẫn mơ hình trả lời câu hỏi trực quan 21 Hình 19 Xác định phân đoạn thú vị từ video dài 24 Hình 20 Nhận dạng SOI từ đoạn video dài đường phố 24 Hình 21 Xác định SOI từ video dài cảnh trường học 25 Hình 22 Bảng đánh giá đặc điểm đường phố phức tạp liệu SumMe 26 Hình 23 Các bước trích xuất mô tả kiện từ số phân đoạn video 26 Hình 24 Q trình truy xuất trích xuất phân đoạn video tương ứng từ số phân đoạn video 27 Hình 25 Bảng kết thử nghiệm tập liệu tiêu chuẩn DAQUAR-ALL 28 iv CHƯƠNG 1: TỔNG QUAN 1.1 Tổng quan hệ thống giao thông thông minh 1.1.1 Lịch sử đời phát triển ITS ITS (Intelligent Transport System) khái niệm xuất phát từ Nhật Bản, năm 1980 ITS xúc tiến dự án quốc gia Nhật Bản Từ năm 1993, Hội nghị ITS quốc tế tổ chức hàng năm với tham gia chuyên gia lĩnh vực giao thông vận tải đại diện cho quốc gia hãng danh tiếng giới sản xuất vật liệu mới, thiết bị thông tin đại, ô tô, tầu hỏa loại phương tiện giao thông khác Hội nghị ITS quốc tế lần thứ 13 tổ chức London từ ngày 12/10/2006 Các chủ đề thảo luận hội thảo an toàn giao thông, hạn chế ô nhiễm môi trường, chống ùn tắc giao thông, sản xuất phương tiện giao thông thông minh, thiết bị an tồn giao thơng Qua thấy: ITS khai thác khả cơng nghệ tiên tiến sẵn có nhiều lĩnh vực nhằm cải thiện giao thông với mức độ khác Thời gian qua, số nước châu Âu, châu Mỹ, châu Á, khu vực ASEAN đặc biệt thành phố Bangkok - Thailand việc triển khai ITS có thành cơng định góp phần giải ách tắc giao thông đô thị nâng cao lực vận tải Tại đó, người ta thành lập quan điều hành Ví dụ Mỹ có Văn phịng điều phối chung chương trình ITS trực thuộc Cục Đường Liên bang - Bộ GTVT Ở Việt Nam bước tiếp cận, nghiên cứu, vận dụng ITS vào lĩnh vực: Thu phí đường bộ; Kiểm sốt tải trọng tô tải nặng; Sát hạch lái xe Một loạt đề tài nghiên cứu khoa học triển khai thu kết khả quan Điển hình hệ thống thiết bị thu phí đường lắp đặt, thử nghiệm xa lộ An SươngAn Lạc; Thiết bị sát hạch lái xe tự động (chương trình KT-KT) thành công Phú Thọ, Bắc Ninh, Đà Nẵng nhiều tỉnh thành nước 1.1.2 Khái niệm hệ thống giao thông thông minh ITS (Intelligent Transport System) ứng dụng công nghệ cao điện tử tin học viễn thông để điều hành quản lý hệ thống giao thông vận tải ITS coi hệ thống lớn, người, phương tiện giao thông, mạng lưới đường giao thông thành phần hệ thống, liên kết chặt chẽ với ITS hoạch định để giảm bớt tắc nghẽn giao thơng, bảo đảm an tồn, giảm nhẹ tác động xấu tới môi trường, tăng cường lực vận tải hành khách Không lĩnh vực giao thông đường bộ, ITS cịn áp dụng với hàng khơng, đường sắt, đường sông đường biển; song đa dạng hiệu giao thông vận tải đô thị Hệ thống giao thông thông minh (ITS) hệ thống giao thông áp dụng hồn hảo cơng nghệ tiên tiến phần mềm máy tính vào thiết bị kiểm sốt, dẫn, điều khiển, thông tin liên lạc để nâng cao lực giao thông tuyến đường loại hình vận tải 1.1.3 Một số dự án ứng dụng ITS thành phố Việt Nam có Lộ trình ứng dụng ITS, Bộ GTVT ban hành, chia làm giai đoạn: giai đoạn đến năm 2015, giai đoạn từ 2015 đến 2020 giai đoạn từ 2020 đến 2030 Mục tiêu lộ trình là: Tiêu chuẩn hố ITS tồn quốc; Quy hoạch xây dựng trung tâm điều hành kiểm sốt giao thơng khu vực Bắc, Trung, Nam; xây dựng hoàn thiện ứng dụng, hệ thống ITS Nội dung cụ thể giai đoạn trình bày bảng 1.1 Một số dự án ITS triển khai thành phố lớn Hà Nội, TP Hồ Chí Minh, Đà Nẵng,…, ứng dụng ITS hệ thống đường cao tốc khẩn trương thực Bên cạnh số hệ thống giám sát giao thơng phục vụ công tác quản lý đưa vào ứng dụng Tại Hà Nội, Trung tâm Điều khiển giao thơng thức đưa vào hoạt động từ năm 2000 với hệ thống thiết bị hãng SAGEM điều khiển đèn tín hiệu giao thơng Chính phủ Pháp tài trợ Có thể nói ứng dụng công nghệ ITS khu vực đô thị Việt Nam Đến nay, trung tâm nâng cấp nhiều lần hoạt động hiệu quả, góp phần giám sát, điều hành giao thơng tồn thành phố Đề án thí điểm xây dựng mơ hình quản lý Đại lộ Thăng Long với hình thành Trung tâm Quản lý đường cao tốc Hà Nội Trung tâm quản lý an tồn giao thơng, tiếp cận xử lý tai nạn giao thông biện pháp phịng ngừa; quản lý hệ thống thơng tin; thực công tác bảo hành, sửa chữa… Trung tâm ứng dụng công nghệ thông tin đại quản lý đếm, phân loại phương tiện giao thông tự động; hệ thống camera giám sát; hệ thống bảng thơng báo điện tử; kiểm sốt xe q tải, khổ… Tại Đà Nẵng, Sở GTVT Đà Nẵng phối hợp với IBM xây dựng chương trình ITS cho tồn thành phố Trung tâm Điều hành đèn tín hiệu giao thông vận tải công cộng TP Đà Nẵng tiến hành lắp đặt hệ thống camera giám sát giao thông, hỗ trợ giám sát, điều hành giúp lực lượng công an giám sát vi phạm tiến tới thực “xử phạt nguội” Dự án xây dựng nâng cấp hệ thống tín hiệu điều khiển giao thông TP Đà Nẵng, thực từ năm 2004 đến năm 2012 từ nguồn vốn ODA Tây Ban Nha, tiến hành điều khiển phối hợp nút giao thơng số tuyến đường theo hình thức “làn sóng xanh” Tại Tp.Hồ Chí Minh, trung tâm điều khiển giao thông xây dựng Hệ thống camera giám sát giao thông lắp đặt Thành phố thực chương trình “Ứng dụng Khoa học cơng nghệ giảm ùn tắc giao thơng giai đoạn 2013-2015 tầm nhìn đến 2020” nhằm “Nghiên cứu thử nghiệm đưa vào ứng dụng giải pháp công nghệ cho ITS nhằm nâng cao hiệu khai thác phát triển hệ thông sở hạ tầng giao thông hữu địa bàn thành phố, góp phần giải tình trạng ùn tắc giao thông” Việc sử dụng hệ thống radio VOV giao thông việc thu thập, cung cấp thông tin, điều tiết giao thông mang lại nhiều hiệu tích cực Thủ Hà Nội, Hầm đường Hải Vân Đây phương thức đơn giản hiệu quả, góp phần hạn chế ùn tắc giao thông đô thị khu vực trọng điểm Hình Hệ thống camera giám sát giao thơng thị Hình Trạm kiểm tra tải trọng xe 1.2 Tổng quan đề tài nghiên cứu 1.2.1 Khái quát Mỗi hệ thống giao thông thông minh triển khai rộng rãi hàng nghìn máy quay camera đảm nhiệm nhiệm vụ ghi lại truyền luồng video trực tiếp đến phịng giám sát giao thơng, chúng cịn dùng để trích xuất liệu hình ảnh hay video nhiều trường hợp Việc phân tích luồng video trực tiếp từ camera trung tâm giám sát quan triển khai hệ thống giao thơng có tầm quang trọng đáng kể kiểm sốt an tồn giao thơng cơng cộng mà lực lượng người đáp ứng hết tất đường Khi mà camera giám sát tăng đồng nghĩa với tăng lên luồng video trực tiếp, việc người điều khiển/giám sát giao thông theo dõi hàng trăm hình lúc để phát hoạt động đáng ngờ, hay vấn đề cần đặt nhiều quan tâm trở nên bất khả Vì mà thuật tốn truy xuất kiện luồng video trực tiếp đề xuất phát triển Dựa khái niệm công nghệ gọi phân đoạn siêu khung (superframe segmentation), loại bỏ khung hình “thừa” truy xuất video giám sát, từ giảm lượng lớn khung hình cần tính tốn sau Bằng cách kết hợp thuật tốn phân đoạn siêu khung tính tốn khác, luồng video xuất lại chia thành phân đoạn quan tâm (Segments of Interest - SOI) Lúc video truy xuất kiện, hệ thống dùng Thơng qua q trình xử lý trên, video dài chuyển đổi thành số SOI khung thừa seg ments bị loại bỏ Các kiện video bao gồm phân đoạn này, tác giả cần tiến hành xử lý thêm phân đoạn u cầu mơ hình truy xuất kiện video sử dụng hiệu câu hỏi văn dựa ngôn ngữ tự nhiên để địa hóa truy vấn Đối với SOI cho trước v = (vt), t = (0, , T - 1) đại diện cho độ dài SOI, = (𝜏𝑠𝑡𝑎𝑟𝑡 - 𝜏𝑒𝑛𝑑 ) đại diện cho điểm bắt đầu kết thúc SOI tương ứng với kiện liên quan đến toàn video Bằng cách kết hợp tính cục bối cảnh video toàn cầu, đặc điểm bối cảnh tạm thời video trích xuất để mã hóa video khoảnh khắc video (2) Trong J0 đại diện cho mơ hình nhúng chung kết hợp câu hỏi văn q, đặc điểm v SOI tham số mơ hình cho θ Để trích xuất thêm đặc điểm khung thơng tin đặc điểm SOI, mạng tích chập sâu sử dụng để trích xuất đặc điểm cho video Các đặc điểm cục trích xuất cách trích xuất đặc điểm khung thời điểm cụ thể, đặc điểm tồn cục trích xuất cách trích xuất đặc điểm SOI đặc điểm điểm cuối tạm thời trích xuất cách trích xuất đặc điểm thời điểm SOI Để xây dựng đặc điểm video cục tồn cầu, mạng tích chập sâu sử dụng để trích xuất đặc điểm cấp cao khung hình sau tổng hợp trung bình thực đặc điểm video SOI, nghĩa tính trung bình tất khung hình SOI Khi có kiện, cảnh video liên quan đến câu hỏi văn viết này, ta truy vấn xác nhận kiện cách đối sánh Bài viết sử dụng mơ hình VGG đào tạo trước ImageNet để trích xuất đặc điểm cục bộ, đặc điểm toàn cục đặc điểm điểm cuối tạm thời từ khung, biểu thị Fvθ 3.4 Chuyển đổi vectơ từ ngữ văn câu hỏi Văn câu hỏi bao gồm ngôn ngữ tự nhiên cần xử lý trước trước sử dụng Thứ nhất, câu hỏi văn xử lý trước, câu hỏi chia thành từ dấu cách dấu câu Các từ bao gồm số coi từ riêng biệt Teney cộng “Tips and tricks for visual question answering: Learnings from 20 the 2017 challenge” [28] phân tích độ dài câu hỏi tập liệu VQA thấy có khoảng 0,25% số câu hỏi dài 15 từ Vì vậy, để nâng cao hiệu tính tốn, thuật toán giữ lại 15 từ phân đoạn câu Sau đó, từ chuyển đổi với word2vec thành vector từ ngữ 300 chiều Cuối cùng, vectơ từ ngữ gửi đến LSTM để trích xuất đặc điểm ngơn ngữ, chuỗi nhúng câu hỏi có kích thước 15.300 3.5 Sự kết hợp đặc điểm trực quan vectơ văn Sau thu vectơ đặc trưng video PθV, thống với nội dung câu hỏi PθL thành không gian vectơ từ thông qua hàm biến đổi phi tuyến tính Khi hai vectơ kết hợp biểu diễn bằng: Sau mơ hình xây dựng, đào tạo cách sử dụng hàm mát Mục đích đào tạo để có thơng tin thời điểm kiện gần với mô tả văn câu hỏi Để nâng cao độ chắn mơ hình, mẫu phủ định từ SOI khác video từ video khác thêm vào đào tạo mơ hình, để mơ hình phân biệt số khác biệt tinh tế hành vi Ở đây, Hendricks cộng đề cập phương pháp “Localizing moments in video with temporal language” [30], hàm mát sử dụng định nghĩa là: LR (x, y) = max (0, x - y + b) đại diện cho xếp hạng tổn thất Bằng cách này, phân đoạn video gần với kết truy vấn văn câu hỏi tất phân đoạn video có khác từ video 21 Hình 18: Các đường dẫn mơ hình trả lời câu hỏi trực quan Mơ hình VQA dựa phát mối quan hệ trực quan đa mục tiêu đề xuất viết (như hình ), lấy cảm hứng từ nghiên cứu mối quan hệ mục tiêu hình ảnh Đầu tiên, mơ hình phát mối quan hệ mục tiêu đào tạo trước sau tính mối quan hệ xuất sử dụng để thay tính hình ảnh trích xuất từ mục tiêu ban đầu Đồng thời, mơ hình xuất mở rộng nguyên tắc tương tự vectơ từ ngữ vị từ quan hệ, đặc điểm xuất vị từ quan hệ gửi đến không gian vectơ từ biểu diễn vectơ có kích thước cố định Cuối cùng, vectơ tích hợp gửi đến phân loại để tạo đầu câu trả lời, thông qua việc xếp tầng phần tử vectơ đặc điểm hình ảnh vectơ câu hỏi Cấu trúc mơ hình VQA trích xuất trực tiếp thơng tin hình ảnh với CNN, sau gửi đặc trưng hình ảnh vào LSTM để đưa kết dự đốn Mơ hình xuất ảnh bao gồm hai phần: mơ hình phát mục tiêu mơ hình phán đốn mối quan hệ mục tiêu 22 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ PHÂN TÍCH Phần xác minh hiệu suất thuật toán đề xuất thơng qua phân tích định lượng định tính Thí nghiệm chia thành tiểu mục sau theo bước thuật toán Tiểu mục chủ yếu xác minh thuật toán phân đoạn video dài trích xuất SOI dựa việc phát biên độ chuyển động Tiệu mục thứ hai xác minh thuật toán truy xuất kiện video dài dựa câu hỏi văn Cuối cùng, độ xác độ tin cậy thuật toán đề xuất phân tích xác minh cách sử dụng kịch lưu lượng truy cập thực tế 4.1 Đánh giá thuật tốn phân đoạn siêu khung hình video dài Phần sử dụng tập liệu SumMe [30] Hollywood2 [31] để đánh giá hiệu thuật toán đề xuất cho phân đoạn siêu khung, phương pháp sử dụng tập liệu SumMe đề xuất cách tiếp cận tiêu chuẩn cho việc tóm tắt video Do đó, phương pháp tập trung vào video người dùng, video thô chứa tập hợp chuỗi kiện Phương pháp bắt đầu cách phân đoạn video cách sử dụng phân đoạn “siêu khung” mới, phù hợp với video thô Sau đó, ước tính mức độ trực quan siêu khung bằng, dựa siêu khung chọn tập hợp tối ưu siêu khung để tạo tóm tắt thú vị thơng tin chi tiết thêm vào việc lưa chọn khung hình quan trọng để phân tích nội dung video hiệu Các khung hình chọn phải vừa đại diện cho nội dung video vừa chứa thơng tin dư thừa nhất, hầu hết phương pháp đại diện cho khung riêng lẻ có tính tồn cầu Nhưng Hollywood2 đề xuất khung dựa điểm để giải vấn đề lựa chọn khung hình để tính cục sử dụng việc chọn khung hình Tập liệu SumMe chứa 25 video Bộ liệu Hollywoo2 chứa 3.669 mẫu, bao gồm 12 hạng mục hành động 10 danh mục cảnh, tất từ 69 phim Hollywood Như hình 19, video chọn từ tập liệu Hollywood2 mơ tả q trình nam nhân vật lái xe nhà qua đường đoạn phim Bằng cách phát số lượng điểm ưa thích, định xem nội dung video thời điểm khác có thay đổi hay khơng sau khung video dư thừa tối ưu hóa theo thay đổi số lượng điểm ưa thích khoảng thời gian định 23 Hình 19: Xác định phân đoạn thú vị từ video dài Như thể hình 20, video chọn từ tập liệu Hollywood2 mơ tả cảnh đường phố ngồi trời Khơng giống hai video trước, cảnh quay trời thường phức tạp dễ thay đổi Các nhân vật kiện có video khơng cịn kiện khác trùng lặp chồng chéo phần trục thời gian Hình 20: Nhận dạng SOI từ đoạn video dài đường phố Do đó, nhiệm vụ khó khăn để sàng lọc thông tin hữu phân đoạn video từ môi trường ngồi trời phức tạp đưa mơ tả thích hợp Số khung 24 hình video 7.373 Sau phát biên độ chuyển động, số lượng khung hình giảm xuống cịn 1.700 tồn video chia thành 29 SOI Như hình 21, nội dung video giải thích cảnh đoạn đường khuôn viên trường Điều kiện đường xá khuôn viên tương đối đơn giản so với phương tiện giao thơng bên ngồi, nhiệm vụ phát mô tả người Nội dung video thay đổi theo chuyển động phương tiện chủ yếu ghi lại trạng thái phương tiện người phía trước Có số lượng lớn khung hình video dư thừa loại video thuật tốn tối ưu hóa nên sử dụng để loại bỏ nhiều khung hình video dư thừa Hình 21: Xác định SOI từ video dài cảnh trường học Bảng I (hình 22) cho thấy ảnh hưởng tính khác đến kết phân đoạn video Giá trị trung bình tính phân đoạn siêu khung sử dụng để phân tích ảnh hưởng tính với điểm tương quan điểm chuẩn trung bình Sai số bình phương trung bình mơ hình hồi quy tuyến tính sử dụng làm tiêu chí phù hợp ảnh hưởng đến điểm số Có thể thấy từ kết đánh giá tất tính có vai trị quan trọng phân đoạn siêu khung Mặc dù tính tương phản tính khn mặt có điểm số thấp nhất, hiệu suất tổng thể tính cân tốt Mặc dù tài liệu tham khảo [32] coi đặc điểm khuôn mặt phần quan trọng việc phát khung hình chính, 25 chúng bị ảnh hưởng nhiều độ sắc nét góc video q trình phát thực tế, yếu tố không ổn định Hình 22: Bảng đánh giá đặc điểm đường phố phức tạp liệu SumMe 4.2 Kết hợp văn câu hỏi truy xuất kiện Sau tối ưu hóa phân đoạn video dài, thu số phân đoạn video, phân đoạn chứa kiện video tiềm Như Hình 7, video tai nạn giao thơng cho thấy số bước, bao gồm trước tai nạn, sau tai nạn phản ứng đám đông tai nạn Các bước chia thành phân đoạn video khác thông qua tiền xử lý sau mơ tả ngữ nghĩa phân đoạn video trích xuất mơ hình ngữ nghĩa Tiếp theo, truy vấn câu hỏi tìm kiếm kiện cụ thể, cần khớp nội dung câu hỏi với câu mô tả trích xuất đoạn video để xác định thời gian diễn kiện có mơ tả kiện tương ứng Hình 23: Các bước trích xuất mơ tả kiện từ số phân đoạn video Như hiển thị hình 24, sau video dài bị loại bỏ khung thừa chia thành nhiều phân đoạn video, mơ hình VQA dựa ngữ nghĩa 26 sử dụng để có câu mơ tả ngơn ngữ tự nhiên đại diện cho phân đoạn video Khi muốn truy vấn nội dung video hay kiện cụ thể, cần chuyển câu hỏi thành vector văn gán cho đoạn video khác Phần đánh dấu ô màu đỏ đoạn video gần với câu hỏi văn Ví dụ tốn “hai người đàn ơng nói chuyện”, mơ hình tự động truy xuất thời điểm hai người đàn ơng bắt đầu nói chuyện video theo thứ tự thời gian, đồng thời ghi lại đoạn video thời điểm chứa nội dung Tương tự, vấn đề “thời điểm tơ màu trắng xuất hiện”, mơ hình xác định vị trí phân đoạn video ô tô màu trắng dựa kết truy xuất có Với phương pháp trên, miễn đáp ứng hai điều kiện sau, nhiệm vụ truy xuất kiện video hồn thành thành Thứ khung hình xác mơ tả ngữ nghĩa, thứ hai câu trả lời câu hỏi phù hợp với mơ tả ngữ nghĩa Hình 24: Q trình truy xuất trích xuất phân đoạn video tương ứng từ số phân đoạn video Ngoài ra, xác minh định lượng thực để kiểm tra tính hiệu mơ hình VQA So sánh thực thuật toán đề xuất thuật 27 toán hệ thống trả lời câu hỏi sử dụng rộng rãi nhiều liệu Hiệu mơ hình hệ thống hỏi đáp hình ảnh chủ yếu đánh giá theo Acc WUPS [33] Bảng II (hình 25) so sánh kết thực nghiệm thuật toán đề xuất liệu chuẩn DAQUAR-ALL Phương pháp Acc phương pháp so sánh đề cập đến vấn đề phân loại hình ảnh Vì hầu hết câu trả lời soạn nhiều từ, hiệu thuật tốn đề xuất đánh giá dễ dàng cách kiểm tra độ xác từ [35] [19] [36] [37] [38] [39] [40] [33] [41] Hình 25: Bảng kết thử nghiệm tập liệu tiêu chuẩn DAQUAR-ALL 28 CHƯƠNG 5: KẾT LUẬN VÀ NHẬN XÉT 5.1 Kết luận nghiên cứu Truy xuất ngữ nghĩa video dài có tầm quan trọng tối cao ứng dụng giám sát video giao thông Bài viết đề xuất thuật toán truy xuất kiện video dài dựa phân đoạn siêu khung Bằng cách phát biên độ chuyển động video dài, số lượng lớn khung hình dư thừa loại bỏ cách hiệu khỏi video dài, giảm số lượng khung hình cần tính tốn sau Sau đó, cách sử dụng thuật toán phân đoạn siêu khung dựa tính hợp nhất, video dài cịn lại chia thành số SOI bao gồm kiện video Cuối cùng, mơ hình ngữ nghĩa đào tạo sử dụng để khớp câu trả lời câu hỏi văn tạo kết có giá trị khớp cao coi phân đoạn video tương ứng với câu hỏi Các tác giả xin cảm ơn người đánh giá ẩn danh hiểu biết đề xuất hữu ích họ cải thiện đáng kể nội dung cách trình bày viết nhiều từ, hiệu thuật tốn đề xuất đánh giá dễ dàng cách kiểm tra độ xác từ Xử lý video hình ảnh rìa rõ ràng làm giảm băng thơng mạng độ trễ thấp Do đó, kiến trúc tiền xử lý video dựa điện tốn biên trình bày để loại bỏ thơng tin dư thừa hình ảnh video, phần tồn phân tích video di chuyển đến máy chủ biên máy chủ biên, giảm phụ thuộc cho trung tâm đám mây, giảm yêu cầu tính tốn, lưu trữ băng thơng mạng mạng đồng thời nâng cao hiệu phân tích hình ảnh video Việc phân tích xử lý liệu theo thời gian thực đóng vai trị vơ quan trọng việc ngăn chặn nhiều vụ tai nạn giao thông Độ xác cao độ trễ thấp tác vụ phân tích video địi hỏi hiệu tính tốn mạnh mẽ Để giải vấn đề này, kiến trúc biên đám mây hợp tác đề xuất, giúp giảm tải tác vụ điện toán nặng cho máy chủ biên chí đám mây, lượng nhỏ tác vụ tính toán giữ cục biên Tuy nhiên, số nhiệm vụ phân tích video dài hạn liên tục Ví dụ: số liệu thống kê lưu lượng giao thông sử dụng làm tham chiếu cho thời lượng đèn giao thông nhu cầu độ trễ khơng quan trọng Do đó, để phân tích video giao thơng thơng minh dựa điện toán biên, cách thiết kế kiến trúc đám mây, biên kết thúc tích hợp hiệu quả, thực di 29 chuyển điện toán cấp độ khác cấu hình tài ngun điện tốn biên cách hợp lý chủ đề nghiên cứu quan trọng cần giải tương lai 5.2 Nhìn nhận người đọc nghiên cứu Qua báo nghiên cứu ta nhìn thấy phương pháp phân tích chuỗi kiện video dài thành SOI mang đến cho nhà phân tích liệu số hiệu định Giảm thiểu tình trạng tai nạn giao thơng hay kẹt xe tình bất ngờ xảy phương tiện hay thiên tai Tuy nhiên nghiên cứu sử dụng VQA: Visual Question Answering (trả lời câu hỏi trực quan) đưa hình ảnh câu hỏi ngơn ngữ tự nhiên hình ảnh, nhiệm vụ cung cấp câu trả lời ngôn ngữ tự nhiên xác Phản ánh tình giới thực Tuy nhiên mơ hình cho thấy đơi phần hạn chế, thấy phần câu hỏi khơng vượt mức định, nghiên cứu đề cập (15 từ) thuật tốn mơ hình cịn địi hỏi hệ thống thơng minh hiểu chi tiết hình ảnh lập luận phức tạp hệ thống tạo thích hình ảnh chung chung Ngồi ra, DAQUAR cịn hạn chế với số 6795 đào tạo 5673 cặp câu hỏi thử nghiệm (số liệu 2017) nên chưa đủ khả để đào tạo thành công đánh giá mơ hình phức tạp VQA (vốn hạn chế câu hỏi) Như thấy nghiên cứu vài hạn chế việc áp dụng cơng nghệ cho phù hợp với tình trạng của quốc gia hay thời điểm phát triển đô thị Tuy nhiên, với nghiên cứu tạo tảng cho nhà nghiên cứu khác phát triển Phương pháp phân tích thơng minh phát kiện bất thường hệ thống giao thông thông minh chủ đề quan trọng có nhiều hướng phát triển tương lai Đây chủ đề quan trọng phát triển giao thơng Việt Nam nói riêng nước nói chung 30 TÀI LIỆU THAM KHẢO [1] S Sah, S Kulhare, A Gray, S Venugopalan, E Prud’Hommeaux & R Ptucha (2017) Semantic text summarization of long videos, Proc IEEE Winter Conf Appl Comput Vis (WACV), 989-997 [2] Z Lu & K Grauman (2013) Story-driven summarization for egocentric video, Proc IEEE Conf Comput Vis Pattern Recognit, 2714-2721 [3] W Wolf (1996) Key frame selection by motion analysis, Proc IEEE Int Conf Acoust Speech Signal Process Conf., 1228-1231 [4] M Otani, Y Nakashima, E Rahtu, J Heikkilä & N Yokoya (2016) Learning joint representations of videos and sentences with web image search, Proc Eur Conf Comput Vis., 651-667 [5] S Ding, S Qu, Y Xi & S Wan (2020) Stimulus-driven and concept-driven analysis for image caption generation, Neurocomputing, 398, 520-530 [6] S Ding, S Qu, Y Xi & S Wan (2019) A long video caption generation algorithm for big video data retrieval, Future Gener Comput Syst., 93, 583-595 [7] R Socher, A Karpathy, Q V Le, C D Manning & A Y Ng (2014) Grounded compositional semantics for finding and describing images with sentences, Trans Assoc Comput Linguistics, 2, 207-218 [8] Z Gao Y Li & S Wan (2020) Exploring deep learning for view-based 3D model retrieval ACM, Trans Multimedia Comput Commun Appl., 16 (1), 1-21 [9] S Tellex & D Roy (2009) Towards surveillance video search by natural language query, Proc ACM Int Conf Image Video Retr CIVR, 1-8 [10] J.-B Alayrac, P Bojanowski, N Agrawal, J Sivic, I Laptev & S Lacoste-Julien (2016) Unsupervised learning from narrated instruction videos, Proc IEEE Conf Comput Vis Pattern Recognit (CVPR), 4575-4583 [11] O Boiman & M Irani (2007) Detecting irregularities in images and in video, Int J Comput Vis., 74 (1), 17-31 31 [12] S Wan, Y Xia, L Qi, Y.-H Yang & M Atiquzzaman (2020) Automated colorization of a grayscale image with seed points propagation, IEEE Trans Multimedia, 22 (7), 1756-1768 [13] M Gygli, Y Song & L Cao (2016) Video2GIF: Automatic generation of animated GIFs from video, Proc IEEE Conf Comput Vis Pattern Recognit (CVPR), 1001-1009 [14] C Chen, X Liu, T Qiu & A K Sangaiah (2020) A short-term traffic prediction model in the vehicular cyber–physical systems, Future Gener Comput Syst., 105, 894903 [15] W Liu, T Mei, Y Zhang, C Che & J Luo (2015) Multi-task deep visual-semantic embedding for video thumbnail selection, Proc IEEE Conf Comput Vis Pattern Recognit (CVPR), 3707-3715 [16] A Sharghi, B Gong & M Shah (2016) Query-focused extractive video summarization, Proc Eur Conf Comput Vis., 3-19 2016 [17] S Yeung, A Fathi & L Fei-Fei (2014) VideoSET: Video summary evaluation through text, arXiv:1406.5824 [online] http://arxiv.org/abs/1406.5824 [18] L Ma, Z Lu & H Li (2016) Learning to answer questions from image using convolutional neural network, Proc 31th AAAI Conf Artif Intell., 3567-3573 [19] H Gao, J Mao, J Zhou, Z Huang, L Wang & W Xu (2015) Are you talking to a machine? dataset and methods for multilingual image question, Proc Adv Neural Inf Process Syst., 2296-2304 [20] M Malinowski & M Fritz (2014) A multi-world approach to question answering about real-world scenes based on uncertain input, Proc Adv Neural Inf Process Syst., 1682-1690 [21] M Ren, R Kiros & R Zemel (2015) Exploring models and data for image question answering, Proc Adv Neural Inf Process Syst., 2953-2961 [22] Y Xi, Y Zhang, S Ding & S Wan (2020) Visual question answering model based on visual relationship detection, Signal Process Image Commun., 80 32 [23] K Tu, M Meng, M W Lee, T E Choe & S.-C Zhu (2014) Joint video and text parsing for understanding events and answering queries, IEEE Multimedia, 21 (2), 4270 [24] S Antol et al (2015) VQA: Visual question answering, Proc IEEE Int Conf Comput Vis (ICCV), 2425-2433 [25] Y Ke, X Tang & F Jing (2006) The design of high-level features for photo quality assessment, Proc IEEE Comput Soc Conf Comput Vis Pattern Recognit (CVPR) vol 1, 419-426 [26] A Khosla, R Hamid, C.-J Lin & N Sundaresan (2013) Large-scale video summarization using Web-image priors, Proc IEEE Conf Comput Vis Pattern Recognit., 2698-2705 [27] N Ejaz, I Mehmood & S W Baik (2013) Efficient visual attention based framework for extracting key frames from videos, Signal Process Image Commun., 28 (1), 34-44 [28] D Teney, P Anderson, X He & A V D Hengel (2018) Tips and tricks for visual question answering: Learnings from the 2017 challenge, Proc IEEE/CVF Conf Comput Vis Pattern Recognit., 4223-4232 [29] L Anne Hendricks, O Wang, E Shechtman, J Sivic, T Darrell & B Russell (2018) Localizing moments in video with temporal language, arXiv:1809.01337, [online]: http://arxiv.org/abs/1809.01337 [30] M Gygli, H Grabner, H Riemenschneider & L Van Gool (2014) Creating summaries from user videos, Proc Eur Conf Comput Vis., 505-520 [31] G Guan, Z Wang, S Lu, J D Deng & D D Feng (2013) Keypoint-based keyframe selection, IEEE Trans Circuits Syst Video Technol., 23 (4), 729-734 [32] Q Wu, C Shen, P Wang, A Dick & A van den Hengel (2018) Image captioning and visual question answering based on attributes and external knowledge, IEEE Trans Pattern Anal Mach Intell., 40 (6), 1367-1381 [33] C L Zitnick, D Parikh & L Vanderwende (2013) Learning the visual interpretation of sentences, Proc IEEE Int Conf Comput Vis., 1681-1688 33 [34] M Malinowski, M Rohrbach & M Fritz (2015) Ask your neurons: A neuralbased approach to answering questions about images, Proc IEEE Int Conf Comput Vis (ICCV), 1-9 [35] Q Wu, C Shen, L Liu, A Dick & A Van Den Hengel (2016) What value explicit high level concepts have in vision to language problems?, Proc IEEE Conf Comput Vis Pattern Recognit (CVPR), 203-212 [36] K Chen, J Wang, L.-C Chen, H Gao, W Xu & R Nevatia (2015) ABC-CNN: An attention based convolutional neural network for visual question answering, arXiv:1511.05960, [online]: http://arxiv.org/abs/1511.05960 [37] K Kafle & C Kanan (2016) Answer-type prediction for visual question answering, Proc IEEE Conf Comput Vis Pattern Recognit (CVPR), 4976-4984 [38] H Noh, P H Seo & B Han (2016) Image question answering using convolutional neural network with dynamic parameter prediction, Proc IEEE Conf Comput Vis Pattern Recognit (CVPR), 30-38 [39] Q Wu, P Wang, C Shen, A Dick & A Van Den Hengel (2016) Ask me anything: Free-form visual question answering based on knowledge from external sources, Proc IEEE Conf Comput Vis Pattern Recognit (CVPR), 4622-4630 [40] Z Yang, X He, J Gao, L Deng & A Smola (2016) Stacked attention networks for image question answering, Proc IEEE Conf Comput Vis Pattern Recognit (CVPR), 21-29 34 ... viết tóm tắt sau:  Một phương pháp phân tích video thông minh để phát kiện bất thường hệ thống giao thông thông minh đề xuất dựa VQA Bằng cách phát biên độ chuyển động video dài, số lượng lớn... ứng dụng, phân tích video bối cảnh an tồn cơng cộng giao thơng thơng minh thu hút ý giới học thuật ngành cơng nghiệp Một phương pháp phân tích video thông minh để phát kiện bất thường phương tiện... Khái niệm hệ thống giao thông thông minh ITS (Intelligent Transport System) ứng dụng công nghệ cao điện tử tin học viễn thông để điều hành quản lý hệ thống giao thông vận tải ITS coi hệ thống lớn,

Định dạng
Số trang	40
Dung lượng	2,72 MB