Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
8,87 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN NGUYỄN VINH TIỆP TRUY VẤN HIỆU QUẢ THÔNG TIN THỊ GIÁC TỪ DỮ LIỆU LỚN ĐỂ PHÁT TRIỂN MƠI TRƯỜNG THƠNG MINH Chun ngành: Khoa học Máy tính Mã số: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH–Năm 2019 Cơng trình hồn thành tại: TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH Người hướng dẫn khoa học: PGS TS Trần Minh Triết PGS TS Dương Anh Đức Phản biện 1: PGS TS Nguyễn Thanh Bình Phản biện 2: PGS TS Trần Thị Thanh Hải Luận án sẽ/đã bảo vệ trước Hội đồng chấm luận án cấp Trường : Đại học Cơng nghệ Thơng tin, ĐHQG TP Hồ Chí Minh vào lúc 14 ngày 06 tháng 08 năm 2019 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Thư viện Trường Đại học Công nghệ Thông tin Mục lục Tổng quan 1.1 Mở đầu 1 1.2 Lý thực đề tài 1.3 Mục tiêu luận án 1.4 Đóng góp luận án Các cơng trình liên quan 2.1 Tiếp cận sử dụng đặc trưng cục 9 2.2 Tiếp cận biểu diễn ảnh sử dụng đặc trưng trích xuất từ mạng DNN 11 2.3 Tiếp cận biểu diễn ảnh sử dụng ngữ nghĩa 12 Kết hợp Spatial Pyramid cấu trúc mục ngược cho tốn tìm kiếm cảnh vật 3.1 Mở đầu 13 13 3.2 Kết hợp cấu trúc không gian với mục ngược 14 3.3 Kết thực nghiệm 16 3.4 Kết luận 19 Dung hợp mơ hình BOW thuật tốn phát đối tượng cho tốn tìm kiếm đối tượng đặc trưng 20 4.1 Mở đầu 20 4.2 Dữ liệu thử nghiệm phương pháp đánh giá 21 4.3 4.4 Hệ thống tìm kiếm đối tượng Dung hợp mô hình BOW với thuật tốn phát đối tượng sử dụng 21 mạng neural network 23 4.5 Dung hợp mơ hình BOW với thuật toán phát đối tượng sử dụng 4.6 quan hệ vị trí đặc trưng Kết luận i 25 28 Mơ hình kết hợp đặc trưng BOW với Deep Feature cho tốn tìm kiếm người địa điểm cho trước 5.1 Mở đầu 29 29 5.2 Tổng quan hệ thống 30 5.3 Thí nghiệm 31 5.4 Kết luận 32 Tìm kiếm ảnh với mô tả truy vấn ngữ nghĩa 6.1 Mở đầu 33 33 6.2 Mơ hình tìm kiếm đối tượng với truy vấn biểu diễn ngữ nghĩa 34 6.3 Kết thử nghiệm 35 6.4 Kết luận 37 Kết luận 7.1 Những kết đạt 38 38 7.2 Một số hướng phát triển luận án A Các cơng trình cơng bố 39 40 ii Chương Tổng quan 1.1 Mở đầu Hiện nay, khối lượng liệu ảnh tĩnh video tăng lên ngày nhanh chóng với nhiều nguồn khác như: mạng xã hội, liệu camera ghi nhận từ hệ thống giám sát công cộng, gia đình Bên cạnh phát triển thiết bị di động thông minh (smartphone) thiết bị đeo (wearable device), kho liệu người dùng tạo hàng ngày để ghi nhận điều thú vị sống ngày nhiều Điều tất yếu dẫn đến nhu cầu phân tích để hiểu khai thác kho liệu Trên sở đó, nhiều ứng dụng khác nghiên cứu phát triển nhằm cung cấp thông tin, dịch vụ, tiện ích tốt phục vụ sống người lúc nơi, tạo tích hợp tính thơng minh vào mơi trường sống ngày Đây mục tiêu đặt từ đầu xuyên suốt trình thực luận án: đề xuất giải pháp giúp khai thác thơng tin hình ảnh theo thể thức tương tác (modality) khác cách tự nhiên hiệu quả, hướng đến xây dựng mơi trường sống tích hợp tiện ích thông minh 1.2 Lý thực đề tài Từ nhu cầu thực tế đề cập phần Mở đầu tính đa dạng thể thức tương tác, luận án hỗ trợ thể thức tương tác khác cho việc truy vấn thông tin thị giác, bao gồm thể thức: (i) tìm kiếm người dùng cung cấp cảnh cho trước, (ii) tìm kiếm có hình ảnh ví dụ đối tượng, (iii) tìm kiếm có hình ảnh ví dụ người địa điểm (nhiều đối tượng), (iv) tìm kiếm dựa mơ tả dạng văn ngôn ngữ tự nhiên Đây số thể thức tương tác xuất phát từ tình trải nghiệm tự nhiên người dùng thực tế có nhu cầu tìm kiếm kho liệu hình ảnh video Khi tìm kiếm với cảnh cho trước, mơ hình truy vấn cho loại đối tượng thường dựa mơ hình Bag-of-Word (BOW) với tảng đặc trưng cục Trong cảnh vật thường có nhiều đặc trưng có tính ổn định mặt bố cục không gian nên để tăng cường độ xác cần phải có bước kiểm tra ràng buộc hình học Khơng vậy, hệ thống phải đảm bảo thời gian phản hồi hợp lý cho người dùng Đối với thể thức truy vấn ảnh ví dụ đối tượng cho trước, đặc biệt đối tượng đặc trưng, việc kiểm tra ràng buộc hình học trở nên khó khăn thiếu đặc trưng bền vững Do hệ thống thường sử dụng phương pháp kết hợp mơ hình truy vấn BOW thuật tốn phát đối tượng Tuy nhiên, việc kết hợp dừng lại mức độ đơn giản cộng trung bình giá trị độ tương đồng mơ hình Do cần phải có phương pháp kết hợp cách hiệu điểm mạnh mơ hình Đối với thể thức truy vấn nhiều đối tượng khác nhau, cụ thể tìm kiếm người địa điểm cho trước, việc đảm bảo độ xác trở nên khó khăn Tại thời điểm, camera ghi nhận hình ảnh thường tập trung vào đối tượng nên việc đánh giá độ tương đồng phương pháp kết hợp không cịn hiệu Do cần phải có phương pháp làm tăng độ phủ hệ thống trường hợp camera không ghi nhận đầy đủ thông tin đối tượng cần tìm Nếu phần đề cập đến thông tin đầu vào dạng hình ảnh phần chúng tơi sử dụng dạng thông tin đầu vào khác câu mô tả tự nhiên Thay sử dụng biểu mặt thị giác để so sánh với ảnh truy vấn, hệ thống sử dụng câu mô tả đánh giá độ liên quan dựa đặc trưng ngữ nghĩa (visual concept) Với ảnh đoạn video, người dùng quan tâm đến nhiều khía cạnh ngữ nghĩa khác nên cần thiết phải có phương pháp truy vấn khai thác nhiều khía cạnh ngữ nghĩa hình 1.3 Mục tiêu luận án Mục tiêu luận án đề xuất số phương pháp truy vấn hiệu với thể thức truy vấn khác từ kho liệu lớn ảnh tĩnh video theo nhu cầu tìm kiếm khác người dùng Bài toán truy vấn tổng qt mơ hình hố bốn đại lượng sau: • D: tập hợp ảnh tĩnh đoạn video mà hệ thống cần truy vấn • Q: thơng tin truy vấn đầu vào cung cấp người sử dụng hệ thống • h: hàm đánh giá mức độ tương đồng thông tin truy vấn với phần từ tập sở liệu D Ba đại lượng D, Q H tùy biến với loại liệu cần truy vấn, loại thông tin đầu vào cách thức đánh giá tương đồng khác Tương ứng với đại lượng ta có số thể thức truy vấn khác Trong luận án tập trung vào bốn thực thể truy vấn sau 1.3.1 Tìm kiếm với ảnh ví dụ cảnh vật cho trước Thể thức mà luận án đề cập đến truy vấn với ảnh mẫu từ tập liệu ảnh tĩnh Đầu vào: Cho trước tập hợp ảnh: D = {d1 , d2 , , dn }, với n số lượng ảnh tập sở liệu Truy vấn Q = (q) chuỗi bao gồm ảnh chụp cảnh vật cho trước Đầu ra: Hệ thống trả chuỗi có thứ tự kết có liên quan đến ảnh truy vấn q: R = (dr1 , dr2 , , drnj ) Trong đó, nj số lượng phần tử phân biệt chuỗi kết trả h(q, dri ) ≥ h(q, drj ) với ∀i < j Hàm h(q, dri ) tính tốn mức độ liên quan ảnh mẫu q ảnh dri ∈ D dựa tương đồng mặt thị giác (visual appearance) Nói cách khác, kết trả hiểu mức độ thực thể (instance level) Hình 1.1 minh họa số tình có liên quan mặt thị giác đến ảnh mẫu truy vấn Hình a) ảnh mẫu chụp góc nhìn phía trước Nhà thờ Đức Bà Hình b) d) ảnh chụp sở liệu với góc nhìn khác phủ phần lớn cảnh vật ảnh mẫu thời điểm khác Hình c) e) ảnh chụp nhà thờ có hình dáng tương tự Thái Lan Hà Nội Theo định nghĩa truy vấn theo thực thể đối tượng chúng tơi: Hình b) d) ảnh có liên quan c) e) khơng liên quan Cũng Nhà thờ Đức Bà chụp đằng sau bên khơng tính có liên quan đến ảnh mẫu 1.3.2 Tìm kiếm với ảnh ví dụ đối tượng Là mở rộng từ ảnh sang video mà chưa xem xét đến yếu tố mặt thời gian, phần định nghĩa toán cho tập đoạn video (shot) với truy vấn bao gồm nhiều ảnh mẫu chụp góc nhìn khác đối tượng Cụ thể là, Đầu vào: Cho trước tập hợp đoạn video: D = {F1 , F2 , , Fn }, với n số lượng đoạn video sở liệu Mỗi đoạn video Fi bao gồm tập frame ảnh cảnh quay Truy vấn dạng thể thức xác định Q = (S, ROI) Trong đó, S = {s1 , s2 , , sm } ROI = {b1 , b2 , , bm } Hình 1.1: Ví dụ mức độ liên quan ảnh truy vấn số loại đối tượng m ảnh mẫu đường bao phân định đối tượng cần quan tâm so với phần lại Đầu ra: Hệ thống trả chuỗi có thứ tự kết có liên quan đến truy vấn Q: R = (Fr1 , Fr2 , , Frnj ) Trong nj số lượng phần tử phân biệt chuỗi kết trả h(S, ROI, Fri ) ≥ h(S, ROI, Frj ) với ∀i < j Hàm h(S, ROI, Fri ) tính tốn mức độ liên quan đối tượng cần tìm (S, ROI) đoạn video Fri ∈ D dựa tương đồng mặt thị giác Lưu ý tham số đầu vào cho hàm h lúc tập hợp frame ảnh 1.3.3 Tìm kiếm với ảnh ví dụ người địa điểm Trong phần này, đề cập đến thể thức truy vấn dạng hỗn hợp với thông tin đầu vào bao gồm ảnh mẫu người địa điểm cho trước Trong thực tế, người dùng muốn tìm lại hình ảnh khứ người thân gắn liền với địa danh thơng tin đầu vào dạng hỗn hợp giải pháp phù hợp Bài tốn tìm kiếm với thể thức tương tác định nghĩa sau: Đầu vào: Cho trước tập hợp đoạn video: D = {F1 , F2 , , Fn }, với n số lượng đoạn video sở liệu Mỗi đoạn video Fi bao gồm tập frame ảnh cảnh quay Truy vấn dạng thể thức xác định Q = (L, S, ROI) Trong đó, L = {l1 , l2 , , lp } tập hợp bao gồm p ảnh mẫu địa điểm quan tâm, S = {s1 , s2 , , sm } ROI = {b1 , b2 , , bm } m ảnh mẫu đường bao phân định người cần quan tâm so với phần lại Hình 1.2 minh họa ví dụ loại thông tin truy vấn Những ảnh hàng ảnh mẫu quán rượu quan tâm tìm kiếm Những ảnh hàng thứ hai ghi nhận góc nhìn khác người quan tâm Hình 1.2: Ví dụ loại truy vấn bao gồm ảnh mẫu vị trí (hàng phía trên) người (hàng phía dưới) đánh dấu đường bao màu tím Đầu ra: Hệ thống trả chuỗi có thứ tự kết có liên quan đến truy vấn xếp theo thứ tự giảm dần mức độ liên quan Đặt kết trả truy vấn là: R = (Fr1 , Fr2 , , Frnj ), với nj số lượng phần tử phân biệt chuỗi kết trả Việc đánh giá mức độ liên quan ảnh mẫu (L, S, ROI) đoạn video Fri tập liệu dựa tương đồng mặt thị giác Hình 1.3 thể kết trả hệ thống tìm kiếm loại truy vấn hỗn hợp: người địa điểm cho trước Mỗi hàng tương ứng với đoạn video có chứa đối tượng mô tả liệu đầu vào Các ảnh hàng frame đại diện cho đoạn video trả Đoạn video trả thông thường phân đoạn ngắn so với tổng thể video có chứa đủ thơng tin mặt thị giác nhằm nhận biết đối tượng truy vấn 1.3.4 Tìm kiếm dựa mơ tả ngôn ngữ tự nhiên Trong phần này, đề cập đến thể thức truy vấn không sử dụng ảnh mẫu câu mơ tả ngơn ngữ tự nhiên Đầu vào: Cho trước tập hợp đoạn video: D = {F1 , F2 , , Fn }, với n số lượng đoạn video sở liệu Mỗi đoạn video Fi bao gồm tập frame ảnh cảnh quay Thông tin đầu vào dạng thể thức xác định Q = {c1 , c2 , , cp } bao gồm p từ sử dụng để mơ tả đoạn video cần tìm Trong luận án này, sử dụng tập dataset tiếng Anh nên câu mô tả viết ngôn ngữ tiếng Anh Ví dụ như: Hình 1.3: Kết trả hệ thống tìm kiếm thể thức hỗn hợp nhiều đối tượng: người địa điểm cho trước "A man walking on a beach with a dog." Đầu ra: Hệ thống trả chuỗi có thứ tự kết có liên quan đến truy vấn xếp theo thứ tự giảm dần mức độ liên quan: R = (Fr1 , Fr2 , , Frnj ) Trong nj số lượng phần tử phân biệt chuỗi kết trả h(Q, Fri ) ≥ h(Q, Frj ) với ∀i < j Việc đánh giá mức độ liên quan câu mô tả Q đoạn video Fq,i tập liệu dựa tương đồng mặt ngữ nghĩa hình ảnh (visual concept) Hình 1.4 minh hoạ kết trả hệ thống truy vấn câu mơ tả với nội dung có liên quan tới truy vấn Hình 1.4: Kết trả câu truy vấn "A man walking on a beach with a dog" điểm loại bỏ thuật tốn RANSAC, cịn lại cặp điểm so khớp bao gồm ba loại Loại thứ hai: cặp điểm có tính phân biệt cao (discriminative) biểu diễn đường mũi tên màu xanh có hàm trọng số đồng biến theo số lượng điểm f1 (Nd ) Loại thứ ba: cặp điểm có liên quan yếu (weakly relevant) biểu diễn đường mũi tên màu xanh dương có hàm trọng số đồng biến theo số lượng điểm f2 (Nw ) Tuy nhiên, hàm số không tăng nhanh hàm f1 Loại thứ tư: cặp điểm mang thông tin ngữ cảnh (context information) biểu diễn đường mũi tên màu đen có hàm trọng số sử dụng f3 (Nc ) không tăng nhanh hàm số f1 f2 Ta có cơng thức tính score sau: ∗ ∗ ) + w2 · SOD S = f1 (Nd ) · f2 (Nw ) · f3 (Nc ) · (w1 · SBOW (4.6) Đặt ROIk tập vị trí điểm ảnh thuộc ảnh mẫu truy vấn thứ k OP Rj tập điểm thuộc ảnh thứ j đoạn video database Khi đó, Nd , Nw Nc tính dựa cơng thức sau: n m Nd = card({(p, q)|p ∈ ROIk , q ∈ OP Rj }) (4.7) card({(p, q)|p ∈ / ROIk , q ∈ OP Rj }) (4.8) card({(p, q)|p ∈ / ROIk , q ∈ / OP Rj }) (4.9) k=1 j=1 n m Nw = k=1 j=1 n m Nc = k=1 j=1 đó, p q điểm đặc trưng có giá trị word ID kiểm tra ràng buộc hình học Chúng tơi giả sử rằng, hàm số thuộc lớp hàm đa thức Chúng đề xuất ba hàm trọng số sau: f (n) = + n2 , f2 (n) = + n, f (n) = + √n 26 Hình 4.2: Bốn loại cặp đặc trưng khai thác thơng tin vị trí Cơng thức tính giá trị tương đồng cuối trở thành: ∗ ∗ Nc )(w1 · SBOW + w2 · SOD ) S = (1 + Nd2 )(1 + Nw )(1 + 4.5.1 (4.10) So sánh với phương pháp state-of-the-art Bảng 4.5.1 trình bày kết so sánh với phương pháp state-of-the-art hai tập truy vấn Phương pháp đề xuất cao cách đáng kể so với phương pháp khác sử dụng cặp phát mô tả đặc trưng Bảng 4.4: So sánh phương pháp tập liệu INS2013 INS2014 Hướng tiếp cận Phương pháp INS2013 INS2014 BOW 28.92 25.01 DPM re-ranking 19.55 21.23 BOW+DPM 32.18 28.21 Multi-features[21] 31.33 28.77 Đặc trưng cục HE+WGC[38] 26.51 24.34 PSR[97] 34.58 30.44 TC[95] 20.50 N/A FRCNN 21.60 20.67 FRCNN+R+QE[8] 33.9 N/A Đặc trưng học sâu BLCF[26] 32.3 N/A Phương pháp đề xuất BOW+FRCNN+RANS 35.42 32.49 27 4.6 Kết luận Trong chương chúng tơi trình bày hướng tiếp cận cho toán truy vấn đối tượng thị giác liệu video lớn, bao gồm: (i) Đề xuất phương pháp reranking cách kết hợp mơ hình BOW với thơng tin vị trí đối tượng ứng viên sử dụng thuật toán phát đối tượng; (ii)Đề xuất cơng thức tính score dựa thông tin visual word chung thông tin vị trí đối tượng ứng viên 28 Chương Mơ hình kết hợp đặc trưng BOW với Deep Feature cho tốn tìm kiếm người địa điểm cho trước 5.1 5.1.1 Mở đầu Nhu cầu thực tế Ở hai chương trước, đề cập đến hai toán truy vấn cảnh vật truy vấn đối tượng Trong số tình huống, người dùng quan tâm nhiều đối tượng lúc Ví dụ tìm người địa điểm cho trước Mặt khác, hai đối tượng mà người dùng quan tâm tìm kiếm nhiều kho liệu ảnh người địa điểm Bài tốn đặt tìm ảnh có chứa người cần tìm địa điểm cho trước Do loại thể thức truy vấn quan trọng có tiềm ứng dụng to lớn Có thể kể đến số ứng dụng thực tế như: hệ thống giám sát, quản lý liệu video cá nhân, gợi nhớ khứ hỗ trợ việc điều trị chứng đãng trí Tuy nhiên, thể thức truy vấn khó có nhiều biến thể khác đối tượng quan tâm như: kích thước, điều kiện ánh sáng, thay đổi hình dáng đối tượng theo trục thời gian 5.1.2 Hướng tiếp cận luận án Trong chương này, đề xuất kết hợp với đặc trưng ngữ nghĩa để sàng lọc lại đoạn video quay địa điểm không liên quan Đối với người truy vấn, trường hợp hướng mặt phía camera, tốn tương đương với tốn nhận diện gương mặt Thay sử dụng đặc trưng VGG-Face vốn thiết kế để sử dụng với độ đo khoảng cách chuẩn L2 , đề xuất sử dụng với máy phân lớp đặc trưng sử dụng nhân tuyến tính (linear kernel) Trong trường hợp người cần tìm khơng hướng mặt phía camera, đặc trưng nhận dạng dựa vào mặt thực Do cảnh quay, người khơng thể di chuyển q nhanh để khỏi phạm vi camera nên đề xuất theo vết dựa cảnh 29 (scene tracking) để làm tăng độ xác kết truy vấn Hình 5.1 minh họa ý tưởng phương pháp theo vết dựa cảnh quay 5.2 Tổng quan hệ thống Hệ thống đề xuất bao gồm phần chính: truy vấn địa điểm dựa mơ hình BOW, kiểm tra địa điểm dựa đặc trưng deep feature, nhận diện gương mặt tổng hợp cuối sử dụng theo vết địa điểm Hình ?? phác thảo luồng xử lý hệ thống đề xuất Tồn quy trình thực thuật tốn đề xuất mơ tả Thuật tốn Thuật tốn 5: Thuật tốn tìm kiếm với truy vấn dạng hỗn hợp result = CompoundQueryRetrieval (queryloc , queryper , database, K) Đầu vào: queryloc : ảnh truy vấn mẫu địa điểm người cần quan tâm queryper : ảnh truy vấn mẫu người cần quan tâm database: sở liệu ảnh cần truy vấn K: số lượng ảnh/shot kết truy vấn theo địa điểm Đầu : result: danh sách ảnh/shot theo thứ tự giảm dần độ tương đồng Bước 1: Xây dựng vector BOW truy vấn theo địa điểm locBOW ← BOW(queryloc ) Bước 2: Rút trích đặc trưng gương mặt sử dụng đặc trưng học sâu pos_f ace ← RemoveNoisyFace(queryper ) pos_f aceV GG ← VGG-Face(pos_f ace) Bước 3: Huấn luyện mơ hình phát gương mặt với SVM neg_f ace ← RetrieveSecondBestFace(f aceV GG ) neg_f aceV GG ← VGG-Face(neg_f ace) 10 f ace_model ← TrainSVM(pos_f aceV GG , neg_f aceV GG ) 11 Bước 4: Tìm kiếm địa điểm dựa mơ hình BOW 12 loc_shots ← RetrieveLocation(database, K) 13 Bước 5: xếp hạng lại dựa đặc trưng học sâu gương mặt 14 shot_f aceV GG ← VGG-Face(loc_shots) 15 init_resuls ← FaceScoringWithSVM(shot_f aceV GG , f ace_model) 16 Bước 6: Theo vết địa điểm 17 result ← SceneTracking(init_result) 18 return result 30 Hình 5.1: Phương pháp xếp hạng lại dựa phương pháp theo vết địa điểm 5.3 Thí nghiệm 5.3.1 Dữ liệu thí nghiệm Trong chương này, chúng tơi sử dụng tập liệu TRECVID INS với tập truy vấn INS2016 bao gồm cặp đối tượng người địa điểm quan tâm Để đánh giá hiệu hệ thống sử dụng độ đo Mean Average Precision 5.3.2 Độ xác trực quan hóa kết truy vấn Chúng tơi đánh độ xác hệ thống đề xuất với cấu hình sau: • Baseline: Sử dụng hệ thống framework chúng tôi, sau bước kiểm tra địa điểm truy vấn sử dụng đặc trưng deep feature, tiến hành xếp hạng lại top K sử dụng độ đo khoảng cách L2 làm độ đo để so sánh mặt • Linear Kernel: tương tự hệ thống baseline sử dụng máy phân lớp với nhân tuyến tính để học mơ hình gương mặt so sánh với gương mặt ứng viên • Linear Kernel+scene tracking: tương tự Linear Kernel, chúng tơi cịn áp dụng phương pháp theo vết địa điểm để xử lý shot mà đối tượng cần tìm khơng quay mặt lại phía camera Bảng 5.1 tóm tắt số kết tiến hành phương pháp khác nhau, sử dụng độ đo MAP Kết cho thấy sử dụng máy phân lớp với nhân tuyến tính cho kết tốt so với cấu hình baseline sử dụng độ đo L2 , cụ thể 31 cải tiến độ xác từ 19.8% lên 25.9% Hơn nữa, kết hợp với phương pháp theo vết địa điểm, độ xác hệ thống tăng lên đáng kể từ 25.9% lên 50.6% Bảng 5.1: Kết thực nghiệm nghiệm tập liệu TRECVID INS 2016 Run Linear Kernel + scene tracking Linear Kernel L2 distance MAP 50.6 25.9 19.8 Hình 5.2: Đường Precision-recall tiến hành thí nghiệm tập INS 2016 Cần ý rằng, phương pháp theo viết địa điểm khơng giữ độ xác cao mà làm tăng độ phủ thuật toán cách đáng kể so với phương pháp sử dụng máy phân lớp Điều thể Hình 5.2, đường phương pháp đề xuất Linear Kernel+scene tracking cao đáng kể so với đường lại 5.4 Kết luận Lấy cảm hứng từ thành công kỹ thuật học sâu (deep learning) năm gần đây, cố gắng khai thác sức mạnh đặc trưng deep feature cho tốn tìm kiếm đối tượng Cụ thể chúng tơi đề xuất framework kết hợp điểm mạnh mơ hình BOW đặc trưng deep feature phục vụ cho loại đối tượng toán tìm kiếm đối tượng: tìm kiếm người địa điểm cho trước 32 Chương Tìm kiếm ảnh với mơ tả truy vấn ngữ nghĩa 6.1 6.1.1 Mở đầu Nhu cầu thực tế Trong chương quan tâm giải đến toán truy vấn với thể thức câu mô tả: sử dụng từ ngữ mang tính chất mơ tả cảnh vật, đối tượng cần tìm Phương pháp truyền thống cơng cụ tìm kiếm sử dụng phổ biến dựa từ khố mà người dùng mơ tả kèm với ảnh, video Các liệu gán nhãn người dùng gọi metadata Tuy nhiên, liệu metadata lúc đầy đủ Chương tiếp cận toán theo hướng khai thác khái niệm cảnh quay video cách sử dụng liệu có sẵn từ trang web kho liệu chung mà không cần gán nhãn người dùng Khái niệm không gán nhãn hiểu không thực thao tác thích, mơ tả cách thủ cơng có chủ đích phục vụ cho việc truy vấn 6.1.2 Hướng tiếp cận luận án Chương tiếp cận theo hướng gán phụ đề ảnh dày đặc (dense captioning) từ tập liệu gán nhãn có sẵn Các mơ hình gán phụ đề sử dụng mạng CNN mở rộng với phần tử LSTM (LSTM Cell) giúp mô tả quan hệ đối tượng ảnh Ngồi ra, đối tượng mà người dùng quan tâm ảnh trước nên tiếp cận theo hướng kết hợp mơ hình rút trích thuộc tính từ tập liệu có số lượng nhãn lớn MIT Places[12], Sun Attribute[27] 33 6.2 Mơ hình tìm kiếm đối tượng với truy vấn biểu diễn ngữ nghĩa Hình 6.1 thể chi tiết bước xử lý rút trích đặc trưng đối tượng ảnh, thuộc tính mặt không gian, phát sinh câu mô tả, kết hợp với liệu metadata để xây dựng file mục Mỗi mạng CNN mơ hình huấn luyện từ tập liệu khác thay đổi kiến trúc dễ dàng Hình 6.1: Chi tiết kiến trúc mạng rút trích đặc trưng đánh mục Rút trích đặc trưng ngữ nghĩa Đây bước xử quan trọng nhằm xác định đặc trưng ngữ nghĩa có ảnh Trái với đặc trưng cấp thấp, đặc trưng cấp cao có số chiều biểu diễn hơn, điều giúp tiết kiệm chi phí lưu trữ tính tốn q trình rút trích đặc trưng Hơn đặc trưng cấp cao có biểu diễn gần với ngơn ngữ biểu diễn truy vấn người dùng so với đặc trưng cấp thấp Trong luận án này, đặc trưng nghĩa chúng tơi đề xuất sử dụng bao gồm: • Các đối tượng chính: chúng tơi đề xuất trích xuất đối tượng có tín hiệu kích hoạt đầu cao tập liệu ImageNet 2014 • Các thuộc tính không gian: bao gồm thông tin phân loại không gian ảnh/video frame lấy từ tập liệu MIT Places Sun Attribute • Quan hệ đối tượng ảnh: để biểu diễn tất khía cạnh quan hệ đối tượng ảnh, sử dụng hướng tiếp cận mô tả phụ đề dày đặc (dense captioning) lấy từ tập liệu Visual Genome[83] 34 • Dữ liệu metadata từ người dùng: liệu người dùng tạo bao gồm: tiêu đề ảnh/video, tóm tắt nội dung, nhãn (tag) Xây dựng mục ngược Sau rút trích đặc trưng ngữ nghĩa, việc tìm kiếm tương đương với việc so khớp văn Do nhiệm vụ bước tiến hành tạo mục cho đặc trưng ngữ nghĩa rút trích từ mạng Deep Neural Network Độ tương đồng truy vấn đoạn video Trong phạm vi chương này, với liệu thí nghiệm xây dựng dựa đoạn (shot), kết trả bảng xếp hạng đoạn video Thuật tốn trình bày mã giả thuật tốn tìm kiếm video dựa mơ tả ngữ nghĩa Thuật tốn 6: Thuật tốn tìm kiếm với truy vấn dạng mơ tả result = AdhocQueryRetrieval Đầu vào: D: tập hợp shot video Q: chuỗi câu mô tả truy vấn cung cấp người sử dụng Đầu : result: File mục ngược lưu trữ thông tin đặc trưng ngữ nghĩa tổng hợp Bước 1: Rút trích đặc trưng ngữ nghĩa đối tượng Bước 2: Rút trích đặc trưng ngữ nghĩa mô tả khung cảnh Bước 3: Rút trích đặc trưng ngữ nghĩa mơ tả quan hệ đối tượng Bước 4: Rút trích liệu metadata Bước 5: Tính trọng số dựa tương đồng ngữ nghĩa mơ hình Bước 6: Đánh mục return result 6.3 6.3.1 Kết thử nghiệm Dữ liệu thử nghiệm Chúng tiến hành thử nghiệm hệ thống đề xuất tập liệu lớn TRECVID Ad-hoc Video Search (AVS) Tập liệu bao gồm 4596 video thu thập từ mạng internet với 144GB kích thước 600 thời lượng Có tất 30 câu truy vấn với nội dung mô tả trước 6.3.2 Kết thử nghiệm Chúng tiến hành so sánh với số phương pháp truy vấn khác như: 35 • ITI-CERTH: sử dụng phát khái niệm thuật tốn SVM kết hợp với phương pháp phân tích ngôn ngữ học (Linguistic Analysis) cho câu truy vấn với độ đo khoảng cách Histogram Intersection • HCR (Highlighted Concept Reranking) [33]: sử dụng khoảng 10.000 khái niệm tác giả xây dựng, kết hợp với dataset ImageNet, MIT Places sử dụng tri thức chuyên gia để lọc bớt khái niệm không quan trọng Bảng 6.1 so sánh độ xác phương pháp đề xuất so với hai phương pháp ITI-CERTH HCR hạng mục truy vấn câu mô tả tự động Kết quả cho thấy phương pháp đánh trọng số khái niệm phương pháp tf-idf kết hợp với liệu metadata cho độ xác cao so với hai phương pháp lại Bảng 6.1: Kết thực nghiệm nghiệm tập liệu TRECVID INS 2016 Phương pháp ITI-CERTH HCR [33] Phương pháp đề xuất MAP 5.1 4.6 5.4 Hình 6.2 thể độ xác tất nhóm nghiên cứu tham gia hạng mục xử lý tự động AVS Trục ngang mã viết tắt tất nhóm, trục đứng độ xác tính theo độ đo MAP Hình 6.2: So sánh độ xác với phương pháp khác TRECVID AVS 2016 Từ hướng tiếp cận nhóm nghiên cứu ta thấy rằng, việc sử dụng kết hợp đặc trưng ngữ nghĩa đến từ việc khai thác khái niệm dataset 36 nhiều tiềm Độ xác hệ thống hạng mục cịn thấp cho thấy tốn khó nhiều khả mở rộng phát triển Mặt khác, liệu metadata không đầy đủ đơi có chứa nhiễu việc khai thác nguồn liệu cách hợp lý góp phần làm tăng độ xác hệ thống Điều thể thông qua việc hệ thống đề xuất có độ xác cao hai hệ thống khơng khai thác nguồn liệu ITI-CERTH HCR 6.4 Kết luận Chương đề cập đến loại truy vấn sử dụng mô tả ngữ nghĩa với khía cạnh khác khung ảnh Chúng sử dụng nhãn liên quan đến đối tượng chính, thuộc tính liên quan đến khơng gian, quan hệ đối tượng ảnh liệu metadata cung cấp người dùng kết hợp lại với để xây dựng hệ thống truy vấn So sánh với phương pháp đề xuất thi TRECVID AVS 2016 cho thấy, hạng mục tìm kiếm tự động phương pháp đề xuất chúng tơi cho độ xác cao 37 Chương Kết luận 7.1 Những kết đạt Trong luận án đề xuất số phương pháp hệ thơng để cải tiến tốn tìm kiếm đối tượng Trong Chương 3, đề xuất thuật toán kết hợp cấu trúc mục ngược với spatial pyramid (kim tự tháp không gian) để tăng tốc độ độ xác hệ thống tìm kiếm đối tượng lớn có nhiều đặc trưng hoa văn Trong Chương 4, chúng tơi đề xuất hai thuật tốn để cải tiến độ xác q trình tìm kiếm với đối tượng nhỏ, đặc trưng hoa văn Phương pháp sử dụng mạng neural network để xác định giá trị trọng số kết hợp hai mơ hình BOW thuật tốn phát đối tượng Phương pháp tiếp theo, chúng tơi khai thác vị trí tương đối visual word với vị trí đối tượng đề xuất thuật toán phát đối tượng Mỗi loại visual word có mức độ tin cậy riêng biển diễn hàm trọng số tương ứng Trong Chương 5, giải tốn tìm kiếm với loại truy vấn mới: tìm người địa điểm cho trước Giải pháp đề xuất bao gồm kết hợp đặc trưng mô hình BOW với đặc trưng rút trích từ lớp cuối mạng CNN huấn luyện sẵn Ngoài để tăng độ xác, chúng tơi huấn luyện đặc trưng với máy phân lớp sử dụng linear kernel Ngoài ra, để tăng độ phủ hệ thống, đề xuất phương pháp theo vết địa điểm Chương chúng tơi giải tốn tìm kiếm dựa mô tả ngữ nghĩa người dùng (dạng văn bản) Để giải tốn này, chúng tơi đề xuất mô tả frame video tất khái niệm tập dataset có Câu truy vấn trước người dùng đưa vào chuẩn hóa nhằm giảm bớt sai lệch yếu tố ngơn ngữ gây Trong q trình thực luận án này, ngồi báo cơng bố hội nghị, tạp chí quốc tế có uy tín, tác giả cịn đạt giải thưởng liên quan đến cơng trình nghiên cứu như: • Hạng thi TRECVID Instance Search (INS) 2014 cho hạng mục hệ thống truy vấn tự động, hạng nhì cho năm 2015 2016 • Top 10% báo xuất sắc hội nghị MMSP 2015 38 • Hạng thi SHREC 2016 cho hạng mục tìm kiếm đối tượng 3D với truy vấn dạng bán phần (SHREC 2016 Track on Partial Shape Queries for 3D Object Retrieval) • Hạng thi TRECVID Ad-hoc Video Search (AVS) 2016 cho hạng mục hệ thống truy vấn tự động 7.2 Một số hướng phát triển luận án Dưới số hướng phát triển cho số thể thức loại đối tượng truy vấn: Đối tượng nhỏ đặc trưng: chúng tơi đề xuất phát triển tương lai khai thác cấu trúc mục ngược cho toán phát đối tượng Với hướng tiếp cận này, việc phát đối tượng thực liệu lớn với thời gian gần với thời gian thực Nhóm đối tượng: hướng tiếp cận mà đề nghị phát triển bao gồm: tích hợp cấu trúc mục ngược chiến lược nhánh cận việc lưu trữ đặc trưng gương mặt người rút trích từ kho liệu ảnh Khi tiến hành so sánh vector đặc trưng cấu trúc mục ngược, khoảng cách vượt ngưỡng cho trước khơng xử lý tiếp thành phần cịn lại vector đặc trưng Ngồi ra, mạng CNN dùng để rút trích đặc trưng gương mặt huấn luyện lại để thích nghi với gương mặt đối tượng truy vấn Truy vấn dựa ngữ nghĩa: đề xuất hướng tiếp cận kết hợp với cơng cụ tìm kiếm hình ảnh dựa văn để học online cho kết gần với liệu gán nhãn trước Hướng tiếp cận hiểu dựa biểu diễn từ đồng nghĩa gần nghĩa 39 Phụ lục A Các cơng trình cơng bố Tạp chí quốc tế: [CT1] Vinh-Tiep Nguyen, Thanh Duc Ngo, Minh-Triet Tran, Duy-Dinh Le, Duc Anh Duong: A Combination of Spatial Pyramid and Inverted Index for Large-Scale Image Retrieval, tạp chí International Journal of Multimedia Data Engineering and Management, Volume 6, Number 2, trang 37-51, năm 2015, ISSN: 1947-8534 [CT2] Vinh-Tiep Nguyen, Thanh Duc Ngo, Minh-Triet Tran, Duy-Dinh Le, Duc Anh Duong: Persons-In- Places: a Deep Features Based Approach for Searching a Specific Person in a Specific Location, Informatica2017, Volume 41, Number 2, trang 149–158, năm 2017 [CT3] Vinh-Tiep Nguyen, Duy Dinh Le, Minh-Triet Tran, Tam V Nguyen, Thanh Duc Ngo, Shinichi Satoh, Duc Anh Duong: Video Instance Search via Spatial Fusion of Visual Words and Object Proposals, International Journal of Multimedia Information Retrieval, 2019 (được chấp nhận đăng ngày 15 tháng năm 2019) Hội nghị quốc tế: [CT4] Vinh-Tiep Nguyen, Thanh Duc Ngo, Duy-Dinh Le, Minh-Triet Tran, Duc Anh Duong, Shinichi Satoh: Semantic Extraction and Object Proposal for Video Search, International Conference on Multimedia Modeling (MMM), 2017, Reykjavik, Iceland [CT5] Vinh-Tiep Nguyen, Minh-Triet Tran, Thanh Duc Ngo, Duy Dinh Le, Duc Anh Duong: Searching a specific person in a specific location using deep features, the Seventh Symposium on Information and Communication Technology (SoICT), 2016, Ho Chi Minh city, Vietnam [CT6] Vinh-Tiep Nguyen, Khanh-Duy Le, Minh-Triet Tran, Morten Fjeld: NowAndThen: a Social Network-Based Photo Recommendation Tool Supporting Reminiscence, International Conference on Mobile and Ubiquitous Multimedia (MUM), 2016, Rovaniemi, Finland [CT7] Vinh-Tiep Nguyen, Dinh-Luan Nguyen, Minh-Triet Tran, Duy-Dinh Le, Duc Anh Duong, Shinichi Satoh: Query-adaptive late fusion with neural network for instance search, MMSP 2015: 1-6 (Top 10% Paper Award) 40