Gom cụm kết quả tìm kiếm video với hướng tiếp cận kết hợp đa đặc trưng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	15
Dung lượng	1 MB

Nội dung

Bài viết này nhằm mục đích mở rộng trước đây của chúng tôi nghiên cứu về phân cụm kết quả tìm kiếm video trên web, được báo cáo trong. Để tìm kiếm video, người dùng thường sử dụng các hệ thống tìm kiếm video trực tuyến như YouTube, Google Video.

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 Gom cụm kết tìm kiếm video với hƣớng tiếp cận kết hợp đa đặc trƣng Clustering Web Video Search Results with a Multi-Feature Integration Approach Nguyễn Quang Phúc Abstract: This paper aims to extend our previous researches on clustering web video search results, which reported in [1, 2, 3] To search videos, users usually use online video search systems such as YouTube, Google Video However, the returned search results of these systems may include many videos of different categories, and as a result, users find it difficult to locate video clips of interest Therefore, clustering web video search results is necessary in order to improve the efficiency of searching The main idea of paper based on analysing and combining the features extracted from video to find the set of appropriate features to improve the quality of video clusters Keywords: Clustering web video, video representation, multi-feature integration I GIỚI THIỆU Gom cụm kết tìm kiếm Web cho thấy tính hiệu quả, tiện lợi việc tìm kiếm qua ứng dụng thực tế ứng dụng gom cụm kết tìm kiếm liệu dạng văn Clusty1, Carrot22; liệu hình ảnh ứng dụng tìm kiếm ảnh Google3 Với ý tưởng gom cụm kết tìm kiếm liệu dạng văn hình ảnh, hướng tiếp cận gom cụm kết tìm kiếm liệu video đầu tư nghiên cứu năm gần hướng nghiên cứu mẽ http://clusty.com http://carrot2.org https://images.google.com với nhiều thách thức đặt Để tìm kiếm video, người dùng thường sử dụng cơng cụ tìm kiếm trực tuyến YouTube, Google Video… thông qua câu truy vấn Với câu truy vấn bất kỳ, người dùng nhận số lượng lớn kết trả Tùy thuộc vào khả diễn đạt từ khóa người dùng mà số lượng video thay đổi trải rộng nhiều chủ đề khác Điều gây trở ngại cho người dùng phải tốn nhiều thời gian duyệt danh sách kết để tìm video mong muốn Đặc biệt, truy vấn ngắn hay mơ hồ tính đa nghĩa từ, trường hợp video chủ đề quan tâm bị áp đảo chủ đề khác trình duyệt tìm video mong muốn người dùng gặp nhiều khó khăn Gom cụm kết tìm kiếm video giải pháp khắc phục vấn đề Giải pháp giúp người dùng có nhìn tổng quan thông qua chủ đề video cụ thể gom cụm Từ đó, người dùng dễ dàng loại bỏ cụm video không phù hợp xác định video cần tìm thời gian ngắn thay phải duyệt tồn danh sách kết video trả Dữ liệu đầu vào đầu toán gom cụm kết tìm kiếm video minh họa trực quan Hình Một thách thức lớn giải tốn gom cụm kết tìm kiếm video ước lượng độ tương tự video Danh sách video từ kết tìm kiếm video Web gom thành cụm cách áp dụng thuật toán gom cụm dựa độ tương tự video Thông thường, độ tương tự video tính tốn dựa biểu diễn chúng -80- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 Đầu vào (danh sách video trả từ kết tìm kiếm Web) Đầu (các cụm video theo chủ đề) Cụm Cụm Cụm Hình Minh họa trực quan liệu đầu vào đầu toán gom cụm kết tìm kiếm video ứng với truy vấn “Tiger” YouTube Dữ liệu video dạng liệu có cấu trúc phức tạp với nhiều loại đặc trưng đặc trưng thị giác (visual), âm (audio) hay thông tin văn kèm Để biểu diễn video, cách đơn giản sử dụng loại đặc trưng cụ thể Theo hướng tiếp cận này, Liu cộng khai thác thông tin từ đặc trưng thị giác để biểu diễn so khớp video [4] Tuy nhiên, để biểu diễn thông tin nội dung video cách đầy đủ phù hợp cho việc so khớp hiệu việc sử dụng đặc trưng riêng lẻ để biểu diễn video trở nên hạn chế Một hướng tiếp cận sử dụng kết hợp đa đặc trưng nhằm khai thác ưu loại đặc trưng giúp nâng cao hiệu so khớp gom cụm video [5, 6] Trong [5], Hindle cộng khai thác song song đặc trưng thị giác thông tin văn kèm video Tuy nhiên, kỹ thuật sử dụng để rút trích đặc trưng biểu diễn video đơn giản chưa phát huy ưu loại đặc trưng Đối với đặc trưng thị giác, tác giả đề xuất mơ hình BCS (Bounded Coordinate System) để biểu diễn video, mơ hình chủ yếu khai thác thơng tin màu sắc video Mơ hình hiệu biểu diễn video có màu sắc tương đối ổn định, video có nội dung đa dạng với bối cảnh màu sắc khác mơ hình có phần hạn chế Đối với thông tin văn kèm video, tác giả sử dụng hướng tiếp cận so sánh theo cặp từ (word-by-word), hạn chế phương pháp bỏ qua tính ngữ nghĩa từ Trong [6], Huang cộng khai thác thông tin từ đặc trưng thị giác thông tin văn kèm video Với đặc trưng thị giác, tác giả trọng vào tính bất biến đối tượng, hình ảnh video kết hợp với thông tin màu sắc Với thông tin văn kèm video, tác giả sử dụng mơ hình VSM (Vector Space Model) để biểu diễn so khớp thông tin văn Mô hình dựa vào tần suất xuất từ văn để xác định độ tương đồng văn Tuy nhiên, đặc điểm thông tin văn kèm video thường dạng văn ngắn mô tả người dùng khác với ngôn từ khác nên tần suất xuất từ giống -81- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT văn chí khơng có Vì vậy, việc sử dụng mơ hình VSM để biểu diễn so khớp thông tin văn kèm video chưa thật hiệu Nhìn chung, cơng trình trước trọng vào việc khai thác đặc trưng từ liệu video thiên xử lý đặc trưng thị giác trích xuất trực tiếp từ nội dung video thông tin văn kèm Tập liệu video Mơ hình tổng qt cho tốn gom cụm kết tìm kiếm video thể Hình bao gồm thành phần sau: Trích xuất đặc trƣng Tính độ tƣơng tự Thuật tốn gom cụm Kết gom cụm video Hình Mơ hình tổng qt cho tốn gom cụm kết tìm kiếm video  Dữ liệu video: Dữ liệu video thu thập từ kết tìm kiếm video kênh video trực tuyến (ví dụ YouTube, Google Video) Thơng qua nghiên cứu cơng trình liên quan trước đó, chúng tơi chọn hướng tiếp cận kết hợp đa đặc trưng để giải tốn gom cụm kết tìm kiếm video Chúng tơi tập trung vào việc phân tích đặc điểm thông tin văn kèm video trọng vào nội dung ngữ nghĩa kết hợp với đặc trưng thị giác để nâng cao chất lượng gom cụm video [1, 2] Dựa việc phân tích đặc điểm loại đặc trưng video, đề xuất sử dụng thêm đặc trưng âm kết hợp với đặc trưng thị giác thông tin văn kèm video để nâng cao chất lượng cụm video [3] Trong báo này, tiếp tục phát triển hướng nghiên cứu gom cụm kết tìm kiếm video [1, 2, 3] dựa việc phân tích, kết hợp đặc trưng liệu video để tìm đặc trưng phù hợp nhằm nâng cao chất lượng gom cụm video Ý tưởng kết hợp độ tương tự video theo loại đặc trưng Cụ thể, tận dụng thông tin từ loại đặc trưng như: thị giác, âm thông tin văn kèm video để làm tăng khả khai thác độ tương đồng video từ nâng cao chất lượng gom cụm video Ngoài ra, ứng dụng web xây dựng minh họa chức gom cụm kết tìm kiếm video, với chức kết tìm kiếm video thay trình bày danh sách phẳng thuộc nhiều chủ đề trộn lẫn với tổ chức theo cụm ứng với chủ đề cụ thể từ giúp người dùng xác định video mà họ quan tâm cách nhanh chóng Tập V-2, Số 16 (36), tháng 12/2016  Trích xuất đặc trƣng biểu diễn video: Video biểu diễn dựa đặc trưng như: đặc trưng thị giác (visual), đặc trưng âm (audio), thông tin văn kèm video Kết giai đoạn video đại diện véc tơ đặc trưng đa chiều ứng với đặc trưng  Tính độ tƣơng tự: Độ tương tự tính nhằm mục đích so khớp hai video có tương tự nội dung hay không Độ tương tự lớn khả hai video có nội dung tương tự cao Độ tương tự hai video ước lượng dựa khoảng cách hai véc tơ đặc trưng biểu diễn chúng với độ đo phổ biến Cosine, L1 (Manhattan), L2 (Euclidean)  Gom cụm video: Áp dụng thuật toán gom cụm để thực gom cụm video dựa độ đo tương tự Trong báo này, chúng tơi tập trung vào hai thành phần trích xuất đặc trưng biểu diễn video tính độ tương tự so khớp video Chúng không đặt trọng tâm vào việc phân tích thuật tốn gom cụm thuật toán gom cụm xây dựng ổn định, mặt khác chất lượng kết gom cụm video phụ thuộc chủ yếu vào độ tương đồng video dựa biểu diễn chúng Các mục báo tổ chức sau: mục trình bày chi tiết giải pháp đề xuất, mục trình bày kết thí nghiệm, mục thảo luận kết đạt -82- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 II GIẢI PHÁP ĐỀ XUẤT II.1 Mơ hình đề xuất Việc khai thác đặc trưng thị giác giúp gom video thị giác (sự xuất đối tượng, hình ảnh) giống cụm Tuy nhiên, với đa dạng liệu video Web, video có nội dung tương tự (tức thuộc chủ đề) có đối tượng hình ảnh khơng giống Khi đó, việc khai thác nội dung ngữ nghĩa từ thơng tin văn kèm video (ví dụ thành phần tiêu đề, mô tả hay thẻ từ khóa) giúp gom video có nội dung tương đồng ngữ nghĩa cụm Do đó, đặc trưng thị giác thông tin văn kèm video góp phần bổ sung cho để biểu diễn nội dung video cách “đầy đủ” làm tăng khả khai thác độ tương đồng chất lượng gom cụm video Tuy nhiên, vấn đề đặt việc khai thác nội dung thông tin văn kèm video thực hiệu chúng mô tả với nội dung thực video Trong thực tế, thông tin kèm video người dùng khai báo chia sẻ kênh video trực tuyến Các thông tin khơng khớp với nội dung thực video nhiều lý khác cảm nhận chủ quan người dùng, thu hút lượt xem Trong ngữ cảnh vậy, tin việc khai thác kết hợp đặc trưng âm (ví dụ video ca nhạc thường có âm tiếng reo hò, tiếng vỗ tay; video đua xe âm kèm tiếng động xe ) góp phần cải thiện chất lượng gom cụm video Từ phân tích trên, xem xét mối kết hợp đặc trưng thị giác, đặc trưng âm thông tin văn kèm video để giải toán gom cụm kết tìm kiếm video (xem Hình 3) Tập liệu video Đặc trƣng âm Độ tƣơng tự Đặc trƣng thị giác Độ tƣơng tự Thông tin văn Độ tƣơng tự Kết gom cụm video Độ tƣơng tự kết hợp Hình Mơ hình kết hợp đa đặc trưng giải tốn gom cụm kết tìm kiếm video II.2 Biểu diễn tính độ tƣơng tự video theo đặc trƣng thị giác Một video bao gồm tập hợp frame Đặc trưng thị giác rút trích trực tiếp từ frame biểu diễn dạng véc tơ đặc trưng Mỗi video biểu diễn tập véc tơ đặc trưng Với cách biểu diễn này, độ tương tự video tính thơng qua việc so sánh độ tương tự frame video (tức frame video phải so sánh với tất frame video kia) (xem Hình 4) Phương pháp không hiệu số lượng frame video số lượng video lớn X fx1 fx2 fx3 fx4 fx5 fx6 fx7 fx8 fx2 fx3 fx5 fx8 fy2 fy4 fy7 fy9 fx9 fxm fyn Y fy1 fy2 fy3 fy4 fy5 fy6 fy7 fy8 fy9 Hình Video X với m frame, video Y với n frame Độ tương tự hai video tính thơng qua việc so sánh cặp frame (frame-by-frame) Mặt khác, liệu video kênh video trực tuyến tùy chỉnh chia sẻ nhiều người dùng Điều dẫn đến số lượng frame khác hoàn toàn phiên video Trong trường hợp này, xem xét tính tương đồng video dựa việc ước lượng số frame tương tự chúng phương pháp nêu khơng phản ánh hoàn toàn độ tương đồng -83- X Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT video Cho video X, tạo video Y cách chọn frame video X lặp lại nhiều lần Nếu số frame video Y lớn số frame video X hai video X Y xem tương tự chúng có frame tương tự Vấn đề khắc phục cách gom frame tương tự video thành cụm không giao Một cụm lý tưởng chứa frame tương tự khơng có frame tương tự nằm cụm khác Khi đó, độ tương tự hai video X Y ước lượng thông qua việc xem xét số cụm tạo từ hợp hai tập frame video X Y (X Y) Nếu cụm mà có chứa frame thuộc hai video frame xem tương tự theo đặc trưng thị giác Tỷ lệ số cụm chứa frame hai video tổng số cụm tạo xem độ tương tự hai video Độ tượng tự xem lý tưởng.Tuy nhiên, chi phí thực tính tốn cao Giả sử cần tính độ tương tự hai video có l frame, yêu cầu phải thực tính tốn khoảng cách tương đồng l2 cặp frame trước chạy thuật tốn gom cụm frame tính độ tương tự hai video Hơn nữa, tính tốn đòi hỏi phải lưu trữ tồn liệu video Điều không phù hợp cho ứng dụng có sở liệu lớn Trong nhiều ứng dụng thực tế đánh mục, tìm kiếm video hay xác định video trùng lặp độ tương tự video ước lượng xấp xỉ nhằm giảm chi phí tính tốn thay phải biểu diễn tồn thơng tin liệu video để tìm độ tương tự lý tưởng với chi phí tính tốn không gian lưu trữ lớn Trong báo này, thay phải ước lượng tỷ lệ frame tương tự để tính độ tương tự video, chọn hướng tiếp cận biểu diễn liệu video với đại diện có kích thước cố định véc tơ đặc trưng đa chiều Độ tương tự video ước lượng thơng qua việc tính toán khoảng cách véc tơ đặc trưng đại diện chúng Quá trình biểu diễn video theo đặc trưng thị giác thể Hình bao gồm bước sau: Tập V-2, Số 16 (36), tháng 12/2016 (i) Rút trích frame Tập liệu video Tập frame (ii) Rút trích đặc trƣng thị giác Tập đặc trưng (iii) Gom cụm đặc trƣng Tập visual word (từ điển) (iv) Biểu diễn video Hình Quá trình biểu diễn video theo đặc trưng thị giác  Rút trích frame: frame rút trích từ tập liệu video  Rút trích keypoint từ frame mơ tả keypoint (keypoint descriptor): rút trích keypoint (hay interest point) xác định vị trí (điểm ảnh) “hấp dẫn” frame “Hấp dẫn” có nghĩa điểm có đặc trưng bất biến thay đổi cường độ chiếu sáng, co giãn hay xoay ảnh Sau key-point rút trích, mơ tả (descriptor) sử dụng để mô tả keypoint dạng véc tơ đặc trưng đa chiều phục vụ cho việc tính tốn khoảng cách, gom cụm keypoint thực bước  Gom cụm keypoint, xây dựng “visual vocabulary4”: thuật toán gom cụm áp dụng để thực gom cụm keypoint, cụm xem “visual word” từ điển “visual vocabulary”  Biểu diễn video: Tính tần suất xuất video “visual word” “visual vocabulary” Kết thúc bước này, video biểu diễn histogram (tạm dịch biểu đồ tần suất) với cột mô tả số lần xuất “visual word” video Histogram ánh xạ thành véc tơ đặc trưng có số chiều tương ứng với số “visual word” có từ điển Trong biểu diễn liệu dạng văn (text), từ định nghĩa “word” Trong xử lý video, khái niệm “visual word” hiểu tương tự “word” xử lý văn bản, “visual vocabulary” xem từ điển chứa “visual word” -84- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT II.3 Biểu diễn tính độ tƣơng tự video theo đặc trƣng âm Như phân tích trước đó, đặc trưng âm đóng vai trò quan trọng việc thể nội dung video giúp làm tăng khả khai thác tương đồng video Tương tự trình biểu diễn video dựa đặc trưng thị giác, sau đặc trưng âm trích xuất từ tập liệu video biểu diễn dạng tập véc tơ đặc trưng, trình gom cụm đặc trưng tạo từ điển tiến hành Cuối cùng, video biểu diễn véc tơ đặc trưng với số chiều tương ứng với số từ từ điển Độ tương tự video tính khoảng cách véc tơ đại diện chúng văn dài văn dài có nội dung tương tự thường chứa đựng từ ngữ giống Tuy nhiên, văn ngắn tần suất xuất từ giống hay chí khơng có từ ngữ giống Điều chủ yếu tính linh hoạt vốn có ngôn ngữ tự nhiên cho phép người dùng thể nội dung với ngôn từ khác Trong báo này, đề xuất sử dụng từ điển từ đồng nghĩa WordNet5 để tính độ tương tự ngữ nghĩa từ thể thông tin văn kèm video Mô hình tính độ tương tự video dựa thông tin văn kèm sử dụng từ điển WordNet thể Hình Tập liệu video Rút trích audio đặc trưng Tập liệu video Tập audio Lấy mẫu gom cụm Tập véc tơ đặc trƣng Các phương pháp truyền thống tính độ tương đồng văn (ví dụ Bag-of-Words hay Vector Space Model) chủ yếu tập trung phân tích từ ngữ dùng chung (sự giống từ) văn Các phương pháp hiệu áp dụng cho Độ tương tự WordNet Độ tương tự ngữ nghĩa Hình Q trình tính độ tương tự video dựa thơng tin văn kèm sử dụng từ điển WordNet [2, 3] Hình Sơ đồ mơ tả q trình tạo từ điển biểu diễn video dựa đặc trưng âm Thơng tin văn kèm video (ví dụ tiêu đề (title), mô tả (description), thẻ từ khóa (tags)) thể nội dung ngữ nghĩa video giúp cải thiện chất lượng gom cụm video Thông tin văn kèm video thường người dùng mô tả dạng cụm từ, câu hay đoạn văn ngắn Độ tương đồng video ước tính dựa độ tương đồng ngữ nghĩa mô tả Thơng tin văn Các thẻ từ khóa (Tags) Từ điển II.4 Tính độ tƣơng tự video dựa thơng tin văn kèm Độ tương tự ngữ nghĩa Tiêu đề + Mơ tả (Title + Description) Q trình tạo từ điển biểu diễn video theo đặc trưng âm thể sơ đồ Hình Trích xuất Tập V-2, Số 16 (36), tháng 12/2016 Ở mô hình thể Hình 7, chúng tơi kết hợp tiêu đề mô tả video chung thành phần loại video chia sẻ Web YouTube việc mơ tả thơng tin cho video thành phần thông tin văn không bị ràng buộc theo quy tắc nào, tức thơng tin mang tính giới thiệu, mơ tả nội dung video diễn đạt chi tiết thành phần tiêu đề (title) diễn đạt chi tiết thành phần mơ tả (description) video Do đó, để tận dụng tất thơng tin có thể, chúng tơi kết hợp tiêu đề mô tả video chung thành phần xem chúng văn ngắn, xem xét thẻ từ khóa video văn ngắn khác http://wordnet.princeton.edu -85- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Begin //Biểu diễn video thành vector đặc trưng Biểu diễn video thành vector dựa đặc trưng thị giác theo [2] Biểu diễn video thành vector dựa đặc trưng âm theo [3] Biểu diễn thông tin văn kèm video thành tập hợp từ theo [2] Khi đó, độ tương tự video ước lượng dựa độ tương tự ngữ nghĩa văn ngắn hai thành phần tiêu đề + mơ tả, thẻ từ khóa mô tả thông tin văn video II.5 Gom cụm video dựa độ tƣơng tự kết hợp đa đặc trƣng Mỗi video biểu diễn với đặc trưng thị giác, âm văn xem đối tượng cụ thể Độ tương tự hai video X Y tính theo công thức sau: ( ( ) ) ( ( ( ) ) ) //Tính độ tương tự video ( (1) (  ( ) trọng số đặc trưng Trọng số nhằm nhấn mạnh ưu đặc trưng cụ thể Chẳng hạn , , , trọng số lớn cho thấy đặc trưng thị giác nhấn mạnh Sau độ tương tự video tính, thuật tốn gom cụm liệu áp dụng để thực gom cụm video với đầu vào ma trận lưu độ tương tự video II.6 Giải thuật tổng quát cho giải pháp đề xuất Các bước thực gom cụm kết tìm kiếm video giải pháp đề xuất thể giải thuật sau: Giải thuật tổng quát cho giải pháp đề xuất Input: Danh sách video trả truy vấn máy tìm kiếm, số cụm k (ứng với số chủ đề truy vấn) công tập hợp từ dựa từ điển WordNet Tính độ tương tự kết hợp trưng video theo công ( ( ) độ tương tự hai video X Y theo đặc trưng âm ( ) độ tương tự hai video X Y theo thông tin văn kèm ) công ) vector theo thức tính khoảng cách cosine Tính độ tương tự ngữ nghĩa ( ) độ tương tự hai video X  Y theo đặc trưng thị giác  ( Tính độ tương tự ) độ tương tự hai video X Output: Các cụm video ) vector theo thức tính khoảng cách cosine Y  ( Tính độ tương tự Trong đó:  Tập V-2, Số 16 (36), tháng 12/2016 với ( [2] đa đặc thức: ) ) //Gom cụm video Áp dụng thuật toán gom cụm K-Medoids để thực gom cụm video dựa độ đo tương tự kết hợp đa đặc trưng video thực tính trước End Vấn đề cốt lõi để giải toán gom cụm kết tìm kiếm video ước lượng độ tương đồng video dựa biểu diễn chúng Q trình trích xuất đặc trưng biểu diễn video xử lý offline (quá trình xử lý máy chủ cơng cụ tìm kiếm video thời điểm video lập mục) Quá trình thực trực tuyến (online) thời gian thực gom cụm video Q trình khơng nhiều thời gian tính tốn (độ phức tạp tính tốn ước tính theo thuật tốn gom cụm KMedoids cho lần lặp O(kn2) với k số cụm, n số video) Điều phù hợp với hệ thống tìm kiếm video thực tế người dùng ln kỳ vọng kết tìm kiếm video cần trả cách nhanh chóng sau họ nhập truy vấn -86- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 Bảng Bộ liệu video thực nghiệm III THỰC NGHIỆM Trong phần này, chúng tơi trình bày thực nghiệm đánh giá chất lượng gom cụm kết tìm kiếm video dựa cách tiếp cận kết hợp đa đặc trưng Thứ nhất, mô tả liệu video Thứ hai, chúng tơi trình bày phương pháp đánh giá chất lượng gom cụm video Thứ ba, chúng tơi trình bày cài đặt thực nghiệm Cuối cùng, chúng tơi trình bày chi tiết kết thực nghiệm thảo luận Truy vấn Số video Số chủ đề Tổng số video Apple 80 7.5 Aston 82 5.3 Cobra 92 5.0 Dragon 82 5.6 Jaguar 86 5.1 Java 87 7.2 Jupiter 82 5.1 III.1 Bộ liệu video Leopard 95 6.4 Dữ liệu video thực tải từ kết tìm kiếm video YouTube phần mềm mã nguồn mở TubeKit6 Với truy vấn, tải khoảng 80 đến 100 video thực loại bỏ số video biệt lập, liên quan đến truy vấn tìm kiếm Sự loại bỏ hợp lý chúng tơi thử nghiệm tính hậu xử lý gom cụm kết tìm kiếm video khơng phải tìm kiếm xác cơng cụ tìm kiếm video Các video sau tải gán nhãn thủ công theo chủ đề cụ thể để làm sở đánh giá kết gom cụm video Các thí nghiệm tiến hành liệu gồm 1752 video 20 truy vấn với từ khóa khác Thơng tin chi tiết liệu video mô tả Bảng Lion 89 6.2 10 Lotus 91 5.5 11 Mustang 83 5.6 12 Ocean 90 5.5 13 Panda 97 5.8 14 Pluto 85 8.8 15 Python 85 5.1 16 Scorpion 90 6.7 17 Tiger 81 4.3 18 Venus 89 6.9 19 Viper 87 4.5 20 Zebra 99 6.0 III.2 Phƣơng pháp đánh giá Chất lượng gom cụm video đánh giá hai độ đo phổ biến Entropy Purity Giả sử có tập gồm n video thuộc k chủ đề gán nhãn thủ công ký hiệu Cj với j = 1, ,k thuật toán gom cụm n video vào k cụm Pi với i = 1, ,k Entropy đánh giá chất lượng gom cụm tính theo cơng thức sau: ∑ ∑ (2) Trong đó: ni số video cụm Pi, nij số video cụm Pi thuộc chủ đề Cj, n tổng số video tất cụm Trường hợp lý tưởng cụm chứa video thuộc chủ đề Khi đó, giá trị Entropy khơng Nói cách tổng qt, giá trị Entropy nhỏ cho chất lượng gom cụm tốt Ngược lại với Entropy, Purity phản ánh độ tinh khiết cụm, giá trị Purity lớn cho kết gom cụm tốt Purity đánh giá chất lượng gom cụm tính theo cơng thức sau với ký hiệu có ý nghĩa tương tự cơng thức tính Entropy: ∑ ( III.3 Các cài đặt thực nghiệm www.tubekit.org -87- ) (3) Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Với mục đích so sánh đánh giá hiệu giải pháp đề xuất, tiến hành cài đặt phương pháp sở [2, 3, 5, 6] Mặt khác, để làm sở phân tích đánh giá ưu loại đặc trưng xác định đặc trưng phù hợp nhằm nâng cao chất lượng kết gom cụm video, tiến hành cài đặt bổ sung thí nghiệm kết hợp đặc trưng khác Cụ thể phương pháp cài đặt bao gồm:  Gom cụm video theo đặc trưng riêng lẻ  V (Visual): gom cụm video dựa đặc trưng thị giác [2, 3]  A (Audio): gom cụm video dựa đặc trưng âm [3]  T (Textual): gom cụm video dựa thông tin văn kèm [2, 3]  Gom cụm video dựa cách kết hợp đặc trưng khác với cách kết hợp tuyến tính khơng có trọng số Với cách kết hợp này, vai trò đặc trưng đánh giá tương đương  V-A (Visual – Audio): gom cụm video dựa đặc trưng thị giác đặc trưng âm  V-T (Visual – Textual): gom cụm video dựa đặc trưng thị giác thông tin văn kèm video Ở kịch thử nghiệm này, nhằm mục đích đánh giá hiệu phương pháp mà đề suất sử dụng [2] với phương pháp sử dụng [5, 6], thực cài đặt sau:  V-T [2]: Rút trích biểu diễn đặc trưng thị giác với SIFT (Scale-Invariant Feature Transform) + so khớp thông tin văn kèm video sử dụng từ điển WordNet  V-T [5]: Rút trích biểu diễn đặc trưng thị giác với mơ hình BCS + biểu diễn so khớp thông tin văn kèm video sử dụng mô hình Bag-of-Words ngun thủy  V-T [6]: Rút trích biểu diễn đặc trưng thị giác với SIFT + biểu diễn so khớp thông tin văn kèm video sử dụng mơ hình VSM  A-T (Audio – Textual): gom cụm video dựa đặc trưng âm thông tin văn kèm video Tập V-2, Số 16 (36), tháng 12/2016  V-A-T (Visual – Audio – Textual): gom cụm video dựa đặc trưng thị giác, đặc trưng âm thông tin văn kèm video  Gom cụm video dựa cách kết hợp đa đặc trưng với cách kết hợp có trọng số theo công thức (1)  V*-A*-T* (Visual – Audio – Textual): gom cụm video dựa đặc trưng thị giác, đặc trưng âm thông tin văn kèm video có sử dụng trọng số cho đặc trưng Sau chi tiết phương pháp cài đặt biểu diễn video, lựa chọn trọng số cho đặc trưng trình thực gom cụm video: Biểu diễn video: Với đặc trưng thị giác, yếu tố quan trọng để tăng độ xác so khớp video điểm đặc trưng cục (local keypoint features) rút trích từ frame phải bất biến với biến đổi độ sáng, tỉ lệ co giãn, phép xoay Một phương pháp rút trích mơ tả đặc trưng cục đáp ứng yêu cầu sử dụng phổ biến Scale-Invariant Feature Transform (SIFT) [7, 8] bao gồm bước phát mô tả điểm đặc trưng Các điểm đặc trưng phát mô tả frame video Với đặc trưng, véc tơ 128 chiều tạo từ mô tả SIFT Như vậy, frame video biểu diễn bao gồm tập véc tơ đặc trưng 128 chiều Video biểu diễn tập hợp tập véc tơ đặc trưng biểu diễn cho frame Từ tập véc tơ đặc trưng biểu diễn cho video, chúng tơi sử dụng thuật tốn gom cụm Approximate K-Means để tạo từ điển gồm 1000 từ (ứng với visual word) với 10 lần lặp Sau cùng, theo mơ hình Bag-of-Words, video biểu diễn thành véc tơ đặc trưng với 1000 chiều Độ tương tự video tính khoảng cách véc tơ đại diện chúng Với đặc trưng âm thanh, sử dụng MelFrequency Cepstral Coefficients (MFCC) [9] để biểu diễn đặc trưng âm trích xuất từ video Kỹ thuật rút trích đặc trưng âm dựa việc thực biến đổi để chuyển liệu âm đầu vào (tập -88- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT tin âm ứng với video) thang đo tần số Mel, kỹ thuật trích chọn bao gồm bước biến đổi liên tiếp, liệu đầu phép biến đổi làm liệu đầu vào cho bước biến đổi Tín hiệu âm rời rạc hóa, bao gồm mẫu liên tiếp biểu diễn máy tính Chúng thực lấy mẫu với tần số khoản 300Hz3700Hz, chia tín hiệu âm thành đoạn nhỏ với 25ms cho khung hình Rút trích đặc trưng MFCC cho ta tập đặc trưng (biểu diễn dạng véc tơ) cho khung hình Như vậy, tập tin âm biểu diễn tập hợp tập véc tơ đặc trưng biểu diễn cho khung hình chia Sau đó, q trình gom cụm véc tơ đặc trưng tạo từ điển tiến hành Dựa mơ hình Bag-of-Words, đặc trưng âm biểu diễn dạng tập véc tơ trích xuất từ tập liệu video gom cụm vào nhóm (cluster), cluster ứng với audio word (về ý nghĩa tương tự word (từ) xử lý văn bản) Tập cluster tạo thành từ điển Sau rút trích đặc trưng âm bước trước video biểu diễn tập véc tơ đặc trưng, bước véc tơ đặc trưng gán vào cluster gần từ điển (dựa vào khoảng cách véc tơ đến tâm cluster đại diện) Sau cùng, video biểu diễn véc tơ đặc trưng với số chiều tương ứng với số cluster (audio word) có từ điển Độ tương tự video tính dựa khoảng cách véc tơ đại diện chúng Với thông tin văn kèm video, sau nghiên cứu rộng rãi số phương pháp, đề xuất sử dụng phương pháp tác giả Li khai thác từ điển từ đồng nghĩa WordNet để tính độ tương tự ngữ nghĩa từ, phương pháp có tương quan tốt với đánh giá người mức độ tương tự ngữ nghĩa từ trình bày [10] Lựa chọn trọng số: Tập V-2, Số 16 (36), tháng 12/2016 Đối với đa dạng liệu video web đặc trưng thị giác, đặc trưng âm thông tin văn kèm có vai trò định việc thể nội dung video Trong trường hợp cụ thể vai trò đặc trưng thể khơng giống Việc sử dụng trọng số alpha, beta cho loại đặc trưng công thức (1) nhằm tối ưu hóa chất lượng kết gom cụm video Với trọng số , ( ) công thức (1), tiến hành chạy thực nghiệm cách thay đổi giá trị trọng số với bước nhảy 0.1 để tìm trọng số phù hợp Cụ thể, ( ) với ( ) Ví dụ: ( ), ( ), , ( ) Qua thực nghiệm, nhận thấy với trọng số (ứng với đặc trưng thị giác), (ứng với đặc trưng âm thanh), (ứng với thông tin văn kèm video) cho kết tốt trường hợp lại Gom cụm video: Có nhiều thuật tốn gom cụm phổ biến như: KMeans, K-Medoids Tuy nhiên, thử nghiệm gom cụm video với thuật tốn K-Medoids đặc điểm thuật toán chọn đối tượng cụ thể để làm trọng tâm cụm độ đo khoảng cách đối tượng cần tính lần Điều phù hợp với đầu vào độ đo tương tự kết hợp đa đặc trưng video xử lý tính tốn trước Đối với tốn gom cụm tổng qt số cụm khai báo linh động người dùng Số cụm tỷ lệ đối tượng khác gom cụm cao, số cụm nhiều tỷ lệ đối tượng giống gom vào cụm khác lớn Trong báo này, để công việc đánh giá phương pháp thực nghiệm, tiến hành thử nghiệm thuật toán gom cụm với số cụm đầu vào tương ứng với số chủ đề truy vấn III.4 Kết thí nghiệm Kết gom cụm liệu video ứng với truy vấn khác đánh giá qua hai chuẩn -89- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT độ đo Entropy Purity thể Bảng Bảng Kết thể Bảng cho thấy phương pháp V-T [2] cho kết gom cụm video tốt (đạt giá trị Entropy thấp hơn) phương pháp V-T [5], V-T [6] toàn liệu video truy vấn Điều chứng tỏ phương pháp rút trích biểu diễn đặc trưng thị giác với SIFT kết hợp với phương pháp so khớp thông tin văn kèm video sử dụng từ điển WordNet mà đề xuất sử dụng [2] cho chất lượng gom cụm video tốt so với phương pháp sử dụng trước Vì thế, thực nghiệm tiếp theo, sử dụng SIFT để biểu diễn đặc trưng thị giác từ điển WordNet việc so khớp thông tin văn kèm video Sau đây, chúng tơi tiếp tục đánh giá vai trò loại đặc trưng cụ thể ảnh hưởng đến chất lượng gom cụm video Dựa vào kết thực nghiệm Bảng Tập V-2, Số 16 (36), tháng 12/2016 2, thấy đa số truy vấn phương pháp sử dụng đặc trưng thị giác (V) đặc trưng âm (A) cho kết gom cụm video tốt (đạt giá trị Entropy thấp hơn) so với thông tin văn kèm (T) Điều cho thấy đặc trưng thị giác đặc trưng âm chiếm ưu so với thông tin văn kèm video thực gom cụm video dựa loại đặc trưng riêng lẻ Ngoài ra, kết gom cụm video việc kết hợp cặp đặc trưng khác cho thấy phương pháp kết hợp đặc trưng thị giác đặc trưng âm (V-A) cho kết gom cụm tốt so với phương pháp kết hợp đặc trưng thị giác với thông tin văn (V-T) hay đặc trưng âm với thông tin văn (A-T) Điều cho thấy xu hướng video có nội dung tương tự (tức thuộc chủ đề) thường có đối tượng hình ảnh, âm giống Bảng Kết gom cụm video đánh giá theo Entropy Truy vấn Entropy Apple 0.5414 0.5004 0.5122 0.4442 0.4586 0.5141 0.5001 0.4895 0.4378 V*-A*-T* 0.2884 Aston 0.5130 0.4277 0.5111 0.3896 0.4465 0.4918 0.4861 0.4299 0.3953 0.3276 Cobra 0.5523 0.5145 0.5837 0.4545 0.5258 0.5593 0.5341 0.4883 0.4675 0.3048 Dragon 0.5317 0.4649 0.6410 0.3454 0.4403 0.5312 0.4929 0.5382 0.3892 0.2817 Jaguar 0.4713 0.4465 0.5251 0.3518 0.3681 0.4402 0.4240 0.4237 0.3723 0.2146 Java 0.2844 0.3266 0.5149 0.1584 0.2083 0.3525 0.2322 0.3529 0.1187 0.0570 Jupiter 0.3300 0.4182 0.4875 0.2538 0.2701 0.3992 0.3080 0.4467 0.2891 0.1883 Leopard 0.4160 0.5057 0.5610 0.2252 0.2686 0.3767 0.3234 0.5320 0.2487 0.1029 Lion 0.5412 0.5030 0.5570 0.4660 0.4828 0.5311 0.5113 0.4893 0.4880 0.3126 10 Lotus 0.5096 0.5018 0.6525 0.3423 0.3751 0.4857 0.4426 0.5789 0.3894 0.1431 11 Mustang 0.5500 0.5203 0.5887 0.4347 0.4828 0.5233 0.5111 0.5137 0.4662 0.1869 12 Ocean 0.5716 0.5351 0.6559 0.4622 0.5207 0.5766 0.5421 0.5708 0.4971 0.3064 13 Panda 0.4066 0.5106 0.6058 0.2693 0.2803 0.4181 0.3321 0.5396 0.3069 0.2082 14 Pluto 0.3546 0.3166 0.5026 0.2887 0.3396 0.3715 0.3402 0.4191 0.3223 0.1773 15 Python 0.3320 0.4048 0.5246 0.2023 0.2352 0.3685 0.2545 0.4521 0.2467 0.1068 16 Scorpion 0.4294 0.3707 0.6082 0.3099 0.3735 0.4445 0.3987 0.4044 0.3331 0.2454 17 Tiger 0.4181 0.4147 0.5460 0.3301 0.3682 0.4120 0.3811 0.4237 0.3561 0.2185 18 Venus 0.5598 0.5001 0.6751 0.4336 0.4813 0.5426 0.5069 0.4813 0.4112 0.2072 19 Viper 0.5415 0.5018 0.5927 0.3729 0.4301 0.5560 0.4842 0.5356 0.4160 0.2527 20 Zebra 0.6405 0.5963 0.6863 0.5156 0.5598 0.6302 0.6098 0.6532 0.4992 0.3094 Trung bình 0.4748 0.4640 0.5766 0.3525 0.3958 0.4763 0.4308 0.4881 0.3725 0.2220 V [2, 3] A [3] T [2, 3] V-A V-T [2] -90- V-T [5] V-T [6] A-T V-A-T Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 Với phong phú, đa dạng liệu video web video thuộc chủ đề có đối tượng hình ảnh âm khác Khi đó, chúng tơi tin việc khai thác thông tin văn kèm video giúp cải thiện chất lượng gom cụm Như vậy, thơng tin trích xuất từ đặc trưng thị giác, đặc trưng âm thông tin văn kèm video bổ trợ cho làm tăng khả khai thác tương đồng video từ nâng cao chất lượng kết gom cụm Bảng cho thấy phương pháp cho kết gom cụm video tốt (đạt giá trị Entropy thấp chứng minh xác suất phân bố video thuộc chủ đề vào cụm khác thấp nhất) hầu hết liệu video thực nghiệm Bằng thực nghiệm, thấy với trọng số (ứng với đặc trưng thị giác), (ứng với đặc trưng âm thanh), (ứng với thông tin văn kèm video) cho kết tốt trường hợp lại Tuy nhiên, vấn đề đặt kết hợp để tận dụng ưu loại đặc trưng Để xem xét vấn đề này, tiến hành hai thí nghiệm sau: (i) kết hợp tuyến tính khơng sử dụng trọng số đặc trưng thị giác, đặc trưng âm thông tin văn (V-A-T), (ii) kết hợp đặc trưng thị giác, đặc trưng âm thông tin văn với trọng số khác cho đặc trưng (V*-A*-T*) Kết gom cụm video thể Bảng cho thấy phương pháp V*-A*-T* cho kết gom cụm video tốt (đạt giá trị Purity cao chứng minh tỉ lệ phân bố video thuộc chủ đề vào cụm cao nhất) so với phương pháp thực nghiệm khác Trong phương pháp V-A-T, ưu đặc trưng xem cân Kết thực nghiệm cho thấy phương pháp cho kết tốt so với việc sử dụng loại đặc trưng riêng lẻ hầu hết liệu video truy vấn Điều lần minh chứng cho tính hiệu việc kết hợp đa đặc trưng Tuy nhiên, với liệu video thực tế loại đặc trưng đóng vai trò khác việc thể nội dung video dẫn tới việc kết hợp nhiều loại đặc trưng với cân vai trò chưa hẳn cho kết gom cụm tốt Giả định đặc trưng tốt nội dung video việc kết hợp với cân ưu làm hạn chế vai trò đặc trưng lại Ví dụ trường hợp thông tin văn kèm video người dùng mô tả không sát với nội dung thực video việc kết hợp thêm thơng tin văn với cân vai trò làm hạn chế ưu đặc trưng thị giác đặc trưng âm Kết Bảng cho thấy phương pháp V-A cho kết gom cụm tốt so với phương pháp V-A-T vai trò đặc trưng cân Với phương pháp V*-A*-T*, đặc trưng gán trọng số khác thể vai trò khác Kết Tóm lại, liệu video web đặc trưng thị giác, đặc trưng âm thông tin văn kèm có vai trò định việc thể nội dung video Trong trường hợp cụ thể vai trò đặc trưng thể không giống Kết thực nghiệm cho thấy việc kết hợp đặc trưng thị giác, âm thông tin văn kèm video với trọng số phù hợp mang đến hiệu cải thiện đáng kể chất lượng gom cụm video Hình thể chất lượng gom cụm video đánh giá toàn truy vấn qua phương pháp thực nghiệm Với kết thực nghiệm đạt được, xây dựng ứng dụng web minh họa cho chức tổ chức kết tìm kiếm video trả theo cụm Với chức này, người dùng duyệt qua kết tìm kiếm video cách dễ dàng thay phải xem xét danh sách phẳng với nhiều video thuộc nhiều chủ đề trộn lẫn vào Song song với chức hiển thị kết tìm kiếm video theo dạng danh sách cơng cụ tìm kiếm video trước đây, ứng dụng hỗ trợ chức hiển thị kết tìm kiếm video theo cụm giúp người dùng có nhìn trực quan video mà họ quan tâm (xem Hình 9) -91- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 Bảng Kết gom cụm video đánh giá theo Purity Truy vấn Purity V [2, 3] A [3] T [2, 3] V-A V-T [2] V-T [5] V-T [6] A-T V-A-T V*-A*-T* Apple 0.4625 0.4875 0.4375 0.5375 0.5500 0.4375 0.5000 0.4500 0.6000 0.7250 Aston 0.4268 0.5610 0.4512 0.5976 0.5122 0.4634 0.4756 0.5488 0.6341 0.6585 Cobra 0.4130 0.4239 0.4130 0.5435 0.5000 0.3913 0.4565 0.5326 0.5435 0.7303 Dragon 0.4390 0.5122 0.3780 0.6341 0.5976 0.5000 0.5122 0.4756 0.5854 0.6829 Jaguar 0.4419 0.5349 0.4651 0.6512 0.6628 0.5698 0.5930 0.6279 0.6047 0.8333 Java 0.7126 0.6897 0.4483 0.8621 0.8276 0.6552 0.7586 0.6437 0.9195 0.9529 Jupiter 0.6543 0.5802 0.4938 0.7407 0.7037 0.6049 0.6790 0.5432 0.6790 0.8462 Leopard 0.6316 0.5474 0.4842 0.8211 0.7474 0.6632 0.6947 0.4526 0.7895 0.9053 Lion 0.4270 0.4944 0.3820 0.5169 0.4831 0.4157 0.4607 0.4494 0.5056 0.7528 10 Lotus 0.4835 0.4835 0.3626 0.6703 0.6264 0.5275 0.5275 0.4176 0.6374 0.8681 11 Mustang 0.4578 0.4940 0.4096 0.6386 0.5663 0.4819 0.5060 0.5060 0.5542 0.8675 12 Ocean 0.4556 0.4778 0.4000 0.5667 0.5111 0.4667 0.5000 0.4222 0.5333 0.7444 13 Panda 0.5567 0.4124 0.3711 0.7423 0.6804 0.4948 0.6289 0.4536 0.7010 0.8041 14 Pluto 0.6706 0.6824 0.5647 0.7294 0.6941 0.6706 0.6824 0.6118 0.7059 0.8171 15 Python 0.6786 0.6235 0.4471 0.7765 0.7294 0.6471 0.7059 0.5529 0.7176 0.9294 16 Scorpion 0.6000 0.6444 0.4111 0.7111 0.6556 0.5778 0.6222 0.6333 0.6778 0.7556 17 Tiger 0.5062 0.5309 0.3827 0.6420 0.6049 0.5185 0.5556 0.5062 0.5926 0.7654 18 Venus 0.4607 0.5393 0.3483 0.6404 0.5618 0.4494 0.5393 0.5281 0.5955 0.8315 19 Viper 0.4368 0.4943 0.3908 0.6667 0.6092 0.4368 0.5057 0.4598 0.6092 0.7586 20 Zebra 0.3737 0.4242 0.3535 0.5152 0.4949 0.4040 0.4040 0.3232 0.5051 0.7857 Trung bình 0.5144 0.5319 0.4197 0.6602 0.6159 0.5188 0.5654 0.5069 0.6345 0.8007 Hình Chất lượng gom cụm video đánh giá toàn truy vấn qua phương pháp thực nghiệm Kết thí nghiệm thể Hình bao gồm cụm video liên quan đến truy vấn “Leopard” Cụm bao gồm video liên quan đến động vật (con báo) Cụm bao gồm video liên quan đến xe tăng Cụm bao gồm video liên quan đến hệ điều hành máy tính (hệ điều hành Snow Leopard hãng Apple) Cụm bao gồm video liên quan đến nghệ thuật vẽ móng tay cụm bao gồm video liên quan đến bánh Thông qua kết gom cụm video trực quan, người dùng xác định video mà họ quan tâm cách dễ dàng -92- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 Hình Ứng dụng web gom cụm kết tìm kiếm video ứng với truy vấn “Leopard” Giả định với truy vấn “Leopard”, người dùng muốn tìm kiếm video liên quan đến xe tăng hầu hết kết tìm kiếm video trả liên quan đến động vật, hệ điều hành máy tính chủ đề khác Khi đó, việc gom cụm kết tìm kiếm video theo chủ đề riêng biệt giúp người dùng định hướng tìm kiếm cách nhanh chóng IV KẾT LUẬN Trên sở phân tích đặc điểm đặc trưng liệu video, đề xuất giải pháp kết hợp nhằm tìm đặc trưng phù hợp giúp nâng cao chất lượng gom cụm kết tìm kiếm video kênh video trực tuyến Kết thực nghiệm cho thấy việc sử dụng đặc trưng bao gồm đặc trưng thị giác, âm thông tin văn kèm video làm tăng hiệu cải thiện chất lượng gom cụm video Bằng thực nghiệm đề xuất trọng số phù hợp cho đặc trưng -93- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Về mặt thực tiễn, bước đầu xây dựng ứng dụng web thử nghiệm tìm kiếm video với chức gom cụm kết trả Với chức này, danh sách video trả gom theo cụm với chủ đề nhằm giúp người dùng xác định video cần tìm cách nhanh chóng thay phải quệt qua danh sách phẳng video thuộc nhiều chủ đề trộn lẫn với Trong tương lai, cách dịch so sánh thông tin văn kèm video với ngôn ngữ khác nhau, chúng tơi hy vọng gom cụm video có nội dung tương tự thơng tin văn kèm thể ngôn ngữ khác với truy vấn TÀI LIỆU THAM KHẢO [1] NGUYỄN QUANG PHÚC, NGUYỄN HỒNG TÚ ANH, NGƠ ĐỨC THÀNH, LÊ ĐÌNH DUY, “Gom cụm liệu web video theo hướng tiếp cận early fusion cho đặc trưng văn bản”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ Nghiên cứu & ứng dụng Công nghệ thông tin (FAIR), tr 145-152, 2014 [2] PHUC QUANG NGUYEN, ANH-THU NGUYENTHI, THANH DUC NGO, TU-ANH HOANG NGUYEN, “Using Textual Semantic Similarity to Improve Clustering Quality of Web Video Search Results”, Proceedings of the 7th International Conference on Knowledge and Systems Engineering (KSE), pp 156-161, 2015 [3] NGUYỄN QUANG PHÚC, NGUYỄN THỊ ANH THƯ, NGÔ ĐỨC THÀNH, LÊ ĐÌNH DUY, NGUYỄN HỒNG TÚ ANH, “Nâng cao chất lượng gom cụm kết tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn bản”, Kỷ yếu Hội thảo Quốc gia Điện tử, Truyền thông Công nghệ thông tin (REV-ECIT), tr 130-135, 2015 [4] S LIU, M ZHU, Q ZHENG, “Mining similarities for clustering web video clips”, CSSE (4), pp 759-762, 2008 Tập V-2, Số 16 (36), tháng 12/2016 [5] A HINDLE, J SHAO, D LIN, J LU, R ZHANG, “Clustering Web Video Search Results Based on Integration of Multiple Features”, WWW, pp 53-73, 2011 [6] H HUANG, Y LU, F ZHANG, S SUN, “A Multimodal Clustering Method for Web Videos”, Trustworthy Computing and Services, pp 163-169, 2013 [7] D G LOWE, “Distinctive Image Features from ScaleInvariant Keypoints”, International Journal of Computer Vision, 60(2), pp 91-110, 2004 [8] D G LOWE, “Object Recognition from Local ScaleInvariant Features”, International Conference on Computer Vision, vol 2, pp 1150-1157, 1999 [9] U SRINIVASAN, S PFEIFFER, S NEPAL, M LEE, L GU, S BARRASS, “A Survey of Mpeg-1 Audio, Video and Semantic Analysis Techniques”, Multimedia Tools and Applications, 27(1), pp 105-141, 2005 [10] Y H LI, Z BANDAR, D MCLEAN, “An approach for measuring semantic similarity using multiple information sources”, IEEE Transactions on Knowledge and Data Engineering, 15(4), pp 871-882, 2003 Nhận ngày: 16/03/2016 SƠ LƢỢC VỀ TÁC GIẢ NGUYỄN QUANG PHÚC Tốt nghiệp cử nhân Trường ĐH Sư phạm TP HCM, chuyên ngành Sư phạm Tin học năm 2012 Hiện học viên cao học Trường ĐH Công nghệ thông tin, ĐH Quốc gia TP HCM chuyên ngành Khoa học máy tính Hướng nghiên cứu: khai thác liệu đa phương tiện, thị giác máy tính máy học Email: phucnq@uit.edu.vn -94- ... chọn hướng tiếp cận kết hợp đa đặc trưng để giải tốn gom cụm kết tìm kiếm video Chúng tơi tập trung vào việc phân tích đặc điểm thông tin văn kèm video trọng vào nội dung ngữ nghĩa kết hợp với đặc. .. tƣơng tự Kết gom cụm video Độ tƣơng tự kết hợp Hình Mơ hình kết hợp đa đặc trưng giải tốn gom cụm kết tìm kiếm video II.2 Biểu diễn tính độ tƣơng tự video theo đặc trƣng thị giác Một video bao... việc kết hợp cặp đặc trưng khác cho thấy phương pháp kết hợp đặc trưng thị giác đặc trưng âm (V-A) cho kết gom cụm tốt so với phương pháp kết hợp đặc trưng thị giác với thông tin văn (V-T) hay đặc

Ngày đăng: 12/03/2020, 21:01