1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản

6 13 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài báo này đề xuất phương pháp sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản để nâng cao chất lượng gom cụm kết quả tìm kiếm video. Mặc dù hướng tiếp cận kết hợp đa đặc trưng đã được giới thiệu trong các lớp bài toán như tìm kiếm video (video retrieval), phân lớp video (video classification) nhưng đóng góp chính của bài báo này là phân tích ưu điểm của từng loại đặc trưng cụ thể làm cơ sở cho việc kết hợp đa đặc trưng và là công trình đầu tiên sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản đi kèm video để giải quyết bài toán gom cụm kết quả tìm kiếm video. Mời các bạn cùng tham khảo!

Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Nâng cao chất lượng gom cụm kết tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn Nguyễn Quang Phúc, Nguyễn Thị Anh Thư, Ngô Đức Thành, Lê Đình Duy, Nguyễn Hồng Tú Anh Phịng Thí nghiệm Truyền thơng Đa phương tiện Đại học Cơng nghệ Thơng tin, ĐHQG-HCM Thành phố Hồ Chí Minh, Việt Nam Email: {phucnq,thunta,thanhnd,ldduy,anhnht}@uit.edu.vn Tóm tắt—Bài báo đề xuất phương pháp sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn để nâng cao chất lượng gom cụm kết tìm kiếm video Mặc dù hướng tiếp cận kết hợp đa đặc trưng giới thiệu lớp toán tìm kiếm video (video retrieval), phân lớp video (video classification) đóng góp báo phân tích ưu điểm loại đặc trưng cụ thể làm sở cho việc kết hợp đa đặc trưng cơng trình sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn kèm video để giải tốn gom cụm kết tìm kiếm video Các thí nghiệm tiến hành kết tìm kiếm video YouTube với phương pháp kết hợp đề xuất cho kết tốt so với việc áp dụng loại đặc trưng riêng lẻ trình gom cụm video Từ khóa—gom cụm video, đặc trưng âm thanh, đặc trưng thị giác, độ tương tự kết hợp I GIỚI THIỆU Ngày nay, với phát triển mạnh mẽ công nghệ truyền thông kỹ thuật số với bùng nổ mạng Internet, số lượng video chia sẻ Web ngày nhiều Để tìm kiếm video Web, người dùng phải cung cấp từ khóa tìm kiếm cơng cụ tìm kiếm video (ví dụ YouTube, Google Video) Kết tìm kiếm trình bày danh sách phẳng với video xếp theo độ liên quan với từ khóa truy vấn Để tìm video mong muốn, người dùng phải “tốn cơng” duyệt qua tồn danh sách Hơn nữa, kết tìm kiếm đa đạng thường bị phân mảnh bị chi phối video không phù hợp (đặc biệt trường hợp người dùng gửi truy vấn ngắn truy vấn mơ hồ tính đa nghĩa từ khóa truy vấn) Giả định người dùng quan tâm tới vấn đề cụ thể không đưa từ khóa phù hợp Do đó, kết tìm kiếm video trả thuộc nhiều thể 130 ISBN: 978-604-67-0635-9 130 loại, chủ đề khác gây khó khăn việc tìm kiếm Trường hợp xấu xảy kết chủ đề khác áp đảo chủ đề mà người dùng quan tâm Trong kịch vậy, việc gom cụm kết tìm kiếm video cần thiết nhằm giúp người dùng dễ dàng xác định video cần tìm Nói cách khác, thay phải duyệt qua danh sách phẳng kết tìm kiếm gồm nhiều video thuộc nhiều chủ đề trộn lẫn với người dùng cung cấp nhìn trực quan thơng qua kết gom cụm video theo chủ đề cụ thể Qua đó, người dùng dễ dàng xác định video mà họ quan tâm cách nhanh chóng bỏ qua cụm video khơng thích hợp Tóm lại, với danh sách video trả từ kết tìm kiếm truy vấn kênh video trực tuyến, tốn gom cụm kết tìm kiếm video xác định video có nội dung tương tự gom chúng lại cụm Dữ liệu đầu vào đầu tốn minh họa trực quan Hình Đầu vào danh sách video trả từ kết tìm kiếm video Web, đầu cụm video Gom cụm kết tìm kiếm Web nghiên cứu rộng rãi trước Các cơng trình chủ yếu tập trung vào liệu văn (phổ biến gom cụm trang Web) [6], [8], [9] liệu hình ảnh [3], [5], [11] Gần đây, có số cơng trình nghiên cứu gom cụm kết tìm kiếm video [1], [7], [12] So với liệu dạng văn hay hình ảnh liệu video có cấu trúc phức tạp Nội dung video chứa đựng đồng thời đặc trưng âm (audio), thị giác (visual) hay văn (textual) Điều đặt nhiều thách thức việc biểu diễn so khớp video Trong [12], tác giả biểu diễn video dựa đặc trưng thị giác Cụ thể, frame biểu diễn thành véc tơ đặc trưng không gian màu HSV (Hue Saturation Value) Sau đó, video biểu diễn véc tơ đặc trưng tính cách lấy Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hình Minh họa trực quan liệu đầu vào đầu cho toán gom cụm kết tìm kiếm video trung bình tất véc tơ biểu diễn cho frame video Độ tương đồng video quy việc tính khoảng cách véc tơ biểu diễn chúng Với hướng tiếp cận tính ngữ nghĩa thơng tin văn kèm video (ví dụ tiêu đề (title), mơ tả (description), thẻ từ khóa (tags)) khơng xem xét Trong [1], [7], tác giả khai thác thơng tin trích xuất từ đặc trưng thị giác thông tin văn kèm video nhằm cải thiện chất lượng gom cụm video Tuy nhiên, phương pháp rút trích đặc trưng biểu diễn video sử dụng đơn giản hiệu loại đặc trưng trình gom cụm video chưa phân tích rõ ràng Trong báo này, chúng tơi tập trung vào việc phân tích ưu điểm loại đặc trưng cụ thể làm sở cho việc kết hợp đa đặc trưng Từ đó, đề xuất phương pháp kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn kèm video nhằm nâng cao chất lượng gom cụm video Các mục báo tổ chức sau: mục II giới thiệu phương pháp kết hợp đặc trưng đề xuất, mục III trình bày thực nghiệm, mục IV thảo luận hướng phát triển khai thác nội dung ngữ nghĩa trích xuất từ thơng tin văn kèm video giúp gom video tương đồng ngữ nghĩa cụm Do đó, đặc trưng thị giác thơng tin văn kèm video hỗ trợ, bổ sung cho để biểu diễn video cách hiệu giúp nâng cao chất lượng gom cụm video Tuy nhiên, việc tận dụng nội dung ngữ nghĩa thông tin văn kèm video thực hiệu chúng mô tả với nội dung thực video Dữ liệu video kênh video trực tuyến thường tải lên nhiều người dùng, thông tin văn kèm video người dùng khai báo Trong thực tế, mục đích riêng (ví dụ thu hút lượt xem) cảm nhận chủ quan, người dùng mơ tả thông tin văn kèm không với nội dung thực video Trong trường hợp tương tự vậy, tin việc khai thác kết hợp đặc trưng âm trích xuất trực tiếp từ nội dung video (ví dụ video ca nhạc thường có âm tiếng reo hò, tiếng vỗ tay; video đua xe âm kèm tiếng động xe, ) góp phần cải thiện chất lượng gom cụm video Để làm rõ phân tích trên, ví dụ minh họa thể Hình Trong ví dụ này, bốn video giới thiệu “xe hơi” nên gom vào cụm Video video thị giác tương đối giống nên việc khai thác đặc trưng thị giác giúp gom video với Tuy nhiên, video video thị giác khác so với video video Khi đó, việc tận dụng thơng tin văn kèm video với đặc trưng âm trích xuất từ nội dung video (như tiếng động xe) giúp gom video video vào chung cụm với video video Từ phân tích trên, chúng tơi đề xuất mơ hình kết hợp đặc trưng âm thanh, đặc trưng thị giác thơng II PHƯƠNG PHÁP ĐỀ XUẤT A Mơ hình kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn Theo quan sát trực quan, video có nội dung tương tự thường thị giác (sự xuất đối tượng, hình ảnh) giống Vì vậy, việc sử dụng đặc trưng thị giác để gom cụm video trở nên hiệu Tuy nhiên, với đa dạng liệu video Web, video thuộc chủ đề có đối tượng hình ảnh khác Khi đó, việc 131 131 Hình Minh họa cụm bốn video thuộc chủ đề “xe hơi” từ danh sách kết tìm kiếm video truy vấn “Aston” Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thơng Cơng Nghệ Thơng Tin (ECIT 2015) Hình Mơ hình kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn giải tốn gom cụm kết tìm kiếm video tin văn kèm video nhằm nâng cao chất lượng gom cụm video (xem Hình 3) B Trích xuất đặc trưng, biểu diễn so khớp video 1) Đặc trưng âm (Audio): Như phân tích trên, đặc trưng âm đóng vai trị quan trọng q trình gom cụm video Trong báo này, chúng tơi sử dụng MFCC (Mel-Frequency Cepstral Coefficients) [13] loại đặc trưng âm trích xuất từ video Mượn ý tưởng từ mơ hình BoW (Bag-of-Words) biểu diễn liệu văn bản, sau đặc trưng âm (biểu diễn dạng tập véc tơ) trích xuất từ tập liệu video, trình gom cụm đặc trưng tạo từ điển tiến hành Cuối cùng, video biểu diễn véc tơ đặc trưng với số chiều tương ứng với số từ từ điển Độ tương tự video tính khoảng cách véc tơ đại diện chúng Q trình tính độ tương tự video dựa đặc trưng âm thể Hình Hình Minh họa q trình tính độ tương tự video dựa đặc trưng âm (MFCC) biểu diễn theo mơ hình BoW 2) Đặc trưng thị giác (Visual): Để tăng độ xác so khớp video yêu cầu quan trọng điểm đặc trưng cục (local keypoint features) rút trích từ frame phải bất biến với biến đổi độ sáng, tỉ lệ co giãn, phép xoay, Một phương pháp rút trích mơ tả đặc trưng cục đáp ứng yêu cầu sử dụng phổ biến Scale-Invariant Feature Transform (SIFT) [4] Hình Minh họa trình tính độ tương tự video dựa đặc trưng thị giác (SIFT) biểu diễn theo mơ hình BoW bao gồm bước phát mơ tả điểm đặc trưng Các điểm đặc trưng phát mô tả frame video Để phát điểm đặc trưng, sử dụng phát đặc trưng phổ biến Hessian-Affine [10] Với đặc trưng, véc tơ 128 chiều tạo từ mô tả SIFT Như vậy, frame video biểu diễn bao gồm tập véc tơ đặc trưng 128 chiều Video biểu diễn tập hợp tập véc tơ đặc trưng biểu diễn cho frame Tương tự trình biểu diễn video với đặc trưng âm thanh, chúng tơi sử dụng mơ hình BoW để biểu diễn tính độ tương tự video theo đặc trưng thị giác Q trình tính độ tương tự video dựa đặc trưng thị giác thể Hình 3) Thông tin văn (Textual): Thông tin văn kèm video (ví dụ tiêu đề (title), mơ tả (description), thẻ từ khóa (tags)) góp phần quan trọng thể nội dung ngữ nghĩa video giúp cải thiện chất lượng gom cụm video Tuy nhiên, vấn đề đặt thơng tin văn có ý nghĩa tương tự diễn đạt với nhiều từ ngữ khác (điều chủ yếu tính linh hoạt vốn có ngơn ngữ tự nhiên cho phép người dùng thể nội dung với ngôn từ khác nhau) Trong báo này, đề xuất sử dụng từ điển WordNet [2] để tính độ tương tự ngữ nghĩa từ thể thông tin văn kèm video Sau nghiên cứu rộng rãi số phương pháp, đề xuất sử dụng phương pháp Li để tính độ tương tự ngữ nghĩa từ, phương pháp có tương quan tốt với đánh giá người mức độ tương tự ngữ nghĩa từ trình bày báo cáo [15] Độ tương tự video dựa thông tin văn kèm sử dụng từ điển WordNet thể Hình 132 132 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Bảng I BỘ DỮ LIỆU VIDEO THỬ NGHIỆM Truy vấn Số video Số chủ đề 82 92 86 95 89 91 83 90 89 87 5 6 Aston Cobra Jaguar Leopard Lion Lotus Mustang Scorpion Venus 10 Viper Hình Minh họa q trình tính độ tương tự video dựa thơng tin văn kèm sử dụng từ điển WordNet C Gom cụm video Quá trình gom cụm video dựa kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn thực qua bước sau: Bước Độ tương tự video theo đặc trưng cụ thể tính theo phương pháp trình bày mục trước Bước Với hai video X Y , độ tương tự kết hợp đa đặc trưng tính theo cơng thức sau: Sim (X, Y ) = đặc trưng i wi ∗ Simi (X, Y ) (1) đó, Sim (X, Y ) độ tương tự kết hợp đa đặc trưng hai video X Y , Simi (X, Y ) độ tương tự hai video X Y theo đặc trưng i, wi trọng số đặc trưng i Bước Áp dụng thuật toán gom cụm liệu để thực gom cụm video dựa độ tương tự kết hợp đa đặc trưng III THỰC NGHIỆM A Bộ liệu video Chúng sử dụng phần mềm mã nguồn mở TubeKit1 để tải liệu video thực từ YouTube thông qua YouTube API Chúng tải khoảng 80 đến 100 video (thời lượng video từ đến 10 phút) cho truy vấn thực loại bỏ số video biệt lập, liên quan đến truy vấn tìm kiếm Sự loại bỏ hợp lý chúng tơi thử nghiệm tính hậu xử lý gom cụm kết tìm kiếm video khơng phải tìm kiếm xác cơng cụ tìm kiếm video Thí nghiệm tiến hành liệu gồm 884 video 10 truy vấn với từ khóa khác Thông tin chi tiết liệu video mô tả Bảng I B Phương pháp đánh giá Để đánh giá chất lượng gom cụm video Chúng sử dụng độ đo phổ biến Entropy Purity [14] Entropy cụm phản ánh phân tán video thuộc chủ đề cụm, giá trị Entropy đánh giá chất lượng gom cụm tổng thể tính trung bình cộng tất Entropy cụm Với tập liệu gồm n video thuộc k loại (chủ đề) gán nhãn thủ công, ký hiệu Cj , j = 1, , k thuật toán gom cụm n video vào k cụm Pi với i = 1, , k Entropy đánh giá chất lượng gom cụm toàn cục cho tất cụm tính tốn theo cơng thức sau: ni nij nij Entropy = − log (2) n n ni i i j ni số video cụm Pi , nij số video cụm Pi thuộc chủ đề Cj n tổng số video tất cụm Kết gom cụm hoàn hảo cụm chứa video thuộc chủ đề Khi đó, giá trị Entropy khơng Nói cách tổng qt, giá trị Entropy nhỏ cho chất lượng gom cụm tốt Purity phản ánh độ tinh khiết cụm Purity cụm xác định dựa số video thuộc chủ đề mà xuất nhiều cụm Purity đánh giá chất lượng gom cụm tồn cục cho tất cụm tính tốn theo cơng thức sau với ký hiệu có ý nghĩa tương tự cơng thức tính Entropy: ni nij (maxj ) (3) P urity = n ni i Ngược lại với Entropy, giá trị Purity lớn cho kết gom cụm tốt C Cài đặt thực nghiệm Nhằm mục đích so sánh, đánh giá kết gom cụm video với phương pháp đề xuất, tiến hành cài www.tubekit.org 133 133 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thơng Tin (ECIT 2015) đặt thí nghiệm sau: • A (Audio): Gom cụm video dựa độ tương tự theo đặc trưng âm • V (Visual): Gom cụm video dựa độ tương tự theo đặc trưng thị giác • T (Textual): Gom cụm video dựa độ tương tự theo thông tin văn kèm video • A-V-T (Audio-Visual-Textual) (hướng tiếp cận chúng tôi): Gom cụm video dựa độ tương tự kết hợp đặc trưng âm thanh, đặc trưng thị giác theo thông tin văn kèm video Để xem xét tương quan đặc trưng mơ hình kết hợp, thử nghiệm phương pháp kết hợp đặc trưng đề xuất với trọng số khác ứng với đặc trưng thể Bảng II Bảng II TRỌNG SỐ KẾT HỢP CÁC ĐẶC TRƯNG Trọng số Âm (Audio) Thị giác (Visual) Văn (Textual) Tổng tsA tsB tsC 0.60 0.35 0.20 0.30 0.50 0.60 0.10 0.15 0.20 1.00 1.00 1.00 Để gom cụm video, chúng tơi sử dụng thuật tốn KMedoids (một thuật tốn gom cụm phổ biến) hai lý sau: (i) trọng tâm cụm đối tượng cụ thể (tâm thật), (ii) độ tương tự đối tượng cần tính lần (điều phù hợp với đầu vào độ đo tương tự kết hợp đa đặc trưng video xử lý tính tốn trước đó) Đối với tốn gom cụm tổng quát số cụm khai báo linh động người dùng Số cụm tỷ lệ đối tượng khác gom cụm cao, số cụm nhiều tỷ lệ đối tượng giống gom vào cụm khác lớn Trong báo này, để công việc đánh giá phương pháp thực nghiệm, chúng tơi tiến hành thử nghiệm thuật tốn gom cụm với số cụm đầu vào tương ứng với số chủ đề truy vấn D Kết thực nghiệm Kết gom cụm video ứng với truy vấn khác đánh giá theo Entropy Purity thể Hình Hình Kết thể Hình cho thấy hầu hết liệu video truy vấn, phương pháp sử dụng đặc trưng âm (A) đặc trưng thị giác (V) cho kết gom cụm video tốt (đạt giá trị Entropy thấp hơn) so với phương pháp sử dụng thông tin văn kèm (T) Điều cho thấy xu hướng video 134 134 Hình Kết gom cụm video đánh giá theo Entropy tương tự (thuộc chủ đề) thường có đối tượng hình ảnh cụ thể âm tương tự Tuy nhiên, kết thí nghiệm cho thấy đặc trưng có ưu riêng liệu video truy vấn Phương pháp kết hợp đa đặc trưng (A-V-T) thử nghiệm với trọng số khác cho đặc trưng cho kết gom cụm video tốt so với phương pháp sử dụng đặc trưng riêng lẻ (A), (V), (T) Điều chứng minh tính hiệu việc kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn kèm video trình gom cụm video Phương pháp A-V-T (tsA), AV-T (tsB) cho kết gom cụm video tốt (đạt giá trị Entropy thấp chứng minh xác suất phân bố video thuộc chủ đề vào cụm khác thấp nhất) Điều cho thấy chiến lược kết hợp đa đặc trưng giải tốn gom cụm kết tìm kiếm video đặc trưng âm đặc trưng thị giác chiếm ưu so với thông tin văn kèm video Kết thể Hình cho thấy phương pháp A-VT (tsA), A-V-T (tsB) cho kết gom cụm video tốt (đạt giá trị Purity cao chứng minh tỉ lệ phân bố video thuộc chủ đề vào cụm cao nhất) Minh họa kết trực quan gom cụm video thể Hình Kết gom cụm video thể Hình bao gồm cụm video liên quan đến truy vấn “Scorpion” Cụm bao gồm video ca nhạc thể ban nhạc Scorpions Cụm bao gồm video liên quan đến động vật (con bọ cạp) Cụm bao gồm video game Cụm gồm video giới thiệu mũ bảo hiểm thương hiệu Scorpion Cụm gồm video tập Yoga (Scorpion Pose) Cụm gồm video liên Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) thấy phương pháp kết hợp đề xuất giúp cải thiện chất lượng gom cụm video so với phương pháp sử dụng đặc trưng riêng lẻ Hướng phát triển khai thác thêm thơng tin trích xuất từ đặc trưng chuyển động (motion features) video Thử nghiệm đánh giá kết gom cụm video dựa việc kết hợp đặc trưng khác nhằm xây dựng đặc trưng phù hợp cho toán gom cụm kết tìm kiếm video LỜI CẢM ƠN Nghiên cứu tài trợ Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) khn khổ Đề tài mã số C2015-26-02 Hình Kết gom cụm video đánh giá theo Purity TÀI LIỆU THAM KHẢO Hình Minh họa trực quan phần kết gom cụm video với truy vấn “Scorpion” quan đến loại xe chuyên dụng thu hoạch gỗ thông (Ponsse Scorpion) Từ kết trực quan gom cụm video, quan sát thấy đa số video thuộc chủ đề gom cụm Thông qua kết gom cụm video, người dùng xác định video mà họ quan tâm cách dễ dàng thay phải duyệt qua danh sách phẳng kết tìm kiếm trước IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong báo này, đề xuất phương pháp kết hợp đặc trưng âm thanh, đặc trưng thị giác trích xuất trực tiếp từ nội dung video với thông tin văn kèm video dựa phân tích ưu điểm loại đặc trưng Kết thí nghiệm cho [1] A Hindle, J Shao, D Lin, J Lu and R Zhang, “Clustering Web Video Search Results Based on Integration of Multiple Features,” In WWW, pp 53-73, 2011 [2] C Fellbaum, ed., “WordNet: An electronic lexical database,” Language, Speech, and Communication MIT Press, Cambridge, USA, 1998 [3] D Cai, X He, Z Li, W.Y Ma, J.R Wen, “Hierarchical clustering of www image search results using visual, textual and link information,” In ACM Multimedia, pp 952-959, 2004 [4] D G Lowe, “Distinctive Image Features from Scale-Invariant Keypoints,” International Journal of Computer Vision, 60, 2, pp 91-110, 2004 [5] F Jing, C Wang, Y Yao, K Deng, L Zhang, W.Y Ma, “Igroup: web image search results clustering,” In ACM Multimedia, pp 377-384, 2006 [6] G Mecca, S Raunich, A Pappalardo, “A new algorithm for clustering search results,” Data Knowl, Eng.62(3), pp 504-522, 2007 [7] H Huang, Y Lu, F Zhang, and S Sun, “A multi-modal clustering method for web videos,” In Trustworthy Computing and Services, pp 163-169, 2013 [8] H Zeng, Q He, Z Chen, W Ma, and J Ma, “Learning to cluster web search results,” In Proceedings of ACM SIGIR ’04, 2004 [9] J Park, X Gao, and P Andreae, “Query directed web page clustering using suffix tree and wikipedia links,” In Advanced Data Mining and Applications, pp 91-99, 2012 [10] K Mikolajczyk, T Tuytelaars, C Schmid, A Zisserman, J Matas, F Schaffalitzky, T Kadir, and L Van Gool, “A comparison of affine region detectors,” International journal of computer vision, vol 65, no 1-2, pp 43-72, 2005 [11] M Rege, M Dong, and J Hua, “Clustering Web Images with Multi-modal Features,” In Proceedings of the 15th International Conference on Multimedia, pp 317-320, 2007 [12] S Liu, M Zhu, Q Zheng, “Mining similarities for clustering web video clips,” In CSSE (4), pp 759-762, 2008 [13] U Srinivasan, S Pfeiffer, S Nepal, M Lee, L Gu, S Barrass, “A Survey of Mpeg-1 Audio, Video and Semantic Analysis Techniques,” Multimedia Tools and Applications, 27(1), pp 105141, 2005 [14] Y Zhao, G Karypis, “Criterion functions for document clustering: experiments and analysis,” Technical Report TR01-40, Department of Computer Science, University of Minnesota, 2001 [15] Y.H Li, Z Bandar and D McLean, “An approach for measuring semantic similarity using multiple information sources,” IEEE Transactions on Knowledge and Data Engineering, vol 15, no 4, pp 871-882, 2003 135 135 ... gom cụm kết tìm kiếm video tin văn kèm video nhằm nâng cao chất lượng gom cụm video (xem Hình 3) B Trích xuất đặc trưng, biểu diễn so khớp video 1) Đặc trưng âm (Audio): Như phân tích trên, đặc. .. phân bố video thuộc chủ đề vào cụm khác thấp nhất) Điều cho thấy chiến lược kết hợp đa đặc trưng giải tốn gom cụm kết tìm kiếm video đặc trưng âm đặc trưng thị giác chiếm ưu so với thông tin văn. .. trung vào việc phân tích ưu điểm loại đặc trưng cụ thể làm sở cho việc kết hợp đa đặc trưng Từ đó, đề xuất phương pháp kết hợp đặc trưng âm thanh, đặc trưng thị giác thông tin văn kèm video nhằm nâng

Ngày đăng: 28/04/2022, 09:43

HÌNH ẢNH LIÊN QUAN

Hình 1. Minh họa trực quan dữ liệu đầu vào và đầu ra cho bài toán gom cụm kết quả tìm kiếm video. - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
Hình 1. Minh họa trực quan dữ liệu đầu vào và đầu ra cho bài toán gom cụm kết quả tìm kiếm video (Trang 2)
A. Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
h ình kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản (Trang 2)
Hình 4. Minh họa quá trình tính độ tương tự video dựa trên đặc trưng âm thanh (MFCC) được biểu diễn theo mô hình BoW. - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
Hình 4. Minh họa quá trình tính độ tương tự video dựa trên đặc trưng âm thanh (MFCC) được biểu diễn theo mô hình BoW (Trang 3)
Hình 5. Minh họa quá trình tính độ tương tự video dựa trên đặc trưng thị giác (SIFT) được biểu diễn theo mô hình BoW. - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
Hình 5. Minh họa quá trình tính độ tương tự video dựa trên đặc trưng thị giác (SIFT) được biểu diễn theo mô hình BoW (Trang 3)
Hình 3. Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản giải quyết bài toán gom cụm kết quả tìm kiếm video - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
Hình 3. Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản giải quyết bài toán gom cụm kết quả tìm kiếm video (Trang 3)
III. THỰC NGHIỆM - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
III. THỰC NGHIỆM (Trang 4)
Hình 6. Minh họa quá trình tính độ tương tự video dựa trên thông tin văn bản đi kèm sử dụng từ điển WordNet. - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
Hình 6. Minh họa quá trình tính độ tương tự video dựa trên thông tin văn bản đi kèm sử dụng từ điển WordNet (Trang 4)
Bảng II - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
ng II (Trang 5)
Kết quả thể hiện ở Hình 7 cho thấy trên hầu hết các bộ dữ liệu video của các truy vấn, phương pháp sử dụng đặc trưng âm thanh (A) và đặc trưng thị giác (V) cho kết quả gom cụm video tốt hơn (đạt giá trị Entropy thấp hơn) so với phương pháp sử dụng thông t - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
t quả thể hiện ở Hình 7 cho thấy trên hầu hết các bộ dữ liệu video của các truy vấn, phương pháp sử dụng đặc trưng âm thanh (A) và đặc trưng thị giác (V) cho kết quả gom cụm video tốt hơn (đạt giá trị Entropy thấp hơn) so với phương pháp sử dụng thông t (Trang 5)
Hình 9. Minh họa trực quan một phần kết quả gom cụm video với truy vấn “Scorpion”. - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
Hình 9. Minh họa trực quan một phần kết quả gom cụm video với truy vấn “Scorpion” (Trang 6)
Hình 8. Kết quả gom cụm video được đánh giá theo Purity. - Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
Hình 8. Kết quả gom cụm video được đánh giá theo Purity (Trang 6)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN