Ứng dụng kỹ thuật định danh từ dữ liệu video vào việc nhận dạng con người, hành động và địa điểm xuất hiện

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	11
Dung lượng	867,95 KB

Nội dung

Bài viết đề xuất một phương pháp mới để truy hồi video với các chú thích nội dung bằng văn bản không hoàn chỉnh. Ý tưởng chính là việc sử dụng cơ chế suy diễn Bayes để dự đoán định danh của con người, hành động và địa điểm họ xuất hiện trong các khung hình video. Mời các bạn cùng tham khảo!

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)‖; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00096 ỨNG DỤNG KỸ THUẬT ĐỊNH DANH TỪ DỮ LIỆU VIDEO VÀO VIỆC NHẬN DẠNG CON NGƯỜI, HÀNH ĐỘNG VÀ ĐỊA ĐIỂM XUẤT HIỆN Phạm Thế Phi 1, Đỗ Thanh Nghị 1 Khoa Công nghệ thông tin Truyền thông, Trường Đại học Cần Thơ ptphi@cit.ctu.edu.vn, dtnghi@cit.ctu.edu.vn TÓM TẮT— Bài viết đề xuất phương pháp để truy hồi video với thích nội dung văn khơng hồn chỉnh Ý tưởng việc sử dụng chế suy diễn Bayes để dự đoán định danh người, hành động địa điểm họ xuất khung hình video Một vài mơ hình truy hồi video với khả tích hợp chứng xuất ảnh văn khơng hồn chỉnh đề xuất so sánh Trong thí nghiệm, viết sử dụng tập phim truyền hình Buffy the Vampire Slayer làm tập liệu huấn luyện kiểm thử Mơ hình mạng Bayes đề xuất có khả cho phép kết hợp nhiều thuộc tính video hình ảnh văn bản, xử lý câu truy vấn có nhiều thực thể có quan hệ ngữ nghĩa với quan trọng có khả suy luận thực thể chúng không nhắc tới văn lại xuất khung hình Từ khóa— Khai thác liệu đa phương tiện, lập mục truy hồi video I GIỚI THIỆU Web ngày trở thành nguồn thông tin sống với khả thoả mãn nhu cầu tra cứu thông tin người Các máy tìm kiếm Web, đến lượt mình, trở thành cơng cụ trích lọc phải có nhằm giúp cho người dùng thu hẹp phạm vi tìm kiếm biển thơng tin, để cuối có vài thơng tin mà họ thực cần Các máy tìm kiếm có lịch sử phát triển lâu đời dựa nhiều kết nghiên cứu thành công lĩnh vực lập mục truy hồi thông tin (information indexing and retrieval) Lập mục truy hồi thông tin dạng văn ví dụ điển hình Kỹ thuật so khớp câu truy vấn người dùng không với siêu liệu (metadata) dùng để mô tả tài liệu (trên Web thường thiếu không hồn chỉnh) mà cịn với nội dung bên tài liệu Các kỹ thuật lập mục truy hồi thông tin đại thường đạt đến mức rút trích trình bày thơng tin theo ngữ nghĩa (semantics extraction and representation) Kỹ thuật tập trung vào việc so khớp câu truy vấn tài liệu theo ngữ nghĩa Đây rõ ràng thành tựu quan trọng hệ thống hiểu ý nghĩa thực đằng sau câu truy vấn người dùng sau trả cho người dùng tài liệu có ý nghĩa tương đồng mà họ cảm thấy thoả mãn Với phổ biến nhanh chóng truyền thơng đại chúng, nhu cầu thơng tin người dùng khơng cịn giới hạn văn tuý mà mở rộng đến hình ảnh, âm thanh, video, thông tin y sinh, Rất nhiều nhà nghiên cứu nắm bắt xu hướng nỗ lực không ngừng để xây dựng hệ thống truy hồi thông tin đa phương tiện nhằm thỏa mãn nhu cầu tìm hiểu thơng tin đa phương tiện người dùng Xử lý thông tin đa phương tiện hướng nội dung thực khó nhiều so với tuý xử lý văn Thứ nhất, cần nhiều nỗ lực để rút trích đặc trưng quan trọng liệu đa phương tiện Thứ hai, đặc trưng thường không tương ứng với trực giác người chúng thường đặc trưng thô thể liệu mức thấp mà chứa đựng ngữ nghĩa Thứ ba, số lượng mối liên hệ khái niệm mang tính ngữ nghĩa khác tuỳ vào nguồn liệu, để chọn khái niệm mang tính ngữ nghĩa vừa đủ vừa có ý nghĩa để trình bày cho người dùng thử thách lớn Những thách thức nói thường đề cập đến khoảng trống ngữ nghĩa (semantic gap) nội dung mức thấp khái niệm mức cao Câu hỏi đặt để lấp đầy khoảng trống ngữ nghĩa này? Các nỗ lực ban đầu nhằm vịng tránh khơng giải trực tiếp vấn đề mà đơn chuyển đổi thể câu truy vấn mức thấp Ví dụ, số hệ thống truy hồi video sử dụng chế “truy vấn qua ví dụ” (query by example) Tuy nhiên, với câu truy vấn tương đối phức tạp “Buffy is fighting in the graveyard”, khó để tìm ảnh ví dụ tương ứng sở liệu có để rút trích đặc trưng cấp thấp nhằm phản ánh toàn tập khái niệm “Buffy”, “fighting” “graveyard” Một chế xử lý thông dụng khác sử dụng câu truy vấn dạng văn Với cách này, việc nắm bắt ngữ nghĩa dễ dàng câu truy vấn Tuy nhiên, phải rút trích ý nghĩa từ phương tiện khác với văn bản, ánh xạ chúng tới ngữ nghĩa từ câu truy vấn trả cho người dùng Phương tiện âm video chuyển đổi thành văn để làm giàu thêm thông tin cho nguồn văn bản, liệu hình ảnh vấn đề nghiên cứu Vấn đề lại để ánh xạ từ đặc trưng cấp thấp sang ngữ nghĩa cấp cao? Giải pháp áp dụng phổ biến thực tiễn sử dụng việc thích tay (bởi nhân viên lưu trữ sử dụng dịch vụ gán nhãn trực tuyến người, chẳng hạn dịch vụ Amazon Mechanical Turk1) Tuy nhiên, với quy mơ vấn đề, thích tay khơng phải lựa chọn thích hợp Vì thế, hợp lý kỹ thuật máy học áp dụng để giải toán http://www.mturk.com Phạm Thế Phi, Đỗ Thanh Nghị 781 mà tiến trình học có giám sát phần khơng có giám sát Các kỹ thuật có giám sát phần thực việc rút trích đặc trưng liệu ảnh cách tự động, định nhãn tay phần liệu gán nhãn tự động phần lại liệu dựa tương đồng đặc trưng cấp thấp Các kỹ thuật không giám sát thực tự động tất thủ tục rút trích đặc trưng cấp thấp ngữ nghĩa cấp cao, liên kết chúng lại dựa kiểu mẫu phát toàn liệu Hoạt động nghiên cứu kỹ thuật máy học tiến triển thực cần nhiều đóng góp, cải tiến để áp dụng rộng rãi Bài viết thảo luận số đóng góp vào hướng nghiên cứu Cụ thể muốn khám phá đồng xuất liệu văn hình ảnh để xây dựng mơ hình lấp đầy khoảng trống ngữ nghĩa đặc trưng cấp thấp ngữ nghĩa mức cao Ở tập trung vào nghiên cứu hệ thống truy hồi video Các hệ thống truy hồi video thường dựa vào thích tay video tương ứng Việc có thích thường tổ chức thông qua hoạt động gán nhán dựa số đơng người đóng góp Tuy nhiên, số trường hợp, thích thêm vào lý u thích cá nhân Với liệu video mà sử dụng viết (các tập phim truyền hình “Buffy the Vampire Slayer” [1]), người hâm mộ thêm vào mô tả theo dạng văn ngôn ngữ tự nhiên nhằm kể lại diễn video Những mơ tả khơng hồn thiện nhiều khung hình khơng có mơ tả mơ tả có thể phần nội dung khung hình video (ví dụ người hành động họ mô tả, địa điểm xuất lại khơng có) Thêm nữa, mốc thời gian đạt trùng khớp tương đối Trong bối cảnh này, phương pháp truy hồi video dựa theo nội dung có xem xét nội dung ảnh mơ tả văn tương ứng có giá trị chúng có khả cải thiện độ xác truy vấn cung cấp nhìn rõ ràng bên tập liệu video [2] Lý phương pháp truy hồi thơng tin hướng nội dung có nhiều khả tóm tắt nội dung phương tiện chứa thơng tin thành mệnh đề mơ tả súc tích phân lớp mô tả Nghiên cứu tập trung vào việc truy vấn video Buffy với khái niệm ngữ nghĩa người, hành động họ địa điểm mà họ xuất (ví dụ: Buffy is fighting in the graveyard) Để truy hồi khung hình tương ứng, lý tưởng khung hình thích cách chi tiết đầy đủ ví dụ Ở chúng tơi trình bày mơ hình dùng để thích nội dung khung hình phần dựa số nhận dạng thông tin không chắn từ nguồn văn bản, khung hình số thơng tin so khớp khơng chắn chúng, từ sử dụng mạng Bayes để suy diễn mối liên hệ thiếu, lấp đầy khoảng trống ngữ nghĩa Các phương pháp tích hợp chứng có khả tích hợp tốt vào mơ hình truy hồi thơng tin dựa theo xác suất Chúng tơi đề xuất ba mơ hình truy hồi thơng tin Mơ hình truy hồi sở (gọi Unigram Language Model) truy hồi khung hình video dựa thích văn có khơng hồn chỉnh Mơ hình thứ hai (gọi Unimodal EntityRelation Model) rút trích tên người, tên hành động tên địa điểm từ văn bản, liên kết tên thực thể thành liệu quan hệ (relational tuple) sử dụng liệu mơ hình truy hồi thơng tin hướng nội dung Mơ hình biểu diễn nội dung thích người hâm mộ thành túi liệu theo mô thức liệu văn Cuối cùng, ngồi thơng tin rút trích từ văn bản, chúng tơi tích hợp thơng tin rút trích từ nội dung khung hình video để xây dựng mơ hình tích hợp nội dung phức tạp Mơ hình thứ ba (Multimodal EntityRelation Model) tương tự mơ hình dùng túi tích hợp chứng từ nhiều mô thức liệu khác Tất mơ hình suy luận với tri thức chưa chắn rút từ mô thức liệu với độ phức tạp trải rộng từ mơ hình xác suất hướng nội dung đơn giản đến mô hình suy luận sử dụng mạng Bayes đầy đủ Hơn nữa, mạng Bayes cho phép suy diễn ngữ nghĩa cịn thiếu khung hình mà thích văn khơng đầy đủ Đóng góp viết mơ hình truy hồi khung hình video mới, hoạt động với trường hợp mô tả văn khơng có khơng đầy đủ Thêm vào đó, chúng tơi so sánh số mơ hình truy hồi thơng tin với câu truy vấn theo dạng quan hệ (relational, nghĩa người thực hành động địa điểm đó) việc thể tài liệu để truy vấn khơng chắn mở đường cho việc tích hợp chứng có từ nhiều mơ thức liệu khác Phần lại viết tổ chức sau Phần II thảo luận nghiên cứu có liên quan lĩnh vực lập mục truy hồi thông tin hướng ngữ nghĩa Phần III giới thiệu khái niệm thuật ngữ sử dụng xuyên suốt báo, sau giới thiệu cơng việc mà chúng tơi giải Phần IV trình bày cách tiếp cận giải công việc nêu phần III Phần V mô tả thiết kế thực nghiệm, kết khám phá Chúng kết thúc viết phần VI II CÁC NGHIÊN CỨU LIÊN QUAN Việc truy hồi video từ khố tìm kiếm có ngữ nghĩa thử thách lớn lĩnh vực xử lý quản lý video Nhiệm vụ quan trọng hướng nghiên cứu lấp đầy khoảng trống đặc trưng mức thấp khái niệm ngữ nghĩa mức cao Về nguyên tắc, hệ thống truy hồi video cần phải làm cơng việc sau: 1) tìm kiếm mục thơng tin cụ thể 2) duyệt qua tóm tắt tập liệu thơng tin [2] Để tương tác với người dùng, hệ thống truy hồi thơng tin đa phương tiện cần có sơ đồ ánh xạ từ đặc trưng cấp thấp hàm chứa nội dung mục thông tin đến khái niệm hay điều khoản mức cao dễ hiểu người dùng Người ta đề cập đến khái niệm “khoảng trống ngữ nghĩa” thiếu tính trùng hợp (coincidence) thơng tin mà người ta rút từ liệu hình ảnh diễn giải cho liệu để cung cấp cho người dùng hoàn cảnh cho trước [3] Hơn nữa, số lượng khái niệm ngữ nghĩa lớn đa dạng Ví dụ 782 ỨNG DỤNG KỸ THUẬT ĐỊNH DANH TỪ DỮ LIỆU VIDEO VÀO VIỆC NHẬN DẠNG CON NGƯỜI, HÀNH ĐỘNG… khuôn mặt người, núi đồi, cảnh bãi biển, bầu trời, đường phố, nhà cửa nhiều khái niệm Việc xây dựng hệ thống truy hồi thông tin mà thỏa mãn truy vấn người dùng với tất loại khái niệm thường vượt q khả cơng trình nghiên cứu đương đại Vì vậy, nghiên cứu chúng tơi tập trung vào 03 loại khái niệm hữu ích: người, hoạt động, địa điểm mối quan hệ chúng Thực tế, có nhiều nhà nghiên cứu tập trung nghiên cứu phương pháp dùng để học nhằm nhận dạng ba loại khái niệm từ liệu video Chẳng hạn, [4, 5, 6, 1, 7, 8, 9] biểu diễn kết thú vị việc định nhãn cho người Việc phát phân loại hành động người nghiên cứu [10, 11, 12], [13, 14] giải vấn đề phát địa điểm video Tuy nhiên, cơng trình xem xét kết hợp ba loại khái niệm Luo cộng [15] đề xuất mơ hình kết hợp Expectation – Maximization để định nhãn khuôn mặt dáng điệu người cách đồng thời Nitta cộng [16] gán nhãn cho người hành động họ video thể thao cách dùng văn (phụ đề đóng – closed caption) để trích phân cảnh (scenes) với người, hành động kiện họ xuất hiện, sau phân đoạn lại video tương ứng cách sử dụng đầu mối từ hình ảnh, cuối liên kết phân đoạn video với phân đoạn văn Marszalek cộng [17], theo cách khác, trình bày kết nghiên cứu phát hành động địa điểm video chủ yếu dựa giả thiết hành động người có liên quan cao đến địa điểm mà họ xuất Trọng tâm hướng tiếp cận họ khuôn khổ túi đặc trưng (bag-of-features) dùng cho mơ hình xử lý ảnh nhằm phát khung cảnh hành động Các khn khổ mơ hình kết hợp với phân loại hỗn hợp hành động-khung cảnh dựa kỹ thuật SVM Bằng cách đề xuất phương pháp nhằm phát tập hợp khái niệm, [15, 16, 17] tận dụng mối liên hệ khái niệm – điều có giá trị việc thích tự động khái niệm video Ví dụ như, khung cảnh “dưới nước‖ thường xuất với “cá mập” thay “con chim”; tập khn mặt giống đồng xuất có hệ thống với tên Bush mô tả văn tương ứng nên gán tên Bush Nghiên cứu cố gắng học mối tương quan khái niệm mở rộng mối quan hệ 03 khái niệm (con người, hành động, địa điểm) thay mối quan hệ tự thân hai chiều Với ý định tổ chức tài liệu thành cấu trúc khái niệm ngữ nghĩa, chúng tơi tìm hiểu mơ hình truy hồi có hỗ trợ việc lập mục hoạt động cấu trúc tài liệu Mơ hình có liên quan nhiều (mơ hình đồ thị xác xuất dùng để lập mục truy vấn tài liệu hướng nội dung) giới thiệu Turtle Croft [18] Họ sử dụng mạng Bayes để mô tả phụ thuộc xác suất khái niệm ngữ nghĩa Các mạng Bayes biểu diễn đồ thị có hướng khơng có chu trình Mơ hình bao gồm 02 phần: mạng tập tài liệu (DN) mạng truy vấn (QN) Trong mạng tài liệu, tài liệu (d) trình bày cấu trúc phân cấp nút thể tài liệu, từ tài liệu khái niệm ngữ nghĩa chúng Các nút thể từ khái niệm ngữ nghĩa chia sẻ nhiều tài liệu với xác suất khác Mạng truy vấn xây dựng người dùng đệ trình câu truy vấn họ (q) Đây cấu trúc phân cấp từ, khái niệm ngữ nghĩa thể u cầu thơng tin người dùng Sau mạng truy vấn gắn vào mạng tài liệu cách so khớp khái niệm ngữ nghĩa câu truy vấn tài liệu Các nút mơ hình có giá trị nhị phân, nghĩa nhận giá trị từ tập {true, false} Việc ước lượng điểm số xếp hạng thực tách biệt cho nút tài liệu Nghĩa nút tài liệu bật nút tài liệu khác tắt điểm số xếp hạng tính P(q | d) Các mơ hình truy hồi ngơn ngữ (language retrieval models), theo phân tích Croft Laferty [19], xem dạng mơ hình đồ thị đơn giản mơ hình mà Turtle Croft đề xuất Ở đó, tài liệu câu truy vấn trình bày đồ thị nút thể từ (bag-of-words) mà lớp nút chứa quan niệm ngữ nghĩa Và chế so khớp câu truy vấn – tài liệu đơn sử dụng kỹ thuật so khớp từ với Khởi đầu, mơ hình đề xuất Turtle Croft áp dụng cho tài liệu văn Graves Lalmas [20] mở rộng cho tài liệu video khn dạng MPEG-7 Ở đó, họ tận dụng thích kết hợp sẵn video (màn – scene, cảnh – shot, đối tượng – object, người, hành động, địa điểm,…), khai thác đặc tính chuẩn MPEG-7 xây dựng hệ thống truy hồi video hiệu Coelho đồng [21] trình bày nghiên cứu họ lĩnh vực truy hồi ảnh mà chia sẻ quan tâm đến việc sử dụng mạng Bayes để mơ hình hố tập tài liệu ảnh, ảnh truy vấn việc nối kết chúng Cụ thể tài liệu ảnh trình bày túi từ, dựa nguồn chứng khác (các thẻ mô tả, thẻ meta, văn đầy đủ đoạn văn xung quanh ảnh) Nghiên cứu mở rộng cơng trình trước cách kết hợp chứng từ khung hình video văn kèm, cách gán thuộc tính đa trị cho nút mạng Bayes thay nhị phân cách suy diễn mô tả cho khung hình nơi mà mơ tả văn khơng có thiếu Sau cùng, chúng tơi sử dụng kỹ thuật truy hồi video dựa khung hình (nghĩa chúng tơi truy hồi khung hình - liệu cho tiêu biểu cho cảnh – shot) Kỹ thuật thường sử dụng hệ thống truy hồi video [22, 23] III CÁC ĐỊNH NGHĨA CƠ BẢN VỀ CHÚ THÍCH NGỮ NGHĨA CHO VIDEO VÀ CÁC BƯỚC THỰC HIỆN Nhiệm vụ xây dựng đánh giá hệ thống lập mục truy hồi video mà tự động rút trích khái niệm ngữ nghĩa video (con người, hành động địa điểm), học mối tương quan chúng, lập mục cho chúng với đơn vị video tương ứng (khung hình chính) xử lý câu truy vấn người dùng Phạm Thế Phi, Đỗ Thanh Nghị 783 Trong mơ hình truy hồi phía sau, sử dụng thuật ngữ sau đây:  Khái niệm ngữ nghĩa (semantic concept): Chúng định nghĩa khái niệm ngữ nghĩa video theo ba loại: người, hành động, địa điểm  Bộ khái niệm ngữ nghĩa (semantic concept tuple): Một tổ hợp người thực hành động địa điểm trình bày Các hồn chỉnh khơng hồn chỉnh  Tài liệu hướng ngữ nghĩa: Trong đoạn video (ở thể khung hình chính) thấy vài khái niệm ngữ nghĩa Chúng tơi gọi khung hình video với tương ứng tài liệu hướng ngữ nghĩa  Câu truy vấn hướng ngữ nghĩa: Một yêu cầu thông tin người dùng trình bày quan hệ (ví dụ: người thực hành động địa điểm, người địa điểm người…) Cho video văn mô tả (không đầy đủ) tương ứng, công việc là:  Tiền xử lý liệu để tạo tập tài liệu S={d ,d , ,d } , d túi từ hay túi |S| i (bag-of-tuples) tuỳ thuộc vào mơ hình xử lý  Trong trình lập mục cho nội dung S, tất mơ hình suy luận với tri thức không chắn rút từ liệu với nhiều mơ hình xác suất hướng nội dung khác  Với câu truy vấn q, mơ hình sử dụng hàm xếp hạng r(q,d) để xếp tài liệu truy hồi d tương i ứng theo độ tương đồng với q Hàm xếp hạng r(q,d) tính sau: r(q,d)=logP(q|d) (1) IV PHƯƠNG PHÁP THỰC HIỆN Trong phần tiếp theo, thảo luận trình tiền xử lý video nhằm tạo khối liệu cần thiết cho mơ hình lập mục truy hồi Sau chúng tơi thảo luận ba mơ hình truy hồi theo cấp độ từ đơn giản (Unigram Language Model Unimodal Entity-Relation Model) đến phức tạp (Multimodal Entity-Relation Model) A Tiền xử lý video Hình Sự cân chỉnh thời gian xuất khuôn mặt tên Do mong muốn truy hồi khung hình video với xuất người, hoạt động họ địa điểm họ xuất hiện, nhiệm vụ phát khuôn mặt người Xuất phát từ khuôn mặt người, chúng tơi khám phá thích (phụ đề - subtitles kịch - transcripts) canh thời gian với video để tìm tên người có Từ đây, chúng tơi tiếp tục tìm kiếm thích tất hành động hoạt động có người Cuối xác định nơi chốn địa điểm mà người nhận dạng xuất Trong tập phim Buffy the Vampire Slayer, tên người rút trích từ hai nguồn thơng tin dạng văn bản: phụ đề có sẵn DVD kịch có từ website người hâm mộ [1] Các kịch chứa thông tin người nói, câu nói mơ tả phần hành động nhân vật Nhưng khơng có thơng tin thời gian tương ứng với diễn phim Cịn phụ đề lại chứa thời điểm câu nói phát Một giải thuật cân chỉnh thời gian [1] áp dụng để cuối có thơng tin hồn chỉnh ai, làm gì/nói Hình mơ tả lại giải thuật cân chỉnh thời gian 784 ỨNG DỤNG KỸ THUẬT ĐỊNH DANH TỪ DỮ LIỆU VIDEO VÀO VIỆC NHẬN DẠNG CON NGƯỜI, HÀNH ĐỘNG… Với kịch phim với thơng tin thời gian có từ trình áp dụng giải thuật cân chỉnh thời gian, so khớp mặt thời gian xuất khn mặt khung hình tên người kịch sau: Với phân đoạn thời gian kịch bản, chuỗi khn mặt có giao thoa thời gian xuất với phân đoạn kịch này, tất khuôn mặt chuỗi nhận tất tên người phân đoạn kịch làm ứng viên để đặt tên Hình thể ví dụ việc giới thiệu tên ứng viên cho khuôn mặt video Lược đồ gán tên chi tiết cho khuôn mặt thực thông qua giải thuật mà đề xuất [8] Tuy nhiên khởi động giải thuật Expectation Maximization (EM) cách sử dụng phân loại Naïve Bayes, sử dụng liệu huấn luyện bị nhiễu (như đề cập trên) Chúng dựa nguồn văn để rút trích động từ địa điểm cách sử dụng giải thuật gán nhãn vai trị ngữ nghĩa có giám sát phần (semi-supervised semantic role labeling) [26, 27, 14] Áp dụng kỹ thuật gán nhãn vai trò ngữ nghĩa kịch phim việc liên kết tên nhân vật với hành động địa điểm Và sau trình gán nhãn tên người cho khuôn mặt khn hình video, hành động địa điểm gắn với người cụ thể khung hình Kết việc gán nhãn khởi đầu cho khung hình với tên khn mặt, hành động địa điểm xuất – thông tin hữu kịch Tất thích ban đầu thể dạng phân phối xác suất Để ý có nhiều khung hình khơng có phần kịch kèm, kịch khơng hồn chỉnh Vì chúng tơi hy vọng khả suy diễn mạng Bayes giúp ln tạo thích đầy đủ khung hình khơng có nguồn thơng tin văn kèm B Mơ hình ngôn ngữ unigram Khi sử dụng nguồn thông tin văn cho việc truy hồi khung hình video, mơ hình ngơn ngữ unigram (Unigram Language Model) cung cấp cách thức phù hợp phổ biến để xếp hạng khung hình (là tài liệu ngữ nghĩa) ứng với tương thích với câu truy vấn Chúng tơi sử dụng mơ hình làm mơ hình sở thí nghiệm Với tập gồm |S| khung hình video mà gọi tài liệu ngữ nghĩa, S={d ,d , ,d } , toán trở |S| thành: Làm để xếp hạng tài liệu với câu truy vấn q bao gồm |q| từ? Chúng giả sử câu truy vấn q tài liệu d cấu thành từ tập thuộc tính độc lập (ở unigram từ đơn): |q| |d| q=(q ,q , ,q ) d=(d ,d , ,d ) Hàm truy hồi trở thành: |q| |q| i i P(q|d)=P(q ,q , ,q |d)=  (λP(q |d)+(1−λ)P(q |S)) (2) i=1 i i với P(q |S) xác suất để rút từ q cách ngẫu nhiên từ tập S; λ tham số làm mượt Việc làm mượt cần thiết có nhiều khung hình phim Bufy khơng có kịch kèm kịch khơng cung cấp thơng tin hữu ích cho câu truy vấn i i Giá trị P(q |d) P(q |S) có cách sử dụng phép ước lượng khả xuất cao (maximum likelihood) từ tài liệu tập |S| tài liệu λ thông thường ước lượng từ tập phản hồi liên quan (relevant feedback) người dùng Ở đặt giá trị thực nghiệm λ=0.8 chúng tơi khơng có phản hồi liên quan cho câu truy vấn q C Mơ hình thực thể - quan hệ đơn dạng thức Trong bước tiền xử lý, thực phân tích ban đầu cho khung hình video rút trích tên người, hành động địa điểm từ kịch tương ứng Với thơng tin này, tạo nên quan hệ Bộ gán nhãn vai trò ngữ nghĩa cung cấp cho mối quan hệ hành động người thực Chúng giả sử khung hình phản ảnh địa điểm Vì tạo nhiều chứa thực thể mối quan hệ chúng (ví dụ “con người, hành động, địa điểm‖ - , “con người, địa điểm‖ - , ) Với rút từ tài liệu giả sử câu truy vấn trình bày các khái niệm, qc, chúng tơi xây dựng mơ hình truy hồi thực thể - quan hệ đơn dạng thức sau: |qc| |qc| i i P(qc|d)=P(qc ,qc , ,qc |d)=  (λP(qc |d)+(1−λ)P(qc |S)) i=1 (3) i i Giá trị P(qc |d) P(qc |S) tính dựa phép ước lượng khả xuất cao nhất, khái niệm tài liệu ngữ nghĩa tập tài liệu ngữ nghĩa S Ở ngưỡng λ đặt 0.8 Phạm Thế Phi, Đỗ Thanh Nghị 785 D Mơ hình thực thể - quan hệ đa dạng thức Hình Mơ hình mạng Bayes dùng để truy hồi tài liệu ngữ nghĩa Hình Các mơ hình mạng Bayes Trong mơ hình thực thể quan hệ đa dạng thức, chúng tơi suy luận nguồn thông tin rút từ bước tiền xử lý liệu hình ảnh văn bản, hai cấp độ: cục tài liệu ngữ nghĩa toàn cục bao gồm toàn tài liệu tập phim Thêm vào đó, số thơng tin ẩn chứa học mơ hình với hy vọng truy hồi khung hình cịn thiếu thơng tin mơ tả từ văn Các phương pháp kết hợp chứng cài đặt mạng Bayes đầy đủ Một mạng Bayes [28] định nghĩa cặp (G,Q) với: G đồ thị có hướng khơng có chu trình biến Z, gọi kiến trúc mạng; Q tập bảng xác suất có điều kiện, bảng dùng cho biến Z, gọi tham số hoá mạng Mạng suy diễn dùng cho việc truy hồi tài liệu ngữ nghĩa (chúng gọi Model 1), mơ tả hình 2, bao gồm nút biểu diễn tài liệu ngữ nghĩa (Document), nút biểu diễn khái niệm ngữ nghĩa (Person, Action and Location) nút (Face, Name, Action Verb, Textual Noun) Các nút thể quan sát vật lý ba khái niệm trừu tượng Person, Action Location Những quan sát có từ hệ thống tiền xử lý trình bày phần IV.A Mơ hình mạng xem cài đặt định nghĩa tài liệu ngữ nghĩa không cho phép biểu diễn mối quan hệ ngữ nghĩa khái niệm – điều mà nội dung liệu thể rõ Có hai mối quan hệ yếu mà chúng tơi mong muốn khai thác từ liệu: 1) người hành động họ, 2) người địa điểm xuất họ Bởi hệ thống truy hồi tập trung vào việc trả lời cho câu hỏi ai, làm gì, đâu, nên coi người trung tâm Như trình bày phần IV.A, gán nhãn vai trò ngữ nghĩa rõ ràng xác định mối quan hệ người hành động họ Việc khai thác mối quan hệ đem lại lợi lích mà hệ thống cần phải dự đoán hành động người khung hình mà thơng tin mơ tả văn khơng có Thay gán tất hành động cho người với xác suất nhau, hành động mà người thường thực liệu mô tả nên ứng viên trội Con người địa điểm xuất thường khó để ghép lại với nhau, nhiên ước lượng mối quan hệ cách sử dụng thông tin thời gian đồng xuất hai khái niệm ngữ nghĩa Hình mơ tả ba mơ hình mạng Bayes mà, ngồi mơ hình 1, mơ hình cài đặt mối quan hệ người – hành động, mơ hình cài đặt hai mối quan hệ người – hành động người – địa điểm qua quan hệ phụ thuộc xác suất Chúng so sánh tác dụng ba mơ hình phần thí nghiệm E Ước lượng tham số mạng Bayes Trong mạng tài liệu trình bày hình 2, nút gốc (Document) nhận giá trị rời rạc thể mục tài liệu ngữ nghĩa (viết tắt d) Các nút Person, Action and Location nhận giá trị rời rạc thể mục lớp người (pm), hành động (am) địa điểm (lm) Giá trị nút thể tính chất vật lý hình ảnh/văn khái niệm ngữ nghĩa Chúng gọi tập nút X, U gia đình nút U cha nút X Mỗi tập giá trị xu gia đình gọi thể gia đình XU Tham số mạng Θ định nghĩa Θ =P(x|u) Công việc x|u x|u ước lượng tham số biết trước cấu trúc mạng Các tham số mạng ước lượng theo cách tiếp cận sau 786 ỨNG DỤNG KỸ THUẬT ĐỊNH DANH TỪ DỮ LIỆU VIDEO VÀO VIỆC NHẬN DẠNG CON NGƯỜI, HÀNH ĐỘNG… Ước lượng ngẫu nhiên tham số mạng Để tìm tham số mạng ngẫu nhiên, Θ, gia đình XU biết trước thể u nút cha, tham số Θ lấy mẫu từ phân phối Dirichlet đối xứng Dir(p ,p , ,p ) với p =0.1 giá trị giả lập lại x|u |X| i xác xuất có điều kiện xác định, với giá trị gần với giá trị khác gần với Ước lượng tham số mạng dựa liệu tiền xử lý Xác suất khuôn mặt biết trước người P(fm|pm) ước lượng cách sử dụng phương pháp đo mật độ khuôn mặt quanh nhân (một lớp người) có chuẩn hoá (normalized kernel density estimation) Việc ước lượng xác suất tên biết trước người P(nm|pm) thực cách tính khả xuất cao (maximum likelihood estimation) tên lớp người Khi nm không gán cho khuôn mặt tài liệu d tiến trình gán tên trước đó, P(nm|pm) ước lượng cách đồng biết trước số lượng i người tập phim Với số lượng hành động địa điểm có giới hạn tập phim chúng tơi xây dựng từ điển cho từ hành động av lớp hành động chúng, tương tự từ điển cho từ địa điểm lo i i lớp chúng dựa WordNet (ví dụ xác định từ "cemetery" thuộc lớp địa điểm "graveyard") Các từ điển dùng để ước lượng xác suất động từ cho trước lớp hành động P(av|am) xác suất từ địa điểm biết trước lớp địa điểm P(lo|lm) Các xác suất người biết trước tài liệu P(pm|d), lớp hành động biết trước tài liệu P(am|d) lớp địa điểm biết trước tài liệu P(lm|d), ước lượng cách tính khả xuất cao tài liệu Cách tiếp cận tương tự áp dụng để ước lượng xác suất lớp hành động biết trước người tài liệu P(am|pm,d) Tất ước lượng sử dụng chế làm mượt để giải trường hợp xác suất không Ước lượng tham số mạng sử dụng kỹ thuật EM Từ bước tiền xử lý trước nhằm nhận dạng người, hành động địa điểm, có tập tài liệu ngữ nghĩa S={d ,d , ,d } Tuy nhiên tập liệu khơng hồn chỉnh nhiều trường hợp chúng tơi |S| khơng thể có quan hệ đầy đủ 〈person, action, location〉 Giải thuật EM dùng cho việc học tham số mạng Bayes đề xuất [29] giải thật rõ ràng trực quan để ứng phó với việc liệu bị thiếu Giải thuật khởi tạo phân phối xác suất có điều kiện định nghĩa trước (được ước lượng ngẫu nhiên liệu từ bước tiền xử lý) sau có nhiều hy vọng tối ưu hoá phân phối xác suất Đầu tiên, bước E hoàn thiện tập liệu cách điền vào phần liệu bị thiếu sử dụng phân phối có Bước M tiếp sau sử dụng tập liệu hồn thiện để ước lượng lại tham số mô hình mạng Bayes Giải thuật chi tiết trình bày sau Bước E: Với tài liệu d , tìm tập biến C với giá trị bị thiếu d Ước lượng xác suất cho biến cần i i i k hoàn thiện c d , P k(c |d ), dựa tập tham số Θ i i Θ i i k+1 k Bước M: Ước lượng lại tham số Θ biết trước tập liệu S tham số hành Θ sau [28]: |S|  PΘk(xu|di) k+1 i=1 Θx|u = |S| (4)  PΘk(u|di) i=1 Giải thuật EM hội tụ số hữu hạn vòng lặp [29] Các tham số mạng khởi tạo, Θ , ước lượng tiến trình lấy giá trị ngẫu nhiên (xem phần IV.E.1) sử dụng liệu bước tiền xử lý (xem phần IV.E.2) F Truy vấn mạng Bayes Với mạng Bayes đề xuất, tài liệu d xếp hạng tương ứng với câu truy vấn q cách ước lượng phân phối hậu biên (posterior marginal distribution) P(d|q) [28] Để cho hàm xếp hạng mơ hình Multimodal Entity-Relation Model tương thích với mơ hình truy hồi khác, sử dụng công thức Bayes để biến đổi P(d|q) thành P(q|d), mà đó, với mục đích xếp hạng tài liệu, chúng tơi gỡ bỏ cách an toàn số (xác suất tiên nghiệm - prior probability tài liệu, xem đồng tất tài liệu) Phạm Thế Phi, Đỗ Thanh Nghị 787 V THÍ NGHIỆM VÀ KẾT QUẢ Chúng tơi thực thí nghiệm phim truyền hình Buffy the Vampire Slayer season 5, episode (cũng sử dụng [1]) Từ kết trình gán tên cho khn mặt, rút trích hành động văn nhận dạng địa điểm, lập tập liệu gồm 1474 tài liệu ngữ nghĩa Trong có 14 người (phân biệt), 51 lớp hành động 14 lớp địa điểm Trong tổng số 1474 tài liệu ngữ nghĩa, 128 tài liệu khơng có thơng tin văn kèm văn kèm không chứa thông tin người, hành động địa điểm Chúng lập tập liệu sau để sử dụng thí nghiệm: 1) Dataset A bao gồm 630 tài liệu ngữ nghĩa đa dạng thức, lựa chọn ngẫu nhiên từ 1474 tài liệu gốc Tập liệu dùng để thử nghiệm mơ hình ngơn ngữ unigram - Unigram Language Model (UL-Text), mơ hình thực thể quan hệ đơn dạng thức - Unimodal Entity-Relation Model (UER-Text) mơ hình thực thể quan hệ đa dạng thức - Multimodal Entity-Relation Model; 2) Dataset B bao gồm 128 tài liệu ngữ nghĩa đa dạng thức khơng có thơng tin văn kèm Tập liệu sử dụng để xem xét mơ hình Multimodal Entity-Relation Model học mối quan hệ thực thể ngữ nghĩa sau dự đốn thực thể bị thiếu Việc truy hồi tài liệu với mơ hình UL-Text and UER-Text khơng cho kết khả quan xác suất tương quan tài liệu câu truy vấn dựa vào thao tác làm mượt phân phối xác suất Riêng với mô hình Multimodal Entity-Relation Model, chúng tơi so sánh hiệu mơ hình với bốn phương pháp khởi tạo tham số: khởi tạo ngẫu nhiên (MER-Ran), khởi tạo liệu có từ bước tiền xử lý (MERPre), khởi tạo ngẫu nhiên khởi tạo sử dụng liệu bước tiền xử lý sau cải thiện phân phối xác suất giải thuật EM (gọi tương ứng MER-EM-Ran and MER-EM-Pre) Trong thí nghiệm đây, xem xét sáu loại câu truy vấn: q1 truy vấn tên người, q2 truy vấn hành động, q3 truy vấn địa điểm, q4 truy vấn người thực hành động, q5 truy vấn người địa điểm q6 truy vấn người thực hành động địa điểm Với loại câu truy vấn, tất thể (instantiations) câu truy vấn sử dụng đường cong precision-recall trung bình xác định Các kết thí nghiệm Dataset A với nhiều loại câu truy vấn trình bày hình Chúng thể việc kết hợp chứng có văn hình ảnh (MER-Ran, MER-Pre and MER-EM-Pre) luôn cho hiệu suất truy hồi tài liệu tốt Thông tin từ bước tiền xử lý giúp tăng thêm hiệu truy hồi tài liệu (MER-Pre and MER-EMPre) so sánh với kết đạt từ mơ hình MER-Ran MER-EM-Ran Về hiệu bước tiền xử lý liệu, gán nhãn vai trò ngữ nghĩa nhận dạng hành động người thực với độ xác 90% [30], địa điểm nhận dạng với độ xác 69% [14] Chúng tơi nhận thấy tập liệu mối quan hệ người hành động tận dụng kiến trúc mạng Bayes Hình trình bày kết truy hồi tài liệu Dataset B với nhiều phương pháp ước lượng tham số mạng Bayes Mơ hình MER-EM-Pre cho phép lấp đầy phần thông tin bị thiếu dựa vào nguồn thơng tin có Hình mơ tả khung hình xếp hạng cao (từ trái sang phải) mơ hình truy hồi MER-EM-Pre từ Dataset B với nguồn thông tin văn bị thiếu Chúng nhận xét kết cách chi tiết sau: Nhận xét 1: Việc kết hợp chứng từ liệu văn hình ảnh làm tăng hiệu suất truy hồi tài liệu Hình thể rõ nhận xét dataset A Ta thấy mơ hình Multimodal Entity-Relation Model vượt trội mơ hình khác theo số đo precision recall Việc kết hợp hai mô thức liệu hình ảnh văn cung cấp cho người dùng nhiều khung hình thích hợp so với việc sử dụng mô thức văn Đặc biệt trường hợp truy hồi người địa điểm, mơ hình xử lý đa dạng thức ln ln vượt trội so với cac mơ hình khác Giá trị mơ hình xử lý đa dạng thức thể xét trường hợp truy vấn hành động Khi mà hành động rút trích từ mơ thức văn chứng có khơng đủ để truy hồi cách đáng tin cậy tài liệu liên quan đến hành động Nhận xét 2: Thơng tin có từ bước tiền xử lý giúp tăng hiệu suất truy hồi tài liệu Hình thể rõ việc sử dụng liệu hình ảnh văn tiền xử lý giúp cải thiện điểm số recall precision trình truy hồi tài liệu Việc sử dụng liệu hình ảnh văn đặc trưng để học mối quan hệ khái niệm quan trọng việc khởi tạo mạng Bayes Trong vài trường hợp, việc ước lượng tham số mạng sử dụng liệu tiền xử lý đạt hiệu cao việc dùng giải thuật EM để cải thiện liệu tiền xử lý Chúng tơi nghi ngờ tiến trình EM làm mượt mức phân phối xác suất Nhận xét 3: Việc truy hồi khung hình cải thiện cách xem xét thêm mối quan hệ người hành động Chúng thực sáu loại câu truy vấn mơ hình Multimodal Entity-Relation Model với ba kiến trúc mạng (hình 3) tập liệu Dataset A Mặc dù không thấy khác biệt rõ nét hiệu ba mơ hình này, mơ hình dường thể tốt việc phản ánh mối quan hệ người hành động (trung bình cải thiện 5% precision) Đây hành động phát thông qua công cụ định nhãn vai trị ngữ nghĩa mà hành động gắn với thực thể thực hiện, chủ yếu người Việc kết hợp người địa điểm cải thiện hiệu 788 ỨNG DỤNG KỸ THUẬT ĐỊNH DANH TỪ DỮ LIỆU VIDEO VÀO VIỆC NHẬN DẠNG CON NGƯỜI, HÀNH ĐỘNG… không nhiều (cải thiện nhiều 0.7%, diễn mơ hình mơ hình với loại câu truy vấn person location), khơng thấy nhiều điểm khác biệt Hình Điều cốt lõi mà rút qua thí nghiệm việc sử dụng chứng đa dạng thức thiết kế truy hồi liệu trở nên đầy hứa hẹn, liệu khơng có diện số trường thông tin trường thông tin bị nhiễu Quan trọng việc tận dụng mối quan hệ khái niệm ngữ nghĩa trình học hệ thống hữu ích cho dự đốn cuối trường thơng tin bị thiếu Hình Các khung hình xếp hạng cao truy hồi từ Dataset B với ví dụ loại câu truy vấn VI KẾT LUẬN Chúng đề xuất ba mơ hình truy hồi video, mơ hình Multimodal Entity-Relation, mơ hình dựa chứng có từ dạng thức liệu ảnh văn bản, thể vượt trội so với mơ hình cịn lại (Unigram Language Model Unimodal Entity-Relation Model) tận dụng nguồn thơng tin đa phương tiện q trình lập mục video nhằm học tốt mối quan hệ khái niệm ngữ nghĩa Việc sử dụng lực suy luận mạng Bayes để học mối quan hệ chứng minh có lợi Khi phải dựa vào nguồn thông tin văn khơng hồn chỉnh bị thiếu, việc truy hồi khung hình video có liên quan trở nên khó khăn cho kết không khả quan Chúng trình bày cách thức mà mơ hình mạng Bayes cho phép việc kết hợp nguồn thông tin đa dạng thức từ ảnh văn bản, xử lý câu truy vấn dạng quan hệ suy luận mơ tả cho khung hình video trường hợp mô tả bị thiếu Để so sánh với mơ hình Unigram Language Unimodal Entity-Relation, tất mơ hình thực thi đánh giá tập phim truyền hình Buffy the Vampire Slayer, gia tăng hiệu truy hồi khung hình rõ ràng, đặc biệt khung hình thiếu nguồn thơng tin văn Chúng tơi tin tưởng công nghệ mạng Bayes, với khả kết hợp chứng để suy luận khả ứng phó với việc thiếu thơng tin, có tiềm lớn sử dụng hệ thống truy hồi thông tin đa phương tiện tương lai Phạm Thế Phi, Đỗ Thanh Nghị 789 Hình Đánh giá việc truy hồi tài liệu tập liệu Dataset A với loại câu truy vấn kỹ thuật ước lượng tham số khác Chú ý khác thang điểm đồ thị Hình Đánh giá việc truy hồi tài liệu tập liệu Dataset B với loại câu truy vấn kỹ thuật ước lượng tham số khác Chú ý khác thang điểm đồ thị TÀI LIỆU THAM KHẢO [1] M Everingham, J Sivic, A Zisserman, “Hello! My name is Buffy”– automatic naming of characters in TV video, in: Proceedings of the 17th British Machine Vision Conference, 2006, pp 889–908 [2] M S Lew, N Sebe, C Djeraba, R Jain, Content-based multimedia information retrieval: State of the art and challenges, ACM Transactions on Multimedia Computing, Communications and Applications (1) (2006) 1–19 doi:10.1145/1126004.1126005 URL http://doi.acm.org/10.1145/1126004.1126005 [3] A Smeulders, M Worring, S Santini, A Gupta, R Jain, Content- based image retrieval at the end of the early years, Pattern Analysis and Machine Intelligence, IEEE Transactions on 22 (12) (2000) 1349 –1380 doi:10.1109/34.895972 [4] S Satoh, Y Nakamura, T Kanade, Name-it: Naming and detecting faces in news videos, IEEE Multimedia (1999) 22–35 [5] J Vendrig, M Worring, Multimodal person identification in movies, in: Proceedings of CIVR 2002: International Conference on Image and Video Retrieval, 2002, pp 175–185 [6] J Yang, A G Hauptmann, Naming every individual in news video monologues, in: Proceedings of the ACM Multimedia 2004, 2004, pp 580–587 [7] M Everingham, J Sivic, A Zisserman, Taking the bite out of automated naming of characters in TV video, Image and Vision Computing 27 (5) (2009) 545–559 [8] P T Pham, M.-F Moens, T Tuytelaars, Cross media alignment of names and faces, IEEE Transactions on Multimedia 12 (1) (2010) 13– 27 [9] T Cour, B Sapp, B Taskar, Learning from partial labels, Journal of Machine Learning Research 12 (2011) 1501–1536.  URL http://dl.acm.org/citation.cfm?id=1953048.2021049 [10] I Laptev, M Marszalek, C Schmid, B Rozenfeld, Learning realistic human actions from movies, in: Proceedings of CVPR 2008, 2008, pp –8 doi:10.1109/CVPR.2008.4587756 [11] J Yuan, Z Liu, Y Wu, Discriminative subvolume search for efficient action detection, in: Computer Vision and Pattern Recogni- tion, 2009 CVPR 2009 IEEE Conference on, 2009, pp 2442 –2449 doi:10.1109/CVPR.2009.5206671 [12] M Hoai, Z.-Z Lan, F D la Torre, Joint segmentation and classi- fication of human actions in video, Computer Vision and Pattern Recognition, IEEE Computer Society Conference on (2011) 3265– 3272doi:http://doi.ieeecomputersociety.org/ 10.1109/CVPR.2011.5995470 [13] F Schaffalitzky, A Zisserman, Automated location matching in movies, Computer Vision and Image Understanding 92 (2-3) (2003) 236–264 doi:10.1016/j.cviu.2003.06.008.  URL http://dx.doi.org/10.1016/j.cviu.2003.06.008 [14] C Engels, K Deschacht, J H Becker, T Tuytelaars, S Moens, L Van Gool, Automatic annotation of unique locations from video and text, in: Proceedings of the British Machine Vision Conference, BMVA Press, 2010, pp 115.1–115.11 [15] J Luo, B Caputo, V Ferrari, Who’s doing what: Joint modeling of names and verbs for simultaneous face and pose annotation, in: Pro- ceedings of the Twenty-Fourth Annual Conference on Neural Informa- tion Processing System, 2009, pp 1168–1176 790 ỨNG DỤNG KỸ THUẬT ĐỊNH DANH TỪ DỮ LIỆU VIDEO VÀO VIỆC NHẬN DẠNG CON NGƯỜI, HÀNH ĐỘNG… [16] N Nitta, N Babaguchi, T Kitahashi, Extracting actors, actions and events from sports video - a fundamental approach to story tracking, International Conference on Pattern Recognition (2000) 4718–4721 doi:http://doi.ieeecomputersociety.org/10.1109/ ICPR.2000.903018 [17] M Marszalek, I Laptev, C Schmid, Actions in context, in: Proceedings of the 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009), 2009, pp 2929–2936 [18] H R Turtle, W B Croft, Inference networks for document retrieval, in: Proceedings of SIGIR 1990, 1990, pp 1–24 [19] W B Croft, J Lafferty, Language Modeling for Information Retrieval, Kluwer Academic Publishers, Norwell, MA, USA, 2003 [20] A Graves, M Lalmas, Video retrieval using an MPEG-7 based inference network, in: Proceedings of SIGIR 2002, ACM, New York, NY, USA, 2002, pp 339–346 doi:10.1145/564376.564436.URL http://doi.acm.org/10.1145/564376.564436 [21] T Coelho, P Calado, L Souza, B Ribeiro-Neto, R Muntz, Image retrieval using multiple evidence ranking, Knowledge and Data Engineering, IEEE Transactions on 16 (4) (2004) 408 – 417 doi:10.1109/TKDE.2004.1269666 [22] M J Pickering, S Ruger, Evaluation of key frame-based retrieval techniques for video, Computer Vision and Image Understanding 92 (2-3) (2003) 217 – 235 doi:10.1016/j.cviu.2003.06.002 URL http://www.sciencedirect.com/science/article/ pii/S1077314203001206 [23] G C de Silva, T Yamasaki, K Aizawa, Evaluation of video summa- rization for a large number of cameras in ubiquitous home, in: Proceed- ings of Multimedia ’05: The 13th Annual ACM International Conference on Multimedia, ACM, New York, NY, USA, 2005, pp 820–828 doi:10.1145/1101149.1101329 URL http://doi.acm.org/10.1145/1101149.1101329 [24] P Viola, M Jones, Robust realtime object detection vector quantization, International Journal of Computer Vision 57 (2) (2004) 137–154 [25] J Shi, C Tomasi, Good features to track, in: Proceedings of the Conference on Computer Vision and Pattern Recognition, IEEE Computer Society Press, 1994, pp 593–600 [26] K Deschacht, J De Belder, M.-F Moens, The latent words language model, Computer Speech and Language 26 (5) (2012) 384 – 409 doi:10.1016/j.csl.2012.04.001.URL http://www.sciencedirect.com/science/article/pii/S0885230812000277 [27] L Ma`rquez, X Carreras, K C Litkowski, S Stevenson, Semantic role labeling: An introduction to the special issue, Computational Linguistics 34 (2) (2008) 145–159 doi:10.1162/coli.2008.34.2.145 URL http://dx.doi.org/10.1162/ coli.2008.34.2.145 [28] A Darwiche, Modeling and Reasoning with Bayes Networks, Cambridge University Press, 2009 [29] S L Lauritzen, The EM algorithm for graphical association models with missing data, Computational Statistics & Data Analysis 19 (2) (1995) 191 – 201 [30] K Deschacht, M.-F Moens, Semi-supervised semantic role labeling us ing the latent words language model, in: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1, EMNLP ’09, ACL, Stroudsburg, PA, USA, 2009, pp 21–29 URL http://dl.acm.org/citation.cfm?id=1699510.1699514 VIDEO RETRIEVAL: WHO IS DOING WHAT AND WHERE? Pham The Phi, Do Thanh Nghi ABSTRACT— This paper proposes a novel method for the retrieval of video frames when incomplete textual annotations are available The idea is using Bayesian inference for guessing potential textual descriptors about the actors, actions and locations in the frames Several probabilistic retrieval models that incorporate evidence from the visual and incomplete textual data are evaluated and compared For our experiments we use the soap videos of Buffy the Vampire Slayer Keywords— Multimedia data mining, video indexing and retrieval ... cụ định nhãn vai trị ngữ nghĩa mà hành động gắn với thực thể thực hiện, chủ yếu người Việc kết hợp người địa điểm cải thiện hiệu 788 ỨNG DỤNG KỸ THUẬT ĐỊNH DANH TỪ DỮ LIỆU VIDEO VÀO VIỆC NHẬN DẠNG... Twenty-Fourth Annual Conference on Neural Informa- tion Processing System, 2009, pp 1168–1176 790 ỨNG DỤNG KỸ THUẬT ĐỊNH DANH TỪ DỮ LIỆU VIDEO VÀO VIỆC NHẬN DẠNG CON NGƯỜI, HÀNH ĐỘNG… [16] N Nitta,... giải thuật cân chỉnh thời gian [1] áp dụng để cuối có thơng tin hồn chỉnh ai, làm gì/nói Hình mô tả lại giải thuật cân chỉnh thời gian 784 ỨNG DỤNG KỸ THUẬT ĐỊNH DANH TỪ DỮ LIỆU VIDEO VÀO VIỆC NHẬN

Ngày đăng: 26/11/2020, 00:07