Một số kĩ thuật truy tìm nhân vật trong các kho dữ liệu video lớn

1 MỞ ĐẦU Sự tiến bộ không ngừng của lĩnh vực ảnh và video số cùng với công nghệ máy tính đã đem lại cho con người một cuộc sống nhiều ý nghĩa hơn. Ngày nay, người ta dễ dàng lưu trữ và chia sẻ những bộ sưu tập ảnh với hàng ngàn bức ảnh chất lượng cao, những thước phim hàng trăm giờ, mà không cần đến thiết bị chuyên dụng đắt tiền. Song song vớ i sự tiến bộ đó là quá trình bùng nổ dữ liệu số và kết quả là hiện nay con người đang sống trong một biển thông tin đa phương tiện. Thách thức đặt ra ở đây là: Làm thế nào để tìm được nội dung quan tâm trong các kho dữ liệu khổng lồ mà không phải bỏ ra hàng giờ vô ích? Đó chính là mục tiêu của bài toán chỉ mục và truy tìm trong lĩnh vực xử lí ảnh và video số. Nhân vật là đối tượng quan trọ ng trong dữ liệu video. Ví dụ những đoạn video về George W. Bush, Barack Obama, Saddam Hussein,… đều liên quan đến các thời điểm lịch sử quan trọng trên thế giới. Nếu một ứng dụng có thể liệt kê ra những đoạn video có George W. Bush xuất hiện trong 8 năm ở Nhà Trắng và trước đó thì sẽ rất có ích cho các nhà nghiên cứu lịch sử, biên tập viên chương trình TV (xem Hình 0.1). Ngoài ra, từ các đoạn video có Bush xuất hiện, người ta có thể biế t được những sự kiện quan trọng liên quan. Ví dụ, sự kiện 11/09/2009 xảy ra trong lúc tổng thống đang thăm một trường tiểu học ở Florida. Do đó, nhu cầu về một hệ thống có khả năng giúp con người truy tìm các tài liệu video liên quan đến một nhân vật cụ thể là cần thiết và đây là bài toán Truy tìm nhân vật mà các nhà nghiên cứu đã và đang không ngừng nỗ lực giải quyết. Với mục tiêu nghiên cứ u giải pháp hiệu quả cho hệ thống Truy tìm nhân vật khi hoạt động trên các kho dữ liệu video lớn, luận văn đã tiến hành nghiên cứu đề tài “Một số kĩ thuật truy tìm nhân vật trong các kho dữ liệu video lớn”. Cụ thể là: 1) Luận văn nghiên cứu và đề xuất một phương pháp so khớp mới, cho phép ước lượng độ tương tự giữa các đối tượng video với độ chính xác tương đương nh ững phương pháp phổ biến hiện nay nhưng chi phí tính toán thấp hơn, 2) Hiện thực hóa 2 hệ thống Truy tìm nhân vật, có khả năng truy tìm nhanh và hiệu quả theo thời gian thực trên kho dữ liệu video lớn. Hình 0.1 Một ví dụ về hệ thống Truy tìm nhân vật. Người dùng tìm nhân vật George W. Bush (trái) và hệ thống trả ra các bản tin liên quan (phải). Cấu trúc luận văn được tổ chức như sau: • Chương 1 – Bài toán Truy tìm nhân vật trong các kho dữ liệu video lớn - Giới thiệu bài toán Truy tìm nhân vật trong các kho dữ liệu video, sự cần thiết phải giải quyết bài toán trong các kho dữ liệu lớn và khảo sát các hướng tiếp cận phổ biến để giải quyết bài toán. - Định nghĩa thành phần căn bản của bài toán là face-track và phát biểu hình thức bài toán Truy tìm nhân vật trong các kho d ữ liệu video. - Trình bày ý tưởng của phương pháp so khớp mặt người k-Faces do luận văn đề xuất, nhằm đưa ra một giải pháp hiệu quả và nhanh chóng cho bài toán Truy tìm nhân vật. • Chương 2 – Hệ thống Truy tìm nhân vật trong các kho dữ liệu video lớn - Trình bày mô hình hệ thống Truy tìm nhân vật trong các kho dữ liệu lớn do luận văn xây dựng: các thành phần trong hệ thống và mối liên kết hoạt động giữa các thành phần. Đây là hệ thống Truy tìm nhân vật hoàn chỉnh có khả năng truy tìm nhanh và chính xác trên dữ liệu video lớn, được tích hợp phản hồi liên quan từ người dùng giúp tinh chỉnh kết quả truy tìm tốt hơn. Hệ thống là một framework gồm nhiều 3 mô đun hoạt động độc lập, phục vụ cho mục tiêu nghiên cứu đánh giá các đặc trưng, phương pháp so khớp khác nhau mà không cẩn phải xây dựng từ đầu một hệ thống mới. - Các kĩ thuật tiền xử lí cho bài toán Truy tìm nhân vật: phát hiện ranh giới shot, phát hiện mặt người và kĩ thuật rút trích face-track. - Các kĩ thuật quan trọng đóng vai trò then chốt cho hệ thống Truy tìm nhân vật: đặc tr ưng biểu diễn mặt người Local Binary Pattern, các phương pháp so khớp mặt người phổ biến. Phần này trình bày chi tiết về phương pháp đề xuất k-Faces. - Giới thiệu khái niệm phản hồi liên quan và cách thức ứng dụng trong hệ thống Truy tìm nhân vật • Chương 3 – Kết quả thực nghiệm và đánh giá: trong chương này, luận văn vận dụng hệ thống Truy tìm nhân vật đã được đề xuấ t để thực hiện các thực nghiệm và đánh giá, bao gồm: - So sánh hiệu quả của phương pháp so khớp dựa trên đại diện k-Faces và các phương pháp so khớp face-track phổ biến khác. - Kiểm chứng khả năng cải thiện độ chính xác truy tìm khi có phản hồi liên quan từ người dùng. Kết luận và hướng phát triển: trình bày các ý tổng kết cho luận văn và hướng phát triển trong tương lai. ii Mục lục LỜI CẢM ƠN i  Mục lục ii Danh mục các bảng v Danh mục các hình vẽ, đồ thị vi MỞ ĐẦU 1 Chương 1 BÀI TOÁN TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN 4  1.1. Giới thiệu bài toán 4 1.2. Định nghĩa face-track 6 1.3. Phát biểu bài toán 7 1.4. Các hướng tiếp cận giải quyết bài toán 8 1.5. Đề xuất phương pháp so khớp mặt người k-Faces 12 Chương 2 HỆ THỐNG TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN 14  2.1. Mô hình hệ thống Truy tìm nhân vật trong các kho dữ liệu video lớn 14 2.2. Các kĩ thuật tiền xử lí 17 2.2.1. Kĩ thuật phát hiện ranh giới video shot 17 2.2.2. Kĩ thuật phát hiện mặt người 18 2.3. Kĩ thuật rút trích face-track từ điểm theo vết 20 2.4. Đặc trưng biểu diễn mặt người 21 2.5. Các phương pháp so khớp face-track 23 2.5.1. Phương pháp so khớp dựa trên toàn bộ face-track 23 iii 2.5.2.  Phương pháp so khớp dựa trên đại diện 25 2.5.3. Phương pháp k-Faces 26 2.6. Truy tìm và trả kết quả 27 2.7. Kết hợp phản hồi liên quan từ người dùng 27 Chương 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ 31 3.1. Dữ liệu thực nghiệm 31 3.2. Tiêu chuẩn đánh giá 32 3.3. Các kĩ thuật áp dụng và tham số 33 3.3.1. Kĩ thuật tách biên video shot 33 3.3.2. Kĩ thuật phát hiện mặt người 34 3.3.3. Phương pháp rút trích face-track 34 3.3.4. Đặc trưng biểu diễn mặt người 35 3.3.5. Phương pháp so khớp face-track 35 3.4. Kết quả thực nghiệm và thảo luận 35 3.4.1. So sánh k-Faces với các phương pháp so khớp face-track khác 35 3.4.2. Kiểm chứng vai trò của phản hồi liên quan từ người dùng 45 3.5. Kết luận và hướng phát triển 47 PHỤ LỤC A – CÁC KĨ THUẬT TIỀN XỬ LÍ CHO BÀI TOÁN TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN 50  I. Kĩ thuật phát hiện ranh giới video shot 50 A. Hiệu số điểm ảnh 50 B. Hiệu số thống kê 51 C. Histograms 51 D. Hiệu số độ nén 52 iv E.  Theo vết cạnh 52 F. Vectơ chuyển động 52 II. Kĩ thuật phát hiện mặt người Viola-Jones 53 A. Đặc trưng Haar 54 B. Ảnh tích phân 55 C. Bộ phân lớp nhiều tầng 56 D. Thuật toán AdaBoost 57 III. Kĩ thuật rút trích face-track từ điểm theo vết 58 PHỤ LỤC B – LOCAL BINARY PATTERNS (LBP) 61 I. Bất biến theo mức xám 62 II. Bất biến theo phép quay 63 III. Cải thiện bất biến theo phép quay với các mẫu đồng nhất và phép lượng hoá mịn hơn của không gian góc quay 65  TÀI LIỆU THAM KHẢO 67 v Danh mục các bảng Bảng 3-1 Độ chính xác tính theo Mean Average Precision của bốn phương pháp: Min-Min, k-Faces (k = 5), Avg-Min và Single Face. 37  Bảng 3-2 Chi phí tính toán của các phương pháp: Min-Min, Avg-Min, k-Faces (k = 5) và Single Face. 38  vi Danh mục các hình vẽ, đồ thị Hình 0.1 Một ví dụ về hệ thống Truy tìm nhân vật. 2  Hình 1.1 Sự đa dạng về biểu cảm, tư thế, điều kiện chiếu sáng và tình trạng che khuất của mặt người. 5  Hình 1.2 Cách thức xây dựng face-track từ tập hợp mặt trong video shot 6 Hình 1.3 Bài toán Truy tìm nhân vật trong các kho dữ liệu video 8 Hình 1.4 Xây dựng đồ thị liên kết từ câu truy vấn. 9 Hình 1.5 Sự cùng xuất hiện của nhân vật truy tìm và “bạn bè”. 10 Hình 1.6 Sự lệch pha giữa thông tin văn bản và thông tin thị giác. 10 Hình 1.7 So khớp chuỗi mặt người theo phương pháp BFVS và CP. 12 Hình 1.8 Ý tưởng so khớp của phương pháp so khớp k-Faces. 13 Hình 2.1 Mô hình hệ thống Truy tìm nhân vật được đề xuất 16 Hình 2.2 Ví dụ một cảnh phim có chứa nhiều shot. 17 Hình 2.3 Kĩ thuật phát hiện mặt người xác định các vùng mặt có trong ảnh. 18 Hình 2.4 Bộ phát hiện mặt người Viola-Jones. 19 Hình 2.5 Phát sinh các điểm quan tâm mới khi xuất hiện khuôn mặt mới. 20 Hình 2.6 Toán tử LBP 21 Hình 2.7 Tập láng giềng đối xứng tròn của các giá trị (P, R) khác nhau. 22 Hình 2.8 Mặt lần lượt được chia thành 7×7, 5×5, 3×3 vùng hình chữ nhật. 23 Hình 2.9 Cách xác định khoảng cách dựa trên gom nhóm liên kết đơn. 24 Hình 2.10 Cách xác định khoảng cách dựa trên gom nhóm liên kết trung bình. 25 Hình 2.11 Phương pháp so khớp dựa trên đại diện (đại diện là mặt nằm giữa). 25 Hình 2.12 Ý tưởng của phương pháp so khớp k-Faces (ảnh minh họa khi k = 3). . 27 Hình 2.13 Ví dụ về ứng dụng có sử dụng phản hồi liên quan. 28 Hình 2.14 Cải thiện danh sách xếp hạng dựa trên phản hồi người dùng bằng phương pháp trộn theo giá trị nhỏ nhất và trộn theo giá trị trung bình. 30  Hình 3.1 Dữ liệu video tin tức TRECVID. 31 Hình 3.2 Cấu trúc XML biểu diễn thông tin của một shot. 33 vii Hình 3.3 Biểu đồ Precision-Recall của các phương pháp: Min-Min, k-Faces (k = 5), AvgMin và Single Face. 36  Hình 3.4 Ví dụ về sự hạn chế của phương pháp Single Face. 38 Hình 3.5 Ví dụ về sự hạn chế của phương pháp Avg-Min. 39 Hình 3.6 Ví dụ về sự hạn chế của phương pháp Min-Min. 40 Hình 3.7 Hiệu quả của k-Faces phụ thuộc vào chất lượng của tập ảnh con. 40 Hình 3.8 Độ chính xác MAP của k-Faces với nhiều giá trị k khác nhau 41 Hình 3.9 Chi phí tính toán của k-Faces với nhiều giá trị k khác nhau. 42 Hình 3.10 Độ chính xác MAP của phương pháp k-Faces khi chia đoạn đều nhau so với kết hợp gom nhóm k-means. 43  Hình 3.11 Chi phí tính toán của phương pháp k-Faces khi chia đoạn đều nhau so với kết hợp gom nhóm k-means. 44  Hình 3.12 Chi phí tính toán của phương pháp k-Faces khi chia đoạn đều nhau so với kết hợp gom nhóm k-means. 44  Hình 3.13 Kết hợp phản hồi liên quan có thể cải thiện chất lượng truy tìm. 46 Hình A - 1 Bộ phát hiện mặt người Viola-Jones. 53  Hình A - 2 Các dạng đặc trưng Haar cơ bản. 54 Hình A - 3 Các dạng đặc trưng Haar mở rộng từ đặc trưng Haar cơ bản. 55 Hình A - 4 Cách tính ảnh tích phân theo tham chiếu 4 điểm 56 Hình A - 5 Ví dụ bộ phân lớp nhiều tầng. 56 Hình A - 6 Thuật toán AdaBoost 57 Hình A - 7 Thuật toán rút trích face-track của Ngo et al. 60 Hình A - 8 Phát sinh các điểm quan tâm mới khi xuất hiện khuôn mặt mới. 60 Hình B - 1 Tập láng giềng đối xứng tròn của các giá trị (P, R) khác nhau. 62  Hình B - 2 Ba mươi sáu mẫu nhị phân bất biến theo phép quay phân biệt có thể xuất hiện trong tập lân cận đối xứng tròn của ri R LBP ,8 . 64 4 Chương 1 BÀI TOÁN TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN 1.1. Giới thiệu bài toán Truy tìm nhân vật trong các kho dữ liệu video lớn là một trong những bài toán quan trọng của lĩnh vực xử lí ảnh và video số. Mục tiêu nghiên cứu của bài toán là: đề xuất giải pháp tìm kiếm hiệu quả và nhanh chóng các đoạn video trong những cơ sở dữ liệu kích thước lớn sao cho nhân vật trong đó phù hợp với yêu cầu truy vấn. Một cách cụ thể, cho kho dữ liệu D có kích thước lớn (từ vài trăm đến vài ngàn giờ video), gồm nhiều đoạn video chứa những nhân vật khác nhau, người dùng muốn tìm nhân vật X, làm thế nào để tìm trong D các đoạn video chứa X một cách chính xác theo thời gian thực? Bài toán ra đời xuất phát từ mối quan tâm của con người đối với những nhân vật đặc biệt và sự kiện liên quan. Ví dụ, nhà hoạt động chính trị quan tâm đến nhiệm kì tổng thống của George W. Bush sẽ tìm các bản tin liên quan đế n Bush, hoặc người hâm mộ diễn viên Julia Roberts muốn tìm những trích đoạn phim có cô xuất hiện. Bên cạnh đó, việc tìm ra các đoạn video có sự hiện diện của một nhân vật còn giúp ta biết được các sự kiện quan trọng liên quan. Ví dụ từ những đoạn video chứa George W. Bush hoặc Saddam Hussein, ta có thể nắm được diễn tiến cuộc chiến tranh tại Iraq và động thái của hai bên. Đối tượng chính được nghiên cứu trong bài toán Truy tìm nhân vậ t là mặt người (face). Mặt người là thông tin quan trọng trong video, đặc biệt với các chương trình tin tức, kịch, và phim ảnh. Bằng cách rút trích chuỗi mặt người từ video, ta có thể đưa vào thực tế các ứng dụng như Truy tìm mặt người, Chú thích mặt người và Đánh chỉ mục video. Tuy nhiên, đây là một nhiệm vụ đầy thử thách do mặt người có độ đa dạng cao về tư thế, điều kiện chiếu sáng, tình trạng che khuất, kiểu tóc và biểu cảm (xem Hình 1.1) [23]. [...]... nghiêng, đặc biệt là trong video, nên chủ yếu chỉ có mặt chính diện được xử lí 1.3 Phát biểu bài toán Bài toán Truy tìm nhân vật trong các kho dữ liệu video là một trong những bài toán dạng Truy tìm thông tin phổ biến Mục tiêu chính của bài toán là đề xuất giải pháp truy tìm hiệu quả và nhanh chóng các đoạn video trong cơ sở dữ liệu kích thước lớn sao cho nhân vật trong đó phù hợp với yêu cầu truy vấn Điều... cơ sở dữ liệu có kích thước lớn nhất mà những công trình từ trước đến nay chưa đề cập đến, do đó, nó đủ để kiểm chứng khả năng hoạt động của phương pháp đề xuất trên các kho dữ liệu video lớn Phương pháp k-Faces sẽ được trình bày chi tiết về cách chọn đại diện trong trong Chương 2, mục 2.5.3 14 Chương 2 HỆ THỐNG TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN Trong phần này luận văn xây dựng một hệ... xây dựng một hệ thống Truy tìm nhân vật trong các kho dữ liệu video lớn Mục tiêu của việc xây dựng hệ thống là cung cấp cho người dùng một ứng dụng Truy tìm nhân vật hiệu quả và nhanh chóng trên dữ liệu thực tế kích thước lớn Bên cạnh đó, nhờ vào thiết kế dạng mô đun riêng rẽ, hệ thống còn là một framework tổng quát cho phép đánh giá hiệu quả của các phương pháp truy tìm nhân vật khác nhau, cũng như... sở dữ liệu của chúng ta là những kho video với kích thước khổng lồ Một cách cụ thể, hệ thống Truy tìm nhân vật cần có công cụ hiệu quả để ước lượng độ tương tự giữa những đối tượng video trong cơ sở dữ liệu và đối tượng video truy vấn Đối tượng video có thể là toàn bộ tài liệu video, video shot, hoặc chuỗi mặt rút trích từ video shot…Luận văn tập trung giải quyết bài toán trong phạm vi đối tượng video. .. liên quan 2.1 Mô hình hệ thống Truy tìm nhân vật trong các kho dữ liệu video lớn Hệ thống Truy tìm nhân vật được đề xuất có cấu trúc được tổ chức như sau: • Đầu vào: face-track truy vấn Q • Đầu ra: danh sách L chứa các face-track liên quan được xếp hạng giảm dần (hoặc tăng dần) theo mức độ tương tự với truy vấn Q • Cơ sở dữ liệu: là tập hợp các face-track của nhiều nhân vật khác nhau • Bao gồm hai mô... dụng dữ liệu ảnh thực tế trích từ bản tin Internet thay vì dữ liệu được tạo trong điều kiện kiểm soát tốt Để tăng hiệu quả của các ứng dụng truy tìm và nhận dạng mặt người, ta cần có nhiều trạng thái khuôn mặt khác nhau cho một nhân vật [1][7][26] Video có thể cung cấp cho chúng ta những tập dữ liệu như thế Như vậy, muốn giải quyết tốt bài toán Truy tìm nhân vật trên dữ liệu video, không chỉ xét một. .. sách xếp hạng cách face-track liên quan: Căn cứ vào độ tương tự đối với truy vấn, các face-track trong cơ sở dữ liệu được sắp xếp theo thứ tự giảm dần của độ tương tự, m facetrack liên quan đầu tiên được chọn trả về cho người dùng 16 Hình 2.1 Mô hình hệ thống Truy tìm nhân vật được đề xuất 17 2.2 Các kĩ thuật tiền xử lí 2.2.1 Kĩ thuật phát hiện ranh giới video shot Shot là một chuỗi gồm các khung hình... giới hạn về số chiều không 9 gian Trong [14], tác giả tinh chỉnh tập kết quả truy tìm bằng cách mở rộng câu truy vấn ban đầu nhằm xác định các mẫu âm (nhận diện sai) và tách chúng ra khỏi tập kết quả Khi tìm một nhân vật A, ta không chỉ xét các đoạn video chứa A mà còn xét những đoạn video có “bạn bè” của A (người thường xuyên cùng xuất hiện với A) (xem Hình 1.5) Kết quả truy tìm trên truy vấn mở rộng... mọi dữ liệu, độc lập với yêu cầu văn bản hỗ trợ 13 k-Faces có khả năng ước lượng chính xác trong khi vẫn duy trì chi phí tính toán thấp Để truy tìm hiệu quả, các mặt của cùng một người xuất hiện trong từng shot được gom thành một face-track bằng một phương pháp theo vết đáng tin cậy Quá trình truy tìm được thực hiện bằng cách ước lượng độ tương tự giữa face-track trong cơ sở dữ liệu và face-track truy. .. hiện trên video xung quanh thời điểm người này được nhắc đến trong kịch bản Tiếp đó, xây dựng đồ thị liên kết các mặt trong không gian tìm kiếm, với mỗi nút là mặt và trọng số cạnh nối các nút là độ tương tự giữa các mặt (xem Hình 1.4) Bằng cách giả thiết rằng số mặt của nhân vật cần tìm lớn hơn nhiều so với của những người khác và chúng hình thành tập con tương đồng nhau nhất trong số những mặt tìm được, . toán Truy tìm nhân vật. • Chương 2 – Hệ thống Truy tìm nhân vật trong các kho dữ liệu video lớn - Trình bày mô hình hệ thống Truy tìm nhân vật trong các kho dữ liệu lớn do luận văn xây dựng: các. cho hệ thống Truy tìm nhân vật khi hoạt động trên các kho dữ liệu video lớn, luận văn đã tiến hành nghiên cứu đề tài Một số kĩ thuật truy tìm nhân vật trong các kho dữ liệu video lớn . Cụ thể. Truy tìm nhân vật trong các kho dữ liệu video lớn 14 2.2. Các kĩ thuật tiền xử lí 17 2.2.1. Kĩ thuật phát hiện ranh giới video shot 17 2.2.2. Kĩ thuật phát hiện mặt người 18 2.3. Kĩ thuật

Định dạng
Số trang	70
Dung lượng	4,4 MB