So sánh k-Faces với các phương pháp so khớp face-track khác 35

Một phần của tài liệu Một số kĩ thuật truy tìm nhân vật trong các kho dữ liệu video lớn (Trang 41 - 70)

Mục tiêu của thực nghiệm nhằm chứng tỏ khả năng so khớp của k-Faces vượt trội so với phương pháp dựa trên đại diện đơn giản (chọn mặt nằm giữa face- track) và tương đương với các phương pháp dựa trên toàn bộ face-track trên dữ liệu thực tế có độ đa dạng cao như video bản tin TRECVID.

Một cách cụ thể, k-Faces được so sánh với ba phương pháp so khớp mặt người khác, đó là: phương pháp dựa trên đại diện là ảnh mặt giữa, phương pháp tính khoảng cách dựa trên gom nhóm liên kết đơn và phương pháp tính khoảng cách dựa trên gom nhóm liên kết trung bình. Để thuận tiện cho việc trình bày, các phương pháp được đặt tên ngắn gọn lần lượt là k-Faces, Single Face, Min-Min và Avg-Min.

Hiệu quả so khớp của các phương pháp được đánh giá trên tập dữ liệu gồm 1511 face-track đã gán nhãn. Mỗi face-track trong tập dữ liệu lần lượt đóng vai trò là truy vấn, trong khi đó, số còn lại được xem như những face-track trả về trong quá trình truy tìm. Các face-track trả về được sắp xếp theo thứ tự giảm dần của độ liên quan, tức là face-track liên quan nhiều nhất với truy vấn sẽ xuất hiện đầu tiên và ngược lại. Ta tính độ chính xác trung bình cho mỗi truy vấn và cuối cùng là độ chính xác trung bình toàn cục trên toàn bộ tập truy vấn.

Chi phí tính toán của một phương pháp so khớp được ước lượng bằng cách cộng toàn bộ chi phí truy tìm cần thiết cho mỗi truy vấn, tức là chi phí đo lường độ tương tự giữa truy vấn và face-track trong cơ sở dữ liệu. Lưu ý rằng, chi phí tính sắp xếp face-track liên quan khi trả về không được xét đến ở đây vì nó như nhau cho mọi truy vấn và mọi phương pháp.

Hình 3.3 Biểu đồ Precision-Recall của các phương pháp: Min-Min, k-Faces (k = 5), AvgMin và Single Face.

Bảng 3-1 Độ chính xác tính theo Mean Average Precision của bốn phương pháp: Min- Min, k-Faces (k = 5), Avg-Min và Single Face.

Phương pháp Mean Average Precision (%)

Min-Min 56,93

k-Faces (k=5) 54,97

Avg-Min 53,69

Single Face 46,46

Như trình bày trong Bảng 3.1 và Hình 3.3, sử dụng một mặt thật sự để biểu diễn face-track là phương pháp cho kết quả tệ nhất. Các phương pháp dựa trên toàn bộ face-track, Avg-Min và Min-Min, tốt hơn rất nhiều, đặc biệt là Min-Min. Bên cạnh đó, k-Faces có hiệu quả tương đương với Avg-Min và Min-Min.

Phương pháp Single-Face sử dụng mặt nằm giữa face-track để ước lượng khoảng cách giữa hai face-track. Hiển nhiên là tốc độ thực hiện sẽ nhanh vì chỉ cần tính khoảng cách cho một cặp mặt. Kết quả thực nghiệm cho thấy Single Face chỉ cần 6 giây để ước lượng độ tương đồng cho mỗi truy vấn trong tập dữ liệu 1.511 face track, đã đề cập trong Phần 3.1. Tuy nhiên, do video thực tế có độ đa dạng cao, phương pháp này thất bại khi mặt giữa của hai face-track khác nhau về tư thế, điều kiện chiếu sáng,…Trái lại, sử dụng toàn bộ face-track, tức là xét nhiều mặt khác nhau, có thể tránh được trở ngại này.

Hình 3.4 cho ta một ví dụ về sự yếu kém của phương pháp Single Face. Cho trước một face-track Q như trong Hình 3.4a, Single Face xếp face-track không liên quan A hạng 10 (xem Hình 4.4b) và face-track có liên quan B hạng 43 (xem Hình

4.4.c). Mặt trong hình chữ nhật đỏ là đại diện (mặt nằm giữa face-track) được chọn bởi Single Face. Đại diện của Q và A tương tự nhau về tư thế, trong khi đó, tư thế của B khác hẳn so với của Q. Điều này lí giải tại sao Single Face đã xếp hạng một cách sai lầm sao cho A cao hơn B.

Hình 3.4 Ví dụ về sự hạn chế của phương pháp Single Face.

(a) Face-track truy vấn Q. (b) Face-track không liên quan A. (c) Face-track có liên quan B. Mặt nằm giữa face-track được đánh dấu bằng hình chữ nhật đỏ. Các mặt trình bày ở đây được lấy mẫu từ face-track thật sự do không thể hiển thị hết tổng số mặt quá lớn.

Bảng 3-2 Chi phí tính toán của các phương pháp: Min-Min, Avg-Min, k-Faces (k = 5) và Single Face.

Phương pháp Thời gian (giây)

Min-Min 124.393

Avg-Min 124.119

k-Faces (k=5) 19

Single Face 6

Từ Bảng 3.1 và Hình 3.3, ta để ý rằng k-Faces có hiệu quả tương đương với các phương pháp so khớp dựa trên toàn bộ face-track như Min và Avg-Min. Cụ thể là độ chính xác tính theo Mean Average Precision của k-Faces cao hơn 1,28% so với Avg-Min và thấp hơn không đáng kể (1,96%) so với Min-Min. Tuy nhiên, ưu điểm của k-Faces về mặt tốc độ thì ấn tượng: nhanh hơn 6.500 lần so với Avg-Min và Min-Min (xem Bảng 3.2). Đây là một chi tiết quan trọng nếu mục tiêu mà ta cần hướng đến là xây dựng một hệ thống truy tìm áp dụng trong thực tế, vốn đòi hỏi tốc độ phải nằm trong một khoảng nào đó chấp nhận được.

Avg-Min luôn cho kết quả xấu khi các mặt từ đầu đến cuối face-track có độ đa dạng cao. Lấy trung bình khoảng cách mọi cặp mặt là một hướng đi tốt để loại bỏ nhiễu. Tuy nhiên, nó làm cho khoảng cách ước lượng được khác xa so với quan

sát thực tế. Do đó, một face-track liên quan có thể bị xem là không còn liên quan nữa. Ví dụ, gọi A và B là hai face-track chứa cùng một người, nếu đa số mặt trong A quay trái trong khi mặt trong B quay phải thì khoảng cách giữa A và B có thể lớn, và vì thế, chúng trở nên ít liên quan với nhau hơn. Trong khi đó, nếu chọn được một giá trị k thích hợp, ta có thể chọn được đại diện cho từng biến đổi và như vậy ta tránh được tình trạng đa số lấn át thiểu số. Trong Hình 3.5, cả face-track truy vấn Q và face-track liên quan R đều có độ đa dạng cao. R được xếp hạng 3 với k-Faces (k = 5) nhưng Avg-Min xếp R hạng thứ 94.

Hình 3.5 Ví dụ về sự hạn chế của phương pháp Avg-Min.

(a) Các mặt trong face-track truy vấn. (b) Các mặt trong face-track liên quan R. (c) Năm mặt đại diện lấy từ face-track truy vấn. (d) Năm mặt đại diện lấy từ face-track liên quan R.

Mặc dù về mặt tổng quát, Min-Min tốt hơn hơn k-Faces, tuy nhiên vẫn có những trường hợp Min-Min tỏ ra hoạt động kém. Ví dụ, hai face-track thuộc về hai người khác nhau có thể bị Min-Min nhận diện là khớp nhau vì chúng có hai face tình cờ giống nhau (xem Hình 3.6). Cho trước face-track truy vấn Q, face-track A chứa cùng nhân vật với Q, và face-track B chứa một nhân vật khác. Min-Min xếp B hạng 3 và A thứ 11 sau nhiều face-track không liên quan khác. Do độ đa dạng của face-track lớn nên Min-Min đã không thể tìm được một cặp mặt có khoảng cách tối thiểu phù hợp (xem Hình 3.6a), trong khi đó, cặp mặt tương ứng của Q và B rất

giống nhau về tư thế, điều kiện chiếu sáng,… (xem Hình 3.6b). Trái lại, k-Faces, bằng cách lấy trung bình trên tập con gồm k faces của face-track, đã xây dựng được các vectơ đặc trưng có khả năng phản ánh sự khác biệt tốt hơn. Trong ví dụ này, k- Faces đã xếp A hạng 3 và B hạng 196, một thứ hạng xa hơn và hợp lí hơn.

Hình 3.6 Ví dụ về sự hạn chế của phương pháp Min-Min. (adsbygoogle = window.adsbygoogle || []).push({});

(a) Cặp mặt có khoảng cách nhỏ nhất của hai face-track chứa cùng nhân vật do Min-Min chọn ra (trái: face track truy vấn, phải: face-track liên quan A). (b) Cặp mặt có khoảng cách nhỏ nhất của hai face-track không chứa cùng nhân vật do Min-Min chọn ra (trái: face-track truy vấn, phải: face track không liên quan B). (c) Năm đại diện chọn ra từ face- track truy vấn. (d) Năm đại diện chọn ra từ A. (e) Năm đại diện chọn ra từ B.

Hình 3.7 Hiệu quả của k-Faces phụ thuộc vào chất lượng của tập ảnh con.

(a) Cặp mặt có khoảng cách nhỏ nhất do Min-Min chọn (trái: face-track truy vấn, phải: face-track liên quan). (b) Năm đại diện được chọn ra từ face-track truy vấn. (c) Năm đại diện được chọn ra từ face-track liên quan.

Tuy nhiên, phương pháp k-Faces phụ thuộc vào việc có chọn được tập ảnh con phù hợp hay không. Hình 3.7 là một ví dụ cho thấy Min-Min tốt hơn k-Faces. Min-Min tìm được một cặp mặt cực kì giống nhau (xem Hình 3.7a). Trong khi đó, k-Faces tìm hai tập con khác nhau quá xa về tư thế, do đó hai “mặt trung bình” cũng khác nhau (xem Hình 3.7b và 3.7c). Như vậy, câu hỏi đặt ra ở đây là làm thế nào

chọn được giá trị k thích hợp để quá trình truy tìm đạt độ chính xác cao trong khi chi phí tính toán thấp.

Hình 3.8 Độ chính xác MAP của k-Faces với nhiều giá trị k khác nhau

Để trả lời câu hỏi trên, ta cần khảo sát nhiều giá trị tham số k khác nhau. Hình 3.8 và Hình 3.9 trình bày độ chính xác tính theo độ chính xác trung bình toàn cục (MAP) và chi phí tính toán ứng với mỗi k. Ta để ý thấy rằng chi phí tính toán tăng tuyến tính khi k tăng. Mặt khác, hiệu quả của phương pháp k-Faces trở nên ổn định từ giá trị k = 5 trở đi. Như vậy có thể kết luận được rằng chọn k sao cho MAP cao nhất không hẳn là một giải pháp tốt vì ta cần giữ cân bằng giữa độ chính xác và chi phí tính toán. k quá nhỏ sẽ cho kết quả xấu, k quá lớn cho kết quả tốt nhưng lại tiêu tốn nhiều thời gian một cách không cần thiết. Ta cần phải lưu ý vấn đề này, nó có thể làm cho một hệ thống truy tìm trở nên phi thực tế vì phản hồi quá chậm. Trong thực nghiệm này, k được chọn bằng 5 để so sánh với các phương pháp khác vì đây là điểm khởi đầu cho tình trạng kết quả ổn định trên tập dữ liệu thử nghiệm. Giá trị k này giữ cho độ chính xác của k-Faces tương đương với các phương pháp so khớp face-track khác như Avg-Min và Min-Min, với độ khác biệt trong khoảng 1-2%. Các giá trị k nhỏ hơn 5 đưa đến hiệu quả xấu hơn nhiều, trong khi k lớn hơn 5

không cải thiện tình hình đáng kể. Mặc dù giá trị k này được thực nghiệm trên dữ liệu có độ đa dạng cao, có nghĩa là nó ứng dụng được trên nhiều tập dữ liệu khác, ta cũng cần lưu ý rằng việc chọn k có thể phụ thuộc vào bản chất dữ liệu hoặc mục

đích mà ta hướng đến. Phương pháp này hoạt động tốt đến mức nào phụ thuộc vào việc ảnh chọn ra tại các đoạn có thật sự hữu dụng hay không. Khi các mặt trong face-track đồng nhất, k dù lớn hay nhỏ cũng cho kết quả gần như nhau. Trái lại, nếu các mặt này đa dạng thì cần phải chọn k cẩn thận để rút ra được tập con tốt nhất.

(a)

(b)

Hình 3.9 Chi phí tính toán của k-Faces với nhiều giá trị k khác nhau.

Một người có thể tranh luận rằng việc chọn mặt tại các đoạn đều nhau trong face-track có vẻ hạn chế hơn là chọn dựa vào nội dung của mặt. Luận văn đã tiến hành một thực nghiệm khác nhằm chứng tỏ điều này không hoàn đúng. Để xây dựng mặt đại diện cho một face-track, các mặt được gom nhóm thành k cụm bằng thuật toán gom nhóm k-means, tiếp đó tính trung bình k trung tâm để hình thành mặt trung bình. Hình 3.10 chỉ ra rằng sử dụng gom nhóm k-means không giúp k- Faces có được kết quả tốt hơn đáng kể, độ chính xác MAP chỉ cao hơn 1-1,5% so với chia đoạn đều nhau. Trong khi đó, chi phí tính toán cho phương pháp kết hợp k- means tăng nhanh chóng khi k tăng (xem Hình 3.11). Cụ thể là, với k = 5, Hình 3.12 cho thấy thời gian cần để chạy đã tăng gấp đôi khi có kết hợp k-means. Mặc dù chi phí tính toán khi có gom nhóm vẫn nhỏ hơn nhiều so với Avg-Min và Min-Min, điều này có thể sẽ không còn đúng nữa khi kích thước tập dữ liệu tăng lên hay phân phối dữ liệu thay đổi, là nhân tố làm cho quá trình gom nhóm khó hội tụ. Do đặc điểm phải tính khoảng cách giữa trung tâm và mọi phần tử khác, chi phí gom nhóm k-means có thể tăng theo hệ số mũ. Do đó, luận văn quyết định không áp dụng gom nhóm cho bước chọn k mặt.

Hình 3.10 Độ chính xác MAP của phương pháp k-Faces khi chia đoạn đều nhau so với kết hợp gom nhóm k-means.

Hình 3.11 Chi phí tính toán của phương pháp k-Faces khi chia đoạn đều nhau so với kết hợp gom nhóm k-means.

Hình 3.12 Chi phí tính toán của phương pháp k-Faces khi chia đoạn đều nhau so với kết hợp gom nhóm k-means.

3.4.2. Kiểm chứng vai trò của phản hồi liên quan từ người dùng

Phản hồi liên quan có khả năng cải thiện đáng kể kết quả truy tìm của hệ thống. Hình 3.13 là ví dụ cho thấy độ chính xác MAP đã tăng gấp đôi so với trước khi có phản hồi người dùng, từ 33,96% lên 67,19% đối với phương pháp trộn theo giá trị nhỏ nhất và 67,92% đối với phương pháp trộn theo giá trị trung bình.

Phương pháp trộn theo giá trị nhỏ nhất cho kết quả tương đương với phương pháp trộn theo giá trị trung bình. Xét phương pháp trộn theo giá trị nhỏ nhất. Gọi F là face-track liên quan nằm trong danh sách xếp hạng của cả face-track truy vấn Q1 (truy vấn gốc) và Q2, với Q2 là truy vấn phụ chọn ra từ danh sách xếp hạng face- track liên quan của Q1. F có độ tương tự với Q2 lớn hơn so với Q1. Như vậy F sẽ được kéo lại gần Q1 với khoảng cách d(F, Q1) = min(d(F, Q1), d(F, Q2). Theo cách này, các face-track liên quan nhanh chóng tập trung về thứ hạng cao hơn. Tuy nhiên, hiệu ứng như thế cũng xảy ra đối với các face-track không liên quan, nếu một face-track không liên quan X nằm rất gần với face-track truy vấn phụ (do lỗi ước lượng độ tương tự), X sẽ nhảy vọt lên những thứ hạng đầu.

Trong khi đó, phương pháp trộn theo giá trị trung bình có khả năng trung hòa lỗi sai của phương pháp trộn theo giá trị nhỏ nhất. Face-track không liên quan X có thể tình cờ gần với một trong các face-track truy vấn phụ do lỗi ước lượng nhưng tình trạng đó không xảy ra với tất cả các truy vấn nếu ta chọn được một độ đo khoảng cách đáng tin cậy. Trong thực nghiệm này, ta đảm bảo được điều đó vì độ đo Euclide là độ đo khoảng cách phổ biến và có độ tin cậy nhất định. Khi xảy ra lỗi tại một truy vấn, các giá trị tại những truy vấn khác tham gia vào tổng sẽ làm trung hòa lỗi sai và đưa ra kết quả chính xác hơn. So với phương pháp trộn theo giá trị nhỏ nhấ, phương pháp trộn theo giá trị trung bình đưa face-track liên quan về thứ hạng cao chậm hơn và khoảng cách ước lượng từ truy vấn gốc đến face-track liên quan xa hơn.

(a)

(b)

(c)

(d)

Hình 3.13 Kết hợp phản hồi liên quan có thể cải thiện chất lượng truy tìm.

(a) Face-track truy vấn. (b) Kết quả truy vấn gốc chưa có phản hồi của người dùng. (c) Kết quả truy tìm sau một lượt phản hồi của người dùng sử dụng phương pháp trộn theo giá trị nhỏ nhất. (d) Kết quả truy tìm sau một lượt phản hồi của người dùng sử dụng phương pháp trộn theo giá trị trung bình.

3.5. Kết lun và hướng phát trin

Bài toán Truy tìm nhân vật trong các kho dữ liệu video lớn đang được cộng đồng nghiên cứu xử lí ảnh và video số quan tâm. Sự phát triển về công nghệ đã giúp các kho dữ liệu ảnh và video số mở rộng không ngừng, từ đó đặt ra thách thức cho việc quản lí và truy tìm thông tin trong khối dữ liệu khổng lồ. Giải pháp cho bài toán Truy tìm nhân vật trong các kho dữ liệu video, đặc biệt là kho dữ liệu lớn, là

Một phần của tài liệu Một số kĩ thuật truy tìm nhân vật trong các kho dữ liệu video lớn (Trang 41 - 70)