Kết luận và hướng phát triển 47

Bài toán Truy tìm nhân vật trong các kho dữ liệu video lớn đang được cộng đồng nghiên cứu xử lí ảnh và video số quan tâm. Sự phát triển về công nghệ đã giúp các kho dữ liệu ảnh và video số mở rộng không ngừng, từ đó đặt ra thách thức cho việc quản lí và truy tìm thông tin trong khối dữ liệu khổng lồ. Giải pháp cho bài toán Truy tìm nhân vật trong các kho dữ liệu video, đặc biệt là kho dữ liệu lớn, là nhu cầu cấp thiết hiện nay.

Với mục tiêu nghiên cứu và mong muốn đem lại một giải pháp hiệu quả cho bài toán Truy tìm nhân vật khi hoạt động trên kho dữ liệu video lớn, luận văn đã tiến hành nghiên cứu đề tài “Một số kĩ thuật truy tìm nhân vật trong các kho dữ liệu video lớn”. Một cách cụ thể, luận văn đã làm được các công việc như sau:

Tìm hiểu bài toán Truy tìm nhân vật trong các kho dữ liệu video, sự cần thiết phải giải bài toán trong kho dữ liệu lớn và các hướng tiếp cận khác nhau để giải quyết bài toán.

Nghiên cứu hệ thống Truy tìm nhân vật trong các kho dữ liệu video và những kĩ thuật phục vụ cho việc xây dựng hệ thống, bao gồm: các kĩ thuật tiền xử lí (phát hiện mặt người, phát hiện ranh giới video shot, rút trích face-track từ tập mặt người trong shot,…), đặc trưng thị giác biểu diễn mặt người Local Binary Pattern và các phương pháp so khớp mặt người (so khớp dựa trên đại diện và so khớp dựa trên toàn bộ face-track).

Dựa trên quan sát sự hạn chế về mặt chi phí tính toán của các phương pháp so khớp mặt người sử dụng toàn bộ face-track và so khớp bằng đại diện lấy ảnh mặt giữa, luận văn đề xuất một phương pháp so khớp mới, gọi là k-Faces. k-Faces cũng được xây dựng theo ý tưởng chọn đại diện từ face-track nhưng với cách chọn ảnh đại diện khác hẳn, tính ảnh trung bình từ tập con k mặt chọn trong face-track. Theo cách này, k-Faces giảm được chi phí tính toán mà vẫn giữ độ chính xác tương đương với nhóm phương pháp so khớp dựa trên toàn bộ face-track.

Hiện thực hóa mô hình hệ thống Truy tìm nhân vật trong các kho dữ liệu video lớn. Bằng cách áp dụng các kĩ thuật tiên tiến kết hợp với phương pháp so khớp được đề xuất k-Faces, hệ thống có thể truy tìm với độ chính xác cao theo thời gian thực trên cơ sở dữ liệu kích thước lớn TRECVID (khoảng 370 giờ video). Kết quả này là một tín hiệu hứa hẹn cho việc triển khai rộng rãi hệ thống thành ứng dụng thực tế trong đời sống. Bên cạnh đó, hệ thống được thiết kế theo dạng các mô đun hoạt động độc lập, đầu ra của mô đun này là đầu vào của mô đun kế tiếp. Mục tiêu của việc thiết kế mô đun là xây dựng một framework cho phép các nhà nghiên cứu đánh giá hiệu quả truy tìm khi áp dụng các kĩ thuật khác nhau (ví dụ thay đổi đặc trưng, phương pháp so khớp,…). mà không cần phải xây dựng từ đầu một hệ thống mới. Tiến hành thực nghiệm và nhận xét đánh giá khả năng hoạt động của

các phương pháp so khớp khác nhau, thành phần chính của hệ thống Truy tìm nhân vật, trên cả hai phương diện là độ chính xác và tốc độ. Các phương pháp được đưa vào thực nghiệm bao gồm: nhóm phương pháp so khớp sử dụng toàn bộ face-track (tính khoảng cách dựa trên gom nhóm liên kết đơn và gom nhóm liên kết trung bình), phương pháp dựa trên đại diện là ảnh mặt giữa và phương pháp đề xuất k- Faces. Kết quả thực nghiệm cho thấy k-Faces có độ chính xác tương đương với nhóm sử dụng toàn bộ face-track (54,97% so với 56,93% và 53,69%) trong khi chi phí tính toán thấp hơn gấp 6.500 lần.

Nghiên cứu các kĩ thuật phản hồi liên quan nhằm tận dụng thông tin đánh giá từ người dùng để nâng cao chất lượng truy tìm. Luận văn đề xuất hai phương pháp sử dụng phản hồi liên quan để tinh chỉnh danh sách xếp hạng face-track liên quan, bao gồm: trộn theo giá trị nhỏ nhất và trộn theo giá trị trung bình. Kết quả thực nghiệm chứng tỏ phản hồi liên quan của người dùng có đóng góp tích cực đến quá trình truy tìm, cho kết quả trả về tốt hơn chỉ sau một lượt phản hồi.

Từ những kết quả trên, luận văn đánh giá đã hoàn thành tốt các mục tiêu nghiên cứu mà đề tài đặt ra. Hướng phát triển trong tương lai của đề tài là:

Nghiên cứu và thử nghiệm các loại đặc trưng khác như Grid Color Moments (GCM), Edge Orientation Histogram (EOH) nhằm so sánh đánh giá và rút ra tổ hợp đặc trưng có thể biểu diễn mặt tốt.

Nghiên cứu và thử nghiệm các phương pháp so khớp face-track khác (khác về loại khoảng cách, độ đo ước lượng sự tương tự…), áp dụng các dạng học máy khác nhau để ước lượng độ tương tự giữa các face- track chính xác hơn.

Hiện nay, phản hồi liên quan chỉ mới giúp hệ thống xác định lại danh sách xếp hạng dựa trên những face-track liên quan đã có. Trong tương lai cần khai thác sâu hơn vai trò của phản hồi liên quan từ người dùng bằng cách kết hợp với học chủ động, đưa vào mô hình bán giám sát huấn luyện, nhằm đưa ra kết quả chính xác hơn.

PHỤ LỤC A – CÁC KĨ THUẬT TIỀN XỬ LÍ CHO BÀI

TOÁN TRUY TÌM NHÂN VẬT TRONG CÁC KHO

DỮ LIỆU VIDEO LỚN

Kĩ thuật tách biên video shot 33

Kĩ thuật phát hiện ranh giới video shot 50