Trong các chủ đề thuộc lĩnh vực xử lý nhận dạng hình ảnh, tìm kiếm ảnh theo nội dung là một bài toán được đặt ra để thay thế cho phương pháp tìm kiếm ảnh thông thường dựa trên các từ khóa hoặc các mô tả của ảnh. Tìm kiếm theo nội dung tức là bản thân bức ảnh sẽ được phân tích để phục vụ cho việc tìm kiếm (chứ không dựa vào các từ khóa, các tag hoặc các mô tả của bức ảnh). Nội dung của bức ảnh ở đây có thể là các đối tượng, kết cấu, hoặc các đặc trưng khác được trích xuất từ chính bức ảnh. Việc hệ thống tìm kiếm ảnh theo nội dung được cho là ưu việt hơn tìm kiếm theo từ khóa ở chỗ trên thực tế người dùng có thể không tìm được đúng và đủ từ khóa để mô tả bức ảnh. Trong một số trường hợp cụ thể (ví dụ như tìm kiếm các bức ảnh giống nhau về nội dung nhưng khác về kích thước và màu sắc hoặc tìm kiếm các bức ảnh có cùng một vật thể hoặc đối tượng người tìm kiếm chưa biết tên gọi), thậm chí phương pháp tìm kiếm theo từ khóa không thể áp dụng hiệu quả được. Khi đó áp dụng phương pháp tìm kiếm theo nội dung sẽ có thể hiệu quả hơn. Do số lượng các yếu tố có thể xem là nội dung của một bức ảnh rất đa dạng theo nhu cầu của từng người tìm kiếm nhưng thời gian nghiên cứu và hoàn thành luận văn có hạn nên tôi xin phép giới hạn lại. Nội dung của một bức ảnh trong luận văn này sẽ xoay quanh khuôn mặt trực diện của người và các động vật có vú. Theo đó hệ thống tìm kiếm theo nội dung ảnh được xây dựng sẽ trích rút các nội dung như: một bức ảnh có xuất hiện khuôn mặt hay không, số lượng khuôn mặt xuất hiện trong bức ảnh là bao nhiêu, danh tính của các khuôn mặt trong bức ảnh và bản thân toàn bộ bức ảnh cũng coi là một nội dung được trích rút từ bức ảnh. Từ đó hệ thống có thể tìm được các bức ảnh của người và động vật có vú, các bức ảnh trực diện của cùng một người hoặc một con vật thuộc loài có vú, tìm được các bức ảnh có cùng số lượng người hoặc số lượng động vật có vú, tìm được các ảnh có người và các động vật có vú giống hệt nhau nhưng khác biệt về kích thước và màu sắc. Để có thể trích rút được những nội dung như vậy, luận văn tập trung nghiên cứu để giải quyết hai bài toán. Bài toán đầu tiên là xác định vị trí khuôn mặt của người và vật. Từ đó có thể đếm được số lượng và khoanh vùng được các khuôn mặt để tiến hành tiếp bước tiếp theo. Bài toán thứ hai là nhận diện các khuôn mặt đã được khoanh vùng của bức ảnh đó với một tập các bức ảnh người dùng mong muốn tìm kiếm và chỉ ra những bức ảnh Bài toán đầu tiên – xác định vị trí khuôn mặt đã có rất nhiều cách tiếp cận để giải quyết vấn đề tìm kiếm và khoanh vùng các nội dung là các đối tượng trong ảnh như các phương pháp xác định khuôn mặt theo mẫu nhị phân cục bộ (LBP) hoặc phương pháp xác định khuôn mặt theo đặc trưng Haar… Các phương pháp trên đều có độ chính xác khá cao. Tuy vậy các phương pháp này có một nhược điểm đó là yêu cầu một bộ dữ liệu huấn luyện lớn các khuôn mặt người. Việc chuẩn bị bộ dữ liệu huấn luyện này tốn rất nhiều công sức, thời gian và chi phí nhân lực. Vì vậy trong luận văn này đề xuất một phương pháp kết hợp giữa thuật toán xác định khuôn mặt dựa vào mẫu nhị phân cục bộ nhóm (MBLBP) và phương pháp học máy bán giám sát. Phương pháp này cho phép chỉ cần gán nhãn một số lượng nhỏ dữ liệu huấn luyện kết hợp với lượng lớn dữ liệu huấn luyện không gán nhãn mà mô hình xác định khuôn mặt cuối cùng vẫn đạt được độ chính xác gần với khi huấn luyện với lượng lớn dữ liệu gán nhãn. Bài toán thứ hai – nhận diện khuôn mặt sau khi đã khoanh vùng và tách được các khuôn mặt trong ảnh, hệ thống sử dụng thuật toán nhận diện theo mẫu nhị phân cục bộ (LBP. Do khuôn mặt của một người là khá đặc trưng theo LBP nên số lượng mẫu huấn luyện không cần nhiều. Thực tế chỉ cần một ảnh của một người hoặc động vật có vú là có thể ngay lập tức nhận diện khá chính xác người hoặc vật đó.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Minh Đức XÂY DỰNG HỆ THỐNG TÌM KIẾM ẢNH THEO NỘI DUNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Minh Đức XÂY DỰNG HỆ THỐNG TÌM KIẾM ẢNH THEO NỘI DUNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Nguyễn Hải Châu HÀ NỘI - 2015 LỜI CẢM ƠN Lời đầu tiên, xin bày tỏ lòng biết ơn chân thành đến thầy cô giáo trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội nói chung thầy cô môn Hệ thống thông tin nói riêng. Trong suốt năm học tập trường, thầy cô tận tình truyền đạt kiến thức mà động viên giúp đỡ học tập sống. Đặc biệt, muốn gửi lời cảm ơn sâu sắc đến thầy giáo, phó giáo sư, tiến sĩ Nguyễn Hải Châu, người tận tình bảo, hướng dẫn suốt trình nghiên cứu hoàn thiện luận văn tốt nghiệp. Tôi xin cảm ơn bạn học viên khóa, nghiên cứu học tập, cho ý kiến đóng góp giá trị suốt thời gian học tập trình nghiên cứu đề tài khóa luận tốt nghiệp. Cuối cùng, xin gửi lời cảm ơn sâu sắc đến gia đình bạn bè, người động viên giúp đỡ vượt qua khó khăn sống. Hà Nội, ngày 21 tháng năm 2015 Học viên Vũ Minh Đức LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn thực hướng dẫn trực tiếp PGS. TS. Nguyễn Hải Châu. Mọi nội dung tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố. Mọi chép không hợp lệ, vi phạm quy chế đào tạo xin chịu hoàn toàn trách nhiệm. Hà Nội, ngày 21 tháng năm 2015 Học viên Vũ Minh Đức TÓM TẮT LUẬN VĂN Trong chủ đề thuộc lĩnh vực xử lý nhận dạng hình ảnh, tìm kiếm ảnh theo nội dung toán đặt để thay cho phương pháp tìm kiếm ảnh thông thường dựa từ khóa mô tả ảnh. Tìm kiếm theo nội dung tức thân ảnh phân tích để phục vụ cho việc tìm kiếm (chứ không dựa vào từ khóa, tag mô tả ảnh). Nội dung ảnh đối tượng, kết cấu, đặc trưng khác trích xuất từ ảnh. Việc hệ thống tìm kiếm ảnh theo nội dung cho ưu việt tìm kiếm theo từ khóa chỗ thực tế người dùng không tìm đủ từ khóa để mô tả ảnh. Trong số trường hợp cụ thể (ví dụ tìm kiếm ảnh giống nội dung khác kích thước màu sắc tìm kiếm ảnh có vật thể đối tượng người tìm kiếm chưa biết tên gọi), chí phương pháp tìm kiếm theo từ khóa áp dụng hiệu được. Khi áp dụng phương pháp tìm kiếm theo nội dung hiệu hơn. Do số lượng yếu tố xem nội dung ảnh đa dạng theo nhu cầu người tìm kiếm thời gian nghiên cứu hoàn thành luận văn có hạn nên xin phép giới hạn lại. Nội dung ảnh luận văn xoay quanh khuôn mặt trực diện người động vật có vú. Theo hệ thống tìm kiếm theo nội dung ảnh xây dựng trích rút nội dung như: ảnh có xuất khuôn mặt hay không, số lượng khuôn mặt xuất ảnh bao nhiêu, danh tính khuôn mặt ảnh thân toàn ảnh coi nội dung trích rút từ ảnh. Từ hệ thống tìm ảnh người động vật có vú, ảnh trực diện người vật thuộc loài có vú, tìm ảnh có số lượng người số lượng động vật có vú, tìm ảnh có người động vật có vú giống hệt khác biệt kích thước màu sắc. Để trích rút nội dung vậy, luận văn tập trung nghiên cứu để giải hai toán. Bài toán xác định vị trí khuôn mặt người vật. Từ đếm số lượng khoanh vùng khuôn mặt để tiến hành tiếp bước tiếp theo. Bài toán thứ hai nhận diện khuôn mặt khoanh vùng ảnh với tập ảnh người dùng mong muốn tìm kiếm ảnh Bài toán – xác định vị trí khuôn mặt có nhiều cách tiếp cận để giải vấn đề tìm kiếm khoanh vùng nội dung đối tượng ảnh phương pháp xác định khuôn mặt theo mẫu nhị phân cục (LBP) phương pháp xác định khuôn mặt theo đặc trưng Haar… Các phương pháp có độ xác cao. Tuy phương pháp có nhược điểm yêu cầu liệu huấn luyện lớn khuôn mặt người. Việc chuẩn bị liệu huấn luyện tốn nhiều công sức, thời gian chi phí nhân lực. Vì luận văn đề xuất phương pháp kết hợp thuật toán xác định khuôn mặt dựa vào mẫu nhị phân cục nhóm (MB-LBP) phương pháp học máy bán giám sát. Phương pháp cho phép cần gán nhãn số lượng nhỏ liệu huấn luyện kết hợp với lượng lớn liệu huấn luyện không gán nhãn mà mô hình xác định khuôn mặt cuối đạt độ xác gần với huấn luyện với lượng lớn liệu gán nhãn. Bài toán thứ hai – nhận diện khuôn mặt sau khoanh vùng tách khuôn mặt ảnh, hệ thống sử dụng thuật toán nhận diện theo mẫu nhị phân cục (LBP. Do khuôn mặt người đặc trưng theo LBP nên số lượng mẫu huấn luyện không cần nhiều. Thực tế cần ảnh người động vật có vú nhận diện xác người vật đó. MỤC LỤC HÀ NỘI - 20< hai số cuối năm bảo vệ KLTN> HÀ NỘI - 20 .2 LỜI CẢM ƠN .3 LỜI CAM ĐOAN .4 TÓM TẮT LUẬN VĂN MỤC LỤC DANH MỤC CÁC CÔNG THỨC DANH MỤC CÁC HÌNH VẼ .10 DANH MỤC CÁC BẢNG BIỂU 11 BẢNG CÁC CHỮ VIẾT TẮT .15 CHƯƠNG 1: TỔNG QUAN 16 1.1.Đặt vấn đề 16 1.2.Mục tiêu đề tài .17 1.3.Đối tượng phương pháp nghiên cứu 18 1.4.Cấu trúc khóa luận 18 CHƯƠNG 2: CÁC THUẬT TOÁN NHẬN DẠNG KHUÔN MẶT ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH THEO NỘI DUNG .2 2.1. Thuật toán xác định vị trí khuôn mặt 2.1.1. Một số thuật toán xác định vị trí khuôn mặt thường gặp .2 2.1.2. Đặc trưng theo mẫu nhị phân cục (LBP) 2.1.3. Các phân lớp yếu huấn luyện chồng tầng .8 2.2. Thuật toán học bán giám sát Bootstrapping 10 2.3. Thuật toán nhận diện khuôn mặt theo biểu đồ tần suất mẫu nhị phân cục (LBPH) .13 2.3.1. Sơ lược thuật toán Eigenfaces (các khuôn mặt đặc biệt) 13 2.3.2. Thuật toán nhận dạng khuôn mặt sử dụng biểu đồ tần suất mẫu nhị phân cục .14 CHƯƠNG 3: HỆ THỐNG TÌM KIẾM ẢNH THEO NỘI DUNG 17 3.1. Bộ công cụ OpenCV .17 3.2. Hệ thống tìm kiếm ảnh theo nội dung ảnh 18 3.2.1. Các công cụ chuẩn bị liệu .18 3.2.2. Hệ thống tìm kiếm ảnh theo nội dung 22 3.2.3. Các hàm công cụ khác .29 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 30 4.1. Thí nghiệm 1: .30 4.1.1. Mục đích thực nghiệm: .30 4.1.2. Bố trí thí nghiệm: 30 4.1.3. Kết thí nghiệm: .32 4.2. Thí nghiệm 2: .32 4.2.1. Mục đích thực nghiệm: .32 4.2.2. Bố trí thí nghiệm: 32 4.2.3. Kết thí nghiệm 35 4.3. Thí nghiệm 3: .36 4.3.1. Mục đích thí nghiệm: .36 4.3.2. Bố trí thí nghiệm: 36 4.3.3. Kết thực nghiệm 37 CHƯƠNG 5: KẾT LUẬN .38 5.1. Các kết đạt hạn chế .38 5.2. Các công việc tương lai 40 TÀI LIỆU THAM KHẢO 42 DANH MỤC CÁC CÔNG THỨC Công thức 2.1: Công thức tính LBP điểm ảnh Công thức 2.2: Công thức phân lớp yếu Công thức 2.3: Công thức tính bảng trọng số mã nhị phân điểm ảnh p .9 Công thức 2.4: Công thức tính biểu đồ tần xuất ảnh .14 Công thức 2.5: Công thức tính biểu đồ tần xuất ảnh chia nhỏ thành vùng 14 Công thức 2.6: Công thức tính độ tương giao hai biểu đồ tần xuất .15 Công thức 2.7: Công thức thống kê Chi square hai biểu đồ tần xuất .15 DANH MỤC CÁC HÌNH VẼ Hình 2.1: Các đặc trưng Haar Hình 2.2: Các đặc trưng Haar mở rộng Hình 2.4: Hình minh họa cách chia vùng 3x3 MB-LBP Hình 2.5: Hình minh họa khuôn mặt sau áp dụng MB-LBP Hình 2.7: bước thuật toán nhận diện khuôn mặt 16 Hình 3.1: Các bước thực thi chuẩn bị liệu huấn luyện xác định vị trí khuôn mặt .19 Hình 3.2: Giao diện công cụ chuẩn bị liệu huấn luyện xác định vị trí khuôn mặt. 20 Hình 3.3: Các bước thực thi công cụ huấn luyện mô hình phân lớp xác định vị trí khuôn mặt 21 Hình 3.4: Các bước thực thi tính tìm kiếm ảnh xuất khuôn mặt .23 Hình 3.5: Giao diện tính tìm kiếm ảnh xuất khuôn mặt 23 Hình 3.6: Các bước thực thi tính tìm kiếm ảnh giống khác kích thước màu sắc 24 Hình 3.7: Giao diện tính tìm kiếm ảnh giống khác kích thước màu sắc 25 Hình 3.8: Các bước thực thi tính tìm kiếm ảnh có số lượng người ảnh .26 Hình 3.9: Giao diện tính tìm kiếm ảnh có số lượng người ảnh. .27 Hình 3.10: Các bước thực thi tính tìm kiếm khuôn mặt giống khuôn mặt cho 29 Hình 3.11: Giao diệncủa tính tìm kiếm khuôn mặt giống khuôn mặt cho 29 Hình 4.1: bước thực thí nghiệm 31 Hình 4.2: bước thực thí nghiệm 34 Hình 4.3: Các bước thí nghiệm .36 28 Hình 3.10: Các bước thực thi tính tìm kiếm khuôn mặt giống khuôn mặt cho Giao diện tính sau: Hình 3.11: Giao diệncủa tính tìm kiếm khuôn mặt giống khuôn mặt cho 3.2.3. Các hàm công cụ khác Có nhiều hàm công cụ khác trong hệ thống sử dụng thư viện Python thư viện khác. Tuy vai trò chúng phụ trợ không liên quan nhiều đến thực nghiệm ta. 29 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM Các chương trước trình bày cụ thể thuật toán xác định vị trí khuôn mặt kết hợp với huấn luyện bán giám sát bootstraping, thuật toán so sánh độ khác biệt hai khuôn mặt thuật toán tìm kiếm ảnh giống khác biệt màu sắc kích thước. Chương nêu kết thực nghiệm, đo đạc độ xác thuật toán đó. 4.1. Thí nghiệm 1: 4.1.1. Mục đích thực nghiệm: Đo đạc độ xác thuật toán xác định vị trí khuôn mặt sử dụng phân lớp dựa đặc trưng MB-LBP liệu khuôn mặt diện nghiêng nhẹ mèo. 4.1.2. Bố trí thí nghiệm: Chuẩn bị liệu gán nhãn tọa độ gồm 9996 ảnh chứa khuôn mặt chụp diện nghiêng nhẹ mèo thành tập ảnh A, T có số lượng 8996, 1000: Trong đó: o A đóng vai trò tập huấn luyện cho phân lớp; o T tập liệu kiểm thử để đánh giá độ xác cuối cùng. Bổ sung 500 ảnh không chứa khuôn mặt mèo vào tập T. Sử dụng liệu G gồm 5070 ảnh không chứa khuôn mặt mèo để làm ảnh huấn luyện. Tập ảnh A T lấy nguyên vẹn từ ảnh khuôn mặt trực diện mèo Microsoft (Microsoft Cat Dataset 2008). Tập ảnh G lấy từ nguồn 450 ảnh liệu khuôn mặt trực diện Caltech ảnh PASCAL VOC 2007 Ta tiến hành thí nghiệm sau: 30 Hình 4.1: bước thực thí nghiệm 31 4.1.3. Kết thí nghiệm: Dữ liệu Dương Đúng tính -Dương tính -Âm tính Sai Đúng - Đủ góc 170 26 490 314 Đã xoay 270 thẳng 26 490 214 Âm tính - Sai Bảng 4.1: Kết thí nghiệm Như vậy, kết kiểm thử với tập ảnh tự nhiên, khuôn mặt xoay góc tùy ý không tốt lắm. Khi kiểm tra với tập ảnh khuôn mặt xử lý trước, xoay góc cho đường nối hai mắt song song với chiều rộng ảnh kết cài thiện rõ rệt. Như kết luận phân lớp xác định khuôn mặt nhạy cảm với góc xoay khác khuôn mặt. . 4.2. Thí nghiệm 2: 4.2.1. Mục đích thực nghiệm: Đo đạc độ xác thuật toán xác định vị trí khuôn mặt sử dụng phân lớp chồng tầng dựa đặc trưng MB-LBP liệu khuôn mặt diện nghiêng nhẹ loài mèo. So sánh kết huấn luyện phân lớp hoàn toàn liệu huấn luyện xác định vị trí khuôn mặt theo cách thủ công với áp dụng kết hợp với thuật toán huấn luyện bán giám sát bootstrapping. 4.2.2. Bố trí thí nghiệm: Chia liệu gồm 9996 ảnh chứa khuôn mặt chụp diện nghiêng nhẹ mèo thành tập ảnh A1, A2, B, T có số lượng 2000, 500, 6996, 500: Trong đó: o A1, A2 đóng vai trò tập huấn luyện mồi tập huấn luyện kiểm thử vòng lặp thuật toán bootstapping; 32 o B tập liệu không xác định vị trí khuôn mặt sử dụng để mở rộng liệu huấn luyện tự động vòng lặp thuật toán bootstrapping o T tập liệu kiểm thử để đánh giá độ xác cuối cùng. Bổ sung 500 ảnh không chứa khuôn mặt mèo vào tập T. Sử dụng liệu G gồm 5070 ảnh không chứa khuôn mặt mèo để làm ảnh huấn luyện. Tập ảnh A1, A2, B T lấy nguyên vẹn từ ảnh khuôn mặt trực diện mèo Microsoft (Microsoft Cat Dataset 2008). Tập ảnh G lấy từ nguồn 450 ảnh liệu khuôn mặt trực diện Caltech ảnh PASCAL VOC 2007 Để so sánh kết việc sử dụng phân lớp chồng tầng dựa đặc trưng MB-LBP với kết hợp với thuật toán bootstapping, ta tiến hành thí nghiệm sau. 33 Hình 4.2: bước thực thí nghiệm 34 4.2.3. Kết thí nghiệm Số mẫu gánTổng nhãn tựmẫu Vòng động đượcnhãn lặp tăng thêm sốDương tínhDương tính -Âm tính -Âm tính gán- Đúng Sai Đúng Sai 2000 28 500 25 2643 4643 111 11 498 Bảng 4.2: Các vòng lặp huấn luyện thí nghiệm Trong thí nghiệm nhờ vào bootstrapping, độ xác tăng lên đáng kể chứng tỏ hiệu việc sử dụng thuật toán bootstrapping. Mặc dù độ xác mẫu gán nhãn không xác hoàn toàn gán nhãn thủ công dẫn đến kết phân lớp chồng tầng áp dụng huấn luyện bootstrapping đạt không kết phân lớp có giám sát công sức bỏ hẳn so với gán nhãn thủ công. Tốc độ hội tụ phương pháp huấn luyện nhanh chưa áp dụng phương pháp tính toán song song vòng lặp (mặc dù chương trình huấn luyện bootstrapping luân văn chưa áp dụng chất huấn luyện phân lớp chồng tầng vòng lăp, ta xác định vị trí khuôn mặt đồng thời nhiều ảnh mẫu chưa gán nhãn để tận dụng sức mạnh tính toán song song máy tính nay) 35 4.3. Thí nghiệm 3: 4.3.1. Mục đích thí nghiệm: Đo đạc độ xác thuật toán nhận diện danh tính khuôn mặt sử dụng phân lớp LBPH liệu khuôn mặt diện loài người. 4.3.2. Bố trí thí nghiệm: Chuẩn bị sẵn tập 450 khuôn mặt nhiều người, người xuất nhiều ảnh. Tập ảnh lấy từ nguồn 450 ảnh liệu khuôn mặt trực diện Caltech Các bước thí nghiệm sau: Hình 4.3: Các bước thí nghiệm 36 4.3.3. Kết thực nghiệm Người Tổng số ảnh Dương tính - Dương tính - Âm tính - Âm tính xuất Đúng Sai Đúng Sai 21 14 432 20 14 26 404 445 22 14 24 404 21 19 429 23 427 16 20 10 429 10 445 21 21 24 405 10 443 11 444 12 445 13 20 12 430 14 21 429 15 15 25 20 23 402 16 22 12 421 10 17 19 14 32 399 18 20 430 17 19 20 18 16 414 20 20 8 422 12 21 22 17 427 22 21 429 11 23 22 428 13 Bảng 4.3: Kết thí nghiệm Độ xác phân lớp chưa tốt, số lượng kết sai nhiều, điều giải thích phân loại, ta lấy ảnh làm liệu huấn luyện nên mô hình phân lớp huẩn luyện chưa thật đáng tin cậy. Tuy thường tình hay xảy thực tế. Người dùng hệ thống tìm kiếm ảnh thường đưa ảnh người họ muốn tìm, hệ thống dựa vào ảnh để tìm kiếm liệu nó. Để cải thiện ta yêu cầu người dùng cung cấp thêm ảnh muốn kết tìm kiếm xác chọn ngưỡng thấp để loại bỏ lượng Dương tính – Sai (nhưng làm tăng số Âm tính – Sai). 37 CHƯƠNG 5: KẾT LUẬN 5.1. Các kết đạt hạn chế Qua trình nghiên cứu xây dựng hệ thống tìm kiếm ảnh theo nội dung, luận văn đạt kết sau Thứ nhất, luận văn nghiên cứu kỹ lưỡng thuật toán cho phép trích chọn yếu tố ảnh thuật toán hàm phân lớp chồng tầng dựa vào đặc trưng MB-LBP để xác định xác vị trí khuôn mặt người động vật có vú. Thứ hai, luận văn đề xuất phương pháp áp dụng học máy bán giám sát bootstrapping vào trình huấn luyện hàm phân lớp. Phương pháp cho phép rút bớt công sức chuẩn bị thủ công liệu huấn luyện mà cho kết cuối gần tương đương với phân lớp huấn luyện tập lớp liệu chuẩn bị thủ công. Kế tiếp, luận văn nghiên cứu, áp dụng thuật toán phân lớp LBPH vào việc nhận dạng khuôn mặt ảnh. Từ kết nghiên cứu thuật toán liên quan đến khuôn mặt, luận văn xây dựng hệ thống tìm kiếm ảnh theo nội dung xoay quanh nội dung liên quan đến khuôn mặt người động vật có vú. Cụ thể, hệ thống tìm kiếm tìm kiếm theo số tiêu chí sau: tìm kiếm ảnh có xuất khuôn mặt người/động vật có vú, tìm kiếm ảnh giống khác màu sắc kích thước, tìm kiếm ảnh có số lượng khuôn mặt, tìm kiếm ảnh có khuôn mặt giống khuôn mặt cho trước. 38 Tuy vậy, phủ định nghiên cứu đề tài xâydựng hệ thống tìm kiếm ảnh theo nội dung có hạn chế. Hạn chế việc ứng dụng phân lớp chồng tầng sử dụng đặc trưng MB-LBP vào việc xác định vị trí khuôn mặt người động vật có vú. Tiềm phân lớp lớn, áp dụng để xác định vị trí nhiều đối tượng khác ảnh logo nhãn hàng, công ty, loại hoa quả, vật dụng gia đình nhiều đối tượng khác nữa. Nếu huấn luyện nhiều mô hình phân lớp cho đối tượng khác hệ thống tìm kiếm ảnh theo nội dung tìm kiếm theo nhiều tiêu chí nữa, tận dụng hết khả phân lớp nghiên cứu. Điểm hạn chế khác hệ thống tìm kiếm ảnh theo nội dung độ xác phân lớp LBPH chưa cao lắm. Đặc biệt với khuôn mặt phổ biến việc nhận dạng sai, lẫn nhiều ảnh không xác vào danh sách. Điều cải thiện cách áp dụng số lần lặp hạn chế thuật toán học bán giám sát boot strapping để bổ trợ thêm cho phân lớp LBPH. Tuy điều ảnh hưởng đến tốc độ thực thi thực tế. Ngoài ra, LBPH chủ yếu dựa vào cấp độ xám để phân biệt khuôn mặt với vật ví dụ mèo có khuôn mặt giống khác hoàn toàn màu sắc lông thuật toán không phân biệt khác biệt đó. Thuật toán đề luận văn không phân biệt trường hợp hình ảnh khuôn mặt bị phản chiếu ngước lại. Trong số trường hợp hai nửa khuôn mặt khác tương đối, khuôn mặt chụp diện chụp ảnh qua gương thuật toán đề nhận nhầm hai khuôn mặt khác nhau. Một hạn chế hệ thống chưa sử dụng sở liệu để lưu trữ nội dung ảnh trích xuất được. Hệ thống hoàn toàn làm việc thư mục ảnh. Như với thư mục ảnh lớn 500 ảnh tốc độ tìm kiếm chậm. Các ảnh thay cần phân tích lần đưa vào hệ thống kết phân tích dùng để thực thi lệnh tìm kiếm lại phải phân tích lại lần người dùng thao tác. Hạn chế cuối luận văn áp dụng cho khuôn mặt chụp diện có nghiêng nhẹ. Tuy nhiên thực tế khuôn mặt chụp nghiêng hẳn nửa khuôn mặt xuất nhiều. Với ảnh có nửa khuôn mặt thuật toán chương trình đề cập đến luận văn cho kết hạn chế, đặc biệt nhận diện danh tính. Kết đề tài khóa luận hạn chế định trình bày có ý nghĩa bước đường xây dựng hệ thống tìm kiếm ảnh theo nội dung hoàn chỉnh. Hơn nữa, qua trình nghiên cứu đề tài khóa luận này, va chạm, nghiên cứu vấn đề cụ thể thực tế đúc rút nhiều kinh nghiệm quý báu, làm tảng cho công tác nghiên cứu sau này. 5.2. Các công việc tương lai Tôi dự định tiếp tục nghiên cứu sâu hoàn thiện thêm đề tài khóa luận này, đặc biệt việc khắc phục hạn chế nêu phần trên. Cụ thể tiếp tục nghiên cứu cách thức áp dụng phân lớp vào việc xác định vị trí nhiều đối tượng từ trích rút nhiều nội dung ảnh, làm phong phú thêm cho tính tìm kiếm theo nội dung hệ thống. Tôi muốn tiếp tục nghiên cứu cụ thể cách thức áp dụng thuật toán học bán giám sát bootstrapping bổ trợ cho phân lớp LBPH mà không làm ảnh hưởng nhiều đến tốc độ thực thi. Từ nhận diện xác danh tính khuôn mặt, cải thiện chất lượng tìm kiếm danh tính hệ thống. Việc giải vấn đề với ảnh khuôn mặt bị phản chiếu, xoay ngược khuôn mặt cần thiết để tránh việc nhận nhầm khuôn mặt thành nhiều khuôn mặt khác nhau. Nếu giải vấn đề ta từ đưa thêm tính nhận diện ảnh khuôn mặt bị xoay ngược ảnh bị phản chiếu ngược. Việc đoán khuôn mặt danh tính khuôn mặt có phần khuôn mặt xuất ảnh hướng nghiên cứu quan trọng để hoàn thiện hệ thống tìm kiếm ảnh theo nội dung. Cuối sử dụng sở liệu để lưu trữ nội dung trích rút từ ảnh. Việc quan trọng cần hoàn thiện, tương lai với hướng phát triển nêu trên, số lượng nội dung trích rút từ ảnh nâng lên đáng kể. Khi việc lưu trữ lại nội dung trích rút gần bắt buộc muốn ứng dụng hệ thống tìm kiếm ảnh theo nội dung thực tế. TÀI LIỆU THAM KHẢO [1] Shengcai Liao, Xiangxin Zhu, Zhen Lei, Lun Zhang, and Stan Z. Li (2007); Learning Multi-scale Block Local Binary Patterns for Face Recognition, Center for Biometrics and Security Research & National Laboratory of Pattern Recognition,Institute of Automation, Chinese Academy of Sciences, 95 Zhongguancun Donglu, Beijing 100080, China. Springer Lecture Notes in Computer Science Volume 4642, 2007, pp 828-837 [2] Ahonen, T., Hadid, A., Pietikainen, M. (2004) Face recognition with local binary patterns. In: Proceedings of the European Conference on Computer Vision, Prague, Czech, pp. 469–481. [3] Belhumeur, P.N., Hespanha, J.P., Kriegman, D.J. (1997): Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection. IEEE Transactions on Pattern Analysis and Machine Intelligence 19(7), 711–720. [4] Rainer Lienhart, Alexander Kuranov, Vadim Pisarevsky; (2003) Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection; Springer, Lecture Notes in Computer Science Volume 2781, 2003, pp 297-304. [5] Yann RODRIGUEZ (2006) Face Detection and Verification using Local Binary Patterns, ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE. [6] Yakowsky, David (1995); Unsupervised Word Sense Disambiguation Rivaling Supervised Methods ; Department of Computer and Information Science, University of Pennsylvania, Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA, pp. 189–196. [7] Ojala, T., Pietikainen, M., Harwood, D. (1996): A comparative study of texture measureswith classification based on feature distributions. Pattern Recognition 29(1), 51–59. [8] Ojala, T., Pietikainen, M., Maenpaa, M. (2002): Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7), 971–987. [9] Phillips, P.J., Flynn, P.J., Scruggs, T., Bowyer, K.W., Chang, J., Hoffman, K., Marques, J., Min, J., Worek, W. (2005): Overview of the face recognition grand challenge. In: Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society Press, Los Alamitos. [10] Turk, M.A., Pentland, A.P. (1991): Eigenfaces for recognition. Journal of Cognitive Neuroscience 3(1), 71–86. [11] Viola, P., Jones, M. (2001): Robust real time object detection. In: IEEE ICCV Workshop on Statistical and Computational Theories of Vision, Vancouver, Canada, July 13, 2001. [12] Zhang, G., Huang, X., Li, S.Z., Wang, Y., Wu, X. (2004): Boosting local binary pattern (LBP)-based face recognition. In: Li, S.Z., Lai, J.-H., Tan, T., Feng, G.-C., Wang, Y. (eds.) SINOBIOMETRICS 2004. LNCS, vol. 3338, pp. 180–187. Springer, Heidelberg. [13] M Jones, P. Viola (2003). Fast multi-view face detection. In IEEE Conference on Computer Vision and Pattern Recognition. [14] R. Meir and G. Rätsch (2003). An introduction to Boosting and Leveraging. Springer. [15] http://docs.opencv.org/modules/contrib/doc/facerec/facerec_tutorial.html [...]... tiêu của đề tài xây dựng hệ thống tìm kiếm ảnh theo nội dung của bức ảnh •Chương 2: Các thuật toán nhận dạng khuôn mặt áp dụng trong hệ thống tìm kiếm ảnh theo nội dung Chương này nêu lên các thuật toán học máy có giám sát được áp dụng để tìm kiếm và nhận dạng khuôn mặt người và động vật có vú Từ đó, dựa vào các thuật toán này để giải quyết bài toán tìm kiếm ảnh theo nội dung trong ảnh Chương này... tìm kiếm theo nội dung tức là bản thân bức ảnh sẽ được phân tích để phục vụ cho việc tìm kiếm (chứ không dựa vào các từ khóa, các tag hoặc các mô tả của bức ảnh) Nội dung của bức ảnh ở đây có thể là các đối tượng, kết cấu, hoặc các đặc trưng khác được trích xuất từ chính bức ảnh Việc hệ thống tìm kiếm ảnh theo nội dung được cho là ưu việt hơn tìm kiếm theo từ khóa ở chỗ trên thực tế không phải bức ảnh. .. máy có giám sát để xác định vị trí các đối tượng trong bức ảnh với một bộ dữ liệu huấn luyện gán nhãn nhỏ •Chương 3: Hệ thống tìm kiếm ảnh theo nội dung Chương này giới thiệu sơ lược về hệ thống tìm kiếm ảnh theo nội dung Các thư viện sử dụng, cấu trúc chương trình, và cách thức áp dụng các thuật toán vào bài toán tìm kiếm ảnh theo nội dung của ảnh •Chương 4: Kết quả thực nghiệm Chương này nêu kết quả... là nội dung của một bức ảnh rất đa dạng theo nhu cầu của từng người tìm kiếm nhưng thời gian nghiên cứu và hoàn thành luận văn có hạn nên tôi xin phép giới hạn lại Nội dung của một bức ảnh được đề cập trong luận văn này sẽ xoay quanh khuôn mặt trực diện của người và các động vật có vú Theo đó hệ thống tìm kiếm theo nội dung ảnh được xây dựng trong luận văn sẽ trích rút các nội dung như: một bức ảnh. .. nhận dạng hình ảnh, tìm kiếm ảnh theo nội dung là một bài toán được đặt ra để thay thế cho phương pháp tìm kiếm ảnh thông thường dựa trên các từ khóa hoặc các mô tả của ảnh Các hệ thống tìm kiếm ảnh thông thường chủ yếu dựa vào các từ khóa Các từ khóa này có thể trong metadata của mỗi bức ảnh Người dùng buộc phải nhập các thông tin này bằng tay trước khi đưa vào hệ thống tìm kiếm Hệ thống sẽ quét và... sắc hoặc tìm kiếm các bức ảnh có cùng một vật thể hoặc đối tượng người tìm kiếm chưa biết tên gọi) thậm chí phương pháp tìm kiếm theo từ khóa không thể áp dụng hiệu quả được Khi đó có thể áp dụng phương pháp tìm kiếm theo nội dung 1.2 Mục tiêu đề tài Những vấn đề đã nêu ở trên cho ta thấy được sự cần thiết của việc nghiên cứu, xây dựng một hệ thống tìm kiếm ảnh dựa vào chính nội dung của ảnh Do số... hoặc có văn bản kèm theo Thậm chí văn bản kèm theo các bức ảnh có thể không có liên quan đến nội dung bức ảnh Như vậy người dùng sẽ nhận được kết quả tìm kiếm sai từ hệ thống tìm kiếm dựa trên từ khóa Ngoài ra, trong nhiều trường hợp người dùng không tìm được đúng và đủ từ khóa để mô tả bức ảnh Trong một số loại hình tìm kiếm ảnh cụ thể (ví dụ như tìm kiếm các bức ảnh giống nhau về nội dung nhưng khác... 21 3.2.2 Hệ thống tìm kiếm ảnh theo nội dung 22 Hình 3.4: Các bước thực thi của tính năng tìm kiếm ảnh xuất hiện khuôn mặt 23 Hình 3.5: Giao diện của tính năng tìm kiếm ảnh xuất hiện khuôn mặt 23 Hình 3.6: Các bước thực thi của tính năng tìm kiếm các ảnh giống nhau nhưng khác về kích thước và màu sắc 24 Hình 3.7: Giao diện của tính năng tìm kiếm các ảnh giống nhau nhưng... ảnh này để phục vụ tìm kiếm sau này Một phương pháp khác có thể áp dụng với những ảnh vốn dùng để minh họa cho các văn bản (như các ảnh trên các trang web) Người ta có thể coi nội dung của văn bản đó có miêu tả nội dung bức ảnh hoặc có liên qua đến nội dung bức ảnh Như vậy các từ trong văn bản có thể dùng làm các từ khóa để tìm kiếm chính bức ảnh đó Khác với phương pháp tìm kiếm ảnh bằng từ khóa, tìm. .. của một ảnh chia nhỏ thành các vùng 14 Công thức 2.6: Công thức tính độ tương giao của hai biểu đồ tần xuất .15 Công thức 2.7: Công thức thống kê Chi square của hai biểu đồ tần xuất .15 Hình 2.7: các bước của thuật toán nhận diện khuôn mặt 16 CHƯƠNG 3: HỆ THỐNG TÌM KIẾM ẢNH THEO NỘI DUNG 17 3.1 Bộ công cụ OpenCV .17 3.2 Hệ thống tìm kiếm ảnh theo nội dung của ảnh . HỆ THỐNG TÌM KIẾM ẢNH THEO NỘI DUNG 17 3.1. Bộ công cụ OpenCV 17 3.2. Hệ thống tìm kiếm ảnh theo nội dung của ảnh 18 3.2.1. Các công cụ chuẩn bị dữ liệu 18 3.2.2. Hệ thống tìm kiếm ảnh theo nội. mục tiêu của đề tài xây dựng hệ thống tìm kiếm ảnh theo nội dung của bức ảnh. •Chương 2: Các thuật toán nhận dạng khuôn mặt áp dụng trong hệ thống tìm kiếm ảnh theo nội dung. Chương này nêu. tượng trong bức ảnh với một bộ dữ liệu huấn luyện gán nhãn nhỏ. •Chương 3: Hệ thống tìm kiếm ảnh theo nội dung Chương này giới thiệu sơ lược về hệ thống tìm kiếm ảnh theo nội dung. Các thư