Thí nghiệm 3:

Một phần của tài liệu xây dựng hệ thống tìm kiếm ảnh theo nội dung (Trang 55)

4.3.1. Mục đích thí nghiệm:

Đo đạc độ chính xác của thuật toán nhận diện danh tính khuôn mặt sử dụng bộ phân lớp LBPH trên dữ liệu là các khuôn mặt chính diện của loài người.

4.3.2. Bố trí thí nghiệm:

Chuẩn bị sẵn một tập 450 khuôn mặt của nhiều người, trong đó mỗi người sẽ xuất hiện trong nhiều ảnh. Tập ảnh được lấy từ các nguồn 450 ảnh dữ liệu khuôn mặt trực diện của Caltech

Các bước thí nghiệm như sau:

Hình 4.3: Các bước thí

nghiệm 3

4.3.3. Kết quả thực nghiệm Người Tổng số ảnh xuất hiện Dương tính - Đúng Dương tính - Sai Âm tính - Đúng Âm tính - Sai 1 21 14 6 432 7 2 20 14 26 404 6 3 5 2 0 445 3 4 22 14 24 404 8 5 21 19 0 429 2 6 23 7 0 427 16 7 20 10 1 429 10 8 5 2 0 445 3 9 21 21 24 405 0 10 7 2 0 443 5 11 5 3 1 444 2 12 5 1 0 445 4 13 20 12 0 430 8 14 21 6 0 429 15 15 25 20 23 402 5 16 22 12 7 421 10 17 19 14 32 399 5 18 20 3 0 430 17 19 20 18 16 414 2 20 20 8 8 422 12 21 22 17 1 427 5 22 21 9 1 429 11 23 22 9 0 428 13 Bảng 4.3: Kết quả thí nghiệm 3

Độ chính xác của bộ phân lớp chưa tốt, số lượng kết quả sai còn nhiều, điều này có thể giải thích do mỗi khi phân loại, ta chỉ lấy một ảnh làm dữ liệu huấn luyện nên mô hình phân lớp được huẩn luyện vẫn chưa thật sự đáng tin cậy. Tuy vậy đây thường là tình huống hay xảy ra trong thực tế. Người dùng hệ thống tìm kiếm ảnh sẽ thường đưa ra chỉ một bức ảnh của người họ đang muốn tìm, hệ thống sẽ chỉ dựa vào bức ảnh đó để tìm kiếm trong bộ dữ liệu của nó. Để cải thiện ta có thể yêu cầu người dùng cung cấp thêm ảnh nếu muốn kết quả tìm kiếm chính xác hơn hoặc chọn ngưỡng thấp hơn để loại bỏ lượng Dương tính – Sai (nhưng có thể làm tăng số Âm tính – Sai).

CHƯƠNG 5: KẾT LUẬN

5.1. Các kết quả đạt được và hạn chế

Qua quá trình nghiên cứu và xây dựng hệ thống tìm kiếm ảnh theo nội dung, luận văn đã đạt được những kết quả sau đây

Thứ nhất, luận văn nghiên cứu kỹ lưỡng về các thuật toán cho phép trích chọn các yếu tố của bức ảnh và thuật toán của các hàm phân lớp chồng tầng dựa vào đặc trưng MB-LBP để có thể xác định được khá chính xác vị trí của các khuôn mặt của người và động vật có vú. Thứ hai, luận văn cũng đã đề xuất được phương pháp áp dụng học máy bán giám sát bootstrapping vào trong quá trình huấn luyện các hàm phân lớp. Phương pháp này đã cho phép rút bớt công sức chuẩn bị thủ công dữ liệu huấn luyện mà vẫn cho kết quả cuối cùng gần tương đương với các bộ phân lớp được huấn luyện bằng tập lớp dữ liệu đã chuẩn bị thủ công. Kế tiếp, luận văn đã nghiên cứu, áp dụng được thuật toán phân lớp LBPH vào việc nhận dạng các khuôn mặt trong các bức ảnh.

Từ những kết quả nghiên cứu các thuật toán liên quan đến khuôn mặt, luận văn đã xây dựng được một hệ thống tìm kiếm ảnh theo nội dung xoay quanh các nội dung liên quan đến khuôn mặt người và động vật có vú. Cụ thể, hệ thống tìm kiếm đã có thể tìm kiếm theo một số tiêu chí như sau: tìm kiếm các ảnh có xuất hiện khuôn mặt người/động vật có vú, tìm kiếm các ảnh giống nhau nhưng khác về màu sắc và kích thước, tìm kiếm các ảnh có cùng số lượng khuôn mặt, tìm kiếm các ảnh có khuôn mặt giống một khuôn mặt cho trước.

Tuy vậy, không thể phủ định rằng nghiên cứu về đề tài xâydựng hệ thống tìm kiếm ảnh theo nội dung vẫn có những hạn chế. Hạn chế đầu tiên là về việc mới chỉ ứng dụng được bộ phân lớp chồng tầng sử dụng đặc trưng MB-LBP vào việc xác định vị trí khuôn mặt người và động vật có vú. Tiềm năng của bộ phân lớp này còn rất lớn, có thể áp dụng để xác định vị trí của nhiều đối tượng khác trong bức ảnh như các logo của các nhãn hàng, công ty, các loại hoa quả, các vật dụng trong gia đình và rất nhiều những đối tượng khác nữa. Nếu có thể huấn luyện được nhiều mô hình phân lớp cho các đối tượng khác nữa thì hệ thống tìm kiếm ảnh theo nội dung sẽ có thể tìm kiếm theo nhiều tiêu chí hơn nữa, tận dụng được hết khả năng của bộ phân lớp đã nghiên cứu.

Điểm hạn chế khác của hệ thống tìm kiếm ảnh theo nội dung đó là độ chính xác của bộ phân lớp LBPH vẫn chưa cao lắm. Đặc biệt với các khuôn mặt phổ biến thì việc nhận dạng sai, lẫn nhiều ảnh không chính xác vào danh sách. Điều này có thể cải thiện bằng cách áp dụng một số lần lặp hạn chế thuật toán học bán giám sát boot strapping để bổ trợ thêm cho bộ phân lớp LBPH. Tuy vậy điều này có thể ảnh hưởng đến tốc độ thực thi thực tế.

Ngoài ra, do LBPH chủ yếu dựa vào các cấp độ xám để phân biệt các khuôn mặt vì vậy với các con vật ví dụ như mèo có khuôn mặt khá giống nhau như khác hoàn toàn về màu sắc lông thì thuật toán cũng không phân biệt được sự khác biệt đó. Thuật toán đề ra trong luận văn cũng sẽ không phân biệt được trong trường hợp hình ảnh khuôn mặt bị phản chiếu ngước lại. Trong một số trường hợp nếu hai nửa của một khuôn mặt khác nhau tương đối, khuôn mặt đó được chụp chính diện và chụp ảnh qua gương thì thuật toán đề ra có thể sẽ nhận nhầm đó là hai khuôn mặt khác nhau.

Một hạn chế nữa của hệ thống là chưa sử dụng cơ sở dữ liệu để lưu trữ các nội dung của ảnh đã trích xuất ra được. Hệ thống vẫn hoàn toàn làm việc trên thư mục ảnh. Như vậy với các thư mục ảnh lớn trên 500 ảnh thì tốc độ tìm kiếm khá chậm. Các ảnh thay vì chỉ cần phân tích một lần đầu tiên khi đưa vào hệ thống và các kết quả phân tích được sẽ dùng để thực thi các lệnh tìm kiếm thì ở đây lại phải phân tích lại mỗi lần người dùng thao tác.

Hạn chế cuối cùng của luận văn đó là mới áp dụng được cho các khuôn mặt chụp chính diện hoặc có nghiêng nhẹ. Tuy nhiên trong thực tế thì các khuôn mặt chụp nghiêng hẳn hoặc chỉ còn một nửa khuôn mặt xuất hiện khá nhiều. Với các ảnh chỉ có một nửa khuôn mặt thì các thuật toán và chương trình đề cập đến trong luận văn vẫn cho kết quả rất hạn chế, đặc biệt là khi nhận diện danh tính.

Kết quả của đề tài khóa luận tuy còn những hạn chế nhất định như đã trình bày ở trên nhưng nó cũng có ý nghĩa như một bước đầu tiên trên con đường xây dựng một hệ thống tìm kiếm ảnh theo nội dung hoàn chỉnh. Hơn thế nữa, qua quá trình nghiên cứu đề tài khóa luận này, tôi đã được va chạm, nghiên cứu một vấn đề cụ thể trong thực tế và đã đúc rút được nhiều kinh nghiệm quý báu, làm nền tảng cho tôi trong công tác và nghiên cứu sau này.

5.2. Các công việc trong tương lai

Tôi dự định tiếp tục nghiên cứu sâu hơn và hoàn thiện thêm đề tài khóa luận này, đặc biệt là trong việc khắc phục những hạn chế như đã nêu ở phần trên. Cụ thể tôi sẽ tiếp tục nghiên cứu cách thức áp dụng các bộ phân lớp vào việc xác định vị trí của nhiều đối tượng hơn nữa từ đó có thể trích rút được nhiều nội dung của ảnh, làm phong phú thêm cho các tính năng tìm kiếm theo nội dung của hệ thống.

Tôi cũng muốn tiếp tục nghiên cứu cụ thể về cách thức áp dụng thuật toán học bán giám sát bootstrapping bổ trợ cho bộ phân lớp LBPH mà không làm ảnh hưởng nhiều đến tốc độ thực thi. Từ đó có thể nhận diện chính xác hơn danh tính của các khuôn mặt, cải thiện được chất lượng tìm kiếm danh tính của hệ thống.

Việc giải quyết các vấn đề với các ảnh khuôn mặt bị phản chiếu, xoay ngược của cùng một khuôn mặt cũng rất cần thiết để tránh việc nhận nhầm một khuôn mặt thành nhiều khuôn mặt khác nhau. Nếu giải quyết được vấn đề này thì ta cũng từ đó có thể đưa thêm các tính năng như nhận diện các ảnh khuôn mặt bị xoay ngược hoặc các ảnh bị phản chiếu ngược.

Việc phỏng đoán khuôn mặt và danh tính của khuôn mặt khi chỉ có một phần khuôn mặt xuất hiện trong ảnh cũng là một hướng nghiên cứu quan trọng tiếp theo để hoàn thiện hệ thống tìm kiếm ảnh theo nội dung.

Cuối cùng là sử dụng cơ sở dữ liệu để lưu trữ các nội dung đã trích rút ra được từ các bức ảnh. Việc này cũng rất quan trọng cần được hoàn thiện, nhất là trong tương lai với các hướng phát triển đã nêu trên, số lượng nội dung trích rút được từ một bức ảnh có thể được nâng lên đáng kể. Khi đó việc lưu trữ lại những nội dung đã trích rút gần như là bắt buộc nếu muốn ứng dụng hệ thống tìm kiếm ảnh theo nội dung trong thực tế.

TÀI LIỆU THAM KHẢO

[1] Shengcai Liao, Xiangxin Zhu, Zhen Lei, Lun Zhang, and Stan Z. Li (2007); Learning Multi-scale Block Local Binary Patterns for Face Recognition, Center for Biometrics and Security Research & National Laboratory of Pattern Recognition,Institute of Automation, Chinese Academy of Sciences, 95 Zhongguancun Donglu, Beijing 100080, China. Springer Lecture Notes in Computer Science Volume 4642, 2007, pp 828-837

[2] Ahonen, T., Hadid, A., Pietikainen, M. (2004) Face recognition with local binary patterns. In: Proceedings of the European Conference on Computer Vision, Prague, Czech, pp. 469–481.

[3] Belhumeur, P.N., Hespanha, J.P., Kriegman, D.J. (1997): Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection. IEEE Transactions on Pattern Analysis and Machine Intelligence 19(7), 711–720.

[4] Rainer Lienhart, Alexander Kuranov, Vadim Pisarevsky; (2003) Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection; Springer, Lecture Notes in Computer Science Volume 2781, 2003, pp 297-304. [5] Yann RODRIGUEZ (2006) Face Detection and Verification using Local

Binary Patterns, ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE.

[6] Yakowsky, David (1995); Unsupervised Word Sense Disambiguation Rivaling Supervised Methods ; Department of Computer and Information Science, University of Pennsylvania, Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA, pp. 189–196.

[7] Ojala, T., Pietikainen, M., Harwood, D. (1996): A comparative study of texture measureswith classification based on feature distributions. Pattern Recognition 29(1), 51–59.

[8] Ojala, T., Pietikainen, M., Maenpaa, M. (2002): Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7), 971–987.

[9] Phillips, P.J., Flynn, P.J., Scruggs, T., Bowyer, K.W., Chang, J., Hoffman, K., Marques, J., Min, J., Worek, W. (2005): Overview of the face recognition grand challenge. In: Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society Press, Los Alamitos.

[10] Turk, M.A., Pentland, A.P. (1991): Eigenfaces for recognition. Journal of Cognitive Neuroscience 3(1), 71–86.

[11] Viola, P., Jones, M. (2001): Robust real time object detection. In: IEEE ICCV Workshop on Statistical and Computational Theories of Vision, Vancouver, Canada, July 13, 2001.

[12] Zhang, G., Huang, X., Li, S.Z., Wang, Y., Wu, X. (2004): Boosting local binary pattern (LBP)-based face recognition. In: Li, S.Z., Lai, J.-H., Tan, T., Feng, G.-C., Wang, Y. (eds.) SINOBIOMETRICS 2004. LNCS, vol. 3338, pp. 180–187. Springer, Heidelberg.

[13]M Jones, P. Viola (2003). Fast multi-view face detection. In IEEE Conference on Computer Vision and Pattern Recognition.

[14] R. Meir and G. Rätsch (2003). An introduction to Boosting and Leveraging. Springer.

Một phần của tài liệu xây dựng hệ thống tìm kiếm ảnh theo nội dung (Trang 55)

Tải bản đầy đủ (DOC)

(62 trang)
w