Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
2,7 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC PHẠM HỒNG NGỰ NHẬN DẠNG ĐỐI TƯỢNG SỬ DỤNG THUẬT TOÁN ADABOOST CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN ĐĂNG BÌNH Huế, 2009 MỞ ĐẦU Nhận dạng hay nhận biết đối tượng khả tự nhiên người loài vật, theo cách loài vật qua cảm nhận từ quan cảm giác như: mắt, mũi, miệng, tay,… hành động nhìn, nghe, ngửi,… dễ dàng cảm nhận đối tượng tiếp xúc với gì, quen hay lạ Chính vậy, nói thể lồi vật hệ thống nhận dạng tối ưu Với phát triển khoa học công nghệ khoa học robot ngày mong ước tạo hệ thống nhận dạng máy học có khả tương tự trội hệ thống nhận dạng sinh học khát khao cháy bỏng nhà khoa học Chính từ năm 70 đến nhà khoa học không ngừng nghiên cứu phát triển toán nhận dạng đối tượng, từ nhận dạng ký tự sơ khai hệ thống nhận dạng cho robot thông minh khoa học tiến bước dài Ứng dụng toán sống, khoa học kỹ thuật ngày rộng rãi nhiều lĩnh vực Tuy nhiên, dù có nhiều thành công giới hạn tốn có nhiều vấn đề hóc búa địi hỏi tri thức tổng hợp nhiều lĩnh vực Một hệ thống nhận dạng đối tượng hệ thống nhận vào ảnh đoạn video (một chuỗi ảnh) Qua xử lý tính tốn hệ thống xác định vị trí đối tượng ảnh (nếu có) xác định đối tượng số đối tượng hệ thống biết (qua trình học) đối tượng Yêu cầu đặt hệ thống nhận dạng đối tượng độ xác cao hệ thống địi hỏi phải có đặc trưng tốt Hệ thống phải biết chọn đặc trưng để biểu diễn tốt thông tin đối tượng cần nhận dạng Đồng thời, đặc trưng phải tính tốn nhanh để khơng làm chậm cơng việc nhận dạng Thêm vào đó, hệ thống phải có phương pháp học hiệu quả, có khả nhận dạng tốt mẫu không làm tốt mẫu học Để đạt mục tiêu trên, có nhiều cách tiếp cận đưa ra: William T Freeman Michal Roth [26] sử dụng đặc trưng biểu đồ định hướng, Bowden Sarhadi [18] sử dụng mơ hình phân tán điểm phi tuyến,…Nhìn chung, cách tiếp cận có chung hạn chế khơng thể đạt cân đối khả nhận dạng thời gian xử lý AdaBoost (Adaptive Boosting) giải thuật máy học đề xuất Yoav Freund Robert Schapire [23] vào năm 1995 Nó tiếp cận boosting hoạt động nguyên tắc kết hợp tuyến tính phân loại yếu để có phân loại mạnh Do ưu điểm nên có nhiều nghiên cứu nhận dạng đối tượng chọn AdaBoost để làm công cụ thực Với lý chọn đề tài “Nhận dạng đối tượng sử dụng thuật toán AdaBoost” Luận văn chia thành ba chương, nội dung chủ yếu Chương tìm hiểu kiến thức tổng quan nhận dạng đối tượng việc ứng dụng AdaBoost để nhận dạng đối tượng, cụ thể nhận dạng khuôn mặt người Trong Chương tìm hiểu thuật tốn AdaBoost mơ hình áp dụng thuật tốn vào việc nhận dạng đối tượng Chương tập trung vấn đề thực nghiệm nhận dạng khuôn mặt, bao gồm chuẩn bị liệu, bước tiến hành, lượng hóa kết huấn luyện kết kiểm thử Phần cuối luận văn kết luận hướng phát triển đề tài Chương TỔNG QUAN Chương giới thiệu tổng quan nhận dạng đối tượng, hướng nghiên cứu lĩnh vực này, sơ lược cơng trình nghiên cứu nhận dạng có sử dụng thuật toán AdaBoost 1.1 Định nghĩa toán nhận dạng đối tượng Nhận dạng đối tượng (Object recognition) lĩnh vực thuộc “machine learning” nghiên cứu việc tìm đối tượng ảnh hay video cho trước, việc phát lớp đối tượng cụ thể với lớp đối tượng khác hệ thống Hình 1.1: Minh họa nhận dạng mặt người Sự phát triển khoa học kỹ thuật công nghệ thúc đẩy cho việc đưa toán nhận dạng đối tượng vào ứng dụng thực tiễn với mức độ tinh vi ngày cao, ta thấy nhiều ứng dụng nhận dạng đối tượng phổ biến như: camera theo dõi trung tâm lớn, hệ thống nhận dạng tội phạm, nhận dạng vân tay, công nghệ robot,… Vì vậy, nhận dạng đối tượng lĩnh vực quan tâm có tính ứng dụng cao 1.2 Các khó khăn việc nhận dạng Đối với người việc nhận dạng đối tượng ảnh việc phức tạp; nhiên, hệ thống nhân tạo nhận đối tượng từ ảnh đòi hỏi phải giải nhiều vấn đề hóc búa Chính vấn đề nhiều nhóm giới quan tâm nghiên cứu Khó khăn tốn nhận dạng kể sau: a Tư thế, góc chụp: Ảnh chụp khn mặt thay đổi nhiều góc chụp camera khuôn mặt Chẳng hạn như: chụp thẳng, chụp xéo bên trái 450 hay xéo bên phải 450, chụp từ xuống, chụp từ lên, v.v ) Với tư khác nhau, thành phần khn mặt mắt, mũi, miệng bị khuất phần chí khuất hết Hình 1.2: Minh họa thay đổi góc chụp b Sự xuất thiếu số thành phần: Các thành phần biểu tả đối tượng xuất khơng ảnh làm cho tốn nhận dạng trở nên khó nhiều Hình 1.3: Minh họa thiếu thành phần c Sự biến dạng đối tượng: Biến dạng đối tượng làm ảnh hưởng đáng kể lên thông số đối tượng Chẳng hạn, khn mặt người, khác họ cười sợ hãi,v.v Hình 1.4: Minh họa biến dạng d Sự che khuất: Đối tượng bị che khuất đối tượng khác Hình 1.5: Minh họa che khuất e Sự phức tạp hình nền: Hình phức tạp khiến việc nhận dạng trở nên khó khăn Hình 1.6: Minh họa hình phức tạp f Điều kiện ảnh: Ảnh chụp điều kiện khác về: chiếu sáng, tính chất camera (máy kỹ thuật số, máy hồng ngoại,v.v ) ảnh hưởng nhiều đến chất lượng ảnh Hình 1.7: Minh họa độ sáng khác 1.3 Các ứng dụng nhận dạng đối tượng Bài toán nhận dạng đối tượng áp dụng rộng rãi nhiều ứng dụng thực tế khác Đó lý mà toán hấp dẫn nhiều nhóm nghiên cứu thời gian dài Các ứng dụng liên quan đến nhận dạng đối tượng kể như: - Hệ thống phát tội phạm: camera đặt số điểm công cộng như: siêu thị, nhà sách, trạm xe buýt, sân bay,v.v Khi phát xuất đối tượng tội phạm, hệ thống gởi thông điệp cho trung tâm xử lý - Hệ thống theo dõi nhân đơn vị: giám sát vào nhân viên chấm công - Hệ thống giao tiếp người máy: thay việc tương tác người máy theo cách truyền thống như: bàn phím, chuột,v.v Thay vào sử dung giao tiếp trực quan: biểu cảm khuôn mặt, dấu hiệu, cử tay - Hệ thống tìm kiếm thơng tin ảnh, video dựa nội dung (chỉ mục theo người) Chẳng hạn như: đài truyền hình Việt Nam (VTV) có kho liệu video tin tức lớn cần tìm kiếm nhanh đoạn video có G Bush Bin Laden - Các hệ thống bảo mật dựa thông tin trắc sinh học: mặt người, vân tay,v.v thay xác nhận mật khẩu, khóa,v.v - Phần mềm nhận dạng chữ in, đặc biệt dành riêng cho ngôn ngữ tiếng Việt, dịch vụ Nhận dạng chữ in - Công nghệ nhận dạng quản lý giao thơng quản lý hình ảnh xe biển số xe thay đổi (không khớp với sở liệu), giám sát bãi đỗ xe, phương tiện giao thông khu vực nhạy cảm sân bay, bến cảng 1.4 Tổng quan kiến trúc hệ thống nhận dạng đối tượng Một hệ thống nhận dạng đối tượng thơng thường xử lý bốn bước sau: • Thu nhận tín hiệu (hình ảnh) tiền xử lý • Trích chọn đặc trưng (Đặc trưng extraction) • Phát đối tượng (detection) • Phân lớp đối tượng (classification) Ảnh/video Tiền xử lý Ảnh xử lý Trích chọn đặc trưng Vectơ đặc trưng Vị trí đối tượng Nhận dạng Phát Phân lớp đối tượng đối tượng Hình 1.8: Các bước hệ thống nhận dạng mặt người Ảnh đầu vào thu nhận tiền xử lý sau ảnh qua cơng đoạn tiền xử lý nhằm tăng độ xác cho hệ thống Các ảnh sau trích chọn đặc trưng để tạo vectơ đặc trưng bước rút trích đặc trưng Những véc-tơ đặc trưng liệu đầu vào cho mơ hình huấn luyện trước Phát đối tượng: dị tìm định vị vị trí đối tượng xuất ảnh chuỗi ảnh video Những đối tượng thu qua bước phát tiếp tục phân lớp thành lớp riêng biệt để nhận dạng 1.5 Tổng quan phương pháp toán nhận dạng đối tượng Có nhiều hướng tiếp cận phương pháp khác liên quan đến vấn đề nhận dạng Theo Ming-Hsuan Yang [11], phân loại thành bốn hướng tiếp cận 10 chính: Hướng tiếp cận dựa cở sở tri thức, hướng tiếp cận dựa đặc trưng bất biến, hướng tiếp cận dựa đối sánh mẫu, Hướng tiếp cận dựa vào diện mạo xuất hiện, phương pháp thường dùng mơ hình máy học nên gọi phương pháp dựa sở máy học (machine learning-based) a Hướng tiếp cận dựa cở sở tri thức: Mã hóa hiểu biết người đối tượng thành luật Thông thường luật mô tả quan hệ đặc trưng Trong hướng tiếp cận này, luật phụ thuộc lớn vào tri thức tác giả nghiên cứu Đây hướng tiếp cận dạng từ xuống Dễ dàng xây dựng luật để mô tả đặc trưng đối tượng quan hệ tương ứng Ví dụ, khn mặt thường có hai mắt đối xứng qua trục thẳng đứng khn mặt có mũi, miệng Các quan hệ đặc trưng mô tả quan hệ khoảng cách vị trí Thơng thường tác giả trích đặc trưng khn mặt trước tiên để có ứng viên, sau ứng viên nhận dạng thông qua luật để biết ứng viên khuôn mặt (face) ứng viên khơng phải khn mặt (none-face) Thường áp dụng q trình xác định để giảm số lượng nhận dạng sai Một vấn đề phức tạp dùng hướng tiếp cận chuyển từ tri thức người sang luật cách hiệu Nếu luật q chi tiết nhận dạng nhận dạng thiếu đối tượng có ảnh, đối tượng thỏa mãn tất luật đưa Nhưng luật tổng quát nhận dạng lầm vùng khơng phải đối tượng mà lại nhận dạng đối tượng khó khăn mở rộng yêu cầu từ toán để nhận dạng đối tượng có nhiều tư khác Có số nghiên cứu từ sớm áp dụng phương pháp Kanade [17] b Hướng tiếp cận dựa đặc trưng bất biến: Mục tiêu thuật tốn tìm đặc trưng mơ tả cấu trúc đối tượng, đặc trưng không thay đổi vị trí đối tượng, vị trí đặt thiết bị thu hình điều kiện ánh sáng thay đổi 49 Kết quả: ROC 100% 90% True Positive Rate 80% 70% 60% 50% 40% 30% 20% 10% 0% 300 455 688 749 857 918 995 1219 Số lượng ảnh huấn luyện Hình 3.7: Biểu đồ đánh giá kết huấn luyện Kết quả: ROC 100% 90% False Positive Rate 80% 70% 60% 50% 40% 30% 20% 10% 0% 300 455 688 749 857 918 995 Số lượng ảnh huấn luyện Hình 3.9: Biểu đồ đánh giá tỷ lệ nhận dạng sai 1219 50 Qua trình huấn luyện với số ảnh tăng dần tỷ lệ nhận dạng tăng lên từ 10% lên 80%, kết chấp nhận 3.4 Kiểm thử Quá trình kiểm thử thực liệu kiểm thử CMU cho kết bảng đây: Thử nghiệm Số lượng Hits Missed False 306 694 20 244 384 positive CBCL 472 CMU 256 Bảng 3.3: Kết kiểm thử hai liệu CBCL CMU Trong đó: - Hits: số lượng mẫu nhận dạng - Missed: số lượng đối tượng chưa nhận dạng (nghĩa số lượng khn mặt có ảnh không nhận dạng được) - False: số lượng đối tượng nhận dạng sai từ ảnh không chứa đối tượng (tức số lượng đối tượng nhận dạng khuôn mặt) 51 Đánh giá độ xác 100% 99% Hits rate 98% 97% 96% 95% 94% 93% CBCL CMU Hình 3.9: Tỉ lệ nhận dạng xác đối tượng bộ: CBCL CMU Thực nghiệm hai tập liệu CBCL, CMU cho thấy độ xác thử nghiệm CBCL 97%% cao hơn, CMU đạt 95% Kết cho thấy AdaBoost có tỷ lệ nhận dạng xác cao 3.5 Một số hình ảnh minh họa kết nhận dạng Minh họa kết kiểm thử tập liệu CBCL: 52 Hình 3.10: Nhận dạng face 321.25s Hình 3.11: Nhận dạng 11 face 448.53s 53 Hình 3.12: Nhận dạng face 382.02s Hình 3.13: face phát 27,80s 54 Hình 3.14: face phát 256,84s Minh họa kết kiểm thử tập liệu CMU Hình 3.15: face phát 236,35s 55 Hình 3.16: face phát 198,73s Hình 3.17: face phát 177,73s 56 Hình 3.18: face phát 150,40s Hình 3.19: face phát 159,99s 57 Minh họa kết kiểm thử số ảnh sưu tầm Hình 3.20: face phát 88,49s Hình 3.21: face phát 393,61s 58 Hình 3.22: face phát 274,61s Hình 3.23: face phát 277,18s 59 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Trên sở tìm hiểu nghiên cứu thuật tốn AdaBoost kỹ thuật nhận dạng đối tượng cụ thể nhận dạng khuôn mặt, luận văn đạt kết sau: - Giới thiệu khái quát tốn nhận dạng đối tượng, mơ hình nhận dạng sử dụng giới, khái quát lịch sử phát triển thuật toán AdaBoost cơng trình nghiên cứu uy tín vấn đề - Trình bày thuật tốn AdaBoost, tìm hiểu mơ hình cascade phân loại áp dụng thuật toán cho toán nhận dạng đối tượng (cụ thể nhận dạng khn mặt) xây dựng mơ hình phân tầng với sử dụng đặc trưng Haar-like - Tiến hành thực nghiệm việc huấn luyện với liệu khuôn mặt Feret, đánh giá kết thu với hai liệu CBCL CMU, kết thu hạn chế thời gian tiến hành thực nghiệm không nhiều nhiên qua giới thiệu quy trình huấn luyện phương pháp huấn luyện nhận dạng ảnh Tuy thực nghiệm cho kết kết chưa tốt, số lượng mẫu thử thời gian để thực không nhiều Hướng phát triển - Qua kết thực nghiệm thu cho thấy việc nhận dạng đối tượng đòi hỏi trình lâu dài trước mắt tiếp tục tiến hành huấn luyện với liệu khác với số lượng ảnh lớn để nhận dạng đạt kết tốt - Nhận dạng đối tượng đề tài thú vị có nhiều ứng dụng khoa học kỹ thuật đời sống Trong luận văn này, nghiên cứu thuật toán AdaBoost việc nhận dạng kết hạn chế nên việc cải thiện thuật toán xây dựng hồn thiện hệ thống tìm kiếm nhận dạng với độ xác tin cậy để ứng dụng đời sống xã hội hướng nghiên cứu thú vị phức tạp đòi hỏi nhiều công sức lao động nghiên cứu Để 60 hướng tới mục tiêu này, cần nghiên cứu nhiều mơ hình nhận dạng khác nhà nghiên cứu quan tâm sử dụng mơ hình Markov nhiều chiều, thực lấy mẫu ảnh với độ xác cao - Một hướng phát triển khác áp dụng thuật toán AdaBoost với đặc trưng khác như: đặc trưng local, garbor,… Tuy nhiên, vấn đề cần phải thừa nhận khó tồn giải pháp tổng thể cho tất toán đặc biệt áp dụng vào thực tiễn sống Do cần phải có hạn chế cần thiết cho phù hợp với miền ứng dụng ví dụ: tìm kiếm khn mặt yêu cầu hạn chế vùng tìm kiếm xây dựng ứng dụng dựa mặt người… 61 TÀI LIỆU THAM KHẢO Tiếng Anh A Lanitis., C.J Taylor and T.F Cootes (1995), A Unified Approach to Coding and Interpreting Face Images, Int'l Conf Computer Vision, pp 368-373 Agarwal S and Roth D (2002), Learning a sparse representation for object detection, In ECCV-2002 Carbonetto, S.T., M.M Gruver., D.C Turner (1982), Nerve fiber growth on defined hydrogel substrates, Science 21,pp 897-899 Eng-Jon Ong and Bowden R (2004), A Boosted Bộ phân loại Tree for Hand Shape Detection, In Proc IEEE Intl Conference on Automatic Face and Gesture Recognition G Dorko and C Schmid (2004), Object class recognition using discriminative local features, IEEE Transactions on Pattern Analysis and Machine Intelligence I Craw and P Cameron (1992), Face Recognition by Computer, British Machine Vision Conf., pp 498–507 Johan Thureson and Stefan Carlsson (2004), Appearance Based Qualitative Image Description for Object Class Recognition, ECCV (2) 2004, pp 518-529 K.C.Yow, R.Cipolla (1997), Feature-based Human Face Detection, Image and Vision Computing, 15(9), pp 713-735 K Sung and T Poggio (1998), Example-Based Learning for View-Based Human Face Detection, Journal of Artificial Intelligence Research, v.9 n.1, pp.167-217 62 10 M Turk and A Pentland (1991), Face recognition using eigenfaces, IEEE Conference on Computer Vision and Pattern Recognition, pp 586– 591 11 Ming-Hsuan Yang., David J Kriegman., Narendra Ahuja (2002), Detecting Faces in Images: A Survey, IEEE Transaction on Pattern Analysis and Machine Intelligence (PAMI),vol 1, pp 34-47 12 E.Osuna., R.Freund and F.Girosi (1997), An improved huấn luyện algorithm for support vector machines, IEEE CVPR 13 Paul Viola and Michael J Jones (2001), Rapid Object Detection using a Boosted Cascade of Simple feature , IEEE CVPR 14 P Viola and M J Jones (2004), Robust real-time face detection, International Journal of Computer Vision, 57(2), pp.137-154 15 Robert E Schapire and Yoram Singer (1999), Improved boosting algorithms using confidence-rated predictions, Machine Learning, 37(3), pp.297–336 16 Rajagopal and A Kahn (1998), Molecular Level Alignment at Organic Semiconductor-metal Interfaces, Appl Phys Lett, pp.73- 662 17 Rowley H., Baluja S., and Kanade T (1998), Neural network-based face detection, IEEE Patt, Anal, Mach Intell, pp.22–38 18 R Bowden and M Sarhadi (2000), Building temporal models for gesture recognition, In Proc, BMVC volume 1, pages 32–41 19 Schneiderman H and Kanade T (2000), A statistical method for 3D object detection applied to faces and car, In International Conference on Computer Vision 63 20 Stan Z Li, Zhen Qiu Zhang (2004), FloatBoost Learning and Statistical Face Detection, IEEE Transaction on Pattern Analysis and Machine Intelligence PAMI), Vol 26, pp.1-12 21 Stan Z Li., Juwei Lu (2004), Face Detection, Alignment and Recognition, Book Chapter 9, pp 385-455 22 T.K Leung., M.C Burl., and P Perona (1995), Finding faces in cluttered scenes using random labelled graph matching, In Int Conf on Computer Vision 23 Yoav Freund and Robert E Schapire (1995), A decision-theoretic generalization of on-line learning and an applicationto boosting, In Computational Learning Theory: Eurocolt ’95, pp.23–37 24 Yoav Freund and Robert E Schapire (1996), Experiments with a new boosting algorithm, In Machine Learning:Proceedings of the Thirteenth International Conference, pp.148–156 25 Yoav Freund and R Schapire (1997), A decision-theoretic generalization of on-line learning and an application to boosting, Journal of Computer and System Sciences, 55(1), pp.119–139 26 William T Freeman., Michal Roth (1995), Orientation Histograms for Hand Gesture Recognition, In Proc, IEEE Intl, Wkshp, on Automatic Face and Gesture Recognition, Zurich