Trên cơ sở đó, em đã chọn hướng đề tài “Nghiên cứu phương pháp nhận dạng mặt người dựa trên PCA-LDA và mạng neural” làm luận văn tốt nghiệp của mình.Bố cục của luận văn bao gồm 3 phần:
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐỖ ĐÌNH LỰC
NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG MẶT NGƯỜI DỰA TRÊN
PCA-LDA VÀ MẠNG NEURAL
Ngành: Công nghệ thông tin
Chuyên ngành: Truyền dữ liệu và mạng máy tính
Mã số: Chuyên ngành đào tạo thí điểm
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS – TS NGÔ QUỐC TẠO
Hà Nội - 2015
Trang 3LỜI CẢM ƠN
Em xin chân thành cảm ơn các thầy cô trong Khoa Công nghệ thông tin, trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội và thầy giáo PGS-TS Ngô Quốc Tạo đã tạo điều kiện cho em được học tập và nghiên cứu để hoàn thành luận văn này
Em cũng xin gửi lời cảm ơn tới các thầy cô, đồng nghiệp trong cơ quan nơi em đang công tác đã tạo điều kiện cho em được học tập, nghiên cứu và hoàn thành luận văn này
Hà Nội, ngày 15 tháng 3 năm 2014
Học viên
Đỗ Đình Lực
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan luận văn ““Nghiên cứu phương pháp nhận dạng mặt người
dựa trên PCA-LDA và mạng neural” này là công trình nghiên cứu của riêng tôi.Các
số liệu sử dụng trong luận văn là trung thực.Các kết quả nghiên cứu được trình bày trong luận văn chưa từng được công bố tại bất kỳ công trình nào khác
Trang 5MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
MỤC LỤC 3
DANH MỤC CÁC TỪ VIẾT TẮT 5
DANH MỤC CÁC BẢNG 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7
MỞ ĐẦU 9
CHƯƠNG ITỔNG QUAN VỀ NHẬN DẠNG MẶT NGƯỜI 11
1.1 Giới thiệu về xử lý ảnh 11
1.1.1 Khái niệm xử lý ảnh số 13
1.1.2 Các ứng dụng của xử lý ảnh số 14
1.1.3 Các bước cơ bản trong xử lý ảnh số 15
1.2 Giới thiệu chung về phân tích ảnh 16
1.2.1 Khái niệm 16
1.2.2 Các ứng dụng của phân tích ảnh 18
1.3 Nhận dạng mặt người 20
1.3.1 Khái niệm nhận dạng mặt người qua ảnh 20
1.3.2 Các ứng dụng của nhận dạng mặt người 24
1.4 Các hướng tiếp cận trong nhận dạng mặt người 25
1.4.1 Trích chọn đặc trưng sử dụng Eigenface 25
1.4.2 Trích chọn đặc trưng sử dụng mô hình Markov ẩn 28
1.4.3 Mẫu nhị phân cục bộ (LBP) 31
1.4.4 Phương pháp phân tích thành phần chính 36
CHƯƠNG 2NHẬN DẠNG KHUÔN MẶT DỰA TRÊN PCA-LDA VÀ MẠNG NƠRON 37
2.1 Phương pháp phân tích thành phần chính (PCA) 37
2.1.1 Cơ sở toán học 39
2.1.2 Kỹ thuật trích chọn đặc trưng PCA 48
2.2 Phương pháp LDA 54
2.3 Phương pháp mạng neural 57
Trang 62.3.1 Giới thiệu mạng nơron 57
2.3.2 Hàm kích hoạt và các quy tắc xác định tín hiệu ra 59
2.3.3 Thuật toán học lan truyền ngược 61
CHƯƠNG 3THỰC NGHIỆM 65
3.1 Thiết kế hệ thống 65
3.1.1 Cơ sở dữ liệu ảnh 65
3.1.2 Sơ đồ hệ thống 66
3.1.3 Môi trường cài đặt 68
3.1.4 Giao diện chương trình 68
3.2 Kiểm thử và đánh giá 71
KẾT LUẬN 76
TÀI LIỆU THAM KHẢO 78
PHỤ LỤC 79
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT LDA (Linear Discriminant Analysis): Phân tích phân lớp tuyến tính
ORL (Olivetti Research Laboratory, Surrey University): Cơ sở dữ liệu ảnh dùng trong luận văn
HMM (Hidden Markov Model): Mô hình Markov ẩn
PCA(Principal Components Analysis): Phân tích thành phần chính
Trang 8DANH MỤC CÁC BẢNG
Bảng 1.3 Các ứng dụng tiêu biểu của nhận dạng mặt người 21
Bảng 2.1 Ví dụ về tính độ lệch chuẩn 40
Bảng 2.2 Tập dữ liệu hai chiều và tính toán hiệp phương sai 42
Bảng 4.1 Các module chính của chương trình 69
Trang 9DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Tổng quan các giai đoạn cơ bản trong xử lý ảnh 15
Hình 1.2: Các kỹ thuật phân tích ảnh 17
Hình 1.4 Mô hình hệ thống nhận dạng mặt người 21
Hình 1.5 Cơ sở dữ liệu ảnh mặt người AT&T (ORL) 23
Hình1.6 Một số hình ảnh cơ sở dữ liệu ảnh mặt người Yale A 24
Hình 1.7 Mô hình Markov cho định vị khuôn mặt: 30
(a) Các vector quan sát; (b) Các trạng thái ẩn 30
Hình 1.8 Ví dụ sự tính toán LBP 31
Hình1.9 Minh họa toán tử LBP mở rộng vớị P và R khác nhau 33
Hình 1.10 Ví dụ LBP8,1 33
Hình 1.11 LBP giống nhau với các độ sáng khác nhau 34
Hình 1.12 Ví dụ mẫu đồng nhất và mẫu không đồng nhất 34
Hình 1.13 58 Mẫu đồng nhất của ( , ) 35
Hình 1.14 Trích rút đặc trưng khuôn mặt bằng LBP 36
Hình 2.1 Ví dụ minh họa PCA 38
Hình 2.2: Một số không gian riêng của cơ sở dữ liệu ảnh ORL 38
Hình 2.3 Minh hoạ hướng của véctơ riêng 47
Hình 2.4 Dữ liệu và đồ thị biểu diễn dữ liệu 49
Hình 2.5 Đồ thị biểu diễn dữ liệu đã chuẩn hóa với các vector riêng 51
Hình 2.6 Ảnh gốc trong cơ sở dữ liệu ORL 53
Hình 2.7 Ảnh sau khi biến đổi theo PCA 54
Hình 2.8 Ví dụ minh họa LDA 55
Hình 2.9 Ảnh sau khi biến đổi theo LDA 57
Hình 2.10 Các thành phần cơ bản của mạng nơron nhân tạo 58
Trang 10Hình 2.11 Một số dạng hàm kích hoạt của nơron 59
Hình 2.12 Mạng nơron l lớp 61
Hình 3.1 Ảnh gốc trong bộ ảnh ORL 65
Hình 3.2 Sơ đồ khối của quá trình huấn luyện 66
Hình 3.3 Ảnh gốc được bổ sung ảnh gương 66
Hình 3.4 Sơ đồ khối của quá trình nhận dạng 68
Hình 3.5 Giao diện chính của chương trình 69
Hình 3.6 Giao diện huấn luyện mạng nơron 70
Hình 3.7 Giao diện nhận dạng 70
Hình 3.8 Kết quả nhận dạng khi thay đổi hình thái khuôn mặt 74
Hình 3.9 Kết quả nhận dạng khi có nhiễu 75
Trang 11MỞ ĐẦU Nhận dạng ảnh đang ngày càng chứng tỏ được vai trò quan trọng củamình và đang được ứng dụng ngày càng rộng rãi trong cuộc sống hiện đại Bên cạnh đó, một lĩnh vực của nhận dạng ảnh là nhận dạng mặt người cũng đang ngày càng được ứng dụng nhiều, đặc biệt là trong các lĩnh vực an ninh Như chúng ta đã biết,khuôn mặt mỗi người có những nét đặc trưng riêng.Nhận ra được những nét đặc trưng đó, có nghĩa là nhận ra được người đó Mặc dù đặc trưng của khuôn mặt không đảm bảo được tính duy nhất như vân tay hay võng mạc mắt, tuy nhiên việc xây dựng một hệ thống nhận dạng mặt đơn giản hơn so với một hệ thống nhận dạng vân tay hay nhận dạng mắt Do đó, trong những trường hợp không thực sự đòi hỏi quá an toàn và chính xác, thì việc xây dựng một hệ thống nhận dạng mặt thay thế cho một hệ thống nhận dạng vân tay hay hệ thống nhận dạng võng mạc mắt là một giải pháp hợp lý Bên cạnh
đó, nhận dạng vân tay và nhận dạng võng mạc đòi hỏi việc thu nhận tín hiệu phải trực tiếp và đòi hỏi độ chính xác cao, mà điều này là không thể trong nhiều trường hợp, đặc biệt là trong khoa học hình sự Vì thế, trong những trường hợp này thì không tồn tại một giải pháp thay thế nào khác cho nhận dạng mặt người
Cóhaiphươngphápnhậndạngphổbiếnhiệnnaylànhận dạng dựa trên đặc trưng hình học của cácphần tử trên khuôn mặt như biển đổi Sóng Wavelet (Gabor Wavelet)vàMạng Nơron (Neural Network),…và nhận dạng dựa trên xét tổng thể toàn khuôn mặt nhưphươngpháp Phân tích thành phần chính (PrincipalComponent Analysis – PCA) phươngpháp Phân tíchphân lớp tuyếntính (Linear Discriminant Analysis – LDA), Kết hợp phươngpháp PCA, LDA vàmạngNơronmanglại hiệuquả nhậndạngcao bởinó hoạt độngổn địnhvàcótínhthíchnghi cao với sự thay đổi về ánh sáng, góc độ của ảnh mặt người
Trên cơ sở đó, em đã chọn hướng đề tài “Nghiên cứu phương pháp nhận dạng
mặt người dựa trên PCA-LDA và mạng neural” làm luận văn tốt nghiệp của mình.Bố
cục của luận văn bao gồm 3 phần:
Chương 1:Tổng quan về nhận dạng mặt người: Giới thiệu tổng quan về ứng dụng của xử lý ảnh trong lĩnh vực nhận dạng mặt người
Chương 2: Nhận dạng mặt người dựa trên PCA-LDA và mạng nơron: Trình bày các phương pháp phân tích thành phần chính(PCA), phân tích phân lớp
Trang 12tuyến tính(LDA) và mạng nơron Xây dựng phương pháp nhận dạng với bước trích chọn đặc trưng bằng PCA-LDA và nhận dạng bằng mạng nơron
Chương 3: Thực nghiệm: Trình bày sơ đồ hệ thống nhận dạng khuôn mặt dựa trên PCA-LDA và mạng nơron, kiểm thử đánh giá hiệu suất của hệ thống và đưa ra hướng phát triển của đề tài
Trang 13CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG MẶT NGƯỜI
1.1 Giới thiệu về xử lý ảnh
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ Nó là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng cho nó
Cùng với ngôn ngữ tự nhiên, hình ảnh đã đóng góp một vai trò hết sức quan trọng trong việc trao đổi thông tin Tính trực quan của hình ảnh đã giúp cho con người hiểu rõ và sâu sắc hơn các thông tin cần thu thập Người ta đã chứng minh được rằng, trong tất cả các kênh thu nhận thông tin của con người thì lượng thông tin thu nhận qua kênh thị giác chiếm khoảng 70% Hình ảnh là kết quả của việc thu nhận và biểu diễn của năng lượng ánh sáng trải dài từ tia gamma (có bước sóng nhỏ) đến sóng radio (có bước sóng lớn) Tuy nhiên, mắt người chỉ cảm nhận được một vùng giới hạn rất nhỏ trong phổ điện từ Ngược lại, máy tính có thể đọc được một vùng rất rộng trong phổ điện từ, từ tia gamma đến sóng radio Nó có thể biểu diễn và xử lý những bức ảnh được sinh ra bởi những nguồn mà con người không thể nhận biết được, như ảnh siêu
âm, ảnh hồng ngoại, ảnh trong vùng tia X, … Do đó xử lý ảnh có một phạm vi ứng dụng tương đối rộng
Xử lý ảnh là một trong những cách tiếp cận phân tích, tổng hợp hình ảnh theo ý tưởng và mục đích của người sử dụng Tuy xử lý ảnh là một trong những khoa học còn tương đối mới so với nhiều ngành kho học khác, song những năm gần đây, xử lý ảnh
và đồ họa đã phát triển một cách mạnh mẽ và đã gặt hái được nhiều thành công góp phần vào sự phát triển chung của ngành công nghệ thông tin
Các phương pháp xử lý ảnh bắt nguồn từ hai ứng dụng: nâng cao chất lượng thông tin hình ảnh đối với mắt người và xử lý số liệu cho máy tự động Một trong những ứng dụng đầu tiên của xử lý ảnh là nâng cao chất lượng ảnh báo truyền qua cáp giữa London và NewYork vào những năm 192x Thiết bị đặc biệt mã hóa hình ảnh (báo), truyền qua cáp và khôi phục lại ở phía thu Vấn đề nâng cao chất lượng hình ảnh lúc đầu có liên quan đến việc lựa chọn quá trình in và phân bố các mức sáng (tông và
độ phân giải của ảnh)
Trang 14Hệ thống đầu tiên (Bartlane) có khả năng mã hóa hình ảnh với 5 mức sáng Khả năng này tăng lên 15 mức vào 1929 Việc nâng cao chất lượng ảnh bằng các phương pháp xử lý để truyền ảnh được nghiên cứu 35 năm sau đó Năm 1964, các bức ảnh chụp mặt trăng được vệ tinh Ranger 7 (Mỹ) truyền về trái đất, được xử lý bằng máy tính để sửa méo (gây ra do camera truyền hình đặt trên vệ tinh ở các góc độ khác nhau) Các kỹ thuật cơ bản cho phép nâng cao chất lượng hình ảnh như làm nổi đường biên và lưu hình ảnh
Từ năm 1964 đến nay, phạm vi xử lý ảnh lớn mạnh không ngừng Các kỹ thuật
xử lý ảnh hiện nay được sử dụng để giải quyết hàng loạt các vấn đề, nhằm nâng cao chất lượng thông tin hình ảnh
Trong y học, các thuật toán máy tính nâng cao độ tương phản, hoặc mã hóa các mức sáng thành các màu để nội suy ảnh X-Quang và các hình ảnh y sinh học dễ dàng.Các nhà địa vật lý sử dụng kỹ thuật tương tự để nghiên cứu các mẫu vật chất từ
vệ tinh.Các thuật toán nâng cao chất lượng ảnh và khôi phục hình ảnh được sử dụng để
xử lý hình ảnh giảm chất lượng Trong thiên văn học, các phương pháp xử lý ảnh nhằm khôi phục hình ảnh bị nhiễu hoặc bị mất do bóng (artifacts) sau khi chụp Trong vật lý và các lĩnh vực có liên quan, kỹ thuật máy tính nâng cao được chất lượng ảnh trong các lĩnh vực như Plamas (có năng lượng cao) và microscopy điện tử Tương tự, người ta đã ứng dụng xử lý ảnh có kết quả tốt trong viễn thám, sinh học, y tế hạt nhân, quân sự, công nghiệp … Nâng cao chất lượng và khôi phục ảnh bị nhiễu là quá trình
xử lý ảnh dùng cho mục đích nội suy của mắt người Lĩnh vực ứng dụng quan trọng thứ hai là xử lý ảnh số gắn liền với việc cảm nhận của máy Trong lĩnh vực thứ hai, các
cố gắng đều tập trung vào các quá trình trích thông tin ảnh và chuyển thành dạng thích hợp cho xử lý máy tính Những vẫn đề tiêu biểu của kỹ thuật xử lý ảnh được ứng dụng nhiều trong thực tế, có thể kể như: tự động nhận dạng đặc trưng, máy nhìn công nghiệp để điều khiển và kiểm tra sản phẩm, nhận dạng mục tiêu quân sự, tự động xử lý vân tay, hiển thị lên màn hình ảnh X-Quang và các mẫu máu, xử lý bằng máy các hình ảnh chụp từ vệ tinh để dự báo thời tiết, nén ảnh để lưu và truyền được nhiều hơn tín hiệu ảnh trong thông tin, máy tính, truyền hình thông thường và truyền hình có độ phân giải cao
Trang 151.1.1 Khái niệm xử lý ảnh số
Xử lý ảnh số là một ngành khoa học nhằm trang bị phương pháp luận, kỹ thuật
để trang bị cho máy tính xử lý ảnh đầu vào trên máy tính với mục tiêu nhận được ảnh kết quả ở đầu ra theo mong muốn của con người… Như vậy xử lý ảnh là một quá trình
từ ảnh thu nhận đầu vào xử lý tăng cường và nâng cao chất lượng ảnh, phân tích ảnh, hiểu ảnh, mã hóa, nén ảnh… cho đến khi thu nhận được ảnh kết quả tốt hơn theo mong muốn của con người Từ đó giúp cho con người có được cách nhìn trực quan hơn và sinh động hơn về hình ảnh Xử lý ảnh số còn là việc sử dụng các thuật toán máy tính
để xử lý các ảnh số dưới sự trợ giúp của máy tính
Xử lý ảnh số có thể chia làm bốn lĩnh vực, tùy thuộc vào loại công việc Đó là cải thiện và nâng cao chất lượng ảnh, phục hồi ảnh, mã hóa ảnh và hiểu ảnh Trong cải thiện và nâng cao chất lượng ảnh, ảnh được xử lý để xem, như trong truyền hình, hoặc
là được xử lý trước để trợ giúp hoạt động của máy móc, như trong nhận dạng đối tượng Trong phục hồi ảnh, ảnh bị xuống cấp một số trường hợp, chẳng hạn bị nhòe,
và mục đích là để giảm bớt hoặc loại bỏ hẳn ảnh hưởng sự xuống cấp Phục hồi ảnh có liên quan mật thiết đến cải thiện ảnh Khi ảnh xuống cấp, việc cải thiện ảnh thường đem lại kết quả làm giảm sự xuống cấp Tuy nhiên có một số sự khác nhau giữa phục hồi ảnh và cải thiện ảnh Trong phục hồi ảnh, một số ảnh lý tưởng thường bị xuống cấp
và mục đích phục hồi là tạo ra ảnh sau xử lý giống như ảnh ban đầu Trong việc cải thiện ảnh, mục đích cải thiện ảnh là làm cho ảnh sau khi xử lý trong đẹp hơn ảnh chưa
xử lý Để minh học sự khác nhau này, lưu ý rằng một ảnh gốc chưa xuống cấp không thể phục chế hơn nữa nhưng vẫn có thể được cải thiện bằng cách tăng độ nét Trong
mã hóa ảnh, mục đích là biểu diễn với một số ít bit nhất trong điều kiện chất lượng ảnh
và độ rõ chấp nhận được cho từng ứng dụng cụ thể, chẳng hạn như hội nghị video Mã hóa ảnh liên quan đến cải thiện ảnh và phục hồi ảnh Nếu có thể cải tiến dáng vẻ bề ngoài của ảnh được phục hồi, hoặc làm giảm sự xuống cấp do các nguồn nhiễu, như nhiễu lượng tử mà thuật toán mã hóa ảnh gây ra, thì ta có thể làm giảm số lượng bit cần thiết để đại diện ảnh ở một mức chất lượng và độ rõ chấp nhận được Trong việc hiểu (understanding) ảnh, đầu vào là ảnh, mục đích là diễn đạt nội dung ảnh bằng một
hệ ký hiệu nào đó Những ứng dụng của “hiểu ảnh” bao gồm thị giác máy tính, kỹ thuật rô-bốt và nhận dạng mục tiêu.“Hiểu ảnh” khác với ba lĩnh vực khác của xử lý
Trang 16ảnh ở một khía cạnh chính Trong cải tiến, phục hồi và mã hóa ảnh cả đầu vào và đầu
ra đều là ảnh và khâu xử lý tín hiệu là phần then chốt của các hệ thống đã thành công trên các lĩnh vực đó Trong “hiểu ảnh”, đầu vào là ảnh, nhưng đầu ra thường là một biểu diễn bằng ký hiệu nội dung của ảnh đầu vào Sự phát triển thành công của các hệ thống trong lĩnh vực này cần đến cả xử lý tín hiệu và những khái niệm trí tuệ nhân tạo Trong hệ “hiểu ảnh” điển hình, xử lý tín hiệu được dùng cho công việc xử lý mức thấp như làm giảm sự xuống cấp và trích chọn các đường biên ảnh hoặc các đặc tính khác của ảnh, còn trí tuệ nhân tạo được dùng cho những công việc xử lý mức cao như thao tác kí hiệu và quản lý cơ sở tri thức
1.1.2 Các ứng dụng của xử lý ảnh số
Xử lý ảnh có nhiều ứng dụng trong thực tế.Một trong những ứng dụng sớm nhất
là xử lý ảnh từ nhiệm vụ Ranger 7 tại phòng thí nghiệm JetPulsion vào những năm đầu của thập kỷ 60 Hệ thống chụp hình gắn trên tàu vũ trụ có một số hạn chế về kích thước và trọng lượng, do đó ảnh nhận được bị giảm chất lượng như bị mờ, méo hình học và nhiễu nền Các ảnh đó được xử lý thành công nhờ máy tính số Hình ảnh của mặt trăng và sao hỏa mà chúng ta thấy trong tất cả các tạp chí đều được xử lý bằng những máy tính số Ngày nay, hầu hết các thông tin ảnh đều được chuyển sang dạng ảnh số Vì vậy, trong gần như tất cả các lĩnh vực của các ngành kỹ thuật đều có ít nhiều liên quan đến ảnh số và sử dụng kỹ thuật xử lý ảnh số.Ứng dụng của xử lý ảnh
có khả năng tác động mạnh mẽ nhất đến cuộc sống của chúng ta là lĩnh vực y tế Soi chụp ảnh bằng máy tính dựa trên cơ sở định lý cắt lớp (project slice) được dùng thường xuyên trong xét nghiệm lâm sàng, ví dụ phát hiện và nhận dạng u não Những ứng dụng y khoa khác của xử lý ảnh gồm cải thiện ảnh X-Quang và nhận dạng đường biênmạch máu từ những ảnh chụp bằng tia X
Có những ứng dụng khác gần gũi hơn với cuộc sống gia đình là cải tiến ảnh tivi Hình ảnh trên màn hình tivi có các khuyết tật do độ phân giải hạn chế, bị rung rinh,nhiều nền và trượt hình do đan dòng ở những mức độ khác nhau Xử lý ảnh số có tác động quyết định đến việc cải thiện chất lượng hình ảnh của những hệ truyền hình hiện tại và làm phát triển những hệ truyền hình mới có độ phân giải cao Một vấn đề nữa của truyền thông video như hội nghị video, điện thoại video là cần có dải tần rộng.Việc mã hóa thẳng chương trình video chất lượng yêu cầu đến 100 triệu bit/giây
Trang 17Nếu hy sinh một phần chất lượng và dùng các sơ đồ mã hóa ảnh số thì có thể đưa ra thị trường những hệ truyền hình chất lượng đủ rõ với nhịp bit chỉ dưới 100 nghìn bit/giây
Người máy càng ngày càng đóng vai trò quan trọng trong công nghiệp và gia đình Chúng sẽ thực hiện những công việc rất nhàm chán hoặc nguy hiểm và những công việc mà tốc độ và chính xác vượt quá khả năng của con người Khi người máy trở nên tinh vi hơn, thị giác máy tính sẽ đóng vai trò ngày càng quan trọng Người ta
sẽ đòi hỏi người máy không những phát hiện và nhận dạng các bộ phận công nghiệp,
mà còn “hiểu” được những gì chúng “thấy” và đưa ra những hành động phù hợp Xử
lý ảnh số có tác động rất lớn đến thị giác máy tính
Ngoài những ứng dụng trên thì còn bao gồm các ứng dụng trong các lĩnh vực như điện tử gia đình, thiên văn học, sinh vật học, vật lý, nông nghiệp, địa lý, nhân chủng học và nhiều lĩnh vực khác Khả năng nhìn và nghe thấy là hai phương tiện quan trọng nhất để con người nhận thức thế giới bên ngoài, do vậy không có gì đáng ngạc nhiên khi mà xử lý ảnh số có nhiều khả năng ứng dụng, không chỉ trong khoa học kỹ thuật mà còn cả trong mọi hoạt động khác của con người
1.1.3 Các bước cơ bản trong xử lý ảnh số
Đầu tiên, ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp ảnh) Trước đây, ảnh thu qua camera là các ảnh tương tự (loại camera ống kiểu CCIR) Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ camera, sau đó nó được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo Mặt khác, ảnh cũng có thể tiếp nhận từ vệ tinh; có thể quét từ ảnh chụp bằng máy quét ảnh.Hình 1.5 dưới đây mô tả các bước cơ bản trong xử lý ảnh
Hình 1.1 Tổng quan các giai đoạn cơ bản trong xử lý ảnh
Trang 18Sơ đồ này bao gồm các thành phần như sau:
Thu nhận ảnh: Ảnh có thể được thu nhận trong thế giới thực qua máy chụp
hình, từ tranh ảnh thông qua máy quét hoặc từ vệ tinh qua các bộ cảm biến bằng tín hiệu số hoặc tín hiệu tương tự Ảnh có thể nhận qua camera màu hoặc đen trắng Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hóa (như loại CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh
Số hóa ảnh: Tất cả các thông tin được lưu trong máy tính đều ở dạng số Vì
vậy, ảnh sau khi thu nhận được từ các thiết bị khác cần phải được số hóa để lưu trữ hoặc có thể dùng để xử lý tiếp
Tiền xử lý: Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa
vào bộ tiền xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn
Phân tích ảnh: Phân tích ảnh là một quá trình gồm nhiều giai đoạn nhỏ hơn: tăng
cường ảnh để nâng cao chất lượng ảnh và khắc phục những thiếu sót trong quá trình thu nhận ảnh và số hóa ảnh như nhiễu, méo … làm nổi bật các đặc trưng chính của ảnh đảm bảo cho ảnh gần giống với hình ảnh thật nhất Tiếp theo là phát hiện và trích chọn các đặc trưng như biên, màu, kết cấu … Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn phân tích, nhận dạng ảnh Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh.Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này
Đối sánh, nhận dạng ảnh: Là quá trình đối sánh, phân lớp ảnh, nhận biết được
tên gọi của đối tượng Kết quả của quá trình này phục vụ cho các mục đích và các ứng dụng khác nhau
1.2Giới thiệu chung về phân tích ảnh
1.2.1 Khái niệm
Mục tiêu lớn nhất của phần lớn các ứng dụng xử lý ảnh là phân táchđược những đặc trưng quan trọng từ dữ liệu ảnh đưa vào, để từ đó có thể mô tả, thể hiện cũng như hiểu ảnh Ví dụ, một hệ thống ảo có khả năng phân biệt các phần khác nhau của một dây chuyền lắp ráp và đưa ra các đặc trưng của nó, ví dụ như kích cỡ, số lượng các
Trang 19khiếm khuyết(hole).Những hệ thống phức tạp hơn còn có khả năng diễn giải các kết quả phân tích, mô tả các đối tượng khác nhau cũng như mối quan hệ của chúng trong một bức ảnh
Phân tích ảnh khác với một số chức năng xử lý ảnh khác như khôi phục ảnh (restoration), cải thiện ảnh (enhancement), mã hoá (coding) Các chức năng này biến đổi ảnh đầu vào thành một ảnh đầu ra kháctheo các mục đích khác nhau Còn đầu ra của một hệ phân tích ảnh là rút ra các đặc trưng của các đối tượng bên trong ảnh để mô
tả, thể hiện ảnh
Lĩnh vực phân tích ảnh bao gồm các công đoạn: trích chọn đặc trưng (features extraction), phân vùng ảnh (segmentation), phân loại (classification) Mỗi công đoạn lại gồm một số kỹ thuật và công nghệ phân tích xử lý.Các kỹ thuật được thể hiện trong sơ
đồ 1.2
Hình1.2: Các kỹ thuật phân tích ảnh
- Trích chọn đặc trưng gồm có trích chọn các đặc trưng về không gian (spatial features), các đặc trưng biến đổi đổi (transform features), biên (edge), các đặc trưng về hình dạng (shape feature), các tham số thống kê, kết cấu bề mặt
- Phân vùng gồm có kỹ thuật lấy ngưỡng (thresholding), phát hiện đường bao (boundary detection), kỹ thuật cây tứ phân (quad-trees)
- Phân loại gồm kỹ thuật phân đoạn(clustering), cây quyết định (decision trees)
Trích chọn đặc trưng
Đặc trưng không gian
Đặc trưng biến đổi
Biên và đường bao
Trang 201.2.2Các ứng dụng của phân tích ảnh
Các hệ thống computer vision dùng để phân tích ảnh được áp dụng rộng rãi trong mọi mặt của đời sống xã hội Có thể là những công việc hàng ngày như các hoạt động rút tiền gửi ngân hàng, thanh toán tiền khi mua hàng cho đến những hệ thống định vị hướng dẫn bằng vô tuyến, các hệ thống dự báo khí tượng
Một hệ thống nhận dạng mẫu tự có thể nhận biết được các ký tự cũng như các
ký hiệu cho trước theo một tiêu chuẩn nào đó tuỳ vào từng ứng dụng cụ thể Từ một ảnh đầu vào cụ thể là những nhãn thư, hoá đơn, văn bản, tài liệu, …, hệ thống sẽ phân tích và đưa ra nội dung tương ứng chứa ở bên trong các tài liệu đó Các hệ nhận dạng mẫu tự có thể thấy ở nhiều nơi như trong các hệ thống sắp xếp thư tự động, các máy đọc nhãn hiệu, các máy kiểm tra thẻ ngân hàng, các hệ thống nhận dạng văn bản text tự động Do đó các công việc truyền thống làm bằng tay nay đã được chuyển sang tự động, góp phần giảm bớt thời gian lao động của con người, đồng thời nâng cao hiệu quả làm việc
Trong y học, các ứng dụng của phân tích ảnh được áp dụng chủ yếu trong các lĩnh vực chẩn đoán hình ảnh Với sự trợ giúp của các hệ computer vision,người ta có thể phát hiện ra các khối u trong cơ thể, tiến hành đo đạc và tính toán kích thước, hình dạng các cơ quan nội tạng của con người, cũng như đếm số lượng các tế bào máu trong
cơ thể người Tất cả những công việc đó, đều trải qua một trình tự, đó là chụp ảnh - phân tích ảnh - hiểu ảnh - chẩn đoán hình ảnh.Nhờ có sự ứng dụng các hệ computer vision vào trong y học đã đem lại những thành tựu lớn trong việc chẩn đoán bệnh
Trong công nghiệp, các ứng dụng của phân tích ảnh cũng được áp dụng một cách rộng rãi Đó là các ứng dụng trong việc phát hiện và kiểm tra lỗi sản phẩm, và đặc biệt là trong lĩnh vực robot tự động Các robot tự động được sử dụng ngày càng rộng rãi trong công nghiệp nhằm thay thế con người Với sự trợ giúp của các hệ thống computer vision các robot có thể nhận biết được không gian xung quanh Hệ thống computer vision sẽ truyền những tín hiệu phản hồi về cho chương trình xử lý của robot
và từ đó robot sẽ được điều khiển một cách thích hợp với hoàn cảnh hiện thời
Trong lĩnh vực quân sự, hàng hải và hàng không, các hệ thống computer vision đóng một vai trò to lớn Từ những bức ảnh chụp được từ vệ tinh, người ta có thể tiến hành phân tích, rồi điều khiển cho các tên lửa hoặc máy bay quân sự đánh trúng những
Trang 21mục tiêu đã đề ra với một sai số rất nhỏ Cũng vớinhững bức ảnh chụp từ vệ tinh, người
ta có thể tiến hành công tác hướng dẫn tàu thuyền qua lại trên biển tránh được những khu vực nguy hiểm, hay điều khiển máy bay hạ cánh xuống những khu vực an toàn Với những ứng dụng quan trọng này, các hệ computer vision đang được ứng dụng ngày càng rộng rãi
Trang 221.3 Nhận dạng mặt người
1.3.1 Khái niệm nhận dạng mặt người qua ảnh
Vấn đề nhận dạng mặt người có thể trình bày một cách tổng quan như sau: Cho một ảnh tĩnh hay một đoạn video, hãy phát hiện và nhận ra những người trong đoạn video hay trong ảnh đó dựa trên một tập cho trước các dữ liệu về các mặt người đã biết Giải pháp cho vấn đề này bao gồm 4 vấn đề: phát hiện các mặt người từ ảnh (video), trích chọn đặc trưng từ vùng ảnh, nhận dạng ảnh và xác minh Với quá trình nhận dạng, đầu vào là một ảnh chưa biết, sau quá trình nhận dạng, hệ thống đưa ra định danh về người trong ảnh, và trong quá trình xác minh, hệ thống phải được xác định rằng việc nhận dạng đấy là chính xác hay không Về mặt tổng quát, mỗi phương pháp nhận dạng mặt người đều có thể được chia thành 2 module: Module phát hiện mặt người trong ảnh và module nhận dạng mặt người
Được khởi đầu vào những năm70, nhận dạng mặt người là một trong những ứng dụng của phân tích và xử lý ảnh đạt được nhiều thành tựu nhất Trong thời gian gần đây, do sự phát triển như vũ bão của khoa học máy tính và yêu cầu thực tiễn trong các lĩnh vực kinh tế, luật pháp, …, vấn đề nhận dạng mặt người đang được đặc biệt chú ý Một loạt các hội thảo được tổ chức bàn về vấn đề này như AFGR, AVBPA, và những đánh giá mang tính hệ thống về các kỹ thuật nhận dạng mặt người (Face Recognition Techniques – FRT), bao gồm phương pháp FERET và XM2VTS
Nhu cầu cấp thiết về các hệ thống thân thiện với người sử dụng đã đảm bảo cho các nghiên cứu về sau không bị lãng phí trong hàng loạt những nghiên cứu đã được thực thi trước đó Hiện nay, để rút tiền từ ATM ta phải nhập PIN, hay để truy cập một máy tính ta phải nhập mật khẩu hay hàng loạt phương pháp khác để truy cập vào Internet Hiện đã có hàng loạt các phương pháp nhận dạng có độ tin cậy cao dựa vào các kỹ thuật nhân trắc học, ví dụ như kỹ thuật phát hiện vân tay hay kỹ thuật quét nhận dạng võng mạc Tuy nhiên, những hệ thống này có chung nhược điểm là phức tạp và yêu cầu cần có sự phối hợp của nhiều người cùng xử lý Bên cạnh đó, một hệ thống nhận dạng dựa trên kỹ thuật phân tích ảnh mặt nhìn thẳng của một người sẽ đơn giản hơn nhiều, không đòi hỏi có nhiều người cùng xử lý và cũng không đòi hỏi các kiến thức chuyên môn sâu.Chính vì thế, hệ thống nhận dạng người dựa trên kỹ thuật phân
Trang 23tích ảnh mặt đang ngày càng được ứng dụng rộng rãi Các ứng dụng của nhận dạng người dựa trên mặt được thể hiện trong bảng 1.3:
Nhân trắc học
Driver’s licences, Entitlement Programs Immigration, National ID, Passports, Voter Registration Welfare
An toàn thông tin
Desktop Logon ( Windows 95, Windows NT) Application Security, Database Security, File Encryption Intranet Security, Internet Access, Medical Records Secure Trading Terminals
Access Control Facility Access, Vehicular Access
Bảng 1.3Các ứng dụng tiêu biểu của nhận dạng mặt người
Một hệ thống nhận dạng mặt người điển hình bao gồm các thành phần chính như hình 1.4
Hình 1.4 Mô hình hệ thống nhận dạng mặt người
Nhận dạng mặt người (Face recognition) được nghiên cứu từ nhưng năm 1980,
là một lĩnh vực nghiên cứu của ngành thị giác máy tính (Computer Vision), và cũng được xem là một lĩnh vực nghiên cứu của ngành sinh trắc học (Biometrics) tương tự như nhận dạng vân tay –Fingerprint recognition, hay nhận dạng mống mắt –Iris
Ảnh mặt
người
Trích chọn đặc trưng
Nhận dạng mặt người
Thông tin người được nhận dạng
Trang 24recognition… Trong khi nhận dạng vân tay và mống mắt có thể áp dụng trên thực tế một cách rộng rãi thì nhận dạng mặt người vẫn còn nhiều thách thức.So với nhận dạng vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn và ít đòi hỏi sự tương tác có kiểm soát hơn Bài toán nhận dạng mặt người còn nhiều thách thức nên hàng năm trong & ngoài nước vẫn có nhiều nghiên cứu về các phương pháp nhận dạng mặt người
Nhận dạng khuôn mặt là một nhiệm vụ dễ dàng đối với con người Thí nghiệm trong [9] đã chỉ ra, ngay cả trẻ sơ sinh 1-3 ngày tuổi có thể phân biệt khuôn mặt Nhưng làm thế nào với một máy tính? Cho đến nay chúng ta biết rất ít về nhận dạng con người Có phảiđặc điểm bên trong (mắt, mũi, miệng) hoặc các đặc điểm bên ngoài (hình dạng đầu, chân tóc) được sử dụng cho một nhận dạng khuôn mặt Bộ não con người phân tích một hình ảnh và và mã hóa như thế nào? Theo nghiên cứu được bởi David Hubel và Torsten Wiesel , rằng não của chúng ta có tế bào thần kinh chuyên biệt phản ứng với từng hoàn cảnh cụ thể, chẳng hạn như đường, cạnh, góc độ hoặc chuyển động Vì chúng ta không nhìn thấy thế giới như những mảnh phân tán, vỏ não của chúng ta bằng cách nào đó phải kết hợp các nguồn thông tin khác nhau vào các mẫu hữu ích Nhận diện khuôn mặt tách ra những đặc điểm có ý nghĩa từ một hình ảnh, đưa chúng vào một sự biểu diễn hữu ích và thực hiện một số phân loại
Để thử nghiệm phương pháp chúng ta cần có một cơ sở dữ liệu ảnh mẫu Có ba
cơ sở dữ liệu ảnh mẫu phổ biến là:
Cơ sở dữ liệu AT&T (còn gọi là cơ sở dữ liệu ORL): Nó gồm 400 ảnh của 40 người, mỗi người có 10 ảnh với các biểu hiện (nhắm/mở mắt, cười/không cười) và điều kiệu về hướng, ánh sáng khác nhau, các chi tiết trên khuôn mặt (có kính/không có kính) Cơ sở dữ liệu AT&T được sử dụng trong luận văn này
Trang 25Hình1.5 Cơ s Cơ sở dữ liệu ảnh mặt người AT&T (ORL)
Trang 26 Cơ sở dữ liệu Yale A gồm 15 ng
xám, có kích thước 320x243 px Mỗi ng
hiện trong điều kiện ánh sáng thay đổi (trực diện, ánh sáng b
phải), nét mặt (vui vẻ, buồn ngủ, b
kính/không có kính Cơ sở dữ liệu Yale đ
Hình1.6Một số
Cơ sở dữ liệu Yale B, đ
2414 hình ảnh có 38 người khác nhau Trọng tâm c
Hệ thống phát hiện tội phạm: camera đ
như: siêu thị, nhà sách, trạm xe bus, sân bay… Khi phát hiện đ
các đối tượng là tội phạm, hệ thống sẽ gửi thông điệp về cho trung tâm xử lý
Hệ thốngtheo dõi nh
nhân viên và chấm công
ở dữ liệu Yale A gồm 15 người (14 nam và 1 nữ), các ảnh đều l
ớc 320x243 px Mỗi người có 11 hình ảnh Dữ liệu mỗi ng
ện trong điều kiện ánh sáng thay đổi (trực diện, ánh sáng bên trái, ánh sáng bên
ồn ngủ, bình thường, buồn, ngạc nhiên, nháy m
ở dữ liệu Yale được sử dụng trong luận văn này
ố hình ảnh cơ sở dữ liệu ảnh mặt người Yale A
ở dữ liệu Yale B, được gọi là mở rộng của cơ sở dữ liệu Yale
ời khác nhau Trọng tâm cơ sở dữ liệu ảnh n
ủa nhận dạng mặt người
ận dạng khuôn mặt có thể áp dụng rộng rãi trong nhi
ực tế khác nhau Đó chính là lý do mà bài toán này hấp dẫn rất nhiều nhóm nghi
ài Các ứng dụng liên quan đến nhận dạng mặt ngư
ệ thống phát hiện tội phạm: camera được đặt tại một số điểm công cộng
ạm xe bus, sân bay… Khi phát hiện được sự xuất hiện của
ội phạm, hệ thống sẽ gửi thông điệp về cho trung tâm xử lý
õi nhận sự trong một đơn vị: giám sát giờ ra v
ữ), các ảnh đều là ảnh ảnh Dữ liệu mỗi người thực
ên trái, ánh sáng bên
ên, nháy mắt) và có
ày
i Yale A
ở dữ liệu Yale A Nó gồm
ở dữ liệu ảnh này là thay đổi
ãi trong nhiều ứng dụng
ấp dẫn rất nhiều nhóm nghiên
ười chính vì thế
ợc đặt tại một số điểm công cộng
ợc sự xuất hiện của
ội phạm, hệ thống sẽ gửi thông điệp về cho trung tâm xử lý
ị: giám sát giờ ra vào của từng
Trang 27 Hệ thống giao tiếp người máy: thay thế việc tương tác giữa người và máy theo cách truyền thống như: bàn phím, chuột…Thay vào đó là sử dụng các giao tiếp trực quan: biểu cảm khuôn mặt, dấu hiệu, cử chỉ bằng tay
Hệ thống tìm kiếm thông tin trên ảnh, video dựa trên nội dung
Các hệ thống bảo mật dựa trên thông tin sinh trắc học: mặt người, vân tay,…thay vì xác nhận mật khẩu, khóa,…
Máy rút tiền nhận dạng khuôn mặt
1.4 Các hướng tiếp cận trong nhận dạng mặt người
Có hai hướng tiếp cận chính làm hạt nhân của các kỹ thuật phân tích đặc trưng mặt người: hướng tiếp cận hình học và hướng tiếp cận hình ảnh
Hướng tiếp cận hình học sử dụng việc ánh xạ không gian các đặc trưng mặt
người Mặt người được phân loại theo khoảng cách hình học, theo đường bao và theo các góc giữa các điểm
Hướng tiếp cận hình ảnh bao gồm việc xây dựng các mẫu từ những đặc
trưng mặt người Mẫucủa các đặc trưng nổi bật, hoặc thậm chí là toàn khuôn mặt được thiết lập, việc nhận dạng được thực hiệnbằng cách duyệt các khuôn mặt rồi tìm mặt nào khớp nhất với mẫu
Hiện nay các hệ thống nhận dạng mặt người vẫn đang tiếp tục được phát triển Dưới đây là một số phương pháp trích chọn đặc trưng:
Thuật toán Eigenface rất phổ biến và được sử dụng rộng rãi do sựđơn giản và
hiệu quả tính toán Thuật toán sử dụng cáchtiếp cận lý thuyết thông tin trong việc mã hóa các ảnh mặt người và xác địnhcác vector riêng tương ứng với giá trị riêng lớnnhất của ma trận hiệp phương sai của ảnh Sau đó, đối với mỗi nhómảnh của một người, ta
Trang 28tính vector trung bình, một ngưỡng sẽ được chọnđể xác định khoảng cách chấp nhận được cựcđạitừ một ảnh đến nhómảnhgiúp nhận dạng những ảnh mới
Dưới góc độ lý thuyết thông tin, để nhận dạng mặt, ta phải tách được các thông tin thích hợp trong một ảnh mặt, mã hoá chúng, và tiến hành so sánh dữ liệu đã mã hoá với các ảnh mặt đã mã hoá khác trong cơ sở dữ liệu Một phương pháp đơn giản để tách các thông tin chứa trong một ảnh mặt là làm thế nào để phát hiện được sự khác biệt trong một tập hợp các ảnh mặt, độc lập với mọi đặc trưng, và sử dụng thông tin này để thực hiện mã hoá và so sánh giữa các mặt
Xét dưới góc độ toán học, để nhận dạng, ta phải tìm được các thành phần chính của sự phân bố các mặt, tức là các vector riêng của ma trận hiệp phương sai của các tập hợp các ảnh mặt, trong đó mỗi ảnh được coi như một vector trong không gian nhiều chiều Các vector này được sắp xếp có thứ tự, và mỗi vector đại diện cho mộttỉ
lệ khác biệt giữa các ảnh mặt
Những vector riêng này có thể được xem như là một tập hợp các đặc trưng, tạo nên các sự khác biệt giữa các ảnh mặt Mỗi vector riêng được biểu diễn thành một ảnh gọi là eigenface Các ảnh mặt được xây dựng lại từ các vector riêng bằng phép kết hợp tuyến tính giữa các eigenface Để khôi phục lại những ảnh mặt này, ta chỉ cần sử dụng một số vector riêng lớn nhất, tức là những vector riêng ứng với những giá trị riêng lớn nhất Với M vector riêng lớn nhất, ta có thể tạo ra được một không gian con M chiều
có khả năng mô tả được tất cả các mặt trong cơ sở dữ liệu
Quá trình trích chon đặc trưng sử dụng Eigenface có thể được mô tả trong một
số bước như sau:
Bước khởi tạo:
- Nhập tập các ảnh mặt ban đầu làm cơ sở dữ liệu
- Tính các eigenface từ cơ sở dữ liệu, chỉ giữ lại M eigenface tương ứng với M giá trị riêng lớn nhất M ảnh này được gọi là không gian mặt (face space) Nếu thêm vào cơ sở dữ liệu mộtmặt mới, quá trình tính toán các eigenface sẽ được thực hiện lại
- Tính sự phân bố trong không gian M chiều này của các mặt bằng phép chiếu lên không gian mặt
Trang 29Tính toán các Eigenface:
Cho ảnh vào đã mức xám I(x,y) kích thước N x N Với mỗi ảnh kích thước N x
N, có thể được xem như một vector kích thước N2, tức là một điểm trong một không gian N2 chiều
Các ảnh mặt, như đã trình bày, sẽ không phân bố ngẫu nhiên trong không gian
N2 chiều này, mà sẽ tập trung tại một số điểm, và do đó có thể mô tả không gian các ảnh mặt này bởi một không gian con có số chiều nhỏ hơn rất nhiều Ý tưởng chính sử dụng phương pháp phân tíchthành phần chính (phép biến đổi Karhunen-Loeve mở rộng) là
để tìm các vector tốt nhất đại diện cho sự phân bố các ảnh mặt trong toàn bộ không gian ảnh mặt Những vector này sẽ tạo thành một không gian các ảnh mặt, là không gian mặt (face space) Mỗi vector có độ dài N2 và được tạo thành bởi sự kết hợp tuyến tính của các ảnh đầu vào Bởi vị những vector này là các vector riêng của ma trận hiệp phương sai các ảnh đầu vào và những vector này khi biểu diễn tương tự như các mặt, nên chúng được đặt tên là các eigenface
Gọi các ảnh mặt đầu vào là 1,2,…,N Giá trị trung bình của các ảnh được tính bởi ảnh trung bình M
k k
1
.Khoảng cách từ mỗi ảnh tới ảnh trung bình là
i =i - Phép phân tích các thành phần chính sau đó được áp dụng trên không gian
tạo bởi các vector này, tìm ra M vector trực giao u n biểu diễn sự phân bố của dữ liệu
Vector thứ k, u k, được chọn sao cho:
0,
kl nÕu
1,
lk k
Với A = [12 … M] Tuy nhiên, ma trận A là ma trận vuông kích thước N2 x
N2, do đó việc tính các vector riêng và giá trị riêng của ma trận này là một điều cực kỳ
Trang 30phức tạp và tốn kém Do đó, ta sẽ tìm phương pháp tính các giá trị này một cách đơn giản hơn
Nếu số điểm dữ liệu trong không gian ảnh mặt là nhỏ hơn nhiều so với số chiều của không gian (M <<N2), thì sẽ chỉ có M–1 vector riêng có nghĩa chứ không phải N2(Những vector riêng còn lại là tương ứng với các giá trị riêng = 0) Như vậy ta có thể giải bài toán tìm các vector riêng và trị riêng của ma trận N2 x N2, bằng cách xử lý với
ma trận M x M., với M << N2
Gọi vi và I lần lượt là vector riêng và trị riêng của ma trận AT.A, ta có:
i i i
T
v Av
Nhân 2 vế với A, ta có:
i i i T
Av Av
Như vậy, Avi là vector riêng của ma trận C = A.AT, tương ứng với trị riêng i
Và để tìm vector riêng của C, ta chỉ cần tìm các M vector riêng vl của ma trận L =
AT.A Từ những vector này, ta xây dựng các eigenface ul:
u
1
Và như thế, độ phức tạp tính toán đã được giảm đi rất nhiều, từ N2 xuống còn M
1.4.2 Trích chọn đặc trưng sử dụng mô hình Markov ẩn
Mô hình Markov ẩn phân loại một đặc trưng mặt người bằng tính chất của
chuỗi Markov Một dãy ngẫu nhiên các biến lấy trên các giá trị điểmảnh tương ứng
tạo nên chuỗi Markov, nếu xác suất để hệ thống đạt trạng thái x n+1 tại thời điểm n+1 chỉ phụ thuộc vào xác suất để hệ thống đạt trạng thái x n tại thời điểm n Trong một
chuỗi Markov, việc chuyển hệ thống từ trạng thái này sang trạng thái khác tương ứng với một xác suất nàođó, nhưng kết quả của một ký hiệu ra lại xác định được trước Như vậy, kết quả là một phân bố xác suất của tất cả các ký hiệu ra tại mỗi trạng thái
và kết quả này được dùngđể so sánh giữa hai khuônmặt
Trong sự phát triển của một HMM cho bài toán nhận dạng khuôn mặt, số các trạng thái ẩn đầu tiên cần được quyết định để thiết lập một mô hình, sau đó một trạng thái ẩn có thể huấn luyện HMM để học xác suất chuyến hóa giữa các trạng thái từ các
Trang 31ví dụ trong mỗi ví dụ được biểu diễn như là một chuỗi quan sát Mục đích huấn luyện một HMM là làm tối đa xác suất quan sát huấn luyện dữ liệu bằng cách điều chỉnh các tham số trong một HMM với phương pháp phân đoạn chuẩn Viterbi và các thuật toán Baum-Welch Sau khi HMM được huấn luyện, xác suất đầu ra của một quan sát xác định được lớp mà nó thuộc vào
Bằng trực giác, một ảnh khuôn mặt có thể được phân chia thành các vùng khác nhau ví dụ như trán, mắt, mũi, miệng và cằm Một ảnh khuôn mặt có thể được nhận dạng bởi một tiến trình mà các vùng đó được quan sát theo một thứ tự thích hợp(từ trên xuống dưới, từ trái qua phải) Thay vì dựa vào sự liên kết xác đáng như một đối sánh mẫu hay các phương pháp dựa trên cơ sở diện mạo(ở đó các đặc trưng khuôn mặt như mắt và mũi cần được sắp thẳng hàng về các điểm tham chiếu), cách tiếp cận này
cố gắng liên kết các vùng thuộc khuôn mặt với các trạng thái của HMM mật độ liên tục Các phương pháp dựa trên cơ sở HMM thường xem xét một mẫu khuôn mặt như một chuỗi các vector quan sát, ở đó mỗi vector là một mảng pixel, được thể hiện trong hình 1.7a Với các mẫu khuôn mặt, các biên giữa các mảng pixel được biểu diễn bởi phép biến đổi xác suất giữa các trạng thái, như thể hiện trong hình 1.7b, và dữ liệu ảnh trong phạm vi một vùng được mô hình hóa bởi phân phối Gaussian nhiều biến thể Một chuỗi quan sát bao gồm tất cả các giá trị cường độ từ mỗi khối Các trạng thái đầu
ra tương ứng với các lớp mà các quan sát phụ thuộc vào Sau khi HMM được huấn luyện, xác suất đầu ra của một quan sát xác định lớp mà nó phụ thuộc vào Các HMM cũng được áp dụng cả nhận dạng và khoanh vùng khuôn mặt
Samaria đã thể hiện các trạng thái của HMM, ông ta đã huấn luyện các tương ứng tới các vùng thuộckhuôn mặt Nói cách khác, mỗi trạng thái là nguyên nhân gây ra biểu thị đặc điểm các vector quan sát vùng trán và các trạng thái khác là nguyên nhân gây ra biểu thị đặc điểm các vector quan sát mắt Để định vị khuôn mặt, một HMM được huấn luyện cho một mô hình tổng quát của các khuôn mặt người từ một tập ảnh lớn khuôn mặt Nếu khả năng xảy ra khuôn mặt thu được cho mỗi mẫu hình chữ nhật trong ảnh mà lớn hơn ngưỡng, thì khuôn mặt được định vị
Samaria và Young đã áp dụng các HMM một chiều và giả hai chiều để trích chọn đặc trưng khuôn mặt và nhận dạng khuôn mặt Các HMM của họ khai thác cấu trúc của một khuôn mặt để bắt tuân theo các ràng buộc trên các phép biến đổi trạng
Trang 32thái Từ các vùng khuôn mặt quan trọng như tóc, trán, mắt mũi và miệngxuất hiện theo
tự nhiên từ đến cuối, mỗi vùng đó được ấn định tới một trạng thái trong HMM một chiều liên tục Hình 1.7b chỉ ra 5 trạng thái ẩn.Để huấn luyện, mỗi ảnh được phân đoạn giống nhau, từ đầu đến cuối thành 5 trạng thái (mỗi ảnh được phân thành 5 vùng có kích thước bằng nhau và không chờm lên nhau).Đoạn giống nhau được thay thế bởi phân đoạn Viterbi và các tham số trong HMM được ước lượng lại sử dụng thuật toán Baum-Welch Mỗi một ảnh khuôn mặt với chiều rộng W và chiều cao H được phân chia thanh các khối chồng lên nhau với chiều cao L và chiều rộng W Có P hàng giữa các khối chồng lên nhau giữa các khối liên tiếp theo hướng đứng Các khối đó thành lập một chuỗi quan sát khuôn mặt và HMM đã huấn luyện được sử dụng để xác định trạng thái đầu ra
Hình 1.7 Mô hình Markov cho định vị khuôn mặt:
(a)Các vector quan sát; (b)Các trạng thái ẩn
Nefian và Hayes đã áp dụng các HMM và phép biến đổi KL để định vị và nhận dạng khuôn mặt Thay vì sử dụng các giá trị cường độ hàng, các vector quan sát bao gồm các hệ số (của KLT) được tính toán từ các vecto đầu vào Các kết quả thực nghiệm của họ trên nhận dạng khuôn mặt cho thấy tỷ lệ nhận dạng tốt hơn.Trong CSDL ảnh của MIT, chứa 432 ảnh, mỗi ảnh có duy nhất một khuôn mặt, hệ thống HMM giả hai chiều này đã thành công với tỷ lệ 90%
Rajagopalan đã đề nghị hai phương pháp xác suất.Phương pháp đầu tiến sử dụng thông tin thống kê thứ tự cao hơn(HOS) để ước lượng mật độ Tương tự, cả các phân phối chưa biết củakhuôn mặt hay không phải khuôn mặt được phân cụm sử dụng
6 hàm mật độ dựa trên cơ sở các thông tin thống kê thứ tự cao hơn của các mẫu Như trong, sự nhận thức đa mức được sử dụng cho phân lớp, và vector đầu vào gồm có 12
Trang 33độ đo khoảng cách giữa các mẫu ảnh và 12 cụm mô hình Phương pháp thứ hai sử dụng một HMM để học các phép biến đổi khuôn mặt thành không phải khuôn mặt và không phải khuôn mặt thành khuôn mặt trong một ảnh Cách tiếp cận này dựa trên cơ
sở sinh một chuỗi quan sát từ các ảnh và học các tham số HMM tương ứng với chuỗi này Các chuỗi quan sát được học đầu tiên được sinh bởi tính khoảng cách của ảnh con tới tâm của 12 tâm cụm khuôn mặt và không phải khuôn mặt đã ước lượng trong phương pháp đầu tiên Sau khi học đầy đủ, chuỗi trạng thái trực quan được xử lý phân lớp nhị phân.Các kết quả thực nghiệm cho thấy cả phương pháp HOS và HMM đều có
tỷ lệ tìm cao nhưng lại nhiều lỗi cảnh báo
1.4.3 Mẫu nhị phân cục bộ (LBP)
LBP là một toán tử kernel 3×3, nó tổng quát hóa cấu trúc không gian cục bộ của một ảnh.Ojala và các đồng nghiệp đã giới thiệu phương pháp LBP và chỉ ra khả năng phân tách cao của chúng cho sự phân lớp vân Bởi vì khả năng phân tách và chi phí tính toán thấp, LBP trở nên rất phổ biến trong nhận dạng mẫu LBP đã được áp dụng cho phát hiện khuôn mặt, nhận dạng khuôn mặt, xác thực khuôn mặt, truy vấn ảnh
Mô tả kết cấu (Texture descriptor)
LBP ban đầu xuất hiện như một mô tả kết cấu tổng quát Tại một vị trí pixel (xc,
yc) cho trước, LBP được định nghĩa như một chuỗi nhị phân có trật tự dựa trên sự so sánh giá trị độ xám của pixel trung tâm (xc, yc) và 8 pixel lân cận của nó Như vậy mỗi pixel sẽ được biểu diễn bởi một chuỗi nhị phân, giá trị thập phân của chuỗi nhị phân này chính là giá trị của pixel trung tâm trong sự biểu diễn bởi toán tử LBP Hình 1.minh họa sự tính toán giá trị LBP
Hình 1.8Ví dụ sự tính toán LBP
Trang 35Giá trị thập phân của của chuỗi LBP có thể đ
( ,
Với gc là giá trị độ xám của pixel trung tâm
thứ p trong lân cận 8 của pixel trung tâm H
(Mẫu nhị phân cục bộ mở rộng
ị độ xám của pixel trung tâm (xc, yc), gplà giá trị độ xám của pixel
ận 8 của pixel trung tâm Hàm s được định nghĩa như sau:
( ) = 1 ≥ 0
0 < 0
ẫu nhị phân cục bộ mở rộng
ở rộng toán tử LBP đến một lân cận tròn với các bán kính khác nhau
pixels lân cận trên một vòng tròn có bán kính R
Minh họa toán tử LBP mở rộng vớị P và R khác nhau.
ếu tọa độ của pixel tâm là (xc, yc) thì tọa độ của P pixel lân cận tr
R (tính theo đường tròn lượng giác) là:
= + (2 )
2, p = {0, 1, … , P − 1}
Trang 36Trong trường hợp các điểm đang xét không phải l
sẽ được nội suy.Khoa học máy tính có r
sử dụng phép nội suy song tuyến tính (bilinear interpolation)
ờng hợp các điểm đang xét không phải là tâm của điểm ảnh, điểm đó
máy tính có rất nhiều thuật toán nội suy, trong luận văn n
ử dụng phép nội suy song tuyến tính (bilinear interpolation)
] (0,0) (0,1)(1,0) (1,1)
1 −
ợc định nghĩa bất biến đối với bất kỳ sự biến đổi độ sáng, chúng ta có
Hình1.11
LBP giống nhau với các độ sáng khác nhau
ẫu đồng nhất (uniform patterns)
Năm 2002 Ojala và các đồng nghiệp trong nghiên cứu của mình
ệm mẫu đồng nhất.Một mẫu nhị phân được gọi là đồng nhất khi xét chuỗi bit xoay
à 2 lần thay đổi (transitions) từ giá trị bit 0 sang 1 hoặc từ giá
Ví dụ mẫu đồng nhất và mẫu không đồng nhất
ủa điểm ảnh, điểm đó
ất nhiều thuật toán nội suy, trong luận văn này
(1.10)
ợc định nghĩa bất biến đối với bất kỳ sự biến đổi độ sáng, chúng ta có
ình đã đưa ra khái ồng nhất khi xét chuỗi bit xoay
ừ giá trị bit 0 sang 1 hoặc từ giá
t
Trang 37Đồng nhất là một khái niệm quan trọng trong ph
diện cho thông tin cấu trúc nguy
tử LBPP,R đồng nhất được kí hiệu l
mẫu có tối đa hai sự chuyển đổi (mẫu đồng nhất l
đồng nhất Có hai mẫu không có sự chuyển đổi n
đồng nhất được gán một nh
vậy nếu dùng LBP8,1 thì sẽ có 256 mẫu, trong đó có 58 mẫu đồng nhất, n
của ( , )là 59
Hình
ột khái niệm quan trọng trong phương pháp LBP b
ện cho thông tin cấu trúc nguyên thủy như đường, cạnh hoặc góc (xem
ợc kí hiệu là ( , ) Với chuỗi LBP có chiều d
ẫu có tối đa hai sự chuyển đổi (mẫu đồng nhất là) P(P-1) có tối đa
ồng nhất Có hai mẫu không có sự chuyển đổi nào là mẫu toàn 0 ho
ợc gán một nhãn, tất cả các không đồng nhất được gánchung1 nh
ẽ có 256 mẫu, trong đó có 58 mẫu đồng nhất, n
Hình1.1358 Mẫu đồng nhất của ( , )
ương pháp LBP bởi vì nó đại ờng, cạnh hoặc góc (xem Hình1) Toán
ới chuỗi LBP có chiều dài P thì số
ối đa P(P-1)+2 mẫu
àn 0 hoặc 1.Mỗi mẫu
ợc gánchung1 nhãn Như
ẽ có 256 mẫu, trong đó có 58 mẫu đồng nhất, nên số chiều
Trang 38Áp dụng LBP mô tả khuôn mặt
Việc áp dụng mô tả khuôn mặt bằng LBP được Ahonen [3] và các cộng sự thực hiện năm 2006.Ý tưởng của phương pháp là chia hình hảnh khuôn mặt thành các khối, sau đó tính toán các histogram tương ứng với các khối.Cuối cùng kết hợp các histogram này lại với nhau để có được vector đặc trưng cho khuôn mặt
Hình1.14 Trích rút đặc trưng khuôn mặt bằng LBP 1.4.4 Phương pháp phân tích thành phần chính
Trong phương pháp phân tích thành phần chính(PCA còn gọi là biến đổi
Karhunen-Loeve), tập dữ liệu được biểu diễn lại với số đặc trưngít hơn đồng thời giữ được hầu hết các thông tin quan trọng nhất của dữ liệu.PCA thườngđược sử dụng cùng phương pháp mặt riêng.Tập con các vector riêng được dùng làm các vector cơ sở của một không gian con, trong đó ta có thể so sánh vớicác ảnh trong cơ sở dữ liệuđểnhận dạng các ảnh mới Các vector cơ sở này còn được gọi là các thành phần chínhcủa cơ sở
dữ liệu ảnh
Nội dung phương pháp này sẽ được trình bày cụ thể trong chương 2 của luận văn
Trang 39CHƯƠNG 2 NHẬN DẠNG KHUÔN MẶT DỰA TRÊN PCA-LDA VÀ MẠNG NƠRON Vấn đề phát hiện mặt được đưa ra đầu tiên vào những năm 70 với việc sử dụng các kỹ thuật nhân trắc học và các phép heuristic giản đơn Với những kỹ thuật này, ta chỉ có thể đạt được kết quả trong những điều kiện khá chặt, ví dụ như nền ảnh đồng nhất, khuôn mặt chụp thẳng, Cho đến ngày nay, cùng với sự phát triển vượt bậc của khoa học kỹ thuật, việc yêu cầu những giới hạn như thế là không còn Tuy nhiên, cùng với những yêu cầu ngày càng cao, thìvấn đề phát hiện mặt người đang phải đối mặt với những khó khăn mới Trong suốt quá trình từ những năm đầu tới nay, đã có rất nhiều các hướng xử lý và tiếp cận khác nhau được đưa ra nhằm giải quyết cho những yêu cầu cụ thể khác nhau của từng giai đoạn, từng ứng dụng cụ thể và cũng có nhiều cách phân loại các phương pháp, hướng tiếp cận này Trong luận văn này, chúng ta sẽ nghiên cứu phương pháp nhận dạng mặt người dựa trên phương pháp trích chọn đặc trưng PCA và biến đổi LDA, sau đó các đặc trưng này sẽ được nhận dạng bằng mạng nơron nhân tạo
2.1 Phương pháp phân tích thành phần chính (PCA)
Vào cuối những năm 1980, Sirovich và Kirby đã phát triển một kỹ thuật để có thể biểu diễn hiệu quả các mặt người, được gọi là phương pháp phân tích các thành phần chính (PCA –Principle Component Analysis).Với một bộ dữ liệu mặt người, đầu tiên, ta tiến hành tính các thành phần chính của sự phân bố các mặt, biểu diễn dưới dạng các vector riêng (của ma trận hiệp phương sai của sự phân bố).Mỗi mặt trong tập
dữ liệu sau đó được xấp xỉ bằng cách kết hợp tuyến tính các vector riêng lớn nhất (không gian vector) cùng với các trọng số tương ứng của chúng
Mụcđích của phương pháp phân tích này có thể diễnđạt ngắn gọn như sau:Ảnh gốc có kích thước 112×92 (10304 điểmảnh).Nhữngảnh này cầnđượcrút gọn sao cho lượng thông tin dùng để biểu diễnảnhđó giảmđi,đồng thờikhông làm mất những đặcđiểm quan trọng nhất của khuôn mặt Kết quảcủa việc phân tích này sẽđạt đượcnhư hình 2.1
Trang 40Hình 2.1 Ví dụ minh họa PCA
Ảnh gốc cần 10304 giá trị để biểu diễn trong khi ảnh biến đổi chỉ cần49 giá trị
Hình 2.2: Một số không gian riêng của cơ sở dữ liệu ảnh ORL