Nghiên cứu phương pháp nhận dạng mặt người dựa trên PCA LDA và mạng neural

Trên cơ sở đó, em đã chọn hướng đề tài “Nghiên cứu phương pháp nhận dạng mặt người dựa trên PCA-LDA và mạng neural” làm luận văn tốt nghiệp của mình.Bố cục của luận văn bao gồm 3 phần:

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐỖ ĐÌNH LỰC

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG MẶT NGƯỜI DỰA TRÊN

PCA-LDA VÀ MẠNG NEURAL

Ngành: Công nghệ thông tin

Chuyên ngành: Truyền dữ liệu và mạng máy tính

Mã số: Chuyên ngành đào tạo thí điểm

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS – TS NGÔ QUỐC TẠO

Hà Nội - 2015

Trang 3

LỜI CẢM ƠN

Em xin chân thành cảm ơn các thầy cô trong Khoa Công nghệ thông tin, trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội và thầy giáo PGS-TS Ngô Quốc Tạo đã tạo điều kiện cho em được học tập và nghiên cứu để hoàn thành luận văn này

Em cũng xin gửi lời cảm ơn tới các thầy cô, đồng nghiệp trong cơ quan nơi em đang công tác đã tạo điều kiện cho em được học tập, nghiên cứu và hoàn thành luận văn này

Hà Nội, ngày 15 tháng 3 năm 2014

Học viên

Đỗ Đình Lực

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn ““Nghiên cứu phương pháp nhận dạng mặt người

dựa trên PCA-LDA và mạng neural” này là công trình nghiên cứu của riêng tôi.Các

số liệu sử dụng trong luận văn là trung thực.Các kết quả nghiên cứu được trình bày trong luận văn chưa từng được công bố tại bất kỳ công trình nào khác

Trang 5

MỤC LỤC

LỜI CẢM ƠN 1

LỜI CAM ĐOAN 2

MỤC LỤC 3

DANH MỤC CÁC TỪ VIẾT TẮT 5

DANH MỤC CÁC BẢNG 6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7

MỞ ĐẦU 9

CHƯƠNG ITỔNG QUAN VỀ NHẬN DẠNG MẶT NGƯỜI 11

1.1 Giới thiệu về xử lý ảnh 11

1.1.1 Khái niệm xử lý ảnh số 13

1.1.2 Các ứng dụng của xử lý ảnh số 14

1.1.3 Các bước cơ bản trong xử lý ảnh số 15

1.2 Giới thiệu chung về phân tích ảnh 16

1.2.1 Khái niệm 16

1.2.2 Các ứng dụng của phân tích ảnh 18

1.3 Nhận dạng mặt người 20

1.3.1 Khái niệm nhận dạng mặt người qua ảnh 20

1.3.2 Các ứng dụng của nhận dạng mặt người 24

1.4 Các hướng tiếp cận trong nhận dạng mặt người 25

1.4.1 Trích chọn đặc trưng sử dụng Eigenface 25

1.4.2 Trích chọn đặc trưng sử dụng mô hình Markov ẩn 28

1.4.3 Mẫu nhị phân cục bộ (LBP) 31

1.4.4 Phương pháp phân tích thành phần chính 36

CHƯƠNG 2NHẬN DẠNG KHUÔN MẶT DỰA TRÊN PCA-LDA VÀ MẠNG NƠRON 37

2.1 Phương pháp phân tích thành phần chính (PCA) 37

2.1.1 Cơ sở toán học 39

2.1.2 Kỹ thuật trích chọn đặc trưng PCA 48

2.2 Phương pháp LDA 54

2.3 Phương pháp mạng neural 57

Trang 6

2.3.1 Giới thiệu mạng nơron 57

2.3.2 Hàm kích hoạt và các quy tắc xác định tín hiệu ra 59

2.3.3 Thuật toán học lan truyền ngược 61

CHƯƠNG 3THỰC NGHIỆM 65

3.1 Thiết kế hệ thống 65

3.1.1 Cơ sở dữ liệu ảnh 65

3.1.2 Sơ đồ hệ thống 66

3.1.3 Môi trường cài đặt 68

3.1.4 Giao diện chương trình 68

3.2 Kiểm thử và đánh giá 71

KẾT LUẬN 76

TÀI LIỆU THAM KHẢO 78

PHỤ LỤC 79

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT LDA (Linear Discriminant Analysis): Phân tích phân lớp tuyến tính

ORL (Olivetti Research Laboratory, Surrey University): Cơ sở dữ liệu ảnh dùng trong luận văn

HMM (Hidden Markov Model): Mô hình Markov ẩn

PCA(Principal Components Analysis): Phân tích thành phần chính

Trang 8

DANH MỤC CÁC BẢNG

Bảng 1.3 Các ứng dụng tiêu biểu của nhận dạng mặt người 21

Bảng 2.1 Ví dụ về tính độ lệch chuẩn 40

Bảng 2.2 Tập dữ liệu hai chiều và tính toán hiệp phương sai 42

Bảng 4.1 Các module chính của chương trình 69

Trang 9

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Tổng quan các giai đoạn cơ bản trong xử lý ảnh 15

Hình 1.2: Các kỹ thuật phân tích ảnh 17

Hình 1.4 Mô hình hệ thống nhận dạng mặt người 21

Hình 1.5 Cơ sở dữ liệu ảnh mặt người AT&T (ORL) 23

Hình1.6 Một số hình ảnh cơ sở dữ liệu ảnh mặt người Yale A 24

Hình 1.7 Mô hình Markov cho định vị khuôn mặt: 30

(a) Các vector quan sát; (b) Các trạng thái ẩn 30

Hình 1.8 Ví dụ sự tính toán LBP 31

Hình1.9 Minh họa toán tử LBP mở rộng vớị P và R khác nhau 33

Hình 1.10 Ví dụ LBP8,1 33

Hình 1.11 LBP giống nhau với các độ sáng khác nhau 34

Hình 1.12 Ví dụ mẫu đồng nhất và mẫu không đồng nhất 34

Hình 1.13 58 Mẫu đồng nhất của ( , ) 35

Hình 1.14 Trích rút đặc trưng khuôn mặt bằng LBP 36

Hình 2.1 Ví dụ minh họa PCA 38

Hình 2.2: Một số không gian riêng của cơ sở dữ liệu ảnh ORL 38

Hình 2.3 Minh hoạ hướng của véctơ riêng 47

Hình 2.4 Dữ liệu và đồ thị biểu diễn dữ liệu 49

Hình 2.5 Đồ thị biểu diễn dữ liệu đã chuẩn hóa với các vector riêng 51

Hình 2.6 Ảnh gốc trong cơ sở dữ liệu ORL 53

Hình 2.7 Ảnh sau khi biến đổi theo PCA 54

Hình 2.8 Ví dụ minh họa LDA 55

Hình 2.9 Ảnh sau khi biến đổi theo LDA 57

Hình 2.10 Các thành phần cơ bản của mạng nơron nhân tạo 58

Trang 10

Hình 2.11 Một số dạng hàm kích hoạt của nơron 59

Hình 2.12 Mạng nơron l lớp 61

Hình 3.1 Ảnh gốc trong bộ ảnh ORL 65

Hình 3.2 Sơ đồ khối của quá trình huấn luyện 66

Hình 3.3 Ảnh gốc được bổ sung ảnh gương 66

Hình 3.4 Sơ đồ khối của quá trình nhận dạng 68

Hình 3.5 Giao diện chính của chương trình 69

Hình 3.6 Giao diện huấn luyện mạng nơron 70

Hình 3.7 Giao diện nhận dạng 70

Hình 3.8 Kết quả nhận dạng khi thay đổi hình thái khuôn mặt 74

Hình 3.9 Kết quả nhận dạng khi có nhiễu 75

Trang 11

MỞ ĐẦU Nhận dạng ảnh đang ngày càng chứng tỏ được vai trò quan trọng củamình và đang được ứng dụng ngày càng rộng rãi trong cuộc sống hiện đại Bên cạnh đó, một lĩnh vực của nhận dạng ảnh là nhận dạng mặt người cũng đang ngày càng được ứng dụng nhiều, đặc biệt là trong các lĩnh vực an ninh Như chúng ta đã biết,khuôn mặt mỗi người có những nét đặc trưng riêng.Nhận ra được những nét đặc trưng đó, có nghĩa là nhận ra được người đó Mặc dù đặc trưng của khuôn mặt không đảm bảo được tính duy nhất như vân tay hay võng mạc mắt, tuy nhiên việc xây dựng một hệ thống nhận dạng mặt đơn giản hơn so với một hệ thống nhận dạng vân tay hay nhận dạng mắt Do đó, trong những trường hợp không thực sự đòi hỏi quá an toàn và chính xác, thì việc xây dựng một hệ thống nhận dạng mặt thay thế cho một hệ thống nhận dạng vân tay hay hệ thống nhận dạng võng mạc mắt là một giải pháp hợp lý Bên cạnh

đó, nhận dạng vân tay và nhận dạng võng mạc đòi hỏi việc thu nhận tín hiệu phải trực tiếp và đòi hỏi độ chính xác cao, mà điều này là không thể trong nhiều trường hợp, đặc biệt là trong khoa học hình sự Vì thế, trong những trường hợp này thì không tồn tại một giải pháp thay thế nào khác cho nhận dạng mặt người

Cóhaiphươngphápnhậndạngphổbiếnhiệnnaylànhận dạng dựa trên đặc trưng hình học của cácphần tử trên khuôn mặt như biển đổi Sóng Wavelet (Gabor Wavelet)vàMạng Nơron (Neural Network),…và nhận dạng dựa trên xét tổng thể toàn khuôn mặt nhưphươngpháp Phân tích thành phần chính (PrincipalComponent Analysis – PCA) phươngpháp Phân tíchphân lớp tuyếntính (Linear Discriminant Analysis – LDA), Kết hợp phươngpháp PCA, LDA vàmạngNơronmanglại hiệuquả nhậndạngcao bởinó hoạt độngổn địnhvàcótínhthíchnghi cao với sự thay đổi về ánh sáng, góc độ của ảnh mặt người

Trên cơ sở đó, em đã chọn hướng đề tài “Nghiên cứu phương pháp nhận dạng

mặt người dựa trên PCA-LDA và mạng neural” làm luận văn tốt nghiệp của mình.Bố

cục của luận văn bao gồm 3 phần:

Chương 1:Tổng quan về nhận dạng mặt người: Giới thiệu tổng quan về ứng dụng của xử lý ảnh trong lĩnh vực nhận dạng mặt người

Chương 2: Nhận dạng mặt người dựa trên PCA-LDA và mạng nơron: Trình bày các phương pháp phân tích thành phần chính(PCA), phân tích phân lớp

Trang 12

tuyến tính(LDA) và mạng nơron Xây dựng phương pháp nhận dạng với bước trích chọn đặc trưng bằng PCA-LDA và nhận dạng bằng mạng nơron

Chương 3: Thực nghiệm: Trình bày sơ đồ hệ thống nhận dạng khuôn mặt dựa trên PCA-LDA và mạng nơron, kiểm thử đánh giá hiệu suất của hệ thống và đưa ra hướng phát triển của đề tài

Trang 13

CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG MẶT NGƯỜI

1.1 Giới thiệu về xử lý ảnh

Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ Nó là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng cho nó

Cùng với ngôn ngữ tự nhiên, hình ảnh đã đóng góp một vai trò hết sức quan trọng trong việc trao đổi thông tin Tính trực quan của hình ảnh đã giúp cho con người hiểu rõ và sâu sắc hơn các thông tin cần thu thập Người ta đã chứng minh được rằng, trong tất cả các kênh thu nhận thông tin của con người thì lượng thông tin thu nhận qua kênh thị giác chiếm khoảng 70% Hình ảnh là kết quả của việc thu nhận và biểu diễn của năng lượng ánh sáng trải dài từ tia gamma (có bước sóng nhỏ) đến sóng radio (có bước sóng lớn) Tuy nhiên, mắt người chỉ cảm nhận được một vùng giới hạn rất nhỏ trong phổ điện từ Ngược lại, máy tính có thể đọc được một vùng rất rộng trong phổ điện từ, từ tia gamma đến sóng radio Nó có thể biểu diễn và xử lý những bức ảnh được sinh ra bởi những nguồn mà con người không thể nhận biết được, như ảnh siêu

âm, ảnh hồng ngoại, ảnh trong vùng tia X, … Do đó xử lý ảnh có một phạm vi ứng dụng tương đối rộng

Xử lý ảnh là một trong những cách tiếp cận phân tích, tổng hợp hình ảnh theo ý tưởng và mục đích của người sử dụng Tuy xử lý ảnh là một trong những khoa học còn tương đối mới so với nhiều ngành kho học khác, song những năm gần đây, xử lý ảnh

và đồ họa đã phát triển một cách mạnh mẽ và đã gặt hái được nhiều thành công góp phần vào sự phát triển chung của ngành công nghệ thông tin

Các phương pháp xử lý ảnh bắt nguồn từ hai ứng dụng: nâng cao chất lượng thông tin hình ảnh đối với mắt người và xử lý số liệu cho máy tự động Một trong những ứng dụng đầu tiên của xử lý ảnh là nâng cao chất lượng ảnh báo truyền qua cáp giữa London và NewYork vào những năm 192x Thiết bị đặc biệt mã hóa hình ảnh (báo), truyền qua cáp và khôi phục lại ở phía thu Vấn đề nâng cao chất lượng hình ảnh lúc đầu có liên quan đến việc lựa chọn quá trình in và phân bố các mức sáng (tông và

độ phân giải của ảnh)

Trang 14

Hệ thống đầu tiên (Bartlane) có khả năng mã hóa hình ảnh với 5 mức sáng Khả năng này tăng lên 15 mức vào 1929 Việc nâng cao chất lượng ảnh bằng các phương pháp xử lý để truyền ảnh được nghiên cứu 35 năm sau đó Năm 1964, các bức ảnh chụp mặt trăng được vệ tinh Ranger 7 (Mỹ) truyền về trái đất, được xử lý bằng máy tính để sửa méo (gây ra do camera truyền hình đặt trên vệ tinh ở các góc độ khác nhau) Các kỹ thuật cơ bản cho phép nâng cao chất lượng hình ảnh như làm nổi đường biên và lưu hình ảnh

Từ năm 1964 đến nay, phạm vi xử lý ảnh lớn mạnh không ngừng Các kỹ thuật

xử lý ảnh hiện nay được sử dụng để giải quyết hàng loạt các vấn đề, nhằm nâng cao chất lượng thông tin hình ảnh

Trong y học, các thuật toán máy tính nâng cao độ tương phản, hoặc mã hóa các mức sáng thành các màu để nội suy ảnh X-Quang và các hình ảnh y sinh học dễ dàng.Các nhà địa vật lý sử dụng kỹ thuật tương tự để nghiên cứu các mẫu vật chất từ

vệ tinh.Các thuật toán nâng cao chất lượng ảnh và khôi phục hình ảnh được sử dụng để

xử lý hình ảnh giảm chất lượng Trong thiên văn học, các phương pháp xử lý ảnh nhằm khôi phục hình ảnh bị nhiễu hoặc bị mất do bóng (artifacts) sau khi chụp Trong vật lý và các lĩnh vực có liên quan, kỹ thuật máy tính nâng cao được chất lượng ảnh trong các lĩnh vực như Plamas (có năng lượng cao) và microscopy điện tử Tương tự, người ta đã ứng dụng xử lý ảnh có kết quả tốt trong viễn thám, sinh học, y tế hạt nhân, quân sự, công nghiệp … Nâng cao chất lượng và khôi phục ảnh bị nhiễu là quá trình

xử lý ảnh dùng cho mục đích nội suy của mắt người Lĩnh vực ứng dụng quan trọng thứ hai là xử lý ảnh số gắn liền với việc cảm nhận của máy Trong lĩnh vực thứ hai, các

cố gắng đều tập trung vào các quá trình trích thông tin ảnh và chuyển thành dạng thích hợp cho xử lý máy tính Những vẫn đề tiêu biểu của kỹ thuật xử lý ảnh được ứng dụng nhiều trong thực tế, có thể kể như: tự động nhận dạng đặc trưng, máy nhìn công nghiệp để điều khiển và kiểm tra sản phẩm, nhận dạng mục tiêu quân sự, tự động xử lý vân tay, hiển thị lên màn hình ảnh X-Quang và các mẫu máu, xử lý bằng máy các hình ảnh chụp từ vệ tinh để dự báo thời tiết, nén ảnh để lưu và truyền được nhiều hơn tín hiệu ảnh trong thông tin, máy tính, truyền hình thông thường và truyền hình có độ phân giải cao

Trang 15

1.1.1 Khái niệm xử lý ảnh số

Xử lý ảnh số là một ngành khoa học nhằm trang bị phương pháp luận, kỹ thuật

để trang bị cho máy tính xử lý ảnh đầu vào trên máy tính với mục tiêu nhận được ảnh kết quả ở đầu ra theo mong muốn của con người… Như vậy xử lý ảnh là một quá trình

từ ảnh thu nhận đầu vào xử lý tăng cường và nâng cao chất lượng ảnh, phân tích ảnh, hiểu ảnh, mã hóa, nén ảnh… cho đến khi thu nhận được ảnh kết quả tốt hơn theo mong muốn của con người Từ đó giúp cho con người có được cách nhìn trực quan hơn và sinh động hơn về hình ảnh Xử lý ảnh số còn là việc sử dụng các thuật toán máy tính

để xử lý các ảnh số dưới sự trợ giúp của máy tính

Xử lý ảnh số có thể chia làm bốn lĩnh vực, tùy thuộc vào loại công việc Đó là cải thiện và nâng cao chất lượng ảnh, phục hồi ảnh, mã hóa ảnh và hiểu ảnh Trong cải thiện và nâng cao chất lượng ảnh, ảnh được xử lý để xem, như trong truyền hình, hoặc

là được xử lý trước để trợ giúp hoạt động của máy móc, như trong nhận dạng đối tượng Trong phục hồi ảnh, ảnh bị xuống cấp một số trường hợp, chẳng hạn bị nhòe,

và mục đích là để giảm bớt hoặc loại bỏ hẳn ảnh hưởng sự xuống cấp Phục hồi ảnh có liên quan mật thiết đến cải thiện ảnh Khi ảnh xuống cấp, việc cải thiện ảnh thường đem lại kết quả làm giảm sự xuống cấp Tuy nhiên có một số sự khác nhau giữa phục hồi ảnh và cải thiện ảnh Trong phục hồi ảnh, một số ảnh lý tưởng thường bị xuống cấp

và mục đích phục hồi là tạo ra ảnh sau xử lý giống như ảnh ban đầu Trong việc cải thiện ảnh, mục đích cải thiện ảnh là làm cho ảnh sau khi xử lý trong đẹp hơn ảnh chưa

xử lý Để minh học sự khác nhau này, lưu ý rằng một ảnh gốc chưa xuống cấp không thể phục chế hơn nữa nhưng vẫn có thể được cải thiện bằng cách tăng độ nét Trong

mã hóa ảnh, mục đích là biểu diễn với một số ít bit nhất trong điều kiện chất lượng ảnh

và độ rõ chấp nhận được cho từng ứng dụng cụ thể, chẳng hạn như hội nghị video Mã hóa ảnh liên quan đến cải thiện ảnh và phục hồi ảnh Nếu có thể cải tiến dáng vẻ bề ngoài của ảnh được phục hồi, hoặc làm giảm sự xuống cấp do các nguồn nhiễu, như nhiễu lượng tử mà thuật toán mã hóa ảnh gây ra, thì ta có thể làm giảm số lượng bit cần thiết để đại diện ảnh ở một mức chất lượng và độ rõ chấp nhận được Trong việc hiểu (understanding) ảnh, đầu vào là ảnh, mục đích là diễn đạt nội dung ảnh bằng một

hệ ký hiệu nào đó Những ứng dụng của “hiểu ảnh” bao gồm thị giác máy tính, kỹ thuật rô-bốt và nhận dạng mục tiêu.“Hiểu ảnh” khác với ba lĩnh vực khác của xử lý

Trang 16

ảnh ở một khía cạnh chính Trong cải tiến, phục hồi và mã hóa ảnh cả đầu vào và đầu

ra đều là ảnh và khâu xử lý tín hiệu là phần then chốt của các hệ thống đã thành công trên các lĩnh vực đó Trong “hiểu ảnh”, đầu vào là ảnh, nhưng đầu ra thường là một biểu diễn bằng ký hiệu nội dung của ảnh đầu vào Sự phát triển thành công của các hệ thống trong lĩnh vực này cần đến cả xử lý tín hiệu và những khái niệm trí tuệ nhân tạo Trong hệ “hiểu ảnh” điển hình, xử lý tín hiệu được dùng cho công việc xử lý mức thấp như làm giảm sự xuống cấp và trích chọn các đường biên ảnh hoặc các đặc tính khác của ảnh, còn trí tuệ nhân tạo được dùng cho những công việc xử lý mức cao như thao tác kí hiệu và quản lý cơ sở tri thức

1.1.2 Các ứng dụng của xử lý ảnh số

Xử lý ảnh có nhiều ứng dụng trong thực tế.Một trong những ứng dụng sớm nhất

là xử lý ảnh từ nhiệm vụ Ranger 7 tại phòng thí nghiệm JetPulsion vào những năm đầu của thập kỷ 60 Hệ thống chụp hình gắn trên tàu vũ trụ có một số hạn chế về kích thước và trọng lượng, do đó ảnh nhận được bị giảm chất lượng như bị mờ, méo hình học và nhiễu nền Các ảnh đó được xử lý thành công nhờ máy tính số Hình ảnh của mặt trăng và sao hỏa mà chúng ta thấy trong tất cả các tạp chí đều được xử lý bằng những máy tính số Ngày nay, hầu hết các thông tin ảnh đều được chuyển sang dạng ảnh số Vì vậy, trong gần như tất cả các lĩnh vực của các ngành kỹ thuật đều có ít nhiều liên quan đến ảnh số và sử dụng kỹ thuật xử lý ảnh số.Ứng dụng của xử lý ảnh

có khả năng tác động mạnh mẽ nhất đến cuộc sống của chúng ta là lĩnh vực y tế Soi chụp ảnh bằng máy tính dựa trên cơ sở định lý cắt lớp (project slice) được dùng thường xuyên trong xét nghiệm lâm sàng, ví dụ phát hiện và nhận dạng u não Những ứng dụng y khoa khác của xử lý ảnh gồm cải thiện ảnh X-Quang và nhận dạng đường biênmạch máu từ những ảnh chụp bằng tia X

Có những ứng dụng khác gần gũi hơn với cuộc sống gia đình là cải tiến ảnh tivi Hình ảnh trên màn hình tivi có các khuyết tật do độ phân giải hạn chế, bị rung rinh,nhiều nền và trượt hình do đan dòng ở những mức độ khác nhau Xử lý ảnh số có tác động quyết định đến việc cải thiện chất lượng hình ảnh của những hệ truyền hình hiện tại và làm phát triển những hệ truyền hình mới có độ phân giải cao Một vấn đề nữa của truyền thông video như hội nghị video, điện thoại video là cần có dải tần rộng.Việc mã hóa thẳng chương trình video chất lượng yêu cầu đến 100 triệu bit/giây

Trang 17

Nếu hy sinh một phần chất lượng và dùng các sơ đồ mã hóa ảnh số thì có thể đưa ra thị trường những hệ truyền hình chất lượng đủ rõ với nhịp bit chỉ dưới 100 nghìn bit/giây

Người máy càng ngày càng đóng vai trò quan trọng trong công nghiệp và gia đình Chúng sẽ thực hiện những công việc rất nhàm chán hoặc nguy hiểm và những công việc mà tốc độ và chính xác vượt quá khả năng của con người Khi người máy trở nên tinh vi hơn, thị giác máy tính sẽ đóng vai trò ngày càng quan trọng Người ta

sẽ đòi hỏi người máy không những phát hiện và nhận dạng các bộ phận công nghiệp,

mà còn “hiểu” được những gì chúng “thấy” và đưa ra những hành động phù hợp Xử

lý ảnh số có tác động rất lớn đến thị giác máy tính

Ngoài những ứng dụng trên thì còn bao gồm các ứng dụng trong các lĩnh vực như điện tử gia đình, thiên văn học, sinh vật học, vật lý, nông nghiệp, địa lý, nhân chủng học và nhiều lĩnh vực khác Khả năng nhìn và nghe thấy là hai phương tiện quan trọng nhất để con người nhận thức thế giới bên ngoài, do vậy không có gì đáng ngạc nhiên khi mà xử lý ảnh số có nhiều khả năng ứng dụng, không chỉ trong khoa học kỹ thuật mà còn cả trong mọi hoạt động khác của con người

1.1.3 Các bước cơ bản trong xử lý ảnh số

Đầu tiên, ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp ảnh) Trước đây, ảnh thu qua camera là các ảnh tương tự (loại camera ống kiểu CCIR) Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ camera, sau đó nó được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo Mặt khác, ảnh cũng có thể tiếp nhận từ vệ tinh; có thể quét từ ảnh chụp bằng máy quét ảnh.Hình 1.5 dưới đây mô tả các bước cơ bản trong xử lý ảnh

Hình 1.1 Tổng quan các giai đoạn cơ bản trong xử lý ảnh

Trang 18

Sơ đồ này bao gồm các thành phần như sau:

Thu nhận ảnh: Ảnh có thể được thu nhận trong thế giới thực qua máy chụp

hình, từ tranh ảnh thông qua máy quét hoặc từ vệ tinh qua các bộ cảm biến bằng tín hiệu số hoặc tín hiệu tương tự Ảnh có thể nhận qua camera màu hoặc đen trắng Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hóa (như loại CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh

Số hóa ảnh: Tất cả các thông tin được lưu trong máy tính đều ở dạng số Vì

vậy, ảnh sau khi thu nhận được từ các thiết bị khác cần phải được số hóa để lưu trữ hoặc có thể dùng để xử lý tiếp

Tiền xử lý: Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa

vào bộ tiền xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn

Phân tích ảnh: Phân tích ảnh là một quá trình gồm nhiều giai đoạn nhỏ hơn: tăng

cường ảnh để nâng cao chất lượng ảnh và khắc phục những thiếu sót trong quá trình thu nhận ảnh và số hóa ảnh như nhiễu, méo … làm nổi bật các đặc trưng chính của ảnh đảm bảo cho ảnh gần giống với hình ảnh thật nhất Tiếp theo là phát hiện và trích chọn các đặc trưng như biên, màu, kết cấu … Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn phân tích, nhận dạng ảnh Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh.Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này

Đối sánh, nhận dạng ảnh: Là quá trình đối sánh, phân lớp ảnh, nhận biết được

tên gọi của đối tượng Kết quả của quá trình này phục vụ cho các mục đích và các ứng dụng khác nhau

1.2Giới thiệu chung về phân tích ảnh

1.2.1 Khái niệm

Mục tiêu lớn nhất của phần lớn các ứng dụng xử lý ảnh là phân táchđược những đặc trưng quan trọng từ dữ liệu ảnh đưa vào, để từ đó có thể mô tả, thể hiện cũng như hiểu ảnh Ví dụ, một hệ thống ảo có khả năng phân biệt các phần khác nhau của một dây chuyền lắp ráp và đưa ra các đặc trưng của nó, ví dụ như kích cỡ, số lượng các

Trang 19

khiếm khuyết(hole).Những hệ thống phức tạp hơn còn có khả năng diễn giải các kết quả phân tích, mô tả các đối tượng khác nhau cũng như mối quan hệ của chúng trong một bức ảnh

Phân tích ảnh khác với một số chức năng xử lý ảnh khác như khôi phục ảnh (restoration), cải thiện ảnh (enhancement), mã hoá (coding) Các chức năng này biến đổi ảnh đầu vào thành một ảnh đầu ra kháctheo các mục đích khác nhau Còn đầu ra của một hệ phân tích ảnh là rút ra các đặc trưng của các đối tượng bên trong ảnh để mô

tả, thể hiện ảnh

Lĩnh vực phân tích ảnh bao gồm các công đoạn: trích chọn đặc trưng (features extraction), phân vùng ảnh (segmentation), phân loại (classification) Mỗi công đoạn lại gồm một số kỹ thuật và công nghệ phân tích xử lý.Các kỹ thuật được thể hiện trong sơ

đồ 1.2

Hình1.2: Các kỹ thuật phân tích ảnh

- Trích chọn đặc trưng gồm có trích chọn các đặc trưng về không gian (spatial features), các đặc trưng biến đổi đổi (transform features), biên (edge), các đặc trưng về hình dạng (shape feature), các tham số thống kê, kết cấu bề mặt

- Phân vùng gồm có kỹ thuật lấy ngưỡng (thresholding), phát hiện đường bao (boundary detection), kỹ thuật cây tứ phân (quad-trees)

- Phân loại gồm kỹ thuật phân đoạn(clustering), cây quyết định (decision trees)

Trích chọn đặc trưng

 Đặc trưng không gian

 Đặc trưng biến đổi

 Biên và đường bao

Trang 20

1.2.2Các ứng dụng của phân tích ảnh

Các hệ thống computer vision dùng để phân tích ảnh được áp dụng rộng rãi trong mọi mặt của đời sống xã hội Có thể là những công việc hàng ngày như các hoạt động rút tiền gửi ngân hàng, thanh toán tiền khi mua hàng cho đến những hệ thống định vị hướng dẫn bằng vô tuyến, các hệ thống dự báo khí tượng

Một hệ thống nhận dạng mẫu tự có thể nhận biết được các ký tự cũng như các

ký hiệu cho trước theo một tiêu chuẩn nào đó tuỳ vào từng ứng dụng cụ thể Từ một ảnh đầu vào cụ thể là những nhãn thư, hoá đơn, văn bản, tài liệu, …, hệ thống sẽ phân tích và đưa ra nội dung tương ứng chứa ở bên trong các tài liệu đó Các hệ nhận dạng mẫu tự có thể thấy ở nhiều nơi như trong các hệ thống sắp xếp thư tự động, các máy đọc nhãn hiệu, các máy kiểm tra thẻ ngân hàng, các hệ thống nhận dạng văn bản text tự động Do đó các công việc truyền thống làm bằng tay nay đã được chuyển sang tự động, góp phần giảm bớt thời gian lao động của con người, đồng thời nâng cao hiệu quả làm việc

Trong y học, các ứng dụng của phân tích ảnh được áp dụng chủ yếu trong các lĩnh vực chẩn đoán hình ảnh Với sự trợ giúp của các hệ computer vision,người ta có thể phát hiện ra các khối u trong cơ thể, tiến hành đo đạc và tính toán kích thước, hình dạng các cơ quan nội tạng của con người, cũng như đếm số lượng các tế bào máu trong

cơ thể người Tất cả những công việc đó, đều trải qua một trình tự, đó là chụp ảnh - phân tích ảnh - hiểu ảnh - chẩn đoán hình ảnh.Nhờ có sự ứng dụng các hệ computer vision vào trong y học đã đem lại những thành tựu lớn trong việc chẩn đoán bệnh

Trong công nghiệp, các ứng dụng của phân tích ảnh cũng được áp dụng một cách rộng rãi Đó là các ứng dụng trong việc phát hiện và kiểm tra lỗi sản phẩm, và đặc biệt là trong lĩnh vực robot tự động Các robot tự động được sử dụng ngày càng rộng rãi trong công nghiệp nhằm thay thế con người Với sự trợ giúp của các hệ thống computer vision các robot có thể nhận biết được không gian xung quanh Hệ thống computer vision sẽ truyền những tín hiệu phản hồi về cho chương trình xử lý của robot

và từ đó robot sẽ được điều khiển một cách thích hợp với hoàn cảnh hiện thời

Trong lĩnh vực quân sự, hàng hải và hàng không, các hệ thống computer vision đóng một vai trò to lớn Từ những bức ảnh chụp được từ vệ tinh, người ta có thể tiến hành phân tích, rồi điều khiển cho các tên lửa hoặc máy bay quân sự đánh trúng những

Trang 21

mục tiêu đã đề ra với một sai số rất nhỏ Cũng vớinhững bức ảnh chụp từ vệ tinh, người

ta có thể tiến hành công tác hướng dẫn tàu thuyền qua lại trên biển tránh được những khu vực nguy hiểm, hay điều khiển máy bay hạ cánh xuống những khu vực an toàn Với những ứng dụng quan trọng này, các hệ computer vision đang được ứng dụng ngày càng rộng rãi

Trang 22

1.3 Nhận dạng mặt người

1.3.1 Khái niệm nhận dạng mặt người qua ảnh

Vấn đề nhận dạng mặt người có thể trình bày một cách tổng quan như sau: Cho một ảnh tĩnh hay một đoạn video, hãy phát hiện và nhận ra những người trong đoạn video hay trong ảnh đó dựa trên một tập cho trước các dữ liệu về các mặt người đã biết Giải pháp cho vấn đề này bao gồm 4 vấn đề: phát hiện các mặt người từ ảnh (video), trích chọn đặc trưng từ vùng ảnh, nhận dạng ảnh và xác minh Với quá trình nhận dạng, đầu vào là một ảnh chưa biết, sau quá trình nhận dạng, hệ thống đưa ra định danh về người trong ảnh, và trong quá trình xác minh, hệ thống phải được xác định rằng việc nhận dạng đấy là chính xác hay không Về mặt tổng quát, mỗi phương pháp nhận dạng mặt người đều có thể được chia thành 2 module: Module phát hiện mặt người trong ảnh và module nhận dạng mặt người

Được khởi đầu vào những năm70, nhận dạng mặt người là một trong những ứng dụng của phân tích và xử lý ảnh đạt được nhiều thành tựu nhất Trong thời gian gần đây, do sự phát triển như vũ bão của khoa học máy tính và yêu cầu thực tiễn trong các lĩnh vực kinh tế, luật pháp, …, vấn đề nhận dạng mặt người đang được đặc biệt chú ý Một loạt các hội thảo được tổ chức bàn về vấn đề này như AFGR, AVBPA, và những đánh giá mang tính hệ thống về các kỹ thuật nhận dạng mặt người (Face Recognition Techniques – FRT), bao gồm phương pháp FERET và XM2VTS

Nhu cầu cấp thiết về các hệ thống thân thiện với người sử dụng đã đảm bảo cho các nghiên cứu về sau không bị lãng phí trong hàng loạt những nghiên cứu đã được thực thi trước đó Hiện nay, để rút tiền từ ATM ta phải nhập PIN, hay để truy cập một máy tính ta phải nhập mật khẩu hay hàng loạt phương pháp khác để truy cập vào Internet Hiện đã có hàng loạt các phương pháp nhận dạng có độ tin cậy cao dựa vào các kỹ thuật nhân trắc học, ví dụ như kỹ thuật phát hiện vân tay hay kỹ thuật quét nhận dạng võng mạc Tuy nhiên, những hệ thống này có chung nhược điểm là phức tạp và yêu cầu cần có sự phối hợp của nhiều người cùng xử lý Bên cạnh đó, một hệ thống nhận dạng dựa trên kỹ thuật phân tích ảnh mặt nhìn thẳng của một người sẽ đơn giản hơn nhiều, không đòi hỏi có nhiều người cùng xử lý và cũng không đòi hỏi các kiến thức chuyên môn sâu.Chính vì thế, hệ thống nhận dạng người dựa trên kỹ thuật phân

Trang 23

tích ảnh mặt đang ngày càng được ứng dụng rộng rãi Các ứng dụng của nhận dạng người dựa trên mặt được thể hiện trong bảng 1.3:

Nhân trắc học

Driver’s licences, Entitlement Programs Immigration, National ID, Passports, Voter Registration Welfare

An toàn thông tin

Desktop Logon ( Windows 95, Windows NT) Application Security, Database Security, File Encryption Intranet Security, Internet Access, Medical Records Secure Trading Terminals

Access Control Facility Access, Vehicular Access

Bảng 1.3Các ứng dụng tiêu biểu của nhận dạng mặt người

Một hệ thống nhận dạng mặt người điển hình bao gồm các thành phần chính như hình 1.4

Hình 1.4 Mô hình hệ thống nhận dạng mặt người

Nhận dạng mặt người (Face recognition) được nghiên cứu từ nhưng năm 1980,

là một lĩnh vực nghiên cứu của ngành thị giác máy tính (Computer Vision), và cũng được xem là một lĩnh vực nghiên cứu của ngành sinh trắc học (Biometrics) tương tự như nhận dạng vân tay –Fingerprint recognition, hay nhận dạng mống mắt –Iris

Ảnh mặt

người

Trích chọn đặc trưng

Nhận dạng mặt người

Thông tin người được nhận dạng

Trang 24

recognition… Trong khi nhận dạng vân tay và mống mắt có thể áp dụng trên thực tế một cách rộng rãi thì nhận dạng mặt người vẫn còn nhiều thách thức.So với nhận dạng vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn và ít đòi hỏi sự tương tác có kiểm soát hơn Bài toán nhận dạng mặt người còn nhiều thách thức nên hàng năm trong & ngoài nước vẫn có nhiều nghiên cứu về các phương pháp nhận dạng mặt người

Nhận dạng khuôn mặt là một nhiệm vụ dễ dàng đối với con người Thí nghiệm trong [9] đã chỉ ra, ngay cả trẻ sơ sinh 1-3 ngày tuổi có thể phân biệt khuôn mặt Nhưng làm thế nào với một máy tính? Cho đến nay chúng ta biết rất ít về nhận dạng con người Có phảiđặc điểm bên trong (mắt, mũi, miệng) hoặc các đặc điểm bên ngoài (hình dạng đầu, chân tóc) được sử dụng cho một nhận dạng khuôn mặt Bộ não con người phân tích một hình ảnh và và mã hóa như thế nào? Theo nghiên cứu được bởi David Hubel và Torsten Wiesel , rằng não của chúng ta có tế bào thần kinh chuyên biệt phản ứng với từng hoàn cảnh cụ thể, chẳng hạn như đường, cạnh, góc độ hoặc chuyển động Vì chúng ta không nhìn thấy thế giới như những mảnh phân tán, vỏ não của chúng ta bằng cách nào đó phải kết hợp các nguồn thông tin khác nhau vào các mẫu hữu ích Nhận diện khuôn mặt tách ra những đặc điểm có ý nghĩa từ một hình ảnh, đưa chúng vào một sự biểu diễn hữu ích và thực hiện một số phân loại

Để thử nghiệm phương pháp chúng ta cần có một cơ sở dữ liệu ảnh mẫu Có ba

cơ sở dữ liệu ảnh mẫu phổ biến là:

 Cơ sở dữ liệu AT&T (còn gọi là cơ sở dữ liệu ORL): Nó gồm 400 ảnh của 40 người, mỗi người có 10 ảnh với các biểu hiện (nhắm/mở mắt, cười/không cười) và điều kiệu về hướng, ánh sáng khác nhau, các chi tiết trên khuôn mặt (có kính/không có kính) Cơ sở dữ liệu AT&T được sử dụng trong luận văn này

Trang 25

Hình1.5 Cơ s Cơ sở dữ liệu ảnh mặt người AT&T (ORL)

Trang 26

 Cơ sở dữ liệu Yale A gồm 15 ng

xám, có kích thước 320x243 px Mỗi ng

hiện trong điều kiện ánh sáng thay đổi (trực diện, ánh sáng b

phải), nét mặt (vui vẻ, buồn ngủ, b

kính/không có kính Cơ sở dữ liệu Yale đ

Hình1.6Một số

 Cơ sở dữ liệu Yale B, đ

2414 hình ảnh có 38 người khác nhau Trọng tâm c

 Hệ thống phát hiện tội phạm: camera đ

như: siêu thị, nhà sách, trạm xe bus, sân bay… Khi phát hiện đ

các đối tượng là tội phạm, hệ thống sẽ gửi thông điệp về cho trung tâm xử lý

 Hệ thốngtheo dõi nh

nhân viên và chấm công

ở dữ liệu Yale A gồm 15 người (14 nam và 1 nữ), các ảnh đều l

ớc 320x243 px Mỗi người có 11 hình ảnh Dữ liệu mỗi ng

ện trong điều kiện ánh sáng thay đổi (trực diện, ánh sáng bên trái, ánh sáng bên

ồn ngủ, bình thường, buồn, ngạc nhiên, nháy m

ở dữ liệu Yale được sử dụng trong luận văn này

ố hình ảnh cơ sở dữ liệu ảnh mặt người Yale A

ở dữ liệu Yale B, được gọi là mở rộng của cơ sở dữ liệu Yale

ời khác nhau Trọng tâm cơ sở dữ liệu ảnh n

ủa nhận dạng mặt người

ận dạng khuôn mặt có thể áp dụng rộng rãi trong nhi

ực tế khác nhau Đó chính là lý do mà bài toán này hấp dẫn rất nhiều nhóm nghi

ài Các ứng dụng liên quan đến nhận dạng mặt ngư

ệ thống phát hiện tội phạm: camera được đặt tại một số điểm công cộng

ạm xe bus, sân bay… Khi phát hiện được sự xuất hiện của

ội phạm, hệ thống sẽ gửi thông điệp về cho trung tâm xử lý

õi nhận sự trong một đơn vị: giám sát giờ ra v

ữ), các ảnh đều là ảnh ảnh Dữ liệu mỗi người thực

ên trái, ánh sáng bên

ên, nháy mắt) và có

ày

i Yale A

ở dữ liệu Yale A Nó gồm

ở dữ liệu ảnh này là thay đổi

ãi trong nhiều ứng dụng

ấp dẫn rất nhiều nhóm nghiên

ười chính vì thế

ợc đặt tại một số điểm công cộng

ợc sự xuất hiện của

ội phạm, hệ thống sẽ gửi thông điệp về cho trung tâm xử lý

ị: giám sát giờ ra vào của từng

Trang 27

 Hệ thống giao tiếp người máy: thay thế việc tương tác giữa người và máy theo cách truyền thống như: bàn phím, chuột…Thay vào đó là sử dụng các giao tiếp trực quan: biểu cảm khuôn mặt, dấu hiệu, cử chỉ bằng tay

 Hệ thống tìm kiếm thông tin trên ảnh, video dựa trên nội dung

 Các hệ thống bảo mật dựa trên thông tin sinh trắc học: mặt người, vân tay,…thay vì xác nhận mật khẩu, khóa,…

 Máy rút tiền nhận dạng khuôn mặt

1.4 Các hướng tiếp cận trong nhận dạng mặt người

Có hai hướng tiếp cận chính làm hạt nhân của các kỹ thuật phân tích đặc trưng mặt người: hướng tiếp cận hình học và hướng tiếp cận hình ảnh

 Hướng tiếp cận hình học sử dụng việc ánh xạ không gian các đặc trưng mặt

người Mặt người được phân loại theo khoảng cách hình học, theo đường bao và theo các góc giữa các điểm

 Hướng tiếp cận hình ảnh bao gồm việc xây dựng các mẫu từ những đặc

trưng mặt người Mẫucủa các đặc trưng nổi bật, hoặc thậm chí là toàn khuôn mặt được thiết lập, việc nhận dạng được thực hiệnbằng cách duyệt các khuôn mặt rồi tìm mặt nào khớp nhất với mẫu

Hiện nay các hệ thống nhận dạng mặt người vẫn đang tiếp tục được phát triển Dưới đây là một số phương pháp trích chọn đặc trưng:

Thuật toán Eigenface rất phổ biến và được sử dụng rộng rãi do sựđơn giản và

hiệu quả tính toán Thuật toán sử dụng cáchtiếp cận lý thuyết thông tin trong việc mã hóa các ảnh mặt người và xác địnhcác vector riêng tương ứng với giá trị riêng lớnnhất của ma trận hiệp phương sai của ảnh Sau đó, đối với mỗi nhómảnh của một người, ta

Trang 28

tính vector trung bình, một ngưỡng sẽ được chọnđể xác định khoảng cách chấp nhận được cựcđạitừ một ảnh đến nhómảnhgiúp nhận dạng những ảnh mới

Dưới góc độ lý thuyết thông tin, để nhận dạng mặt, ta phải tách được các thông tin thích hợp trong một ảnh mặt, mã hoá chúng, và tiến hành so sánh dữ liệu đã mã hoá với các ảnh mặt đã mã hoá khác trong cơ sở dữ liệu Một phương pháp đơn giản để tách các thông tin chứa trong một ảnh mặt là làm thế nào để phát hiện được sự khác biệt trong một tập hợp các ảnh mặt, độc lập với mọi đặc trưng, và sử dụng thông tin này để thực hiện mã hoá và so sánh giữa các mặt

Xét dưới góc độ toán học, để nhận dạng, ta phải tìm được các thành phần chính của sự phân bố các mặt, tức là các vector riêng của ma trận hiệp phương sai của các tập hợp các ảnh mặt, trong đó mỗi ảnh được coi như một vector trong không gian nhiều chiều Các vector này được sắp xếp có thứ tự, và mỗi vector đại diện cho mộttỉ

lệ khác biệt giữa các ảnh mặt

Những vector riêng này có thể được xem như là một tập hợp các đặc trưng, tạo nên các sự khác biệt giữa các ảnh mặt Mỗi vector riêng được biểu diễn thành một ảnh gọi là eigenface Các ảnh mặt được xây dựng lại từ các vector riêng bằng phép kết hợp tuyến tính giữa các eigenface Để khôi phục lại những ảnh mặt này, ta chỉ cần sử dụng một số vector riêng lớn nhất, tức là những vector riêng ứng với những giá trị riêng lớn nhất Với M vector riêng lớn nhất, ta có thể tạo ra được một không gian con M chiều

có khả năng mô tả được tất cả các mặt trong cơ sở dữ liệu

Quá trình trích chon đặc trưng sử dụng Eigenface có thể được mô tả trong một

số bước như sau:

Bước khởi tạo:

- Nhập tập các ảnh mặt ban đầu làm cơ sở dữ liệu

- Tính các eigenface từ cơ sở dữ liệu, chỉ giữ lại M eigenface tương ứng với M giá trị riêng lớn nhất M ảnh này được gọi là không gian mặt (face space) Nếu thêm vào cơ sở dữ liệu mộtmặt mới, quá trình tính toán các eigenface sẽ được thực hiện lại

- Tính sự phân bố trong không gian M chiều này của các mặt bằng phép chiếu lên không gian mặt

Trang 29

Tính toán các Eigenface:

Cho ảnh vào đã mức xám I(x,y) kích thước N x N Với mỗi ảnh kích thước N x

N, có thể được xem như một vector kích thước N2, tức là một điểm trong một không gian N2 chiều

Các ảnh mặt, như đã trình bày, sẽ không phân bố ngẫu nhiên trong không gian

N2 chiều này, mà sẽ tập trung tại một số điểm, và do đó có thể mô tả không gian các ảnh mặt này bởi một không gian con có số chiều nhỏ hơn rất nhiều Ý tưởng chính sử dụng phương pháp phân tíchthành phần chính (phép biến đổi Karhunen-Loeve mở rộng) là

để tìm các vector tốt nhất đại diện cho sự phân bố các ảnh mặt trong toàn bộ không gian ảnh mặt Những vector này sẽ tạo thành một không gian các ảnh mặt, là không gian mặt (face space) Mỗi vector có độ dài N2 và được tạo thành bởi sự kết hợp tuyến tính của các ảnh đầu vào Bởi vị những vector này là các vector riêng của ma trận hiệp phương sai các ảnh đầu vào và những vector này khi biểu diễn tương tự như các mặt, nên chúng được đặt tên là các eigenface

Gọi các ảnh mặt đầu vào là 1,2,…,N Giá trị trung bình của các ảnh được tính bởi ảnh trung bình  M 

k k

1

 .Khoảng cách từ mỗi ảnh tới ảnh trung bình là

i =i -  Phép phân tích các thành phần chính sau đó được áp dụng trên không gian

tạo bởi các vector này, tìm ra M vector trực giao u n biểu diễn sự phân bố của dữ liệu

Vector thứ k, u k, được chọn sao cho:

0,

kl nÕu

1,

lk k

Với A = [12 … M] Tuy nhiên, ma trận A là ma trận vuông kích thước N2 x

N2, do đó việc tính các vector riêng và giá trị riêng của ma trận này là một điều cực kỳ

Trang 30

phức tạp và tốn kém Do đó, ta sẽ tìm phương pháp tính các giá trị này một cách đơn giản hơn

Nếu số điểm dữ liệu trong không gian ảnh mặt là nhỏ hơn nhiều so với số chiều của không gian (M <<N2), thì sẽ chỉ có M–1 vector riêng có nghĩa chứ không phải N2(Những vector riêng còn lại là tương ứng với các giá trị riêng = 0) Như vậy ta có thể giải bài toán tìm các vector riêng và trị riêng của ma trận N2 x N2, bằng cách xử lý với

ma trận M x M., với M << N2

Gọi vi và I lần lượt là vector riêng và trị riêng của ma trận AT.A, ta có:

i i i

T

v Av

Nhân 2 vế với A, ta có:

i i i T

Av Av

Như vậy, Avi là vector riêng của ma trận C = A.AT, tương ứng với trị riêng i

Và để tìm vector riêng của C, ta chỉ cần tìm các M vector riêng vl của ma trận L =

AT.A Từ những vector này, ta xây dựng các eigenface ul:

u

1

Và như thế, độ phức tạp tính toán đã được giảm đi rất nhiều, từ N2 xuống còn M

1.4.2 Trích chọn đặc trưng sử dụng mô hình Markov ẩn

Mô hình Markov ẩn phân loại một đặc trưng mặt người bằng tính chất của

chuỗi Markov Một dãy ngẫu nhiên các biến lấy trên các giá trị điểmảnh tương ứng

tạo nên chuỗi Markov, nếu xác suất để hệ thống đạt trạng thái x n+1 tại thời điểm n+1 chỉ phụ thuộc vào xác suất để hệ thống đạt trạng thái x n tại thời điểm n Trong một

chuỗi Markov, việc chuyển hệ thống từ trạng thái này sang trạng thái khác tương ứng với một xác suất nàođó, nhưng kết quả của một ký hiệu ra lại xác định được trước Như vậy, kết quả là một phân bố xác suất của tất cả các ký hiệu ra tại mỗi trạng thái

và kết quả này được dùngđể so sánh giữa hai khuônmặt

Trong sự phát triển của một HMM cho bài toán nhận dạng khuôn mặt, số các trạng thái ẩn đầu tiên cần được quyết định để thiết lập một mô hình, sau đó một trạng thái ẩn có thể huấn luyện HMM để học xác suất chuyến hóa giữa các trạng thái từ các

Trang 31

ví dụ trong mỗi ví dụ được biểu diễn như là một chuỗi quan sát Mục đích huấn luyện một HMM là làm tối đa xác suất quan sát huấn luyện dữ liệu bằng cách điều chỉnh các tham số trong một HMM với phương pháp phân đoạn chuẩn Viterbi và các thuật toán Baum-Welch Sau khi HMM được huấn luyện, xác suất đầu ra của một quan sát xác định được lớp mà nó thuộc vào

Bằng trực giác, một ảnh khuôn mặt có thể được phân chia thành các vùng khác nhau ví dụ như trán, mắt, mũi, miệng và cằm Một ảnh khuôn mặt có thể được nhận dạng bởi một tiến trình mà các vùng đó được quan sát theo một thứ tự thích hợp(từ trên xuống dưới, từ trái qua phải) Thay vì dựa vào sự liên kết xác đáng như một đối sánh mẫu hay các phương pháp dựa trên cơ sở diện mạo(ở đó các đặc trưng khuôn mặt như mắt và mũi cần được sắp thẳng hàng về các điểm tham chiếu), cách tiếp cận này

cố gắng liên kết các vùng thuộc khuôn mặt với các trạng thái của HMM mật độ liên tục Các phương pháp dựa trên cơ sở HMM thường xem xét một mẫu khuôn mặt như một chuỗi các vector quan sát, ở đó mỗi vector là một mảng pixel, được thể hiện trong hình 1.7a Với các mẫu khuôn mặt, các biên giữa các mảng pixel được biểu diễn bởi phép biến đổi xác suất giữa các trạng thái, như thể hiện trong hình 1.7b, và dữ liệu ảnh trong phạm vi một vùng được mô hình hóa bởi phân phối Gaussian nhiều biến thể Một chuỗi quan sát bao gồm tất cả các giá trị cường độ từ mỗi khối Các trạng thái đầu

ra tương ứng với các lớp mà các quan sát phụ thuộc vào Sau khi HMM được huấn luyện, xác suất đầu ra của một quan sát xác định lớp mà nó phụ thuộc vào Các HMM cũng được áp dụng cả nhận dạng và khoanh vùng khuôn mặt

Samaria đã thể hiện các trạng thái của HMM, ông ta đã huấn luyện các tương ứng tới các vùng thuộckhuôn mặt Nói cách khác, mỗi trạng thái là nguyên nhân gây ra biểu thị đặc điểm các vector quan sát vùng trán và các trạng thái khác là nguyên nhân gây ra biểu thị đặc điểm các vector quan sát mắt Để định vị khuôn mặt, một HMM được huấn luyện cho một mô hình tổng quát của các khuôn mặt người từ một tập ảnh lớn khuôn mặt Nếu khả năng xảy ra khuôn mặt thu được cho mỗi mẫu hình chữ nhật trong ảnh mà lớn hơn ngưỡng, thì khuôn mặt được định vị

Samaria và Young đã áp dụng các HMM một chiều và giả hai chiều để trích chọn đặc trưng khuôn mặt và nhận dạng khuôn mặt Các HMM của họ khai thác cấu trúc của một khuôn mặt để bắt tuân theo các ràng buộc trên các phép biến đổi trạng

Trang 32

thái Từ các vùng khuôn mặt quan trọng như tóc, trán, mắt mũi và miệngxuất hiện theo

tự nhiên từ đến cuối, mỗi vùng đó được ấn định tới một trạng thái trong HMM một chiều liên tục Hình 1.7b chỉ ra 5 trạng thái ẩn.Để huấn luyện, mỗi ảnh được phân đoạn giống nhau, từ đầu đến cuối thành 5 trạng thái (mỗi ảnh được phân thành 5 vùng có kích thước bằng nhau và không chờm lên nhau).Đoạn giống nhau được thay thế bởi phân đoạn Viterbi và các tham số trong HMM được ước lượng lại sử dụng thuật toán Baum-Welch Mỗi một ảnh khuôn mặt với chiều rộng W và chiều cao H được phân chia thanh các khối chồng lên nhau với chiều cao L và chiều rộng W Có P hàng giữa các khối chồng lên nhau giữa các khối liên tiếp theo hướng đứng Các khối đó thành lập một chuỗi quan sát khuôn mặt và HMM đã huấn luyện được sử dụng để xác định trạng thái đầu ra

Hình 1.7 Mô hình Markov cho định vị khuôn mặt:

(a)Các vector quan sát; (b)Các trạng thái ẩn

Nefian và Hayes đã áp dụng các HMM và phép biến đổi KL để định vị và nhận dạng khuôn mặt Thay vì sử dụng các giá trị cường độ hàng, các vector quan sát bao gồm các hệ số (của KLT) được tính toán từ các vecto đầu vào Các kết quả thực nghiệm của họ trên nhận dạng khuôn mặt cho thấy tỷ lệ nhận dạng tốt hơn.Trong CSDL ảnh của MIT, chứa 432 ảnh, mỗi ảnh có duy nhất một khuôn mặt, hệ thống HMM giả hai chiều này đã thành công với tỷ lệ 90%

Rajagopalan đã đề nghị hai phương pháp xác suất.Phương pháp đầu tiến sử dụng thông tin thống kê thứ tự cao hơn(HOS) để ước lượng mật độ Tương tự, cả các phân phối chưa biết củakhuôn mặt hay không phải khuôn mặt được phân cụm sử dụng

6 hàm mật độ dựa trên cơ sở các thông tin thống kê thứ tự cao hơn của các mẫu Như trong, sự nhận thức đa mức được sử dụng cho phân lớp, và vector đầu vào gồm có 12

Trang 33

độ đo khoảng cách giữa các mẫu ảnh và 12 cụm mô hình Phương pháp thứ hai sử dụng một HMM để học các phép biến đổi khuôn mặt thành không phải khuôn mặt và không phải khuôn mặt thành khuôn mặt trong một ảnh Cách tiếp cận này dựa trên cơ

sở sinh một chuỗi quan sát từ các ảnh và học các tham số HMM tương ứng với chuỗi này Các chuỗi quan sát được học đầu tiên được sinh bởi tính khoảng cách của ảnh con tới tâm của 12 tâm cụm khuôn mặt và không phải khuôn mặt đã ước lượng trong phương pháp đầu tiên Sau khi học đầy đủ, chuỗi trạng thái trực quan được xử lý phân lớp nhị phân.Các kết quả thực nghiệm cho thấy cả phương pháp HOS và HMM đều có

tỷ lệ tìm cao nhưng lại nhiều lỗi cảnh báo

1.4.3 Mẫu nhị phân cục bộ (LBP)

LBP là một toán tử kernel 3×3, nó tổng quát hóa cấu trúc không gian cục bộ của một ảnh.Ojala và các đồng nghiệp đã giới thiệu phương pháp LBP và chỉ ra khả năng phân tách cao của chúng cho sự phân lớp vân Bởi vì khả năng phân tách và chi phí tính toán thấp, LBP trở nên rất phổ biến trong nhận dạng mẫu LBP đã được áp dụng cho phát hiện khuôn mặt, nhận dạng khuôn mặt, xác thực khuôn mặt, truy vấn ảnh

Mô tả kết cấu (Texture descriptor)

LBP ban đầu xuất hiện như một mô tả kết cấu tổng quát Tại một vị trí pixel (xc,

yc) cho trước, LBP được định nghĩa như một chuỗi nhị phân có trật tự dựa trên sự so sánh giá trị độ xám của pixel trung tâm (xc, yc) và 8 pixel lân cận của nó Như vậy mỗi pixel sẽ được biểu diễn bởi một chuỗi nhị phân, giá trị thập phân của chuỗi nhị phân này chính là giá trị của pixel trung tâm trong sự biểu diễn bởi toán tử LBP Hình 1.minh họa sự tính toán giá trị LBP

Hình 1.8Ví dụ sự tính toán LBP

Trang 35

Giá trị thập phân của của chuỗi LBP có thể đ

( ,

Với gc là giá trị độ xám của pixel trung tâm

thứ p trong lân cận 8 của pixel trung tâm H

(Mẫu nhị phân cục bộ mở rộng

ị độ xám của pixel trung tâm (xc, yc), gplà giá trị độ xám của pixel

ận 8 của pixel trung tâm Hàm s được định nghĩa như sau:

( ) = 1 ≥ 0

0 < 0

ẫu nhị phân cục bộ mở rộng

ở rộng toán tử LBP đến một lân cận tròn với các bán kính khác nhau

pixels lân cận trên một vòng tròn có bán kính R

Minh họa toán tử LBP mở rộng vớị P và R khác nhau.

ếu tọa độ của pixel tâm là (xc, yc) thì tọa độ của P pixel lân cận tr

R (tính theo đường tròn lượng giác) là:

= + (2 )

2, p = {0, 1, … , P − 1}

Trang 36

Trong trường hợp các điểm đang xét không phải l

sẽ được nội suy.Khoa học máy tính có r

sử dụng phép nội suy song tuyến tính (bilinear interpolation)

ờng hợp các điểm đang xét không phải là tâm của điểm ảnh, điểm đó

máy tính có rất nhiều thuật toán nội suy, trong luận văn n

ử dụng phép nội suy song tuyến tính (bilinear interpolation)

] (0,0) (0,1)(1,0) (1,1)

1 −

ợc định nghĩa bất biến đối với bất kỳ sự biến đổi độ sáng, chúng ta có

Hình1.11

LBP giống nhau với các độ sáng khác nhau

ẫu đồng nhất (uniform patterns)

Năm 2002 Ojala và các đồng nghiệp trong nghiên cứu của mình

ệm mẫu đồng nhất.Một mẫu nhị phân được gọi là đồng nhất khi xét chuỗi bit xoay

à 2 lần thay đổi (transitions) từ giá trị bit 0 sang 1 hoặc từ giá

Ví dụ mẫu đồng nhất và mẫu không đồng nhất

ủa điểm ảnh, điểm đó

ất nhiều thuật toán nội suy, trong luận văn này

(1.10)

ợc định nghĩa bất biến đối với bất kỳ sự biến đổi độ sáng, chúng ta có

ình đã đưa ra khái ồng nhất khi xét chuỗi bit xoay

ừ giá trị bit 0 sang 1 hoặc từ giá

t

Trang 37

Đồng nhất là một khái niệm quan trọng trong ph

diện cho thông tin cấu trúc nguy

tử LBPP,R đồng nhất được kí hiệu l

mẫu có tối đa hai sự chuyển đổi (mẫu đồng nhất l

đồng nhất Có hai mẫu không có sự chuyển đổi n

đồng nhất được gán một nh

vậy nếu dùng LBP8,1 thì sẽ có 256 mẫu, trong đó có 58 mẫu đồng nhất, n

của ( , )là 59

Hình

ột khái niệm quan trọng trong phương pháp LBP b

ện cho thông tin cấu trúc nguyên thủy như đường, cạnh hoặc góc (xem

ợc kí hiệu là ( , ) Với chuỗi LBP có chiều d

ẫu có tối đa hai sự chuyển đổi (mẫu đồng nhất là) P(P-1) có tối đa

ồng nhất Có hai mẫu không có sự chuyển đổi nào là mẫu toàn 0 ho

ợc gán một nhãn, tất cả các không đồng nhất được gánchung1 nh

ẽ có 256 mẫu, trong đó có 58 mẫu đồng nhất, n

Hình1.1358 Mẫu đồng nhất của ( , )

ương pháp LBP bởi vì nó đại ờng, cạnh hoặc góc (xem Hình1) Toán

ới chuỗi LBP có chiều dài P thì số

ối đa P(P-1)+2 mẫu

àn 0 hoặc 1.Mỗi mẫu

ợc gánchung1 nhãn Như

ẽ có 256 mẫu, trong đó có 58 mẫu đồng nhất, nên số chiều

Trang 38

Áp dụng LBP mô tả khuôn mặt

Việc áp dụng mô tả khuôn mặt bằng LBP được Ahonen [3] và các cộng sự thực hiện năm 2006.Ý tưởng của phương pháp là chia hình hảnh khuôn mặt thành các khối, sau đó tính toán các histogram tương ứng với các khối.Cuối cùng kết hợp các histogram này lại với nhau để có được vector đặc trưng cho khuôn mặt

Hình1.14 Trích rút đặc trưng khuôn mặt bằng LBP 1.4.4 Phương pháp phân tích thành phần chính

Trong phương pháp phân tích thành phần chính(PCA  còn gọi là biến đổi

Karhunen-Loeve), tập dữ liệu được biểu diễn lại với số đặc trưngít hơn đồng thời giữ được hầu hết các thông tin quan trọng nhất của dữ liệu.PCA thườngđược sử dụng cùng phương pháp mặt riêng.Tập con các vector riêng được dùng làm các vector cơ sở của một không gian con, trong đó ta có thể so sánh vớicác ảnh trong cơ sở dữ liệuđểnhận dạng các ảnh mới Các vector cơ sở này còn được gọi là các thành phần chínhcủa cơ sở

dữ liệu ảnh

Nội dung phương pháp này sẽ được trình bày cụ thể trong chương 2 của luận văn

Trang 39

CHƯƠNG 2 NHẬN DẠNG KHUÔN MẶT DỰA TRÊN PCA-LDA VÀ MẠNG NƠRON Vấn đề phát hiện mặt được đưa ra đầu tiên vào những năm 70 với việc sử dụng các kỹ thuật nhân trắc học và các phép heuristic giản đơn Với những kỹ thuật này, ta chỉ có thể đạt được kết quả trong những điều kiện khá chặt, ví dụ như nền ảnh đồng nhất, khuôn mặt chụp thẳng, Cho đến ngày nay, cùng với sự phát triển vượt bậc của khoa học kỹ thuật, việc yêu cầu những giới hạn như thế là không còn Tuy nhiên, cùng với những yêu cầu ngày càng cao, thìvấn đề phát hiện mặt người đang phải đối mặt với những khó khăn mới Trong suốt quá trình từ những năm đầu tới nay, đã có rất nhiều các hướng xử lý và tiếp cận khác nhau được đưa ra nhằm giải quyết cho những yêu cầu cụ thể khác nhau của từng giai đoạn, từng ứng dụng cụ thể và cũng có nhiều cách phân loại các phương pháp, hướng tiếp cận này Trong luận văn này, chúng ta sẽ nghiên cứu phương pháp nhận dạng mặt người dựa trên phương pháp trích chọn đặc trưng PCA và biến đổi LDA, sau đó các đặc trưng này sẽ được nhận dạng bằng mạng nơron nhân tạo

2.1 Phương pháp phân tích thành phần chính (PCA)

Vào cuối những năm 1980, Sirovich và Kirby đã phát triển một kỹ thuật để có thể biểu diễn hiệu quả các mặt người, được gọi là phương pháp phân tích các thành phần chính (PCA –Principle Component Analysis).Với một bộ dữ liệu mặt người, đầu tiên, ta tiến hành tính các thành phần chính của sự phân bố các mặt, biểu diễn dưới dạng các vector riêng (của ma trận hiệp phương sai của sự phân bố).Mỗi mặt trong tập

dữ liệu sau đó được xấp xỉ bằng cách kết hợp tuyến tính các vector riêng lớn nhất (không gian vector) cùng với các trọng số tương ứng của chúng

Mụcđích của phương pháp phân tích này có thể diễnđạt ngắn gọn như sau:Ảnh gốc có kích thước 112×92 (10304 điểmảnh).Nhữngảnh này cầnđượcrút gọn sao cho lượng thông tin dùng để biểu diễnảnhđó giảmđi,đồng thờikhông làm mất những đặcđiểm quan trọng nhất của khuôn mặt Kết quảcủa việc phân tích này sẽđạt đượcnhư hình 2.1

Trang 40

Hình 2.1 Ví dụ minh họa PCA

Ảnh gốc cần 10304 giá trị để biểu diễn trong khi ảnh biến đổi chỉ cần49 giá trị

Hình 2.2: Một số không gian riêng của cơ sở dữ liệu ảnh ORL