1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng ảnh mặt người sử dụng mạng nơron

65 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận Dạng Ảnh Mặt Người Sử Dụng Mạng Nơron
Tác giả Võ Phúc Nguyên
Người hướng dẫn PGS. TS. Nguyễn Thanh Thủy
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn Thạc Sĩ Khoa Học
Năm xuất bản 2009
Thành phố Hà Nội
Định dạng
Số trang 65
Dung lượng 4,23 MB

Nội dung

Với hai tập dữ liệu trên, việc tính độ ệch chuẩ được thực hiệ l n n như bảng 2.1.. Tập thứ nhất có độ ệch chuẩ ớ l n l n hơn do dữ liệu trải ra xa hơn so với điểm trung bình.. Ví dụ, xét

Trang 2

M c l c

Lời cam đoan 1

Danh mục các từ viết tắt 2

Danh mục các bảng 3

Danh mục các hình vẽ ồ ị, đ th 4

Lời cảm ơ 5n Chương 1: Mở đầ u 6

1.1 Giới thiệu chung 6

1.2 Bố ụ c c luận văn 8

Chương 2: Trích chọ ặn đ c trưng 10

2.1 Ph ng pháp phân tích thành ph n chínhươ ầ 10

2.1.1 Cơ ở s toán học 11

2.1.2 Ph ng pháp PCAươ 20

2.2 Ph ng pháp phân tách tuyươ ến tính 27

2.3 Ph ng pháp x lý hình tháiươ ử 30

2.3.1 Biế ổn đ i trúng-trượt (hit-or-miss) 32

2.3.2 Phép dãn nh và co nh t ng quátả ả ổ 35

2.3.3 Dãn và co ảnh đa mức xám 42

Chương 3: Mạng ron nơ 44

3.1 Giới thiệu mạng nơron 44

3.1.1 Nơron – đơ ị ửn v x lý c b n 44ơ ả 3.1.2 Liên kết giữa các nơron 45

3.1.3 Hàm kích hoạt và các quy tắc xác định tín hi u raệ 46

3.1.4 Quy tắc delta 47

3.2 Thuật toán học lan truyền ngược 49

Chương 4: Thiết kế và đánh giá 54

4.1 Thiết kế ệ h thống 54

4.1.1 Cơ ở ữ ệ s d li u nhả 54

4.1.2 Môi trường cài đặt 55

4.1.3 Cài đặt 55

4.2 Ki m thể ử và đánh giá 58

Kết luậ 60n

Trang 3

L ời cam đoan

Tôi xin cam đoan luận văn “Nhậ n d ng nh m t ngư i s d ng m ng ạ ả ặ ờ ử ụ ạ

nơron” n là côày ng trình nghi n cứ ủê u c a êri ng t i C c s li u s d ng trong ô á ố ệ ử ụ

luận v n l trung thă à ực á C c k t quảế nghi n c u đư c ê ứ ợ trình b trong luày ận v n ă

chưa từng được công bố ạ ấ t i b t kỳ công trình nào ákh c

Võ Phúc Nguyên

Trang 4

Danh mục c vi cá t ừ ế ắ t t t LDA (Linear Discriminant Analysis : Phương pháp phân tách tuyến tính )

LMS (Least Mean Squ e): Phương ph b ar áp ình phương trung bình ố t i thiểu

ORL (Olivetti Research Laboratory, Surrey University): Cơ sở ữ d liệu

ảnh dùng trong lu n văn ậ

PCA (Principal Components Analysis): Phương pháp phân tích thành

phần chính

Trang 5

Danh mục các bả ng

Bảng 2.1 Tính toán độ ệ l ch chu n 13ẩ

Bảng 2.2 Tập dữ liệu hai chiều và tính toán hi p ph ng saiệ ươ 15Bảng 4.1 Các module chính của chương trình 55

Trang 6

Danh m c các hình v ụ ẽ ồ , đ th ị

Hình 1.1 Mô hình hệ thống nhận dạng mặt ngườ 6i Hình 2.1 Ví dụ minh h a PCA 11ọ Hình 2.2 Ví dụ vector th ng và vetor riêng 18ườ

Hình 2.3 Ví dụ ề ự ổ ị v s n đ nh của vector riêng đối với việc lấy tỉ ệ l 19

Hình 2.4 Dữ ệ li u và đ th biểồ ị u di n dễ ữ ệ li u 21

Hình 2.5 Đồ ị ể th bi u di n d li u đã chu n hóa v i các vector riêng 23ễ ữ ệ ẩ ớ Hình 2.6 nh g c trong cẢ ố ơ s d ở ữliệu ORL 26

Hình 2.7 nh sau khi biẢ ến đổi theo PCA 26

Hình 2.8 Ví dụ minh h a LDA 27ọ Hình 2.9 nh sau khi biẢ ến đổi theo LDA 30

Hình 2.10 Sự liên thông 31

Hình 2.11 Phép dãn nh nhả ịphân 34

Hình 2.12 Phép co nh nhả ịphân 35

Hình 2.13 Các toán tử đạ i số ảnh trên các m ng nhả ị phân 36

Hình 2.14 Lật và dịch một mảng nhị phân 37

Hình 2.15 Phép dãn nh t ng quát d a theo phép c ng Minkowskiả ổ ự ộ 39

Hình 2.16 So sánh các kết quả ủ c a hai phép co ảnh 41

Hình 2.17 Phép dãn nh và co nh t ng quát vả ả ổ ới phầ ử ấn t c u trúc 5×5 42

Hình 2.18 nh sau khi x lý hình thẢ ử ái 43

Hình 3.1 Các thành ph n cầ ơ ả b n của mạng n ron nhân tơ ạo 45

Hình 3.2 Một số ạ d ng hàm kích hoạt của nơron 46

Hình 3.3 M ng nạ ơron l l p ớ 49

Hình 4.1 nh g c trong bẢ ố ộ ả nh ORL 54

Hình 4.2 nh gẢ ốc được bổ sung ảnh gương 56

Hình 4.3 Giao di n chính cệ ủa chương trình 57

Trang 7

L i c m n ờ ả ơ

Tôi xin cả ơn Việ Đào tạ Sau đạ ọ , trường Đạ ọm n o i h c i h c Bách khoa Hà

N i t o iộ đã ạ đ ều kiệ cho t i hoàn thành luậ ăn nàyn ô n v

Tôi xin ch n thành ả ơn sự giúp đỡ ủ PGS TS Nguyễâ c m c a n Thanh Th y, ủViện Công ngh ệ thông tin và Truyền ôth ng, trườ ng Đại h c Bọ ách khoa Hà

N i ộ

Tôi xin cả ơn sự động vi n v giúp đỡ ủ ấ ả những ngườ thân trong m ê à c a t t c i gia đình, của các b n bè, đ ng ạ ồ nghiệ trong qu tr p á ìnhthự hiệ luậ ăn n c n n v ày

Võ Phúc Nguyên

Trang 8

Chương 1: M u ở đầ

1.1 Giới thiệu chung

Hiện nay, cùng vớ ựi s áph t tri n nh v b cể ư ũ ão a công ngh ôủ ệ th ng tin óin chung và s ự phát triển trong lĩnh vực th giị ác áy m n ê , cáói ri ng c hệ thố át ng ph

hiện và ậ ạnh n d ng m t ặ ngườ đi ang ngày àng c có ề ứnhi u ng ng dụ trong thự ếc t

như ấ đề v n an ninh, nhận dạng người dùng trong các hệ thống ả b o mật, nhận

dạng ngườ trên c bằng ái xe, hộ chiế , nhậ ạng ngườ trong c c hệ thốngi cá l u n d i á

tương tác người-máy, trong lĩnh vự giả trc i í…

Đặc bi t sau th m h a ngày 11/9, các chính ph trên toàn thệ ả ọ ủ ế giới đã bắt

đầu chú ý hơn tới các m c an ninh sân bay và biên gi i Ngân sách h ng ứ ở ớ ằnăm của các nư c đã tăng lên nhiớ ều cho các k thu t hi n đ i đ xác đ nh, ỹ ậ ệ ạ ể ịnhận d ng và lạ ần theo các đối tượng nghi v n Nhu c u tăng lên trong các ng ấ ầ ứ

dụng này đã giúp các nhà khoa học có thêm quỹ để phát triển các dự án nghiên cứu Mặc dù việc nhận dạng mặt người không thể chính xác đư c như ợcác phương pháp nhận dạng khác như nhận dạng vân tay, nhưng nó vẫn nhận

được s quan tâm lớn của các nhà nghiên cứự u trong lĩnh vực th giác máy Lý ị

do chủ ế y u là trên thực tế, m t người vẫ là cách truyền thốặ n ng để con người nhận ra nhau

Một hệ thống nhận dạng ặ ngườ điể m t i n h ình bao gồm các thành phần chínhnhư hình 1 1

Trang 9

Có hai hướng tiếp cận chính làm hạt nhân của các k thuỹ ật phân tích đặc trưng m t ngưặ ời: hướng tiếp c n hình hậ ọc và hướng tiế ận hình ảnh p c

• Hướng ti p c n hình h cế ậ ọ s dử ụng việc ánh xạ không gian các đặc trưng m t ngưặ ời Mặt người được phân loại theo khoảng cách hình

học, theo đường bao và theo các góc giữa các điểm

• Hướng ti p c n hình nhế ậ ả bao gồm việc xây dựng các ẫ ừ những m u t

đặc trưng m t ngưặ ời M u c a các đ c trưng n i b t, ho c th m chí ẫ ủ ặ ổ ậ ặ ậ

là toàn khuôn mặt được thiết lập, vi c nh n d ng đư c thựệ ậ ạ ợ c hi n ệbằng cách duyệt các khuôn mặt rồi tìm m t nào kh p nh t v i m u ặ ớ ấ ớ ẫHiện nay các hệ ố th ng nh n dậ ạng mặt người vẫn đang tiếp tục được phát triển Dư i đây là mớ ột số phương pháp trích ch n đ c trưng: ọ ặ

- M t êặ ri ng (Eigenface)

- Mô h Mình arkov ẩn

- Ph n tích thành phầ chính (PCA)â n

Thuật toán Eigenface rất phổ biến và được sử ụng r ng rãi do d ộ s ự đơn

giản và hi u qu tính toán Thuệ ả ật toán sử ụ d ng cách tiếp c n lý thuyậ ết thông tin trong việc mã hóa các ảnh mặt người và xác đị các vect êng tươnh or ri ng

ứng v i giá tr êớ ị ri ng l n nh t c a ma tr n hi p phương sai c a nh Sau đó, ớ ấ ủ ậ ệ ủ ả

đố ới v i m i ỗ nhóm nh c a m t ngư iả ủ ộ ờ , ta tính vector trung bình, m t ngư ng ộ ỡ

s ẽ được chọ đển xác định khoảng cách chấ nhậ đượ ự đạ ừ ột ảnhp n c c c i t m

đến nhóm nh giúp nh n d ng nh ng nh mới ả ậ ạ ữ ả

Mô hình Markov ẩn phân loại mộ ặt đ c trưng m t ngưặ ời bằng tính chất của chuỗi Markov Một dãy ng u nhiên các biẫ ến lấy trên các giá trị đ ể ả i m nh tương ứng t o nên chu i Markov, n u xác su t đ h th ng đ t tr ng thái xạ ỗ ế ấ ể ệ ố ạ ạ n+1

tại thời điểm n+1 chỉ phụ thuộc vào xác suấ ể t đ h ệ thống đạt trạng thái xn tại

Trang 10

thời điểm n Trong một chuỗi Markov, vi c chuy n hệ ể ệ ống từ ạng thái này th trsang trạng thái khác tương ứng ớ v i một xác suất nào đó, nhưng kết quả ủ c a

một ký hiệu ra ại xác địl nh đư c trư c Như vợ ớ ậy, k t qu là m t phân b xác ế ả ộ ốsuất của tấ ảt c các ký hi u ra tại mỗ ạng thái và kếệ i tr t quả n ày đư c dợ ùng để

so sánh gi a hai khuôn mữ ặt

Trong phương pháp phân tích thành phần chính (PCA − còn gọi là biến

đổi Karhunen-Loeve), t p dậ ữ ệ li u đư c biểợ u di n lễ ại i vớ s ố đặc trưng ít hơn

đồng th i gi đư c h u h t các thông tin quan tr ng nhất của dữ liệu PCA ờ ữ ợ ầ ế ọthường đư c s d ng cùng phương pháp m t êợ ử ụ ặ ri ng T p con các vector êậ ri ng

được dùng làm các vector cơ sở ủ c a m t không gian con, ộ trong đó ta có thể so sánh v i ớ các ả trong cnh ơ ở ữ ệ để s d li u nhận dạng các ảnh mới Các vector cơ

s ở này còn được gọi là các thành phần chính ủ c a cơ sở d ữ liệu ảnh

Mạng nơron được sử ụng rộng rãi trong các hệ thống nhận dạng mặt dngười K thu t mỹ ậ ạng nơron mô phỏng hoạ ột đ ng của các nơron trong b ộ não người Mạng nơron có kh năng điả ều ch nh các tr ng số ựỉ ọ d a ê átr n c c m u h c ẫ ọtrong quá trình huấn luyện Kết quả là mạng đạt được hiệu qu cao trong viả ệc phân loại các lớp, d a êự tr n dữ ệ li u m u kh tách tuyẫ ả ến tính ho c phi tuyặ ến

1.2 B c c ố ụ luận văn

M c dù cáặ c hệ thống nhận dạng ặ ngườ hiệ ạ đã đạ đượ hiệ quả m t i n t i t c u

khá cao, tuy nhiê chn úng v n còẫ n hạn ch là ch t p ế ỉ ậ trung vào m t ộ hay một

vài phương ph p trích chọ đặ trưng Cá n c ó h ệ thống chỉ thự hiệ nhậc n n dạng

d a êự tr n c c đặ đ ểá c i m v h h c c a m t ề ình ọ ủ ặ người hoặc có h ệ thống chỉ ự d a

trê án c c đặ đ ểc i m thống kê

Trong luận văn này, việc tr ọ đặích ch n c trưng s ẽ được thự hiệc n d a ên ự tr

nh ngữ c i m đặ đ ể thố kê c a ng ủ khuôn mặt ụ ể(c th là ương pháp ân tích ph ph

Trang 11

thành phần chính – PCA v phương pháp ph n táchà â tuyến t – ính LDA) và

nh ngữ c i m v h đặ đ ể ề ình thái ủ c a khuôn mặ Chương 2 trình àyt b v cáề c

phương pháp ích ch tr ọ đặn c trưng Chương 3 trình ày b v mề ạng oron n v i ớthuật toán h c ọ lan truyền ngư c l i, đư c dợ ỗ ợ ùng âđể ph n loạ ải nh Chương 4 trình b c ày ụ ể ệth vi c ết kế ệthi h ốngth và đánh giá ệu ả ựhi qu th c hi n Cu i ệ ố

cùng phầ ết luậ là n k n

Trang 12

Chương 2: Trích chọ đặc trưng n

Chương n s ày ẽ trình bày v c ề ác phương ph tr ọ đặáp ích ch n c tr ng được ư

s dử ụng trong luận v n M c ă ụ đích thứ nhất củ việ trích chọ đặ trưng la c n c à

giảm s ề ủ ữ ệố chi u c a d li u D li u ữ ệ ảnh m t ặ người có s i m ố đ ể ảnh l n ớ (cỡ v àinghìn đến vài ch ục nghìn i m đ ể ảnh do ), đó c n có mầ ột phép ế đổ đểbi n i ảm gilượng thông tin ử ụng để biể diễ đồng ờs d u n, th i ôkh ng làm mất quá nhiều

thông tin quan trọng Mụ đ ức ích th hai c a vi c ích chủ ệ tr ọ đặn c ưng là giúp tr

phân biệ ốt t t hơn đố ới v i c mác ẫu d li u áữ ệ C c ảnh m t ặ ngườ ẽi s ợc ểu đư bi

diễn trong một không gian mới sao cho có l n i b t thể àm ổ ậ đượ ực s khác biệt giữa các ảnh ớ nhau v i Các phầ sau ẽ trình ày ề phương pháp ph n tíchn s b v â

thành phần chính, phương pháp âph n tách tuyến tính và phương pháp x lý ử

h ình thái ảnh ặ m t người

2.1 P hươ ng ph á p p hâ n t ích ành th phầ n ch ính

Phương pháp ân tích ànhph th ần chính ph (PCA – Principal Components Analysis) là m t k ộ ỹ thuật thống kê hữu íchtrong c ứng dụ ác ng nhậ ạng ặn d m t người và n én nh, đồng ả thờ đây cũngi là một kỹ thuật phổ ếbi n cho vi c t ệ ìm

kiếm c mác ẫu trong không gian dữ u có s liệ ố chiề ớu l n

M c ụ đích ủ c a phương pháp ph n tích ày â n có thể diễ đạt ngắn n gọn nhưsau: nẢ h gốc có kích thước 112 92 (10304 đ ể ảnh Những ảnh× i m ) này c n ầ

được rút g n ọ sao cho lượng ôth ng tin dùng để biểu diễ ản nh đó giả đ đồm i, ng thời ôkh ng làm mất những c i m đặ đ ể quan trọng ấ ủnh t c a khu n m t Kô ặ ết quả

c a c âủ việ ph n tích ày ẽ đạ đượ như ình 2.1 n s t c h

Trang 13

H ình 2.1 V ụ minh họ PCAí d a

Ảnh g c c n ố ầ 10304 gi tr bi u di n trong khi nh bi n i ch c n 49 á ị để ể ễ ả ế đổ ỉ ầgiá trị

2.1.1 C s ơ ở toán h c ọ

a Lý thuyết thống kê

Các nh thốngà kê thường quan t m đế việ ấâ n c l y m u ên mẫ tr ột tập d uữ liệ

Ví dụ ề cuộc bầu cử, ậ ữ liệu là toàn ộ n số trong mộ ấ v t p d b dâ t đ t nước, trong khi đó mẫu là m t t p con củộ ậ a dân s nhà th ng kê muố ố ốn đánh giá Mộ ất v n

đề ớ l n c a th ng kê h c là thông qua phương pháp đánh giá m t m u c a dân ủ ố ọ ộ ẫ ủ

s kố, ết quả thống kê cho phép đánh giá được xu hướng chính của toàn ộ dân b

s ố

Xét một tập ví dụ X = [1 2 4 6 12 15 25 45 68 67 65 98] Chỉ ố dướ ủ s i c a

ký u hiệ X đượ ùng để trỏ ớc d t i một số ụ thể trong tậ Ví dụ X c p 3 ttrỏ ới số thứ

ba trong X v i ớ giá trị là 4 Lưu ý rằng X1 là số đầu tiên trong X Ngoài ra ký

Trang 14

Giá trị trung bình kh ng thể hiệ đượ nhiều về ữ liệu ngoại trừ điểm ô n c d trung bình Ví dụ, hai tập sau có cùng một giá trị trung bình là 10, nhưng chúng hoàn toàn khác nhau:

[0 8 12 20] và [8 9 11 12]

S ự khác nhau đó là sự trải rộng của dữ liệu Độ ệ l ch chu n ủa tập dữ ẩ c

liệu sẽ đánh giá đư c s ợ ự ảtr i rộng của dữ ệu.li lĐộ ệch chuẩn là khoảng cách trung bình từ ể đi m trung bình của dữ ệ li u đ n các đi mế ể Công thức t ính như sau:

s dử ụng n Tuy nhiên, nếu tính độ ệch chuẩ cho toàn bộ dân số, gi trị ầ l n á c n

dùng n chứ không phải (n là −1)

Với hai tập dữ liệu trên, việc tính độ ệch chuẩ được thực hiệ l n n như bảng 2.1 Tập thứ nhất có độ ệch chuẩ ớ l n l n hơn do dữ liệu trải ra xa hơn so với

điểm trung bình Một ví dụ khác, tập [10 10 10 10] cũng có điểm trung bình là

10, nhưng độ ệ l ch chuẩ ạn l i bằng 0, bởi vì tất cả các s là giố ống nhau Không

s ốnào chệch ra khỏi điểm trung bình

Phương sai là một hàm đo khác về ự ả ộ s tr i r ng củ ữ ệa d li u trong mộ ật t p Thực tế gnó n như gi ng hoàn ànầ ố to với độ ệ l ch chuẩn:

 = (  )

Trang 15

trải rộng của dữ ệu Độ ệli l ch chuẩ là phương pháp thông dụng hơn, n n bê

cạnh đó phương sai cũng được sử ụng d

Trang 16

Hai phươngpháp trên chỉ ử ụ s d ng được cho dữ liệu một chiề Tuy nhiên, u nhiều t p dậ ữ ệ li u l i có nhiạ ều hơn một chiều và m c đích c a việc phân tích ụ ủthống kê các tập dữ ệ li u này là nhằm tìm hiểu m i quan hố ệ giữa các chiều Ví

dụ, xét ập dữ liệu về chiều cao của các sinh viên trong một lớ và điểm số t p

của họ ề ột môn họ v m c nào đó Ta có thể n htiế ành phân tích thống kê xem

ảnh hư ng c a chi u ở ủ ề cao sinh vi n đ n i m s nh th n ê ế đ ể ố ư ế ào

Độ ệ l ch chu n và phương sai ch th c hi n trên m t chi u, do đó chúng ẩ ỉ ự ệ ộ ềcũng chỉ có th tính toán ợể đư c cho m i chi u củ ậỗ ề a t p dữ ệ li u một cách độ ậc l p với các chiều khác Tuy nhiên, n u có mế ột phương pháp đánh giá được sự biến đổi của các chiều từ giá tr ị trung bình của mỗi chiều khác, khi đó s rẽ ất

hữu ích đố ớ việ thống i v i c kê d u ữ liệ

Hiệp phương sai là một phương pháp như vậy Hiệp phương sai luôn đánh giá giữa hai chi u tính hiệp phương sai giữề Để a m t chi u với chính nó, ộ ề

có thể ử ụ s d ng phương sai V i mớ ột tập dữ ệ li u ba chiều (x, y, z), ta có thể đánh giá hiệp phương sai giữa các chi u xề và , giữa yy và , giữa zz và x

Công thức tính hi phệp ương sai g n ầ giống với công thức tính phương sai Công thức tính phương sai có thể được viế ại như sau:t l

() =  (  )(  )



(  1) (2.4) Tương tự, công th c tính hi p ph ng sai được viết ứ ệ ươ như sau:

( , ) =  (   )(  )



(  1) (2.5) Công th (2.5) t ng tức ươ ự công thức (2.4), ngoại trừ ở nhân tử ứ th hai, giá trị ủ c a X được thay bằng giá trị ủ Y Việc n có thể c a ày đư c di n đ t như sau: ợ ễ ạ

Trang 17

“Với mỗi điểm dữ liệu, tính tích củ ộa đ sai khác giữa giá trị x và giá trị trung bình của x, vớ ội đ sai khác gi a giá trữ ị y và giá trị trung bình của y Cộng tất

c v rả ào ồi chia cho (n−1)”

Ví d v i mụ ớ ột nhóm sinh viên, xét ổng số giờ ọ nh cho môn học A và t h dà

điểm s h t đư c ố ọ đạ ợ ởmôn đó Khi b đó ài toán có hai chiều, chiều thứ nhất là

H, số ờ ọ gi h c, chi u th hai là , điểề ứ M m s B ng 2 là ố ả 2 các s li u và vi c tính ố ệ ệtoán cov(H,M), hi phệp ương sai ữa th i gian hgi ờ ọc và điểm số

Bảng 2.2 Tập dữ liệu hai chiều và tính toán hi phệp ương sai

S ố giờ (H)

Điể m (M)

Trang 18

−3.92 4.08

−13.92 2.08

−8.92 5.08 2.08 6.08

−23.42

−6.42 30.58

−1.42

−12.42 12.58

−30.42 22.58

−20.42 7.58 3.58 17.58

115.23

−6.93 338.83

−0.11 48.69 51.33 423.45 46.97 182.15 38.51 7.45 106.89

Giá trị chính xác không quan tr ng bọ ằng dấ ủu c a nó (dương hay âm) Nếu giá trị là dương, nó ch ra r ng cảỉ ằ hai chi u cùng nhau tăng, ngh a là m t cề ĩ ộ ách

tổng quát, khi số giờ ọc tăng lên thì đi h ểm s ố cũng tăng lên

Nếu giá trị là âm, khi đó một chiều tăng lên, một chiều giảm đi Giá trị

hi phệp ương sai âm cho th y rấ ằng chúng đối lập nhau, khi số ờ ọgi h c tăng lên thì điểm s gi m đi ố ả

Trường hợp cuối cùng, ếu giá trị hiệ phương sai ằng 0, khi đó hai n p bchiề ộu đ c lập v i nhau.ớ

Trang 19

Kết quả điểm số tăng lên khi số giờ ọ h c tăng có thể d ễ dàng nhận thấy

bằng đồ thị Tuy nhiên, việc minh họa trực quan như vậy chỉ có thể thực hiện

được khi d li u có hai ho c ba chi u.ữ ệ ặ ề Vì giá trị ệp phương sai hi có thể được

tính giữa hai chiề ất kỳ u b trong một tậ ữ ệp d li u, nên kỹ thu t này thư ng đư c ậ ờ ợ

s dử ụng để tìm mối liên hệ giữa các chiều trong các tập dữ liệu nhiều chiều

mà vi c biệ ểu diễn trực quan g p ặ khó khăn

T ừ công thức tính cov X,Y trên, ằng ách đổi chỗ hai nhân tử ( ) b c(  )(  ) ta suy ra cov X,Y) = cov Y,X).( (

Hiệp phương sai chỉ đánh giá đư c quan hợ ệ giữa hai chi u N u dề ế ữ liệu có

nhiều hơn hai chiều, có th có nhiể ều hơn một giá trị ệp ương sai được hi ph

tính Ví dụ, từ ộ ập dữ li m t t ệu ba chiều (x, y, z) ta có thể tính cov(x,y), cov y,z) (

và cov(z,x) ới một tập dữ liệu nV chiều, s ẽ có !

( )! á p gi trị hiệ phương sai khác nhau

Các giá trị hiệ ph p ương sai ữa tất cả các chiều khác nhau đượ ính toángi c t

rồi đưa vào một ma trận a trận hiệ phương sai ủa một tập dữ liệu n chiều M p c

là:

  × = , =, (2.6)

ở đây Cn n × là ma trận n hàng n ột và Dim, c i là chiều thứ i Toàn bộ công thức

trên có nghĩa là v i mớ ột tập dữ liệu n chiều, ma tr n hiệậ p phương sai c a d ủ ữ

liệu là ma tr n nậ hàng cộ (ma trậ, n t n ôvu ng) i phần tử ạvớ t i hàng i, c j ột là giá

trị ệ hi p phương sai giữa hai chiều ứ và th i thứ j

Ví dụ: Ma trận hiệp ương sai c a mph ủ ột tập dữ liệu ba chiều, với các

chiều là x, y z là ma trvà ận có 3 hàng 3 c t vớ, ộ i các giá trị như sau:

Trang 20

Một số điểm chú ý: Trên đường chéo chính, các giá tr chính là ị hiệp

phương sai ữa một chiều và chính nó, đó là ương sai của chiều đó Điểm gi ph

thứ hai là, vì cov(a,b) = cov b,a) nên ma trận hiệ phươn( p g sai là ma trận đối

xứng qua đường chéo chính

ma trận biến đổi Nếu nhân ma tr n này vào phía trái c a vector, kậ ủ ết quả ẽ s là

một vector khác đã được biến đổi từ ị trí gốc của nó Vector này (và tất cả v

Trang 21

các bội số ủ c a nó, vì chi u dài c a vector không ề ủ ảnh hưởng đến kết qu ) là ả

một vector riêng ủa ma trận biế ổ c n đ i đó

Các vector ri ng c ê ó một số ính chất Thứ nhất, vector ri ng chỉ có thể t ê

được xác nh ợ đố ớđị đư c i v i các ma tr n vuông hông phậ K ải m i ma tr n ọ ậvuông đều có vector ri ng ê Nếu một ma tr n ậ n n× có vect êor ri ng thì số ợ lư ng

đó là n

Thứ hai, khi nh n vector ri ng i m t sâ ê vớ ộ ố n ào đó, vector kết quả ẫ v n sẽ

bằng đúng số ầ l n như vậy của vector gốc (hình 2.3 Lý ) do l khi lấy một tỉ ệà l nào đó của vector, chỉ đơn giản độ dài c a nó b ủ ị thay đổi, không ảnh hưởng

đến chi u c a vector Cu i cùng, m i vector êề ủ ố ọ ri ng a m t ma tr n là tr c củ ộ ậ ựgiao, nghĩa là chúng vuông góc với nhau, bất kể ữ d liệu có bao nhiêu chi u ềĐiều này r t quan tr ng b i vì nó có ý nghĩa l n ấ ọ ở ớ khi biểu diễn dữ liệu theo các vector tr c giao này thay vì bi u diự ể ễn theo các trục và x y

đã xuất hiện m t giộ á trị ê Trong cảri ng hai ví d trên, s l n vector gốụ ố ầ c được tăng lên sau khi nhân với ma tr n vuông ậ luô ố địn c nh, s l n n ố ầ ày là 4 Vậy 4

là giá trị êri ng ngứ v i ớ vector ri ng ê đó Không c n biầ ết b i sộ ố nào của vector

ri ng ê đã đượ ấc l y trước khi đem nhân với ma trận vuông, vector kết quả ận nhđược ôlu n bằng 4 lần vector gốc (hình 2.3)

Hiện nay có rất nhi u th vi n toề ư ệ án h c h ọ ỗ trợ việc t cáìm c vect êor ri ng và

giá trị êri ng c a cáủ c ma trậ , v ụn í d gói ph ần m m wề ne mat tr n trang web ê

Trang 22

http://webnz.com/robert/, hay cá b côc ộ ng c trong thụ ư vi n l p ệ ậ trình của

một số bướ ơ ả sau:c c b n

Bướ c 1: L y d li u ấ ữ ệ

Để có th v th minh h a tr c quan vi c phân tích PCA theo t ng ể ẽ đồ ị ọ ự ệ ừ

bước, d li u ữ ệ trong ví dụ ẽ s có hai chi u D liề ữ ệu được cho hình 2.ở 4

Bướ c 2: Hi u chỉ ệ nh theo giá tr trung bình ị

Để t ính PCA thu n l i, cáậ ợ c gi tr êá ị tr n m i chi u c a d li u s đư c tr ỗ ề ủ ữ ệ ẽ ợ ừ

đi giá tr ị trung bình a chi u đó T t c các giá tr bcủ ề ấ ả ị x ị ừ tr đi  (trung bình giá trị cx ủa tấ ảt c các đi m) và tấ ảể t c các giá tr bịy ị trừ đi  (trung bình giá trị

y của tất cả các điểm) ập dữ liệu nhận được có giá trị trung bình là 0 T

Bướ c 3: Tính ma tr n hi p phương sai ậ ệ

Do d ữ liệu có hai chiề nên kích thước của ma trận hiệ phương sai là u p

2×2 Ma trậ thu đượn c là:

 = 0.616555556 0.615444444

0.615444444 0.716555556

Trang 23

Vì các phần tử ằ n m ngoài đường chéo chính của ma trận là dương, nên hai

giá trị x và y cùng nhau tăng

D ữ liệu

g c ố

D ữ liệu sau khi chỉnh

2.5 0.5 2.2 1.9 3.1 2.3

2

1 1.5 1.1

2.4 0.7 2.9 2.2 3.0 2.7 1.6 1.1 1.6 0.9

0.69

−1.31 0.39 0.09 1.29 0.49 0.19

Trang 24

Bướ c 4: Tính vect ri or ê ng v gi trị ê à á ri ng củ ma trậ hiệ phương sai a n p

Vì ma trận hi phệp ương sai vuông nên có thể tính vector ri êng và á ị gi tr

ri ng ê của ma trận này húng cho biC ết những thông tin hữu ích về ữ ệ d li Hai u.vector ri êng là 0.735178656

0.677873399  và 0.735178656, v0.677873399 ới hai gi tr êá ị ri ng

tương ứng 0.0490833989 v 1.28402771 là à

Điều lưu ý quan trọng r ng các vector ê ằ ri ng đây đ u là vector đơn v , ở ề ịnghĩa là độ dài c a chúng bằủ ng 1 Điều này rất quan trọng trong PCA Hầu hết các g ói phần m m ề toán học, khi tính vector ri ng u ê đề trả ề ế v k t quả là các

v ềcác mẫu trong dữ liệu ột trong hai vector ri ng nằ theo hướng ph n bố M ê m â

chính c a d ủ ữ ệli u Vector ri ng ê đó cho thấy m i quan hệ ữố gi a d li u v i ữ ệ ớ

đường thẳ Vector ri ng ng đó ê thứ hai cho th y m t m u khá k ấ ộ ẫ c, ém quan trọng

hơn, l ất cả ác đ ể ph n bố ọ theo đường chính nhưng cách đườngà t c i m â d c chính một khoả g nào đón

Như vậy, bằng vi c tính các vector êệ ri ng a ma tr n hi p ph ng sai, ta củ ậ ệ ươ

có thể trích ra các đ c trưng c a d li u Các bư c còn lại sẽ ặ ủ ữ ệ ớ là vi c biệ ến đổi

d ữ liệu sao cho nó được biểu diễn theo các đặ trưng đó.c

Trang 25

Hình 2.5 Đồ ị ể th bi u di n d li u đã chu n hóa với các vector ri ngễ ữ ệ ẩ ê

Bư ớ c 5: Ch n các thành ph n và x l ọ ầ ác p ậ vector đ c trưng ặ

Các vector ri ng v gi trị ri ng ính đượ ở phầ ê à á ê t c n trước v i ớ các gi trịá

ri ng ê khá khác nhau Vect êor ri ng ngứ v i ớ giá êtrị ri ng cao nhất sẽ là thành

ph n ầ chính của tập dữ ệ li u Trong ví dụ êntr , vector ri êng với á gi trị ê lớn ri ng hơn là vector trỏ ọ d c theo d ữ liệu Nó mô tả ối quan hệ m có ý nghĩa nhất gi a ữcác chiều c a d ủ ữ liệ u

Một c ch tổng quát, sau khi ìm đượ các vector ri ng ừ ma trận hiệá t c ê t p

phương sai, bước tiếp theo là s p x p chúng theo ắ ế giá trị ê , từri ng cao đ n thấp ếNghĩa là c ác thành ph n đư c sắp xếp theo thứ ự ầầ ợ t t m quan trọng gi ảm d n ầKhi đó, các thành phần ít có ý nghĩa có thể được b quaỏ nế c n Mu ầ ột sốthông tin b đã ị lược b , nhưng vì giá trịỏ êri ng a chúng nhỏcủ nên dữ liệu không b mị ất nhiề Khi b u ỏ qua một số thành phần, dữ ệ li u thu được s có sẽ ốchiều ít hơn dữ ệ li u g c Nói cách khác, n u d li u g c có ố ế ữ ệ ố n chi u, sau khi ề

Trang 26

tính được n vector ri êng và á gi trị êri ng, p vect êor ri ng đầu tiên ợđư c ch n, ọkhi đó d ữ liệu cuối cùng chỉ c ònp chiề u.

Tiếp theo n x l p m cầ ác ậ ột vector đặc trưng, thực chất là tên gọi của một

ma trận các vector Vector này được xây dựng bằng cách l y các ấ vector ri êng muốn giữ ạ ồ ặ l i, r i đ t chúng theo các cộ ể ạt đ t o thành ma trận:

  _ _  = ( ) (2.8)

D u ữ liệ trong ví dụ trên có hai vector ri ng, do đó có hai lựa chọn ê Có thểchọ ản c hai cho vector đ c trưng: ặ

0.735178656 0.677873399 0.677873399 0.735178656hoặc có thể ỏ b đi thành ph n ít ý nghĩa hơnầ , kết quả ỉ ch còn một cột:

0.735178656 0.677873399

Bướ c 6: Xác đị n t h p d li u m i ậ ữ ệ ớ

Bước này là bước cuối cùng trong PCA ng th i đồ ờ là bước đơn giản nh t ấSau khi các thành ph n (ầ vector ri ng) ê được ch n ữ ạọ để gi l i trong dữ ệ li u và thiế ật l p vector đ c trưng, ếặ ti n hành chuy n v vector và nhân vào phía trái tể ị ập

Trang 27

• Dữ_liệ u_đi u_chỉ h ề n là dữ ệ li u đã đư c đi u ch nh theo giá tr trung ợ ề ỉ ịbình sau đó chuyển vị, nghĩa là các dữ ệ li u nằm trên mỗi cột, với mỗi hàng theo mỗi chiều khác nhau.

• Dữ_liệu_cuối là tập d li u cu i cùng, v i các đi m d li u n m theo ữ ệ ố ớ ể ữ ệ ằ

cột, còn các chiều là theo hàng

Kết quả là d ữ liệu gốc được biểu diễn chỉ theo các vector đã chọn Tập dữ

liệu gốc có hai trục x y, và d ữ ệli u được biểu di n theo chúng ễ D ữ ệli u c ng có ũ

thể đư c bi u di n theo bợ ể ễ ất kỳ ục nào trong str ố đó N u các trụế c này vuông góc v i nhau thì vi c bi u di n là hiớ ệ ể ễ ệu qu nh t Đó là tầả ấ m quan tr ng c a s ọ ủ ự

trực giao a các vector ri ng củ ê D ữ ệli u đã đư c bi u di n ợ ể ễ theo hai vector ri ng êthay vì bi diểu ễn theo các trụ x và y Trong trường hợ ậ ữ ệc p t p d li u mới được

giảm về ố s chi u, nghĩa là bỏ qua một số vect ê , dữ ệề or ri ng li u mới chỉ được biểu diễn theo các vector đã chọn

Bây giờ là việ áp ụng ph n tích thành phầ chính đố ớ ậc d â n i v i t p d u ữ liệ

ảnh Trong lu n v n, t p d li u nh đư c l y t c s d li u ORL (Olivetti ậ ă ậ ữ ệ ả ợ ấ ừ ơ ở ữ ệ

Research Laboratory, S rey Univ sity) ỗ ảnhur er M i có k ích thướ 112 92, có c ×thể đư c coi là một vector 10304 chi u, hoợ ề ặc tương đương với một điểm trong không gian 10304 chiều H là m ình 2.6 ột số ả nh g c ố trong cơ ở ữ ệ s d li u

Áp dụng PCA để giả m s ố chiề ủ kh ng gian khổng ồ trên, ết quả thu u c a ô l k

được là các nh ợc biế đổả đã đư n i sau khi ph n tích theo c c thành phầ đặâ á n c trưng, các vector ri êng được ch n ọ theo các á êgi trị ri ng tương ứng có á gi trị

l n hớ ơn 10-3, số ợ lư ng vector ri ng l 49, nghĩ ê à a là m i ỗ ảnh biểu diễn một đ ểi m trong kh ng gian 49 chiô ều (hình 2.7)

Trang 28

H 2.6ình Ảnh ố trong cơ ở ữ liệ OR g c s d u L

H 2.7ình Ảnh sau khi biế đổ theo PCAn i

Trang 29

2.2 Phương ph áp phân tách tuyế ính n t

Ph ng phươ áp PCA ở êtr n ònc có nhượ đ ểc i m là ch l nỉ àm ổi b t lêậ n c c á

đặc tr ng c a t ng nh mà ch a quan tâm đ n các nh đó là c a cư ủ ừ ả ư ế ả ủ ùng một người hay c a ủ những người ác kh nhau Ph ương pháp phân tách tuyế ínhn t (LDA – Linear iscriminant D Analysis) có ểth kh c ph c đư c nh ng nhược ắ ụ ợ ữ

đ ểi m đó Nhi m v ệ ụ chính a phương pháp là t củ ính bi n êsự ế thi n gi a các nh ữ ả

c a ủ những ngườ kh c nhaui á và t s n êính ự biế thi n giữa các ảnh ủ ùng ột c a c mngười, sau t mđó ìm ột phép biế đổ đển i l càm c i t s c a hai s biến êự đạ ỉ ố ủ ự thi n

trên Nghĩa là p , tậ ảnh huấn luyện s đư c bi n i sang m t kh ng gian mẽ ợ ế đổ ộ ô ới sao cho sự khác nhau giữa các ảnh c aủ những ngườ kh c nhau đượ ăng l n i á c t ê

t i ố đa, còn ự giống nhau giữ s a các ảnh ủ ùng ộ c a c m t ngư đượời c làm cự tiểc u

H ình 2.8 là một v ụ minh họ trự quan nghĩ ủ phép biế đổ ày Hìnhí d a c ý a c a n i n2.8(a) là một cách ế đổbi n i ông tốt kh khi các h ình chiế ủu c a cá i m c đ ể thuộc hai lớ ẫ ẫ ộ ớp v n l n l n v i nhau; hình 2.8(b) là một cách bi n i khá tế đổ ốt khi hìnhchiếu c a cá đ ểủ c i m thuộc cùng một lớp g n ầ nhau, c h òn ình chiếu c a các ủ

đ ểi m khác l p ớ xa nhau

H 8 í d ình 2 V ụ minh họ LDAa

Trang 30

Thông thường trong phương pháp LDA, sự phân bố ngo i và s âạ ự ph n b ố

n i ộ được dùng m ti u ch để ph n lớ Ma trậ ph n bố ộ đượ ính như là ê í â p n â n i c t sau:

trong đó µ là giá trị trung bình của tất cả các lớp

Không gian m i cớ ủa LDA được hình thành từ ậ t p vector W = [W1, , Wd], thỏa mãn

Trang 31

m i lỗ ớp và sẽ được tách biệt giữa các lớp, càng nhiều càng tốt Nói cách khác, các vector này cự ểc ti u hóa m u s và c c đ i hóa t s c a công th c (2.11) ẫ ố ự ạ ử ố ủ ứ

N u ế ma trậ Sn w là khả nghịch ỉ ố ở ng thứ (2.11) ẽ đạ ực đạ khi c c , t s cô c s t c i ávector c a là ủ W các vector ri ng ê c a ủ  Đố ới v i b ài toán nh n d ng m t ậ ạ ặngười, ma tr n Sậ w thường kh ng khả nghị , v ố lượng ảnh nhỏ ơn rấ ô ch ì s h t nhiều so vớ ối s chi u ểu ễ ảề bi di n nh Có nhiều phương pháp khác nhau để ải giquyết vấn đề ủ c a LDA như phương pháp gi nghả ịch đảo, phương pháp không gian con hoặc phương pháp không gian null

Trong luận văn n , ph ng phày ươ áp gi ngh h ả ịc đảo được dùng để ảgi quyi ết

v n ê Vì ấ đềtr n ảnh ố g c có k ích thướ 112 92, mỗ ảnhc × i có thể coi là một đ ểi m trong không gian 10304 chiều, s chi u n ố ề ày quá l n có ớ để thể thực hiện LDA

nên trước h c n s dết ầ ử ụng phương pháp PCA để giả m b t s ớ ố chiề ủ kh ng u c a ôgian này Sau đó, áp dụng ph ương pháp gi nghả ịch o v i t p d li u m i đả ớ ậ ữ ệ ớ để

t ma n n i ìm trậ biế đổ W

Để t ính ma tr n gi ngh ch o ậ ả ị đả , Swđược âph n tích như sau:

 =Λ (2.12)

trong đó:

• Λ = diag(λ 1, , λ k) ch a các ứ giá trị riêng dương c a Sủ w, nghĩa là các

phầ ửn t êtr n đườ ng chéo chính ủ Λ c a là các gi trị êng của Sá ri w, còn các

phầ ửn t ác u bkh đề ằng 0

• k là hạng của Sw

• Q1chứa các vector riêng ủa S c wtương ứng với k giá trị riêng dương

Trang 32

Khi đó ma trậ giả nghịn ch đảo của Sw : là

X ử lý ảnh về hình thái là một phép ử lý trong đó dạng không gian hoặc x

cấu trúc của các đ i tưố ợng trong ảnh được chỉnh sửa épPh d ãn ảnh và phép

Ngày đăng: 22/01/2024, 17:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN