Thị biểudiễn dữliệu đó chuẩn húa vớicỏc vectorriờng

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp nhận dạng mặt người dựa trên PCA LDA và mạng neural luận văn ths truyền dữ liệu và mạng máy tính (chuyên ngành đào tạo thí điểm) (Trang 53 - 55)

Bước 5: Chọn cỏc th hiệp phương sai C

Cỏc vector riờng và giỏ tr

khỏc nhau. Vector riờng ứng với giỏ trị ri

ọng rằng cỏc vector riờng ở đõy đều là vector đơn v

ủa chỳng bằng 1. Điều này rất quan trọng trong PCA.Hầu hết cỏc gúi phần ềmtoỏn học, khi tớnh vector riờng đều trả về kết quả làcỏc vector đơn v

ồ thị dữ liệu ở hỡnh2.5, dữ liệu cú một mẫu chủđạo (h ờn của dữ liệu là hai vector riờng, chỳng là những đ

ó trỡnh bày ở phần vector riờng, chỳng vuụng gúc ơn, chỳng cung cấp thụng tin về cỏc mẫu trong dữ liệu. Một ằm theo hướng phõn bốchớnhcủa dữ liệu.Vector ri

ấy mối quan hệ giữa dữ liệu với đường thẳngđú. Vector riờng thứ hai cho thấy một ọng hơn, là tất cả cỏcđiểmphõn bố dọc theo đường chớnh nh ờng chớnh một khoảng nàođú.

ậy, bằng việc tớnh cỏc vector riờng của ma trận hiệp phương sai, ta cú th ủadữ liệu. Cỏc bước cũn lại sẽ là việc biến đổi dữ liệu sao cho ợc biểu diễn theo cỏc đặc trưng đú.

biểu diễn dữ liệu đó chuẩn húa với cỏc vector riờng

ớc 5: Chọn cỏc thành phần và xỏc lậpvector đặc trưng của Cỏc vector riờng và giỏ trị riờng tớnh đượcở phần trước vớicỏc giỏ trị ri

ứng với giỏ trị riờng cao nhất sẽ là thành phần chớnh của tập à vector đơn vị, nghĩa là ất quan trọng trong PCA.Hầu hết cỏc gúi phần

àcỏc vector đơn vị.

ữ liệu cú một mẫu chủđạo (hướng theo một ững đường chộo ờng, chỳng vuụng gúc với ấp thụng tin về cỏc mẫu trong dữ liệu. Một ớng phõn bốchớnhcủa dữ liệu.Vector riờng đú cho ứ hai cho thấy một ờng chớnh nhưng

ương sai, ta cú thể ến đổi dữ liệu sao cho

i cỏc vector riờng

ủa của ma trận ớc vớicỏc giỏ trị riờng khỏ ần chớnh của tập

dữ liệu. Trong vớ dụ trờn, vector riờng với giỏ trị riờng lớn hơn là vector trỏ dọctheo dữ liệu. Nú mụ tả mối quan hệ cú ý nghĩa nhất giữa cỏc chiều củadữ liệu.

Một cỏch tổng quỏt, sau khi tỡm đượccỏc vector riờng từ ma trận hiệp phương sai, bước tiếp theo là sắp xếp chỳng theo giỏ trị riờng, từ cao đến thấp. Nghĩa là cỏcthành phần được sắp xếp theo thứ tự tầm quan trọng giảm dần. Khi đú, cỏc thành phần ớt cú ý nghĩa cú thể được bỏ quanếu cần.Một số thụng tinđó bị lược bỏ, nhưng vỡ giỏ trị riờng của chỳng nhỏnờndữ liệu khụng bị mất nhiều. Khi bỏ qua một số thành phần, dữ liệu thu được sẽ cú số chiều ớt hơn dữ liệu gốc. Núi cỏch khỏc, nếu dữ liệu

gốc cún chiều, sau khi tớnh được nvector riờng và giỏ trị riờng, pvector riờng đầu tiờn được chọn, khi đúdữ liệu cuối cựng chỉ cũnp chiều.

Tiếp theo cần xỏc lập một vector đặc trưng, thực chất là tờn gọi của một ma trận cỏc vector. Vector này được xõy dựng bằng cỏch lấy cỏc vector riờng muốn giữ lại, rồi đặt chỳng theo cỏc cột để tạo thành ma trận:

_Đặ _ ư = ( . . ) (2.26)

Dữ liệu trong vớ dụ trờncú hai vector riờng, do đú cú hai lựa chọn. Cú thể chọn cả hai cho vector đặc trưng:

−0.677873399 −0.735178656 −0.735178656 0.677873399

hoặc cú thể bỏ đi thành phần ớt ý nghĩa hơn, kết quảchỉ cũn một cột: −0.677873399

−0.735178656 Bước 6: Xỏc định tập dữ liệu mới

Bước này là bước cuối cựng trong PCA đồng thời là bước đơn giản nhất. Sau khi cỏc thành phần (vector riờng) được chọnđể giữ lại trong dữ liệu và thiết lập vector đặc trưng, tiến hành chuyển vị vector và nhõn vào phớa trỏi tập dữ liệu gốc đó chuyển vị.

Dữ_liệu_cuối = Vector_Đặc_trưngDữ_liệu_điều_chỉnh(2.27) Trong đú:

 Vector_Đặc_trưng là ma trận với cỏc vector riờng trong cỏc cột đó chuyển vị sao cho chỳngnằm theo cỏc hàng, với vector riờng ý nghĩa nhất nằm trờn cựng.

Dữ_liệu_điều_chỉnh là dữ liệu đó được điều chỉnh theo giỏ trị trung bỡnh

sau đúchuyển vị, nghĩa là cỏc dữ liệu nằm trờn mỗi cột, với mỗi hàng theo mỗi chiều khỏc nhau.

Kết quảlàdữ liệu gốc được biểu diễn chỉtheo cỏc vector đó chọn. Tập dữ liệu

gốc cú hai trục x,yvàdữ liệu được biểu diễn theo chỳng. Dữ liệu cũng cú thể

đượcbiểudiễn theo bất kỳ trục nào trong số đú. Nếu cỏc trục này vuụng gúc với nhau thỡ việc biểu diễn là hiệu quả nhất.Đú là tầm quan trọng của sự trực giao của cỏc vector

riờng. Dữ liệuđó được biểu diễn theo hai vector riờng thay vỡ biểu diễn theo cỏc trụcx và y. Trong trường hợp tập dữ liệu mới được giảm về số chiều, nghĩa là bỏ qua một số

vector riờng, dữ liệu mới chỉ được biểu diễn theo cỏc vector đó chọn.

Bõy giờlà việcỏp dụng phõn tớch thành phầnchớnhđối với tập dữ liệuảnh.Trong luận văn, tập dữ liệu ảnh được lấy từ cơ sở dữ liệuORL (Olivetti Research Laboratory, Surrey University). Mỗiảnh cú kớch thước 112ì92, cú thể được coi là một vector 10304 chiều, hoặc tương đương với một điểm trong khụng gian 10304 chiều. Hỡnh 2.5 là một sốảnh gốc trong cơ sở dữ liệu.

Áp dụng PCA để giảm số chiều của khụng gian khổng lồ trờn, kết quả thu đượclàcỏc ảnhđó được biến đổi sau khi phõn tớch theo cỏc thành phần đặc trưng, cỏc vector riờng được chọn theo cỏc giỏ trị riờng tương ứng cú giỏ trị lớn hơn 10-3, số lượng vector riờng là 49, nghĩa là mỗiảnh biểu diễn một điểm trong khụng gian 49 chiều (hỡnh 2.6).

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp nhận dạng mặt người dựa trên PCA LDA và mạng neural luận văn ths truyền dữ liệu và mạng máy tính (chuyên ngành đào tạo thí điểm) (Trang 53 - 55)

Tải bản đầy đủ (PDF)

(86 trang)