6. Bố cục của luận văn:
2.2.5 Ví dụ áp dụng thuật tốn và mơ phỏng ứng dụng
Pl-33
Bảng dữ liệu bộ dữ liệu bệnh tiểu đường Pima chứa 8 thuộc tính đặc trưng và 768 mẫu dữ liệu. Với bộ dữ liệu này, ta cĩ thể biểu diễn thành ma trận số cĩ kích thước là A768×8. Mục tiêu của ứng dụng là làm thế nào giảm khơng gian thuộc tính từ một số lượng lớn các biến thành một số lượng biến nhỏ hơn nhưng vẫn giữ được các thuộc tính tốt.
2.2.5.2 Giải pháp thực hiện:
Để giải quyết yêu cầu bài tốn đặt ra, chúng tơi sử dụng mơ hình học máy PCA kết hợp với phần mềm python thực hiện theo quy trình sau: nhập tập dữ liệu, tiến hành phân tích dữ liệu thăm dị để hiểu rõ hơn và hiểu về cách dữ liệu trơng như thế nào và sau đĩ xây dựng mơ hình PCA.
Chuẩn bị dữ liệu mẫu
Đầu tiên, chúng tơi sẽ khai báo các thư viện cần thiết sử dụng trong mơ hình để phân tích dữ liệu (numpy, pandas), thư viện trực quan hĩa dữ liệu (matplotlib, seaborn). Sau đĩ, sử dụng lệnh nhập dữ liệu để thu về bảng dữ liệu cĩ cấu trúc:
Với bảng dữ liệu như trên, chúng tơi thực hiện tách bảng dữ liệu thành hai phần: Phần chứa dữ liệu X bao gồm 8 thuộc tính (Preg, Plas, Pres, Skin, Insu, BIM Padi, Age) và phần chứa kết quả y chứa kết quả chẩn đốn (Diag). Sau khi thực hiện thao tác tách dữ liệu như trên ta thu về hai bảng kết quả như sau:
Pl-34
Bộ dữ liệu Pima hiện được lưu trữ dưới dạng ma trận 768×8 trong đĩ các cột là các thuộc tính khác nhau và mỗi hàng đại diện cho một mẫu xét nghiệm. Áp dụng thuật tốn PCA trên bộ dữ liệu bệnh tiểu đường Pima để trích xuất được các thuộc tính quan trọng cĩ tương quan đến kết quả.
Bước 1: Chuẩn hĩa dữ liệu
Khi các thang đo khác nhau được sử dụng để đo các giá trị của các thuộc tính. Vì thế, cần phải chuẩn hĩa dữ liệu để mang tất cả các thuộc tính với Mean = 0 và Variance = 1. PCA rất nhạy cảm với phương sai nên chuẩn hĩa dữ liệu để khắc phục vấn đề này.
Để chuẩn hĩa dữ liệu, chúng tơi áp dụng cơng thức tính kỳ vọng và phương sai vào trong code chương trình và thu được bảng kết quả:
Bước 2. Phân tách Eigen - Tính tốn Eigenvector và Eigenvalues
Cốt lõi của PCA là các hàm trị riêng và giá trị riêng của ma trận hiệp phương sai (hoặc tương quan). Các Eigenvector (thành phần chính) sẽ xác định
Pl-35
hướng của khơng gian tính năng mới và giá trị riêng xác định độ lớn của chúng. Hay nĩi cách khác, giá trị riêng giải thích phương sai của dữ liệu dọc theo trục tính năng mới. Nĩ cĩ nghĩa là giá trị riêng tương ứng cho chúng ta biết cĩ bao nhiêu phương sai bao gồm trong tính năng biến đổi mới đĩ.
Để cĩ được giá trị riêng và Eigenvector, chúng ta cần tính tốn ma trận hiệp phương sai.
Bước 2.1 Ma trận hiệp phương sai
Cách tiếp cận với PCA là thực hiện phân tách Eigen trên ma trận hiệp phương sai, đĩ là ma trận dữ liệu 𝐴𝑛×𝑛 với n = 8 ( bảng dữ liệu chứa 8 thuộc tính) do đĩ ma trận hiệp phương sai sẽ cĩ kích thước là 8x8
Bước2.2 Tính tốn Eigenvector và Eigenvalues từ ma trận hiệp phương sai
Để xác định được Eigenvector và Eigenvalues ta thực hiện như sau: Gọi u là một Eigenvector ứng với Eigenvalues :
- λ là giá trị riêng của A khi và chỉ khi Au = λu ( u ≠ 0). Hay ta tìm nghiệm
của phương trình: det (A – λI) = 0
- Tìm giá trị riêng tương ứng với giá trị riêng λ: Ứng với mỗi λi vừa tìm được, ta giải hệ phương trình tuyến tính thuần nhất (A - λ iI) u = 0
Ứng dụng cách tìm các giá trị trên vào dữ liệu vào chương trình ta cĩ bảng kết quả:
Pl-36
Sau khi tính được giá trị riêng và vector riêng, chúng ta hãy sắp xếp giá trị riêng theo giá trị giảm dần, việc sắp xếp các giá trị riêng như thế giúp cho chúng tơi dễ quan sát và lựa chọn các thành phần chính hơn. Đĩ chính là các giá trị riêng đầu tiên cĩ trong bảng.
Pl-37
Do mục tiêu của PCA là giảm khơng gian thuộc tính nhưng tập dữ liệu mới vẫn chứa đầy đủ các thơng tin cần thiết. Để thực hiện được điều này, chúng tơi sắp xếp các thành phần chính theo chiều giảm dần của giá trị, cơng việc tiếp theo là lựa chọn bao nhiêu thành phần chính cho khơng gian con tính năng mới.
Để thực hiện việc lựa chọn số thành phần chính giữ lại chúng ta dựa vào việc phân tích phương sai. Phương sai được tính dựa trên tổng các giá trị riêng, sau đĩ ta tính độ tin cậy theo phương sai của từng chiều để xây dựng vector đặc trưng.
Bước 4: Xây dựng ma trận chiếu W từ các hàm riêng đã được chọn
Ma trận chiếu sẽ được sử dụng để chuyển đổi dữ liệu Pima sang khơng gian con tính năng mới hay nĩi cách khác là tập dữ liệu mới cĩ kích thước giảm. Nĩ là một ma trận của các vector riêng cĩ mức ảnh hưởng nhiều đến kết quả.
Pl-38
Bước 5: Chiếu lên khơng gian tính năng mới
Ở bước cuối cùng, ta sử dụng ma trận chiếu W 8 x 5 chiều để biến đổi các mẫu sang khơng gian con mới thơng qua phương trình Y = X x W, ma trận đầu ra Y sẽ là ma trận 768x5. Kết hợp với biến mục tiêu đã tách ra từ ban đầu ta cĩ bảng kết quả
Qua thực nghiệm, sau khi thực hiện thuật tốn PCA ta thấy rằng số chiều của dữ liệu đã giảm 3 chiều so với tập dữ liệu ban đầu nhưng giá trị của các biến vẫn giữ được độ chính xác hơn 80%.