6. Bố cục của luận văn:
2.2.1 Vai trị của thuật tốn PCA trong bài tốn phân lớp
Lựa chọn thuộc tính nhằm làm giảm số chiều dữ liệu là một kỹ thuật đĩng vai trị quan trọng trong học máy. Trong khoa học dữ liệu, với dữ liệu phân tích ban đầu phụ thuộc vào rất nhiều biến và các biến này thường tương quan dữ liệu với nhau. Điều này làm cho quá trình xử lý, lưu trữ dữ liệu và xây dựng các mơ hình học máy trở nên khĩ khăn. Để giải quyết vấn đề trở ngại này, chúng tơi cố gắng xây dựng phương pháp làm giảm số chiều dữ liệu xuống sao cho vẫn giữ được các thơng tin quan trọng cần thiết. Việc lựa chọn các thuộc tính tối ưu như vậy nhằm loại bỏ sự phức tạp của hệ thống, tăng độ tin cậy và độ chính xác của phân loại. Cĩ nhiều kỹ thuật để lựa chọn các tính năng tối ưu, kỹ thuật PCA là kỹ thuật lựa chọn thuộc tính mà chúng tơi muốn giới thiệu.
Phương pháp phân tích thành phần chính (PCA) là một phương pháp tốn học được sử dụng để phân tích dữ liệu. Đây là một trong những kỹ thuật trích xuất các tính năng quan trọng nhất bằng cách tìm các giá trị riêng và vector riêng của ma trận cĩ kích thước dữ liệu lớn. Nĩ sử dụng phép chiếu để biến đổi dữ liệu bằng cách chiếu nĩ lên một tập hợp các trục trực giao.Sau khi sử dụng phương pháp PCA một số lượng lớn các biến đầu vào sẽ bị giảm thành một số lượng nhỏ các biến nhưng vẫn chứa hầu hết thơng tin dưới dạng một tập dữ liệu lớn. Phương pháp này cĩ ảnh hưởng trực tiếp đến dữ liệu trong bài tốn phân lớp, cải thiện được chất lượng dữ liệu do đã loại bỏ các dữ liệu nhiễu đồng thời đảm bảo thơng tin ít bị mất nhất, làm tăng hiệu suất khai phá dữ liệu.
Thơng thường, PCA biến đổi một tập hợp các biến phụ thuộc thành một tập hợp các độc lập xử lý với các biến khơng tương quan được gọi là thành
Pl-30
phần chính (PC). Hầu hết các phương sai chính cĩ thể sẽ bị thu hồi trong PC đầu tiên và sau đĩ các PC tiếp theo sẽ giảm các phương sai cĩ thể xảy ra. Mục tiêu của PCA là tìm một khơng gian mới (cĩ số chiều nhỏ hơn khơng gian cũ). Các trục tọa độ trong khơng gian mới được xây dựng sao cho trên mỗi trục độ biến thiên của dữ liệu đĩ lớn nhất là cĩ thể. Các trục tọa độ trong khơng gian mới luơn đảm bảo trực giao đơi một với nhau, mặc dù trong khơng gian ban đầu cĩ thể các trục khơng trực giao với nhau.