Đối với các phân tích sử dụng đa thơng số, mơi thơng số được xem như một chiều của dữ liệu và bước giảm chiều dữ liệu là cơng đoạn phổ biến và cần thiết trước khi tiến hành huấn luyện mơ hình phân loại. Việc giảm chiều dữ liệu giúp giảm khối lượng tính tốn đồng thời tránh trường hợp gây ra tình trạng “overfiting” cĩ nghĩa là đúng một cách thái quá của mơ hình phân loại nhờ việc giảm thiểu tác động của sự phân bố của nhiều đặc trưng khác nhau trong tập dữ liệu m khơng thực sự cần thiết cho mục tiêu phân loại. Ngồi ra nĩ cũng giúp làm giảm tác động bởi các điểm nhiễu ngẫu nhiên khơng liên quan đến sự phân bố của dữ liệu. Trong nghiên cứu này chúng tơi lựa chọn phương pháp giảm chiều dữ liệu là Non- linear Principles Component Analysis, tạm dịch là phân tích thành phần chính phi tuyến, viết tắt là nlPCA.
Phương pháp nlPCA là phương pháp cải tiến của phương pháp PCA truyền thống. Thay vì chỉ biến đổi các hệ trục toạ độ theo trục phân bố của dữ liệu một cách tuyến tính thì nlPCA tìm kiếm các đường thẳng hay mặt phẳng, khối, …phi tuyến bám sát theo sự phân bố của dữ liệu [53] [54]. Xem Hình 3.22.
Phương pháp này tổng quát hơn phương pháp PCA sử dụng Kernel trick, hay Kernel PCA. Phương pháp Kernel PCA sử dụng các hàm số xác định bởi người sử dụng trong khi nlPCA thì khớp phân bố dữ liệu với các hàm số tương thích nhất với dữ liệu. Cĩ nhiều thuật tốn để sử dụng cho phương pháp nlPCA như phân tách nguồn mù (BBS – Blind Source Separation), thuật tốn Bell – Sejnowski, Autoencoder [55]. Trong nghiên cứu này chúng tơi sử dụng phương pháp phân tích nlPCA được phát triển bởi Matthias Scholz [56] dựa trên mạng ANN theo kiến trúc mạng thần kinh tự liên kết Auto Associative, hay cĩ tên gọi khác là Autoencoder.
Thuật tốn này sử dụng mơ hình nơ-ron nhân tạo Perceptron đa lớp (MLP – Multi Layer Perceptron) cĩ cấu trúc cổ chai với output chính là input đầu vào. Kiểu mạng này được biết đến với tên gọi là Auto Associative Nerual Network (hay cịn gọi là Autoencoder) tạm
dịch là mạng phần kinh tự liên kết (hay bộ mã hố tự động). Cấu trúc chung của kiểu mạng này xem Hình 3.23.
Hình 3.22 Sự khác nhau giữa PCA và nlPCA, vẽ lại theo [53].
Hình 3.23 Cấu trúc của Auto-associative nerual network (Autoencoder) [53].
Nguyên tắc của kiểu mạng này gồm 2 ý chính:
- Sử dụng chính các giá trị input làm output để huấn luyện mạng. - Số nơ-ron lớp chính giữa của mạng bằng với số chiều muốn giảm. Do nguyên tắc như vậy nên ý nghĩa của kiến trúc này se gồm hai mục đích:
- Thứ nhất, sử dụng input làm output là để mơ hình mạng này cĩ thể biểu diễn lại được đúng các đặc trưng ban đầu sau nhiều lớp nơ-ron, hay ngắn gọn là mơ phỏng được cấu trúc của bộ dữ liệu.
- Thứ hai,việc đặt số nơ-ron ở lớp giữa bé hơn số nơ-ron của input là để với nữa đầu của mạng, ta cĩ thể biến đổi N nơ-ron input (tương ứng với số chiều ban đầu của dữ liệu) thành n nơ-ron ở lớp giữa (ứng với số chiều muốn giảm) rồi sau đĩ từ n nơ-ron ở lớp giữa với nữa cịn lại của mạng ta cĩ thể biểu diễn lại được thành N nơ-ron output. Do N output cũng chính là N input ban đầu nên ta cĩ thể nĩi rằng mơ hình mạng này cĩ thể biến đổi dữ liệu cĩ N chiều ban đầu thành n chiều rút gọn (với n<N), và từ n chiều rút gọn này mơ hình cũng cĩ thể biểu diễn lại N chiều ban đầu của dữ liệu.
Với cơng dụng như vậy, nữa đầu của mạng được gọi là Encoder (bộ mã hố) và nữa cịn lại gọi là Decoder (bộ giải mã). Như vậy, nếu muốn rút gọn chiều của dữ liệu ta chỉ cần đưa dữ liệu muốn giảm chiều vào phần Encoder của mạng thì ta se thu được dữ liệu đã được giảm chiều chính là output của phần Encoder.
Nĩi thêm một chút về ý tưởng của thuật tốn này, do ý nghĩa tốn học của mơi nơ-ron nhân tạo là một hàm số của các input vào nơ-ron đĩ nên nếu mơ hình mạng Autoencoder cĩ từ 2 lớp trở lên ở mơi phần Encoder và Decoder thì các nơ-ron ở lớp giữa chính là hàm hợp của các hàm số cĩ biến là các đặc trưng đầu vào. Từ ý nghĩa tốn học này cộng với việc các nơ- ron lớp giữa (hay số chiều rút gọn) chính là sự biểu diễn rút gọn của các đặc trưng ban đầu thơng qua các hàm hợp nên ta cĩ thể nĩi, dữ liệu ban đầu đã được giảm chiều một cách phi tuyến thành n chiều. Đây cũng chính là ý nghĩa của phần “phi tuyến” trong tên của phương pháp phân tích thành phần chính phi tuyến Nonlinear PCA.
Tiếp theo, để chọn được số chiều cần giảm một cách hiệu quả chúng tơi lần lượt khảo sát từ 1 đến số chiều tối đa của mơi bộ đặc trưng để xem xét phần trăm phương sai dữ liệu gốc biểu diễn được khi thay đổi số chiều mục tiêu muốn giảm. Số chiều tối ưu là số chiều mà cĩ số PC thấp nhất cĩ thể với phần trăm biểu diễn phương sai cao nhất cĩ thể và phải chọn sao cho hai chỉ số này cân bằng với nhau.