Thuật tốn giảm chiều dữ liệu (PCA)

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số thuật toán học máy trong phân loại hành vi sử dụng gói cước data viễn thông (Trang 36 - 39)

Thuật tốn giảm chiều dữ liệu PCA (Principal Components Analysis) là kỹ thuật chuyển đổi các trường dữ liệu trong tập dữ liệu thành các trường dữ liệu mới

gọi là các thành phần chính (Principal Component). Mục tiêu chính là số trường dữ liệu mới giảm tối thiểu nhất cĩ thể so với số lượng trường dữ liệu ban đầu mà vẫn chứa đủ những thơng tin đại diện cho cả tập dữ liệu. Hay nĩi cách khác PCA là kỹ thuật gộp các trường dữ liệu hiện hành. Mỗi trường dữ liệu mới là tổ hợp cĩ trọng số của các trường dữ liệu gốc. Các PC được hình thành theo cách gán trọng số lớn hơn cho các PC thành phần cĩ tính đại diện lớn hơn cho dữ liệu gốc.

Hình 1.12: Mơ phỏng thuật tốn PCA

Hình vẽ trên mơ phỏng tập dữ liệu chỉ gồm hai trường dữ liệu, nhiệm vụ của thuật tốn PCA là tìm ra trường dữ liệu mới cĩ dạng biểu diễn như một đường thẳng đi qua nhiều điểm biểu diễn trường dữ liệu ban đầu nhất cĩ thể. Để thỏa mãn điều kiện đĩ thì tổng khoảng cách từ các điểm dữ liệu đến đường thẳng phải là nhỏ nhất. Giả sử u1 là vectơ cần tìm cĩ khả năng đại diện cho hai trường dữ liệu. Chúng ta cần tìm khoảng cách nhỏ nhất từ các điểm biểu diễn hai trường dữ liệu ban đầu đến vectơ u1. Hướng của vectơ u1 chính là hướng của PC1 thay thế cho 2 trường dữ liệu gốc. xi là tọa độ của các điểm dữ liệu trong hệ trục. Áp dụng định lý Pitago để tính khoảng cách từ điểm biễu diễn dữ liệu tới u1.

Hàm mục tiêu để tính khoảng cách nhỏ nhất: min (1 𝑛 ∑(𝑥𝑖 𝑇𝑥𝑖− (𝑢1𝑇𝑥𝑖)2)) 𝑛 𝑖

Giá trị nhỏ nhất đạt được khi giá trị của u1 bằng giá trị vectơ riêng của ma trận hiệp phương sai của X.

Hình 1.13: Mơ phỏng cách tính khoảng cách nhỏ nhất trong thuật tốn PCA

KẾT CHƯƠNG

Chương này tập trung chủ yếu trình bày các nội dung liên quan tới:  Tổng quan quy trình phân tích dữ liệu

 Các chỉ số đánh giá dữ liệu và hiệu năng mơ hình  Kỹ thuật tiền xử lý dữ liệu

 Các phương pháp xây dựng đặc trưng dữ liệu  Cơng nghệ Hadoop cho xử lý dữ liệu phân tán  Thuật tốn giảm chiều dữ liệu (PCA)

CHƯƠNG 2 - MƠ HÌNH HÀNH VI VÀ MỘT SỐ THUẬT TỐN HỌC MÁY

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số thuật toán học máy trong phân loại hành vi sử dụng gói cước data viễn thông (Trang 36 - 39)