Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
1,14 MB
Nội dung
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KỸ THUẬT GIẢM CHIỀU DỮ LIỆU ĐỀ TI: Sinh viên thực : ĐINH VĂN NHƯ ĐẶNG MINH TUẤN Giảng viên hướng dẫn : Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : TTNT&TGMT Lớp : D15TTNT&TGMT Khóa : 2020- 2025 Hà Nội, tháng năm 20 PHIẾU CHẤM ĐIỂM ST T Họ tên sinh viên ĐẶNG MINH TUẤN Nội dung thực Điể m 20810320100 ĐINH VĂN NHƯ 20810320135 Họ tên giảng viên Giảng viên chấm 1: Giảng viên chấm 2: Chữ ký Ghi Chữ ký Mục lục Lời mở đầu CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ THUẬT TOÁN PCA V LDA Tổng quan thuật tuấn PCA LDA Mục đích báo cáo CHƯƠNG 2: THUẬT TOÁN PCA PCA .8 1.1 Các khái niệm PCA: 1.1.1 Độ lớn phương sai (Variance): .8 1.1.2 Thành phần (Principal Component): 1.1.3 Không gian (Subspace): 1.1.4 Tỉ lệ phương sai giữ lại (Explained Variance Ratio): .8 1.1.5 Điểm số (Score): 1.1.6 Ma trận trọng số (Wetght Matrix): Nguyên lý hoạt động Cách tính PCA Ưu điểm, nhược điểm hạn chế .9 Ứng dụng PCA 10 5.1 Giảm chiều liệu: 10 5.2 Phân tích đặc trưng: 10 5.3 Trực quan hóa liệu: .10 5.4 Nén liệu: 10 5.5 Tiền xử lý liệu: .10 5.6 Tính tốn phân cụm: 10 CHƯƠNG 3: THUẬT TOÁN LDA 11 Khái niệm LDA 11 Nguyên lý hoạt động 11 Các bước tính tốn: 11 Ưu điểm, nhược điểm hạn chế 12 Ứng dụng 12 CHƯƠNG 4: SO SÁNH GIỮA PCA V LDA 14 So sánh nguyên tắc hoạt động 14 So sánh cách tính tốn: .14 So sánh ứng dụng 15 Các trường hợp nên sử dụng PCA LDA 15 CHƯƠNG 5: KẾT LUẬN .16 Tính cần thiết hai thuật tốn 16 Hướng phát triển tương lai 16 Tài liệu tham khảo 17 Lời mở đầu Trong lĩnh vực xử lý tín hiệu phân tích liệu, thuật tốn giảm chiều liệu quan trọng để giảm thiểu kích thước liệu mà không làm thông tin quan trọng Trong báo cáo này, tìm hiểu hai thuật toán giảm chiều liệu phổ biến PCA (Principal Component Analysis) LDA (Linear Discriminant Analysis) PCA phương pháp giảm chiều liệu phi tuyến, giúp tìm thành phần liệu, từ giảm thiểu kích thước liệu mà giữ thông tin quan trọng PCA có ứng dụng rộng rãi tốn nhận diện ảnh, nhận dạng khn mặt, phân tích liệu LDA phương pháp giảm chiều liệu tuyến tính, giúp tìm thành phần liệu có liên quan đến biến mục tiêu LDA sử dụng rộng rãi toán phân loại liệu, nhận dạng chữ viết tay, phân tích hình ảnh Trong báo cáo này, tìm hiểu chi tiết thuật toán PCA LDA, cách chúng hoạt động, cách thực hiện, ứng dụng chúng thực tế Chúng ta hy vọng báo cáo giúp bạn có nhìn tổng quan hai thuật toán quan trọng áp dụng chúng vào toán thực tế Lời mở đầu (Nên viết vấn đề giảm chiều liệu? phải giảm chiều?) Chương Phát biểu toán 1.1 Bài toán giảm chiều 1.2 Các kĩ thuật dang sử dụng 1.3 Một số kiến thức Chương Thuật toán giảm chiều PCA LDA 2.1 PCA 2.1.1 ý tưởng PCA 2.1.2 Các bước thực PCA 2.1.3 Nhận xét 2.2 LDA 2.2.1 ý tưởng PCA 2.2.2 Các bước thực PCA 2.2.3 Nhận xét 2.3 So sánh PCA LDA Chương Thực nghiệm thuật toán 3.1 Dữ liệu mơi trường thực nghiệm 3.2 Thực nghiệm demo thuật tốn Kết luận CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ THUẬT TỐN PCA V LDA Tổng quan thuật tốn PCA LDA PCA (Principal Component Analysis) LDA (Linear Discriminant Analysis) hai thuật toán quan trọng lĩnh vực phân tích liệu xử lý tín hiệu Cả hai sử dụng để giảm chiều liệu, thuật tốn lại có mục đích phương pháp thực khác PCA giúp giảm số chiều tập liệu cách tìm thành phần đại diện cho phân bố liệu Các thành phần xếp theo thứ tự giảm dần độ lớn độ phân tán chúng, số lượng thành phần giảm xuống dựa mức độ giảm thiểu tổng số thông tin liệu PCA sử dụng để nén liệu, trực quan hóa liệu, giảm thiểu nhiễu liệu.LDA, ngược lại, sử dụng để tìm đặc trưng quan trọng giúp phân loại tập liệu khác LDA tìm trục khơng gian nhiều chiều cho lớp liệu phân tách tốt Điều giúp cho việc phân loại liệu trở nên xác giảm thiểu chồng chéo lớp LDA thường sử dụng tốn phân loại ảnh, phân tích ngơn ngữ tự nhiên, toán liên quan đến liệu văn Cả hai thuật tốn có ứng dụng quan trọng lĩnh vực khoa học liệu, trí tuệ nhân tạo, toán tương tự Tuy nhiên, cần lưu ý thuật tốn có giới hạn điểm yếu riêng, việc sử dụng chúng cần phải cân nhắc kỹ lưỡng để đảm bảo tính xác hiệu kết Mục đích báo cáo Mục đích báo cáo giới thiệu hai thuật toán quan trọng lĩnh vực xử lý liệu trích xuất đặc trưng, Linear Discriminant Analysis (LDA) Principal Component Analysis (PCA) Bài báo cáo trình bày khái niệm bản, nguyên lý hoạt động cách sử dụng hai thuật tốn này, từ giúp người đọc hiểu rõ cách thức áp dụng ứng dụng thực tế Bài báo cáo giải thích tầm quan trọng LDA PCA việc xử lý liệu trích xuất đặc trưng LDA PCA hai số phương pháp trích xuất đặc trưng phổ biến hiệu nhất, sử dụng rộng rãi nhiều lĩnh vực, từ phân loại ảnh, nhận dạng khn mặt, phân tích tín hiệu âm thanh, phân tích tín hiệu vơ tuyến, đến nhận dạng từ văn Việc hiểu rõ LDA PCA giúp nhà nghiên cứu chuyên gia lĩnh vực xử lý liệu tận dụng tối đa tính hai thuật tốn để giải toán phức tạp cải thiện chất lượng kết Vì vậy, báo cáo cần thiết hữu ích để giúp người đọc có nhìn tổng quan hai thuật tốn LDA PCA, từ ứng dụng chúng thực tế cách hiệu CHƯƠNG 2: THUẬT TOÁN PCA PCA PCA (Principal Component Analysis) thuật toán phân tích liệu sử dụng để giảm chiều liệu biến độc lập giảm xuống thành biến kết hợp tuyến tính (principal components) cách sử dụng phương pháp giảm thiểu phương sai (variance minimization) PCA giúp tìm biến quan trọng liệu, từ giảm chiều liệu mà không làm nhiều thông tin Trong PCA, biến giảm chiều cho thành phần (principal components) giải thích tổng phương sai liệu cách tối đa Các thành phần tính tốn dựa vector riêng (eigenvectors) ma trận hiệp phương sai (covariance matrix) liệu PCA sử dụng rộng rãi lĩnh vực xử lý ảnh, nhận diện khuôn mặt, nhận dạng giọng nói, phân tích liệu tài kinh tế, v.v 1.1 Các khái niệm PCA: 1.1.1 Độ lớn phương sai (Variance): Là độ lớn phân chia liệu Nó cho biết mức độ phân tnas liệu không gian 1.1.2 Thành phần (Principal Component): Là vector đại diện cho hướng phân tán liệu Các thành phần xếp theo thứ tự giảm dần độ lớn phương sai chúng 1.1.3 Không gian (Subspace): Là không gian không gian ban đầu xác định cách lấy thành phần 1.1.4 Tỉ lệ phương sai giữ lại (Explained Variance Ratio): Là tỉ lệ phương sai giải thích số lượng thành phần chọn Tỉ lệ cho biết phần trăm đóng góp thành phần vào phân tán liệu 1.1.5 Điểm số (Score): Là giá trị số đại diện cho điểm liệu không gian Các điểm số tính cách nhân ma trận liệu với ma trận trọng số tạo thành phần 1.1.6 Ma trận trọng số (Wetght Matrix): Là ma trận chứa vector thành phần Ma trận trọng số sử dụng để tính tốn điểm số liệu Nguyên lý hoạt động PCA (Principal Component Analysis) phương pháp phân tích liệu thống kê sử dụng để giảm kích thước liệu tìm thành phần liệu Nguyên tắc hoạt động PCA chuyển đổi không gian biến đầu vào thành không gian với số chiều thấp cho điểm liệu giữ lại tính chất liệu PCA thực cách tìm thành phần liệu, tức hướng không gian liệu mà có phương sai lớn Các thành phần sử dụng để xây dựng mơ hình tóm tắt liệu, liệu biểu diễn dạng số lượng nhỏ thành phần thay số lượng lớn biến đầu vào ban đầu PCA sử dụng rộng rãi lĩnh vực khoa học liệu machine learning để giảm kích thước liệu tìm tính chất liệu PCA sử dụng để loại bỏ nhiễu biến không quan trọng khỏi liệu, từ giúp cải thiện độ xác mơ hình phân tích liệu Cách tính PCA Các bước thực hiện: Bước Chuẩn bị liệu: Chuẩn bị ma trận liệu có kích thước m x n m số lượng quan sát n số lượng biến Bước Chuẩn hóa liệu: Chuẩn hóa ma trận liệu cách trừ trung bình tứng biến chia cho độ lệch chuẩn Bước Tính ma trận hiệp phương sai liệu chuẩn hóa Bước Tính giá trị riêng vector riêng ma trận hiệp phương sai: Sử dụng phép tính ma trận để tính tốn giá trị riêng vector riêng Bước Chọn thành phần chính: Sắp xếp giá trị riêng theo thứ tự giảm dần chọn vector riêng tương ứng Các vector riêng gọi thành phần Bước Tính tốn ma trận chiếu cách lấy vector riêng tương ứng với giá trị riêng chọn ghép lại chúng thành ma trận chiếu Bước Giảm chiều liệu: Áp dụng ma trận chiếu tính để giảm chiều liệu ban đầu Ưu điểm, nhược điểm hạn chế * Ưu điểm: - Giảm chiều liệu giúp giảm chiều liệu mà giữ thông tin quan trọng nhất, giúp cho việc xử lý trực quan hóa liệu dễ dàng - Giảm tác động nhiễu liệu cách tách khỏi thành phần - Khơng phụ thuộc vào phân phối liệu, PCA hoạt động tốt với liệu có phân phối khơng đồng đều, chẳng hạn liệu không đạt chuẩn liệu có nhiễu - Giữ lại thơng tin quan trọng giúp người dùng dễ dàng hiểu chất liệu *Nhược điểm: - Mất mát thông tin giảm chiều liệu liệu quan trọng - Không phù hợp với liệu phi tuyến, PCA phù hợp với liệu tuyến tính - Khơng giải vấn đề nhiễu lớn, trường hợp có nhiều nhiễu lớn PCA khơng giải vấn đề liên quan đến nhiễu * Hạn chế: - Không cho phép giải thích cách rõ ràng yếu tố giảm chiều - Sử dụng lương tính tốn lớn, đặc biệt xử lý tập liệu lớn, điều làm tăng thời gian tính tốn tốn nhiều tài nguyên - Có thể mát số thơng tin, điều ảnh hưởng đến khả dự đoán hiểu chất liệu - Phụ thuộc vào độ tương quan, biến khơng tương quan PCA khơng hiệu Ứng dụng PCA 5.1 Giảm chiều liệu: PCA sử dụng để giảm chiều liệu tốn có số lượng đặc trưng (features) lớn giúp giảm thiểu kích thước liệu tăng tốc độ xử lý 5.2 Phân tích đặc trưng: PCA giúp phân tích đặc trăng liệu tìm đặc trưng quan trọng liệu Điều giúp cho việc đưa định xác định, dự đoán phân loại liệu 5.3 Trực quan hóa liệu: PCA sử dụng để trực quan hóa liệu khơng gian hai ba chiều để giúp phân tích hiểu liệu 5.4 Nén liệu: PCA sử dụng để nén liệu giảm kích thước tập liệu, giúp tiết kiệm không gian lưu trữ 5.5 Tiền xử lý liệu: PCA sử dụng để tiền xử lý liệu trước đưa vào thuật toán Machine Learning khác SVM, KNN, Neural Networks 5.6 Tính tốn phân cụm: PCA sử dụng để tính tốn phân cụm liệu, giúp phân tích tổ chức nhóm liệu dựa đặc tính chung CHƯƠNG 3: THUẬT TOÁN LDA Khái niệm LDA LDA (Linear Discriminant Analysis) thuật toán học máy thị giác máy tính, sử dụng để phân loại đối tượng vào lớp khác Nó phương pháp giảm chiều liệu giống PCA, nhiên LDA sử dụng thông tin lớp điểm liệu để tìm thành phần LDA sử dụng để giảm số chiều tập liệu cách giữ lại thành phần định liệu, đồng thời tăng tính phân biệt lớp LDA thuật tốn giám sát, có nghĩa sử dụng thông tin lớp điểm liệu để tối đa hóa khoảng cách lớp tối thiểu hóa khoảng cách điểm lớp Thuật tốn LDA sử dụng phương pháp tính tốn ma trận phân tích giá trị riêng vectơ riêng, tương tự PCA Tuy nhiên, PCA sử dụng toàn tập liệu để tính tốn ma trận, LDA sử dụng thông tin lớp điểm liệu Các thành phần LDA xếp theo thứ tự giảm dần giá trị riêng, tương ứng với vectơ riêng có liên quan Các thành phần sử dụng để giảm số chiều tập liệu, đồng thời tăng độ xác việc phân loại đối tượng vào lớp khác Nguyên lý hoạt động Thuật tốn LDA phương pháp học có giám sát, dùng để phân loại mẫu liệu vào lớp biết Nguyên tắc hoạt động LDA tìm chiều cho khoảng cách lớp lớn khoảng cách điểm lớp nhỏ Để tìm chiều này, thuật tốn LDA bắt đầu cách tính ma trận hiệp phương sai liệu đầu vào ma trận hiệp phương sai lớp Sau đó, tính tốn vector riêng giá trị riêng ma trận hiệp phương sai lớp Vector riêng giá trị riêng sử dụng để xác định chiều tối ưu Thuật tốn LDA tìm kiếm chiều dựa giá trị riêng lớn ma trận hiệp phương sai lớp Vì vậy, thuật tốn LDA giúp giảm số chiều liệu mà giữ tính chất phân loại liệu ban đầu Các bước tính tốn: Bước Chuẩn bị liệu: Chuẩn bị liệu bao gồm việc tách lớp liệu thành tập liệu Bước Tính tốn ma trận trung bình cho lớp liệu Bước 3: Tính tốn ma trận phân tán lớp liệu Bước Tính tốn ma trận phân tán lớp Bước Tính tốn ma trận tối ưu cách giải phương trình tổng quát LDA Bước Trích dẫn đặc trưng từ ma trận tối ưu cách xếp vector riêng theo thứ tự giảm dần giá trị riêng Ưu điểm, nhược điểm hạn chế * Ưu điểm: - LDA xử lý tập liệu đa chiều với số lượng lớn tạo đặc trưng đáng tin cậy - LDA giúp xác định đặc trưng quan trọng rtong tập liệu giảm thiểu phụ thuộc đặc trưng Điều giúp tăng tính hiệu mơ hình dự đoán xây dựng đặc trưng - LDA giúp giảm thiểu tình trạng overfitting underfitting mơ hình học máy * Nhược điểm: - LDA yêu cầu liệu đầu vào phải tuân thủ theo giả định phân phối chuẩn lớp liệu cần có độ tách tốt - Khi số lượng mẫu huấn luyện nhỏ so với số lượng đặc trưng, LDA khơng hoạt động hiệu - LDA khơng phù hợp cho tốn phân loại phi tuyến tính * Hạn chế - LDA phải sử dụng kết hợp với kỹ thuật tiền xử lý liệu để đảm bảo tính tồn vẹn tập liệu ban đầu - LDA yêu cầu số lượng quan sát lớn số lượng biến tạo đặc trưng đáng tin cậy Ứng dụng 5.1 Phân tích chủ đề: LDA cơng cụ phổ biến để phân tích chủ đề tài liệu văn Nó giúp phát chủ đề tài liệu đưa từ khóa liên quan đến chủ đề 5.2 Tóm tắt văn bản: LDA sử dụng để tạo tóm tắt văn tự động Bằng cách phân tích chủ đề câu tài liệu, LDA tổng hợp ý tài liệu tạo tài liệu tóm tắt 5.3 Phân loại văn bản: LDA sử dụng để phân loại tài liệu văn vào nhóm khác dựa chủ đề chúng 5.4 Gợi ý nội dung: LDA sử dụng để gợi ý nội dung liên quan đến người dùng dựa lịch sử tìm kiếm họ tài liệu khác mà họ xem trước 5.6 Phân tích đa biến: LDA sử dụng để phân tích đa biến, nghĩa phân tích tài liệu chứa nhiều biến đầu vào, chẳng hạn tài liệu văn chứa từ khóa liên quan đến nhiều chủ đề khác 5.7 Tìm kiếm thơng tin: LDA giúp tìm kiếm thơng tin nhanh chóng hiệu cách đưa từ khóa liên quan đến chủ đề tìm kiếm phân tích tài liệu văn để xác định tài liệu có liên quan CHƯƠNG 4: SO SÁNH GIỮA PCA V LDA So sánh nguyên tắc hoạt động PCA LDA hai thuật tốn phân tích liệu phổ biến Machine Learning lĩnh vực liên quan đến liệu Tuy nhiên, hai thuật tốn có ngun tắc hoạt động khác PCA LDA sử dụng ma trận để tìm vector mà liệu chiếu lên Tuy nhiên, PCA tập trung vào tìm kiếm vector phân biệt điểm liệu, LDA tập trung vào tìm kiếm vector phân biệt lớp liệu Điều đồng nghĩa với việc PCA sử dụng để giảm kích thước liệu khai thác đặc trưng liệu mà không cần quan tâm đến lớp nhãn điểm liệu, LDA sử dụng để tìm đặc trưng phân biệt lớp phân loại liệu Tóm lại, PCA LDA hai thuật tốn phân tích liệu khác nguyên tắc hoạt động ứng dụng PCA thường sử dụng để giảm kích thước liệu khai thác đặc trưng liệu mà không cần quan tâm đến lớp nhãn điểm liệu, LDA sử dụng để tìm đặc trưng phân biệt lớp phân loại liệu So sánh cách tính tốn: PCA Tính tốn - Tìm thành phần liệu cách tính toán vector riêng ma trận hiệp phương sai xếp chúng theo giá trị riêng tương ứng - Sau đó, PCA sử dụng vertor riêng để chiếu liệu ban đầu vào không gian có số chiều thấp Kết PCA tập trung vào việc giảm thiểu phân tán liệu, thành phần PCA khơng phụ thuộc vào lớp liệu Kết PCA thành phần liệu, xếp theo độ quan trọng giảm dần LDA LDA tìm đặc trưng quan trọng liệu cách tính tốn ma trận tương quan lớp lớp Sau đó, LDA sử dụng ma trận chiến để chiếu liệu ban đầu vào không gian có số chiều thấp LDA tập trung vào việc giảm thiểu khác biệt lớp liệu, đặc trưng LDA phụ thuộc vào lớp liệu Kết LDA đặc trưng quan trọng để phân việt So sánh ứng dụng PCA LDA hai thuật tốn khác có ứng dụng khác PCA sử dụng rộng rãi phân tích liệu trích xuất đặc trưng liệu Nó sử dụng để giảm chiều liệu, tìm số chiều mà liệu biểu diễn chiều xếp theo mức độ giảm dần độ phân tán liệu Các ứng dụng PCA bao gồm nhận dạng khn mặt, phân tích âm phân tích hình ảnh LDA sử dụng phổ biến nhận dạng mẫu phân loại Nó giúp tìm trục để biểu diễn liệu cho khoảng cách lớp tối đa hóa khoảng cách lớp tối thiểu hóa Ứng dụng LDA bao gồm nhận dạng khuôn mặt, phân loại tài liệu phân loại hình ảnh y tế Tuy nhiên, PCA LDA có điểm khác biệt PCA tập trung vào việc giảm chiều liệu, LDA tập trung vào việc phân loại liệu PCA không cần biết thông tin lớp liệu, LDA yêu cầu thông tin để phân loại liệu Do đó, mục tiêu bạn giảm chiều liệu PCA lựa chọn tốt, mục tiêu bạn phân loại liệu LDA lựa chọn tốt Các trường hợp nên sử dụng PCA LDA * Các trường hợp nên sử dụng PCA: - Khi muốn giảm chiều liệu mà không cần quan tâm đến lớp liệu - Khi liệu có nhiều chiều khơng thể trực quan hóa - Khi liệu có nhiều biến quan sát cần giảm chiều để tránh overfitting - Khi liện có nhiễu lớn cần giảm nhiều * Các trường hợp nên sử dụng LDA: - Khi muốn giảm chiều liệu tập trung vào khác biệt lớp liệu - Khi muốn phân loại liệu thành lớp khác - Khi muốn xác định đặc trưng quan trọng liệu tìm hiểu cách mà chúng ảnh hưởng đến việc phân loại liệu CHƯƠNG 5: KẾT LUẬN Tính cần thiết hai thuật tốn Hai thuật tốn LDA PCA hai cơng cụ mạnh mẽ phân tích liệu trích xuất thơng tin PCA cho phép giảm chiều liệu, giảm nhiễu tăng tốc độ tính tốn, LDA giúp tạo hình ảnh phân loại tốt cho tập liệu Tuy nhiên, việc sử dụng LDA PCA cịn phụ thuộc vào tình cụ thể tính chất liệu Trong số trường hợp, PCA khơng phù hợp với liệu có tính chất phi tuyến tính liệu phân phối không chuẩn LDA thường sử dụng ứng dụng phân loại, không hoạt động tốt tập liệu khơng cân có số lượng mẫu thấp Vì vậy, việc sử dụng hai thuật tốn nên xem xét kỹ lưỡng đánh giá cẩn thận để đảm bảo tính xác hiệu phân tích liệu Hướng phát triển tương lai Trong tương lai, việc nghiên cứu phát triển hai thuật toán LDA PCA cần thiết Một số hướng nghiên cứu bao gồm: 2.1 Áp dụng LDA PCA vào toán phân loại nhận dạng liệu lớn phức tạp, phân loại ảnh, nhận dạng khuôn mặt, phân tích liệu y học 2.2 Nghiên cứu biến thể hai thuật tốn để tối ưu hóa hiệu suất độ xác Ví dụ như, Linear Discriminant Analysis (LDA) Quadratic Discriminant Analysis (QDA) kết hợp để tạo mơ hình tốt 2.3 Phát triển phương pháp kết hợp LDA PCA để giải tốn phân tích liệu đa biến, phân tích đa cấp độ, phân tích liệu đồng thời 2.4 Tìm hiểu ứng dụng LDA PCA lĩnh vực khác xử lý ngơn ngữ tự nhiên, phân tích tương tác người-máy, ứng dụng máy học liệu đồ thị Với phát triển khoa học công nghệ, việc nghiên cứu ứng dụng thuật tốn LDA PCA tiếp tục đóng vai trò quan trọng lĩnh vực khoa học liệu, trí tuệ nhân tạo, ứng dụng máy tính khác CHƯƠNG 6: DEMO Mơ tả LDA Ví dụ PCA Mã giả tự khởi tạo liệu Tài liệu tham khảo