Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
4,61 MB
Nội dung
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KỸ THUẬT GIẢM CHIỀU DỮ LIỆU ĐỀ TI: TÌM HIỂU KỸ THUẬT GIẢM CHIỀU PCA VÀ LDA : VŨ THỊ LINH NGUYỄN MỸ LINH Giảng viên hướng dẫn : LƯƠNG THỊ HỒNG LAN Sinh viên thực Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : TRÍ TUỆ NHÂN TẠO V THỊ GIÁC MÁY TÍNH Lớp : D15TTNT&TGMT Khóa : D15 Hà Nội, tháng năm 2023 PHIẾU CHẤM ĐIỂM STT Họ tên sinh viên Nội dung thực Điểm Chữ ký VŨ THỊ LINH NGUYỄN MỸ LINH Họ tên giảng viên Chữ ký Ghi Giảng viên chấm 1: Giảng viên chấm 2: Giảng viên hướng dẫn Sinh viên thực (Ký, Ghi rõ họ tên) (Ký, Ghi rõ họ tên) MỤC LỤC MỤC LỤC MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN 1.1 Giới thiệu giảm chiều liệu 1.2 Phương pháp giảm chiều tuyến tính PCA LDA 1.2.1 Tìm hiểu PCA 1.2.1.1 Khái niệm phân tích thành phần .5 1.2.1.2 Đặc trưng phân tích thành phần 1.2.1.3 Mục tiêu phân tích thành phần 1.2.1.4 Cách bước để phân tích thành phần 1.2.1.5 Ứng dụng phân tích thành phần 1.2.1.6 Ý nghĩa phân tích thành phần 1.2.2 Tìm hiểu LDA 1.2.2.1 Khái niêm phân tích phân biệt tuyến tính 1.2.2.2 Đặc trưng phân tích phân biệt tuyến tính 10 1.2.2.3 Mục tiệu phân tích phân biệt tuyến tính 11 1.2.2.4 Các bước để phân tích phân biệt tuyến tính 11 1.2.2.5 Ứng dụng phân tích phân biệt tuyến tính .12 1.2.2.6 Ý nghĩa phân tích phân biệt tuyến tính 13 1.2.3 Ưu điểm, nhược điểm phương pháp giảm chiều 13 CHƯƠNG 2: TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ .15 2.1 Triển khai toán 15 2.1.1 Dữ liệu thực nghiệm 15 2.1.2 Thực thi .15 2.1.2.1.1 Thực thi với liệu số với PCA 15 2.1.2.1.2 Thực thi liệu số với LDA 23 2.1.2.1.3 Thực thi với liệu ảnh với PCA 29 2.1.2.1.4 Thực thi với liệu ảnh với LDA 32 2.2 Đánh giá kết 34 PHẦN KẾT LUẬN 35 TÀI LIỆU THAM KHẢO 36 DANH MỤC BẢNG BIỂU Bảng 1: Dữ liệu thực nghiệm 15 Bảng 2: So sánh độ xác PCA .22 Bảng 3: So sánh độ xác LDA 29 Bảng 4: Dữ liệu hình ảnh 29 Bảng 5: Dữ liệu hình ảnh LDA 32 Bảng 6: So sánh độ xác PCA liệu hình ảnh 34 Bảng 7: So sánh độ xác LDA liệu hình ảnh 34 DANH MỤC TỪ VIẾT TẮT Thuật ngữ PCA Tiếng Anh Principal Component Analysis LDA Linear Discriminant Analysis Tiếng Việt Phân tích thành phần Phân tích phân biệt tuyến tính DANH MỤC HÌNH ẢNH Hình 1: Hình minh họa phép chiếu lên trục tọa độ Hình 2: Các trục tọa độ liệu có độ biến thiên cao Hình 1: Hình minh họa tập liệu hoa Iris ban đầu 16 Hình 2: Độ chưa giảm chiều 16 Hình 3: Tập liệu hoa Iris sau giảm chiều liệu với PCA .17 Hình 4: Độ xác liệu hoa Iri giảm chiều với PCA 17 Hình 5: Hình minh họa liệu rượu ban đầu 18 Hình 6: Độ xác tập liệu chưa giảm chiều 18 Hình 7: Tập liệu rượu sau giảm chiều PCA .19 Hình 8: Độ xác liệu rượu giảm chiều với PCA 19 Hình 9: Tập liệu ung thư vú ban đầu 20 Hình 10: Độ xác chưa giảm chiều 20 Hình 11: Tập liệu ung thư vú giảm chiều với PCA 21 Hình 12: Độ xác liệu ung thư vú giảm chiều với PCA 21 Hình 13: Hình minh họa tập liệu hoa Iris ban đầu 23 Hình 14: Độ xác liệu chưa giảm chiều .23 Hình 15: Tập liệu hoa Iris sau giảm chiều LDA 24 Hình 16: Độ xác liệu hoa Iris giảm chiều với LDA 24 Hình 17: Hình minh họa tập liệu rượu ban đầu 25 Hình 18: Độ xác liệu rượu chưa giảm chiều với LDA 25 Hình 19: Tập liệu rượu sau giảm chiều LDA 26 Hình 20: Độ liệu rượu sau giảm chiều với LDA .26 Hình 21: Hình minh họa tập liệu ung thư vú ban đầu 27 Hình 22: Độ xác liệu chưa giảm chiều 27 Hình 23: Tập liệu ung thư vú sau giảm chiều LDA 28 Hình 24: Độ xác liệu ung thư vú giảm chiều với LDA 28 Hình 25: Độ xác chưa giảm chiều với liệu hình ảnh 30 Hình 26: Dữ liệu hình ảnh 30 Hình 27: Đồ thị liệu giảm chiều với PCA 31 Hình 28: Dữ liệu sau giảm chiều 32 Hình 29: Biểu đồ liệu sau giảm chiều với LDA 33 Hình 30: Dữ liệu sau giảm chiều 33 MỞ ĐẦU Ngày nay, thực phân tích nhóm đối tượng, khó tránh phải việc nhóm đối tượng phục thuộc vào nhiều yếu tố, điều khiến cho việc tạo dựng hàm số để phân tích nhóm đối tượng cần phụ thuộc vào số lượng lớn biến, lên đến hàng nghìn, hàng trăm, hàng triệu,… đồng nghĩa với việc không gian mô tả cần thiết Điều khơng gây khó khăn cho việc lưu trữdữ liệu mà cịn khó khăn cho việc mơ hình hóa tính tốn để nhận xét, đưa góc nhìn trực quan cho việc kết luận tương quan đối tượng Vì thế, việc giảm số lượng biến thực quan trọng lĩnh vực có liên quan Tuy nhiên, giảm số lượng biến tập liệu phải đánh đổi độ xác tập liệu đó, điều có nghĩa phải chấp nhận phần liệu Cho nên: “Làm để giảm thiểu số chiều liệu, mà đảm bảo sốlượng thông tin cần thiết? Một đề xuất hay để giải vấn đề sử dụng phương pháp Phân tích thành phần (PCA: Principle Pomponent Analysis) Ở báo cáo này, chúng em sử dụng phương pháp Phân tích thành phần để giảm chiều liệu LỜI CẢM ƠN Trong suốt q trình thực tập, nhóm chúng em nhận nhiều quan tâm ủng hộ, giúp đỡ tận tình thầy cơ, anh chị bạn bè Ngồi ra, nhóm xin gửi lời cảm ơn chân thành đến Cô Lương Thị Hồng Lan, giảng viên hướng dẫn cho đề tài Nhờ có thầy hết lịng bảo mà nhóm hồn thành tập lớn tiến độ giải tốt vướng mắc gặp phải Sự hướng dẫn thầy kim nam cho hành động nhóm phát huy tối đa mối quan hệ hỗ trợ thầy trị mơi trường giáo dục Tuy nhiên, vốn kiến thức chúng em cịn nhiều hạn chế nên khó tránh khỏi thiếu sót Kính mong thầy xem xét, góp ý cho tập lớn chúng em hoàn thiện Lời cuối, xin lần gửi lời biết ơn sâu sắc đến cá nhân, thầy cô dành thời gian dẫn cho nhóm, xin cảm ơn đến tác giả tài liệu mà nhóm tham khảo Đây niềm tin, nguồn động lực to lớn để nhóm đạt kết CHƯƠNG 1: TỔNG QUAN VỀ BI TOÁN 1.1 Giới thiệu giảm chiều liệu Giảm chiều liệu trình giảm số chiều liệu mà giữ lại thông tin quan trọng Trong lĩnh vực khoa học liệu máy học, việc giảm chiều liệu thường sử dụng để tăng tốc độ xử lý liệu, giảm thiểu nhiễu chi phí lưu trữ Bài toán giảm chiều toán lĩnh vực xử lý liệu, nhằm giảm số chiều liệu mà không mát nhiều thông tin quan trọng Trong thực tế, liệu thường có số chiều lớn, tất chiều quan trọng Việc giảm chiều giúp cho việc phân tích xử lý liệu trở nên dễ dàng hơn, giảm thời gian tính tốn giúp cho kết đạt được xác Có nhiều phương pháp giảm chiều liệu chủ yếu chia loại: Giữ loại thuộc tính quan trọng xác định độ tương quan thuộc tính Nổi bật giữ lại thuộc tính quan trọng có phương pháp như: loại bỏ tính lạc hậu (Backwards-feature elimination), lựa chọn tính chuyển tiếp (Forward Feature Selection), xây dựng định ngẫu nhiên (Random Forest),… • Loại bỏ tính lạc hậu (Backwards-feature elimination): Tiếp cận hướng top down, bắt đầu với tất feature, loại bỏ feature hết • Lựa chọn tính chuyển tiếp (Forward Feature Selection): Ngược lại phương pháp trên, từ feature tăng dần feature tới mô hình đạt giá trị tối ưu • Xây dựng định ngẫu nhiên (Random Forest): Phương pháp tương đối phổ biến có ích Việc sử dụng decision tree tận dụng lợi thống kê học để tìm feature Sau giảm chiều với phương pháp PCA độ xác đạt 93.57% Nếu giảm chiều độ xác giảm xuống 90% Bộ liệu hoa iris Bộ liệu rượu Số nhãn Độ xác chưa giảm chiều Số chiều giảm Độ xác sau giảm chiều Bộ liệu ung thư vú 3 88.89% 88.89% 91.81% 91.11% 75.93% 93.57% Bảng 2: So sánh độ xác PCA Với liệu hoa iris giảm chiều xuống độ xác 91.11% tăng nhẹ so với lúc chưa giảm chiều Với liệu rượu giảm chiều xuống độ xác cịn 75.93% chưa giảm chiều độ xác liệu đạt 88.89%, giảm chiều xuống độ xác giảm xuống 72% Với liệu ung thư vú giảm chiếu xuống đạt độ xác 93.57% tăng nhẹ so với lúc chưa giảm chiều 91.81%, giảm chiều xuống chiều độ xác giảm xuống 90% 22 2.1.2.1.2 Thực thi liệu số với LDA Dùng định để xem độ xác tập liệu hoa Iris chưa giảm chiều Hình 13: Hình minh họa tập liệu hoa Iris ban đầu Hình 14: Độ xác liệu chưa giảm chiều Độ xác tập liệu chưa giảm chiều, dùng định 88,89% 23 Tiến hành giảm chiều liệu từ tập liệu hoa iris phương pháp LDA Hình 15: Tập liệu hoa Iris sau giảm chiều LDA Hình 16: Độ xác liệu hoa Iris giảm chiều với LDA Sau giảm chiều với phương pháp LDA độ xác đạt 95.56% 24 Dùng định để xem độ xác tập liệu rượu chưa giảm chiều Hình 17: Hình minh họa tập liệu rượu ban đầu Hình 18: Độ xác liệu rượu chưa giảm chiều với LDA Độ xác tập liệu chưa giảm chiều, dùng định 88,89% Tiến hành giảm chiều liệu từ tập liệu rượu phương pháp LDA 25 Hình 19: Tập liệu rượu sau giảm chiều LDA Hình 20: Độ liệu rượu sau giảm chiều với LDA Sau giảm chiều với phương pháp LDA độ xác đạt 98,15% 26 Dùng định để xem độ xác tập liệu ung thư vú chưa giảm chiều Hình 21: Hình minh họa tập liệu ung thư vú ban đầu Hình 22: Độ xác liệu chưa giảm chiều Độ xác tập liệu chưa giảm chiều, dùng định 91.81% 27 Tiến hành giảm chiều liệu từ tập liệu hoa iris phương pháp LDA Hình 23: Tập liệu ung thư vú sau giảm chiều LDA Hình 24: Độ xác liệu ung thư vú giảm chiều với LDA Sau giảm chiều với phương pháp LDA độ xác đạt 97.66% 28 3 Bộ liệu ung thư vú 88.89% 88.89% 91.81% 95.56% 98.15% 97.66% Bộ liệu hoa iris Bộ liệu rượu Số nhãn Độ xác chưa giảm chiều Độ xác sau giảm chiều Bảng 3: So sánh độ xác LDA Với liệu hoa iris giảm chiều xuống độ xác 95.56% tăng nhiều so với lúc chưa giảm chiều Với liệu rượu giảm chiều xuống độ xác 98.15% tăng nhiều so với lúc chưa giảm chiều Với liệu ung thư vú giảm chiếu xuống đạt độ xác 97.66% tăng nhiều so với lúc chưa giảm chiều 2.1.2.1.3 Thực thi với liệu ảnh với PCA Dataset Số thuộc tính Bộ liệu chữ số 64 Số nhãn 10 Bảng 4: Dữ liệu hình ảnh Chúng ta sử dụng liệu ảnh chữ số (load_digits()) từ scikitlearning Với liệu tiến hàng đánh giá độ xác chưa giảm chiều sau giảm chiều Để đánh giá liệu chưa giảm chiều ta dùng mơ hình định để đánh giá Còn với tập liệu giảm chiều theo phương pháp PCA LDA, sau tiến hành đánh giá độ xác Sau sử dụng hai phương pháp PCA LDA với liệu thu đặc trưng ảnh liệu Dùng định để xem độ xác tập liệu chữ số chưa giảm chiều 29 Hình 25: Độ xác chưa giảm chiều với liệu hình ảnh Độ xác tập liệu chưa giảm chiều, dùng định 31,11% Hình 26: Dữ liệu hình ảnh 30 Hình 27: Đồ thị liệu giảm chiều với PCA 31 Hình 28: Dữ liệu sau giảm chiều 2.1.2.1.4 Thực thi với liệu ảnh với LDA Dataset Số thuộc tính Bộ liệu chữ số Số nhãn 64 10 Bảng 5: Dữ liệu hình ảnh LDA Chúng ta sử dụng liệu ảnh chữ số (load_digits()) từ scikitlearning) Với liệu tiến hàng đánh giá độ xác chưa giảm chiều sau giảm chiều Để đánh giá liệu chưa giảm chiều ta dùng mơ hình định để đánh giá Còn với tập liệu giảm chiều theo phương pháp PCA LDA, sau tiến hành đánh giá độ xác Sau sử dụng hai phương pháp PCA LDA với liệu thu đặc trưng ảnh liệu 32 Hình 29: Biểu đồ liệu sau giảm chiều với LDA Hình 30: Dữ liệu sau giảm chiều 33 2.2 Đánh giá kết PCA Bộ liệu hoa iris Bộ liệu rượu Bộ liệu ung thư vú Số nhãn 3 Độ xác 88.89% chưa 88.89% 91.81% giảm chiều Số chiều giảm Độ xác 91.11% sau 75.93% 93.57% giảm chiều Bảng 6: So sánh độ xác PCA liệu hình ảnh LDA Bộ liệu hoa iris 88.89% Bộ liệu rượu Bộ liệu ung thư vú 88.89% 91.81% Số nhãn Độ xác chưa giảm chiều Độ xác 95.56% 98.15% 97.66% sau giảm chiều Bảng 7: So sánh độ xác LDA liệu hình ảnh Nhìn vào bảng tổng kết PCA LDA với liệu số ta thấy độ xác phương pháp giảm chiều LDA liệu có độ xác cao phương pháp giảm chiều PCA Khi dùng PCA, LDA để giảm chiều liệu hình ảnh, với liệu (load_digits()) từ scikit-learning) Chúng ta thu đặc chưng hình ảnh sau đưa ảnh đầu vào liệu Tập liệu chữ số kích thước ảnh bé, nên giảm chiều đặc trưng pixel hình ảnh Chúng ta cần tìm tập liệu ảnh có kích thước ảnh to để sau giảm chiều đạt kết tốt 34 PHẦN KẾT LUẬN Vậy kết luận toán này, sau đưa data vào xử lý giảm chiều theo phương pháp PCA LDA ta nhận tập liệu với số chiều giảm giữ thuộc tính quan trọng Trong khoa học ngày phát triển, lượng liệu ngày nhiều lên, giá trị thực tiễn việc giảm chiều liệu ngày rõ rệt quan trọng Từ việc tìm kiếm áp dụng phương pháp giảm chiều thích hợp rút ngắn thời gian làm việc với liệu mà cịn nâng cao độ xác tính tốn Cảm ơn thầy (cơ) xem hết báo cáo này, bọn em cịn nhiều thiếu sót mong nhận giúp đỡ thầy (cô) 35 TI LIỆU THAM KHẢO [1] Tài liệu Machine Learning - Vũ Hữu Tiệp [2] Sách Machine Learning Yearning - Andrew Ng [3] Tài liệu Tốn - từ khóa học Machine Learning Stanford [4] Sách Deep Learning - Nguyễn Thanh Tuấn [5] Sách Deep Learning – Vũ Hữu Tiệp 36