Báo cáo chuyên đề học phần kỹ thuật giảm chiều dữ liệu đề ti tìm hiểu kỹ thuật giảm chiều pca và lda

46 9 0
Báo cáo chuyên đề học phần kỹ thuật giảm chiều dữ liệu đề ti tìm hiểu kỹ thuật giảm chiều pca và lda

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KỸ THUẬT GIẢM CHIỀU DỮ LIỆU ĐỀT I: TÌM HIỂU KỸ THUẬT GIẢM CHIỀU PCA VÀ LDA Sinh viên thực Giảng viên hướng dẫn : VŨ THỊ LINH NGUYỄN MỸ LINH : LƯƠNG THỊ HỒNG LAN Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : TRÍ TUỆ NHÂN TẠO V THỊ GIÁC MÁY TÍNH Lớp : D15TTNT&TGMT Khóa : D15 Hà Nội, tháng năm 2023 PHIẾU CHẤM ĐIỂM STT Họ tên sinh viên Nội dung thực Điểm Chữ ký VŨ THỊ LINH NGUYỄN MỸ LINH Họ tên giảng viên Chữ ký Ghi Giảng viên chấm 1: Giảng viên chấm 2: Giảng viên hướng dẫn Sinh viên thực (Ký, Ghi rõ họ tên) (Ký, Ghi rõ họ tên) MỤC LỤC MỤC LỤC MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN 1.1 Giới thiệu giảm chiều liệu 1.2 Phương pháp giảm chiều tuyến tính PCA LDA 1.2.1 Tìm hiểu PCA 1.2.1.1 Khái niệm phân tích thành phần .5 1.2.1.2 Đặc trưng phân tích thành phần .5 1.2.1.3 Mục tiêu phân tích thành phần .6 1.2.1.4 Cách bước để phân tích thành phần .7 1.2.1.5 Ứng dụng phân tích thành phần .9 1.2.1.6 Ý nghĩa phân tích thành phần 1.2.2 Tìm hiểu LDA 1.2.2.1 Khái niêm phân tích phân biệt tuyến tính 1.2.2.2 Đặc trưng phân tích phân biệt tuyến tính 10 1.2.2.3 Mục tiệu phân tích phân biệt tuyến tính 11 1.2.2.4 Các bước để phân tích phân biệt tuyến tính 11 1.2.2.5 Ứng dụng phân tích phân biệt tuyến tính .12 1.2.2.6 Ý nghĩa phân tích phân biệt tuyến tính 13 1.2.3 Ưu điểm, nhược điểm phương pháp giảm chiều 13 CHƯƠNG 2: TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 15 2.1 Triển khai toán 15 2.1.1 Dữ liệu thực nghiệm 15 2.1.2 Thực thi 15 2.1.2.1.1 Thực thi với liệu số với PCA 15 2.1.2.1.2 Thực thi liệu số với LDA 23 2.1.2.1.3 Thực thi với liệu ảnh với PCA 29 2.1.2.1.4 Thực thi với liệu ảnh với LDA .32 2.2 Đánh giá kết .34 PHẦN KẾT LUẬN 35 TÀI LIỆU THAM KHẢO 36 DANH MỤC BẢNG BIỂU Bảng 1: Dữ liệu thực nghiệm .15 Bảng 2: So sánh độ xác PCA 22 Bảng 3: So sánh độ xác LDA 29 Bảng 4: Dữ liệu hình ảnh .29 Bảng 5: Dữ liệu hình ảnh LDA .32 Bảng 6: So sánh độ xác PCA liệu hình ảnh 34 Bảng 7: So sánh độ xác LDA liệu hình ảnh 34 DANH MỤC TỪ VIẾT TẮT Thuật ngữ PCA LDA Tiếng Anh Tiếng Việt Principal Component Analysis Phân tích thành phần Linear Discriminant Analysis Phân tích phân biệt tuyến tính DANH MỤC HÌNH ẢNH Hình 1: Hình minh họa phép chiếu lên trục tọa độ Hình 2: Các trục tọa độ liệu có độ biến thiên cao Hình 1: Hình minh họa tập liệu hoa Iris ban đầu .16 Hình 2: Độ chưa giảm chiều 16 Hình 3: Tập liệu hoa Iris sau giảm chiều liệu với PCA 17 Hình 4: Độ xác liệu hoa Iri giảm chiều với PCA .17 Hình 5: Hình minh họa liệu rượu ban đầu 18 Hình 6: Độ xác tập liệu chưa giảm chiều 18 Hình 7: Tập liệu rượu sau giảm chiều PCA 19 Hình 8: Độ xác liệu rượu giảm chiều với PCA 19 Hình 9: Tập liệu ung thư vú ban đầu .20 Hình 10: Độ xác chưa giảm chiều 20 Hình 11: Tập liệu ung thư vú giảm chiều với PCA 21 Hình 12: Độ xác liệu ung thư vú giảm chiều với PCA 21 Hình 13: Hình minh họa tập liệu hoa Iris ban đầu .23 Hình 14: Độ xác liệu chưa giảm chiều 23 Hình 15: Tập liệu hoa Iris sau giảm chiều LDA 24 Hình 16: Độ xác liệu hoa Iris giảm chiều với LDA .24 Hình 17: Hình minh họa tập liệu rượu ban đầu 25 Hình 18: Độ xác liệu rượu chưa giảm chiều với LDA 25 Hình 19: Tập liệu rượu sau giảm chiều LDA 26 Hình 20: Độ liệu rượu sau giảm chiều với LDA .26 Hình 21: Hình minh họa tập liệu ung thư vú ban đầu 27 Hình 22: Độ xác liệu chưa giảm chiều .27 Hình 23: Tập liệu ung thư vú sau giảm chiều LDA 28 Hình 24: Độ xác liệu ung thư vú giảm chiều với LDA 28 Hình 25: Độ xác chưa giảm chiều với liệu hình ảnh .30 Hình 26: Dữ liệu hình ảnh 30 Hình 27: Đồ thị liệu giảm chiều với PCA .31 Hình 28: Dữ liệu sau giảm chiều .32 Hình 29: Biểu đồ liệu sau giảm chiều với LDA 33 Hình 30: Dữ liệu sau giảm chiều .33 MỞ ĐẦU Ngày nay, thực phân tích nhóm đối tượng, khó tránh phải việc nhóm đối tượng phục thuộc vào nhiều yếu tố, điều khiến cho việc tạo dựng hàm số để phân tích nhóm đối tượng cần phụ thuộc vào số lượng lớn biến, lên đến hàng nghìn, hàng trăm, hàng triệu,… đồng nghĩa với việc không gian mô tả cần thiết Điều khơng gây khó khăn cho việc lưu trữdữ liệu mà cịn khó khăn cho việc mơ hình hóa tính tốn để nhận xét, đưa góc nhìn trực quan cho việc kết luận tương quan đối tượng Vì thế, việc giảm số lượng biến thực quan trọng lĩnh vực có liên quan Tuy nhiên, giảm số lượng biến tập liệu phải đánh đổi độ xác tập liệu đó, điều có nghĩa phải chấp nhận phần liệu Cho nên: “Làm để giảm thiểu số chiều liệu, mà đảm bảo sốlượng thông tin cần thiết? Một đề xuất hay để giải vấn đề sử dụng phương pháp Phân tích thành phần (PCA: Principle Pomponent Analysis) Ở báo cáo này, chúng em sử dụng phương pháp Phân tích thành phần để giảm chiều liệu LỜI CẢM ƠN Trong suốt trình thực tập, nhóm chúng em nhận nhiều quan tâm ủng hộ, giúp đỡ tận tình thầy cơ, anh chị bạn bè Ngồi ra, nhóm xin gửi lời cảm ơn chân thành đến Cô Lương Thị Hồng Lan, giảng viên hướng dẫn cho đề tài Nhờ có thầy hết lịng bảo mà nhóm hồn thành tập lớn tiến độ giải tốt vướng mắc gặp phải Sự hướng dẫn thầy kim nam cho hành động nhóm phát huy tối đa mối quan hệ hỗ trợ thầy trị mơi trường giáo dục Tuy nhiên, vốn kiến thức chúng em nhiều hạn chế nên khó tránh khỏi thiếu sót Kính mong thầy xem xét, góp ý cho tập lớn chúng em hoàn thiện Lời cuối, xin lần gửi lời biết ơn sâu sắc đến cá nhân, thầy cô dành thời gian dẫn cho nhóm, xin cảm ơn đến tác giả tài liệu mà nhóm tham khảo Đây niềm tin, nguồn động lực to lớn để nhóm đạt kết CHƯƠNG 1: TỔNG QUAN VỀ B I TOÁN 1.1 Giới thiệu giảm chiều liệu Giảm chiều liệu trình giảm số chiều liệu mà giữ lại thông tin quan trọng Trong lĩnh vực khoa học liệu máy học, việc giảm chiều liệu thường sử dụng để tăng tốc độ xử lý liệu, giảm thiểu nhiễu chi phí lưu trữ Bài tốn giảm chiều toán lĩnh vực xử lý liệu, nhằm giảm số chiều liệu mà không mát nhiều thông tin quan trọng Trong thực tế, liệu thường có số chiều lớn, khơng phải tất chiều quan trọng Việc giảm chiều giúp cho việc phân tích xử lý liệu trở nên dễ dàng hơn, giảm thời gian tính tốn giúp cho kết đạt được xác Có nhiều phương pháp giảm chiều liệu chủ yếu chia loại: Giữ loại thuộc tính quan trọng xác định độ tương quan thuộc tính Nổi bật giữ lại thuộc tính quan trọng có phương pháp như: loại bỏ tính lạc hậu (Backwards-feature elimination), lựa chọn tính chuyển tiếp (Forward Feature Selection), xây dựng định ngẫu nhiên (Random Forest),… • Loại bỏ tính lạc hậu (Backwards-feature elimination): Tiếp cận hướng top down, bắt đầu với tất feature, loại bỏ feature hết • Lựa chọn tính chuyển tiếp (Forward Feature Selection): Ngược lại phương pháp trên, từ feature tăng dần feature tới mơ hình đạt giá trị tối ưu • Xây dựng định ngẫu nhiên (Random Forest): Phương pháp tương đối phổ biến có ích Việc sử dụng decision tree tận dụng lợi thống kê học để tìm feature

Ngày đăng: 23/06/2023, 09:49

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan