1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Chuyên đề học phần học máy nâng cao đề ti áp dụng phương pháp giảm chiều pca dự đoán mobile appstore

21 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN HỌC MÁY NÂNG CAO ĐỀ TI: ÁP DỤNG PHƯƠNG PHÁP GIẢM CHIỀU PCA DỰ ĐOÁN MOBILE APPSTORE Sinh viên thực : DƯƠNG TUẤN ĐẠT : TRẦN SƠN TÙNG : ĐẶNG QUYẾT TIẾN Giảng viên hướng dẫn : ĐO NAM ANH Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : CÔNG NGHỆ PHẦN MỀM Lớp : D14CNPM4 Khóa : 2019 - 2024 Hà Nội, tháng năm 2023 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên sinh viên Nội dung thực Chữ ký Dương Tuấn Đạt 19810310101 Trần Sơn Tùng 19810310127 Đặng Quyết Tiến 19810310111 Họ tên giảng viên Giảng viên chấm 1: Giảng viên chấm 2: Chữ ký Ghi Điểm MỤC LỤC CHƯƠNG 1: GIỚI THIỆU VỀ PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH (PCA) 1.1 Thuật toán PCA (Principal Component Analysis) 1.2 Giảm chiều liệu .2 1.3 Các bước thực thuật toán giảm chiều PCA 1.4 Tiêu chí giảm chiều PCA 1.5 Ưu, nhược điểm thuật toán PCA 1.5.1 Ưu điểm thuật toán PCA 1.5.2 Nhược điểm thuật toán PCA 1.6 Ứng dụng thuật toán PCA CHƯƠNG 2: CƠ SỞ TOÁN HỌC SỬ DỤNG TRONG PRINCIPAL COMPONENT ANALYSIS – PCA 2.1 Độ lệch chuẩn (Standard Deviation) 2.2 Kỳ vọng ma trận hiệp phương sai 2.2.1 Dữ liệu chiều 2.2.2 Dữ liệu nhiều chiều .7 3.1 Mơ tả tốn 3.1.1 Mơ tả tốn trực quan hóa PCA liệu Digits 3.2 Môi trường thực nghiệm 3.3 Xây dựng liệu 3.3.1 Bộ liệu cho toán dự đốn giá BĐS đơn vị diện tích 3.4.1.Kết thực nghiệm 10 KẾT LUẬN .15 TÀI LIỆU THAM KHẢO .16 LỜI CẢM ƠN Nhóm chúng em xin chân thành cảm ơn thầy, cô giáo Khoa Công nghệ thông tin, trường Đại học Điện Lực, tạo điều kiện cho em thực đề tài Để hồn thành báo cáo đề tài “Áp dụng phương pháp giảm chiều PCA dự đoán Mobile AppStore”, nhóm em xin gửi lời cảm ơn chân thành tới thầy Đào Nam Anh truyền đạt, giảng dạy cho chúng em kiến thức, kinh nghiệm quý báu thời gian học tập rèn luyện, tận tình hướng dẫn chúng em trình làm báo cáo Nhóm em gửi lời cảm ơn tới bạn bè đóng góp ý kiến q bàu để nhóm em hồn thành báo cáo tốt Tuy nhiên, thời gian trình độ có hạn nên báo cáo chắn khơng tránh khỏi thiếu sót, nhóm em mong đóng góp ý kiến thầy tồn thể bạn Một lần nữa, em xin chân thành cảm ơn ln mong nhận đóng góp tất người LỜI MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển mạnh mẽ Cơng nghệ thơng tin, mơ hình tự động hóa ngày ứng dụng thực tế nhiều Song song với nó, khai thác liệu để phục vụ công Cách mạng 4.0 khơng thể thiếu Dữ liệu thực tế vơ đa dạng Muốn sử dụng liệu cách thơng minh có ích nhất, cần quan tâm tới đặc tính (feature) liệu Chúng ta quan sát khơng gian chiều, chiều, liệu lại có nhiều chiều Làm để trực quan hóa liệu lên không gian chiều, chiều? Để trả lời câu này, chúng em xin chọn đề tài: “Áp dụng phương pháp giảm chiều PCA dự đoán Mobile AppStore” để làm rõ Trong khuôn khổ tập lớn nhóm, chúng em xin trình bày giảm chiều liệu phương pháp phân tích thành phần (PCA) ứng dụng liệu Digits dự đoán Mobile AppStore Cấu trúc báo cáo bao gồm chương sau: Chương 1: Giới thiệu Phương pháp phân tích thành phần (PCA) Chương 2: Cơ sở toán học PCA Chương 3: Ứng dụng thuật toán PCA liệu Digits dự đoán Mobile AppStore CHƯƠNG 1: GIỚI THIỆU VỀ PHƯƠNG PHÁP PHÂN TÍCH THNH PHẦN CHÍNH (PCA) 1.1 Thuật tốn PCA (Principal Component Analysis) Hình 1.1: Hình ảnh đại diện cho phương pháp giảm chiều PCA Thuật tốn phân tích thành phần (Principal Components Analysis PCA) thuật toán thống kê sử dụng phép biến đổi trực quan để biến đổi tập hợp liệu từ không gian nhiều chiều sang khơng gian chiều (2 chiều) nhằm tối ưu hóa việc thể biến thiên liệu Ý tưởng PCA ánh xạ đặc trưng n chiều thành k chiều k chiều đối tượng trực giao hồn tốn mới, cịn gọi thành phần chính, đối tượng k chiều tái tạo lại sở đối tượng n chiều ban đầu Công việc PCA tìm cách tập trục tọa độ có liên quan mật thiết đến thân liệu Trong số đó, lựa chọn trục tọa độ thứ hai mặt phẳng trực giao với trục toạn độ để tối đa hóa phương sai trục thứ ba giống với trục thứ Bằng phép loại suy, thu n trục tọa độ Với trục tọa độ thu theo cách này, thấy hầu hết phương sai chưa k trục tọa độ phương sai chứa trục tọa độ sai gần Do đó, bỏ qua trục cịn lại giữ lại k trục chứa hầu hết phương sai Trên thực tế, điều tương đương với việc giữ lại đặc trưng chứa hầu hết phương sai bỏ qua kích thược đặc trưng chứa phương sai gần 0, để đạt q trình giảm kích thước cho đối tượng liệu Nói cách ngắn gọn: Sử dụng số toàn diện để đại diện cho nhiều loại thông tin khác biến, phân tích thành phần phân tích nhân tố thuộc loại thuật toán giảm chiều 1.2 Giảm chiều liệu Giảm chiều liệu biến đổi liệu từ khơng gian nhiều chiều thành khơng gian chiều để biểu diễn dạng chiều thấp đồng thời giữ lại số thuộc tính có ý nghĩa liệu gốc, có ý tưởng gần với chiều nội Phân tích liệu khơng gian nhiều chiều khó khăn nhiều lý do, liệu thơ có tính thưa thớt hậu lời nguyền chiều việc phân tích trở lên khó tính tốn, thuật tốn nhiều thời gian để xử lý liệu Giảm chiều liệu phổ biến lĩnh vực có số lượng quan sát lớn số lượng biến lớn chẳng hạn nhận dạng tiếng nói, tin học thần kinh tin sinh học Tóm lại, giảm chiều phương pháp xử lý trước liệu tính nhiều chiều Giảm chiều giữ lại tính quan trọng liệu, loại bỏ nhiễu tính khơng quan trọng, để đạt mục đích cải thiện tốc độ xử lỹ liệu Trong thực tế, sản xuất ứng dụng, việc giảm chiều phạm vi tổn thất thông tin định giúp tiết kiệm nhiều thời gian chi phí Giảm chiều trở thành phương pháp tiền xử lý liệu sử dụng rộng rãi 1.3 Các bước thực thuật toán giảm chiều PCA - Bước 1: Tính vector kỳ vọng tồn liệu - Bước 2: Trừ điểm liệu vector kỳ vọng toàn liệu - Bước 3: Tính ma trận hiệp phương sai - Bước 4: Tính trị riêng vector riêng norm ma trận này, xếp chúng theo thứ tự giảm dần trị riêng - Bước 5: Chọn K vector riêng ứng với K trị riêng lớn để xây dựng ma trân Uk có cột tạo thành hệ trực giao K vector gọi thành phần tạo thành khơng gian gần với phân bố liệu ban đầu chuẩn hóa - Bước 6: Chiếu liệu ban đầu chuẩn hóa xuống khơng gian tìm - Bước 7: Dữ liệu tọa độ điểm liệu khơng gian Hình 1.1: Các bước thực PCA 1.4 Tiêu chí giảm chiều PCA - Tái tạo gần nhất: Đối với tất điểm tập mẫu, tổng sai số điểm tái tạo điểm ban đầu nhỏ - Khả phân tách tối đa: Hình chiếu mẫu không gian chiều thấp tách biệt tốt 1.5 Ưu, nhược điểm thuật toán PCA 1.5.1 Ưu điểm thuật toán PCA - Loại bỏ đặc trưng tương quan (giảm đặc trưng) - Làm cho tập liệu dễ sử dụng - Cải thiện hiệu suất thuật toán - Giảm khớp (overfitting) - Cải thiện trực quan hóa liệu (dễ trực quan hóa có chiều) 1.5.2 Nhược điểm thuật toán PCA - Nếu người sử dụng có kiến thức định đối tượng quan sát nắm vững số đặc điểm liệu khơng thể can thiệp vào q trình xử lý thơng qua tham số hóa phương pháp khác khơng đạt hiệu mong đợi hiệu khơng cao; - Phân rã Eigenvalue có số hạn chế, ví dụ, ma trận biến đổi phải ma trận vuông; - Trong trường hợp phân bố khơng theo Gaussian, thành phần thu phương pháp PCA khơng tối ưu - Các biến độc lập trở nên khó hiểu - Chuẩn hóa liệu trước sử dụng PCA - Mất thơng tin 1.6 Ứng dụng thuật tốn PCA - Khám phá trực quan hóa tập liệu nhiều chiều - Nén liệu - Tiền xử lý liệu - Phân tích xử lý hình ảnh, giọng nói giao tiếp - Giảm kích thước (quan trọng nhất), loại bỏ dư thừa liệu nhiễu - PCA nhận dạng ảnh nư nhận dạng khuôn mặt, … - ứng dụng PCA phân tích mơ tả định lượng - Nếu ta giảm chiều chiều ta dùng loại đồ thị để hiểu thêm liệu mà ta có giúp dễ trực quan - Xử lý vấn đề tương quan biến liệu ban đầu cách sử dụng biến khơng gian mà phương pháp PCA tìm để mô tả liệu CHƯƠNG 2: CƠ SỞ TOÁN HỌC SỬ DỤNG TRONG PRINCIPAL COMPONENT ANALYSIS – PCA 2.1 Độ lệch chuẩn (Standard Deviation) - Ý nghĩa: tính biến động giá trị mang tính thống kê Nó cho thấy chênh lệch giá trị thời điểm đánh giá so với giá trị trung bình - Biểu diễn tốn học: 2.2 Kỳ vọng ma trận hiệp phương sai 2.2.1 Dữ liệu chiều - Cho N giá trị từ x1 đến xN kỳ vọng phương sai liệu định nghĩa là: - Với thuộc RN vector cột chứa toàn phần từ 1, Kỳ vọng đơn giản trung bình cơng tồn giá trị - Phương sai trung bình cộng bình phương khoảng cách từ điểm tới kỳ vọng, phương sai nhỏ thi điểm liệu gần với kỳ vọng, tức điểm liệu giống nhau, phương sai lớn ta nói liệu có tính phân tán Hình 2.1: Ví dụ kỳ vọng phương sai không gian chiều 2.2.2 Dữ liệu nhiều chiều - Cho N điểm liệu biểu diễn vector cột x1 đến xN vector kỳ vọng ma trận hiệp phương sai toàn liệu định nghĩa là: - Các công thức tương đồng với với công thức liệu chiều, có vài lưu ý sau:  Ma trận hiệp phương sai ma trận đối xứng ma trận nửa xác định dương  Mọi phần tử đường chéo ma trận hiệp phương sai số khơng âm, chúng phương sai chiều liệu  Nếu ma trận hiệp phương sai ma trận đường chéo, ta có liệu hồn tồn khơng tương quan chiều Hình 2.2: Dữ liệu không gian hai chiều không tương quan CHƯƠNG 3: ỨNG DỤNG TRỰC QUAN HÓA PCA DỰ ĐỐN DỰ ĐỐN MOBILE APPSTORE 3.1 Mơ tả tốn 3.1.1 Mơ tả tốn trực quan hóa PCA liệu Digits Hiện nay, hầu hết quốc gia phân chia tài sản quốc gia thành loại: bất động sản động sản, có khác khái niệm cụ thể bất động sản Tuy nhiên, có điểm tương đối thống khái niệm bất động sản tài sản gắn liền với đất đai không di dời Theo qui định Điều 181 Bộ Luật Dân nước Cộng hòa xã hội chủ nghĩa Việt Nam năm 2005, bất động sản tài sản không di dời bao gồm: - Đất đai - Nhà ở, cơng trình xây dựng gắn liền với đất đai, kể tài sản gắn liền với nhà ở, cơng trình xây dựng - Các tài sản khác gắn liền với đất đai - Các tài sản khác pháp luật qui định Bài toán Dự đốn giá BĐS đơn vị diện tích thực có đầy đủ thơng tin liên quan Sau chun gia dự đốn giá BĐS dựa thơng tin có - Input: Thơng tin, vị trí - Ouput: Giá BĐS đơn vị diện tích 3.2 Mơi trường thực nghiệm Hình 3.1: Ngôn ngữ python Python ngôn ngữ lập trình sử dụng phổ biến ngày để phát triển nhiều loại ứng dụng phần mềm khác chương trình chạy desktop, server, lập trình ứng dụng web Ngoài Python ngơn ngữ ưa thích ngành khoa học liệu (data science) ngôn ngữ phổ biến để xây dựng chương trình trí tuệ nhân tạo bao gồm machine learning Python ngơn ngữ dễ học: Ngơn ngữ Python có cú pháp đơn giản, rõ ràng, sử dụng số lượng không nhiều từ khố, Python đánh giá ngơn ngữ lập trình thân thiện với người học Python ngôn ngữ dễ hiểu: Mã lệnh (source code hay đơn giản code) viết ngôn ngữ Python dễ đọc dễ hiểu Ngay trường hợp bạn chưa biết Python bạn suy đốn ý nghĩa dịng lệnh source code Python có tương thích cao (highly portable): Chương trình phần mềm viết ngơn ngữ Python chạy nhiều tảng hệ điều hành khác bao gồm Windows, Mac OSX Linux 3.3 Xây dựng liệu 3.3.1 Bộ liệu cho toán dự đốn giá BĐS đơn vị diện tích - Tập liệu gồm thông tin 414 BĐS với thông tin khác - Đặt Y giá BĐS đơn vị diện tích - Bộ liệu gồm 13 thuộc tính  App  Category  Rating  Reviews  Size  Install  Type  Price  Content Rating  Genres  Last Update  Current Ver  Android Ver Hình 3.2: Bộ liệu dự đoán Mobile AppStore 3.4.1 Kết thực nghiệm  In mẫu tập liệu số lượng nhãn lớp  Chuyển đổi liệu Size thành liệu số: 10  Chuyển đổi liệu Install thành liệu số:  Chuyển đổi liệu Review thành liệu số: 11  Chuyển đổi liệu Price thành liệu số: 12  Điểm tương thuộc tính Reviews,Rating,Size,Install,Price  Xem xét số thú vị - tỷ lệ “Lượt đánh giá số lượng cài đặt” 13  Đồ thị sau sử dụng phương pháp PCA 14 KẾT LUẬN Đối với liệu nhiều chiều, phương pháp sử dụng thuật tốn phân tích thành phần PCA cho kết khả quan, có ý nghĩa khoa học giá trị thực tiễn Tuy nhiên gia đoạn thử nghiệm nên kết giảm chiều chưa mong đợi Điều việc trích chọn đặc trưng việc lựa chọn tham số phù hợp cho toán Trong thời gian tới, chúng em tiếp tục nâng cấp hoàn thiện nhằm nâng cao tỉ lệ xác để giải tốn cách nhanh gọn, tiết kiệm chi phí tối đa liệu sử dụng cách có ích 15 TI LIỆU THAM KHẢO [1] https://www.easy-tensorflow.com/tf-tutorials/linear-models/linear-classifier [2] https://machinelearningcoban.com/2017/01/08/knn/ [3] https://github.com/thandongtb/tf_tutorial/blob/master/classification/mnist_softmax 16

Ngày đăng: 13/06/2023, 14:30

Xem thêm: