1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giảm chiều dữ liệu và ứng dụng trong bài toán phân lớp dữ liệu lớn

61 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 1,34 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ KẾ HOẠCH VÀ ĐẦU TƯ HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN HỌ VÀ TÊN SINH VIÊN NGUYỄN VŨ PHI KHANH KHÓA LUẬN TỐT NGHIỆP CHUYÊN NGÀNH DỮ LIỆU LỚN TRONG KINH TẾ VÀ KINH DOANH TÊN ĐỀ TÀI: GIẢM CHIỀU DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÀN PHÂN LỚP DỮ LIỆU LỚN Hà Nội – 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ KẾ HOẠCH VÀ ĐẦU TƯ HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN KHÓA LUẬN TỐT NGHIỆP GIẢM CHIỀU DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÀN PHÂN LỚP DỮ LIỆU LỚN Sinh viên thực hiện: Nguyễn Vũ Phi Khanh MSV: 7103106622 Lớp: KTDL10 Chuyên ngành: Phân tích liệu lớn kinh tế kinh doanh Giảng viên hướng dẫn: TS Nguyễn Hữu Xuân Trường Hà Nội – 2023 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc BẢN CAM ĐOAN Tên là: Nguyễn Vũ Phi Khanh Mã sinh viên: 7103106622 Lớp: KTDL10 Chuyên ngành: Phân tích liệu lớn kinh tế kinh doanh Tôi thực khóa luận tốt nghiệp với đề tài: “Giảm chiều Dữ liệu Ứng dụng toán Phân lớp liệu lớn” Tôi xin cam đoan đề tài nghiên cứu riêng hướng dẫn TS Nguyễn Hữu Xuân Trường Các nội dung nghiên cứu, kết đề tài trung thực chưa cơng bố hình thức Nếu phát có hình thức gian lận tơi xin hồn tồn chịu trách nhiệm trước pháp luật Hà Nội, ngày 27 tháng 06 năm 2023 Sinh viên Khanh Nguyễn Vũ Phi Khanh LỜI CẢM ƠN Khóa luận tốt nghiệp “Giảm chiều Ứng dụng toàn Phân lớp liệu” thực Học viện Chính sách Phát triển, hướng dẫn khoa học TS Nguyễn Hữu Xuân Trường Trước tiên tơi xin bày tỏ lịng biết ơn sâu sắc tới thầy hướng dẫn TS Nguyễn Hữu Xuân Trường thầy TS Đàm Thanh Tú Trong trình thực khố luận, tơi nhận nhiều định hướng khoa học, học quý báu, hướng dẫn nhiệt tình từ thầy hướng dẫn Các thầy ln tận tâm động viên, khuyến khích dẫn giúp đỡ tơi hồn thành khố luận Tôi xin chân thành cảm ơn giảng viên khoa Kinh tế số tạo điều kiện thuận lợi suốt q trình nghiên cứu thực khố luận Tơi xin cảm ơn Tập thể cán bộ, giảng viên Khoa Kinh tế số, Học viện Chính sách Phát triển tạo điều kiện giúp đỡ suốt thời gian học tập nghiên cứu Cuối cùng, xin bày tỏ lòng biết ơn sâu sắc tới Bố, Mẹ, Anh, Chị em gia đình cho tơi điểm tựa vững chắc, tạo động lực để tơi hồn thành khoá luận Sinh viên Khanh Nguyễn Vũ Phi Khanh LỜI MỞ ĐẦU Trên giới, với phát triển ngành khoa học kỹ thuật nói chung trung tâm ngành khoa học thơng tin nói riêng nhu cầu thu thập, chuyển đổi, xử lý thơng tin từ mơi trường bên ngồi thành dạng liệu yêu cầu cấp thiết Với mục đích tăng cường xác, tốc độ quy mơ xử lý, tránh lãng phí nguồn tài ngun xã hội nói riêng giới vật chất nói chung việc chuyển đổi số coi đóng vai trị then chốt, đảm bảo thành cơng, xác tốc độ giai đoạn sau đó, đặc biệt việc định nhà quản trị Không bỏ qua quy luật đó, Việt Nam tiến hành triển khai chương trình quốc gia chuyển đổi số, hai ba mục tiêu quan trọng chương trình nhằm xây dựng phủ số kinh tế số Việt Nam Trong kinh tế số phủ số, hoạt động kinh tế cơng tác điều hành đạo quan phủ phải linh hoạt, kịp thời hiệu Để đạt điều đó, trước hết cần nắm bắt dự báo kịp thời hoạt động kinh tế - xã hội để có phản ứng nhanh, xác trước thay đổi ngày nhiều, nhanh khó lường tình hình trị, kinh tế xã hội nước quốc tế Với phát triển mạnh mẽ cơng nghệ thơng tin tiến trình hội nhập quốc tế ngày sâu rộng lượng thơng tin, liệu kiện trị, kinh tế xã hội, phạm vi khác (toàn cầu, khu vực, quốc gia, vùng, miền, ) xuất ngày nhiều phương tiện thông tin đại chúng, trang mạng xã hội, trình hoạt động đơn vị quản lý nhà nước doanh nghiệp, Việc thu thập, lưu trữ, cung cấp phổ biến loại thông tin ngày thuận lợi, dễ dàng nhờ tiến khoa học công nghệ Internet IoT Từ thực tế cho thấy cách tiếp cận dự báo kinh tế - tài lâu khơng cịn phù hợp với biến động nhanh hội nhập quốc tế bùng nổ thông tin liệu liên quan đến lĩnh vực Trên khắp giới, doanh nghiệp đối mặt với lượng lớn liệu đa dạng phức tạp Việc nắm bắt phân tích liệu để dự báo tình hình kinh doanh trở thành tách thức đáng kể Trong bối cảnh kinh tế Việt Nam phát triển mạnh mẽ, việc sử dụng phương pháp giảm chiều liệu ứng dụng chúng xây dựng mơ hình báo tình hình kinh doanh doanh nghiệp cần thiết Mục tiêu khoá luận nghiên cứu phân tích phương pháp giảm chiều liệu, từ áp dụng chúng vào việc xây dựng mơ hình báo tình hình kinh doanh doanh nghiệp Việt Nam Đồng thời, khoá luận tập trung vào việc áp dụng kỹ thuật cơng nghệ để đảm bảo tính xác hiệu mơ hình dự báo Qua việc nghiên cứu ứng dụng phương pháp giảm chiều liệu, khoá luận hy vọng đóng góp vào việc cải thiện khả dự báo tình hình kinh doanh doanh nghiệp Việt Nam Điều mang lại lợi ích to lớn cho việc quản lý định môi trường kinh doanh ngày phức tạp biến đổi MỤC LỤC LỜI CẢM ƠN LỜI MỞ ĐẦU MỤC LỤC I DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT III DANH MỤC CÁC BẢNG IV DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ V TỔNG QUAN ĐỀ TÀI 1 Đặt vấn đề Mục TIÊU, đối tượng, phạm vi phương pháp nghiên cứu 2.1 Mục tiêu nghiên cứu khóa luận 2.2 Đối tượng nghiên cứu 2.3 Phạm vi nghiên cứu .2 2.4 Phương pháp nghiên cứu .2 Ý nghĩa lý luận thực tiễn dự án Cấu trúc khóa luận CHƯƠNG 1: TỔNG QUAN VỀ GIẢM CHIỀU DỮ LIỆU 1.1 Khái niệm số tính chất Giảm chiều liệu .5 1.1.1 Khái niệm Giảm chiều liệu .5 1.1.2 Vai trò Giảm chiều liệu 1.2 Các phương pháp giảm chiều liệu 1.2.1 Phương pháp chọn thuộc tính (Feature selection) 1.2.2 Phương pháp trích chọn đặc tính (Feature extraction) 12 1.3 Tiểu kết 18 CHƯƠNG 2: GIẢM CHIỀU DỮ LIỆU VÀ PHƯƠNG PHÁP PCA 19 2.1 Giảm chiều liệu phương pháp PCA 19 2.1.1 Lựa chọn thuộc tính (Lựa chọn biến) .19 2.1.2 Phân tích suy biến (SVD – Singular Value Decomposition) 20 2.1.3 Phương pháp Compact SVD 22 2.1.4 Phương pháp Truncate SVD 22 2.1.5 Phương pháp PCA (Principal Components Analysis) 23 2.2 Một số biến thể PCA .25 2.2.1 KPCA ( Kernel principal component analysis) 25 i 2.2.2 ICA (Independent component analysis) 26 2.3 Mơ hình sử dụng PCA 27 2.3.1 Giới thiệu phân lớp liệu 27 2.3.2 Mơ hình DecisionTreeClassifer (mơ hình định) 33 2.3.3 Mơ hình hồi quy logistic 34 2.3.4 Mơ hình phân lớp Naive Bayes 35 2.3.5 Mô hình rừng ngẫu nhiên (Random Forests) 36 2.3.6 Mơ hình hàng xóm gần – KNN ( K-nearest neighbor) 36 2.4 TIểu kết 36 CHƯƠNG 3: THỰC NGHIỆM PHƯƠNG PHÁP GIẢM CHIỀU PCA VÀO BÀI TỐN PHÂN LỚP PHÂN TÍCH RỜI BỎ DỊCH VỤ CỦA DOANH NGHIỆP BÁN HÀNG ONLINE 37 3.1 Giới thiệu 37 3.2 Mô tả tập liệu 37 3.3 Quy trình dự báo KHÁCH HÀNG RỜI BỎ DỊCH VỤ DỰA TRÊN DOANH THU CỦA CỬA HÀNG KINH DOANH ONLINE 39 3.4 Tiểu kết 46 3.5 Định hướng phát triển tương lai 46 KẾT LUẬN CHUNG 47 TÀI LIỆU THAM KHẢO 48 ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Giải nghĩa Ký hiệu, chữ viết tắt ICA Independent Component Analysis – Phân tích thành phần độc lập KPCA Kernel Principal Component Analysis – Phân tích thành phần nhân PCA Principal Component Analysis – Phân tích thành phần SVM Support vector machine – Máy Vector hỗ trợ iii DANH MỤC CÁC BẢNG Bảng 3.1: Kết nhận từ mơ hình test với phương pháp PCA .44 iv 2.3.5 Mơ hình rừng ngẫu nhiên (Random Forests) Random Forests thuật tốn học có giám sát (supervised learning) Nó sử dụng cho phân lớp hồi quy Nó thuật tốn linh hoạt dễ sử dụng Một khu rừng bao gồm cối Người ta nói có nhiều rừng mạnh Random forests tạo định mẫu liệu chọn ngẫu nhiên, dự đoán từ chọn giải pháp tốt cách bỏ phiếu Nó cung cấp báo tốt tầm quan trọng tính Random forests có nhiều ứng dụng, chẳng hạn cơng cụ đề xuất, phân loại hình ảnh lựa chọn tính Nó sử dụng để phân loại ứng viên cho vay trung thành, xác định hoạt động gian lận dự đoán bệnh Nó nằm sở thuật tốn Boruta, chọn tính quan trọng tập liệu 2.3.6 Mơ hình hàng xóm gần – KNN ( K-nearest neighbor) K-nearest neighbor thuật toán supervised-learning đơn giản (mà hiệu vài trường hợp) Machine Learning Khi training, thuật toán khơng học điều từ liệu training (đây lý thuật toán xếp vào loại lazy learning), tính tốn thực cần dự đốn kết liệu K-nearest neighbor áp dụng vào hai loại toán Supervised learning Classification Regression KNN cịn gọi thuật tốn Instance-based hay Memory-based learning 2.4 TIỂU KẾT Trong chương này, khóa luận trình bày tóm tắt kiến thức sử dụng chương tiếp theo, cụ thể khái niệm giảm chiều biến, giảm chiều biến theo phương pháp PCA, mơ hình dự báo Chương II trọng đề xuất phương pháp giảm chiều biến dựa vào phương pháp PCA phương pháp hiệu giảm chiều biến với tập liệu lớn kinh tế - kinh doanh Kết giảm chiều biến theo phương pháp PCA thể rõ ràng Chương III chương thực nghiệm cho tồn khóa luận 36 CHƯƠNG 3: THỰC NGHIỆM PHƯƠNG PHÁP GIẢM CHIỀU PCA VÀO BÀI TOÁN PHÂN LỚP PHÂN TÍCH RỜI BỎ DỊCH VỤ CỦA DOANH NGHIỆP BÁN HÀNG ONLINE 3.1 GIỚI THIỆU Việc dự báo biến mục tiêu theo tập liệu lớn cần thực phương pháp giảm chiều biến Trong chương 02, khóa luận đề xuất phương pháp PCA để giảm chiều biến Phương pháp sử dụng phổ biến lĩnh vực kinh tế - tài Trong chương này, Khóa luận đề xuất thuật tốn dự báo theo biến mục tiêu liệu lớn tình hình kinh doanh doanh nghiệp bán hàng online đồng thời sử dụng giảm chiều biến theo phương pháp PCA để cải thiện tốc độ xử lý liệu mơ hình qua đánh giá theo liệu xuất Giới thiệu toán: doanh nghiệp bán hàng online đưa số thống kê với 12330 đơn hàng nhận lại Với mơ hình thích hợp, người phân tích liệu đưa số khách hàng rời bỏ dịch vụ khách hàng lại với dịch vụ bn bán online Từ dự đốn lượng khách hàng rời bỏ dịch vụ tương lai Song song với áp dụng phương pháp giảm chiều liệu để tăng tốc xử lý mơ hình dự đốn khách hàng rời bỏ dịch vụ 3.2 MÔ TẢ TẬP DỮ LIỆU Tập liệu bao gồm 18 cột với 12330 quan sát bao gồm: - Cột Administrative có kiểu liệu int64 - Cột Administrative_Duration có kiểu liệu float - Cột Informational có kiểu liệu int64 - Cột Informational_Duration có kiểu liệu float - Cột ProductRelated có kiểu liệu int64 - Cột ProductRelated_Duration có kiểu liệu float - Cột BounceRates có kiểu liệu float - Cột ExitRates có kiểu liệu float - Cột PageValues có kiểu liệu float 37 - Cột SpecialDay có kiểu liệu float - Cột Month có kiểu liệu object - Cột OperatingSystems có kiểu liệu int64 - Cột Browser có kiểu liệu int64 - Cột Region có kiểu liệu int64 - Cột TrafficType có kiểu liệu int64 - Cột VisitorType có kiểu liệu object - Cột Weekend có kiểu liệu bool - Cột Revenue có kiểu liệu bool - Ta thấy cột có kiểu liệu bool gồm cột, cột có kiểu liệu float64 gồm cột, cột có kiểu liệu int64 gồm cột, cột có kiểu liệu object gồm cột Kết luận tập liệu lớn có số lượng quan sát nhiều cấu trúc liệu phức tạp Rangeindex: 12330 entries, to 12329 Data columns (total 18 columns): # Column Non-Null Count Administrative 12330 non-null Administrative_Duration 12330 non-null Informational 12330 non-null Informational_Duration 12330 non-null ProductRelated 12330 non-null ProductRelated_Duration 12330 non-null BounceRates 12330 non-null ExitRates 12330 non-null PageValues 12330 non-null SpecialDay 12330 non-null 10 Month 12330 non-null 11 OperatingSystems 12330 non-null 12 Browser 12330 non-null 13 Region 12330 non-null 14 TrafficType 12330 non-null 15 VisitorType 12330 non-null 16 Weekend 12330 non-null 17 Revenue 12330 non-null dtypes: bool(2), float64(7), int64(7), object(2) Dtype int64 float64 int64 float64 int64 float64 float64 float64 float64 float64 object int64 int64 int64 int64 object bool bool 38 memory usage: 1.5+ MB 3.3 QUY TRÌNH DỰ BÁO KHÁCH HÀNG RỜI BỎ DỊCH VỤ DỰA TRÊN DOANH THU CỦA CỬA HÀNG KINH DOANH ONLINE Giai đoạn 1: Tiền xử lý liệu Ở giai đoạn tập liệu cần phải qua giai đoạn xử lý tiền kỳ trước cho vào mơ hình học máy Các bước xử lý tiền kỳ tập chung vào mảng giá trị trống Administrative Administrative-Duration Informational Informational-Duration ProductRelated ProductRelated-Duration BounceRates ExitRates PageValues SpecialDay Month OperatingSystems Browser Region TrafficType VisitorType Weekend Revenue dtype: int64 0 0 0 0 0 0 0 0 0 Theo kết cho thấy tập liệu khơng có giá trị trống bảng Sau ta lấy giá trị “object”, “bool” (các giá trị biến cho biến mục tiêu đo giá trị count (tổng quan sát biến), giá trị unique (có giá trị biến) top (quan sát đứng đầu thước đo từ lên trên) giá trị freq (giá trị trung bình biến) Giai đoạn 2: EDA liệu (khai phá liệu khám phá) Trước tiên ta khám phá biểu đồ theo trường liệu churn (ở trường liệu revenue) 39 Hình 3.1: Tỉ lệ rời bỏ khách hàng doanh nghiệp Từ biểu đồ tròn cho ta thấy lượng True dường chiếm thiểu số đạt 15.5% so với lượng False đạt 84.5% Ở thấy lượng khách hàng lại với dịch vụ có tỷ trọng thấp so với lượng khách hàng rời bỏ dịch vụ bn bán online Hình 3.2: Lượng khách hàng rời bỏ theo ngày đặc biệt 40 Biểu đồ cho thấy lượng khách hàng rời bỏ dịch vụ theo ngày đặc biệt dần chuyển biến dần đồng thời lượng khách hàng lại với dịch vụ chuyển biến dần theo Hình 3.3: Lượng khách hàng rời bỏ theo lượng sản phẩm Biểu đồ cho thấy lượng khách hàng rời bỏ dịch vụ theo lượng sản phẩm phân phối tương tự so với thước đo theo ngày đặc biệt Và lượng khách hàng chia theo loại khách tương tự Hình 3.4: Lượng khách hàng rời bỏ theo số phân loại khách hàng Đối với thước đo số khác lượng khách hàng rời bỏ dịch vụ lên xuống không xác định lượng khách hàng đến từ vùng quốc gia khác 41 Hình 3.5: Lượng khách hàng rời bỏ theo vùng quốc gia Lượng khách hàng tính theo tháng Hình 3.6: Lượng khách hàng rời bỏ theo tháng Lượng khách hàng tính theo mức độ truy cập trình duyệt web Hình 3.7: Lượng khách hàng rời bỏ theo số duyệt Web khách hàng Và lượng khách hàng tính theo số phương thức phương tiện giao hàng 42 Hình 3.8: Lượng khách hàng rời bỏ theo phương tiện giao hàng Từ kết luận sơ tập liệu có trường liệu với giá trị biến đổi khác dẫn đến việc khó dự đoán làm tăng thời gian xử lý cho mơ hình học máy dự đốn Để cải thiện tốc độ dự đốn cho mơ hình xử lý tập liệu này, ta cần phải sử dụng phương pháp giảm chiều biến PCA để cải thiện tốc độ xử lý cho mơ hình học máy dự đoán Giai đoạn 3: Xử lý tập liệu phương pháp giảm chiều biến PCA Ở đây, ta tiến hành xử lý tiếp với trường liệu để đưa vào phương pháp PCA để giảm chiều biến chúng From sklearn.model_selectioin import train_test_split # Lựa chọn trường liệu cho PCA Features = ["Administrative", "Administrative_Duration", "Informational", "Informational_Duration","ProductRelated", "ProductRelated_Duration", "BounceRates", "ExitRates", "PageValues","SpecialDay", "OperatingSystems", "Browser", "Region", "TrafficType"] #tách biến độc lập (X) biến phụ thuộc (y) X = data[features] Y = data[“Revenue”] # chia liệu thành tập huấn luyện tập test X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state=42) Giai đoạn 4: Ứng dụng phương pháp PCA vào tập liệu From sklearn.decomposition import PCA From sklearn.preprocessing import StandardScaler 43 # Thực PCA Scaler = StandardScaler() X_train_scaled = caler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) n_components = # Số thành phần mong muốn pca = PCA(n_components=n_components) X_train_pca = pca.fit_transform(X_train_scaled) X_test_pca = pca.transform(X_test_scaled) Sau áp dụng phương pháp PCA vào tập liệu, ta thu kết mơ hình máy học sau: Bảng 3.1: Kết nhận từ mơ hình test với phương pháp PCA Từ trường liệu trên, ta xuất thông số so sánh độ xác (accuracy) thời gian xử lý (time) đưa vào mơ hình thực nghiệm from sklearn.tree import DecisionTreeClassifier from sklearn.linear_model import LogisticRegression from sklearn.naive_bayes import GaussianNB from sklearn.ensemble import RandomForestClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score import time # Định nghĩa mơ hình phân loại models = { "Decision Tree Classifier": DecisionTreeClassifier(), "Logistic Regression": LogisticRegression(), 44 "Naive Bayes": GaussianNB(), "Random Forest": RandomForestClassifier(), "KNN": KNeighborsClassifier() } results = [] times = [] # Đào tạo đánh giá mô hình for model_name, model in models.items(): start_time = time.time() # Đào tạo mơ hình liệu khơng giảm chiều model.fit(X_train, y_train) y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) time_no_pca = time.time() - start_time # Đào tạo mơ hình liệu giảm chiều start_time = time.time() model.fit(X_train_pca, y_train) y_pred_pca = model.predict(X_test_pca) accuracy_pca = accuracy_score(y_test, y_pred_pca) time_pca = time.time() - start_time results.append({ "Model": model_name, "Accuracy (No PCA)": accuracy, "Accuracy (PCA)": accuracy_pca, "Time (No PCA)": time_no_pca, "Time (PCA)": time_pca }) # In bảng kết results_df = pd.DataFrame(results) print(results_df) 45 Hình 3.9: Bảng so sánh độ hiệu mơ hình test theo phương pháp PCA Từ giá trị bảng so sánh hiệu suất mơ hình phương pháp cho ta thấy sau ứng dụng phương pháp PCA tập liệu thu gọn lại phải xử lý đặc trưng riêng biệt, thu lại ta có tốc độ xử lý cao so với khơng dùng PCA E có tốc độ xử lý chậm Bù lại, độ xác mơ hình theo phương pháp PCA thấp mơ hình khơng theo phương pháp PCA liệu thu gọn lại dẫn tới việc số xác bị thấp so với tập liệu chưa thu gọn 3.4 TIỂU KẾT Từ thực nghiệm so sánh cho ta thấy phương pháp giảm chiều liệu PCA có độ hiệu tốc độ xử lý bù lại độ xác thấp so với khơng dùng PCA Nhưng bù lại độ xác phương pháp chênh lệch không nhiều cho thấy ta sử dụng phương pháp giảm chiều liệu PCA để đưa dự đốn nhanh chóng với độ sai số thấp, từ cải thiện hiệu suất dự đoán khách hàng rời bỏ dịch vụ doanh nghiệp tương lai 3.5 ĐỊNH HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI Ngoài phương pháp giảm chiều liệu PCA, ta cịn có biến thể khác KPCA, ICA cải thiện độ xác mơ hình học máy mà đưa hiệu suất mặt thời gian cao Ngồi ra, sử dụng thêm nhiều phương pháp khác để biến đổi liệu dạng dễ xử lý góp phần thúc đẩy tốc độ phân tích mơ hình, góp phần đưa phân tích kịp thời xác 46 KẾT LUẬN CHUNG Khóa luận tập trung vào việc nghiên cứu giảm chiều liệu PCA (Principal Component Analysis) ứng dụng PCA vào toán phân lớp liệu bán hàng online PCA phương pháp giảm chiều liệu phổ biến, sử dụng để loại bỏ đặc trưng dư thừa trích xuất thơng tin quan trọng từ liệu ban đầu Bài toán phân lớp liệu bán hàng online đòi hỏi hệ thống phân loại hiệu để phân loại liệu vào nhãn tương ứng Các nghiên cứu trước đề xuất thực kỹ thuật giảm chiều liệu cách sử dụng phương pháp lựa chọn trích xuất đặc trưng PCA coi kỹ thuật giảm chiều liệu phổ biến giúp giảm thời gian tính tốn cho q trình học tập Ngồi ra, kỹ thuật khác EMD, correlation, LDA, forward selection sử dụng việc giảm chiều liệu lựa chọn đặc trưng Kết nghiên cứu cho thấy PCA ứng dụng hiệu vào toán phân lớp liệu bán hàng online Việc sử dụng PCA giúp giảm chiều liệu, loại bỏ đặc trưng dư thừa tạo thành phần (principal components) từ liệu ban đầu Các thành phần sử dụng để xây dựng mơ hình phân loại liệu hiệu giảm thời gian huấn luyện Tuy nhiên, nghiên cứu kỹ thuật giảm chiều liệu phi tuyến không vượt trội PCA nhiệm vụ thực tế Các kỹ thuật phi tuyến thực tốt nhiệm vụ nhân tạo chọn lọc, không vượt trội PCA nhiệm vụ thực tế Các nghiên cứu tương lai tập trung vào cải thiện kỹ thuật giảm chiều liệu phi tuyến để nâng cao hiệu suất nhiệm vụ thực tế Tổng quan, kết nghiên cứu khóa luận cho thấy PCA phương pháp giảm chiều liệu hiệu ứng dụng vào tốn phân lớp liệu bán hàng online Tuy nhiên, cần tiếp tục nghiên cứu phát triển kỹ thuật giảm chiều liệu phi tuyến để nâng cao hiệu suất nhiệm vụ thực tế 47 TÀI LIỆU THAM KHẢO [1] N H Tưởng, “ML From Scratch: Thuật toán giảm chiều liệu PCA,” Viblo Asia, 2022 [2] B Boehmke and B M Greenwell, "Dimension Reduction," in Hands-On Machine Learning with R Chapman & Hall, ISBN 978-1-138-49568-5, 2019, p 343–396 [3] I Fodor, "A survey of dimension reduction techniques," Center for Applied Scientific Computing, Lawrence Livermore National, 2002 [4] D Lakshmi Padmaja and B Vishnuvardhan, "Comparative Study of Feature Subset Selection Methods for Dimensionality Reduction on Scientific Data," IEEE International Conference on Advanced Computing (IACC), vol 6th, no doi:10.1109/IACC.2016.16 ISBN 978-1-4673-8286-1, p 31–34, 2016 [5] P Đ Khánh, “Deepai Book,” Github, 2021 [Trực tuyến] Available: https://phamdinhkhanh.github.io/deepaibook/ch_ml/FeatureEngineering.html#id3 [Đã truy cập 20 05 2023] [6] P M Phương, “Giải thuật Adaboost ứng dụng nhận dạng biển số xe (Data Mining),” Bible Asia, 2019 [Trực tuyến] Available: https://viblo.asia/p/giai-thuat-adaboost-ung-dung-trong-nhan-dang-bien-soxedata-mining-07LKXxbPKV4 [Đã truy cập 17 05 2023] [7] N T Anh, “Giải Mã Hồi Quy Logistic: Giải Pháp Tối Ưu Dự Đoán Kết Quả Trong Phân Tích Dữ Liệu,” luanvan1080.com, 2023 [Trực tuyến] Available: https://luanvan1080.com/hoi-quy-logistic.html [Đã truy cập 19 05 2023] [8] C L.J., C K.S., C W.K., L H.P and G Q.M., "A comparison of PCA, KPCA and ICA for dimensionality reduction in support vector machine," Neurocomputing, vol Volume 55; Issues 1–2, no ISSN 0925-2312; https://doi.org/10.1016/S0925-2312(03)00433-8., pp 321-336, 2003 [9] B T Hiếu, “Kỹ thuật phân lớp liệu Khai Phá Dữ Liệu,” khotrithucso.com, 2019 [Trực tuyến] Available: https://khotrithucso.com/doc/p/ky-thuat-phan-lop-du-lieu-trong-khai-pha-dulieu-249315 [Đã truy cập 19 05 2023] [10] N Mạnh, “【Machine Learning】Vietnamese - Framework LightGBM,” Qiita.com, 2019 [Trực tuyến] Available: https://qiita.com/ngomanh/items/b5e8aa6f1de16ea31e89 [Đã truy cập 18 05 2023] [11] V H Tiệp, “Machine Learning bản,” machinelearningcoban.com, 2017 [Trực tuyến] Available: https://machinelearningcoban.com/2017/01/08/knn/ 48 [Đã truy cập 14 05 2023] [12] Trí tuệ nhân tạo, “SVM khó hiểu! Hãy đọc này,” trituenhantao.io, 2020 [Trực tuyến] Available: https://trituenhantao.io/kien-thuc/svm-qua-khohieu-hay-doc-bai-nay/ [Đã truy cập 17 05 2023] [13] H Vân, “Các thuật toán học máy bạn nên biết vào năm 2021,” ITGuru.vn, 2021 [Trực tuyến] Available: https://itguru.vn/blog/cac-thuat-toan-hoc-mayban-nen-biet-vao-nam-2021/ [Đã truy cập 19 05 2023] 49

Ngày đăng: 09/11/2023, 15:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w