Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 78 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
78
Dung lượng
3,1 MB
Nội dung
lOMoARcPSD|21911340 ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU ĐỀ TÀI : PHÂN TÍCH CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN THU NHẬP CỦA NGƯỜI TRƯỞNG THÀNH ĐANG LÀM VIỆC TẠI MỸ BẰNG PHẦN MỀM ORANGE GVHD: TS.GVC Nguyễn Quốc Hùng Nhóm thực hiện: Nhóm Dương Trung Hiếu (Trưởng nhóm) Nguyễn Phi Hùng Lê Đăng Khoa Đỗ Thị Hoàng My Trịnh Thị Ái Vy TP Hồ Chí Minh, ngày 18 tháng 12 năm 2022 lOMoARcPSD|21911340 LỜI MỞ ĐẦU Trong trình học tập nghiên cứu, nhóm chúng em dẫn quan tâm giúp đỡ tận tình thầy Khơng vậy, giảng kiến thức thầy truyền đạt tâm huyết súc tích giúp nhóm chúng em hiểu vận dụng vào nghiên cứu Có lẽ kiến thức vô hạn tiếp thu kiến thức người khác ln tồn hạn chế định Do q trình làm tiểu luận này, nhóm khơng tránh khỏi sai lầm thiếu sót Vì chúng em mong nhận đánh góp ý để cải thiện khả thân người nhóm tốt Khoa học liệu quan trọng doanh nghiệp hoạt động ngành nghề khoa học liệu giúp cho họ định hướng dựa xu hướng số liệu thống kê để đem lại kết dự đốn xác Trong thời đại 4.0 nay, việc đẩy mạnh thông tin vô cần thiết, đôi với việc phát triển tràn lan liệu, số liệu, việc khoa học liệu giúp ích khơng cho doanh nghiệp mà cịn nhiều người nói chung chọn lọc thông tin cần thiết hữu ích Vì để sâu hiểu rõ vấn đề hữu ích từ khoa học liệu, nhóm chúng em tiến hành phân tích yếu tố ảnh hưởng đến thu nhập người trưởng thành làm việc Mỹ phần mềm orange để biết nhân tố tác động ảnh hưởng đến thu nhập người dân Trong này, nhóm trình bày tổng quan khoa học liệu, đề tài mục tiêu nghiên cứu nhóm Ở phần tiếp theo, nhóm trình bày phương pháp sử dụng Lần lượt ứng dụng toán vào thực tế, kết thực nghiệm từ nhóm làm cuối kết luận từ nhóm làm mục tiêu nghiên cứu lOMoARcPSD|21911340 LỜI CẢM ƠN Trước tiên với tình cảm sâu sắc chân thành nhất, cho phép nhóm chúng em bày tỏ lòng biết ơn đến thầy tạo điều kiện hỗ trợ, giúp đỡ em suốt trình học tập môn Khoa học liệu Tuy môn chuyên ngành em qua lời giảng thầy chúng em hiểu môn Khoa học liệu ngành công nghệ thơng tin nói chung Một lần nữa, chúng em xin chân thành cảm ơn thầy – người trực tiếp giúp đỡ, quan tâm, giảng dạy cho chúng em kiến thức bổ ích Qua tiểu luận này, chúng em nhận cịn hạn chế cịn nhiều bỡ ngỡ nên khơng tránh khỏi thiếu sót, mong nhận ý kiến đóng góp quý báu Thầy để kiến thức em lĩnh vực hoàn thiện đồng thời có điều kiện bổ sung, nâng cao ý thức Chúng em xin chân thành cảm ơn chúc thầy thật nhiều sức khoẻ để dẫn dắt thêm nhiều hệ UEHer mai sau! lOMoARcPSD|21911340 LỜI CAM KẾT Nhóm xin cam đoan cơng trình nghiên cứu nhóm tác giả hướng dẫn Thầy Nguyễn Quốc Hùng Các nội dung nghiên cứu đề tài môn Khoa học liệu trung thực chưa công bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá cá nhân thu thập từ nguồn khác có ghi rõ nguồn gốc Tiểu luận nhóm tác giả xây dựng, xử lý, khơng chép từ viết tổ chức Nếu phát có gian lận nhóm xin hồn tồn chịu trách nhiệm nội dung báo cáo lOMoARcPSD|21911340 BẢNG PHÂN CÔNG CÁC THÀNH VIÊN STT Họ tên Dương Trung Hiếu (Trưởng nhóm) Nguyễn Phi Hùng Lê Đăng Khoa Đỗ Thị Hoàng My Trịnh Thị Ái Vy Cơng việc phụ trách Mức độ hồn thành Nội dung phân cụm 100% chương 3, chương Nội dung phân lớp 100% chương 3, chương Nội dung chương 100% Nội dung chương 2, 100% phần chương Nội dung chương + 100% ppt lOMoARcPSD|21911340 MỤC LỤC CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu khoa học liệu .9 1.2 Lý chọn đề tài 10 CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG .11 2.1 Các phương pháp Excel dùng để khai thác liệu 11 2.1.2 Phương pháp phân tích dự báo 12 2.1.3 Phương pháp san mũ 13 2.1.4 Phương pháp phân tích tối ưu 16 2.2 Phân cụm 20 2.2.1 Định nghĩa 20 2.2.2 Đặc điểm phân cụm liệu 21 2.2.3 Ứng dụng phương pháp phân cụm .22 2.2.4 Các phương pháp phân cụm kinh tế 22 2.2.5 Phương pháp phân lớp liệu 25 CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TỐN THỰC TẾ 34 3.1 Phân tích liệu Adult 34 3.2 Phân cụm liệu 50 3.3 Phân lớp 54 CHƯƠNG 4: CÁC KẾT QUẢ THỰC NGHIỆM 68 4.1 Đánh giá mơ hình phân cụm, chọn mơ hình phân cụm tối ưu 68 4.2 Kết phân lớp liệu: 70 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76 5.1 Kết đạt 76 5.2 Hạn chế 76 5.3 Hướng phát triển 77 lOMoARcPSD|21911340 MỤC LỤC HÌNH Hình 2.1 Hộp thoại Regression 15 Hình 2.2 Bảng số liệu Dự án 17 Hình 2.3 Hộp thoại Solver Parameters 19 Hình 3.1 Các bước tiến hành xử lý liệu .34 Hình 3.2 Nạp liệu Adult vào Datasets .35 Hình 3.3 Dữ liệu Adult Data Table 36 Hình 3.4 Dữ liệu lỗi Preprocess 37 Hình 3.5 Quan sát liệu xử lý 38 Hình 3.6 Mơ hình orange chọn mẫu ngẫu nhiên 5000 mẫu 39 Hình 3.7 Độ tuổi nghề nghiệp 45 Hình 3.8 Chủng tộc 46 Hình 3.9 Giới tính 47 Hình 3.10 Tầng lớp lao động 48 Hình 3.11 Số làm việc 49 Hình 3.12 Mức thu nhập 50 Hình 3.13 Mơ hình phân cụm phân cấp phương pháp Diana 50 Hình 3.14 Dữ liệu bị chia thành cụm 51 Hình 3.15 Sihouette Plot mơ hình phân cụm phương pháp Diana 52 Hình 3.16 Mơ hình phân cụm phân hoạch thuật toán K-means .53 Hình 3.17 Hộp thoại K-Means 53 Hình 3.18 Sihouette Plot mơ hình phân cụm thuật tốn K-means 54 Hình 3.19 Phân lớp liệu .55 Hình 3.20 Kết chia mẫu liệu làm phần 56 Hình 3.21 Kết chia mẫu liệu làm phần 57 Hình 3.22 Kết chia mẫu liệu làm 10 phần 58 Hình 3.23 Kết chia mẫu liệu thành 50 – 90% .59 lOMoARcPSD|21911340 Hình 3.24 Kết chia mẫu liệu thành 20 – 70% .60 Hình 3.25 Kết chia mẫu liệu thành 50 – 60% 61 Hình 3.26 Kết Ma trận nhầm lẫn Tree (Tree Dicision) 62 Hình 3.27 Kết Ma trận nhầm lẫn SVM (Support Vector Machines) 63 Hình 3.28 Kết Ma trận nhầm lẫn Logistic Regression 63 Hình 3.29 ROC Analysis 65 Hình 3.30 Đường cong ROC với biến y 50k 50K - >50K: 70.4% người làm việc Mỹ ta dự báo có mức thu nhập lớn 50K($) thực tế lớn 50K($) 19.3% 50K: 19.3% người làm việc Mỹ ta dự báo có mức thu nhập nhỏ 50K($) thực tế lớn 50K($) 29.6% >50K - 50K) cụm (C2) có tỷ lệ 25.68% chứa người có thu nhập lớn 50K đô (>50K) thấy đồng nhiều so với phương pháp Diana 4.1.2 Giá trị Silhouette Phương pháp Diana Hình 4.1 Giá trị Sihouette mơ hình phân cụm phương pháp Diana -Qua hình 4.1 ta thấy đa số giá trị Sihouette phương pháp Diana cụm 1(cụm màu xanh) nằm khoảng 0.485 giá trị Sihouette cụm (cụm màu đỏ) khoảng 0.259 Phương pháp K-means 69 Downloaded by vu quang (vuchinhhp20@gmail.com) lOMoARcPSD|21911340 Hình 4.2 Giá trị Sihouette mơ hình phân cụm phương pháp K-means -Qua hình 4.2 ta thấy đa số giá trị Silhouette phương pháp K-means cụm (cụm màu xanh) nằm khoảng 0.486 giá trị Sihouettecủa cụm (cụm màu đỏ) khoảng 0.615 4.1.3 Chọn mô hình tối ưu Sau đánh giá ngồi dựa chênh lệch số mẫu tỷ lệ phân phối cụm ta thấy phương pháp K-means bị chênh lệch số mẫu tỷ lệ phân phối so với phương pháp Diana -Tiếp theo đánh giá dựa vào giá trị Silhouette ta thấy giá trị Silhouette cụm phương pháp K-means lớn phương pháp Diana (0.486>0.485) giá trị Silhouette cụm phương pháp K-means lớn phương pháp Diana (0.615>0.259) Dựa vào hai đánh giá ta thấy phương pháp phân cụm phân hoạch (bằng Kmeans) có hiệu để phân tích thực tiễn phương pháp phân cụm phân cấp (bằng Diana) 4.2 Kết phân lớp liệu: Sau sử dụng nghiên cứu, phân tích sử dụng mơ hình phân lớp gồm: Decision Tree, Support Vector Machine, Logistic Regression việc dự báo thu nhập Kết đánh giá mơ hình cho thấy Logistic Regression cho kết độ xác cao 70 Downloaded by vu quang (vuchinhhp20@gmail.com) lOMoARcPSD|21911340 (AUC,CA,F1,Precision, Recall) mơ hình phân lớp, mơ hình logistis (Logistic Regression) có điểm số thấp mơ hình phân lớp dựa mẫu liệu phân tích phần Hình 4.3 Kết Test & Score mơ hình phân lớp Để xác minh mơ hình phân lớp, Logistic mang lại kết mơ hình tốt hiệu nhất, nhóm nghiên cứu sử dụng ROC Analysis, Ma trận nhầm lẫn để đánh giá Cụ thể sau: Hình 4.4 Kết ma trận nhầm lẫn Tree (Tree Decision) Hình 4.5 Kết ma trận nhầm lẫn SVM (Support Vector Machines) 71 Downloaded by vu quang (vuchinhhp20@gmail.com) lOMoARcPSD|21911340 Hình 4.6 Kết ma trận nhầm lẫn hồi quy logistic (Logistic Regression) Hình 4.7 Đường cong ROC với biến y >50k