Trong thời đại hiện đại với sự lan rộng không ngừng của dữ liệu, việc áp dụng các mô hình học máy để dự đoán và phân tích đã trở thành một phần không thể thiếu trong nhiều lĩnh vực. Có thể nói thu nhập cá nhân là một lĩnh vực khá quan trọng và có nhiều ứng dụng thiết yếu trong thời buổi ngày nay. Thu nhập cá nhân không chỉ là con số trên giấy tờ mà còn là một đại lượng có ảnh hưởng sâu rộng đến cuộc sống của mỗi người. Nó không chỉ đo lường khả năng tài chính mà còn phản ánh mức độ tự do tài chính, từ đó giúp tiếp cận các nguồn lực và cơ hội trong xã hội. Thu nhập ổn định mang lại còn tạo điều kiện thuận lợi cho việc tiết kiệm, đầu tư vào giáo dục, y tế, và các mục tiêu cá nhân. Khi nói về việc dự đoán thu nhập cá nhân, chúng ta đang mở ra cánh cửa cho rất nhiều ứng dụng quan trọng. Trong lĩnh vực tài chính, việc dự đoán thu nhập cá nhân có thể hỗ trợ quá trình đánh giá rủi ro tín dụng, giúp ngân hàng xác định khả năng hoàn trả vay vốn của người vay một cách chính xác hơn. Điều này cũng ảnh hưởng đến việc cung cấp vốn cho các dự án cá nhân, doanh nghiệp hoặc nhà nước, góp phần vào phát triển nền kinh tế. Bên cạnh đó, việc dự đoán thu nhập cá nhân cũng đóng vai trò quan trọng trong lĩnh vực quản lý rủi ro. Các công ty bảo hiểm có thể sử dụng thông tin này để định giá và quản lý rủi ro, đồng thời cung cấp các sản phẩm bảo hiểm phù hợp với nhu cầu cá nhân. Ngoài ra, từ góc độ xã hội, việc hiểu rõ về thu nhập cá nhân giúp xác định và giảm bớt khoảng cách xã hội. Nó cung cấp cơ sở để xây dựng các chính sách hỗ trợ, đảm bảo rằng mọi người đều có cơ hội tương đồng để tiếp cận các dịch vụ y tế, giáo dục và các nguồn lực cần thiết để phát triển bản thân. Chính vì những lí do trên, trong báo cáo này, tôi sẽ tập trung vào một trong những mô hình tốt và chính xác nhất trong lĩnh vực học máy - Mô hình Random Forest và ứng dụng của nó trong việc dự đoán thu nhập cá nhân. Random Forest không chỉ là một trong những mô hình phổ biến mà còn là một công cụ mạnh mẽ cho việc xử lý các vấn đề dự đoán. Sự đa dạng của các biến đầu vào và mức độ phức tạp của bài toán dự đoán thu nhập cá nhân là một thử thách lớn, tuy nhiên việc áp dụng mô hình này có thể đem lại những kết quả tốt và khả năng chính xác cao. Tôi sẽ đi sâu vào cách thức hoạt động của Mô hình Random Forest, từ cơ bản đến những chi tiết phức tạp hơn, đồng thời minh họa bằng các ứng dụng cụ thể trong bài toán dự đoán thu nhập cá nhân. Việc này sẽ giúp ta hiểu rõ hơn về sức mạnh của mô hình này và cách áp dụng nó vào thực tế. Nội dung báo cáo này sẽ bao gồm 3 chương: Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Trong chương 1 này tôi sẽ bắt đầu bằng việc trình bày tổng quan về các khái niệm cơ bản về khai phá dữ liệu. Từ đó cung cấp cái nhìn tổng quan về khai phá dữ liệu, sau đó giới thiệu tổng quan về bài toán dự đoán thu nhập cá nhân: mục tiêu bài toán, Chương 2: THUẬT TOÁN RANDOM FOREST Trong chương 2 tôi sẽ tập trung trình bày cách khái niệm xung quanh thuật toán Random Forest, cách hoạt động của thuật toán, các ưu điểm và nhược điểm của thuật toán, và áp dụng cho bài toán đã đặt ra. Chương 3: THỰC NGHIỆM Trong chương này, chúng tôi sẽ thực hiện việc tiền xử lí dữ liệu: phân tích và làm sạch bộ dữ liệu để phù hợp với mô hình phân loại từ đó có được kết quả và nhận xét về hiệu suất của mô hình Random Forest. Sau đó dùng mô hình đã đánh giá để áp dụng vào một giao diện chương trình dự đoán. KẾT LUẬN: Cuối cùng trong phần kết luận, tôi sẽ đánh giá kết quả đạt được của mô hình Random Forest về độ chính xác hiệu suất mô hình, so sánh mức hiệu quả với các mô hình khác, liệu mô hình này có phù hợp tốt với bài toán như đã đề ra không. Tôi cũng đưa ra các kết quả của giao diện dự đoán. Đồng thời đưa ra các hướng pháp triển cho bài toán trong tương lai. Qua báo cáo này, tôi hy vọng rằng báo cáo này sẽ cung cấp cái nhìn sâu sắc và có ích về việc sử dụng mô hình học máy Random Forest trong các ứng dụng dự đoán thu nhập cá nhân.
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ======***====== BÁO CÁO BÀI TẬP LỚN HỌC PHẦN: KHAI THÁC DỮ LIỆU VÀ ỨNG DỤNG ĐỀ TÀI MÔ HÌNH RANDOM FORREST VÀ ỨNG DỤNG CHO BÀI TỐN DỰ ĐỐN THU NHẬP CÁ NHÂN GVHD Lớp Nhóm Thành viên : : : : TS Nguyễn Mạnh Cường 20231IT6052002 12 Hà Long Vũ - 2020602281 Hà Nội, Năm 2023 Mục Lục Chương 1: TỔNG QUAN .5 1.1 Khái niệm khai phá liệu 1.2 Tầm quan trọng khai phá liệu 1.3 Những lợi thách thức khai phá liệu 1.3.1 Lợi 1.3.2 Thách thức .9 1.4 Các bước giải vấn đề khai phá liệu 10 1.4.1 Xác định mục tiêu toán 10 1.4.2 Thu thập liệu 10 1.4.3 Làm liệu chuyển đổi liệu 11 1.4.4 Xây dựng mơ hình .12 1.4.5 Đánh giá mơ hình, đánh giá mẫu 13 1.4.6 Dự đoán .13 1.5 Tổng quan toán 14 1.5.1 Giới thiệu toán .14 1.5.2 Mục tiêu toán 14 Chương 2: THUẬT TOÁN RANDOM FOREST 16 2.1 Giới thiệu Decision Tree 16 2.1.1 Định nghĩa 16 2.1.2 Thuật toán ID3 .17 2.2 Giới thiệu Random Forest 18 2.3 Định nghĩa 19 2.4 Thuật toán hoạt động nào? 20 2.5 Các ứng dụng 21 2.6 Ưu điểm nhược điểm .22 CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM 24 3.1 Bộ liệu 24 3.2 Tiền xử lí liệu 25 3.2 Tối ưu mơ hình 31 3.3 Kết đánh giá mơ hình 35 3.4 Giao diện chương trình dự đốn demo .38 KẾT LUẬN 45 Tài liệu tham khảo 46 Mục Lục Hình Ả Hình 1: Các trình khai phá liệu Y Hình 1: Ví dụ định 16 Hình 2: Dữ liệu ví dụ định 17 Hình 3: Cây định xây dựng từ liệu ví dụ .18 Hình 4: Cách hoạt động thuật toán Random Forest 21 Hình 1: Một vài mẫu liệu 26 Hình 2: Phầm trăm giá trị “?” đặc trưng 27 Hình 3: Dữ liệu sau lấp đầy giá trị “?” 28 Hình 4: Mã hóa liệu 29 Hình 5: Biểu đồ nhiệt ma trận tương quan 30 Hình 6: Mức quan trọng đặc trưng .31 Hình 7: Phần trăm số lượng nhãn 32 Hình 8: Phần trăm số lượng nhãn sau xử lí 33 Hình 9: Các tham số tối ưu mơ hình 35 Hình 10: Kết mơ hình 37 Hình 11: Ma trận hỗn loạn 37 Hình 12 Hình ảnh giao diện chương trình dự đốn 42 Hình 13 Kết dự đoán .43 Hình 14 Kết dự đốn .44 Lời cảm ơn Trước tiên với tình cảm sâu sắc chân thành nhất, cho phép em bày tỏ lịng biết ơn đến thầy trường Đại học Công Nghiệp Hà Nội, đặc biệt thầy cô khoa Công Nghệ Thông Tin trường đã truyền đạt dẫn cho chúng em kiến thức, học quý báu bổ ích Và em xin chân thành cảm ơn thầy giáo Tiến Sĩ Nguyễn Mạnh Cường – người tận tâm hướng dẫn chúng em qua buổi nói chuyện, hướng dẫn, thảo luận lĩnh vực đề tài báo cáo Trong trình làm báo cáo tập lớn, khó tránh khỏi sai sót Em mong nhận ý kiến đóng góp từ thầy để học thêm nhiều kinh nghiệm hoàn thành tốt báo cáo tốt nghiệp tới Em xin chúc thầy cô dồi sức khỏe, vui vẻ thành công sống Em xin chân thành cảm ơn! Lời mở đầu Trong thời đại đại với lan rộng không ngừng liệu, việc áp dụng mơ hình học máy để dự đốn phân tích trở thành phần khơng thể thiếu nhiều lĩnh vực Có thể nói thu nhập cá nhân lĩnh vực quan trọng có nhiều ứng dụng thiết yếu thời buổi ngày Thu nhập cá nhân không số giấy tờ mà đại lượng có ảnh hưởng sâu rộng đến sống người Nó khơng đo lường khả tài mà cịn phản ánh mức độ tự tài chính, từ giúp tiếp cận nguồn lực hội xã hội Thu nhập ổn định mang lại tạo điều kiện thuận lợi cho việc tiết kiệm, đầu tư vào giáo dục, y tế, mục tiêu cá nhân Khi nói việc dự đốn thu nhập cá nhân, mở cánh cửa cho nhiều ứng dụng quan trọng Trong lĩnh vực tài chính, việc dự đốn thu nhập cá nhân hỗ trợ q trình đánh giá rủi ro tín dụng, giúp ngân hàng xác định khả hồn trả vay vốn người vay cách xác Điều ảnh hưởng đến việc cung cấp vốn cho dự án cá nhân, doanh nghiệp nhà nước, góp phần vào phát triển kinh tế Bên cạnh đó, việc dự đốn thu nhập cá nhân đóng vai trị quan trọng lĩnh vực quản lý rủi ro Các cơng ty bảo hiểm sử dụng thông tin để định giá quản lý rủi ro, đồng thời cung cấp sản phẩm bảo hiểm phù hợp với nhu cầu cá nhân Ngoài ra, từ góc độ xã hội, việc hiểu rõ thu nhập cá nhân giúp xác định giảm bớt khoảng cách xã hội Nó cung cấp sở để xây dựng sách hỗ trợ, đảm bảo người có hội tương đồng để tiếp cận dịch vụ y tế, giáo dục nguồn lực cần thiết để phát triển thân Chính lí trên, báo cáo này, tơi tập trung vào mơ hình tốt xác lĩnh vực học máy - Mơ hình Random Forest ứng dụng việc dự đoán thu nhập cá nhân Random Forest khơng mơ hình phổ biến mà cịn cơng cụ mạnh mẽ cho việc xử lý vấn đề dự đoán Sự đa dạng biến đầu vào mức độ phức tạp toán dự đoán thu nhập cá nhân thử thách lớn, nhiên việc áp dụng mô hình đem lại kết tốt khả xác cao Tơi sâu vào cách thức hoạt động Mơ hình Random Forest, từ đến chi tiết phức tạp hơn, đồng thời minh họa ứng dụng cụ thể toán dự đoán thu nhập cá nhân Việc giúp ta hiểu rõ sức mạnh mơ hình cách áp dụng vào thực tế Nội dung báo cáo bao gồm chương: Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Trong chương bắt đầu việc trình bày tổng quan khái niệm khai phá liệu Từ cung cấp nhìn tổng quan khai phá liệu, sau giới thiệu tổng quan tốn dự đốn thu nhập cá nhân: mục tiêu toán, Chương 2: THUẬT TỐN RANDOM FOREST Trong chương tơi tập trung trình bày cách khái niệm xung quanh thuật tốn Random Forest, cách hoạt động thuật toán, ưu điểm nhược điểm thuật toán, áp dụng cho toán đặt Chương 3: THỰC NGHIỆM Trong chương này, thực việc tiền xử lí liệu: phân tích làm liệu để phù hợp với mơ hình phân loại từ có kết nhận xét hiệu suất mơ hình Random Forest Sau dùng mơ hình đánh giá để áp dụng vào giao diện chương trình dự đốn KẾT LUẬN: Cuối phần kết luận, đánh giá kết đạt mơ hình Random Forest độ xác hiệu suất mơ hình, so sánh mức hiệu với mơ hình khác, liệu mơ hình có phù hợp tốt với tốn đề không Tôi đưa kết giao diện dự đoán Đồng thời đưa hướng pháp triển cho toán tương lai Qua báo cáo này, hy vọng báo cáo cung cấp nhìn sâu sắc có ích việc sử dụng mơ hình học máy Random Forest ứng dụng dự đoán thu nhập cá nhân Chương 1: TỔNG QUAN 1.1 Khái niệm khai phá liệu Khai phá liệu trình khảo sát phân tích khối lượng lớn liệu lưu trữ sở liệu, kho liệu để từ trích xuất thơng tin quan trọng, có giá trị tiềm ẩn bên Các liệu thu từ nhiều nguồn, đa số từ phần mềm nghiệp vụ như: phần mềm tài chính, kế tốn, hệ thống quản lý tài nguyên doanh nghiệp ERP, hệ thống quản lý khách hàng CRM, hay từ công cụ lưu trữ thông tin web Đây khối liệu khổng lồ thơng tin mà thể lộn xộn “nghèo” người dùng Kích thước khối liệu khổng lồ tăng với tốc độ nhanh chiếm nhiều dung lượng lưu trữ Khai phá liệu giúp trích xuất mẫu điển hình có giá trị biến chúng thành tri thức hữu ích Hiện nay, thuật ngữ khai phá liệu, người ta cịn dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ sở liệu, trích lọc liệu, phân tích liệu/mẫu, khảo cổ liệu, nạo vét liệu Trên thực tế, nhiều người coi khai phá liệu thuật ngữ thông dụng khác khám phá tri thức CSDL KDD Còn số người coi khai phá liệu bước trong trình khám phá tri thức sở liệu Quá trình gồm số bước lặp thể hình sau: Hình 1: Các trình khai phá liệu Ý nghĩa cụ thể bước sau: Lựa chọn liệu liên quan đến toán quan tâm Tiền xử lý liệu, làm liệu, chiếm tới gần 60% nỗ lực Chuyển đổi liệu dạng phù hợp thuận lợi cho việc khai phá Khai phá liệu, trích xuất mẫu liệu Đánh giá mẫu Sử dụng tri thức khai phá Trong thực tế, thuật ngữ khai phá liệu thông dụng sử rộng rãi thuật ngữ khám phá tri thức sở liệu Theo hướng ứng dụng người ta thường chia khai phá liệu q trình gồm nhiều bước nhỏ, mà ta trình bày chi tiết mục tiếp theo: Các bước xây dựng giải pháp khai phá liệu Trong lĩnh vực khai phá liệu tồn nhiều toán, lại loại tốn khai phá liệu bao gồm: