Báo cáo bài tập lớn môn học khai phá dữ liệu đề tài dự đoán khách hàng vỡ nợ trên thuật toán học máy

28 3 0
Báo cáo bài tập lớn môn học khai phá dữ liệu đề tài dự đoán khách hàng vỡ nợ trên thuật toán học máy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

XGBRegressor eXtrem Gradient BOOSTing Regressor ...172.4.1.. Th c têế cho thâếy râết nhiêầu các bài toán ậ ừ ự Trang 10 li u có nhãn tôến râết nhiêầu th i gian và có chi phí cao.. ọMôếi

lOMoARcPSD|39270902 BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN *** BÁO CÁO BÀI TẬP LỚN MÔN HỌC : KHAI PHÁ DỮ LIỆU ĐỀ TÀI : Dự đoán khách hàng vỡ nợ trên thuật toán học máy LỜI MỞ ĐẦẦU Giáo viPênHẦhNướCnHgIAdẫNnỘI: DUTNSG VTIrẾầẾTnBHÁùOnCgÁCOường Bảng phân chia SinhThVàiênnhThực Hiện : Nguyễn NNgộoịcdBunìnghv-iê2ết020608698 TT viên Hà Nội, năm 2022 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 PHÂN CHIA NỘI DUNG VIẾT BÁO CÁO Bảng phân chia Thành Nội dung viết TT viên - Chương 1: Nguyễn o Bài toán phát dự đoán giá nhà Ngọc Bình o Mô hình machien learning cơ bản - Chương 2: o Tổng quan Thuật toán o Linear Regression o Random Forest o LGBM - Kết luận - Chương 3: o Thực thi chương trình o Mô hình thực hiện Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 MỤC LỤCY Mục CHƯƠNG 1 HỌC MÁY CƠ BẢN .8 1.1 Học máy 8 1.1.1 Giới thiệu về Machine Learning 8 Hình 1.1 Ảnh minh họa về học máy 8 1.1.2 Phân nhóm các thuật toán Machine Learning .9 CHƯƠNG 2 CÁC THUẬT TOÁN SỬ DỤNG 11 2.1 Linear Regression 11 2.1.1 Giới thiệu 11 2.1.2 Phân tích toán học 11 2.2 LGBMRegressor .12 2.2.1 Giới thiệu 12 2.2.2 Phân tích toán học 13 2.3 Decision Tree 15 2.3.1 Giới thiệu 15 2.3.2 Phân tích thuật toán 16 2.4 XGBRegressor (eXtrem Gradient BOOSTing Regressor ) .17 2.4.1 Giới thiệu 17 2.4.2 Phân tích thuật toán 18 CHƯƠNG 3 XÂY DỰNG ỨNG DỤNG 20 3.1 Bộ dữ liệu 20 3.2 Mô hình bài toán .23 3.2.1 Lấy thông tin dữ liệu 23 3.2.2 Mã hóa các dữ liệu .28 3.2.3 Xử lý các ngoại lệ .28 3.2.4 Thiết lập mô hình .32 KẾT LUẬN 34 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 TÀI LIỆU THAM KHẢO 36 LỜI CẢM ƠN Lời đâầu tiên, chúng em xin chân thành cảm ơn các thâầy cô là giảng viên các bộ môn trong khoa Công nghệ thông tin – Trường Đại học Công nghiệp Hà Nội đã truyêần đạt cho chúng em những kiêến thức nêần tảng quan trọng liên quan đêến học máy và trí tuệ nhân tạo Đôầng thời, chúng em muôến gửi lời cảm ơn sâu sắếc đêến giảng viên Ts.Trầần Hùng Cường người đã trực tiêếp giảng dạy và hôỗ trợ chúng em trong suôết quá trình lên ý tưởng, nghiên cứu và hoàn thành báo cáo đêầ tài này Bên cạnh đó, chúng em muôến cảm ơn các bạn là thành viên của các nhóm thực hiện những đêầ tài liên quan, đã giúp đỡ nhóm vêầ mặt tinh thâần để có thể thực hiện tôết nhiệm vụ cá nhân trong bài báo cáo của tập thể nhóm Giá nhà là một vâến đêầ râết quan trọng trong lĩnh vực kinh têế ảnh, để từ đó chẩn đoán chính xác và đưa ra những sự chuẩn bị khi mua nhà Chính vì vậy, để hôỗ trợ dự đoán giá nhà, nhóm chúng em đã tiêến hành lên ý tưởng chủ đêầ, nghiên cứu và phân tích để hoàn thành đêầ tài nghiên cứu " Dự đoán khách hàng vỡ nợ trên thuật toán học máy " Trong quá trình nghiên cứu thực hiện đêầ tài, do nắng lực, kiêến thức, kyỗ nắng cũng như trình độ của bản thân các thành viên trong nhóm còn hạn hẹp, thiêếu chuyên sâu nên không thể tránh khỏi những sai sót liên quan đêến kyỗ thuật Vì vậy, chúng em chân thành muôến được lắếng nghe những góp ý từ quý thâầy cô là giảng viên các bộ môn cũng như các thành viên của các nhóm còn lại thực hiện những đêầ tài khác Để từ đó rút kinh nghiệm và hoàn thiện bài báo cáo tôết hơn trong tương lai Chúng em xin chân thành cảm ơn ! Nhóm thực hiện đềề tài ! Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 LỜI NÓI ĐẦẦU Trí tuệ nhân tạo là lĩnh vực được các nhà khoa học râết quan tâm để giải quyêết các yêu câuầ trong cuộc sôếng hiện nay, có nhiêầu lĩnh vực được ứng dụng trí tuệ nhân tạo như trong y têế, trong ngân hàng, trong vận tải và trong nông nghiệp.Vâến đêầ giá nhà đang là một trong những bài toán khó giải ở nước ta Để dự đoán giá nhà, có nhiêầu phương pháp và kyỗ thuật khác nhau như: học máy, mô hình time series, mô hình xác xuâết thôếng kê, mô hình mạng nơ ron Đã có nhiêầu công trình nghiên cứu vêầ dự đoán giá nhà có kêết quả cao, tuy nhiên, các ứng dụng vâỗn chưa đáp ứng hoàn toàn các yêu câầu của người dùng Hiện nay với sự phát triển không ngừng của máy tính, phương pháp Học máy ra đời đã đáp ứng cơ bản trong việc phân loại và xử lý ảnh Học máy là một thuật toán dựa trên một sôế ý tưởng từ não bộ tới việc tiêếp thu nhiêầu tâầng biểu đạt, cả cụ thể lâỗn trừu tượng, qua đó làm rõ nghĩa của các loại dữ liệu Học máy được ứng dụng trong nhận diện truyêần thông, ngân hàng, tài chính tiêần tệ Hiện nay râết nhiêầu các bài toán nhận dạng sử dụng Học máy để giải quyêết do Học máy có thể giải quyêết các bài toán với sôế lượng lớn, kích thước đâầu vào lớn với hiệu nắng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyêần thôếng Trong báo cáo , nhóm em chọn nghiên cứu đêầ tài : “Dự đoán khách hàng vỡ nợ trên thuật toán học máy”, chúng em seỗ sử dụng những kiêến thức nênầ tảng đã được tìm hiểu trước đó để hoàn thành các chương sau: Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 CHƯƠNG 1 HỌC MÁY CƠ BẢN Chương 1 Học máy Chương 2 Giới thiệu vêầ Machine Learning - Những nắm gânầ đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo), và cụ thể hơn là Machine Learning (Học Máy hoặc Máy Học) nổi lên như một bắnầ g chứng của cuộc cách mạng công nghiệp lânầ thứ tư (1 - động cơ hơi nước, 2 - nắng lượng điện, 3 - công nghệ thông tin) Trí Tuệ Nhân Tạo đang len lỏi vào mọi lĩnh vực trong đời sônế g mà có thể chúng ta không nhận ra Xe tự hành của Google và Tesla, hệ thônế g tự tag khuôn mặt trong ảnh của Facebook, trợ lý ảo Siri của Apple, hệ thônế g gợi ý sản phẩm của Amazon, hệ thônế g gợi ý phim của Netflix, máy chơi cờ vây AlphaGo của Google DeepMind, …, chỉ là một vài trong vô vàn những ứng dụng của AI/Machine Learning - Machine Learning là một tập con của AI Theo định nghĩa của Wikipedia, Machine learning is the subfield of computer science that “gives computers the ability to learn without being explicitly programmed” Nói đơn giản, Machine Learning là một lĩnh vực nhỏ của Khoa Học Máy Tính, nó có khả nắng tự học hỏi dựa trên dữ liệu đưa vào mà không cânầ phải được lập trình cụ thể - Những nắm gânầ đây, khi mà khả nắng tính toán của các máy tính được nâng lên một tâmầ cao mới và lượng dữ liệu khổng lôầ được thu thập bởi các hãng công nghệ lớn, Machine Learning đã tiênế thêm một bước dài và một lĩnh vực mới được ra đời gọi là Deep Learning (Học Sâu - thực sự tôi không muônế dịch từ này ra tiênế g Việt) Deep Learning đã giúp máy tính thực thi những việc tưởng chừng như không thể vào 10 nắm trước: phân loại cả ngàn vật thể khác nhau trong các bức ảnh, tự tạo chú thích cho ảnh, bắtế chước giọng nói và chữ viêtế của con người, giao tiêpế với con người, hay thậm chí cả sáng tác vắn hay âm nhạc Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 Hình 1.1 Ảnh minh họa vêầ học máy Chương 3 Phần nhóm các thuật toán Machine Learning - Có hai cách phổ biênế phân nhóm các thuật toán Machine learning Một là dựa trên phương thức học (learning style), hai là dựa trên chức nắng (function) (của môiỗ thuật toán): a Phân nhóm dựa trền phương thức học  Supervised Learning( Học có giám sát)  Supervised learning là thuật toán dự đoán đâuầ ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biêtế từ trước Cặp dữ liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Supervised learning là nhóm phổ biênế nhâtế trong các thuật toán Machine Learning  Một cách toán học, Supervised learning là khi chúng ra có một tập hợp biênế đâuầ vào X={x1,x2,…,xN}X={x1,x2, …,xN} và một tập hợp nhãn tương ứng Y={y1,y2, …,yN}Y={y1,y2,…,yN}, trong đó xi,yixi,yi là các vector Các cặp dữ liệu biêtế trước (xi,yi)∈X×Y(xi,yi)∈X×Y được gọi là tập training data (dữ liệu huânế luyện) Từ tập training data này, chúng ta cânầ tạo ra một hàm sôế ánh xạ môiỗ phânầ tử từ tập X sang một phânầ tử (xâpế xỉ) tương ứng của tập Y Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902  Mục đích là xâpế xỉ hàm sôế ff thật tôtế để khi có một dữ liệu xx mới, chúng ta có thể tính được nhãn tương ứng của nó y=f(x)  Unsupervised Learning( Học không giám sát)  Trong thuật toán này, chúng ta không biêtế được outcome hay nhãn mà chỉ có dữ liệu đâuầ vào Thuật toán unsupervised learning seỗ dựa vào câuế trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm sôế chiêuầ của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán  Một cách toán học, Unsupervised learning là khi chúng ta chỉ có dữ liệu vào XX mà không biêtế nhãn YY tương ứng  Những thuật toán loại này được gọi là Unsupervised learning vì không giônế g như Supervised learning, chúng ta không biêtế câu trả lời chính xác cho môiỗ dữ liệu đâuầ vào Giônế g như khi ta học, không có thâyầ cô giáo nào chỉ cho ta biêtế đó là chữ A hay chữ B Cụm không giám sát được đặt tên theo nghĩa này  Semi-Supervised Learning( Học bán giám sát)  Các bài toán khi chúng ta có một lượng lớn dữ liệu XX nhưng chỉ một phânầ trong chúng được gán nhãn được gọi là Semi-Supervised Learning Những bài toán thuộc nhóm này nắmầ giữa hai nhóm được nêu bên trên  Một ví dụ điển hình của nhóm này là chỉ có một phânầ ảnh hoặc vắn bản được gán nhãn (ví dụ bức ảnh vêầ người, động vật hoặc các vắn bản khoa học, chính trị) và phânầ lớn các bức ảnh/vắn bản khác chưa được gán nhãn được thu thập từ internet Thực têế cho thâyế râtế nhiêuầ các bài toán Machine Learning thuộc vào nhóm này vì việc thu thập dữ Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 liệu có nhãn tônế râtế nhiêuầ thời gian và có chi phí cao Râtế nhiêuầ loại dữ liệu thậm chí cânầ phải có chuyên gia mới gán nhãn được (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thâpế từ internet  Reinforcement Learning( Học củng côố)  Reinforcement learning là các bài toán giúp cho một hệ thôếng tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhâết (maximizing the performance) Hiện tại, Reinforcement learning chủ yêếu được áp dụng vào Lý Thuyêết Trò Chơi (Game Theory), các thuật toán cânầ xác định nước đi tiêếp theo để đạt được điểm sôế cao nhâết CHƯƠNG 2 CÁC THUẬT TOÁN SỬ DỤNG 2.1 Linear Regression 2.1.1 Giới thiệu - "Hôầi quy tuyênế tính" là một phương pháp thônế g kê để hôiầ quy dữ liệu với biênế phụ thuộc có giá trị liên tục trong khi các biênế độc lập có thể có một trong hai giá trị liên tục hoặc là giá trị phân loại Nói cách khác "Hôầi quy tuyênế tính" là một phương pháp để dự đoán biênế phụ thuộc (Y) dựa trên giá trị của biênế độc lập (X) Nó có thể được sử dụng cho các trường hợp chúng ta muônế dự đoán một sôế lượng liên tục Ví dụ, dự đoán giao thông ở một cửa hàng bán lẻ, dự đoán thời gian người dùng dừng lại một trang nào đó hoặc sôế trang đã truy cập vào một website nào đó v.v - Giả sử cắn nhà rộng x1 m2x1 m2, có x2x2 phòng ngủ và cách trung tâm thành phôế x3 kmx3 km có giá là bao nhiêu Giả sử chúng ta đã có sôế liệu thônế g kê từ 1000 cắn nhà trong thành phôế đó, liệu rắnầ g khi có một cắn nhà mới với các thông sôế vêầ diện tích, sôế phòng ngủ và khoảng cách tới trung tâm, chúng ta có thể dự đoán được giá của cắn nhà đó không? Nêuế có thì hàm dự Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 chúng không bao giờ nhận các giá trị khác không đôầng thời Các tính nắng độc quyêần có thể được gói một cách an toàn vào một tính nắng duy nhâết (được gọi là Gói tính nắng độc quyêần) Do đó, độ phức tạp của việc xây dựng biểu đôầ thay đổi từ O (#data × #feature) thành O (#data × #bundle) , trong khi #bundle Boosting giúp giảm bias cho mô hình - XGBoost là một cài đặt của GBM (Gradient Boosting Model) trong đó tôiế ưu các tài nguyên tính toán bắnầ g cách xây dựng các cây Decision Tree một cách song song cùng các thuật toán tôiế ưu khác Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 CHƯƠNG 3 XẦY DỰNG ỨNG DỤNG 3.1 Bộ dữ liệu - Dữ liệu được lâyế trên trang Kaggle: là một trong những trang tổ chức các cuộc thi nhiêuầ nhâtế trên thêế giới vêầ AI Hình 2.1 Trang web kaggle Downloaded by SAU DO (saudinh3@gmail.com)

Ngày đăng: 22/03/2024, 22:37