1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài tìm mối liên hệ giữa sự hài lòng của khách hàng qua các chuyến bay với các điều kiện khách quan

61 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 8,65 MB

Nội dung

  ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THƠNG TIN BÁO CÁO ĐỒ ÁN Mơn học: Khai Thác Dữ Liệu Đề tài: TÌM MỐI LIÊN HỆ GIỮA SỰ HÀI LÒNG CỦA KHÁCH HÀNG QUA CÁC CHUYẾN BAY VỚI CÁC ĐIỀU KIỆN KHÁCH QUAN Giảng viên hướng dẫn: ThS Nguyễn Hồ Duy Trí   Lớp: IS252.M22  Nhóm: 17  Thành viên: - Hồng Ngọc Thảo Qun 19520891 - Ngơ Tường Vy 19522245 - Nguyễn Ngọc Châu Pha 19521986   - Phạm Như Long 19521798 TP.HCM ngày 02 tháng 06 năm 2022   MỤC LỤC Tổng quan 1.1 Phát biểu toán 1.2 Lý chọn đề tài 1.3 Nguồn liệu .6 1.4 Mô tả liệu .7 Công cụ sử dụng .9 2.1 Jupyter Notebook 2.2 Ngôn ngữ Python Quá trình import liệu 11 3.1 Thư viện sử dụng 11 3.2 Import liệu 11 Quá trình tiền xử lý liệu 15 4.1 Chỉnh sửa tên thuộc tính .15 4.2 Kiểm tra xử lý liệu null .15 4.3 Xóa thuộc tính khơng cần thiết 19 4.4 Biến đổi thuộc tính dạng Categorical 21 4.5 Rời rạc hóa liệu thuộc tính “Age” 26 Các thuật toán khai thác liệu .29 5.1 Các thuật toán khai thác liệu chọn 29 5.2 Chia liệu huấn luyện liệu kiểm thử 31 5.3 Import thư viện, độ đo cần thiết thuật toán 33 5.4 Thuật toán Random Forest 33 5.4.1 Xây dựng thuật toán Random Forest 33   5.4.2 Ma trận nhầm lẫn .33 5.4.3 Phân tích thuật tốn 34 5.4.4 Thời gian chạy thuật toán 36 5.5 Thuật toán ID3 37 5.5.1 Xây dựng ID3 37 5.5.2 Ma trận nhầm lẫn .39 5.5.3 Phân tích thuật tốn 39 5.5.4 Cây định (Information Gain) 41 5.5.5 Dự đoán kết từ thuật toán 42 5.6 Thuật toán Cart 44 5.6.1 Xây dựng CART 44 5.6.2 Ma trận nhầm lẫn .45 5.6.3 Phân tích thuật tốn 46 5.6.4 Biểu diễn định (Gini) 48 5.6.5 Dự đoán kết từ thuật toán 48 5.7 Thuật tốn Nạve Bayes 50 5.7.1 Xây dựng thuật tốn Nạve Bayes 50 5.7.2 Ma trận nhầm lẫn .50 5.7.3 Phân tích thuật tốn 51 5.7.4 Dự đoán kết từ thuật toán 53 5.7.5 Thời gian chạy thuật toán 54 5.8 Đánh giá thuật toán 54 5.8.1 Đánh giá thời gian chạy .54 5.8.2 Đánh giá độ xác 55   Kết luận đánh giá .57 6.1 Ưu điểm 57 6.2 Hạn chế .57 6.3 Hướng phát triển .57 Bảng phân công công việc .58 Bảng đánh giá chéo thành viên nhóm .59 Tài liệu tham khảo 60   1.1 Tổng quan Phát biểu toán Sử dụng kiến thức khai thác liệu để phân lớp đánh giá khách hàng hài lòng máy bay hãng hàng không tập liệu cho trước Đồng thời, dự đốn khách hàng có hài lịng với chuyến bay hay khơng tương lai 1.2 Lý chọn đề tài Thực tế cho thấy, ngành hàng khơng giới có phát triển mạnh mẽ Đặc  biệt, trước khị đại dịch Covid bùng nổ, tính trung bình, ngành hàng khơng tồn giới tạo khoảng 65,6 triệu việc làm, đó, có 10,2 triệu việc làm trực tiếp 55 triệu việc làm gián tiếp Các hoạt động hàng khơng có tác động tới 2,7 nghìn tỷ USD hoạt động kinh tế, tương đương khoảng 3,6% tổng sản phẩm quốc nội (GDP) toàn cầu.1 Sau hai năm trải qua tình trạng khủng hoảng nghiêm trọng chưa có kể từ Chiến tranh Thế giới thứ hai, năm 2022 dự báo có nhiều khởi sắc ngành hàng không Với việc mở lại đường bay quốc tế nội địa, hãng hàng không triển khai nhiều ưu đãi đặc biệt giá vé máy bay Những chương trình khuyến mại nhằm thu hút du khách hỗ trợ phần chi phí cần thiết để lại phí xét nghiệm COVID-19.2 Bên cạnh việc tổ chức chương trình khuyến mại, việc  phân lớp dự đốn hài lịng khách hàng tương lai, nhằm thấu hiểu khách hàng cải thiện dịch vụ điều cần thiết, đóng góp phần lớn việc làm tăng trưởng doanh thu thu hút khách hàng Trên sở nghiên cứu tìm hiểu khai thác liệu, khuôn khổ đồ án, chúng em xin trình bày tốn khai phá liệu, nhằm tìm câu trả lời cho câu hỏi: hài lòng khách hàng qua chuyến bay điều kiện khách quan (độ tuổi,  Báo điện tử Đảng Cộng sản Việt Nam (07/12/2021), Hàng không dân dụng quốc tế phát triển quốc gia < https://dangcongsan.vn/the-gioi/tin-tuc/hang-khong-dan-dung-quoc-te-doi-voi-su-phat-trien-cua-cacquoc-gia-599035.html#:~:text=T%C3%ADnh%20trung%20b%C3%ACnh%2C%20ng%C3%A0nh%20h %C3%A0ng,n%E1%BB%99i%20(GDP)%20to%C3%A0n%20c%E1%BA%A7u > [truy cập ngày 18/05/2022]  Văn Linh (P/V TTXVN Tại Sydney) (04/01/2022), Ngành hàng không giới xác định hướng năm 2022, Trang thông tin kinh tế TTX Việt Nam < https://bnews.vn/nganh-hang-khong-the-gioi-xac-dinh-huong-dimoi-trong-nam-2022/227450.html> [truy cập ngày 18/05/2022]   khoảng cách bay, ghế ngồi, thức ăn ) có mối liên hệ Câu trả lời hướng đến việc xây dựng mơ hình dự đốn hài lịng khách hàng sử dụng dịch vụ hàng không, đồng thời vấn đề mà hãng hàng khơng cần quan tâm để mang đến hài lịng cho khách hàng 1.3 Nguồn liệu - Dataset bao gồm 23 cột 129880 dòng liệu - Link dataset: https://www.kaggle.com/datasets/sjleshrac/airlines-customer- satisfaction?fbclid=IwAR0TWFknCdsLzwrtsoQpDBGr9hQb2TgegmYt4vd7fOki8jshskuvj4z4GE  - Nội dung: Dữ liệu tổ chức hàng không đưa Tên thực tế công ty không đưa nhiều mục đích khác nhau, lý có tên hãng hàng không Invistico Tập liệu bao gồm thông tin chi tiết khách hàng sử dụng dịch vụ họ Phản hồi khách hàng chuyến bay họ tổng hợp lại bao gồm thông tin cá nhân khách hàng liệu chuyến bay Mục đích tập liệu dự đốn liệu khách hàng tương lai có hài lịng với dịch vụ hay không cung cấp thông tin chi tiết giá trị tham số khác Ngoài ra, hãng hàng khơng cần biết khía cạnh dịch vụ mà họ cung cấp phải nhấn mạnh nhiều để tạo nhiều khách hàng hài lịng   1.4 Mơ tả liệu ST Tên thuộc tính Ý nghĩa Kiểu liệu T Satisfaction - Satisfaction  Norminal - Disatisfaction Thể khách hàng có hài lịng với dịch vụ hay khơng Gender - Male  Norminal - Female Giới tính khách hàng Customer Type - Loyal  Norminal - Disloyal Loại khách hàng Age - Độ tuổi khách hàng từ đến 85 Discrete Type of Travel - Business Travel  Norminal - Personal Travel Loại hình du lịch Class - Business  Norminal - Eco - Eco Plus Flight Distance Khoảng cách bay Continous Seat Comfort Đánh giá thoải mái ghế Ordinal Có mức độ từ – Departure/ Arrival Đánh giá thời gian khởi hành có thuận tiện Ordinal time convenient khơng Có mức độ từ – 10 Food and drink Đánh giá chất lượng đồ ăn thức uống Ordinal Có mức độ từ –   11 12 13 14 Gate Location Inflight wifi services Đánh giá dịch vụ wifi chuyến bay Ordinal Ordinal Có mức độ từ – Inflight Đánh giá dịch vụ giải trí chuyến bay entertainment Có mức độ từ – Online Support Đánh giá hỗ trợ online Ordinal Ordinal Có mức độ từ – Ease 15 Vị trí cổng of Online Đánh giá thuận tiện việc đặt vé Ordinal  booking online Có mức độ từ – 16 17 Onboard service Dịch vụ chuyến bay Ordinal Có mức độ từ – Leg room service Đánh giá chất lượng dịch vụ phịng Ordinal Có mức độ từ – Baggage handling 18 Đánh giá hài long chỗ để hành lý xách Ordinal tay Có mức độ từ – 19 20 21 22 23 Checkin service Đánh giá dịch vụ đăng kí Ordinal Có mức độ đánh giá từ – Cleanliness Đánh giá mức độ chuyến bay Ordinal Có mức độ đánh giá từ – Online boarding Đánh giá dịch vụ online chuyến bay Ordinal Có mức độ đánh giá từ – Departure Delay in Chuyến bay khởi hành trễ Continuous Minutes Arrival  phút Delay in Chuyến bay hạ cách trễ bao nhiều phút Continuous Minutes   Công cụ sử dụng 2.1 Jupyter Notebook  Jupyter cơng cụ mã nguồn mở miễn phí với mục đích nhắm đến khoa học liệu giáo dục, giúp người học Python dễ dàng Jupyter có tính tương tác nên sử dụng làm mơi trường chạy thử giảng dạy 2.2 Ngôn ngữ Python Python ngơn ngữ lập trình bậc cao cho mục đích lập trình đa năng, Guido van Rossum tạo lần đầu mắt vào năm 1991 Python thiết kế với ưu điểm mạnh dễ đọc, dễ học dễ nhớ Đặc biệt, Python hoạt động tốt giai đoạn  phân tích liệu, nhờ vào thư viện thiết kế cho khoa học liệu như: Khai thác liệu, xử lý liệu mơ hình hóa – trực quan hóa liệu Ưu điểm Python: - Hội nhóm, cộng đồng hỗ trợ đông đảo: Điều giúp đỡ nhiều việc giải khó khăn gặp phải thực việc khai thác liệu Các khó khăn giải nhanh chóng, nhờ cộng đồng sử dụng Python lớn mạnh nhiệt huyết - Dễ học: Python ngôn ngữ lập trình dễ học nhất, cú pháp rõ ràng dễ đọc Nó u cầu dịng code hơn! Do đó, người học nhanh chóng học hỏi bắt tay vào việc thực dự án phân tích liệu - Xử lý liệu mơ hình hóa: Hai thư viện sử dụng giai đoạn này: NumPy Pandas NumPy (Numerical Python) sử dụng để xếp tập liệu lớn làm cho thuật toán, vector chúng mảng dễ dàng Pandas cung cấp hai cấu trúc liệu: chuỗi (danh sách mục) khung liệu (một bảng có nhiều cột) Thư viện chuyển đổi liệu sang khung liệu cho phép bạn xóa thêm cột vào thực thao tác khác - Trực quan hóa liệu:   Matplotlib Seaborn sử dụng rộng rãi để trực quan hóa liệu Python Các công cụ giúp chuyển đổi danh sách chữ số dài thành đồ họa dễ hiểu  biểu đồ: biểu đồ hình trịn, đồ nhiệt, v.v Với ưu điểm trên, chúng em định lựa chọn Python Jupyter Notebook làm công cụ để thực đồ án Khai thác liệu 10   5.6.3 Phân tích thuật tốn  Ta có ma trận nhầm lẫn định sau: Lớp dự đốn từ mơ hình  Khơng hài lịng Hài lịng Lớp Khơng hài lịng 10806 869 thực tế 858 13443 Hài lòng Quan sát ma trận nhầm lẫn, ta có thơng tin sau: 47     TP = 10806  FN = 869  FP = 858  TN = 13443 Theo công thức tính độ xác độ phủ ta có:  precision ( M )= recall ( M )=  10806 10806 + 858   10806 10806 + 869 ≈ 92,64% ≈ 92,56 %  Negative Predictive Value tỷ lệ trường hợp Negative phân loại TN    13443 = ≈ 93,93% TN + FN  13443 + 869  Specificity tỷ lệ trường hợp Negative thực (actual) phân loại TN    13443 = ≈ 94,0% TN + FP 13443 + 858  Accuracy Rate tỷ lệ dự báo cho tất trường hợp Negative Positive thực tế dự báo TP + TN    10806 +13443 = ≈ 93,35% TP+ TN + FP+ FN  10806 + 13443 + 858 + 869  Error Rate = - Accuracy Rate: tỷ lệ dự báo sai cho tất trường hợp  Negative Positive thực tế dự báo  Error Rate=1− Accuracy Rate ≈ 6,65% 48   5.6.4 Biểu diễn định (Gini) 5.6.5 Dự đoán kết từ thuật tốn  Trường hợp 1: Ta có khách hàng với thơng tin sau: STT Thuộc tính Giá trị Ý nghĩa Gender Nữ Customer_Type Khách hàng thân thiết Age Nhỏ 25 tuổi Type_of_Travel Personal Travel (Chuyến cá nhân) Class Eco Plus (Hạng ghế phổ thông Plus) Flight_Distance 1760 Khoảng cách chuyến bay 1760 km Seat_comfort 2 điểm (Không ổn lắm) Departure/Arrival_time_convenient 3 điểm (Bình thường) Gate_location 5 điểm (Rất hài lịng) 10 Inflight_entertainment 1 điểm (Khơng hài lịng) 49   11 Easy_of_Online_booking 4 điểm (Hài lòng) 12 On-board_service 3 điểm (Bình thường) 13 Leg_room_service 4 điểm (Hài lòng) 14 Baggage_Handling 4 điểm (Hài lòng) 15 Checkin_service 5 điểm (Rất hài lòng) 16 Departure_Delay_in_Minutes 10 Chuyến bay cất cánh trễ 10 phút 17 Arrival_Delay_in_Minutes 10 Chuyến bay hạ cánh trễ 10 phút Thực dự đốn kết thuộc tính định theo thuật toán CART Ta thấy kết dự đoán (Khách hàng hài lịng)  Trường hợp 2: Ta có khách hàng với thông tin sau: STT Thuộc tính Giá trị Ý nghĩa Gender Nam Customer_Type Khách hàng không thân thiết Age Từ 25 đến 36 tuổi Type_of_Travel Personal Travel (Chuyến cá nhân) Class Eco Plus (Hạng ghế phổ thông Plus) Flight_Distance 1820 Khoảng cách chuyến bay 1760 km Seat_comfort Departure/Arrival_time_convenient 2 điểm (Không ổn lắm) Gate_location điểm (Rất khơng hài lịng) điểm (Khơng hài lịng) 50   10 Inflight_entertainment 0 điểm (Rất không hài lịng) 11 Easy_of_Online_booking 1 điểm (Khơng hài lịng) 12 On-board_service 0 điểm (Khơng hài lịng) 13 Leg_room_service 1 điểm (Khơng hài lịng) 14 Baggage_Handling 0 điểm (Rất khơng hài lịng) 15 Checkin_service 0 điểm (Rất khơng hài lịng) 16 Departure_Delay_in_Minutes 205 Chuyến bay cất cánh trễ 205 phút 17 Arrival_Delay_in_Minutes 205 Chuyến bay hạ cánh trễ 205 phút Thực dự đoán kết thuộc tính định theo thuật tốn CART Ta thấy kết dự đốn (Khách hàng khơng hài lịng) 5.7 Thuật tốn Nạve Bayes 5.7.1 Xây dựng thuật tốn Nạve Bayes  Sử dụng hàm GaussianNB() để xây dựng thuật tốn Nạve Bayes 5.7.2 Ma trận nhầm lẫn  Tính giá trị confusion_matrix 51    Biểu diễn ma trận nhầm lẫn dạng Heatmap 5.7.3 Phân tích thuật tốn  Từ Heatmap, ta có ma trận nhầm lẫn sau: Lớp dự đốn từ mơ hình Lớp Khơng hài lịng thực tế Hài lịng Khơng hài lòng Hài lòng 9450 2225 2262 12039 52     Quan sát ma trận nhầm lẫn, ta có thông tin sau:  TP = 9450  FN = 2225  FP = 2262  TN = 12039 Theo cơng thức tính độ xác độ phủ ta có:  precision ( M )= recall ( M )=  9450 9450 + 2262   9450 9450 +2225 ≈ 80,69% ≈ 80,94 %  Negative Predictive Value tỷ lệ trường hợp Negative phân loại   12039 TN  = ≈ 84,4 % TN + FN  12039 + 2225  Specificity tỷ lệ trường hợp Negative thực (actual) phân loại   12039 TN  = ≈ 84,2% TN + F P 12039 + 2262  Accuracy Rate tỷ lệ dự báo cho tất trường hợp Negative Positive thực tế dự báo   9450 + 12039 TP + TN  = ≈ 82,73% TP+ TN + FP+ FN  9450 + 12039 + 2225 + 2262  Error Rate = - Accuracy Rate: tỷ lệ dự báo sai cho tất trường hợp  Negative Positive thực tế dự báo 53    Error Rate =1− Accuracy Rate ≈ 17,27 % 5.7.4 Dự đoán kết từ thuật tốn  Trường hợp 1: Ta có khách hàng với thơng tin sau: STT Thuộc tính Giá trị Ý nghĩa Gender Nữ Customer_Type Khách hàng thân thiết Age Nhỏ 25 tuổi Type_of_Travel Personal Travel (Chuyến cá nhân) Class Eco Plus (Hạng ghế phổ thông Plus) Flight_Distance 1760 Khoảng cách chuyến bay 1760 km Seat_comfort 2 điểm (Không ổn lắm) Departure/Arrival_time_convenient 3 điểm (Bình thường) Gate_location 5 điểm (Rất hài lịng) 10 Inflight_entertainment 1 điểm (Khơng hài lịng) 11 Easy_of_Online_booking 4 điểm (Hài lòng) 12 On-board_service 3 điểm (Bình thường) 13 Leg_room_service 4 điểm (Hài lòng) 14 Baggage_Handling 4 điểm (Hài lòng) 15 Checkin_service 5 điểm (Rất hài lòng) 16 Departure_Delay_in_Minutes 10 Chuyến bay cất cánh trễ 10 phút 17 Arrival_Delay_in_Minutes 10 Chuyến bay hạ cánh trễ 10 phút 54   Thực dự đốn kết thuộc tính định theo thuật tốn Nạve Bayes Ta thấy kết dự đốn (Khách hàng hài lòng) 5.7.5 Thời gian chạy thuật toán  Sử dụng hàm time.time() hàm timedelta() để tính thời gian thực thuật tốn  Native Bayes 5.8 Đánh giá thuật toán 5.8.1 Đánh giá thời gian chạy Hàm distplot () dùng để xem nhanh phân phối chuẩn biến seaborn Chúng ta có đường cong ước lượng (estimation) phân phối cách sử dụng ước lượng mật độ hạt nhân (kernel density estimation - KDE)  Nhìn vào biểu đồ ta thấy được:  Thời gian chạy thuật tồn Nạve Bayes vượt trội hẳn so với thuật toàn ID3 Cart  So sánh thời gian chạy thuật toàn ID3 Cart thuật tồn ID3 nhanh thời gian chạy 55   5.8.2 Đánh giá độ xác  Nhìn vào biểu đồ ta thấy được:  Độ xác thuật toán ID3 Cart vượt trội hẳn so với thuật tốn  Nạve Bayes  So sánh độ xác thuật tốn ID3 Cart khơng có chênh lệch nhiều độ xác Về mức độ xác thuật tốn cho kết tương đương 56   57   Kết luận đánh giá 6.1 Ưu điểm  Thực yêu cầu toán đặt là sử dụng kiến thức khai thác liệu để phân lớp đánh giá khách hàng hài lòng máy bay hãng hàng không tập liệu cho trước Đồng thời, dự đoán khách hàng có hài lịng với chuyến bay hay khơng tương lai  6.2 Phân tích kết thuật toán sử dụng Hạn chế  Các liệu mang tính lý thuyết khơng chắn đưa định đắn hoàn toàn  Trong giới thực, bất khả thi feature liệu test độc lập với   Nếu điểm liệu rơi vào nhầm nhánh lần phân chia đầu tiên, kết cuối khác nhiều Việc rơi vào nhầm nhánh dễ xảy trường hợp thuộc tính liên tục chia thành nhiều nhóm nhỏ, hai điểm có thuộc tính tương ứng gần rơi vào hai nhóm khác 6.3 Hướng phát triển   Nghiên cứu tương lai nên tiến hành cách sử dụng biện pháp cải tiến cho trình định thực tiễn dự đoán  Cải tiến thuật toán áp dụng thêm nhiều cột liệu khác để đưa dự đốn xác  Áp dụng thuật toán cho nhiều dạng tốn dự đốn khác 58   Bảng phân cơng công việc MSSV Họ tên Công việc Đánh giá - Lựa chọn đề tài - Tiền xử lý liệu 19520891 Hồng Ngọc Thảo Qun - Chạy thuật tốn - Viết báo cáo PowerPoint phần Tổng 100% quan, Quá trình Import, Quá trình tiền xử lý liệu, Lý thuyết thuật toán - Lựa chọn đề tài - Tiền xử lý liệu 19522245  Ngô Tường Vy - Chạy thuật toán - Viết báo cáo PowerPoint phần Các 100% thuật toán Khai thác liệu, Random Forest thuật tốn Nạve Bayes - Lựa chọn đề tài - Tiền xử lý liệu  Nguyễn Ngọc 19521986 Châu Pha - Chạy thuật toán - Đánh giá thuật toán 100% - Viết báo cáo làm PowerPoint phần Cơng cụ sử dụng, Lý thuyết thuật tốn, Thuật toán CART - Lựa chọn đề tài Phạm Như 19521798 Long - Chạy thuật toán - Đánh giá thuật toán 100% - Viết báo cáo làm PowerPoint Thuật toán ID3, Kết luận đánh giá 59   Bảng đánh giá chéo thành viên nhóm Hồng Ngọc Thảo Qun Hồng Ngọc Thảo Qun Ngơ Tường Vy Nguyễn Ngọc Châu Pha Phạm Như  Long 100% 100% 100% 100% 100% Ngô Tường Vy 100% Nguyễn Ngọc Châu Pha 100% 100% Phạm Như  Long 100% 100% 100% 100% 60   Tài liệu tham khảo [1] Báo điện tử Đảng Cộng sản Việt Nam (07/12/2021), Hàng không dân dụng quốc tế phát triển quốc gia: https://dangcongsan.vn/the-gioi/tin-tuc/hangkhong-dan-dung-quoc-te-doi-voi-su-phat-trien-cua-cac-quoc-gia-599035.html#:~:text=T %C3%ADnh%20trung%20b%C3%ACnh%2C%20ng%C3%A0nh%20h%C3%A0ng,n %E1%BB%99i%20(GDP)%20to%C3%A0n%20c%E1%BA%A7u [2] Văn Linh (P/V TTXVN Tại Sydney) (04/01/2022), Ngành hàng không giới xác định hướng năm 2022, Trang thông tin kinh tế TTX Việt Nam: https://bnews.vn/nganh-hang-khong-the-gioi-xac-dinh-huong-di-moi-trong-nam2022/227450.html [3] Trang web Software Testing Help (04/05/2022), Decision Tree Algorithm Examples In Data Mining: https://www.softwaretestinghelp.com/decision-tree-algorithm-examplesdata-mining/#What_Is_The_Use_Of_A_Decision_Tree [4] Thầy Nguyễn Hồ Duy Trí, Slide giảng mơn Khai thác liệu [5] Thầy Nguyễn Hồ Duy Trí, Các Lab thực hành môn Khai thác liệu [6] Sruthi E R (17/06/2021), Trang web Analytics Vidhya, Understanding Random Forest: https://www.analyticsvidhya.com/blog/2021/06/understanding-random-forest/ [7] Nguyen Thi Hop (14/09/2019), Trang web Viblo, Thuật tốn phân lớp Nạve Bayes: https://viblo.asia/p/thuat-toan-phan-lop-naive-bayes-924lJWPm5PM [8] Trang web pandas: https://pandas.pydata.org/docs/index.html [9] Trang web Real Python: https://realpython.com/python-data-cleaning-numpy-pandas/ [10] Trang web Geeksforgeeks: https://www.geeksforgeeks.org/decision-treeimplementation-python/ [11] Trang web StackAbuse: https://stackabuse.com/random-forest-algorithm-with python-and-scikit-learn/ [12] Trang web Scikit Learn: https://scikit-learn.org/stable/modules/naive_bayes.html 61

Ngày đăng: 17/05/2023, 06:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN