Đầu tiên, chúng tôi xét các thuộc tính features như lịch sử đối đầu của 2 đội, phong độ của từng đội dựa vào kết quả 10 trận gần nhất, tỉ lệ cược của nhà cái, thứ hạng FIFA của từng đội,
Dataset 1: Kết quả thi đấu bóng đá quốc tế từ 1872 đến 2021
Bộ dữ liệu 1 thống kê hiệu số bàn thắng giữa đội nhà và đội khách của
42084 trận dau bóng đá quốc tế từ tháng 11 năm 1872 đến tháng 3 năm 2021 (Lưu ý rằng bộ dữ liệu này liên tục được cập nhật, tuy nhiên tại thời điểm thu thập, dữ liệu năm trong khoảng thời gian trên) và bao gồm các features như sau:
Tên features Ý nghĩa date Ngày thi đầu home_team Tên đội nhà away_ team Tên đội khách home_ score Số lần ghi bàn của đội nhà, không gồm penalty away_score Số lần ghi bàn của đội khách, không gồm penalty tournament Tên của giải dau city Thanh phé ma tran dau dién ra country Quốc gia mà trận đâu diễn ra
14 neutral Trận đấu có diễn ra trên sân trung lập (không thuộc sỡ hữu của đội nao) hay không
Bang 3.1 Mô tả các features trong bộ dữ liệu 1 Đề hiểu rõ hơn về bộ dữ liệu trên chúng tôi sử dụng các phương pháp thống kê mô ta cho 2 features là home_score và away_ score kêt quả thu được được trình bày trong bảng sau:
Home_ score Away_score Mode 1 0
Dataset 2: Bảng xếp hang FIFA theo ngày từ 1992 đến 2021
Bộ dữ liệu 2 thống kê thứ hang của các đội tuyên bóng đá nam quốc gia trên toàn thế giới và được cập nhật gần như theo từng ngày từ tháng 12 năm
1992 đến tháng 4 năm 2021 Bộ dữ liệu gồm các feature như sau:
1d Id của quốc gia country_ full Tên đầy đủ của quốc gia country_abrv Tên viết tat (gồm 3 chữ cái) của quốc gia
Rank Thứ hạng của quốc gia
Total_points Diém hiện tại của quốc gia (dùng dé xét thứ hang) Previous_points Điểm ở lần cập nhật trước của quốc gia
Rank_change Su thay đổi xếp hạng so với lần cập nhật gần nhất Confederation Hiệp hội bóng đá của quốc gia
Rank_ date Ngày cập nhật
Bảng 3.3 Mô tả các features trong bộ dữ liệu 2
Chúng tôi sử dụng các phương pháp thống kê mô tả nhằm hiểu rõ bộ dữ liệu hơn và thu được kết quả như sau:
Rank Total_points | Previous_point | Rank_change
Bảng 3.4 Kết quả các thang đo của bộ dữ liệu 2 3.1.3 Dataset 3: Dữ liệu tỉ lệ cược của nha cái từ năm 2005 đến 2015
Bộ dữ liệu 3 tổng hợp tỉ lệ cược của 32 nhà cái của 479440 trận đấu bóng đá cả quốc tế và các trận dau giữa các câu lạc bộ từ tháng 1 năm 2005 đến tháng
7 năm 2015 Bộ dữ liệu 3 gồm các features sau:
Match_id Id cua tran đâu
Match_ date Ngày thi dau
Home_team Tên đội nhà
Home_ score Số lần ghi bàn của đội nhà, không kê penalty
Away_ team Tên đội khách
Away_score Số lần ghi ban của đội khách, không kê penalty
Avg_odds_home_win Tỉ lệ cược trung bình khi đội nhà thăng avg_odds_ draw Tỉ lệ cược trung bình khi hai đội hòa avg_odds_away_ win Tỉ lệ cược trung bình khi đội khách thăng max_odds_home_win Ti lệ cược tôi đa khi đội nhà thăng max_odds_ draw Tỉ lệ cược tối đa khi hai đội hòa max_odds_away_win Ti lệ cược tôi đa khi khách nhà thang top_bookie_home_win Tên nha cai có tỉ lệ cược cao nhất khi đội nha thang top_bookie_draw Tên nhà cái có tỉ lệ cược cao nhât khi hai đội hoa top_bookie_away_win Tên nha cái có tỉ lệ cược cao nhất khi đội khách thắng n_odds_home_win Sô lượng nhà cái nhận cược đội nhà thăng n_odds_ draw Sô lượng nhà cái nhận cược hai đội hòa n_odds_away_win Số lượng nhà cái nhận cược đội khách thăng
Bảng 3.5 Mô tả các features trong bộ dữ liệu 3
Dé hiểu rõ hơn về bộ dữ liệu trên, chúng tôi sử dụng các phương pháp thống kê mô tả cho 3 features là avg_odds_home_win, avg_odds_draw va avg_odds_away_win , kết quả thu được được trình bày trong bảng sau: avg_odds_home_win | avg_odds_draw | avg_odds_away_win Mode 2 3.2 2.5
Bang 3.6 Kết quả các thang đo của bộ dir liệu 3 3.2 Tiền xử lí dir liệu (Data Preprocessing) với các bộ dữ liệu có sẵn
3.2.1 Xử lí tính không nhất quán của dữ liệu (data inconsistency):
Ba bộ dữ liệu không nhất quán với nhau ở các thuộc tính có liên quan đến tên quốc gia Bản thân một số bộ dữ liệu như bộ đữ liệu 1 chang hạn, cũng không nhất quán với chính nó ở các thuộc tính trên Qua tìm hiểu, chúng tôi nhận thấy rằng có hai nguyên nhân chính:
-Một là một quốc gia có thể có nhiều tên Ví dụ như “Myanmar” là tên gọi chính thức theo Liên Hợp Quốc của Miến Điện (theo như cách gọi của Việt Nam) nhưng một số quốc gia phương tây như Mỹ, Úc, Anh lại sử dụng tên gọi
-Hai là các bộ dữ liệu có thể lưu thông tin về tên quốc gia không đây đủ.
Ví dụ như các tên gọi “China” và “PR China” chỉ cùng một nước Trung Quôc hay như “Congo” và “DR Congo” đều là tên gọi của Congo.
Một trong những cách đơn giản và hiệu quả nhất dé xử lí tính không nhất quán của các dữ liệu về tên quốc gia là sử dụng bộ công cụ tích hợp sẵn của
Google Doc Sau khi tải các bộ dữ liệu lên, Google Doc sẽ tự động gợi ý sửa chữa tính không nhất quán của dữ liệu như hình minh họa dưới đây:
DU LIEU KHÔNG NHẬT QUAN
Isle of Man ⁄Z Áp dụng cho mọi ô bên dưới
DU LIEU KHONG NHẤT QUAN
Ap dụng cho mọi 6 bên dưới w_ xX
Hình 3.1 Google Doc gợi ý sửa chữa tính không nhất quán
Ngoài các dữ liệu về tên quốc gia, ở bộ đữ liệu 1, thuộc tính ngày thi đấu (Date) cũng xuất hiện tình trang không nhất quán dữ liệu giữa các trận dau từ trước năm 1990 và các trận đấu từ năm 1990 trở về sau Các trận đấu trước năm
1990 được phân tách giữa ngày tháng năm bằng dấu gạch nối ( - ) trong khi các trận đầu từ năm 1990 trở về sau thì sử dụng dấu xuyét ( /).
Tuy nhiên do phạm vi khóa luận này chỉ sử dụng dữ liệu từ năm 2005 trở về sau nên không cần quan tâm đến tính không nhất quán trong định dạng ngày tháng này Một số thuộc tính của các mô hình dự đoán có sử dụng dữ liệu từ trước năm 2005 (nhưng vẫn sau năm 1990) Điều này sẽ được giải thích chỉ tiết hơn ở các phần sau.
3.2.2 Xử lí dữ liệu bị mất (missing data)
Cả bộ dữ liệu 1 và bộ đữ liệu 2 đều không có dữ liệu bị mất (missing data).
Bộ dữ liệu 3 có dữ liệu bị mất ở các thuộc tính sau: avg_odds_home_ win, avg_odds_away_ win, max_odds_home_ win, max_odds_away_win, top_bookie_home_win va top_bookie_away_win,
Qua tim hiéu, chúng tôi nhận thấy nguyên nhân chính khiến dữ liệu bi mat ở các thuộc tính trên là do một số trận đấu không có nhà cái đứng ra nhận cược bàn thăng hoặc bàn thua cho một đội (thường là do một đội quá mạnh so với đội còn lại).
Do lượng dé liệu bị mat tương đối ít nên chúng tôi sẽ xử lí bằng cách chọn phần dữ liệu không chứa missing data.
3.2.3 Lựa chon dữ liệu (data selection)
Như đã dé cập trong phan phạm vi dữ liệu, trong bài khóa luận này chúng tôi sẽ chọn phần dữ liệu từ năm 2005 trở về sau (một số thuộc tính có sử dụng dữ liệu từ năm 1990 trở về sau) ngoại trừ những dòng dữ liệu bị mất như đã nói ở phân trước.
3.3.1 Dùng thư viện OpenpyxI để tạo ra các thuộc tính từ bộ dữ liệu 1
Sau đây, chúng tôi sẽ dùng thư viện Openpyxl của ngôn ngữ lập trình
Python dé tạo ra các thuộc tính mới từ bộ dữ liệu 1 và sử dụng chúng dé huấn luyện các mô hình dự đoán Sẽ có 7 thuộc tính được tạo ra nằm trong 3 nhóm:
- _ Nhóm head-to-head: Dựa vào lịch sử đối đầu trực tiếp của 2 đội Một số đội luôn thua hoặc rất hiếm khi thăng khi đối đầu với một số đội nhất định bat ké đội đó hiện đang mạnh ra sao Vì vậy chúng tôi tin rằng lịch sử đối đầu trực tiếp của hai đội sẽ tạo nên những thuộc tính hữu dụng cho mô hình dự đoán Dĩ nhiên là dé xác định các thuộc tính này có ích hay không thì phải sử dụng các phương pháp EDA và feature selection. Điều này sẽ được chúng tôi trình bày ở các phần sau.
Xử lí dữ liệu bị mất (MISSING đafa) - ccccs++++eeeeeeees 20 3.2.3 _ Lựa chọn dữ liệu (data selection) .-. -<<<xss<<s 20 3.3 Thêm các thuộc tinh -.s + kk k1 HS ven vu 21 3.3.1 Dung thư viện Openpyx! dé tao ra các thuộc tính từ bộ dữ liệu 121 3.3.2 Thêm thuộc tính về chênh lệch trong xếp hang FIFA của 2 đội bằng bộ dit liệu 2 đất Z hà co H CÀ Lee, 27 3.3.3 _ Thêm các thuộc tính về tỉ lệ cược (bet odd) của nhà cái
Cả bộ dữ liệu 1 và bộ đữ liệu 2 đều không có dữ liệu bị mất (missing data).
Bộ dữ liệu 3 có dữ liệu bị mất ở các thuộc tính sau: avg_odds_home_ win, avg_odds_away_ win, max_odds_home_ win, max_odds_away_win, top_bookie_home_win va top_bookie_away_win,
Qua tim hiéu, chúng tôi nhận thấy nguyên nhân chính khiến dữ liệu bi mat ở các thuộc tính trên là do một số trận đấu không có nhà cái đứng ra nhận cược bàn thăng hoặc bàn thua cho một đội (thường là do một đội quá mạnh so với đội còn lại).
Do lượng dé liệu bị mat tương đối ít nên chúng tôi sẽ xử lí bằng cách chọn phần dữ liệu không chứa missing data.
3.2.3 Lựa chon dữ liệu (data selection)
Như đã dé cập trong phan phạm vi dữ liệu, trong bài khóa luận này chúng tôi sẽ chọn phần dữ liệu từ năm 2005 trở về sau (một số thuộc tính có sử dụng dữ liệu từ năm 1990 trở về sau) ngoại trừ những dòng dữ liệu bị mất như đã nói ở phân trước.
3.3.1 Dùng thư viện OpenpyxI để tạo ra các thuộc tính từ bộ dữ liệu 1
Sau đây, chúng tôi sẽ dùng thư viện Openpyxl của ngôn ngữ lập trình
Python dé tạo ra các thuộc tính mới từ bộ dữ liệu 1 và sử dụng chúng dé huấn luyện các mô hình dự đoán Sẽ có 7 thuộc tính được tạo ra nằm trong 3 nhóm:
- _ Nhóm head-to-head: Dựa vào lịch sử đối đầu trực tiếp của 2 đội Một số đội luôn thua hoặc rất hiếm khi thăng khi đối đầu với một số đội nhất định bat ké đội đó hiện đang mạnh ra sao Vì vậy chúng tôi tin rằng lịch sử đối đầu trực tiếp của hai đội sẽ tạo nên những thuộc tính hữu dụng cho mô hình dự đoán Dĩ nhiên là dé xác định các thuộc tính này có ích hay không thì phải sử dụng các phương pháp EDA và feature selection. Điều này sẽ được chúng tôi trình bày ở các phần sau.
- Nhóm form: “Phong độ” thi đấu hiện tại của 2 đội, được xác định dựa vào kết quả thi đấu 10 trận gận nhất của từng đội Để xác định một đội mạnh hay yếu thì không thé chỉ nhìn mãi vào quá khứ Đó là lý do chúng tôi sử dụng các thuộc tính thuộc nhóm form Một đội có “phong độ” hiện tại tốt thường sẽ có cơ hội thắng cao hơn trong các trận đấu kế tiếp Và đương nhiên, dé xác định các thuộc tính này có hữu dụng không thì phải sử dụng đến các phương pháp mà chúng tôi sẽ trình bày ở các phần sau.
- - Nhóm home: Dựa vào việc xác định đội 1 có phải là đội nhà không Đội nhà sẽ có những lợi thế như được sử dụng các sân vận động quen thuộc và số lượng cô động viên thường cũng nhiều hơn do thi đấu trên chính đất nước của mình Vì vậy chúng tôi sẽ thêm thuộc tính đội nhà vào mô hình dự đoán Chúng tôi sẽ đánh giá thuộc tính này ở các phần sau. Đầu tiên chúng tôi sẽ xây dựng 2 thuộc tính thuộc nhóm head-to-head là h2h win diff và h2h draw Ý nghĩa của 2 thuộc tính trên được trình bày trong bảng dưới đây:
Tên thuộc tính | Tên đầy đủ | Ý nghĩa Ví dụ h2h_ win diff | Head-to- Chênh lệch về số | Đội A và B từng đối đầu head win | trận thang của 2 | với nhau 11 lần, difference | đội trong lịch sử | A thắng 7, đối đầu B thắng 2, 2 trận hòa. h2h_win_diff=7-2=5 h2h_draw Head-to- Số trận hòa của 2 | Đội A va B từng đối đầu head draw đội trong lịch sử | với nhau 11 lần, đối đầu A thắng 7,
Bảng 3.7 Mô tả các thuộc tính của nhóm head-to-head Đề sử dụng thư viện openpyx! đầu tiên ta import thư viện trên và gán các tệp tin (file) dữ liệu vào các biến dé dé dàng truy xuất dit liệu.
Sau đó, chúng tôi sẽ lập trình chương trình để tạo ra thuộc tính h2h_win_ diff Giải thuật của thuật toán này được giải thích như sau:
- Tao vòng lặp for dé lặp qua các trận đấu đã được chọn (từ năm 2005-2021).
- Gan địa chỉ các features vào các biến.
- Với mỗi dòng dữ liệu của trận dau ở vòng lặp đầu tiên, lặp qua danh sách các trận đấu từ năm 1990 để tìm các trận đối đầu trực tiếp và diễn ra trước trận đấu.
- Khi tìm được trận đấu thì xác định đội nào thắng dé điều chỉnh kết quả.
- Ghi kết quả vào biến. Đoạn code của giải thuật trên được trình bày trong phần phụ lục.
Sau đó, chúng tôi sẽ lập trình chương trình dé tạo ra thuộc tính h2h_ draw.
Giải thuật của thuật toán này được giải thích như sau:
- Tao vòng lặp for dé lặp qua các trận đấu đã được chọn (từ năm 2005-2021).
- Gan địa chỉ các features vào các biên.
- _ Với mỗi dòng dữ liệu của trận đấu ở vòng lặp đầu tiên, lặp qua danh sách các trận đấu từ năm 1990 để tìm các trận đối đầu trực tiếp và diễn ra trước trận đấu.
- _ Khi tìm được trận đấu thi xác định kết quả có hòa hay không.
- _ Ghi kết quả số trận hòa vào biến. Đoạn code của giải thuật trên được trình bày trong phần phụ lục.
Sau khi đã tao ra 2 thuộc tính h2h_win_ diff và h2h_ draw, chúng tôi ghi kết quả vào file có đuôi (.xlsx) bằng đoạn code như hình trong phần phụ lục Lưu ý rằng dé có thé sử dụng dữ liệu dé dự đoán thì trước hết cần chuyền file sang định dạng (.csv).
Tiếp đến, chúng tôi sẽ tạo ra 4 thuộc tính thuộc nhóm form là form_ diff_ goal, form_diff_goaled, form_ diff_ win và form_diff_draw Y nghia của các thuộc tinh này được trình bay trong bang dưới đây:
Tên thuộc tính | Tên day đủ | Ý nghĩa Ví dụ form_diff_goal Form Chệnh lệch số Trong 10 trận gần nhất, difference | ban thắng (số | đội A đá bóng vào khung in goal lần đá bóng vào | thành 8 lần, đội B 10 lần. khung thành) | form_diff_goal= ghi được trong | 8-10=-2
10 trận gần nhất form_diff_goaled | Form Chệnh lệch số Trong 10 trận gần nhất, difference |bàn thua (số | đội A nhận 8 qua bóng in goal | bong bi đối thủ | vào khung thành, đội B received đá vào khung | nhận 6 quả. thành) phải | form_ diff_ goaled= nhận trong 10 | 8-6=2 trận gần nhất
23 form_ diff_ win Form difference in win
Chệnh lệch số trận thắng trong
Trong 10 trận gần nhật, đội A thắng 6 trận, đội B thắng 9 trận. form_diff_win=6-9=
-3 form_diff_draw Form difference in draw
Chénh lệch số trận hòa trong
Trong 10 trận gần nhất, đội A hòa 2 trận, đội B hoa | trận. form_diff_draw=
Bang 3.8 Mô ta các thuộc tinh của nhóm form
Thêm các thuộc tính về thời tiẾt - ¿2 2 2+2+z+x+x+xzxerees 36 3.4 Thực hiện EDA trên bộ dit liệu cuối -¿-¿-+2+++++s+s+s+s+sezessss2 40 3.4.1 So lược về bộ dit liệu cuối 5: +52 S2 cc2t+tzxzxererrrres 40 3.4.2 _ Thực hiện thống kê mô tả với dữ liệu -2- c+s+c+c+cec+ 42 3.4.3 _ Phân tích tính mất cân bằng của dit liệu (Data Imbalance)
Một trong những nhóm thuộc tính có thé hữu ích cho mô hình dự đoán là các thuộc tính về thời tiết trên sân Trong phần này, chúng tôi sẽ thu thập và phân tích các dữ liệu về thời tiết đồng thời đưa ra quyết định có giữ nhóm thuộc tính này hay không.
Cách đơn giản và hiệu quả nhất dé tìm dữ liệu thời tiết thường là tìm các bộ dữ liệu có sẵn Tuy nhiên, do bản chất của vấn đề, các trận đấu trải dài trong nhiều năm (từ 2005 đến 2021) và diễn ra ở nhiều nơi khác nhau trên toàn thé giới (hầu hết các bộ dữ liệu thời tiết chỉ bao gồm dữ liệu một khu vực hoặc quốc gia cụ thể) nên việc tìm một bộ dữ liệu thỏa mãn các điều kiện trên là điều bất kha thi, đó là chưa tính trường hợp bộ dữ liệu đó không tồn tại.
Một cách khác đó là dùng các API(Application Programming Interface) mà các trang thời tiết cung cấp Tuy nhiên các API ké cả bản trả phí(thường có giá vài chục đến vài nghìn đô la Mĩ trên tháng tùy gói), đều giới hạn số lượng request (truy vấn) mỗi ngày với 1-5% downtime (thời gian không truy cập được) nên dé lay các thông tin về thời tiết của hơn 10200 trận đấu trong một thời gian ngắn là điều rất khó Hơn nữa, gần như tất cả cả API trên đều giới hạn truy cập dữ liệu thời tiết cũ (Historical weather data) trong vòng 14 ngày nên việc thu thập dữ liệu từ năm 2005 bằng cách này gần như là không thé.
Cách cuôi cùng mà chúng tôi cân nhắc đó là tìm mã sân bay của các thành phố nơi mà trận dau diễn ra Hau hết các sân bay trên thé giới đều có hệ thong dự đoán thời tiét cũng như ghi chép dữ liệu thời tiêt nên việc sử dụng dữ liệu của các trạm này có thê là hướng đi đúng.
Sau đó chúng tôi sẽ dùng Octoparse để thu thập dữ liệu trên wunderground.com Wunderground là một trang web cung cấp ca dữ liệu thời tiết cũ (Historical weather data) và dự báo thời tiết cho những ngày tới Do cầu trúc đường dẫn trên Wunderground có cấu trúc tương đối tường minh nên có thé dựa vào mà sân bay và ngày thi dau dé xem dit liệu thời tiết Cau trúc đường dẫn có dạng: https://www.wunderground.com/history/daily/LDZA/date/2005 -3-26
LDZA là định danh mã sân bay
2005-3-26 là ngày cần xem thời tiết
Việc tiếp theo cần làm là thu thập dữ liệu về địa điểm nơi diễn ra các trận dau và mã sân bay Về địa điểm thi đấu thì do đã có sẵn trong bộ dữ liệu 1, chỉ cần thêm thuộc tính đó vào nên chúng tôi xin bỏ qua vấn đề này Về mã sân bay thì chúng tôi sử dụng bộ dữ liệu về mã sân bay có sẵn trên datahub ( chúng tôi tạm gọi đây là bộ dữ liệu 4).
Bộ dữ liệu 4 có 12 thuộc tính và bao gồm thông tin của 57421 sân bay lớn nhỏ khác nhau trên toàn thé giới Tuy nhiên, trong phạm vi dé tài này, chúng tôi chỉ lấy 2 thuộc tính là ident và municipality Ý nghĩa các thuộc tính này được trình bày như bảng sau:
Tên thuộc tính | Tên day đủ | Ý nghĩa
Ident Identification | Ma dinh danh san bay municipality municipality | Tên thành phố mà sân bay tọa lạc
Bảng 3.12 Ý nghĩa các thuộc tính về mã sân bay Sau khi đã có dữ liệu về mã sân bay và tên thành phố tương ứng, chúng tôi sử dụng Ablebits dé hợp 2 thuộc tính về thông tin sân bay như trên với danh sách các trận đấu Khóa (key) là tên thành phố (municipality trong dữ liệu sân bay hay city trong bộ dữ liệu 1).
Như đã đề cập ở trên, do cấu trúc đường dẫn rõ ràng, chỉ cần có mã sân bay và ngày là có thé xem được thông tin thời tiết trên Wunderground Chúng tôi dùng các lệnh excel dé tạo ra danh sách các đường dẫn với mỗi trận đấu (do đã có mã sân bay và ngày thi đấu).
Tiếp theo, chúng tôi lên danh sách các thuộc tính về thời tiết cần thu thập. Qua tìm hiểu, chúng tôi lựa chọn 10 thuộc tính về thời thiết như bảng dưới day:
Tên thuộc tính Ý nghĩa Chú thích weather_time Thoi gian tram do ghi | AM/PM dữ liệu weather_temp Temperature-nhiét độ | Don vị độ F weather_dew Dewpoint - nhiệt độ | Don vi độ F cân thiệt đê hơi nước ngưng tụ weather_humid Humidity - phần trăm | Đơn vị % độ âm không khí weather_wind Hướng gió: VAR là khi gió đổi hơn 60 độ
N-North: Bắc trong 2'; CALM là khi gió
S-South: Nam quá nhẹ/không có gió
W-West: Tây weather_wind_speed | Tốc độ gió trung bình | Don vi mph — miles per hour weather_wind_gust Téc độ gió lớn nhất Don vi mph — miles per hour
38 weather_press Pressure - áp suất | Don vi inch thủy ngân khong khi weather_precip Precipitation - lượng | Don vi là inch mưa/tuyết weather_cond Condition - tình hình | Ví dụ trời trong/có thời tiết mây/sương mù
Bảng 3.13 Mô tả các thuộc tính về thời tiết Sau khi đã lên danh sách các thuộc tính cần thu thập, như các phần trước, chúng tôi sử dụng phần mềm web scraper là Octoparse dé thu thập dữ liệu.
Dữ liệu sau khi thu thập gồm 726 dòng có dé liệu trên tổng số 10237 trận dau Phan dit liệu bi mat chiếm đến 93% Đây là con số quá lớn nên việc giữ các thuộc tính này lại có thé gây ảnh hưởng xấu đến mô hình dự đoán.