Chuyên đề thực tập chuyên ngành Toán Kinh TếLỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu “Ứng dụng Machine Learning trong dựbáo khả năng khách hàng yêu cầu bồi thường bảo hiểm xe ô tô
Trang 1TRUONG ĐẠI HỌC KINH TE QUOC DAN
KHOA TOAN KINH TE
CHUYEN DE THUC TAP
Chuyên ngành Toán Kinh Tế
dự báo khả năng khách hàng yêu cau
bôi thường bao hiêm xe 6 tô
Sinh viên thực hiện : Lê Thị Ngọc Ánh
Mã sinh viên : 11190649
Lớp chuyên ngành : Toán kinh tế 61
Giảng viên hướng dẫn : TS Nguyễn Quang Huy
Hà Nội — 09/2022
Trang 2TRƯỜNG DAI HOC KINH TE QUOC DAN
KHOA TOAN KINH TE
CHUYEN DE THUC TAP
Chuyên ngành Toán Kinh Tế
Đề tài: Ứng dụng Machine Learning trong dự báo
khả năng khách hàng yêu cầu bồi thường
bao hiém xe ô tô
Sinh viên thực hiện : Lê Thị Ngọc Ánh
Mã sinh viên : 11190649
Lop chuyén nganh : Toán kinh tế 61
Giảng viên hướng dẫn _: TS Nguyễn Quang Huy
Hà Nội - 09/2022
Trang 3Chuyên đề thực tập chuyên ngành Toán Kinh Tế
LỜI CAM ĐOAN
Tôi xin cam đoan đề tài nghiên cứu “Ứng dụng Machine Learning trong dựbáo khả năng khách hàng yêu cầu bồi thường bảo hiểm xe ô tô” là công trìnhnghiên cứu của bản thân Những phần sử dụng tài liệu tham khảo trong đề tài đãđược nêu rõ trong phần tài liệu tham khảo Các số liệu, kết quả đưa ra là hoàn toàntrung thực va chưa từng được công bố ở bat kỳ công trình nghiên cứu nào khác,
nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi ky luật của bộ môn và nhàtrường đề ra
Hà Nội, tháng 11 năm 2022
Tác giả
Lê Thị Ngọc Ánh
11190649 — Lê Thị Ngọc Anh 3
Trang 4Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Loi cm ơn
Em xin gửi lời cảm ơn sâu sắc nhất tới toàn thé các thay cô giáo chuyênngành Toán Kinh Tế và khoa Toán Kinh Tế của Tì ruong Đại học Kinh tế Quốc dân
vi đã luôn giúp đỡ, đồng hành và hỗ trợ dé chúng em có những kiến thức quý báu,
là nên tảng để giúp chúng em hoàn thiện được bản thân mình trên giảng đườngđại học trước khi bước ra ngoài cuộc sống sau này
Đặc biệt, em muốn gửi lời cảm ơn chân thành đến thay Nguyễn Quang Huy
— thay là người đã hướng dan tận tình và giúp đỡ em trong quá trình hoàn thành
chuyên đề tốt nghiệp
Dù vậy, trong quá trình tìm hiểu và làm bài, do kiến thức và kinh nghiệm
của em còn non trẻ không thé tránh khỏi những sai sót, kính mong nhận được
những đóng góp quý báu của các thay cô dé em có thể bổ sung và hoàn thiện bản
Trang 5Chuyên đề thực tập chuyên ngành Toán Kinh Tế
MỤCLỤC _
Churong 700.//00) 00 ố 7
1.1 LY DO CHỌN DE TÀI - 2-22 2S22EE2EEEEEEE12E12711271 E121 ertree 7
1.2 MỤC TIỂU CUA ĐÈ TÀI - 22-552 2EE2EEE2EEEEEEEEEEEErrrrerrrers 7
1.3 DOI TƯỢNG VA PHAM VI NGHIÊN CỨU 2-2: 81.4 PHƯƠNG PHÁP NGHIÊN CUU o ccccccscsssesssesssesseessesssesssessesssesssesseee 81.5 KET CẤU CHUYEN DE 2-52 2S 2212212112211 eo 8Chương 2 CƠ SO LY LUẬN & TONG QUAN NGHIÊN CỨU 9
2.1 CO SO LÝ THUYẾTT 2 2-25 2 2EE22EE22112711271211 21 rre 92.2 TONG QUAN NGHIÊN CỨU oooeocecccecceccecccscssssssessesstsssessessesstesessessees 9
2.3 CÁC MO HÌNH, THUẬT TOÁN ĐƯỢC SU DỤNG 10
2.3.1 Logistic Regression - th n nh HH HH tre 10 2.3.2 K-nearest neighborr - - 5 111231 111 11x re, 12
2.3.3 Decision Tree HS HH HT TT tk nen vn, 13 2.3.4 Random Foresf 0011111 HH TS ng vn ng vn, 13 2.3.5 Gradient Boosfing - - HH HH HH key 15
"V5 TP.( n8 ae 15
2.3.7 Chỉ số đánh giá mô hình 2-5 ©522S£+£E+£Etzxzzzrxrrxrred l6
Chương 3 DU LIỆỆU 2:- 2 252 SE2E+2EE£EEEEEEEESEEEEEerxrrkrsrrerrerkee 19
BL TONG QUAN 2-25: 21221 2112212212211211211211 11c rke 193.2 PHAN TÍCH, XỬ LÝ DU LIỆU 2 s+ecE+E+Eerxerxee 20
3.2.1 Xử lý missing vaÌÏUe ¿+ - + Sc St ** vs vrrkrirerirrrrrree 203.2.2 Tương quan giữa các biến 2-2-5 EeEEerErrrrkerrrres 21
3.2.4 Biến mục tiêu - ¿52 SE EE12112112112111 0111111 cty 233.2.5 Tối ưu hóa siêu tham số của các mô hình - s+s+sz=+ 25Chương 4 KET LUẬN — KHUYEN NGHỊ, 2: 5+ ©52+5<+5xccse2 30
PHU LLỤC - ¿©2255 <2 EEE2E122112711211211271121121111.1.11 11011 Eeee 32
TÀI LIEU THAM KHAO 2- 2 ©522E2£EE2EE£EEE£EEEEEEEEEEEEEEEErrkerrkee 41
11190649 — Lê Thị Ngọc Anh 5
Trang 6Chuyên đề thực tập chuyên ngành Toán Kinh Tế
DANH MỤC CÁC TỪ VIET TAT
ML Machine Learning
LR Logistic Regression KNN K nearest neighbor
DT Decision Tree
RF Random Forest GBM Gradient Boosting
XGBoost_ | Extreme Gradient Boosting
Trang 7Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Chương 1 MỞ ĐẦU
1.1 LÝ DO CHỌN ĐÈ TÀI
Hiện nay xe ô tô ngày càng được sử dụng nhiều bởi những ưu thế so vớicác phương tiện vận tải khác, tuy nhiên bên cạnh đó vẫn còn tồn tại những nhượcđiểm trong quá trình di chuyển bằng ô tô Đó là những thiệt hại do ô tô gây rakhông hề nhỏ, phần lớn những tai nạn giao thông nghiêm trọng xảy ra đều có sựgóp mặt của ô tô Tai nạn giao thông đường bộ xuất hiện ở khắp mọi nơi không trừmột quốc gia nào ké cả những nước có hệ thống hạ tang giao thông hiện đại Ởnước ta, cùng với đà tăng lên về số lượng ô tô cũng là sự tăng lên của số vụ tai nạngiao thông đường bộ và mức độ thiệt hại Các chủ xe luôn phải đối mặt với không
ít những nguy cơ khác nhau trong quá trình vận chuyên như rủi ro về tài sản, vềtrách nhiệm pháp lý, về nguồn nhân lực, Những rủi ro trên đã gây ra nhiều khókhăn cho chủ xe, gây mat mát tài sản, ngưng trệ quá trình sản xuất kinh doanh, anhhưởng lớn đến nguôn tài chính của họ Một trong các biện pháp giúp chủ xe có thégiảm thiểu ton thất đó chính là mua bảo hiểm xe ô tô Việc mua bảo hiểm chính làviệc chủ xe chuyền giao rủi ro của họ cho doanh nghiệp bảo hiểm và doanh nghiệpbảo hiểm sẽ có trách nhiệm bồi thường cho họ những ton thất thuộc phạm vi baohiểm Rui ro tai nan là rủi ro bất ngờ không thé biết trước do đó bảo hiểm 6 tô
chính là tâm lá chăn đôi với chủ xe.
Yêu cầu bồi thường bảo hiểm là một trong những yếu tố quan trọng tronglĩnh vực bảo hiểm Mức độ nghiêm trọng của yêu cầu dé cập đến sé tiền phải chi
để sửa chữa thiệt hại Số tiền yêu cầu bảo hiểm chịu ảnh hưởng của nhiều yếu t6.Trong ngành bảo hiểm, điều cần thiết là định giá sản phẩm trước khi biết chi phicủa nó, cần có một phương pháp hiệu qua dé xác định rủi ro mà tài xế gây ra chocông ty bảo hiểm Từ đó các công ty bảo hiểm sẽ điều chỉnh giá bảo hiểm một cách
công bằng theo khả năng của người lái xe và thông tin cá nhân có liên quan, phù
hợp với từng đối tượng khách hàng
1.2 MỤC TIÊU CUA DE TÀI
Đề tài được viết với mục tiêu chính là ứng dụng các mô hình học máy nhằm
dự báo khả năng xảy ra khiếu nại bảo hiểm ô tô đối với từng khách hàng, việc này
sẽ hỗ trợ các công ty bảo hiểm đưa ra mức phí phù hợp cho mỗi khách hàng Mục
tiêu cụ thé:
- _ Xác định các yêu tô ảnh hưởng đên khả năng xảy ra khiêu nại
11190649 — Lê Thị Ngọc Anh 7
Trang 8Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Thu thập và xử lý dữ liệu có sẵn nhằm giúp mô hình có kết quả khả quannhất
Phân tích thống kê và sử dụng các mô hình học máy dé đưa ra dự báo
DOI TƯỢNG VÀ PHAM VI NGHIÊN CỨU
Dữ liệu bảo hiểm xe hơi hàng năm của một công ty bảo hiểm tại Mỹ được công
khai tại trang web kaggle.com.
1.4.
1.5.
PHƯƠNG PHÁP NGHIÊN CỨU
Phương pháp định tính: Tìm hiểu bước đầu về nội dung nghiên cứu, tên
dé tài và các tài liệu tham khảo liên quan đối với phần cơ sở lý thuyếtthông qua sách báo, internet và tham khảo ý kiến cũng như các tài liệu
nhận được từ giáo viên hướng dẫn nghiên cứu.
Phương pháp định lượng: phân tích bộ dữ liệu, sử dụng mô hình học
máy dé dự báo kết quả
KET CẤU CHUYEN DE
Ngoài chương mở dau, chuyên dé gồm 3 chương chính:
Chương 2: Cơ sở lý luận và tổng quan nghiên cứu Chương này sẽ giảithích các khái niệm về bảo hiểm ô tô và các thuật toán, mô hình được
sử dụng trong đề tài Bên cạnh đó là tóm tắt các nghiên cứu cùng chủ đề
đã được thực hiện trước đây.
Chương 3: Dữ liệu Tổng quan về dữ liệu, chi tiết các bước xử lý; phân
tích dữ liệu, việc chạy các mô hình sẽ được trình bày trong chương này.
Chương 4: chương cuối cùng sẽ trình bày kết luận chung và đưa ra một
số khuyến nghị
11190649 — Lê Thị Ngọc Anh 8
Trang 9Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Chương 2 CƠ SỞ LÝ LUẬN & TONG QUAN NGHIÊN CUU
2.1 CƠ SỞ LY THUYET
Bảo hiểm là một thỏa thuận trong đó người tham gia thanh toán một khoảntiền theo quy định được gọi là phí bảo hiểm, công ty bảo hiểm đồng ý thanh toáncho chủ hợp đồng hoặc người thụ hưởng một số tiền xác định khi xảy ra một tốnthất cụ thé Có hai nhóm ngành bảo hiểm: bảo hiểm nhân thọ và bảo hiểm phi nhânthọ Đề tài này xem xét bảo hiểm phi nhân thọ, đặc biệt là bảo hiểm ô tô Chủphương tiện tìm đến các công ty bảo hiểm 6 tô dé mua bảo hiểm đề phòng trườnghợp không may xảy ra tai nạn, họ có thé giảm thiêu các chi phí liên quan đến bảohiểm cho tài sản (thiệt hại hoặc trộm cắp ô tô), trách nhiệm pháp lý (trách nhiệmpháp lý đối với người khác về y tế hoặc chỉ phí tài sản), và y tế (điều trị thươngtích) Yêu cầu bảo hiểm xảy ra khi chủ hợp đồng (khách hàng tạo một yêu cầuchính thức cho công ty bảo hiểm về bảo hiểm hoặc bồi thường một tai nạn Công
ty bảo hiểm phải xác nhận yêu cầu này và sau đó quyết định có thanh toán cho chủhợp đồng hay không Một số yếu tố quyết định báo giá bảo hiểm 6 tô Những yếu
tố này có thê xác định số tiền người lái xe sẽ trả cho hợp đồng bảo hiểm của họ
2.2 TỎNG QUAN NGHIÊN CỨU
Tam quan trọng của các chính sách bảo hiểm thanh toán theo khả năng lái
xe đã được nhấn mạnh bởi Hultkrantz và cộng sự (2012), vì chúng cho phép các
công ty bảo hiểm cá nhân hóa chi phí bảo hiểm cho từng khách hàng, do đó tỷ lệ
phí bảo hiểm sẽ công bằng Một số nghiên cứu đã được thực hiện dé cá nhân hóaước tinh phí bảo hiểm, chang hạn như Guillen et al (2019) va Roel et al (2017), họ
đã chứng minh những lợi ích có thé có của việc phân tích thông tin từ hệ thống
Telematics khi xác định phí bảo hiểm ô tô Khả năng dự đoán của các đồng biến
thu được từ dữ liệu lái xe của hệ thống Telematics đã được điều tra bởi Gao &Wuthrich (2018) va Gao et al (2019) bang cách sử dụng bản đồ nhiệt tốc độ - gia
tốc được đề xuất bởi Wuthrich (2017)
Hiện tại, nhiều công ty bảo hiểm đang sử dụng các phương pháp học máythay vì phương pháp tiếp cận thông thường, phương pháp này mang lại một cách
toàn diện hơn dé tạo ra kết quả đáng tin cậy hơn Một nghiên cứu mới liên quan
đến trí tuệ nhân tạo và tỷ suất lợi nhuận trong kinh doanh được thực hiện bởiMeKinsey & Company (Columbus 2017) Họ chỉ ra rằng các doanh nghiệp hoàn
toàn chấp nhận các dự án trí tuệ nhân tạo đã tạo ra tỷ suất lợi nhuận cao hơn từ 3%
đến 15%
11190649 — Lê Thị Ngọc Anh 9
Trang 10Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Có rất nhiều lý do dé các công ty bảo hiểm 6 tô triển khai các thuật toán họcmáy trong hoạt động kinh doanh của họ, vì chúng được sử dụng dé theo dõi hiệusuất của người lái xe và phân tích thị trường bảo hiểm Một số bài báo đã thảo luận
về vấn đề dự đoán trong lĩnh vực bảo hiểm bằng cách sử dụng các mô hình họcmáy, chăng hạn như Smith et al (2000), người đã thử nghiệm một số mô hình học
máy như Decision Tree và Neural Networks dé đánh giá xem chủ hợp đồng có gửiyêu cầu bồi thường hay không Weerasinghe & Wijegunasekara (2016) đã so sánh
ba phương pháp học máy dé dự đoán mức độ nghiêm trọng của khiếu nại Pháthiện của họ cho thay yếu tố dự đoán tốt nhất là Neural Networks Một ví dụ khác
về giải pháp tương tự và thỏa đáng cho cùng một vấn đề là luận án “Research on
Probability-based Learning Application on Car Insurance Data” (Jing et al 2018).
Ho chỉ sử dung Bayesian network dé phân loại xác nhận quyền sở hữu hoặc khôngxác nhận quyền sở hữu Kowshalya & Nandhini (2018), dự đoán các khiếu nại gian
lận và tính toán số tiền phí bảo hiểm cho các khách hàng khác nhau theo thông tin
cá nhân của họ, các kĩ thuật học máy đã được sử dụng, ba bộ phân loại đã được sử
dụng dé dự đoán các khiếu nại gian lận và các bộ phân loại này là các thuật toánRandom Forest, J48 và Naive Bayes Các phát hiện chỉ ra rằng thuật toán Random
Forest hoạt động tốt hơn các thuật toán còn lại
Ngoài ra, một ví dụ về phân tích thị trường bảo hiểm là một mô hình dựđoán mức độ nghiêm trọng của yêu cầu bồi thường, cũng như số tiền cần thiết đểsửa chữa hư hỏng của phương tiện (Dewi et al 2019) Ví dụ này thé hiện cách cácnhà cung cấp bảo hiểm xem xét nhiều hình thức áp dụng học máy khác nhau cho
dữ liệu khách hàng của họ Trong tác phẩm đã đề xuất một hệ thống (Singh vàcộng sự 2019), hệ thống này lấy ảnh của chiếc xe bị hư hỏng làm thông tin đầu
vào, sau đó dự báo chi phí sửa chữa Pesantez-Narvaez và cộng sự (2019) sửdụng XGBoost và hồi quy Logistic để dự đoán tần suất yêu cầu bảo hiểm xe cơ
giới Nghiên cứu này cho thấy mô hình XGBoost tốt hơn một chút so với hồi quy
Logistic, tuy nhiên họ đã sử dụng cơ sở dữ liệu chỉ bao gồm 2767 quan sát Sau
đó, một mô hình dự đoán yêu cầu bảo hiểm đã được phát triển (Abdelhadi et al
2020), họ đã xây dựng bốn bộ phân loại để dự đoán các xác nhận quyền sở hữu,bao gồm các thuật toán XGBoost, J48, ANN, Naive Bayes Kết quả cho thấyXGBoost hoạt động tốt nhất trong số bốn mô hình và họ đã sử dụng cơ sở dt liệubao gồm 30240 quan sát
2.3 CÁC MÔ HÌNH, THUẬT TOÁN ĐƯỢC SỬ DỤNG
2.3.1 Logistic Regression
11190649 — Lê Thị Ngọc Anh 10
Trang 11Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Hỏi quy tuyến tinh được sử dụng để ước tính mối quan hệ tuyến tính giữamột biến phụ thuộc và một tập hợp các biến độc lập Tuy nhiên, hồi quy tuyến tính
không phù hợp khi biến mục tiêu là nhị phân Đối với các biến phụ thuộc nhị phân,
hồi quy Logistic (LR) là một mô hình phù hợp để đánh giá hồi quy LR là một
phân tích thống kê được sử dụng để mô tả cách một biến phụ thuộc nhị phân đượckết nối với các biến độc lập khác nhau LR tương tự như hồi quy tuyến tính tuy
nhiên hồi quy tuyến tính cung cấp một đầu ra liên tục còn LR cho đầu ra nhị phân
0 đến 1 Nếu đường cong tiễn đến dương vô cùng, thì y được dự đoán sẽ trở thành
1 và néu đường cong chuyền sang âm vô cùng, y dự đoán sẽ trở thành 0 Nếu đầu
ra của hàm sigmoid lớn hơn 0.5 (theo mặc định), chúng ta có thể phân loại kết quả
là 1 hoặc CÓ và nếu nó nhỏ hon 0.5, chúng ta có thé phân loại nó là 0 hoặcKHÔNG
Áp dụng hàm sigmoid trên hồi quy tuyến tính ta được phương trình logistic:
1
D(X) = ot tik)
11190649 — Lé Thi Ngoc Anh 11
Trang 12Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Linear Regression Logistic Regression
Y=1 } - @ 0»
Y-Axis
Hình 1 Đồ thị hồi quy tuyến tinh và hồi quy Logistic
2.3.2 K-nearest neighbor
K-nearest neighbor là một trong những thuật toán supervised-learning don
giản nhất trong ML Khi training, thuật toán này không học một điều gì từ dữ liệutraining, mọi tính toán được thực hiện khi nó cần dự đoán kết quả của dữ liệu mới.K-nearest neighbor có thé áp dụng được vào cả hai loại của bài toán Supervised
learning là Classification va Regression KNN còn được gọi là một thuật toán Instance-based hay Memory-based learning.
Với KNN, trong bài toán Classification, label của một điểm dữ liệu mới
được suy ra trực tiếp từ K điểm dữ liệu gần nhất trong training set Label của mộttest data có thê được quyết định bằng major voting (bầu chọn theo số phiếu) giữacác điểm gần nhất, hoặc nó có thể được suy ra bằng cách đánh trọng số khác nhaucho mỗi trong các điêm gân nhât đó rôi suy ra label.
Trong bài toán Regression, đầu ra của một điểm dữ liệu sẽ bằng chính đầu
ra của điểm dữ liệu đã biết gần nhất (trong trường hợp K=1), hoặc là trung bình cótrọng số của đầu ra của những điểm gần nhất, hoặc bằng một mối quan hệ dựa trênkhoảng cách tới các diém gân nhat đó.
Một cách ngắn gọn, KNN là thuật toán đi tìm đầu ra của một điểm dữ liệumới bằng cách chỉ dựa trên thông tin của K điểm dữ liệu trong training set gần nó
nhất (K-lân cận), không quan tâm đến việc có một vài điểm dữ liệu trong nhữngđiểm gần nhất này là nhiễu Một điều đáng lưu ý là KNN phải “nhớ” tất cả các
điêm dt liệu training, việc này không được lợi vê cả bộ nhớ và thời gian tính toán.
11190649 — Lê Thị Ngọc Anh 12
Trang 13Chuyên đề thực tập chuyên ngành Toán Kinh Tế
(Binary) , Định danh (Nominal), Thứ bậc (Ordinal), Định lượng (Quantitative)
trong khi đó thuộc tính phân lớp phải có kiểu đữ liệu là Binary hoặc Ordinal
Decision Tree được tổ chức theo cấu trúc cây, trong đó các nút bên trong là cácbiến dữ liệu, các nhánh là các quy tắc quyết định và mỗi nút là đầu ra Nó bao gồmhai loại nút Một là nút quyết định được sử dụng dé ra quyết định và nó có nhiều
nhánh khác nhau Nút thứ hai là nút lá, đại điện cho kết quả của những quyết địnhnày Decision Tree cung cấp nhiều lợi thế, nhưng thường không thực hiện dự đoántốt so với các thuật toán phức tạp hơn Tuy nhiên, có những thuật toán tập hợp như
Random Forest, Gradient Boosters được phát triển bằng cách kết hợp các Decision
Tree cho ra kết quả tốt
{
| Sub-Tree + Decision Nod
Decision Node | on Node
| |
| |
| Leaf Node LeafNode ¡ LeafNode DecisionNode
Leaf Node Leaf Node
Hình 2 Cấu trúc một cây quyết định (Decision Tree)
2.3.4 Random Forest
Random Forest (RF) là thuật toán học có giám sát, có thé giải quyết cả bàitoán hồi quy và phân loại Thuật toán RF được xây dựng bằng nhiều cây quyếtđịnh thông qua thuật toán Decision Tree, tuy nhiên mỗi cây quyết định sẽ khác
nhau (có yếu tố random) Sau đó kết quả dự đoán được tông hợp từ các cây quyết
11190649 — Lê Thị Ngọc Ánh 13
Trang 14Chuyên đề thực tập chuyên ngành Toán Kinh Tế
định Ở bước huấn luyện, nhiều cây quyết định được xây dựng, các cây quyết định
có thê khác nhau Sau đó ở bước dự đoán, đi từ trên xuống dưới ở tửng cây quyếtđịnh theo các nút điều kiện để được các dự đoán, sau đó kết quả cuối cùng đượctổng hợp lại từ kết quả của các cây quyết định
Trong thuật toán Decision Tree, khi xây dựng cây quyết định nếu dé độ sâutùy ý thì cây sẽ phân loại đúng hết các dữ liệu trong tập training dẫn đến mô hình
có thể dự đoán tệ trên tập validation/test, khi đó mô hình bị overfitting, hay nói
cách khác là mô hình có high variance.
Thuật toán Random Forest gồm nhiều cây quyết định, mỗi cây quyết địnhđều có những yếu tố ngẫu nhiên:
- Lay ngẫu nhiên dữ liệu dé xây dựng cây quyết định
- Lay ngẫu nhiên các thuộc tinh để xây dung cây quyết định
Do mỗi cây quyết định trong thuật toán Random Forest không dùng tất cả
dữ liệu training, cũng như không dùng tất cả các thuộc tính của đữ liệu để xây dựng
cây nên mỗi cây có thê sẽ dự đoán không tốt, khi đó mỗi mô hình cây quyết địnhkhông bi overfitting mà có thế bị underfitting, hay nói cách khác là mô hình có
high bias Tuy nhiên, kết quả cuối cùng của thuật toán Random Forest lại tổng hợp
từ nhiều cây quyết định, thé nên thông tin từ các cây sẽ bé sung thông tin cho nhau,
dân đên mô hình có low bias và low variance, hay mô hình có kêt quả dự đoán tôt.
Trong các cây phân loại (trong đó đầu ra được dự đoán bằng chế độ quansát trong các nút đầu cuối), quyết định phân tách dựa trên các phương pháp sau:
- Chỉ số Gini - Đó là thước đo độ tỉnh khiết của nút Nếu chỉ số Gini có
giá trị nhỏ hơn, điều đó cho thấy nút đó là nút thuần túy Để quá trìnhphân tách diễn ra, chỉ số Gini của nút con phải nhỏ hơn chỉ số Gini của
nút cha.
- Entropy - là thước đo độ tinh khiết của nút Đối với một lớp nhị phân
(a,b), công thức dé tính toán nó được hiền thị bên dưới Entropy cực đại
tại p = 0,5 Với p(X = a) = 0.5 hoặc p(X = b) = 0.5 nghĩa là, một
quan sát mới có 50%-50% cơ hội được phân loại vào một trong hai loại.
Entropy là tối thiểu khi xác suất là 0 hoặc 1
entropy = —p(a) x log(p(a)) — p() x log(p(b))
11190649 — Lé Thi Ngoc Anh 14
Trang 15Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Ưu nhược điểm của RE:
Ưu điểm:
- _ Hiệu quả trong việc dự đoán tương quan
- _ Được sử dụng dé giải quyết ca van đề hồi quy và phân loại
- Có thể giải quyết các van đề ML không giám sát
- Có thé xử lý hàng nghìn biến đầu vào mà không cần chọn biến
- _ Xử lý dữ liệu bị thiếu trong nội bộ một cách hiệu quảNhược điểm:
- Rat khó dé diễn giải
- Có xu hướng trả về các dự đoán thất thường cho các quan sát nằm ngoài
phạm vi dữ liệu dao tạo
- C6 thể mat nhiều thời gian hơn dự kiến dé tính toán một số lượng lớn
cây
2.3.5 Gradient Boosting
Gradient Boosting là một kĩ thuật đồng bộ nhằm cố gắng tạo ra một phương
pháp phân loại mạnh từ một số phương pháp phân loại yếu Điều này được thực
hiện bằng cách xây dựng mô hình từ dữ liệu đào tạo, sau đó tạo ra một mô hìnhthứ hai có gắng sửa lỗi từ mô hình đầu tiên Các mô hình được thêm vào cho đến
khi tập đào tạo được dự đoán hoàn hảo hoặc thêm một số mô hình tối đa
Ưu điểm:
- _ Là một bộ phân loại học máy cực kỳ mạnh mẽ
- Chap nhận nhiều loại đầu vào giúp mô hình linh hoạt hơn
- C6 thé sử dụng cho cả hồi quy và phân loại
- _ Cung cap các tinh năng quan trong đôi với dau ra Nhược điêm:
- _ Mất nhiều thời gian đào tạo vì không thé thực hiện song song
- _ Nhiều khả năng overfitting vì bi ám ảnh bởi kết quả dau ra sai khi học
hỏi những sai lầm trong quá khứ
2.3.6 XGBoost
Thuật toán Extreme Gradient Boosting được phát triển bởi phó giáo sưTianqi Chen (2016) thuộc đại hoc Carnegie Mellon, Mỹ Cùng nằm trong nhóm
11190649 — Lê Thị Ngọc Ánh 15
Trang 16Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Ensemble Learning, nhưng thuật toán XGBoost sử dụng nguyên lý chính là
Boosting, hay cụ thé là Gradient Tree Boosting Ta sẽ coi toàn bộ mô hình là mộtmục tiêu tông hợp (regularized objective) gồm kết qua của nhiều hàm con cộng lai
dé dự đoán đầu ra, mỗi hàm con giống như một cây độc lập Các hàm con này thựcchất đều có cấu trúc là một hàm mắt mát 16i nhưng được sử dụng trên các bộ dữ
liệu con khác nhau Trong XGBoost, các bộ dữ liệu con được lay theo kỹ thuật
column (feature) subsampling Việc sử dụng các bộ mẫu con dạng này giúp tăng
tốc độ tính toán của các thuật toán song song ở các cây Việc tính toán regularizedobjective còn dựa trên các ham điểm (scoring function) cùng thuật toán tham lam(greedy algorithm) được thêm vào để tính trọng số cho các level trong cây và pháttriển thêm các nhánh của cây theo hướng làm giảm ham mat mát, từ đó tìm ra cầu
trúc cây tối ưu nhất Một tính năng quan trọng nữa ở XGBoost là sparsity-aware
split finding, nhận diện các giá trị bị mat trong các dữ liệu đầu vào và tìm hướng
đi tốt nhất từ những dữ liệu cũ dé xử lý những giá trị đó
XGBoost là phiên bản cải tiễn của Gradient Boosting (GBM) Ưu điểm vượt
trội của nó được chứng minh ở các khía cạnh:
- _ Tốc độ xử lý: XGBoost thực hiện tính toán song song nên tốc độ xử lý
có thể tăng gấp 10 lần so với GBM
- Overfitting: XGBoost áp dung cơ chế Regularization nên hạn chế đáng
hề hiện tượng Overfitting (GBM không có regularization).
- Su linh hoạt: XGBoost cho phép người dùng sử dụng hàm tối ưu và chi
tiêu đánh giá của riêng nó, không hạn chế ở những hàm cung cấp sẵn
- _ Xử lý missing value: XGBoost bao gồm cơ chế tự động xử lý missing
value bên trong nó, vì thế có thể bỏ qua bước này khi chuẩn bị dữ liệu
cho XGBoost
- Tu động cắt tỉa: tính năng tree pruning hỗ trợ việc tự động bỏ qua những
“lá”, “nút” không mang giá tri tích cực trong quá trình mở rộng “cây”.
Chính vì những ưu điểm đó mà hiệu năng của XGBoost tăng lên đáng kê so
với các thuật toán ensemble learning khác.
Trang 17Chuyên đề thực tập chuyên ngành Toán Kinh Tế
thử (test data) Cụ thé, gia su đầu ra của mô hình khi dau vào là tập kiểm thử được
mô tả bởi vector y_pred — là vector dự đoán đầu ra với mỗi phan tử là class được
dự đoán của một điểm đữ liệu trong tập kiểm thử Ta cần so sánh giữa vector dự
đoán y_pred này với vector class thật của dữ liệu, được mô ta bởi vecotr y_true.
Có rất nhiều cách đánh giá một mô hình phân loại Tùy vào những bài toán khác
nhau mà chúng ta sử dụng các phương pháp khác nhau Các phương pháp thường
được sử dụng 1a: accuracy, precision, recall, F1 score,
Accuracy đơn giản và hay được sử dụng nhất Cách đánh giá này đơn giảntính tỉ lệ giữa số điểm được dự đoán đúng và tông số điểm trong tập dit liệu kiếmthử Tuy nhiên accuracy chỉ cho chúng ta biết được bao nhiêu phần trăm đữ liệu
được phân loại đúng mà không chỉ ra được cụ thé mỗi loại được phân loại như thếnào, lớp nào được phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bịphân loại nhằm vào lớp khác Dé có thé đánh giá được các giá trị này, chúng ta sử
dụng một ma trận được gọi là Confusion matrix.
Confusion matrix
Actual Positive Actual Negative Predicted Positive True Positive (TP) False Positive (FP) Predict Negative False Negative (FN) True Negative (TN)
Trang 18Chuyên đề thực tập chuyên ngành Toán Kinh Tế
3 Dương tinh giả (FP) dé cap đến một mẫu thuộc loại âm tinh nhưng bị phân
loại sai là thuộc loại dương tính.
4 Am tính gia (FN) dé cap đến một mẫu thuộc loại dương tính nhưng bị phân
loại sai là thuộc loại âm tinh.
Confusion matrix là một ma trận vuông với kích thước mỗi chiều bằng sốlượng lớp dữ liệu Giá tri tại hang thứ i, cột thứ j là số lượng điểm lẽ ra thuộc vàoclass i nhưng lại được Về cơ bản, confusion matrix thé hiện có bao nhiêu điểm dữ
liệu /hc sự thuộc vào một class, và được dy dodn rơi vào một class Chúng ta có
thé suy ra ngay rằng tông các phan tử trong toàn ma trận này chính là số điểm trongtập kiểm thử Các phần tử trên đường chéo của ma trận là số điểm được phân loại
đúng của mỗi lớp dữ liệu Từ đây có thé suy ra accuracy chính bằng tổng các phần
tử trên đường chéo chia cho tông các phân tử toàn ma trận.
Với bài toán phân loại mà tập dữ liệu của các lớp là chênh lệch nhau rất
nhiều, có một phép hiệu quả thường được sử dụng là Precision — Recall Trong bài
toán phân loại nhị phân, coi một trong hai lớp là positive và lớp còn lại là negative.
Với cách xác định một lớp là positive, precision được định nghĩa là tỉ lệ số điểmtrue positive trong tông số những điểm được phân loại là positive (TP + FP) Recallđược định nghĩa là tỉ lệ số điểm true positive trong tong số những điểm thực sự là
positive (TP+FN) Precision cao đồng nghĩa với việc độ chính xác của các điểmtìm được là cao Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ
bỏ sót các điểm thực sự positive là thấp
Khi precision = 1, mọi điểm tìm được đều thực sự là positive, tức không cóđiểm negative nào lẫn vào kết quả Tuy nhiên, precision = 1 không đảm bao môhình là tốt, vì câu hỏi đặt ra là liệu mô hình đã tìm được rất cả các điểm positivehay chua Nếu một mô hình chi tìm được đúng một điểm positive mà nó chắc chắnnhất thì ta không thể gọi nó là một mô hình tốt Khi recall = 1, mọi điểm positiveđều được tìm thấy Tuy nhiên đại lượng này lại không đo liệu có bao nhiêu điểmnegative bị lẫn trong đó Nếu mô hình phân loại mọi điểm là positive thì chắc chắnrecall = 1, tuy nhiên dễ nhận ra đây là một mô hình cực tôi
Một mô hình phân lớp tốt là mô hình có cả precision va recall đều cao, tứccàng gần một càng tốt Có hai cách đo chất lượng của bộ phân lớp dựa vào
Precision va Recall: Precision-Recall curve và F-score.
11190649 — Lé Thi Ngoc Anh 18
Trang 19Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Chương 3 DỮ LIỆU
TỎNG QUAN
Bộ dữ liệu Yêu câu bôi thường bảo hiém xe ô tô được công bô công khai
trên trang web https://www.kaggle.com/ bao gồm 17 cột va 10000 hàng, mỗi hàng
chứa thông tin của một khách hàng khác nhau.
Các cột bao gôm:
1. Age: tuổi của khách hàng, được chia thành 4 nhóm: 0 — 25 / 26 — 39/ 40
— 64/ 65+
2 Gender: giới tính chia thành 2 nhóm: male/ female
Race: chung tộc chia thành 2 nhóm: majority/ minority
4 Driving_experience: kinh nghiệm lái xe chia thành 4 nhóm: 0 — 9y/ 10
9.
~ 19y/ 20 — 29y/ 30y+
Education: học vấn được chia thành 3 nhóm: high school/ university/
none
Income: thu nhập chia thành 4 nhóm: poverty/ working class/ middle class/ upper class
._Credit_score: điểm tín dụng là biến liên tục
Vehicle_ownership: = 1 nêu có quyên sở hữu xe, = 0 nêu không có
quyền sở hữu xe
Vehicle_ year: chia thành 2 nhóm: before 2015/ after 2015
10 Married: = 0 nếu chưa kết hôn, = 1 nếu đã kết hôn
11 Children: = 0 nêu chưa có con, = | nêu đã có con
12 Annual_mileage: biến liên tục biểu thị số đặm/ năm
13 Vehicle_type: chia thành 2 nhóm: sedan/ sports car
14.Speeding_ violatlons: biến liên tục thé hiện số lần vi phạm vượt quá tốc
độ
15 Duis (driving under influence): số lần vi phạm lái xe trong tình trạng say
rượu, sử dụng chất kích thích16.Past_accidents: số lần xảy ra tai nạn trong quá khứ
17 Outcome: = 0 nếu khách hàng không yêu cầu bồi thường bảo hiểm, = 1
nêu khách hàng yêu câu bôi thường bảo hiêm
11190649 — Lê Thị Ngọc Anh 19
Trang 20Chuyên đề thực tập chuyên ngành Toán Kinh Tế
3.2 PHAN TÍCH, XỬ LÝ DU LIEU
3.2.1 Xử lý missing value
Trong quá trình xử lý, làm sạch dữ liệu, chúng ta sẽ thường gặp phải vấn đề
dữ liệu bị missing Có 3 loại missing value: MAR (missing at random — dữ liệu
khuyết ngẫu nhiên), MCAR (missing completely at random — đữ liệu khuyết hoàntoàn ngẫu nhiên) và MNAR (missing not at random — đữ liệu khuyết không ngẫu
nhiên).
MAR - sự mat mát dữ liệu là ngẫu nhiên, tuy nhiên vẫn có mối quan hệ hệthong giữa dữ liệu bi mat va dit liệu được quan sát MCAR — sự mat mát là hoàntoàn ngẫu nhiên, và không có bat kỳ một mối quan hệ hay sự liên quan nào giữa
dữ liệu và bat ki dit liệu nào, missing hoặc dữ liệu quan sát MNAR - sự mat mát
dữ liệu không phải là ngẫu nhiên mà có một mối quan hệ xu hướng giữa giá trị bị
missing và giá tri không bi missing trong một biên.
Về van đề tìm kiếm missing value trong dataset, chúng ta có thé thay có rat
nhiều kiểu dữ liệu missing xuất hiện: có thé là một chuỗi rỗng, có thé là NA, N/A,
Non, -1, 99 hoặc 999 Cách tốt nhất dé giải quyết missing value là bạn phải hiểu
rõ được data mình có: hiểu được cách dé liệu missing đang được biểu diễn, cáchdata được thu thập, dữ liệu bi missing thuộc trường nao,
Chúng ta có thể loại bỏ dữ liệu missing khi chúng ta nhận ra thiếu dữ liệu
hoàn toàn ngẫu nhiên (MCAR) Tuy nhiên với MAR và MNAR thì việc loại bỏ sẽ
làm ảnh hưởng đến độ chính xác của mô hình, tốt hơn hết chúng ta nên tìm cách
dé xử lý van dé này Nếu dữ liệu missing trong tập dữ liệu là MCAR và số lượngmissing value không nhiều, chúng ta sẽ xóa đi những giá trị missing đó Có rấtnhiều trường hợp xảy ra khi thiếu data, nếu trong trường hợp một biến có nhiềugiá trị bị thiếu và chúng ta có thê phán đoán rằng biến bị thiếu đó thật sự khôngquan trọng nếu không xuất hiện trong dữ liệu, thì chúng ta có thể xóa luôn biến đó
đi Thông thường, khi dữ liệu của một biến bị thiếu khoảng 60 — 70% thì chúng tanên xem xét đến việc loại bỏ hoàn toàn biến đó đi Với những feature có tính liêntục thì việc chúng ta thay thế những giá tri missing value bằng các giá trị -1, -99, -
999, sẽ giúp cho những mô hình cây như (RF — Random Forest) hoạt động tốthơn bởi khi thay thế bằng những giá trị ở trên thì các mô hình này có thể giải thích
cho việc thiếu dữ liệu thông qua việc encoding này Nhược điểm của nó là làmgiảm hiệu suất của mô hình tuyến tính sẽ bị ảnh hưởng
11190649 — Lê Thị Ngọc Anh 20
Trang 21Chuyên đề thực tập chuyên ngành Toán Kinh Tế
Ngoài ra, chúng ta có thé thay thế bang giá tri mean, median, mode, Vớibiến liên tục, ta có thê điền mean hoặc median và với biến categorical ta điền mode
Tuy nhiên phương pháp này nhanh nhưng lại làm giảm phương sai của dữ liệu.
Bên cạnh đó khi thực hiện cách này thì nó phù hợp với mô hình tuyến tính đơn
giản và NN Nhưng đối với những bài toán dựa trên tree thì có vẻ không phù hợp
lắm Một cách hiệu quả hơn là sử dụng mô hình dự đoán cho data impution Cóthé sử dụng K-NN, Linear — Regression dé dữ đoán các giá trị còn thiếu
Tổng kết lai, dé xử lý missing value ta có các cách phô biến sau đây:
- Loại bỏ các quan sát chứa giá trị bi missing
- Thay thế bằng một giá trị khác (trung bình, trung vị, mode hoặc một giá
trị cố định)
- _ Viết mô hình dé dự báo
- Loại bỏ biến khi tỷ lệ missing value quá lớn
0.00035 0.00030 0.00025
# 0.00020
a Fa
fa
© 0.00015
0.00010 0.00005
không lớn nên bỏ qua phương án loại bỏ quan sát chứa missing value Tỷ lệ missing
value không quá lớn nên vẫn giữ lai các biến này Thay thé giá trị missing valuebằng trung bình từng biến vì các biến này có phân phối gần giống phân phối chuẩn
3.2.2 Tương quan giữa các biến
Hệ sô tương quan là một thước đo thông kê vê độ mạnh yêu của môi quan
hệ giữa các chuyên động tương đôi của hai biên Các giá trị năm trong khoảng từ
-1 đến 1 Tương quan -1 cho thấy mối tương quan âm tuyệt đối, trong khi mức
11190649 — Lê Thị Ngọc Anh 21
Trang 22Chuyên đề thực tập chuyên ngành Toán Kinh Tế
tương quan | cho thay mối tương quan dương tuyệt đối Tương quan 0 cho thấy
không có môi quan hệ tuyên tính giữa chuyên động của hai biên.
Có một số loại hệ số tương quan, nhưng loại phô biến nhất là hệ số tươngquan Pearson (R) Hệ số này chỉ ra độ mạnh và hướng của quan hệ tuyến tính giữahai biến Giá trị chính xác băng 1 có nghĩa là có một mối quan hệ đương tuyệt đốigiữa hai biến Đối với một biến số tăng dương, thì biến số thứ hai cũng tăng dương
Giá trị -1 có nghĩa là có một mối quan hệ âm tuyệt đối giữa hai biến Điều này chothay rang các biến chuyên động ngược chiều nhau — đối với một biến số tăng dươngthì biến số thứ hai sẽ giảm xuống Nếu mỗi tương quan giữa hai biến là 0 thì kết
luận không có mối quan hệ tuyến tính giữa chúng
Độ mạnh của mối quan hệ thay đổi theo mức độ dựa trên giá trị của hệ số
tương quan Ví dụ, giá trị 0.2 cho thấy có mối tương quan dương giữa hai biến,nhưng nó yếu và có thê không quan trọng Các nhà phân tích trong một số lĩnh vựcnghiên cứu không coi các mối tương quan là quan trọng cho đến khi giá trị vượt
qua ít nhất 0.8 Tuy nhiên, hệ số tương quan có giá trị tuyệt đối từ 0.9 trở lên sẽthé hiện một mối quan hệ rất chặt chẽ
100
aedit score A 03 027 021 00085 018 019 012 017 s31
vehicle ownership + 03 018 013 00043 0083 013 0087 012 038
married | 027 018 EI 029 0012 | O44 022 012 022 026 050 children + 021 013 023 | 001 | 043 022 a12 021 023
Hình 5 Tương quan tuyến tính giữa các biến
Hệ số tương quan tuyến tính giữa biến phụ thuộc với các biến độc lập đềuthấp cho thay không có mối liên hệ tuyến tính giữa các biến độc lập với biến phụ
thuộc Hệ số tương quan tuyến tính giữa các biến độc lập với nhau cũng thấp (trị
11190649 — Lê Thị Ngọc Ánh 22
Trang 23Chuyên đề thực tập chuyên ngành Toán Kinh Tế
tuyệt đối nhỏ hơn 0.5) cho thấy khả năng xảy ra hiện tượng cộng tuyến/ đa cộng
tuyến rất thấp
3.2.3 Tần xuất khách hàng yêu cầu bảo hiểm
3500 3000
2500
Frequency 8 8 8
Qua đồ thị bên ta thay, nhóm
“poverty” có xu hướng yêu cầu
bôi thường bảo hiểm 6 tô hơn các
năng yêu câu bồi thường bảo hiém
ô tô hơn các nhóm tuôi khác.
200
Nhóm người có ít kinh nghiệm
lái xe (0-9y) có nhiều khả năng TM
yêu cầu bồi thường bảo hiểmô tô
hơn các nhóm khác, đây là điềudễ hiểu vì kinh nghiệm lái xe it '„Frequency
hơn sẽ dê gây ra tai nạn hơn so
với nhóm giàu kinh nghiệm lái “=
Biến mục tiêu gồm 10000 quan sát, trong đó có 6867 quan sát mang giá trị
0 — khách hàng không yêu cầu bồi thường bảo hiểm 6 tô (chiếm 68.67%) và 3133