Chuyên đề thực tập: Ứng dụng Machine Learning trong dự báo khả năng khách hàng yêu cầu bồi thường bảo hiểm xe ô tô

Chuyên đề thực tập chuyên ngành Toán Kinh TếLỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu “Ứng dụng Machine Learning trong dựbáo khả năng khách hàng yêu cầu bồi thường bảo hiểm xe ô tô

Trang 1

TRUONG ĐẠI HỌC KINH TE QUOC DAN

KHOA TOAN KINH TE

CHUYEN DE THUC TAP

Chuyên ngành Toán Kinh Tế

dự báo khả năng khách hàng yêu cau

bôi thường bao hiêm xe 6 tô

Sinh viên thực hiện : Lê Thị Ngọc Ánh

Mã sinh viên : 11190649

Lớp chuyên ngành : Toán kinh tế 61

Giảng viên hướng dẫn : TS Nguyễn Quang Huy

Hà Nội — 09/2022

Trang 2

TRƯỜNG DAI HOC KINH TE QUOC DAN

KHOA TOAN KINH TE

CHUYEN DE THUC TAP

Chuyên ngành Toán Kinh Tế

Đề tài: Ứng dụng Machine Learning trong dự báo

khả năng khách hàng yêu cầu bồi thường

bao hiém xe ô tô

Sinh viên thực hiện : Lê Thị Ngọc Ánh

Mã sinh viên : 11190649

Lop chuyén nganh : Toán kinh tế 61

Giảng viên hướng dẫn _: TS Nguyễn Quang Huy

Hà Nội - 09/2022

Trang 3

Chuyên đề thực tập chuyên ngành Toán Kinh Tế

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài nghiên cứu “Ứng dụng Machine Learning trong dựbáo khả năng khách hàng yêu cầu bồi thường bảo hiểm xe ô tô” là công trìnhnghiên cứu của bản thân Những phần sử dụng tài liệu tham khảo trong đề tài đãđược nêu rõ trong phần tài liệu tham khảo Các số liệu, kết quả đưa ra là hoàn toàntrung thực va chưa từng được công bố ở bat kỳ công trình nghiên cứu nào khác,

nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi ky luật của bộ môn và nhàtrường đề ra

Hà Nội, tháng 11 năm 2022

Tác giả

Lê Thị Ngọc Ánh

11190649 — Lê Thị Ngọc Anh 3

Trang 4

Loi cm ơn

Em xin gửi lời cảm ơn sâu sắc nhất tới toàn thé các thay cô giáo chuyênngành Toán Kinh Tế và khoa Toán Kinh Tế của Tì ruong Đại học Kinh tế Quốc dân

vi đã luôn giúp đỡ, đồng hành và hỗ trợ dé chúng em có những kiến thức quý báu,

là nên tảng để giúp chúng em hoàn thiện được bản thân mình trên giảng đườngđại học trước khi bước ra ngoài cuộc sống sau này

Đặc biệt, em muốn gửi lời cảm ơn chân thành đến thay Nguyễn Quang Huy

— thay là người đã hướng dan tận tình và giúp đỡ em trong quá trình hoàn thành

chuyên đề tốt nghiệp

Dù vậy, trong quá trình tìm hiểu và làm bài, do kiến thức và kinh nghiệm

của em còn non trẻ không thé tránh khỏi những sai sót, kính mong nhận được

những đóng góp quý báu của các thay cô dé em có thể bổ sung và hoàn thiện bản

Trang 5

MỤCLỤC _

Churong 700.//00) 00 ố 7

1.1 LY DO CHỌN DE TÀI - 2-22 2S22EE2EEEEEEE12E12711271 E121 ertree 7

1.2 MỤC TIỂU CUA ĐÈ TÀI - 22-552 2EE2EEE2EEEEEEEEEEEErrrrerrrers 7

1.3 DOI TƯỢNG VA PHAM VI NGHIÊN CỨU 2-2: 81.4 PHƯƠNG PHÁP NGHIÊN CUU o ccccccscsssesssesssesseessesssesssessesssesssesseee 81.5 KET CẤU CHUYEN DE 2-52 2S 2212212112211 eo 8Chương 2 CƠ SO LY LUẬN & TONG QUAN NGHIÊN CỨU 9

2.1 CO SO LÝ THUYẾTT 2 2-25 2 2EE22EE22112711271211 21 rre 92.2 TONG QUAN NGHIÊN CỨU oooeocecccecceccecccscssssssessesstsssessessesstesessessees 9

2.3 CÁC MO HÌNH, THUẬT TOÁN ĐƯỢC SU DỤNG 10

2.3.1 Logistic Regression - th n nh HH HH tre 10 2.3.2 K-nearest neighborr - - 5 111231 111 11x re, 12

2.3.3 Decision Tree HS HH HT TT tk nen vn, 13 2.3.4 Random Foresf 0011111 HH TS ng vn ng vn, 13 2.3.5 Gradient Boosfing - - HH HH HH key 15

"V5 TP.( n8 ae 15

2.3.7 Chỉ số đánh giá mô hình 2-5 ©522S£+£E+£Etzxzzzrxrrxrred l6

Chương 3 DU LIỆỆU 2:- 2 252 SE2E+2EE£EEEEEEEESEEEEEerxrrkrsrrerrerkee 19

BL TONG QUAN 2-25: 21221 2112212212211211211211 11c rke 193.2 PHAN TÍCH, XỬ LÝ DU LIỆU 2 s+ecE+E+Eerxerxee 20

3.2.1 Xử lý missing vaÌÏUe ¿+ - + Sc St ** vs vrrkrirerirrrrrree 203.2.2 Tương quan giữa các biến 2-2-5 EeEEerErrrrkerrrres 21

3.2.4 Biến mục tiêu - ¿52 SE EE12112112112111 0111111 cty 233.2.5 Tối ưu hóa siêu tham số của các mô hình - s+s+sz=+ 25Chương 4 KET LUẬN — KHUYEN NGHỊ, 2: 5+ ©52+5<+5xccse2 30

PHU LLỤC - ¿©2255 <2 EEE2E122112711211211271121121111.1.11 11011 Eeee 32

TÀI LIEU THAM KHAO 2- 2 ©522E2£EE2EE£EEE£EEEEEEEEEEEEEEEErrkerrkee 41

Trang 6

DANH MỤC CÁC TỪ VIET TAT

ML Machine Learning

LR Logistic Regression KNN K nearest neighbor

DT Decision Tree

RF Random Forest GBM Gradient Boosting

XGBoost_ | Extreme Gradient Boosting

Trang 7

Chương 1 MỞ ĐẦU

1.1 LÝ DO CHỌN ĐÈ TÀI

Hiện nay xe ô tô ngày càng được sử dụng nhiều bởi những ưu thế so vớicác phương tiện vận tải khác, tuy nhiên bên cạnh đó vẫn còn tồn tại những nhượcđiểm trong quá trình di chuyển bằng ô tô Đó là những thiệt hại do ô tô gây rakhông hề nhỏ, phần lớn những tai nạn giao thông nghiêm trọng xảy ra đều có sựgóp mặt của ô tô Tai nạn giao thông đường bộ xuất hiện ở khắp mọi nơi không trừmột quốc gia nào ké cả những nước có hệ thống hạ tang giao thông hiện đại Ởnước ta, cùng với đà tăng lên về số lượng ô tô cũng là sự tăng lên của số vụ tai nạngiao thông đường bộ và mức độ thiệt hại Các chủ xe luôn phải đối mặt với không

ít những nguy cơ khác nhau trong quá trình vận chuyên như rủi ro về tài sản, vềtrách nhiệm pháp lý, về nguồn nhân lực, Những rủi ro trên đã gây ra nhiều khókhăn cho chủ xe, gây mat mát tài sản, ngưng trệ quá trình sản xuất kinh doanh, anhhưởng lớn đến nguôn tài chính của họ Một trong các biện pháp giúp chủ xe có thégiảm thiểu ton thất đó chính là mua bảo hiểm xe ô tô Việc mua bảo hiểm chính làviệc chủ xe chuyền giao rủi ro của họ cho doanh nghiệp bảo hiểm và doanh nghiệpbảo hiểm sẽ có trách nhiệm bồi thường cho họ những ton thất thuộc phạm vi baohiểm Rui ro tai nan là rủi ro bất ngờ không thé biết trước do đó bảo hiểm 6 tô

chính là tâm lá chăn đôi với chủ xe.

Yêu cầu bồi thường bảo hiểm là một trong những yếu tố quan trọng tronglĩnh vực bảo hiểm Mức độ nghiêm trọng của yêu cầu dé cập đến sé tiền phải chi

để sửa chữa thiệt hại Số tiền yêu cầu bảo hiểm chịu ảnh hưởng của nhiều yếu t6.Trong ngành bảo hiểm, điều cần thiết là định giá sản phẩm trước khi biết chi phicủa nó, cần có một phương pháp hiệu qua dé xác định rủi ro mà tài xế gây ra chocông ty bảo hiểm Từ đó các công ty bảo hiểm sẽ điều chỉnh giá bảo hiểm một cách

công bằng theo khả năng của người lái xe và thông tin cá nhân có liên quan, phù

hợp với từng đối tượng khách hàng

1.2 MỤC TIÊU CUA DE TÀI

Đề tài được viết với mục tiêu chính là ứng dụng các mô hình học máy nhằm

dự báo khả năng xảy ra khiếu nại bảo hiểm ô tô đối với từng khách hàng, việc này

sẽ hỗ trợ các công ty bảo hiểm đưa ra mức phí phù hợp cho mỗi khách hàng Mục

tiêu cụ thé:

- _ Xác định các yêu tô ảnh hưởng đên khả năng xảy ra khiêu nại

Trang 8

Thu thập và xử lý dữ liệu có sẵn nhằm giúp mô hình có kết quả khả quannhất

Phân tích thống kê và sử dụng các mô hình học máy dé đưa ra dự báo

DOI TƯỢNG VÀ PHAM VI NGHIÊN CỨU

Dữ liệu bảo hiểm xe hơi hàng năm của một công ty bảo hiểm tại Mỹ được công

khai tại trang web kaggle.com.

1.4.

1.5.

PHƯƠNG PHÁP NGHIÊN CỨU

Phương pháp định tính: Tìm hiểu bước đầu về nội dung nghiên cứu, tên

dé tài và các tài liệu tham khảo liên quan đối với phần cơ sở lý thuyếtthông qua sách báo, internet và tham khảo ý kiến cũng như các tài liệu

nhận được từ giáo viên hướng dẫn nghiên cứu.

Phương pháp định lượng: phân tích bộ dữ liệu, sử dụng mô hình học

máy dé dự báo kết quả

KET CẤU CHUYEN DE

Ngoài chương mở dau, chuyên dé gồm 3 chương chính:

Chương 2: Cơ sở lý luận và tổng quan nghiên cứu Chương này sẽ giảithích các khái niệm về bảo hiểm ô tô và các thuật toán, mô hình được

sử dụng trong đề tài Bên cạnh đó là tóm tắt các nghiên cứu cùng chủ đề

đã được thực hiện trước đây.

Chương 3: Dữ liệu Tổng quan về dữ liệu, chi tiết các bước xử lý; phân

tích dữ liệu, việc chạy các mô hình sẽ được trình bày trong chương này.

Chương 4: chương cuối cùng sẽ trình bày kết luận chung và đưa ra một

số khuyến nghị

Trang 9

Chương 2 CƠ SỞ LÝ LUẬN & TONG QUAN NGHIÊN CUU

2.1 CƠ SỞ LY THUYET

Bảo hiểm là một thỏa thuận trong đó người tham gia thanh toán một khoảntiền theo quy định được gọi là phí bảo hiểm, công ty bảo hiểm đồng ý thanh toáncho chủ hợp đồng hoặc người thụ hưởng một số tiền xác định khi xảy ra một tốnthất cụ thé Có hai nhóm ngành bảo hiểm: bảo hiểm nhân thọ và bảo hiểm phi nhânthọ Đề tài này xem xét bảo hiểm phi nhân thọ, đặc biệt là bảo hiểm ô tô Chủphương tiện tìm đến các công ty bảo hiểm 6 tô dé mua bảo hiểm đề phòng trườnghợp không may xảy ra tai nạn, họ có thé giảm thiêu các chi phí liên quan đến bảohiểm cho tài sản (thiệt hại hoặc trộm cắp ô tô), trách nhiệm pháp lý (trách nhiệmpháp lý đối với người khác về y tế hoặc chỉ phí tài sản), và y tế (điều trị thươngtích) Yêu cầu bảo hiểm xảy ra khi chủ hợp đồng (khách hàng tạo một yêu cầuchính thức cho công ty bảo hiểm về bảo hiểm hoặc bồi thường một tai nạn Công

ty bảo hiểm phải xác nhận yêu cầu này và sau đó quyết định có thanh toán cho chủhợp đồng hay không Một số yếu tố quyết định báo giá bảo hiểm 6 tô Những yếu

tố này có thê xác định số tiền người lái xe sẽ trả cho hợp đồng bảo hiểm của họ

2.2 TỎNG QUAN NGHIÊN CỨU

Tam quan trọng của các chính sách bảo hiểm thanh toán theo khả năng lái

xe đã được nhấn mạnh bởi Hultkrantz và cộng sự (2012), vì chúng cho phép các

công ty bảo hiểm cá nhân hóa chi phí bảo hiểm cho từng khách hàng, do đó tỷ lệ

phí bảo hiểm sẽ công bằng Một số nghiên cứu đã được thực hiện dé cá nhân hóaước tinh phí bảo hiểm, chang hạn như Guillen et al (2019) va Roel et al (2017), họ

đã chứng minh những lợi ích có thé có của việc phân tích thông tin từ hệ thống

Telematics khi xác định phí bảo hiểm ô tô Khả năng dự đoán của các đồng biến

thu được từ dữ liệu lái xe của hệ thống Telematics đã được điều tra bởi Gao &Wuthrich (2018) va Gao et al (2019) bang cách sử dụng bản đồ nhiệt tốc độ - gia

tốc được đề xuất bởi Wuthrich (2017)

Hiện tại, nhiều công ty bảo hiểm đang sử dụng các phương pháp học máythay vì phương pháp tiếp cận thông thường, phương pháp này mang lại một cách

toàn diện hơn dé tạo ra kết quả đáng tin cậy hơn Một nghiên cứu mới liên quan

đến trí tuệ nhân tạo và tỷ suất lợi nhuận trong kinh doanh được thực hiện bởiMeKinsey & Company (Columbus 2017) Họ chỉ ra rằng các doanh nghiệp hoàn

toàn chấp nhận các dự án trí tuệ nhân tạo đã tạo ra tỷ suất lợi nhuận cao hơn từ 3%

đến 15%

Trang 10

Có rất nhiều lý do dé các công ty bảo hiểm 6 tô triển khai các thuật toán họcmáy trong hoạt động kinh doanh của họ, vì chúng được sử dụng dé theo dõi hiệusuất của người lái xe và phân tích thị trường bảo hiểm Một số bài báo đã thảo luận

về vấn đề dự đoán trong lĩnh vực bảo hiểm bằng cách sử dụng các mô hình họcmáy, chăng hạn như Smith et al (2000), người đã thử nghiệm một số mô hình học

máy như Decision Tree và Neural Networks dé đánh giá xem chủ hợp đồng có gửiyêu cầu bồi thường hay không Weerasinghe & Wijegunasekara (2016) đã so sánh

ba phương pháp học máy dé dự đoán mức độ nghiêm trọng của khiếu nại Pháthiện của họ cho thay yếu tố dự đoán tốt nhất là Neural Networks Một ví dụ khác

về giải pháp tương tự và thỏa đáng cho cùng một vấn đề là luận án “Research on

Probability-based Learning Application on Car Insurance Data” (Jing et al 2018).

Ho chỉ sử dung Bayesian network dé phân loại xác nhận quyền sở hữu hoặc khôngxác nhận quyền sở hữu Kowshalya & Nandhini (2018), dự đoán các khiếu nại gian

lận và tính toán số tiền phí bảo hiểm cho các khách hàng khác nhau theo thông tin

cá nhân của họ, các kĩ thuật học máy đã được sử dụng, ba bộ phân loại đã được sử

dụng dé dự đoán các khiếu nại gian lận và các bộ phân loại này là các thuật toánRandom Forest, J48 và Naive Bayes Các phát hiện chỉ ra rằng thuật toán Random

Forest hoạt động tốt hơn các thuật toán còn lại

Ngoài ra, một ví dụ về phân tích thị trường bảo hiểm là một mô hình dựđoán mức độ nghiêm trọng của yêu cầu bồi thường, cũng như số tiền cần thiết đểsửa chữa hư hỏng của phương tiện (Dewi et al 2019) Ví dụ này thé hiện cách cácnhà cung cấp bảo hiểm xem xét nhiều hình thức áp dụng học máy khác nhau cho

dữ liệu khách hàng của họ Trong tác phẩm đã đề xuất một hệ thống (Singh vàcộng sự 2019), hệ thống này lấy ảnh của chiếc xe bị hư hỏng làm thông tin đầu

vào, sau đó dự báo chi phí sửa chữa Pesantez-Narvaez và cộng sự (2019) sửdụng XGBoost và hồi quy Logistic để dự đoán tần suất yêu cầu bảo hiểm xe cơ

giới Nghiên cứu này cho thấy mô hình XGBoost tốt hơn một chút so với hồi quy

Logistic, tuy nhiên họ đã sử dụng cơ sở dữ liệu chỉ bao gồm 2767 quan sát Sau

đó, một mô hình dự đoán yêu cầu bảo hiểm đã được phát triển (Abdelhadi et al

2020), họ đã xây dựng bốn bộ phân loại để dự đoán các xác nhận quyền sở hữu,bao gồm các thuật toán XGBoost, J48, ANN, Naive Bayes Kết quả cho thấyXGBoost hoạt động tốt nhất trong số bốn mô hình và họ đã sử dụng cơ sở dt liệubao gồm 30240 quan sát

2.3 CÁC MÔ HÌNH, THUẬT TOÁN ĐƯỢC SỬ DỤNG

2.3.1 Logistic Regression

Trang 11

Hỏi quy tuyến tinh được sử dụng để ước tính mối quan hệ tuyến tính giữamột biến phụ thuộc và một tập hợp các biến độc lập Tuy nhiên, hồi quy tuyến tính

không phù hợp khi biến mục tiêu là nhị phân Đối với các biến phụ thuộc nhị phân,

hồi quy Logistic (LR) là một mô hình phù hợp để đánh giá hồi quy LR là một

phân tích thống kê được sử dụng để mô tả cách một biến phụ thuộc nhị phân đượckết nối với các biến độc lập khác nhau LR tương tự như hồi quy tuyến tính tuy

nhiên hồi quy tuyến tính cung cấp một đầu ra liên tục còn LR cho đầu ra nhị phân

0 đến 1 Nếu đường cong tiễn đến dương vô cùng, thì y được dự đoán sẽ trở thành

1 và néu đường cong chuyền sang âm vô cùng, y dự đoán sẽ trở thành 0 Nếu đầu

ra của hàm sigmoid lớn hơn 0.5 (theo mặc định), chúng ta có thể phân loại kết quả

là 1 hoặc CÓ và nếu nó nhỏ hon 0.5, chúng ta có thé phân loại nó là 0 hoặcKHÔNG

Áp dụng hàm sigmoid trên hồi quy tuyến tính ta được phương trình logistic:

1

D(X) = ot tik)

11190649 — Lé Thi Ngoc Anh 11

Trang 12

Linear Regression Logistic Regression

Y=1 } - @ 0»

Y-Axis

Hình 1 Đồ thị hồi quy tuyến tinh và hồi quy Logistic

2.3.2 K-nearest neighbor

K-nearest neighbor là một trong những thuật toán supervised-learning don

giản nhất trong ML Khi training, thuật toán này không học một điều gì từ dữ liệutraining, mọi tính toán được thực hiện khi nó cần dự đoán kết quả của dữ liệu mới.K-nearest neighbor có thé áp dụng được vào cả hai loại của bài toán Supervised

learning là Classification va Regression KNN còn được gọi là một thuật toán Instance-based hay Memory-based learning.

Với KNN, trong bài toán Classification, label của một điểm dữ liệu mới

được suy ra trực tiếp từ K điểm dữ liệu gần nhất trong training set Label của mộttest data có thê được quyết định bằng major voting (bầu chọn theo số phiếu) giữacác điểm gần nhất, hoặc nó có thể được suy ra bằng cách đánh trọng số khác nhaucho mỗi trong các điêm gân nhât đó rôi suy ra label.

Trong bài toán Regression, đầu ra của một điểm dữ liệu sẽ bằng chính đầu

ra của điểm dữ liệu đã biết gần nhất (trong trường hợp K=1), hoặc là trung bình cótrọng số của đầu ra của những điểm gần nhất, hoặc bằng một mối quan hệ dựa trênkhoảng cách tới các diém gân nhat đó.

Một cách ngắn gọn, KNN là thuật toán đi tìm đầu ra của một điểm dữ liệumới bằng cách chỉ dựa trên thông tin của K điểm dữ liệu trong training set gần nó

nhất (K-lân cận), không quan tâm đến việc có một vài điểm dữ liệu trong nhữngđiểm gần nhất này là nhiễu Một điều đáng lưu ý là KNN phải “nhớ” tất cả các

điêm dt liệu training, việc này không được lợi vê cả bộ nhớ và thời gian tính toán.

Trang 13

(Binary) , Định danh (Nominal), Thứ bậc (Ordinal), Định lượng (Quantitative)

trong khi đó thuộc tính phân lớp phải có kiểu đữ liệu là Binary hoặc Ordinal

Decision Tree được tổ chức theo cấu trúc cây, trong đó các nút bên trong là cácbiến dữ liệu, các nhánh là các quy tắc quyết định và mỗi nút là đầu ra Nó bao gồmhai loại nút Một là nút quyết định được sử dụng dé ra quyết định và nó có nhiều

nhánh khác nhau Nút thứ hai là nút lá, đại điện cho kết quả của những quyết địnhnày Decision Tree cung cấp nhiều lợi thế, nhưng thường không thực hiện dự đoántốt so với các thuật toán phức tạp hơn Tuy nhiên, có những thuật toán tập hợp như

Random Forest, Gradient Boosters được phát triển bằng cách kết hợp các Decision

Tree cho ra kết quả tốt

{

| Sub-Tree + Decision Nod

Decision Node | on Node

| |

| Leaf Node LeafNode ¡ LeafNode DecisionNode

Leaf Node Leaf Node

Hình 2 Cấu trúc một cây quyết định (Decision Tree)

2.3.4 Random Forest

Random Forest (RF) là thuật toán học có giám sát, có thé giải quyết cả bàitoán hồi quy và phân loại Thuật toán RF được xây dựng bằng nhiều cây quyếtđịnh thông qua thuật toán Decision Tree, tuy nhiên mỗi cây quyết định sẽ khác

nhau (có yếu tố random) Sau đó kết quả dự đoán được tông hợp từ các cây quyết

11190649 — Lê Thị Ngọc Ánh 13

Trang 14

định Ở bước huấn luyện, nhiều cây quyết định được xây dựng, các cây quyết định

có thê khác nhau Sau đó ở bước dự đoán, đi từ trên xuống dưới ở tửng cây quyếtđịnh theo các nút điều kiện để được các dự đoán, sau đó kết quả cuối cùng đượctổng hợp lại từ kết quả của các cây quyết định

Trong thuật toán Decision Tree, khi xây dựng cây quyết định nếu dé độ sâutùy ý thì cây sẽ phân loại đúng hết các dữ liệu trong tập training dẫn đến mô hình

có thể dự đoán tệ trên tập validation/test, khi đó mô hình bị overfitting, hay nói

cách khác là mô hình có high variance.

Thuật toán Random Forest gồm nhiều cây quyết định, mỗi cây quyết địnhđều có những yếu tố ngẫu nhiên:

- Lay ngẫu nhiên dữ liệu dé xây dựng cây quyết định

- Lay ngẫu nhiên các thuộc tinh để xây dung cây quyết định

Do mỗi cây quyết định trong thuật toán Random Forest không dùng tất cả

dữ liệu training, cũng như không dùng tất cả các thuộc tính của đữ liệu để xây dựng

cây nên mỗi cây có thê sẽ dự đoán không tốt, khi đó mỗi mô hình cây quyết địnhkhông bi overfitting mà có thế bị underfitting, hay nói cách khác là mô hình có

high bias Tuy nhiên, kết quả cuối cùng của thuật toán Random Forest lại tổng hợp

từ nhiều cây quyết định, thé nên thông tin từ các cây sẽ bé sung thông tin cho nhau,

dân đên mô hình có low bias và low variance, hay mô hình có kêt quả dự đoán tôt.

Trong các cây phân loại (trong đó đầu ra được dự đoán bằng chế độ quansát trong các nút đầu cuối), quyết định phân tách dựa trên các phương pháp sau:

- Chỉ số Gini - Đó là thước đo độ tỉnh khiết của nút Nếu chỉ số Gini có

giá trị nhỏ hơn, điều đó cho thấy nút đó là nút thuần túy Để quá trìnhphân tách diễn ra, chỉ số Gini của nút con phải nhỏ hơn chỉ số Gini của

nút cha.

- Entropy - là thước đo độ tinh khiết của nút Đối với một lớp nhị phân

(a,b), công thức dé tính toán nó được hiền thị bên dưới Entropy cực đại

tại p = 0,5 Với p(X = a) = 0.5 hoặc p(X = b) = 0.5 nghĩa là, một

quan sát mới có 50%-50% cơ hội được phân loại vào một trong hai loại.

Entropy là tối thiểu khi xác suất là 0 hoặc 1

entropy = —p(a) x log(p(a)) — p() x log(p(b))

Trang 15

Ưu nhược điểm của RE:

Ưu điểm:

- _ Hiệu quả trong việc dự đoán tương quan

- _ Được sử dụng dé giải quyết ca van đề hồi quy và phân loại

- Có thể giải quyết các van đề ML không giám sát

- Có thé xử lý hàng nghìn biến đầu vào mà không cần chọn biến

- _ Xử lý dữ liệu bị thiếu trong nội bộ một cách hiệu quảNhược điểm:

- Rat khó dé diễn giải

- Có xu hướng trả về các dự đoán thất thường cho các quan sát nằm ngoài

phạm vi dữ liệu dao tạo

- C6 thể mat nhiều thời gian hơn dự kiến dé tính toán một số lượng lớn

cây

2.3.5 Gradient Boosting

Gradient Boosting là một kĩ thuật đồng bộ nhằm cố gắng tạo ra một phương

pháp phân loại mạnh từ một số phương pháp phân loại yếu Điều này được thực

hiện bằng cách xây dựng mô hình từ dữ liệu đào tạo, sau đó tạo ra một mô hìnhthứ hai có gắng sửa lỗi từ mô hình đầu tiên Các mô hình được thêm vào cho đến

khi tập đào tạo được dự đoán hoàn hảo hoặc thêm một số mô hình tối đa

Ưu điểm:

- _ Là một bộ phân loại học máy cực kỳ mạnh mẽ

- Chap nhận nhiều loại đầu vào giúp mô hình linh hoạt hơn

- C6 thé sử dụng cho cả hồi quy và phân loại

- _ Cung cap các tinh năng quan trong đôi với dau ra Nhược điêm:

- _ Mất nhiều thời gian đào tạo vì không thé thực hiện song song

- _ Nhiều khả năng overfitting vì bi ám ảnh bởi kết quả dau ra sai khi học

hỏi những sai lầm trong quá khứ

2.3.6 XGBoost

Thuật toán Extreme Gradient Boosting được phát triển bởi phó giáo sưTianqi Chen (2016) thuộc đại hoc Carnegie Mellon, Mỹ Cùng nằm trong nhóm

Trang 16

Ensemble Learning, nhưng thuật toán XGBoost sử dụng nguyên lý chính là

Boosting, hay cụ thé là Gradient Tree Boosting Ta sẽ coi toàn bộ mô hình là mộtmục tiêu tông hợp (regularized objective) gồm kết qua của nhiều hàm con cộng lai

dé dự đoán đầu ra, mỗi hàm con giống như một cây độc lập Các hàm con này thựcchất đều có cấu trúc là một hàm mắt mát 16i nhưng được sử dụng trên các bộ dữ

liệu con khác nhau Trong XGBoost, các bộ dữ liệu con được lay theo kỹ thuật

column (feature) subsampling Việc sử dụng các bộ mẫu con dạng này giúp tăng

tốc độ tính toán của các thuật toán song song ở các cây Việc tính toán regularizedobjective còn dựa trên các ham điểm (scoring function) cùng thuật toán tham lam(greedy algorithm) được thêm vào để tính trọng số cho các level trong cây và pháttriển thêm các nhánh của cây theo hướng làm giảm ham mat mát, từ đó tìm ra cầu

trúc cây tối ưu nhất Một tính năng quan trọng nữa ở XGBoost là sparsity-aware

split finding, nhận diện các giá trị bị mat trong các dữ liệu đầu vào và tìm hướng

đi tốt nhất từ những dữ liệu cũ dé xử lý những giá trị đó

XGBoost là phiên bản cải tiễn của Gradient Boosting (GBM) Ưu điểm vượt

trội của nó được chứng minh ở các khía cạnh:

- _ Tốc độ xử lý: XGBoost thực hiện tính toán song song nên tốc độ xử lý

có thể tăng gấp 10 lần so với GBM

- Overfitting: XGBoost áp dung cơ chế Regularization nên hạn chế đáng

hề hiện tượng Overfitting (GBM không có regularization).

- Su linh hoạt: XGBoost cho phép người dùng sử dụng hàm tối ưu và chi

tiêu đánh giá của riêng nó, không hạn chế ở những hàm cung cấp sẵn

- _ Xử lý missing value: XGBoost bao gồm cơ chế tự động xử lý missing

value bên trong nó, vì thế có thể bỏ qua bước này khi chuẩn bị dữ liệu

cho XGBoost

- Tu động cắt tỉa: tính năng tree pruning hỗ trợ việc tự động bỏ qua những

“lá”, “nút” không mang giá tri tích cực trong quá trình mở rộng “cây”.

Chính vì những ưu điểm đó mà hiệu năng của XGBoost tăng lên đáng kê so

với các thuật toán ensemble learning khác.

Trang 17

thử (test data) Cụ thé, gia su đầu ra của mô hình khi dau vào là tập kiểm thử được

mô tả bởi vector y_pred — là vector dự đoán đầu ra với mỗi phan tử là class được

dự đoán của một điểm đữ liệu trong tập kiểm thử Ta cần so sánh giữa vector dự

đoán y_pred này với vector class thật của dữ liệu, được mô ta bởi vecotr y_true.

Có rất nhiều cách đánh giá một mô hình phân loại Tùy vào những bài toán khác

nhau mà chúng ta sử dụng các phương pháp khác nhau Các phương pháp thường

được sử dụng 1a: accuracy, precision, recall, F1 score,

Accuracy đơn giản và hay được sử dụng nhất Cách đánh giá này đơn giảntính tỉ lệ giữa số điểm được dự đoán đúng và tông số điểm trong tập dit liệu kiếmthử Tuy nhiên accuracy chỉ cho chúng ta biết được bao nhiêu phần trăm đữ liệu

được phân loại đúng mà không chỉ ra được cụ thé mỗi loại được phân loại như thếnào, lớp nào được phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bịphân loại nhằm vào lớp khác Dé có thé đánh giá được các giá trị này, chúng ta sử

dụng một ma trận được gọi là Confusion matrix.

Confusion matrix

Actual Positive Actual Negative Predicted Positive True Positive (TP) False Positive (FP) Predict Negative False Negative (FN) True Negative (TN)

Trang 18

3 Dương tinh giả (FP) dé cap đến một mẫu thuộc loại âm tinh nhưng bị phân

loại sai là thuộc loại dương tính.

4 Am tính gia (FN) dé cap đến một mẫu thuộc loại dương tính nhưng bị phân

loại sai là thuộc loại âm tinh.

Confusion matrix là một ma trận vuông với kích thước mỗi chiều bằng sốlượng lớp dữ liệu Giá tri tại hang thứ i, cột thứ j là số lượng điểm lẽ ra thuộc vàoclass i nhưng lại được Về cơ bản, confusion matrix thé hiện có bao nhiêu điểm dữ

liệu /hc sự thuộc vào một class, và được dy dodn rơi vào một class Chúng ta có

thé suy ra ngay rằng tông các phan tử trong toàn ma trận này chính là số điểm trongtập kiểm thử Các phần tử trên đường chéo của ma trận là số điểm được phân loại

đúng của mỗi lớp dữ liệu Từ đây có thé suy ra accuracy chính bằng tổng các phần

tử trên đường chéo chia cho tông các phân tử toàn ma trận.

Với bài toán phân loại mà tập dữ liệu của các lớp là chênh lệch nhau rất

nhiều, có một phép hiệu quả thường được sử dụng là Precision — Recall Trong bài

toán phân loại nhị phân, coi một trong hai lớp là positive và lớp còn lại là negative.

Với cách xác định một lớp là positive, precision được định nghĩa là tỉ lệ số điểmtrue positive trong tông số những điểm được phân loại là positive (TP + FP) Recallđược định nghĩa là tỉ lệ số điểm true positive trong tong số những điểm thực sự là

positive (TP+FN) Precision cao đồng nghĩa với việc độ chính xác của các điểmtìm được là cao Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ

bỏ sót các điểm thực sự positive là thấp

Khi precision = 1, mọi điểm tìm được đều thực sự là positive, tức không cóđiểm negative nào lẫn vào kết quả Tuy nhiên, precision = 1 không đảm bao môhình là tốt, vì câu hỏi đặt ra là liệu mô hình đã tìm được rất cả các điểm positivehay chua Nếu một mô hình chi tìm được đúng một điểm positive mà nó chắc chắnnhất thì ta không thể gọi nó là một mô hình tốt Khi recall = 1, mọi điểm positiveđều được tìm thấy Tuy nhiên đại lượng này lại không đo liệu có bao nhiêu điểmnegative bị lẫn trong đó Nếu mô hình phân loại mọi điểm là positive thì chắc chắnrecall = 1, tuy nhiên dễ nhận ra đây là một mô hình cực tôi

Một mô hình phân lớp tốt là mô hình có cả precision va recall đều cao, tứccàng gần một càng tốt Có hai cách đo chất lượng của bộ phân lớp dựa vào

Precision va Recall: Precision-Recall curve và F-score.

Trang 19

Chương 3 DỮ LIỆU

TỎNG QUAN

Bộ dữ liệu Yêu câu bôi thường bảo hiém xe ô tô được công bô công khai

trên trang web https://www.kaggle.com/ bao gồm 17 cột va 10000 hàng, mỗi hàng

chứa thông tin của một khách hàng khác nhau.

Các cột bao gôm:

1. Age: tuổi của khách hàng, được chia thành 4 nhóm: 0 — 25 / 26 — 39/ 40

— 64/ 65+

2 Gender: giới tính chia thành 2 nhóm: male/ female

Race: chung tộc chia thành 2 nhóm: majority/ minority

4 Driving_experience: kinh nghiệm lái xe chia thành 4 nhóm: 0 — 9y/ 10

9.

~ 19y/ 20 — 29y/ 30y+

Education: học vấn được chia thành 3 nhóm: high school/ university/

none

Income: thu nhập chia thành 4 nhóm: poverty/ working class/ middle class/ upper class

._Credit_score: điểm tín dụng là biến liên tục

Vehicle_ownership: = 1 nêu có quyên sở hữu xe, = 0 nêu không có

quyền sở hữu xe

Vehicle_ year: chia thành 2 nhóm: before 2015/ after 2015

10 Married: = 0 nếu chưa kết hôn, = 1 nếu đã kết hôn

11 Children: = 0 nêu chưa có con, = | nêu đã có con

12 Annual_mileage: biến liên tục biểu thị số đặm/ năm

13 Vehicle_type: chia thành 2 nhóm: sedan/ sports car

14.Speeding_ violatlons: biến liên tục thé hiện số lần vi phạm vượt quá tốc

độ

15 Duis (driving under influence): số lần vi phạm lái xe trong tình trạng say

rượu, sử dụng chất kích thích16.Past_accidents: số lần xảy ra tai nạn trong quá khứ

17 Outcome: = 0 nếu khách hàng không yêu cầu bồi thường bảo hiểm, = 1

nêu khách hàng yêu câu bôi thường bảo hiêm

Trang 20

3.2 PHAN TÍCH, XỬ LÝ DU LIEU

3.2.1 Xử lý missing value

Trong quá trình xử lý, làm sạch dữ liệu, chúng ta sẽ thường gặp phải vấn đề

dữ liệu bị missing Có 3 loại missing value: MAR (missing at random — dữ liệu

khuyết ngẫu nhiên), MCAR (missing completely at random — đữ liệu khuyết hoàntoàn ngẫu nhiên) và MNAR (missing not at random — đữ liệu khuyết không ngẫu

nhiên).

MAR - sự mat mát dữ liệu là ngẫu nhiên, tuy nhiên vẫn có mối quan hệ hệthong giữa dữ liệu bi mat va dit liệu được quan sát MCAR — sự mat mát là hoàntoàn ngẫu nhiên, và không có bat kỳ một mối quan hệ hay sự liên quan nào giữa

dữ liệu và bat ki dit liệu nào, missing hoặc dữ liệu quan sát MNAR - sự mat mát

dữ liệu không phải là ngẫu nhiên mà có một mối quan hệ xu hướng giữa giá trị bị

missing và giá tri không bi missing trong một biên.

Về van đề tìm kiếm missing value trong dataset, chúng ta có thé thay có rat

nhiều kiểu dữ liệu missing xuất hiện: có thé là một chuỗi rỗng, có thé là NA, N/A,

Non, -1, 99 hoặc 999 Cách tốt nhất dé giải quyết missing value là bạn phải hiểu

rõ được data mình có: hiểu được cách dé liệu missing đang được biểu diễn, cáchdata được thu thập, dữ liệu bi missing thuộc trường nao,

Chúng ta có thể loại bỏ dữ liệu missing khi chúng ta nhận ra thiếu dữ liệu

hoàn toàn ngẫu nhiên (MCAR) Tuy nhiên với MAR và MNAR thì việc loại bỏ sẽ

làm ảnh hưởng đến độ chính xác của mô hình, tốt hơn hết chúng ta nên tìm cách

dé xử lý van dé này Nếu dữ liệu missing trong tập dữ liệu là MCAR và số lượngmissing value không nhiều, chúng ta sẽ xóa đi những giá trị missing đó Có rấtnhiều trường hợp xảy ra khi thiếu data, nếu trong trường hợp một biến có nhiềugiá trị bị thiếu và chúng ta có thê phán đoán rằng biến bị thiếu đó thật sự khôngquan trọng nếu không xuất hiện trong dữ liệu, thì chúng ta có thể xóa luôn biến đó

đi Thông thường, khi dữ liệu của một biến bị thiếu khoảng 60 — 70% thì chúng tanên xem xét đến việc loại bỏ hoàn toàn biến đó đi Với những feature có tính liêntục thì việc chúng ta thay thế những giá tri missing value bằng các giá trị -1, -99, -

999, sẽ giúp cho những mô hình cây như (RF — Random Forest) hoạt động tốthơn bởi khi thay thế bằng những giá trị ở trên thì các mô hình này có thể giải thích

cho việc thiếu dữ liệu thông qua việc encoding này Nhược điểm của nó là làmgiảm hiệu suất của mô hình tuyến tính sẽ bị ảnh hưởng

Trang 21

Ngoài ra, chúng ta có thé thay thế bang giá tri mean, median, mode, Vớibiến liên tục, ta có thê điền mean hoặc median và với biến categorical ta điền mode

Tuy nhiên phương pháp này nhanh nhưng lại làm giảm phương sai của dữ liệu.

Bên cạnh đó khi thực hiện cách này thì nó phù hợp với mô hình tuyến tính đơn

giản và NN Nhưng đối với những bài toán dựa trên tree thì có vẻ không phù hợp

lắm Một cách hiệu quả hơn là sử dụng mô hình dự đoán cho data impution Cóthé sử dụng K-NN, Linear — Regression dé dữ đoán các giá trị còn thiếu

Tổng kết lai, dé xử lý missing value ta có các cách phô biến sau đây:

- Loại bỏ các quan sát chứa giá trị bi missing

- Thay thế bằng một giá trị khác (trung bình, trung vị, mode hoặc một giá

trị cố định)

- _ Viết mô hình dé dự báo

- Loại bỏ biến khi tỷ lệ missing value quá lớn

0.00035 0.00030 0.00025

# 0.00020

a Fa

fa

0.00010 0.00005

không lớn nên bỏ qua phương án loại bỏ quan sát chứa missing value Tỷ lệ missing

value không quá lớn nên vẫn giữ lai các biến này Thay thé giá trị missing valuebằng trung bình từng biến vì các biến này có phân phối gần giống phân phối chuẩn

3.2.2 Tương quan giữa các biến

Hệ sô tương quan là một thước đo thông kê vê độ mạnh yêu của môi quan

hệ giữa các chuyên động tương đôi của hai biên Các giá trị năm trong khoảng từ

-1 đến 1 Tương quan -1 cho thấy mối tương quan âm tuyệt đối, trong khi mức

Trang 22

tương quan | cho thay mối tương quan dương tuyệt đối Tương quan 0 cho thấy

không có môi quan hệ tuyên tính giữa chuyên động của hai biên.

Có một số loại hệ số tương quan, nhưng loại phô biến nhất là hệ số tươngquan Pearson (R) Hệ số này chỉ ra độ mạnh và hướng của quan hệ tuyến tính giữahai biến Giá trị chính xác băng 1 có nghĩa là có một mối quan hệ đương tuyệt đốigiữa hai biến Đối với một biến số tăng dương, thì biến số thứ hai cũng tăng dương

Giá trị -1 có nghĩa là có một mối quan hệ âm tuyệt đối giữa hai biến Điều này chothay rang các biến chuyên động ngược chiều nhau — đối với một biến số tăng dươngthì biến số thứ hai sẽ giảm xuống Nếu mỗi tương quan giữa hai biến là 0 thì kết

luận không có mối quan hệ tuyến tính giữa chúng

Độ mạnh của mối quan hệ thay đổi theo mức độ dựa trên giá trị của hệ số

tương quan Ví dụ, giá trị 0.2 cho thấy có mối tương quan dương giữa hai biến,nhưng nó yếu và có thê không quan trọng Các nhà phân tích trong một số lĩnh vựcnghiên cứu không coi các mối tương quan là quan trọng cho đến khi giá trị vượt

qua ít nhất 0.8 Tuy nhiên, hệ số tương quan có giá trị tuyệt đối từ 0.9 trở lên sẽthé hiện một mối quan hệ rất chặt chẽ

100

aedit score A 03 027 021 00085 018 019 012 017 s31

vehicle ownership + 03 018 013 00043 0083 013 0087 012 038

married | 027 018 EI 029 0012 | O44 022 012 022 026 050 children + 021 013 023 | 001 | 043 022 a12 021 023

Hình 5 Tương quan tuyến tính giữa các biến

Hệ số tương quan tuyến tính giữa biến phụ thuộc với các biến độc lập đềuthấp cho thay không có mối liên hệ tuyến tính giữa các biến độc lập với biến phụ

thuộc Hệ số tương quan tuyến tính giữa các biến độc lập với nhau cũng thấp (trị

Trang 23

tuyệt đối nhỏ hơn 0.5) cho thấy khả năng xảy ra hiện tượng cộng tuyến/ đa cộng

tuyến rất thấp

3.2.3 Tần xuất khách hàng yêu cầu bảo hiểm

3500 3000

2500

Frequency 8 8 8

Qua đồ thị bên ta thay, nhóm

“poverty” có xu hướng yêu cầu

bôi thường bảo hiểm 6 tô hơn các

năng yêu câu bồi thường bảo hiém

ô tô hơn các nhóm tuôi khác.

200

Nhóm người có ít kinh nghiệm

lái xe (0-9y) có nhiều khả năng TM

yêu cầu bồi thường bảo hiểmô tô

hơn các nhóm khác, đây là điềudễ hiểu vì kinh nghiệm lái xe it '„Frequency

hơn sẽ dê gây ra tai nạn hơn so

với nhóm giàu kinh nghiệm lái “=

Biến mục tiêu gồm 10000 quan sát, trong đó có 6867 quan sát mang giá trị

0 — khách hàng không yêu cầu bồi thường bảo hiểm 6 tô (chiếm 68.67%) và 3133

Tiêu đề	Ứng Dụng Machine Learning Trong Dự Báo Khả Năng Khách Hàng Yêu Cầu Bồi Thường Bảo Hiểm Xe
Tác giả	Lờ Thị Ngọc Ánh
Người hướng dẫn	TS. Nguyễn Quang Huy
Trường học	Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành	Toán Kinh Tế
Thể loại	Chuyên Đề Thực Tập
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	47
Dung lượng	10,37 MB