LỜI MỞ ĐẦU Trong bối cảnh biến động của ngành bảo hiểm, phân tích dữ liệu đã nổi lên như một công cụ quan trọng để các công ty có thể tối ưu hóa chiến lược, cải thiện các mô hình đánh gi
Tổng quan báo cáo
Mục tiêu báo cáo
Báo cáo nhằm mục tiêu nghiên cứu về các nhân tố ảnh hưởng đến hành vi yêu cầu bồi thường bảo hiểm ô tô của khách hàng Từ đó đưa ra những đề xuất xây dựng chiến lược kinh doanh giúp doanh nghiệp hoạt động hiệu quả hơn.
Phương pháp nghiên cứu
Nhóm thực hiện phân tích bộ dữ liệu trên Excel, kết hợp với ước lượng mô hình hồi quy bằng Stata và xây dựng mô hình phân loại logistic regression với học máy (machine learning) bằng Python.
Tổng quan bộ dữ liệu
Bộ dữ liệu ban đầu gồm có 18 cột và 2673 hàng chứa 2672 quan sát
Mỗi cột đại diện cho một thuộc tính hoặc hành vi của khách hàng được ghi chép lại sau quá trình sử dụng dịch vụ bảo hiểm của công ty, mỗi hàng thể hiện một quan sát ứng với một khách hàng cụ thể
Cột “OUTCOME” thể hiện khách hàng đã yêu cầu bồi thường khoản tiền bảo hiểm hay chưa với quy ước 1 có nghĩa là khách hàng đã yêu cầu, 0 tức là không yêu cầu
ID Mã số định danh của khách hàng
AGE Độ tuổi của khách hàng, bao gồm 4 nhóm tuổi: 16-25; 26-
GENDER Giới tính sinh học của khách hàng, bao gồm 2 nhóm giới tính: female (nữ) và male (nam)
RACE Chủng tộc của khách hàng, được chia làm 2 nhóm chủng tộc: majority (đa số) và minority (thiểu số)
Số năm kinh nghiệm lái xe của khách hàng, gồm có 4 nhóm: 0-9 năm, 10-19 năm, 20-29 năm và trên 30 năm
Trình độ học vấn của người lái xe, có 3 mức độ: university (đại học), high school (trung học phổ thông) và none (chưa tốt nghiệp phổ thông)
INCOME Mức thu nhập của khách hàng, được chia thành 4 loại: upper class (tầng lớp thượng lưu), middle class (tầng lớp trung lưu), working class (tầng lớp công nhân) và poverty (tầng lớp khó khăn)
SCORE Điểm tín dụng của khách hàng, biểu thị khả năng chi trả của một cá nhân, đóng vai trò quan trọng trong quyết định của người cho vay, có giá trị trong khoảng từ 0 đến 1
Trạng thái sở hữu phương tiện giao thông với quy ước 1 nếu khách hàng là chủ sở hữu của chiếc xe và ngược lại là 0 nếu họ không phải chủ sở hữu của chiếc xe
Mốc thời gian sản xuất phương tiện, được chia làm 2 mốc thời gian là trước năm 2015 và sau năm 2015
MARRIED Tình trạng hôn nhân của khách hàng với quy ước 1 là đã kết hôn và 0 là chưa kết hôn
MILEAGE Độ dài quãng đường di chuyển hàng năm, từ 2000 - 22000 (dặm)
CHILDREN Tình trạng con cái của khách hàng với quy ước 1 là đã có con và 0 là chưa có con
Mã số bưu điện, cho thấy khu vực sinh sống của khách hàng, với quy ước mã 10238 là Newyork, 21217 là Baltimore,
32765 là Oviedo, 92101 là San Diego
Kiểu dáng của phương tiện, bao gồm 2 phân loại là sedan và sports
Số lần mà người lái xe vi phạm tốc độ
Số vụ tai nạn giao thông trong quá khứ của người lái xe.
Tổng quan lý thuyết và xây dựng giả thuyết
Yếu tố con người
Các yếu tố con người có thể kể đến như độ tuổi, giới tính, thu nhập, trình độ học vấn, tình trạng hôn nhân, khu vực sinh sống
Một nghiên cứu do Yung-Ching Hsu cùng cộng sự (2014) thực hiện đã xem xét đặc điểm của hợp đồng bảo hiểm và người mua bảo hiểm ảnh hưởng như thế nào đến yêu cầu bồi thường bằng việc áp dụng mô hình logit hỗn hợp Kết quả cho thấy giới tính, độ tuổi của khách hàng và lịch sử yêu cầu bồi thường có tương quan với xác suất yêu cầu bồi thường bảo hiểm Vì vậy, phí bảo hiểm thường cao hơn đối với nam giới hoặc người trẻ tuổi hay người có lịch sử yêu cầu bồi thường nhiều Như vậy, có thể cho rằng những yếu tố con người như độ tuổi, giới tính và việc sở hữu loại xe khác nhau có ảnh hưởng đến lựa chọn tiêu dùng bảo hiểm của khách hàng
Một nghiên cứu khác của Spahr và Escolas (1979) quan sát thấy rằng tần suất tai nạn ở đô thị cao hơn ở vùng nông thôn Richaudeau (1999) chỉ ra rằng người mua bảo hiểm ở những vùng có mật độ dân số cao có xu hướng chọn những gói bảo hiểm với phạm vi lớn hơn Do đó, có thể cho rằng khu vực sinh sống là một yếu tố ảnh hưởng đến xác suất yêu cầu bồi thường bảo hiểm
Tình trạng hôn nhân có thể có ảnh hưởng đến quyết định yêu cầu bồi thường bảo hiểm Theo kết quả phân tích từ bộ dữ liệu ngành bảo hiểm ở Mỹ của Quadrant Information Services, trung bình những cặp đôi đã kết hôn phải trả ít tiền bảo hiểm hơn Nhóm đối tượng này được cho là có tài chính ổn định và lái xe an toàn hơn Dữ liệu cũng cho thấy những người đã kết hôn có tỷ lệ yêu cầu bồi thường ít hơn người độc thân Cũng trong phân tích này, trình độ học vấn và thu nhập được đề cập trong mối quan hệ với yêu cầu bồi thường bảo hiểm nhưng không được coi là yếu tố chính Điểm tín dụng là một chỉ số để đánh giá khả năng tài chính của cá nhân, được nhiều công ty bảo hiểm dùng để đưa ra các mức bảo hiểm khác nhau Hai nghiên cứu của đại học Texas (2003) và Federal Trade Commission (2007) ủng hộ quan điểm rằng có mối quan hệ giữa điểm tín dung của khách hàng và xác suất họ yêu cầu bồi thường Người có điểm tín dụng thấp có khả năng yêu cầu bồi thường cao hơn người có điểm tín dụng cao
Ngoài ra, rất ít nghiên cứu đề cập đến mối quan hệ giữa chủng tộc và khả năng yêu cầu bồi thường bảo hiểm
H 1 : Độ tuổi có ảnh hưởng ngược chiều đến xác suất yêu cầu bồi thường bảo hiểm
H 2 : Nam có xác suất yêu cầu bồi thường cao hơn nữ
H 3 : Trình độ học vấn có ảnh hưởng đến xác suất yêu cầu bồi thường bảo hiểm
H 4 : Thu nhập có ảnh hưởng đến xác suất yêu cầu bồi thường bảo hiểm
H 5 : Điểm tín dụng có ảnh hưởng đến xác suất yêu cầu bồi thường bảo hiểm
H 6 : Người đã kết hôn có xác suất yêu cầu bồi thường bảo hiểm thấp hơn người chưa kết hôn
H 7 : Người đã có con có xác suất yêu cầu bồi thường bảo hiểm thấp hơn người chưa có con
H 8 : Mã bưu điện hay khu vực sinh sống có ảnh hưởng đến xác suất yêu cầu bồi thường bảo hiểm
H 9 : Chủ sở hữu xe có xác suất yêu cầu bồi thường thấp hơn người không là chủ sở hữu.
Lịch sử lái xe
Rất nhiều nghiên cứu trước đây đã thảo luận về mối quan hệ giữa quãng đường đi được và sự liên quan đến tai nạn (Foldvary, 1975, Janke, 1991, Progressive Insurance,
2005, Lourens và cộng sự, 1999, Jovanis và Chang, 1986, Langford và cộng sự, 2008, Staplin và cộng sự, 2008) Người thường xuyên xảy ra tai nạn có xu hướng yêu cầu bồi thường bảo hiểm cao hơn Nghiên cứu của Yung-Ching Hsu cùng cộng sự (2016) xem xét mối quan hệ giữa việc mua bảo hiểm xe và tần suất tai nạn chỉ ra rằng người có lịch sử lái xe kém, đồng thời mua mức bảo hiểm cao có khả năng yêu cầu bồi thường cao hơn Chủ sỡ hữu xe cũng được cho là ít yêu cầu bồi thưởng hơn so với người không là chủ sở hữu xe
H 10 : Kinh nghiệm lái xe có ảnh hưởng ngược chiều đến xác suất yêu cầu bồi thường
H 11 : Quãng đường di chuyển hàng năm có ảnh hưởng cùng chiều với xác suất yêu cầu bồi thường bảo hiểm
H 12 : Số lần vi phạm tốc độ có ảnh hưởng cùng chiều với xác suất yêu cầu bồi thường bảo hiểm
H 13 : Số vụ tai nạn trong quá khứ có ảnh hưởng cùng chiều với xác suất yêu cầu bồi thường bảo hiểm.
Thông tin về xe
Cũng trong nghiên cứu của Richaudeau cho thấy xu hướng lựa chọn bảo hiểm với phạm vi và hạn mức cao hơn đối với những người sở hữu xe mới hoặc có số dặm đã đi cao hơn Ngoài ra, bài viết của Yung-Ching Hsu cùng cộng sự (2014) cho thấy người sở hữu xe mới (xe dưới 2 năm tuổi) và có giá trị thay thế cao thì có xu hướng mua bảo hiểm có giá trị cao hơn Tuy nhiên, các công ty bảo hiểm thường đặt mức giá bảo hiểm cao hơn đối với xe đời cũ, dẫn đến khả năng yêu cầu bồi thường cao hơn đối với người sở hữu xe cũ hơn Nghiên cứu của A B Bortoluzzo (2011) xác định các yếu tố ảnh hưởng đến quy mô và xác suất yêu cầu bồi thường bằng cả hai phương pháp Tweedie và ZAIG Các đặc điểm của xe như lãnh thổ, độ tuổi, xuất xứ và loại xe ảnh hưởng rõ ràng đến quy mô và xác suất yêu cầu bồi thường Điều này củng cố thêm giả thuyết rằng các thông tin về xe có thể ảnh hưởng đến quyết định yêu cầu bồi thường bảo hiểm
H 14 : Năm sản xuất xe có ảnh hưởng ngược chiều với xác suất yêu cầu bồi thường bảo hiểm
H 15 : Người đi xe thể thao có xác suất yêu cầu bồi thường bảo hiểm cao hơn người đi xe sedan.
Khung khái niệm
Phân tích dữ liệu
Tiền xử lý dữ liệu
Sử dụng hàm COUNTBLANK trong Excel để xác định dữ liệu bị thiếu
Bảng 2 Dữ liệu bị thiếu
Kết luận: Không có dữ liệu bị thiếu
• Đối với các biến định tính: không có dữ liệu ngoại lai
• Đối với các biến định lượng: Sử dụng Box - plot trong Excel
Hình 2 Biểu đồ Box-plot với các biến định lượng
Kết luận: Tuy nhận thấy một số giá trị bất thường nhưng do đặc điểm và hành vi của mỗi khách hàng là khác nhau nên chưa thể kết luận các giá trị này là sai
Sử dụng Table Design/ Remove Duplicates trong nhóm lệnh Tools trong Excel để xác định và xóa dữ liệu trùng lặp
Kết luận: Không có dữ liệu trùng lặp.
Phân tích mô tả
Bảng 3 Thống kê tần suất biến OUTCOME
Kết luận: Có 30,65% khách hàng có yêu cầu bồi thường bảo hiểm
Bảng 4 Thống kê mô tả biến định lượng
Hình 3 Thống kê mô tả biến định lượng
Dựa trên thống kê, Credit Score và Annual Mileage gần như tuân theo phân phối chuẩn Điểm tín dụng (Credit Score) có biên độ biến động lớn quanh giá trị trung bình là 0,515, từ min 0,095 đến max 0,961
Về số dặm đi hàng năm, có sự khác biệt rõ rệt về mức độ di chuyển hàng năm giữa các khách hàng: Số dặm đi mỗi năm lớn nhất là 22000, nhỏ nhất chỉ 2000, với giá trị trung bình là 11683,38 Đa số khách hàng đi 11000 dặm mỗi năm Đối với vi phạm tốc độ: số trường hợp vi phạm tốc độ trung bình khoảng 1,52 trong đó số lần vi phạm tốc độ cao nhất là 19 và 0 ở mức thấp nhất Có thể thấy phần lớn khách hàng của hãng bảo hiểm vi phạm tốc độ với số lần thấp (0-2 lần)
Xét về số vụ tai nạn trước đây, trung bình là 1,07 Trong đó số vụ tai nạn trước đó cao nhất là 15, và thấp nhất là 1 Nói chung, khách hàng của công ty bảo hiểm duy trì số vụ tai nạn trước đây tương đối thấp (0-2 vụ)
2.1.3 Biến định tính a Độ tuổi (Age)
Bảng 5 Thống kê mô tả biến AGE
Nhóm 26-39 và 40-64 chiếm đa số (32,07% và 30,28%), hai nhóm tuổi có tỉ lệ thấp hơn là 16-25 và 65+ (trẻ nhất và già nhất, 18,86% và 18,79%) Trong đó, tỷ lệ yêu cầu bảo hiểm giảm theo độ tuổi Nhóm tuổi 16-25 có số lượng yêu cầu bồi thường
(365) với tỷ lệ yêu cầu bồi thường cao nhất (70,63%) Điều này có thể là do người lái xe trẻ tuổi có xu hướng lái xe mạo hiểm hơn, ít kinh nghiệm lái xe hơn nên rủi ro cao hơn Còn người lái xe lớn tuổi thường có nhiều kinh nghiệm hơn và thói quen lái xe an toàn hơn b Giới tính (Gender)
Bảng 6 Thống kê mô tả biến GENDER
Phân phối giới tính khá cân bằng, với 49,78% nam và 50,22% nữ Nam giới có tỷ lệ yêu cầu bảo hiểm cao hơn nữ giới (36,69% so với 24,66%) Điều này có thể do nam giới có xu hướng lái xe nhiều hơn hoặc tham gia vào các hoạt động lái xe có rủi ro cao hơn c Chủng tộc (Race)
Bảng 7 Thống kê mô tả biến RACE
Nhóm đa số chiếm đến gần 90%, có sự phân hóa rõ rệt Nhóm đa số có tỷ lệ mua bảo hiểm cao hơn nhưng có tỷ lệ yêu cầu bồi thường thấp hơn nhóm thiểu số Sự khác biệt giữa nhóm đa số và thiểu số có thể liên quan đến các yếu tố văn hóa hoặc kinh tế, ảnh hưởng đến mức độ tiếp cận và sử dụng bảo hiểm d Trình độ học vấn (Education)
Bảng 8 Thống kê mô tả biến EDUCATION
Có thể thấy khách hàng của công ty bảo hiểm chủ yếu có trình học vấn đã tốt nghiệp đại học hoặc cấp 3 với 22,24% và 33,33% Nhóm chưa tốt nghiệp cấp 3 chỉ chiếm 18,86% nhưng lại có tỷ lệ yêu cầu bảo hiểm cao nhất (42,46%) Có thể do họ có thu nhập thấp hơn và không có khả năng chi trả cho các chi phí phát sinh từ tai nạn, hoặc họ có công việc và điều kiện sống khó khăn hơn, dẫn đến việc lái xe trong điều kiện không an toàn hơn e Thu nhập (Income)
Bảng 9 Thống kê mô tả biến INCOME Đa số khách hàng (43,71%) thuộc tầng lớp thượng lưu nhưng lại ít đưa ra yêu cầu bồi thường bảo hiểm nhất (12,93) Ngược lại nhóm tầng lớp khó khăn có số lượng mua bảo hiểm ít nhưng lại có tỷ lệ yêu cầu bảo hiểm cao nhất (63,69%) Điều này có thể giải thích bởi những người có thu nhập cao thường có khả năng chi trả cho những thiệt hại về xe hơn là những người có thu nhập thấp hơn Hoặc có thể suy luận rằng cá nhân ở tầng lớp khó khăn có thể sở hữu những chiếc xe cũ hơn, dẫn đến hư hỏng thường xuyên và có rủi ro tai nạn lớn hơn f Tình trạng hôn nhân (Married)
Bảng 10 Thống kê mô tả biến MARRIED
51,27% khách hàng đã kết hôn Những người chưa kết hôn có tỷ lệ yêu cầu bảo hiểm cao hơn 2,3 lần (43,55% so với 18,39%) Điều này đúng với giả định rằng người đã kết hôn có trách nhiệm hơn trong việc lái xe an toàn Ngoài ra, có thể do đã kết hôn nên gánh nặng tài chính được san sẻ nên họ có thể chi trả cho những thiệt hại nhỏ g Tình trạng con cái (Children)
Bảng 11 Thống kê mô tả biến CHILDREN Đa số khách hàng đã có con (69,01%) nhưng là nhóm có tỷ lệ yêu cầu bảo hiểm thấp hơn (23,92%) Có thể giải thích là hộ gia đình khi có con sẽ có trách nhiệm hơn khi lái xe và thường phần lớn những người đã có con sẽ ở độ tuổi lớn nên kinh nghiệm lái xe có thể nhiều hơn, dẫn đến ít tai nạn và ít hư hỏng xe hơn h Mã bưu điện (Postal Code)
Bảng 12 Thống kê mô tả biến POSTAL CODE
Khách hàng có mã bưu điện 10238 chiếm số lượng lớn nhất với 68,97% nhưng có tỷ lệ yêu cầu bồi thường thấp nhất với 25,66% Có thể lý giải điều này với bộ dữ liệu được thu thập tại Mỹ thì mã bưu điện 10238 thuộc New York, nơi tập trung đông dân cư với thu nhập trung bình khá cao Khách hàng có mã 92101 và 21217 chiếm thiểu số với 4,83% và 1,09% Đáng chú ý là mã 21217 có số lượng ít nhất nhưng 100% đều yêu cầu bổi thường Điều này có thể hiểu được bởi mã bưu điện 21217 thuộc Baltimore với thu nhập trung bình ở đây nhỏ hơn trung bình cả nước Mỹ i Kinh nghiệm lái xe (Driving Experience)
Bảng 13 Thống kê mô tả biến DRIVING EXPERIENCE
Hầu hết khách hàng mua bảo hiểm có kinh nghiệm lái xe nằm trong khoảng 0-19 năm với 68,46%, khách hàng có nhiều kinh nghiệm lái xe nhất (30+ năm) chỉ chiếm 9,96% Những người có kinh nghiệm lái xe từ 0-9 năm có tỷ lệ yêu cầu bồi thường cao nhất (67,28%), tỷ lệ này giảm dần khi kinh nghiệm lái xe tăng lên Có thể hiểu được khi người lái xe thiếu kinh nghiệm dễ mắc sai sót trên đường và khả năng xử lý tình huống kém dẫn đến xác suất tai nạn cao hơn j Loại xe (Vehicle Type)
Bảng 14 Thống kê mô tả biến VEHICLE TYPE
Khách hàng yêu thích sử dụng xe sedan hơn với 85,48%, chỉ 14,52% sử dụng xe thể thao Tuy nhiên, tỷ lệ quyết định yêu cầu bồi thường của 2 loại xe không có sự khác biệt lớn với 30,47% và 31,70% k Chủ sở hữu xe (Vehicle Ownership)
Bảng 15 Thống kê mô tả biến VEHICLE OWNERSHIP Đa số khách hàng (70,10%) là chủ sở hữu xe Tuy nhiên những người không sở hữu xe (0) có tỷ lệ yêu cầu bồi thường cao hơn (59,57%), có thể do họ lái xe thuê và không mong muốn chi trả phí sửa chữa cho những hư hỏng xe như là người chủ sở hữu xe Ngoài ra, chủ sở hữu xe có xu hướng lái xe cẩn thận và giữ gìn xe hơn l Năm sản xuất xe (Vehicle Year)
Bảng 16 Thống kê mô tả biến VEHICLE YEAR
Mô hình dự đoán phân loại Logistics Regression
Dựa trên nền tảng Python, xây dựng mô hình dự đoán phân loại khách hàng yêu cầu bồi thường và không yêu cầu bồi thường bảo hiểm Từ đó, dựa trên dữ liệu thu thập được trong tương lai gần để dự đoán khách hàng đưa ra yêu cầu bồi thường hay không bồi thường bảo hiểm Nhãn của các quan sát sẽ bao gồm “No Loan” (không yêu cầu bồi thường bảo hiểm) và “Claimed Loan” (yêu cầu bồi thường bảo hiểm) Kích thước của các tập dữ liệu như sau:
• Tập train: 2137 hồ sơ bao gồm 1483 hồ sơ No Loan và 654 hồ sơ Claimed Loan
Hình 6.Tạo tập train và training tập train
Hình 7 Xây dựng model Logistics Regression
Hình 8 Confusion Matrix Bảng 23 Kết quả dự báo trên tập test
• TP (True Positive): Tổng số trường hợp dự báo khớp Positive - mô hình dự đoán đúng một người không yêu cầu đòi bồi thường bảo hiểm
• TN (True Negative): Tổng số trường hợp dự báo khớp Negative - mô hình dự đoán đúng một người yêu cầu bồi thường bảo hiểm
• FP (False Positive): Tổng số trường hợp dự báo các quan sát thuộc nhãn Negative thành Positive - mô hình dự đoán một người không yêu cầu bồi thường bảo hiểm và người đó thực chất yêu cầu bồi thường
• FN (False Negative): Tổng số trường hợp dự báo các quan sát thuộc nhãn Positive thành Negative - mô hình dự đoán một người yêu cầu bồi thường bảo hiểm nhưng thực tế, người đó không yêu cầu bồi thường
Tiếp theo, để xác định độ chính xác của mô hình, chúng ta cần phải sử dụng các chỉ số (Accuracy, Precision, Recall, F1, ) để đánh giá mô hình phân loại trong Machine Learning
Khi xây dựng mô hình phân loại Logistics Regression, chúng ta sẽ muốn biết một cách khái quát tỷ lệ các trường hợp được dự báo đúng trên tổng số các trường hợp là bao nhiêu Tỷ lệ đó được gọi là độ chính xác Độ chính xác giúp ta đánh giá hiệu quả dự báo của mô hình trên một bộ dữ liệu Độ chính xác càng cao thì mô hình của chúng ta càng chuẩn xác. Độ chính xác của mô hình phân loại Logistics Regression là 81.3%.
Tuy nhiên, độ chính xác đo lường trên tất cả các nhãn chứ không quan tâm đến độ chính xác trên từng nhãn Do đó, nó không phù hợp để đánh giá những tác vụ mà tầm quan trọng của việc dự báo các nhãn không như nhau Hay nói cách khác, trong trường hợp phân loại khách hàng, chúng ta cần phát hiện đúng hồ sơ yêu cầu bồi thường bảo hiểm Khi đó, chúng ta sẽ quan tâm hơn tới độ chính xác được đo lường chỉ trên nhãn Claimed Loan hơn.
Precision sẽ cho chúng ta biết mức độ chuẩn xác của mô hình đối với các hồ sơ được dự báo của từng nhãn Precision càng cao thì mô hình Logistics Regression càng tốt trong việc dự đoán hồ sơ.
Như vậy, độ chính xác của mô hình trong việc dự đoán phân loại lớp 0 (No Loan) cao hơn lớp 1 (Claimed Loan) Do đó, công ty nên tập trung mở rộng tệp khách hàng, chăm sóc khách hàng tiềm năng.
Recall sẽ cho chúng ta biết mức độ chuẩn xác của mô hình đối với phân loại hồ sơ.
Recall cao cho cả lớp dương và lớp âm cho thấy mô hình có khả năng phân loại tốt các mẫu thuộc cả hai lớp Trong công ty bảo hiểm, việc dự đoán sai các hồ sơ Claimed Loan thành No Loan có thể khiến cho công ty tăng chi phí, rủi ro Việc bỏ sót các trường hợp Claimed Loan dẫn tới hậu quả nghiêm trọng Do đó, Recall lớp dương (Claimed Loan) cần được quan tâm Ở đây, hệ số Recall của lớp 1 tốt cho thấy khả năng phân loại hồ sơ Claimed Loan tốt.
F1 Score là trung bình điều hòa giữa Precision và Recall Đối với những trường hợp mà Precision và Recall quá chênh lệch thì F1 Score sẽ cân bằng được cả hai độ lớn này và giúp ta đưa ra một đánh giá khách quan hơn.
Hình 9 Tổng hợp chỉ số đánh giá mô hình
ROC là đường cong biểu diễn khả năng phân loại của một mô hình phân loại tại các ngưỡng threshold Đường cong này dựa trên hai chỉ số :
• TPR (True Positive Rate/ Recall/ Sensitivity): Là tỷ lệ các trường hợp phân loại đúng Positive trên tổng số các trường hợp thực tế là Positive Chỉ số này đánh giá mức độ dự báo chính xác của mô hình trên Positive Khi giá trị càng cao, mô hình dự báo càng tốt trên nhóm Positive
• FPR (False Positive Rate): Tỷ lệ dự báo sai các trường hợp thực tế là Negative thành Positive trên tổng số các trường hợp thực tế là Negative Một mô hình có FPR càng thấp thì mô hình càng chuẩn xác vì sai số của nó trên nhóm Negative càng thấp Phần bù của FPR là Specificity đo lường tỷ lệ dự báo đúng các trường hợp Negative trên tổng số các trường hợp thực tế là Negative
Hình 10 Xây dựng đường cong ROC - AUC b AUC
AUC là chỉ số được tính toán dựa trên đường cong ROC (Receiving Operating Curve) nhằm đánh giá khả năng phân loại của mô hình Phần diện tích gạch chéo nằm dưới đường cong ROC và trên trục hoành là AUC (Area Under Curve) có giá trị nằm trong khoảng [0, 1] Khi diện tích này càng lớn thì đường cong ROC có xu hướng tiệm cận đường thẳng y=1 và khả năng phân loại của mô hình càng tốt.
Như vậy, diện tích AUC là 0.906 do đó khả năng phân loại của mô hình tốt.
Kết quả và khuyến nghị
Kết quả
Từ kết quả phân tích ở trên, nhóm tác giả đã xác định được các yếu tố có ảnh hưởng đáng kể tới xác suất khách hàng yêu cầu bồi thường bảo hiểm trong bộ dữ liệu trên Cụ thể, các yếu tố này bao gồm: giới tính, số năm kinh nghiệm lái xe, năm sản xuất xe, mã bưu điện, quyền sở hữu, tình trạng hôn nhân, số dặm di chuyển hàng năm Trong đó, nhóm đối tượng gồm các đặc tính như: giới tính nam, kinh nghiệm lái xe từ 0-9 năm, mã bưu điện là 10238 (New York) hoặc 32765 (Oviedo), xe được sản xuất trước năm 2015, không sở hữu xe, chưa kết hôn và có số dặm di chuyển trong một năm cao thì có tỷ lệ yêu cầu bồi thường cao, được gán là nhóm khách hàng có rủi ro cao Đối với khách hàng có các đặc tính còn lại, chúng tôi gắn cho đây là nhóm khách hàng có tỷ lệ rủi ro thấp hơn, hay có thể gọi là nhóm khách hàng tiềm năng.
Khuyến nghị
2.1 Đối với nhóm khách hàng có rủi ro cao Đối với nhóm khách hàng có rủi ro cao, các công ty bảo hiểm ô tô có thể áp dụng một số khuyến nghị như sau: Đầu tiên, cần đánh giá độ tin cậy và tỷ lệ rủi ro của từng khách hàng thông qua việc thu thập thông tin lịch sử của khách hàng, từ đó phân loại ra các cấp độ rủi ro khác nhau theo tính chất
Tiếp đó, công ty cần xây dựng hợp đồng được cá nhân hoá với các điều khoản linh hoạt và hạn mức bồi thường phù hợp Các điều khoản nên bao gồm mô tả chi tiết về phạm vi sẽ được bảo hiểm và không được bảo hiểm, ví dụ như xe trộm cắp hoặc phá hoại có chủ đích sẽ không được bảo hiểm Về mức phí bảo hiểm, doanh nghiệp cần định giá cho nhóm đối tượng này cao hơn so với các đối tượng khác để đủ bù đắp cho rủi ro trong tương lai Rủi ro cao thường đi kèm với mức phí bảo hiểm cao hơn Điều khoản hợp đồng cũng nên mô tả rõ cách thức hủy bỏ hợp đồng, các quyền lợi và trách nghiệm khi hợp đồng bị huỷ bỏ Các điều khoản cũng cần quy định trách nghiệm của cả 2 bên, có thể bao gồm việc khách hàng cần tuân thủ một số biện pháp an toàn công ty đưa ra (ví dụ yêu cầu có bình cứu hoả trên xe) hoặc công ty phải tiến hành đánh giá các rủi ro định kỳ
Ngoài ra, cần đặt trải nghiệm khách hàng lên hàng đầu và khâu tư vấn hỗ trợ khách hàng là vô cùng quan trọng Cần đào tạo các tư vấn viên được đào tạo chuyên sâu về các sản phẩm của công ty, đồng thời là cả kiến thức về quy định pháp lý liên quan để có thể giải đáp thắc mắc và đưa ra giải pháp tối ưu cho khách hàng Đây được coi là khâu quan trọng vì trong trường hợp khách hàng chưa thực hiểu rõ về các điều khoản dẫn tới không được bảo hiểm có thể gây ra khủng hoảng truyền thông cho công ty
2.2 Đối với nhóm khách hàng có rủi ro thấp Đối với phân khúc khách hàng tiềm năng (rủi ro thấp hơn), nhóm này thường có xu hướng ít quan tâm hoặc chưa có nhu cầu mua các sản phẩm bảo hiểm xe cao Vì vậy, các công ty bảo hiểm có thể tham khảo một số khuyến nghị sau:
Trước hết, cần tạo nhận thức về lợi ích của bảo hiểm xe, thông qua đó khách hàng có thể nhận ra giá trị thực của bảo hiểm và có động lực mua Với nhóm này, cần đề xuất các gói bảo hiểm phù hợp có mức phí thấp hơn và phạm vi bảo vệ cũng thấp hơn phù hợp với nhu cầu của họ Việc lắng nghe và trung thực khi tư vấn sẽ tạo sự tin tưởng và duy trì mối quan hệ lâu dài đối với khách hàng
Ngoài ra, nên sử dụng các kênh tiếp thị hiệu quả như mạng xã hội, báo chí, để tiếp cận thêm các khách hàng tiềm năng Các chiến dịch quảng cáo này có thể là: tạo video quảng cáo trên các nền tảng như tiktok, truyền thông về các sự kiện tri ân và giới thiệu các sản phẩm mới của công ty, Tận dụng các công cụ trực tuyến như website, ứng dụng di động để tạo sự thuận tiện cho khách hàng khi tìm hiểu và mua bảo hiểm.