Chúng tôi lựa chọn ra 7 biến độc lập để nghiên cứu sự tác động của chúng lênbiến Outcome, tương ứng lần lượt như sau: Biến Age: Độ tuổi của khách hàng Biến Gender: Giới tính của khách hà
Trang 1TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG VIỆN KINH TẾ VÀ KINH DOANH QUỐC TẾ
Trang 2DANH SÁCH THÀNH VIÊN NHÓM 8
STT Họ và tên Mã sinh viên Phần trăm đóng góp của các thành viên
Trang 3DANH MỤC HÌNH
Hình 1 Tìm dữ liệu thiếu bằng hàm COUNTBLANK 8
Hình 2 Tìm giá trị ngoại lai bằng hàm 10
Hình 3 Tìm giá trị ngoại lai bằng Box plot 11
Hình 4 Biểu đồ phân cụm dữ liệu 13
Hình 5 Đánh giá tệp khách hàng qua phân cụm dữ liệu 14
Hình 6 Đánh giá tệp khách hàng qua phân cụm dữ liệu 16
Hình 7 Mô hình nghiên cứu 18
Hình 8 Kiểm định giả thuyết bằng hệ số tương quan 18
Hình 9 Mô hình hồi quy đa biến 20
Hình 10 Kiểm định khuyết tật đa cộng tuyến 23
Hình 11 Kiểm định khuyết tật phương sai sai số thay đổi 24
DANH MỤC BẢNG BIỂU Bảng 1 Bảng quy đổi dữ liệu 9
Bảng 2 Bảng phân cụm dữ liệu 13
Bảng 3 Bảng các hệ số của mô hình 21
Bảng 4 Bảng các hệ số theo biến 21
Trang 4MỤC LỤC
LỜI MỞ ĐẦU 1
CHƯƠNG 1: MÔ TẢ VÀ XỬ LÝ DỮ LIỆU 2
1.1 Mô tả Tập dữ liệu 2
1.1.1 Tổng quan tập dữ liệu 2
1.1.2 Giải thích ý nghĩa các biến 2
1.2 Xử lý dữ liệu 2
1.2.1 Tìm các giá trị còn thiếu trong bộ dữ liệu 2
1.2.2 Chuyển đổi dữ liệu 3
1.2.3 Xử lý dữ liệu thiếu và loại bỏ outliers 4
CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ QUY LUẬT KẾT HỢP 6
2.1 Phân cụm dữ liệu với thuật toán K-means 6
2.2 Đánh giá tệp khách hàng 7
2.2.1 Trường hợp khách hàng có Income thuộc Poverty 7
2.2.2 Trường hợp khách hàng có Income thuộc Working class 8
2.2.3 Trường hợp khách hàng có Income thuộc Middle class 8
2.2.4 Trường hợp khách hàng có Income thuộc Upper class 8
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH NGHIÊN CỨU VÀ GIẢ THUYẾT NGHIÊN CỨU 9
3.1 Xây dựng mô hình nghiên cứu 9
3.2 Xây dựng giả thuyết nghiên cứu 9
3.2.1 Nhóm giả thuyết một 9
3.2.1 Nhóm giả thuyết hai 10
CHƯƠNG 4: SUY LUẬN THỐNG KÊ 11
4.1 Phân phối mẫu 11
4.2 Kiểm định giả thuyết nghiên cứu bằng hệ số tương quan 11
CHƯƠNG 5: PHÂN TÍCH MÔ HÌNH HỒI QUY TUYẾN TÍNH 13
5.1 Thiết kế mô hình hồi quy đa biến 13
5.2 Phân tích hệ số liên quan 14
Trang 55.2.1 Hệ số của toàn mô hình 14
5.2.2 Hệ số của từng biến 14
5.3 Mức ý nghĩa 15
5.4 Kiểm định mô hình 16
5.4.1 Khuyết tật đa cộng tuyến 16
5.4.2 Tự tương quan 17
5.4.3 Phương sai sai số thay đổi 17
CHƯƠNG 6: ĐÁNH GIÁ VÀ ĐỀ XUẤT 18
6.1 Đánh giá 18
6.2 Đề xuất 18
6.2.1 Gói bảo hiểm xe hơi cho nhóm khách hàng có xu hướng yêu cầu bảo hiểm18 6.2.2 Gói bảo hiểm xe hơi cho nhóm khách hàng không có xu hướng yêu cầu bảo hiểm 18
KẾT LUẬN 19
TÀI LIỆU THAM KHẢO 20
Trang 6LỜI MỞ ĐẦU
Từ những kiến thức đã được trang bị từ môn học và tệp dữ liệu được cung cấp
“Car Insurance Claim”, nhóm tác giả đã thực hành phân tích dữ liệu, khai thác nhữngthông tin hữu ích ẩn giấu trong các dữ liệu thô thu thập từ khách hàng trong của ty bảohiểm xe hơi để giúp người doanh nghiệp có hiểu biết tốt hơn về khách hàng, đồng thờigiúp nhà quản lý đưa ra quyết định tốt hơn dựa trên số liệu thực tế
Bước đầu, nhóm đã tiến hành xây dựng mô hình nghiên cứu và giả thuyếtnghiên cứu sơ bộ Qua nghiên cứu và tìm hiểu nhóm đã lựa chọn ra 7 biến đặc trưngbao gồm: Age, Gender, Driving Experience, Education, Income, Credit Score, PastAccident Sau đó, nhóm tiến hành phân tích, xử lý và làm sạch dữ liệu thô, phân cụm
dữ liệu để đưa ra những đánh giá về tệp khách khách hàng, hiểu rõ hơn về đặc điểmcủa các nhóm người lái xe và cách họ ảnh hưởng tới yêu cầu bồi thường tai nạn Từ đó,làm cơ sở cho giả thuyết của mô hình để tiến hành suy luận thống kê và phân tích môhình hồi quy tuyến tính, đưa ra kết luận giúp người bán hàng có được chân dung, đặcđiểm về tệp khách hàng tiềm năng thực sự Nhóm nghiên cứu giải thích lý do chọn biếnđưa vào mô hình như sau:
Education: trình độ giáo dục có thể liên quan đến sự hiểu biết và tính cẩn thậncủa người lái xe Những người có trình độ giáo dục cao thường có xu hướng tuân thủluật giao thông và lái xe cẩn thận hơn
Income: thu nhập có thể ảnh hưởng đến loại xe và cách sử dụng xe của ngườilái Những người có thu nhập cao hơn có thể mua các loại xe an toàn hơn điều này cóthể giảm nguy cơ rủi ro về tai nạn
Credit score: số điểm tín dụng thể hiện khả năng quản lý tài chính của họ Người
có điểm tín dụng cao có thể có xu hướng trách nhiệm hơn trong việc quản lý và sở hữu
xe, điều này có thể ảnh hưởng đến rủi ro và giá bảo hiểm
Gender: một số nghiên cứu đã chỉ ra sự khác biệt trong cách nam và nữ lái xe, ví
dụ như tần suất vi phạm luật giao thông và cách tiếp cận với rủi ro
Age và Driving Experience: tuổi tác ảnh hưởng đến kinh nghiệm lái xe, ngườitrẻ thường có ít năm kinh nghiệm lái xe hơn Năm kinh nghiệm lái xe là yếu tố quantrọng trong việc đánh giá khả năng lái xe an toàn hoặc số tai nạn từng xảy ra và rủi rovới các công ty bảo hiểm Người có nhiều năm lái xe sẽ gặp nhiều tai nạn trong quákhứ nhiều hơn những người mới lái xe
Trang 7CHƯƠNG 1: MÔ TẢ VÀ XỬ LÝ DỮ LIỆU
1.1 Mô tả Tập dữ liệu
1.1.1 Tổng quan tập dữ liệu
Tệp dữ liệu mô tả dữ liệu về bảo hiểm ô tô hàng năm của công ty Trong đó có
2776 quan sát tương ứng với 2776 khách hàng và có 18 biến giải thích cho các quansát
1.1.2 Giải thích ý nghĩa các biến
Nhóm tác giả lựa chọn biến Outcome là biến phụ thuộc để nghiên cứu BiếnOutcome nhận giá trị 1 nếu khách hàng đã yêu cầu khoản tiền bảo hiểm từ công ty
Chúng tôi lựa chọn ra 7 biến độc lập để nghiên cứu sự tác động của chúng lênbiến Outcome, tương ứng lần lượt như sau:
Biến Age: Độ tuổi của khách hàng
Biến Gender: Giới tính của khách hàng
Biến Driving Experience: Số năm kinh nghiệm lái xe của khách hàng
Biến Education: Trình độ học vấn của khách hàng
Biến Income: Mức thu nhập của khách hàng
Biến Credit Score: Điểm tín dụng của khách hàng
Biến Past Accident: Số tai nạn trong quá khứ của khách hàng
1.2 Xử lý dữ liệu
1.2.1 Tìm các giá trị còn thiếu trong bộ dữ liệu
Dữ liệu từ file Car_insurance_claim là dữ liệu không có tính pháp lý, vì vậynhóm có thể sử dụng các công cụ và thao tác làm sạch dữ liệu, cụ thể, nhóm nghiêncứu sử dụng hàm COUNTBLANK trong Excel để tìm các dữ liệu còn thiếu trong bộ
dữ liệu, kết quả thu được như sau:
Trang 8Hình 1 Tìm dữ liệu thiếu bằng hàm COUNTBLANK
Với kết quả trên, có thể thấy bộ dữ liệu với 2672 quan sát không có giá trị bị thiếu
1.2.2 Chuyển đổi dữ liệu
Với các biến có kết quả ở dạng dữ liệu chữ, nhóm nghiên cứu tiến hành chuyểnđổi các dữ liệu dạng chữ sang dữ liệu dạng số, đồng thời ký hiệu tên các biến cụ thể:
Tên biến trước đổi Giá trị trước đổi Giá trị sau đổi Tên biến sau đổi
Trang 9middle class 3
Trang 10Bảng 1 Bảng quy đổi dữ liệu 1.2.3 Xử lý dữ liệu thiếu và loại bỏ outliers
a) Sử dụng các hàm đếm ô trống, tính giá trị trung bình, độ lệch chuẩn, tìm giá trịnhỏ nhất và giá trị lớn nhất
Ngoài các biến Cre_Scr, Annual_ma, Spd_vio và Past_acc, các biến còn lạikhông có giá trị tham khảo trong việc sử dụng hàm để loại bỏ outliers, nhóm tác giảtạm ẩn các biến để việc lọc và tìm kiếm được thuận tiện hơn Sử dụng các hàmCOUNTBLANK, AVERAGE, STDEV.S, MIN và MAX, ta được kết quả sau:
Trang 11Hình 2 Tìm giá trị ngoại lai bằng hàm
Có thể kết luận, các giá trị ước lượng trên đều nằm trong khoảng cho phép, tức
là không có outliers nào được tìm thấy
b) Sử dụng z-scores
Sử dụng hàm STANDARDIZE trong Excel, nhóm nghiên cứu tìm được z-scorecủa các biến, cụ thể:
Biến Cre_scr: có 3 giá trị có z-scores lớn hơn 3 và nhỏ hơn -3
Biến Past_acc: có 40 giá trị có z-scores lớn hơn 3 và nhỏ hơn -3
Biến Annual_ma: có 5 giá trị có z-score lớn hơn 3 và nhỏ hơn -3
Biến Spd_vio: có 55 giá trị có z-score lớn hơn 3 và nhỏ hơn -3
Vậy, trong dataset có tổng hợp 103 giá trị ngoại lai (outliers) cần được loại bỏ.c) Sử dụng Box plot
Trang 12Hình 3 Tìm giá trị ngoại lai bằng Box plot
Với các biến Cre_scre và Annual_ma, sau khi loại bỏ outliers bằng z-scores,nhóm nghiên cứu không tìm thấy giá trị ngoại lai qua Box plot Với biến Spd_vio vàPas_acc, nhóm nghiên cứu cho rằng giá trị ngoại lai có phần lệch không quá lớn và sốlượng quan sát nhận giá trị đó tương đối nhiều nên giữ nguyên các giá trị trên
CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ QUY LUẬT KẾT HỢP
2.1 Phân cụm dữ liệu với thuật toán K-means
Sau bước xử lý và lọc dữ liệu nhóm thu được kết quả là bộ dữ liệu với 2570quan sát không có giá trị bị thiếu Sau khi hình thành cơ sở dữ liệu sửa đổi, nhóm ápdụng thuật toán K-means để phân cụm Thuộc tính chọn lọc trên cơ sở dữ liệu đã sửađổi
Bước 1: Chấp nhận số cluster để nhóm dữ liệu vào và tập dữ liệu được phâncụm thành giá trị đầu vào
Bước 2: Lựa chọn thuộc tính Inc và Past_acc để tiến hành phân cụm
Bước 3: Khởi tạo giá trị Cluster ngẫu nhiên: 0, 1
Bước 4: Lựa chọn trọng tâm bằng cách lấy giá trị trung bình của Cluster 0, 1 vớitừng thuộc tính Inc và Past_acc (Sử dụng hàm Averageif trong Excel) Bước 5: Sử dụng thước đo khoảng cách để đo khoảng cách từ các cụm tới trọngtâm
Trang 13Bước 6: So sánh điểm nào nhỏ hơn thì điểm đó sẽ gần với trọng tâm hơn.
Bước 7: Sau đó kiểm tra Cluster, bằng cách xét hồi quy (Converge), cho tới khiCoverge trả về đúng giá trị “TRUE” với 2570 quan sát
Bước 8: Quan sát thêm sai số trong mỗi cụm (SSE), SSE càng nhỏ thì tính chínhxác càng cao
Vậy, sau 3 lần kiểm tra Cluster cho được kết quả chính xác với 2570 quan sát Độchính xác đo được là khoảng 58,25%
Cluster 0 Cluster 1 Cluster 0 Centre Cluster 1 Centre
Hình 4 Biểu đồ phân cụm dữ liệu
A1 (1,3); A2 (1,4); A3 (1,5); A4 (1,6); A5 (2,2);
A6 (2,3); A7 (2,4); A8 (2,5); A9 (2,6); A10
(3,2); A11 (3,3); A12 (3,4); A13 (3,5); A14
(3,6); A15 (4,1); A16 (4,2); A17 (4,3); A18
(4,4); A19 (4,5); A20 (4,6)
B1 (1,0); B2 (1,1); B3 (1,2);B4 (2,0); B5 (2,1); B6 (3,0);B7 (3,1); B8 (4,0)
Trang 14Nếu khách hàng là tầng lớp nghèo khó và đã từng gặp tai nạn trong quá khứ thì tỷ lệkhách đòi bồi thường bảo hiểm là 36.47% và khả năng claim bảo hiểm của họ cao gấp1.16 lần so với khách hàng có mức thu nhập khác hay chưa từng bị tai nạn xe trong quákhứ.
2.2.2 Trường hợp khách hàng có Income thuộc Working class
Nếu khách hàng là tầng lớp lao động và không gặp tai nạn trong quá khứ thì tỷ
lệ khách đòi bồi thường bảo hiểm là 59.79% và khả năng claim bảo hiểm của nhómkhách hàng này cao gấp 1.90 lần so với khách hàng có mức thu nhập khác hay đã từng
bị tai nạn xe trong quá khứ
Nếu khách hàng là tầng lớp lao động và đã từng gặp tai nạn trong quá khứ thì tỷ
lệ khách đòi bồi thường bảo hiểm là 25.49% Nhưng nhóm khách hàng này có khảnăng claim bảo hiểm thấp hơn 0.81 lần so với khách hàng có mức thu nhập khác haychưa từng bị tai nạn xe trong quá khứ
Trang 152.2.3 Trường hợp khách hàng có Income thuộc Middle class
Nếu khách hàng là tầng lớp trung lưu và không gặp tai nạn trong quá khứ thì tỷ
lệ khách đòi bồi thường bảo hiểm là 39.67%, và khả năng claim bảo hiểm của nhómkhách hàng này cao gấp 1.26 lần so với khách hàng có mức thu nhập khác hay đã từng
bị tai nạn xe trong quá khứ
Nếu khách hàng là tầng lớp trung lưu và đã từng gặp tai nạn trong quá khứ thì tỷ
lệ khách đòi bồi thường bảo hiểm là 12.68% và khả năng claim bảo hiểm của nhómkhách hàng này thấp hơn 0.4 lần so với khách hàng có mức thu nhập khác hay chưatừng bị tai nạn xe trong quá khứ
2.2.4 Trường hợp khách hàng có Income thuộc Upper class
Nếu khách hàng là tầng lớp thượng lưu và không gặp tai nạn trong quá khứ thì
tỷ lệ khách đòi bồi thường bảo hiểm là 22.61% và khả năng claim bảo hiểm của nhómkhách hàng này thấp hơn 0.72 lần so với khách hàng có mức thu nhập khác hay đã từng
bị tai nạn xe trong quá khứ
Nếu khách hàng là tầng lớp trung lưu và đã từng gặp tai nạn trong quá khứ thì tỷ
lệ khách đòi bồi thường bảo hiểm là 6.08% nên khả năng claim bảo hiểm của nhómkhách hàng này rất thấp và thấp hơn 0.19 lần so với khách hàng có mức thu nhập kháchay đã từng bị tai nạn xe trong quá khứ, tức là có rất ít khả năng claim bảo hiểm
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH NGHIÊN CỨU VÀ GIẢ THUYẾT
NGHIÊN CỨU
3.1 Xây dựng mô hình nghiên cứu
Driving ExperienceAge
Income
Past Accident
Outcome
Trang 16Biến Outcome sẽ chịu tác động trực tiếp từ 2 biến: biến Credit Score và biếnPast Accident Vì thế, nhóm tác giả chia làm 2 nhóm giả thuyết
3.2 Xây dựng giả thuyết nghiên cứu
3.2.1 Nhóm giả thuyết một
Giả thuyết 1: Biến Education có mối quan hệ cùng chiều với biến Income
Những khách hàng có trình độ học vấn cao phần lớn sẽ có thu nhập ở mức caohơn
Giả thuyết 2: Biến Income có mối quan hệ cùng chiều với Biến Credit score
Những khách hàng có thu nhập cao đồng nghĩa với việc họ có điểm tín dụngcao
Giả thuyết 3: Credit score có mối quan hệ ngược chiều với Outcome
Những khách hàng có điểm tín dụng cao sẽ ít có khả năng đòi tiền bảo hiểmhơn
3.2.1 Nhóm giả thuyết hai
Giả thuyết 1: Biến Gender mối quan hệ ngược chiều đến biến Past Accident
Khách hàng nữ sẽ có số vụ tai nạn trong quá khứ ít hơn khách hàng nam
Giả thuyết 2: Biến Age có mối quan hệ cùng chiều với Driving experience
Khách hàng càng lớn tuổi sẽ càng có nhiều năm kinh nghiệm lái xe
Giả thuyết 3: Biến Driving experience có mối quan hệ ngược chiều với Past Accident
Khách hàng có nhiều năm kinh nghiệm lái xe sẽ có số lượng tai nạn trong quákhứ hơn những khách hàng có ít năm kinh nghiệm lái xe
Giả thuyết 4: Past accident có mối quan hệ cùng chiều với Outcome
Trang 17Những khách hàng nhiều tai nạn trong quá khứ hơn sẽ có nhiều khả năng đòitiền bảo hiểm hơn.
CHƯƠNG 4: SUY LUẬN THỐNG KÊ
4.1 Phân phối mẫu
Chart Edu
Hình 7 Biểu đồ phân phối mẫu
Lựa chọn hai thuộc tính là Drive_exp và Edu để tiến hành phân phối mẫu nhómthu được hai biểu đồ trên
Đối với biểu đồ Drive_exp, ta có thể thấy được yếu tố Drive_exp (2) có tần suấtlập lại nhiều nhất, còn lại với các yếu tố Drive_exp (1) (3) (4) sẽ có tần suất lập lại íthơn
Tương tự với biểu đồ Edu, yếu tố Edu (2) có tần suất lập lại nhiều nhất và ít lậplại hơn là yếu tố Edu (1) và (3)
Trang 184.2 Kiểm định giả thuyết nghiên cứu bằng hệ số tương quan
Hình 8 Kiểm định giả thuyết bằng hệ số tương quan
Dựa vào hàm Correl trong Excel, nhóm nghiên cứu kiểm tra hệ số tương quancủa các biến được nêu trong giả thuyết sơ bộ có kết quả như sau:
Nhóm giả thuyết 1 gồm ba giả thuyết đều có các hệ số tương quan của các biếntrùng với kỳ vọng của nhóm nghiên cứu
Nhóm giả thuyết 2 có giả thuyết 4: Past accident có mối quan hệ cùng chiều với Outcome có hệ số tương quan giữa biến Past_acc và Outcome là -0.29, tức là chúng
có quan hệ ngược chiều với nhau, không trùng với kỳ vọng của nhóm nghiên cứu Bagiả thuyết còn lại trong nhóm này đều có các hệ số tương quan của các biến trùng với
kỳ vọng của nhóm nghiên cứu
Trang 19CHƯƠNG 5: PHÂN TÍCH MÔ HÌNH HỒI QUY TUYẾN TÍNH
5.1 Thiết kế mô hình hồi quy đa biến
Mô hình hồi quy có dạng:
y=β0+β1x1+β2x2+…+β q x q+ε
Trong đó, y là biến phụ thuộc, β0 là hệ số hệ số chặn, β1, β2, … là các hệ số góc
Cụ thể, mô hình hồi quy đa biến:
Outcome = β0+ β1.Edu + β2Inc + β3.Cre_scr + β4.Age + β5.Drve_exp + β6.Gender + β7
.Past_acc
Chạy mô hình hồi quy đa biến bằng Regression>Data Analysis trong Excel,được kết quả như sau:
Hình 9 Mô hình hồi quy đa biến
Vậy, mô hình hồi quy mẫu cụ thể là:
Outcome = 0.97 + 0.03Edu – 0.11Inc – 0.016Cre_scr – 0.002Age – 0.145Drve_exp –0.122Gender – 0.02Past_acc
Trang 205.2 Phân tích hệ số liên quan
5.2.1 Hệ số của toàn mô hình
Từ mô hình hồi quy đa biến, ta thu được kết quả về các hệ số của mô hình cụ thểnhư sau:
5.2.2 Hệ số của từng biến
Hệ số hồi quy Sai số chuẩn t quan sát P-value Khoảng tin cậy
Hệ số