Báo cáo cuối kỳ môn học phân tích dữ liệu kinh doanh báo cáo phân tích dữ liệu của doanh nghiệp bảo hiểm Ô tô

Chúng tôi lựa chọn ra 7 biến độc lập để nghiên cứu sự tác động của chúng lênbiến Outcome, tương ứng lần lượt như sau: Biến Age: Độ tuổi của khách hàng Biến Gender: Giới tính của khách hà

Trang 1

TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG VIỆN KINH TẾ VÀ KINH DOANH QUỐC TẾ

Trang 2

DANH SÁCH THÀNH VIÊN NHÓM 8

STT Họ và tên Mã sinh viên Phần trăm đóng góp của các thành viên

Trang 3

DANH MỤC HÌNH

Hình 1 Tìm dữ liệu thiếu bằng hàm COUNTBLANK 8

Hình 2 Tìm giá trị ngoại lai bằng hàm 10

Hình 3 Tìm giá trị ngoại lai bằng Box plot 11

Hình 4 Biểu đồ phân cụm dữ liệu 13

Hình 5 Đánh giá tệp khách hàng qua phân cụm dữ liệu 14

Hình 6 Đánh giá tệp khách hàng qua phân cụm dữ liệu 16

Hình 7 Mô hình nghiên cứu 18

Hình 8 Kiểm định giả thuyết bằng hệ số tương quan 18

Hình 9 Mô hình hồi quy đa biến 20

Hình 10 Kiểm định khuyết tật đa cộng tuyến 23

Hình 11 Kiểm định khuyết tật phương sai sai số thay đổi 24

DANH MỤC BẢNG BIỂU Bảng 1 Bảng quy đổi dữ liệu 9

Bảng 2 Bảng phân cụm dữ liệu 13

Bảng 3 Bảng các hệ số của mô hình 21

Bảng 4 Bảng các hệ số theo biến 21

Trang 4

MỤC LỤC

LỜI MỞ ĐẦU 1

CHƯƠNG 1: MÔ TẢ VÀ XỬ LÝ DỮ LIỆU 2

1.1 Mô tả Tập dữ liệu 2

1.1.1 Tổng quan tập dữ liệu 2

1.1.2 Giải thích ý nghĩa các biến 2

1.2 Xử lý dữ liệu 2

1.2.1 Tìm các giá trị còn thiếu trong bộ dữ liệu 2

1.2.2 Chuyển đổi dữ liệu 3

1.2.3 Xử lý dữ liệu thiếu và loại bỏ outliers 4

CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ QUY LUẬT KẾT HỢP 6

2.1 Phân cụm dữ liệu với thuật toán K-means 6

2.2 Đánh giá tệp khách hàng 7

2.2.1 Trường hợp khách hàng có Income thuộc Poverty 7

2.2.2 Trường hợp khách hàng có Income thuộc Working class 8

2.2.3 Trường hợp khách hàng có Income thuộc Middle class 8

2.2.4 Trường hợp khách hàng có Income thuộc Upper class 8

CHƯƠNG 3: XÂY DỰNG MÔ HÌNH NGHIÊN CỨU VÀ GIẢ THUYẾT NGHIÊN CỨU 9

3.1 Xây dựng mô hình nghiên cứu 9

3.2 Xây dựng giả thuyết nghiên cứu 9

3.2.1 Nhóm giả thuyết một 9

3.2.1 Nhóm giả thuyết hai 10

CHƯƠNG 4: SUY LUẬN THỐNG KÊ 11

4.1 Phân phối mẫu 11

4.2 Kiểm định giả thuyết nghiên cứu bằng hệ số tương quan 11

CHƯƠNG 5: PHÂN TÍCH MÔ HÌNH HỒI QUY TUYẾN TÍNH 13

5.1 Thiết kế mô hình hồi quy đa biến 13

5.2 Phân tích hệ số liên quan 14

Trang 5

5.2.1 Hệ số của toàn mô hình 14

5.2.2 Hệ số của từng biến 14

5.3 Mức ý nghĩa 15

5.4 Kiểm định mô hình 16

5.4.1 Khuyết tật đa cộng tuyến 16

5.4.2 Tự tương quan 17

5.4.3 Phương sai sai số thay đổi 17

CHƯƠNG 6: ĐÁNH GIÁ VÀ ĐỀ XUẤT 18

6.1 Đánh giá 18

6.2 Đề xuất 18

6.2.1 Gói bảo hiểm xe hơi cho nhóm khách hàng có xu hướng yêu cầu bảo hiểm18 6.2.2 Gói bảo hiểm xe hơi cho nhóm khách hàng không có xu hướng yêu cầu bảo hiểm 18

KẾT LUẬN 19

TÀI LIỆU THAM KHẢO 20

Trang 6

LỜI MỞ ĐẦU

Từ những kiến thức đã được trang bị từ môn học và tệp dữ liệu được cung cấp

“Car Insurance Claim”, nhóm tác giả đã thực hành phân tích dữ liệu, khai thác nhữngthông tin hữu ích ẩn giấu trong các dữ liệu thô thu thập từ khách hàng trong của ty bảohiểm xe hơi để giúp người doanh nghiệp có hiểu biết tốt hơn về khách hàng, đồng thờigiúp nhà quản lý đưa ra quyết định tốt hơn dựa trên số liệu thực tế

Bước đầu, nhóm đã tiến hành xây dựng mô hình nghiên cứu và giả thuyếtnghiên cứu sơ bộ Qua nghiên cứu và tìm hiểu nhóm đã lựa chọn ra 7 biến đặc trưngbao gồm: Age, Gender, Driving Experience, Education, Income, Credit Score, PastAccident Sau đó, nhóm tiến hành phân tích, xử lý và làm sạch dữ liệu thô, phân cụm

dữ liệu để đưa ra những đánh giá về tệp khách khách hàng, hiểu rõ hơn về đặc điểmcủa các nhóm người lái xe và cách họ ảnh hưởng tới yêu cầu bồi thường tai nạn Từ đó,làm cơ sở cho giả thuyết của mô hình để tiến hành suy luận thống kê và phân tích môhình hồi quy tuyến tính, đưa ra kết luận giúp người bán hàng có được chân dung, đặcđiểm về tệp khách hàng tiềm năng thực sự Nhóm nghiên cứu giải thích lý do chọn biếnđưa vào mô hình như sau:

Education: trình độ giáo dục có thể liên quan đến sự hiểu biết và tính cẩn thậncủa người lái xe Những người có trình độ giáo dục cao thường có xu hướng tuân thủluật giao thông và lái xe cẩn thận hơn

Income: thu nhập có thể ảnh hưởng đến loại xe và cách sử dụng xe của ngườilái Những người có thu nhập cao hơn có thể mua các loại xe an toàn hơn điều này cóthể giảm nguy cơ rủi ro về tai nạn

Credit score: số điểm tín dụng thể hiện khả năng quản lý tài chính của họ Người

có điểm tín dụng cao có thể có xu hướng trách nhiệm hơn trong việc quản lý và sở hữu

xe, điều này có thể ảnh hưởng đến rủi ro và giá bảo hiểm

Gender: một số nghiên cứu đã chỉ ra sự khác biệt trong cách nam và nữ lái xe, ví

dụ như tần suất vi phạm luật giao thông và cách tiếp cận với rủi ro

Age và Driving Experience: tuổi tác ảnh hưởng đến kinh nghiệm lái xe, ngườitrẻ thường có ít năm kinh nghiệm lái xe hơn Năm kinh nghiệm lái xe là yếu tố quantrọng trong việc đánh giá khả năng lái xe an toàn hoặc số tai nạn từng xảy ra và rủi rovới các công ty bảo hiểm Người có nhiều năm lái xe sẽ gặp nhiều tai nạn trong quákhứ nhiều hơn những người mới lái xe

Trang 7

CHƯƠNG 1: MÔ TẢ VÀ XỬ LÝ DỮ LIỆU

1.1 Mô tả Tập dữ liệu

1.1.1 Tổng quan tập dữ liệu

Tệp dữ liệu mô tả dữ liệu về bảo hiểm ô tô hàng năm của công ty Trong đó có

2776 quan sát tương ứng với 2776 khách hàng và có 18 biến giải thích cho các quansát

1.1.2 Giải thích ý nghĩa các biến

Nhóm tác giả lựa chọn biến Outcome là biến phụ thuộc để nghiên cứu BiếnOutcome nhận giá trị 1 nếu khách hàng đã yêu cầu khoản tiền bảo hiểm từ công ty

Chúng tôi lựa chọn ra 7 biến độc lập để nghiên cứu sự tác động của chúng lênbiến Outcome, tương ứng lần lượt như sau:

Biến Age: Độ tuổi của khách hàng

Biến Gender: Giới tính của khách hàng

Biến Driving Experience: Số năm kinh nghiệm lái xe của khách hàng

Biến Education: Trình độ học vấn của khách hàng

Biến Income: Mức thu nhập của khách hàng

Biến Credit Score: Điểm tín dụng của khách hàng

Biến Past Accident: Số tai nạn trong quá khứ của khách hàng

1.2 Xử lý dữ liệu

1.2.1 Tìm các giá trị còn thiếu trong bộ dữ liệu

Dữ liệu từ file Car_insurance_claim là dữ liệu không có tính pháp lý, vì vậynhóm có thể sử dụng các công cụ và thao tác làm sạch dữ liệu, cụ thể, nhóm nghiêncứu sử dụng hàm COUNTBLANK trong Excel để tìm các dữ liệu còn thiếu trong bộ

dữ liệu, kết quả thu được như sau:

Trang 8

Hình 1 Tìm dữ liệu thiếu bằng hàm COUNTBLANK

Với kết quả trên, có thể thấy bộ dữ liệu với 2672 quan sát không có giá trị bị thiếu

1.2.2 Chuyển đổi dữ liệu

Với các biến có kết quả ở dạng dữ liệu chữ, nhóm nghiên cứu tiến hành chuyểnđổi các dữ liệu dạng chữ sang dữ liệu dạng số, đồng thời ký hiệu tên các biến cụ thể:

Tên biến trước đổi Giá trị trước đổi Giá trị sau đổi Tên biến sau đổi

Trang 9

middle class 3

Trang 10

Bảng 1 Bảng quy đổi dữ liệu 1.2.3 Xử lý dữ liệu thiếu và loại bỏ outliers

a) Sử dụng các hàm đếm ô trống, tính giá trị trung bình, độ lệch chuẩn, tìm giá trịnhỏ nhất và giá trị lớn nhất

Ngoài các biến Cre_Scr, Annual_ma, Spd_vio và Past_acc, các biến còn lạikhông có giá trị tham khảo trong việc sử dụng hàm để loại bỏ outliers, nhóm tác giảtạm ẩn các biến để việc lọc và tìm kiếm được thuận tiện hơn Sử dụng các hàmCOUNTBLANK, AVERAGE, STDEV.S, MIN và MAX, ta được kết quả sau:

Trang 11

Hình 2 Tìm giá trị ngoại lai bằng hàm

Có thể kết luận, các giá trị ước lượng trên đều nằm trong khoảng cho phép, tức

là không có outliers nào được tìm thấy

b) Sử dụng z-scores

Sử dụng hàm STANDARDIZE trong Excel, nhóm nghiên cứu tìm được z-scorecủa các biến, cụ thể:

Biến Cre_scr: có 3 giá trị có z-scores lớn hơn 3 và nhỏ hơn -3

Biến Past_acc: có 40 giá trị có z-scores lớn hơn 3 và nhỏ hơn -3

Biến Annual_ma: có 5 giá trị có z-score lớn hơn 3 và nhỏ hơn -3

Biến Spd_vio: có 55 giá trị có z-score lớn hơn 3 và nhỏ hơn -3

Vậy, trong dataset có tổng hợp 103 giá trị ngoại lai (outliers) cần được loại bỏ.c) Sử dụng Box plot

Trang 12

Hình 3 Tìm giá trị ngoại lai bằng Box plot

Với các biến Cre_scre và Annual_ma, sau khi loại bỏ outliers bằng z-scores,nhóm nghiên cứu không tìm thấy giá trị ngoại lai qua Box plot Với biến Spd_vio vàPas_acc, nhóm nghiên cứu cho rằng giá trị ngoại lai có phần lệch không quá lớn và sốlượng quan sát nhận giá trị đó tương đối nhiều nên giữ nguyên các giá trị trên

CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ QUY LUẬT KẾT HỢP

2.1 Phân cụm dữ liệu với thuật toán K-means

Sau bước xử lý và lọc dữ liệu nhóm thu được kết quả là bộ dữ liệu với 2570quan sát không có giá trị bị thiếu Sau khi hình thành cơ sở dữ liệu sửa đổi, nhóm ápdụng thuật toán K-means để phân cụm Thuộc tính chọn lọc trên cơ sở dữ liệu đã sửađổi

Bước 1: Chấp nhận số cluster để nhóm dữ liệu vào và tập dữ liệu được phâncụm thành giá trị đầu vào

Bước 2: Lựa chọn thuộc tính Inc và Past_acc để tiến hành phân cụm

Bước 3: Khởi tạo giá trị Cluster ngẫu nhiên: 0, 1

Bước 4: Lựa chọn trọng tâm bằng cách lấy giá trị trung bình của Cluster 0, 1 vớitừng thuộc tính Inc và Past_acc (Sử dụng hàm Averageif trong Excel) Bước 5: Sử dụng thước đo khoảng cách để đo khoảng cách từ các cụm tới trọngtâm

Trang 13

Bước 6: So sánh điểm nào nhỏ hơn thì điểm đó sẽ gần với trọng tâm hơn.

Bước 7: Sau đó kiểm tra Cluster, bằng cách xét hồi quy (Converge), cho tới khiCoverge trả về đúng giá trị “TRUE” với 2570 quan sát

Bước 8: Quan sát thêm sai số trong mỗi cụm (SSE), SSE càng nhỏ thì tính chínhxác càng cao

Vậy, sau 3 lần kiểm tra Cluster cho được kết quả chính xác với 2570 quan sát Độchính xác đo được là khoảng 58,25%

Cluster 0 Cluster 1 Cluster 0 Centre Cluster 1 Centre

Hình 4 Biểu đồ phân cụm dữ liệu

A1 (1,3); A2 (1,4); A3 (1,5); A4 (1,6); A5 (2,2);

A6 (2,3); A7 (2,4); A8 (2,5); A9 (2,6); A10

(3,2); A11 (3,3); A12 (3,4); A13 (3,5); A14

(3,6); A15 (4,1); A16 (4,2); A17 (4,3); A18

(4,4); A19 (4,5); A20 (4,6)

B1 (1,0); B2 (1,1); B3 (1,2);B4 (2,0); B5 (2,1); B6 (3,0);B7 (3,1); B8 (4,0)

Trang 14

Nếu khách hàng là tầng lớp nghèo khó và đã từng gặp tai nạn trong quá khứ thì tỷ lệkhách đòi bồi thường bảo hiểm là 36.47% và khả năng claim bảo hiểm của họ cao gấp1.16 lần so với khách hàng có mức thu nhập khác hay chưa từng bị tai nạn xe trong quákhứ.

2.2.2 Trường hợp khách hàng có Income thuộc Working class

Nếu khách hàng là tầng lớp lao động và không gặp tai nạn trong quá khứ thì tỷ

lệ khách đòi bồi thường bảo hiểm là 59.79% và khả năng claim bảo hiểm của nhómkhách hàng này cao gấp 1.90 lần so với khách hàng có mức thu nhập khác hay đã từng

bị tai nạn xe trong quá khứ

Nếu khách hàng là tầng lớp lao động và đã từng gặp tai nạn trong quá khứ thì tỷ

lệ khách đòi bồi thường bảo hiểm là 25.49% Nhưng nhóm khách hàng này có khảnăng claim bảo hiểm thấp hơn 0.81 lần so với khách hàng có mức thu nhập khác haychưa từng bị tai nạn xe trong quá khứ

Trang 15

2.2.3 Trường hợp khách hàng có Income thuộc Middle class

Nếu khách hàng là tầng lớp trung lưu và không gặp tai nạn trong quá khứ thì tỷ

lệ khách đòi bồi thường bảo hiểm là 39.67%, và khả năng claim bảo hiểm của nhómkhách hàng này cao gấp 1.26 lần so với khách hàng có mức thu nhập khác hay đã từng

Nếu khách hàng là tầng lớp trung lưu và đã từng gặp tai nạn trong quá khứ thì tỷ

lệ khách đòi bồi thường bảo hiểm là 12.68% và khả năng claim bảo hiểm của nhómkhách hàng này thấp hơn 0.4 lần so với khách hàng có mức thu nhập khác hay chưatừng bị tai nạn xe trong quá khứ

2.2.4 Trường hợp khách hàng có Income thuộc Upper class

Nếu khách hàng là tầng lớp thượng lưu và không gặp tai nạn trong quá khứ thì

tỷ lệ khách đòi bồi thường bảo hiểm là 22.61% và khả năng claim bảo hiểm của nhómkhách hàng này thấp hơn 0.72 lần so với khách hàng có mức thu nhập khác hay đã từng

Nếu khách hàng là tầng lớp trung lưu và đã từng gặp tai nạn trong quá khứ thì tỷ

lệ khách đòi bồi thường bảo hiểm là 6.08% nên khả năng claim bảo hiểm của nhómkhách hàng này rất thấp và thấp hơn 0.19 lần so với khách hàng có mức thu nhập kháchay đã từng bị tai nạn xe trong quá khứ, tức là có rất ít khả năng claim bảo hiểm

CHƯƠNG 3: XÂY DỰNG MÔ HÌNH NGHIÊN CỨU VÀ GIẢ THUYẾT

NGHIÊN CỨU

3.1 Xây dựng mô hình nghiên cứu

Driving ExperienceAge

Income

Past Accident

Outcome

Trang 16

Biến Outcome sẽ chịu tác động trực tiếp từ 2 biến: biến Credit Score và biếnPast Accident Vì thế, nhóm tác giả chia làm 2 nhóm giả thuyết

3.2 Xây dựng giả thuyết nghiên cứu

3.2.1 Nhóm giả thuyết một

Giả thuyết 1: Biến Education có mối quan hệ cùng chiều với biến Income

Những khách hàng có trình độ học vấn cao phần lớn sẽ có thu nhập ở mức caohơn

Giả thuyết 2: Biến Income có mối quan hệ cùng chiều với Biến Credit score

Những khách hàng có thu nhập cao đồng nghĩa với việc họ có điểm tín dụngcao

Giả thuyết 3: Credit score có mối quan hệ ngược chiều với Outcome

Những khách hàng có điểm tín dụng cao sẽ ít có khả năng đòi tiền bảo hiểmhơn

3.2.1 Nhóm giả thuyết hai

Giả thuyết 1: Biến Gender mối quan hệ ngược chiều đến biến Past Accident

Khách hàng nữ sẽ có số vụ tai nạn trong quá khứ ít hơn khách hàng nam

Giả thuyết 2: Biến Age có mối quan hệ cùng chiều với Driving experience

Khách hàng càng lớn tuổi sẽ càng có nhiều năm kinh nghiệm lái xe

Giả thuyết 3: Biến Driving experience có mối quan hệ ngược chiều với Past Accident

Khách hàng có nhiều năm kinh nghiệm lái xe sẽ có số lượng tai nạn trong quákhứ hơn những khách hàng có ít năm kinh nghiệm lái xe

Giả thuyết 4: Past accident có mối quan hệ cùng chiều với Outcome

Trang 17

Những khách hàng nhiều tai nạn trong quá khứ hơn sẽ có nhiều khả năng đòitiền bảo hiểm hơn.

CHƯƠNG 4: SUY LUẬN THỐNG KÊ

4.1 Phân phối mẫu

Chart Edu

Hình 7 Biểu đồ phân phối mẫu

Lựa chọn hai thuộc tính là Drive_exp và Edu để tiến hành phân phối mẫu nhómthu được hai biểu đồ trên

Đối với biểu đồ Drive_exp, ta có thể thấy được yếu tố Drive_exp (2) có tần suấtlập lại nhiều nhất, còn lại với các yếu tố Drive_exp (1) (3) (4) sẽ có tần suất lập lại íthơn

Tương tự với biểu đồ Edu, yếu tố Edu (2) có tần suất lập lại nhiều nhất và ít lậplại hơn là yếu tố Edu (1) và (3)

Trang 18

4.2 Kiểm định giả thuyết nghiên cứu bằng hệ số tương quan

Hình 8 Kiểm định giả thuyết bằng hệ số tương quan

Dựa vào hàm Correl trong Excel, nhóm nghiên cứu kiểm tra hệ số tương quancủa các biến được nêu trong giả thuyết sơ bộ có kết quả như sau:

Nhóm giả thuyết 1 gồm ba giả thuyết đều có các hệ số tương quan của các biếntrùng với kỳ vọng của nhóm nghiên cứu

Nhóm giả thuyết 2 có giả thuyết 4: Past accident có mối quan hệ cùng chiều với Outcome có hệ số tương quan giữa biến Past_acc và Outcome là -0.29, tức là chúng

có quan hệ ngược chiều với nhau, không trùng với kỳ vọng của nhóm nghiên cứu Bagiả thuyết còn lại trong nhóm này đều có các hệ số tương quan của các biến trùng với

kỳ vọng của nhóm nghiên cứu

Trang 19

CHƯƠNG 5: PHÂN TÍCH MÔ HÌNH HỒI QUY TUYẾN TÍNH

5.1 Thiết kế mô hình hồi quy đa biến

Mô hình hồi quy có dạng:

y=β0+β1x1+β2x2+…+β q x q+ε

Trong đó, y là biến phụ thuộc, β0 là hệ số hệ số chặn, β1, β2, … là các hệ số góc

Cụ thể, mô hình hồi quy đa biến:

Outcome = β0+ β1.Edu + β2Inc + β3.Cre_scr + β4.Age + β5.Drve_exp + β6.Gender + β7

.Past_acc

Chạy mô hình hồi quy đa biến bằng Regression>Data Analysis trong Excel,được kết quả như sau:

Hình 9 Mô hình hồi quy đa biến

Vậy, mô hình hồi quy mẫu cụ thể là:

Outcome = 0.97 + 0.03Edu – 0.11Inc – 0.016Cre_scr – 0.002Age – 0.145Drve_exp –0.122Gender – 0.02Past_acc

Trang 20

5.2 Phân tích hệ số liên quan

5.2.1 Hệ số của toàn mô hình

Từ mô hình hồi quy đa biến, ta thu được kết quả về các hệ số của mô hình cụ thểnhư sau:

5.2.2 Hệ số của từng biến

Hệ số hồi quy Sai số chuẩn t quan sát P-value Khoảng tin cậy

Hệ số

Tiêu đề	Báo cáo phân tích dữ liệu của doanh nghiệp bảo hiểm Ô tô
Tác giả	Cao Thu Hiền, Nguyễn Thành Đạt, Nguyễn Thị Phương Anh, Vũ Thị Thanh Huyền, Nguyễn Thị Minh Huyền, Lương Tiến Thành, Vũ Thị Thuý Vy
Người hướng dẫn	PGS.TS Nguyễn Thị Thùy Vinh, TS. Phạm Thị Cẩm Anh
Trường học	Trường Đại học Ngoại thương
Chuyên ngành	Phân tích dữ liệu kinh doanh
Thể loại	Báo cáo cuối kỳ
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	28
Dung lượng	342,62 KB