Mục tiêu tổng quátNghiên cứu này nhằm phân loại các loại bồi thường bảo hiểm dựa trên dữ liệu về nhân khẩu học và sức khỏe, nhằm cung cấp thông tin để dự đoán cụm khách hàng và giúp công
TỔNG QUAN
Lý Do Chọn Lựa Đề Tài
Đăng ký bảo hiểm là cần thiết đối với cá nhân hoặc doanh nghiệp, bảo hiểm có thể giảm hoặc loại bỏ chi phí tổn thất do một số rủi ro gây ra Hiện nay, trên thị trường có rất nhiều loại bảo hiểm như bảo hiểm nhân thọ, bảo hiểm tín dụng, bảo hiểm giáo dục Trong đó, bảo hiểm sức khỏe là một trong những sản phẩm được yêu thích nhất trong ngành bảo hiểm thời gian gần đây
Bảo hiểm sức khỏe là một loại hình bảo hiểm giúp chi trả một phần hoặc toàn bộ chi phí y tế khi người được bảo hiểm bị ốm đau, thương tật, tai nạn, hoặc chăm sóc sức khỏe Khách hàng bảo hiểm sức khỏe có thể đề xuất yêu cầu bồi thường bảo hiểm cho dịch vụ chăm sóc y tế Yêu cầu bồi thường bảo hiểm là yêu cầu từ một bên mua bảo hiểm cho một công ty bảo hiểm để bảo hiểm cho một tổn thất được bảo hiểm Một số công ty bảo hiểm y tế bị thua lỗ do số lượng yêu cầu bồi thường được gửi quá lớn Vì vậy, việc phân cụm các yêu cầu bồi thường là cần thiết để công ty bảo hiểm dựa vào đó, đưa ra các chiến lược phát tiển phù hợp cho từng nhóm khách hàng thuộc các cụm khác nhau Trong phạm vi nghiên cứu, tác giả lựa chọn phương pháp phân cụm theo thuật toán K-Means, đây là thuật toán quan trọng và được sử dụng phổ biến trong các nghiên cứu hiện nay để phân cụm các trường hợp bồi thường bảo hiểm dựa trên mức phí bồi thường Sau đó dự đoán phân loại yêu cầu bồi thường của khách hàng bảo hiểm sức khỏe có thể được thực hiện bằng cách sử dụng phương pháp học máy như Support Vector Machine (SVM), Cây quyết định (Decision Tree), Logistic Regression.
Giới Thiệu Về Phần Mềm Orange
Giới thiệu về Phần Mềm Orange: Orange là một công cụ khai phá dữ liệu và học máy nguồn mở, được viết bằng Python Orange cung cấp một môi trường trực quan và tương tác để phân tích dữ liệu và xây dựng các mô hình học máy.
Orange có một số tính năng chính, bao gồm:
Trực quan hóa dữ liệu: Orange cung cấp một loạt các công cụ để trực quan hóa dữ liệu, bao gồm biểu đồ, đồ thị, và bản đồ nhiệt.
Khai thác dữ liệu: Orange cung cấp một loạt các thuật toán khai thác dữ liệu, bao gồm phân loại, hồi quy, và clustering.
Học máy: Orange cung cấp một loạt các mô hình học máy, bao gồm các mô hình dựa trên cây, các mô hình dựa trên sự hỗ trợ vector, và các mô hình dựa trên mạng nơ-ron.
Orange là một công cụ mạnh mẽ cho phân tích dữ liệu và học máy Nó là một lựa chọn tốt cho các nhà khoa học dữ liệu, kỹ sư máy học, và sinh viên.
Mục tiêu nghiên cứu
Nghiên cứu này nhằm phân loại các loại bồi thường bảo hiểm dựa trên dữ liệu về nhân khẩu học và sức khỏe, nhằm cung cấp thông tin để dự đoán cụm khách hàng và giúp công ty bảo hiểm phát triển các sản phẩm và dịch vụ mới cho nhóm khách hàng được dự đoán có mức phí bồi thường cao.
Bài toán 1: Phân cụm các loại bồi thường bảo hiểm sức khỏe dựa trên mức phí mà công ty bảo hiểm phải trả.
Bài toán 2: Phát hiện điểm đặc thù của dữ liệu.
Bài toán 3: Phân lớp dữ liệu để dự báo loại bồi thường bảo hiểm.
Đối tượng nghiên cứu
1.4.1 Giới thiệu, mô tả dữ liệu
Nguồn dữ liệu được lấy từ Kaggle, chứa thông tin chi tiết về yêu cầu bảo hiểm Bao gồm tuổi, giới tính, BMI, huyết áp, tình trạng bệnh tiểu đường, số lượng trẻ em, tình trạng hút thuốc và khu vực của người được bảo hiểm.
Nguồn dữ liệu: https://www.kaggle.com/code/amalsalilan/claimsdatainsights- demographic-health-factors/input
Dữ liệu gồm: 1340 dòng (đối tượng) và 11 cột thuộc tính như sau:
Bảng 1 Mô tả dữ liệu 1
STT Biến Ý nghĩa Kiểu dữ liệu
1 Index Mục lục Số nguyên
2 PatientID Mã đơn bồi thường bảo hiểm
3 Age Tuổi của chủ hợp đồng bồi thường
4 Gender Giới tính của chủ hợp đồng bồi thường
5 Bmi Body Mass Index, là một chỉ số được sử dụng để đánh giá tình trạng cân nặng của một người.
Chỉ số huyết áp của chủ hợp đồng bồi thường
7 Diabetic Tình trạng mắc tiểu đường của chủ hợp đồng
No: không mắc bệnh tiểu đường
Yes: bị bệnh tiểu đường
8 Children Số lượng con cái của chủ hợp đồng bồi thường
9 Smoker Tình trạng hút thuốc của chủ hợp đồng bồi thường
No: không có thói quen hút thuốc
Yes: có thói quen hút thuốc
10 Region Vùng miền của chủ hợp đồng bồi
11 Claim Số tiền người bồi thường yêu cầu
1.4.2 Tiền xử lý dữ liệu Đồ án sử dụng bộ dữ liệu được lấy từ nguồn kaggle.com và có 8 dữ liệu bị thiếu nên nhóm tiến hành xử lý dử liệu bằng chức năng Preprocess Sử dụng phương pháp thay thế các giá trị bị thiếu bằng các giá trị trung bình.
Sau khi đã xử lý xong dữ liệu bị thiếu, bộ dữ liệu này đã được xác minh nên và đầy đủ thông tin để tiến hành làm đồ án nên không cần phải thực hiện tiền xử lí dữ liệu.
Nhóm phân tách dữ liệu từ dữ liệu gốc “insurance_data.csv”, skip biến “index” và biến
“Patient_ID”, sử dụng chức năng Data Sample để tách dữ liệu thành 2 file riêng biệt như sau sử dụng 70% dữ liệu ban đầu để làm dữ liệu huấn luyện mô hình phân lớp dữ liệu (huanluyen.tab) Và sử dụng 30% dữ liệu còn lại để làm dữ liệu dự báo cho nghiên cứu (dubao.tab)
Hình 1: Phân tách dữ liệu
CƠ SỞ LÝ THUYẾT
Mô hình phân cụm dữ liệu (Clustering Data)
Là quá trình gom các cụm/nhóm của các đối tượng hoặc dữ liệu có đặc điểm tương đồng vào các cụm hoặc nhóm tương ứng Trong đó: đối tượng nào có những tính chất tương tự nhau sẽ được xếp vào cùng một cụm và ngược lại Dữ liệu sử dụng trong kỹ thuật này là dữ liệu chưa được gán nhãn và thường thấy trong thực tế.
Hình 2 Mô tả quá trình phân cụm dữ liệu
2.1.1 Phân cụm phân cấp (Hierarchical Clustering). Được xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
Ma trận khoảng cách giữa các phần tử (similarity matrix or dissimilarity matrix)
Độ đo khoảng cách giữa các cụm (single link, complete link…)
Có 5 cách đo lường: Single, Average, Weighted, Complete, Ward
Một số phương pháp tính khoảng cách (Distance): Single-link, complete-link, average- link, mean, centroid, medoid.
2.1.2 Phân cụm phân hoạch (Partitioning Clustering).
Thuật toán K-means: là thuật toán quan trọng và được sử dụng một cách rộng rãi trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means đó chính là tìm cách phân nhóm các đối tượng đã cho vào K cụm (K là số các cụm đã được xác định trước và K là số nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm của nhóm là nhỏ nhất.
Các phương pháp đánh giá phân cụm dữ liệu:
Phương pháp đánh giá ngoài (External validation): Đánh giá kết quả phân cụm dựa vào cấu trúc hoặc xu hướng phân cụm đã được chỉ định trước đó cho tập dữ liệu
Phương pháp đánh giá nội bộ (Internal validation): Đánh giá kết quả của phân cụm mà không có thông tin từ bên ngoài, chỉ chủ yếu dựa vào các vector chính của dữ liệu thông qua ma trận xấp xỉ (proximity matrix)
Silhouette index: nằm trong khoảng [-1,1] Trong đó,
● 0.25 ≤ S < 0.5: cần đánh giá lại (Theo kinh nghiệm của chuyên gia)i
● Si < 0.25: Không tin tưởng vào cluster, tìm phương pháp đánh giá khác
Các Mô Hình Phân Lớp Dữ Liệu
Định nghĩa: Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Kỹ thuật này dùng để rút trích các thông tin cần thiết từ kho dữ liệu có sẵn Vì thế, đối với kỹ thuật này, chúng ta sẽ áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sử dụng Đây cũng là kỹ thuật có vai trò quan trọng trong việc dự báo các quy luật, xu hướng, … bằng cách mô tả các thuộc tính liên quan để đối tượng được phân loại vào một lớp cụ thể.
Khái niệm: là mô hình dùng để dự đoan xác suất của một sự kiện xảy ra dựa trên một hoặc nhiều biến độc lập Hồi quy logistic sử dụng một hàm logistic để biến đổi giá trị của biến phụ thuộc nhị phân thành một giá trị liên tục nằm trong khoảng từ 0 đến 1 Giá trị này có thể được hiểu như là xác suất để sự kiện xảy ra khi biết các biến độc lập.
Các loại hồi quy logistic:
Hình 3 Mô hình hồi quy Logistic Regression
Hồi quy logistic nhị phân: Đây là loại hồi quy logistic khi biến phụ thuộc chỉ có hai kết quả có thể, chẳng hạn như có hay không, đạt hay không đạt, bệnh hay khỏe, v.v Hồi quy logistic nhị phân sử dụng một hàm logistic để biến đổi giá trị của biến phụ thuộc nhị phân thành một giá trị liên tục nằm trong khoảng từ 0 đến 1 Giá trị này có thể được hiểu như là xác suất để sự kiện xảy ra khi biết các biến độc lập.
Hồi quy logistic đa thức: Đây là loại hồi quy logistic khi biến phụ thuộc có hai hoặc nhiều kết quả có thể mà không cần sắp xếp thứ tự Ví dụ: dự đoán chất lượng thực phẩm, loại hoa, màu sắc, v.v Hồi quy logistic đa thức sử dụng một hàm softmax để biến đổi giá trị của biến phụ thuộc thành một vector xác suất cho mỗi lớp.
Hồi quy logistic thứ tự: Đây là loại hồi quy logistic khi biến phụ thuộc có hai hoặc nhiều kết quả có thể mà có sắp xếp thứ tự Ví dụ: đánh giá sản phẩm, mức độ hài lòng, mức độ khó khăn, v.v Hồi quy logistic thứ tự sử dụng một hàm logit để biến đổi giá trị của biến phụ thuộc thành một giá trị liên tục nằm trong khoảng từ -∞ đến +∞.
2.1.2 Mô Hình Support Vector Machine Ứng dụng thực tế trong các lĩnh vực như phát hiện ung thư, nhận diện khuôn mặt, nhận dạng chữ viết tay,
Khái niệm: là một thuật toán học có giám sát để phân loại và hồi quy SVM tìm ra một siêu phẳng (hyperplane) để phân chia dữ liệu thành hai hoặc nhiều lớp khác nhau sao cho khoảng cách từ siêu phẳng đến các điểm dữ liệu gần nhất là lớn nhất SVM có nhiều ứngdụng thực tế trong các lĩnh vực như phát hiện ung thư, nhận diện khuôn mặt, nhận dạng chữ viết tay,
Hình 4 Mô hình SVM Ưu điểm:
● SVM có khả năng tạo ra các mô hình phân loại chính xác và ổn định, đặc biệt khi số lượng biến độc lập lớn hơn số lượng quan sát.
● SVM có thể giảm thiểu việc trang bị quá mức (overfitting) bằng cách sử dụng tham số C để kiểm soát độ lớn của lề.
● SVM có thể xử lý được các bài toán phi tuyến bằng cách sử dụng các hàm hạt nhân khác nhau, chẳng hạn như tuyến tính, đa thức, RBF, sigmoid,
● SVM có khả năng chấp nhận ngoại lệ và tìm ra siêu phẳng có biên giới tối đa.
● ã SVM khú khăn trong việc xỏc định cỏc tham số tối ưu cho mụ hỡnh, chẳng hạn như tham số C, gamma, epsilon, v.v Các tham số này ảnh hưởng đến hiệu suất của mô hình và cần được tìm kiếm bằng các phương pháp như tìm kiếm lưới (grid search) hoặc tìm kiếm ngẫu nhiên (random search).
● ã SVM khú khăn trong việc diễn giải ý nghĩa của mụ hỡnh, đặc biệt khi sử dụng các hàm hạt nhân phi tuyến Không có cách nào để biết được các biến độc lập nào quan trọng nhất hoặc làm thế nào chúng ảnh hưởng đến kết quả.
Mô hình Decision Tree là một mô hình học máy phân loại, được sử dụng để dự đoán giá trị mục tiêu của một biến phụ thuộc dựa trên các biến độc lập Mô hình này hoạt động bằng cách chia dữ liệu thành các nhóm dựa trên các giá trị của các biến độc lập Mỗi nhóm được gán một giá trị mục tiêu.
Cấu trúc của mô hình Decision Tree là một cây phân nhánh, với mỗi nút đại diện cho một quyết định Các nút lá của cây đại diện cho các giá trị mục tiêu có thể có.
Cách xây dựng mô hình Decision Tree
Mô hình Decision Tree được xây dựng bằng cách sử dụng một thuật toán học máy Thuật toán này sẽ bắt đầu từ một nút gốc, đại diện cho toàn bộ tập dữ liệu Sau đó, thuật toán sẽ phân chia tập dữ liệu thành hai nhóm dựa trên một biến độc lập Nhóm nào có độ đồng nhất cao hơn sẽ được chọn làm nhóm gốc cho nút con tiếp theo Quá trình này sẽ tiếp tục cho đến khi tất cả dữ liệu được phân loại thành các nhóm riêng biệt. Ưu điểm
Mô hình Decision Tree có thể được hiểu và giải thích một cách dễ dàng.
Mô hình Decision Tree có thể được sử dụng để giải quyết các vấn đề phân loại phức tạp.
Mô hình Decision Tree có thể được sử dụng để xử lý dữ liệu lớn.
Mô hình Decision Tree có thể gặp vấn đề overfitting.
Mô hình Decision Tree có thể không hiệu quả đối với các vấn đề dự đoán liên tục.
Quy Trình Phân Lớp Dữ Liệu
2.2.1 Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm có hai bước chính:
Bước 1: Xây dựng mô hình phân lớp (hay còn gọi là giai đoạn “học’’ hoặc “huấn luyện’’)
Quá trình huấn luyện này nhằm mục đích xây dựng một mô hình mô tả dữ liệu đã có sẵn Đầu vào của quá trình này là một tập dữ liệu mẫu được gán nhãn và tiền xử lý, mỗi phần tử của dữ liệu đã được giả định thuộc về một phân lớp trước, lớp ở câu nói này có nghĩa là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn hoặc phân lớp Mỗi bộ giá trị được gọi chung là mỗi phần tử dữ liệu (dataHình 1: Xây dựng mô hình phân lớp 1 tuple), cũng có thể là các mẫu, ví dụ, đối tượng hay các trường hợp khác Từ đó cho ra kết quả là mô hình phân lớp đã được huấn luyện.
Hình 5 Xây dựng mô hình phân lớp
13 ã Bước 2: Sử dụng mụ hỡnh, trong đú chia thành 2 bước nhỏ: ã Bước 2.1: Đỏnh giỏ mụ hỡnh (kiểm tra tớnh đỳng đắn của mụ hỡnh)
Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn Bước này dùng mô hình đã xây dựng ở bước đầu tiên để phân lớp dữ liệu mới Trước tiến độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng Holdout là một kỹ thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế) Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình.
Hình 6 Đánh giá mô hình phân lớp ã Bước 2.2: Phõn lớp dữ liệu mới
Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn) Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1.
Hình 7 Quá trình phân lớp dữ liệu
2.2.1 Tiền Xử Lý Dữ Liệu
Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu để sử dụng cho các mục đích phân tích
Dữ liệu thô thường không phù hợp để phân tích trực tiếp, vì nó có thể chứa các lỗi, thiếu sót và bất thường Tiền xử lý dữ liệu giúp loại bỏ các lỗi và bất thường này, đồng thời chuẩn hóa dữ liệu để phù hợp với các thuật toán phân tích.
Tiền xử lý dữ liệu bao gồm một số bước cơ bản sau:
Loại bỏ các giá trị bị thiếu: Nếu một dữ liệu có giá trị bị thiếu, chúng có thể được thay thế bằng giá trị trung bình hoặc giá trị của một số dữ liệu tương tự.
Sửa chữa các lỗi dữ liệu: Các lỗi dữ liệu có thể được sửa chữa bằng cách sử dụng các kỹ thuật thống kê hoặc các thuật toán học máy.
Chuẩn hóa dữ liệu: Dữ liệu có thể được chuẩn hóa bằng cách chuyển đổi chúng sang một thang đo chung, chẳng hạn như thang đo từ 0 đến 1 hoặc thang đo từ -1 đến 1.
Giảm thiểu dữ liệu: Dữ liệu có thể được giảm thiểu bằng cách sử dụng các kỹ thuật như lấy mẫu hoặc giảm kích thước.
Tiền xử lý dữ liệu hình ảnh: Dữ liệu hình ảnh có thể được tiền xử lý bằng các kỹ thuật như loại bỏ nhiễu, tăng cường độ tương phản và chuyển đổi màu sắc.
Là quá trình phân loại một đối tượng dữ liệu thành một hoặc nhiều lớp (loại) nhất định bằng mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gắn nhãn trước đó.
Kỹ thuật này dùng để trích xuất các thông tin cần thiết từ kho dữ liệu có sẵn Do đó, đối với kỹ thuật này, chúng ta sẽ linh hoạt áp dụng các thuật toán khác nhau tùy thuộc vào mục đích sử dụng.
Bên cạnh đó, đây cũng được coi là một kỹ thuật quan trọng trong việc dự đoán các quy luật, xu hướng, bằng cách mô tả các thuộc tính liên quan đến các đối tượng được phân loại vào một lớp cụ thể.
2.2.3 Đánh Giá Tính Hiệu Quả Đánh giá tính hiệu quả của mô hình phân lớp dữ liệu là một quá trình quan trọng để đảm bảo rằng mô hình đang hoạt động tốt và có thể được sử dụng để đưa ra các quyết định chính xác Có nhiều cách khác nhau để đánh giá hiệu quả của mô hình phân lớp dữ liệu
Ma trận nhầm lẫn (Confusion Matrix)
Ma trận nhầm lẫn là một bảng hiển thị số lượng dữ liệu được phân loại chính xác và số lượng dữ liệu được phân loại sai Ma trận nhầm lẫn có thể được sử dụng để tính toán các chỉ số hiệu suất khác nhau, chẳng hạn như độ chính xác, độ nhạy và độ đặc hiệu.
Hình 8 Minh họa phương pháp ma trận
Lấy ví dụ về bài toán phân nhóm ngân hàng cho vay Trong đó lớp A là nhóm khách hàng cho vay, B là nhóm khách hàng không cho vay Các thuật ngữ chính của Confusion matrix trong trường hợp này như sau
Giả sử lớp A là lớp công ty không gian lận và lớp B là lớp công ty gian lận Các thuật ngữ chính của ma trận nhầm lẫn như sau:
16 o TP (True Positive): Số lượng dự đoán chính xác về nhóm khách hàng cho vay o TN (True Negative): Số lượng dự đoán chính xác về nhóm nhóm khách hàng không cho vay o FP (False Positive): Số lượng dự đoán sai lệch về nhóm khách hàng không cho vay Là khi mô hình dự đoán nhóm khách hàng cho vay nhưng thực tế là nhóm khách hàng không cho vay. o FN (False Negative): Số lượng dự đoán sai lệch về nhóm khách hàng cho vay Là khi mô hình dự đoán khách hàng không cho vay nhưng thực tế là nhóm khách hàng cho vay.
CÁC KẾT QUẢ THỰC NGHIỆM
Bài toán 1: Phân cụm các loại bồi thường bảo hiểm sức khỏe dựa trên mức phí mà công ty bảo hiểm phải trả
mà công ty bảo hiểm phải trả
Các bước thực hiện bài toán:
Bước 1: Chọn file “huanluyen.tab”
Bước 2: Dùng phương pháp K-means, thực hiện phân làm từ 2 đến 8 nhóm, xem xét phân làm bao nhiêu cụm thì tối ưu nhất
Bước 3: Dùng Silhouette Plot để minh họa dữ liệu Dữ liệu từ Silhouette được minh họa trên Data table
Bước 5: Lưu file kết quả dưới tên “phancum”.
Hình 11 Mô mình phân cụm K-means Kết quả phân loại Kmeans
Hình 12 Kết quả phân cụm theo Silhouette Plot
Chạy K-Means từ 2 đến 10 cụm, theo kết quả của K-means từ hình trên, nên phân các trường hợp bồi thường bảo hiểm làm 2 nhóm vì phân làm 3,4,5,7,8 nhóm điểm số sẽ không tăng và phân làm 3,4,5,6,7,8 nhóm sẽ bị phân tách nhóm nhiều hơn.
Hình 13 Kết quả phân cụm K-means
Mô tả bài toán
Sử dụng các hàm thống kê thông dụng, công cụ, lược đồ, biểu đồ của Excel và orange để phát hiện các điểm đặc thù của dữ liệu ban đầu chưa phân cụm.
Chạy mô hình và kết quả
Tác động của số tiền bồi thường lên 2 cụm
Biểu đồ 1 Phân phối giữa giá trị bồi thường lên cụm C1 và C2
Nhận xét: bài toán phân cụm chia dữ liệu làm 2 nhóm Nhóm C1 có giá trị bồi thường cao hơn nhóm C2, trong đó:
C1: gồm những trường hợp có giá trị bồi thường tập trung trong khoảng từ 29076.3718 đến 46034.2058, số tiền trung bình được bồi thường là 37555.2888
C2: gồm những trường hợp có giá trị bồi thường tập trung trong khoảng từ 2780.4753 đến 15085.1133, số tiền trung bình được bồi thường là 8932.7843
21 northeast northwest southeast southwest (blank)
Biểu đồ 2 Phân bố vùng miền
Nhìn chung, phía đông nam có yêu cầu bồi thường cao nhất (443 yêu cầu) và phía đông bắc có số yêu cầu bồi thường ít nhất (231 yêu cầu).
Giới tính và vùng miền female male
Phân bổ giới tính lên vùng miền northeast northwest southeast southwest (blank)
Biểu đồ 3 Phân bố giới tính lên vùng miền Đông nam, tây nam có số hợp đồng bồi thường của nữ cao hơn nam; tây bắc, đông bắc ngược lại có số hợp đồng bồi thường nam nhiều hơn Trong đó tây bắc có số yêu cầu bồi thường chênh lệch lớn nhất giữa nữ và nam, có nhiều hơn 21 người nam yêu cầu bồi thường so với nữ)
22 biểu đô 4 Phân bố độ tuổi của chủ hợp đồng bồi thường lên giới tính
Số lượng độ tuổi của chủ hợp đồng bồi thường nữ là từ 25 đến 60, trong khi nam giới lại là 18 đến 50 tuối Độ tuổi trung bình người yêu cầu bảo hiểm của nữ cao hơn nam (42 và 34)
Số tiền bồi thường và vùng miền
Biểu đồ 5 Phân bổ giá trị bồi thường lên vùng miền
Phần lớn những yêu cầu nằm trong khoảng dưới 15000 cho cả 4 vùng và cả 2 giới Những yêu cầu bồi thường khác nằm khải rác ở nhiều giá trị khác nhau tất cả các khu vực.
Tỷ lệ số người thuốc
Biểu đồ 6 Tỷ lệ người hút thuốc
Trong những trường hợp được nhận bồi tường từ bảo hiểm sức khỏe, có 80% trường hợp là không có thói quen hút thuốc và 20% là có thói quen hút thuốc.
Tỷ lệ nam và nữ
Tỷ lệ nam và nữ female male
Biểu đồ 7 Tỷ lệ giới tính
Nhận xét: không có sự chênh lệch giữa nam và nữ trong tổng số các chủ hợp đồng bồi thường
Tác động của tuổi và tình trạng tiểu đường lên mức độ bồi thường
Biểu đồ 8 Phân bổ tuổi và tình trạng tiểu đường lên mức độ bồi thường
Nhận thấy rằng không có mối tương quan đáng kể giữa giá trị yêu cầu và tỷ lệ mắc bệnh tiểu đường.
Tác động của tuổi và số con lên mức độ bồi thường
Biểu đồ 9 Phân bổ tuổi và số con lên mức độ bồi thường
Nhận thấy rằng không có mối tương quan đáng kể giữa giá trị yêu cầu và số lượng con mà người được bồi thường bảo hiểm có.
Tác động của chỉ số bmi và giới tính lên mức độ bồi thường
Biểu đồ 10 Phân bổ chỉ số bmi và giới tính lên mức độ bồi thường
Nhận thấy rằng có một số mức độ tương quan nhất định giữa giá trị bồi thường và BMI, trong cả hai nhóm nam và nữ.
Tác động của chỉ số huyết áp và giới tính lên mức độ bồi thường
Biểu đồ 11 Phân bổ chỉ số huyết áp và giới tính lên mức độ bồi thường
Nhận thấy rằng những trường hợp có mức bồi thường cao thường có chỉ số huyết áp cao hơn những trường hợp có mức bồi thường thấp.
Tác động của giới tính lên mức độ bồi thường
Biểu đồ 12 Phân bổ giới tính lên mức độ bồi thường
Nhận xét: giới tính nam có nhiều trong cụm có mức bồi thường cao hơn (C1)
Tác động của tình trạng hút thuốc lên mức độ bồi thường
Biểu đồ 13 Phân bổ tình trạng hút thuốc lên mức độ bồi thường
Nhận xét: nhóm C1 thường là người có thói quen hút thuốc và C2 thường là những người không có thói quen hút thuốc.
Tác động của số lượng con cái của người được bồi thường lên mức độ bồi thường
Biểu đồ 14 Phân bổ số lượng con cái của chủ hợp bồi thường lên mức độ bồi thường
Nhận xét: không có tương quan đặc biệt giữa số lượng con cái lên mức độ bồi thường.
Từ đây, nhóm đưa ra nhận xét chung từ các biểu đồ trên:
Đông nam là nơi có nhiều trường hợp bồi thường nhất
Độ tuổi của các củ hợp đồng bồi thường bảo hiểm cao hơn của nam
Giá trị bồi thường phân bổ đều cho 4 vùng
Phần đông các chủ hợp bồi thường là người không có thói quen hút thuốc
Tỷ lệ nam và nữ chênh lệch không đáng kể
Một số yếu tố làm giá trị bồi thường cao: chủ hợp đồng bồi thường có thói quen hút thuốc, chỉ số bmi cao, chỉ số huyết áp cao, giới tính nam
Một số yếu tố không ảnh hưởng đến giá trị bồi thường: số con cái, bệnh tiểu đường, tuổi
Từ đây, để có cái nhìn tổng quát và toàn thể hơn, ta xem sự phân bổ của các thuộc tính ở các nhóm qua bảng Feature Statistic.
Từ kết quả của Feature Statistic nhóm nhận thấy một số điểm đặc thù giá trị trung bình và đặc thù trong nhóm C1 (nhóm có giá trị bồi thường cao) như sau:
Hình 14 Kết quả Feature Statistic của cụm C1
Độ tuổi trung bình trong nhóm C1 là 36.9635 và độ tuổi phổ biến nhất là 27
Chỉ số huyết áp trung bình của nhóm C1 là 109.745
Chỉ số bmi trung bình của nhóm C1 là 33.751
Số con trung bình của người thuộc nhóm C1 là 1
Giá trị bồi thường trung bình là 37555.2888
Số người mắc bệnh tiểu đường nhiều hơn số người không mắc bệnh tiểu đường
Số người có thói quen hút thuốc nhiều hơn số người không có thói quen hút thuốc
Số người ở vùng đông nam nhiều hơn các vùng còn lại
Số người là nam nhiều hơn số người là nữ
Hình 15 Kết quả Feature Statistic của cụm C2
Từ kết quả của Feature Statistic nhóm nhận thấy một số điểm đặc thù giá trị trung bình và đặc thù trong nhóm C2 (nhóm có giá trị bồi thường thấp) như sau:
Độ tuổi trung bình trong nhóm C2 là 38.4161 và độ tuổi phổ biến nhất là 43
Chỉ số huyết áp trung bình của nhóm C2 là 91.095
Chỉ số bmi trung bình của nhóm C2 là 30.140
Số con trung bình của người thuộc nhóm C2 là 1
Giá trị bồi thường trung bình là 8932.7943
Số người không bị tiểu đường nhiều hơn số người bị tiểu đường
Số người không có thói quen hút thuốc nhiều hơn số người có thói quen hút thuốc
Số người ở vùng đông nam nhiều hơn các vùng còn lại
Số người là nữ nhiều hơn số người là nam
Bài toán 3: Phân lớp dữ liệu để dự báo loại bồi thường bảo hiểm
Các bước thực hiện mô hình phân lớp dữ liệu:
Bước 1: Chọn dữ liệu File “phancum.tab” và chọn cột “cluster” làm Target
Bước 2: Nối File “phancum” và 3 phương pháp Logistic Regression, SVM và Decision Tree với Test and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn
Bước 3: Liên kết phương pháp tốt nhất và File “dubao” với Predictions để đánh giá và phân loại dữ liệu đầu vào
Bước 4: Xuất kết quả dự báo qua Data Table.
Hình 16 Mô hình phân lớp
Phân Tích và Đánh Giá
3.3.1 Đánh giá mô hình dựa trên kết quả của Test and Score
Hình 17 Kết quả Test & Score 1
Kết quả cho thấy rằng:
AUC của SVM là lớn nhất (0.998) > Logistic Regression (0.988)>Decision tree (0.816) Và các chỉ số khác của SVM cũng lớn hơn Logistic Regression và Decision tree
CA: SVM là lớn nhất (0.981) > Decision tree(0.966) > Logistic Regression (0.964)
F1: SVM là lớn nhất (0.980) > Decision tree(0.965) > Logistic Regression (0.964)
Prec: : SVM là lớn nhất (0.980) > Decision tree(0.965) > Logistic Regression (0.964)
Recall: SVM là lớn nhất (0.980) > Decision tree(0.966) > Logistic Regression (0.964)
Từ đó, rút ra kết luận nên chọn phương pháp SVM theo Test Score
3.3.2 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:
Hình 18 Kết quả Confusion Matrix của phương pháp Logistic Regression
Hình 19 Kết quả Confusion Matrix của phương pháp Decision tree
Hình 20 Kết quả Confusion Matrix của phương pháp SVM
Dựa vào kết quả 3 mô hình trên, ta có thể thấy được với sai lầm loại 2: Dự đoán là C2 nhưng thực tế lại thuộc nhóm C1 Nếu sai lầm này càng nhiều thì việc dự đoán số tiền phải trả cho bồi thường sẽ không còn ý nghĩa và dẫn đến tổn thất kinh tế cho công ty bảo iểm SVM (16) = Logistic Regression (16) < Decisio tree= 24 Nhận tháy sai lầm loại 2 của phương pháp SVM và Logistic Regestion là nhỏ nhất nên ta có thể xử dụng 2 phương pháp này
Bằng cách kiểm tra bằng Confusion Matrix, có 2 phương pháp hiệu quả là SVM và Logistic Regession Tuy nhiên theo Test&score thì nên chọn SVM Vì vậy, nhóm đưa ra kết luận chọn phương pháp SVM để dự báo cho bộ dữ liệu “dubao”
Kết quả dự báo
Hình 21 Kết quả dự báo của Predeictions
Hình 16: Kết quả dự báo của Predeictions