7. Bố cục luận văn
2.5. ỨNG DỤNG CÂY QUYẾT ĐỊNH
2.5.1. Phân tích dữ liệu
Có rất nhiều yếu tố ảnh hƣởng đến tỉ lệ rủi ro trong bảo hiểm xe cơ giới nhƣ đã nêu ở trên. Tuy nhiên ở đây, chúng ta chú trọng phân tích các tập thuộc tính với những yếu tố chính trong bảng dữ liệu nhƣ sau:
Bảng 2.4. Bảng dữ liệu mẫu của 10 khách hàng
Các thuộc tính Thuộc tính phân loại TT Mục Đích sử dụng Thời gian sử dụng Kinh nghiệm lái xe Giới tính Bảo dƣỡng định kỳ Số tiền bồi thƣờng Khu vực
để xe Phạm vi hoạt đông Rủi ro 1 Kinh
doanh 6 3 Nam Có 10 Gara
Trong
tỉnh THẤP 2 Kinh
doanh 8 7 Nam Không 30 Không
Trong tỉnh TB 3 Không kinh doanh
12 6 Nữ Không 50 Không Trong
tỉnh CAO 4 Chuyên dụng 11 6 Nam Có 10 Gara Trong tỉnh TB 5 Kinh
doanh 12 11 Nam Có 20 Gara
Ngoài
tỉnh TB 6 Kinh
doanh 12 12 Nam Không 50 Không
Ngoài tỉnh CAO 7 Không kinh doanh
7 2 Nam Có 10 Gara Trong tỉnh THẤP
8
Không kinh doanh
5 4 Nữ Không 40 Gara Trong
tỉnh TB 9 Kinh
doanh 14 7 Nam Không 50 Gara
Trong
tỉnh TB 10 Chuyên
dụng 9 4 Nam Không 50 Gara
Ngoài
Trong đó:
Thuộc tính Mục đích sử dụng là loại thộc tính Nominal có giá trị [kinh doanh, không kinh doanh, chuyên dụng]
+ Xe kinh doanh: Là xe có cấp Giấy phép kinh doanh vận tải b ng xe ô tô, thƣờng dùng trong các doanh nghiệp vận tải và chuyên chở khách…
+ Xe không kinh doanh: Là xe sử dụng cá nhân trong cá hộ gia đình, các doanh nghiệp tƣ nhân…
+ Xe chuyên dụng: Là xe sử dụng trong các lĩnh vực đặc thù nhƣ xe trong các cơ qua nhà nƣớc, cứu thƣơng, cứu hỏa …
Thuộc tính Thời gian sử dụng là loại thuộc tính Numeric có giá trị [3, 6, 9, 12]
Nếu xe mới sản xuất, n m trong thời gian từ 1 đến 3 năm thì có giá trị b ng 3 và là xe có rủi ro là thấp nhất. Ngƣợc lại, xe sản xuất càng lâu năm, thì nguy cơ rủi ro càng cao.
Thuộc tính Kinh nghiệm lái xe là loại thuộc tính Numeric có giá trị
[3, 6, 9, 12]
Nếu kinh nghiệm lái xe càng lâu năm, thì nguy cơ rủi ro càng thấp. Ngƣợc lại kinh nghiệm lái xe càng ít thì nguy cơ rủi ro càng cao.
Thuộc tính bảo dƣỡng định kỳ là loại thộc tính Nominal có giá trị
[Có, Không]
Nếu chủ xe thƣờng xuyên bảo dƣỡng, kiểm tra định kỳ, thì chắc chắn sẽ giảm thiểu đƣợc rủi ro.
Thuộc tính Khu vực để xe là loại thộc tính Nominal có giá trị [Gara, Không]
Đây cũng là yếu tố ảnh hƣởng đến mức độ rủi ro của xe tham gia bảo hiểm. Vì nếu xe không có gara, thì nguy cơ va quẹt xe nơi đậu đỗ là rất cao
Thuộc tính Số tiền bồi thƣờng là loại thuộc tính Numeric có giá trị
[20, 30, 40, 50]
Là tỉ lệ % của số tiền bồi thƣờng so với tổng phí bảo hiểm của năm trƣớc đó. Nếu tỉ lệ này trên 50% có nghĩa là hợp đồng này trƣớc đó có tại nang, đồng nghĩa với tỉ lệ rủi ro cao.
Thuộc tính Giới tính là loại thộc tính Nominal có giá trị [Nam, Nữ] Thông thƣờng khi mới lái xe (kinh nghiệm lái xe =< 3 năm), thì nguy cơ rủi ro của nữ thƣờng là cao hơn so với nam.
Thuộc tính Phạm vi hoạt động là loại thộc tính Nominal có giá trị
[Trong tỉnh, Ngoài tỉnh]
Nếu xe hoạt động trên địa bàn càng rộng (ngoài tỉnh). Thì khả năng gặp rủi ro càng cao. Ngƣợc lại nếu xe hoạt động trong tỉnh, thì nguy cơ rủi ro là thấp, thƣờng chỉ va chạm vỏ xe là chủ yếu.
Trong đó:
+ Numeric: Là các giá trị số hay giá trị liên tục.
+ Nominal: Là các giá trị định danh hay giá trị không liên tục.
Các yếu tố trên chính là các tập thuộc tính, dựa vào tập thuộc tính này ta sẽ dự đoán giá trị cho thuộc tính đích Rủi ro. Đây là thuộc tính phân loại.
2.5.2. Xây dựng mô hình phân lớp với Random Forest
Xây dựng mô hình phân lớp với dữ liệu đầu vào là bảng dữ liệu của 1724 hồ sơ khách hàng với 9 thuộc tính và thuộc tính cần phân lớp là: RỦI RO, nhƣ sau:
Trƣớc hết xác định 2 giá trị quan trọng của Random Forest là numTree (số cây của rừng) và numFeatures (số biến đƣợc lựa chọn để chia nút).
Ta xây dựng Random Forest gồm numTree cây phân lớp. Mỗi cây phân lớp đƣợc xây dựng với các bƣớc sau:
Bƣớc 1: Tạo tập huấn luyện b ng các sử dụng bootstrap
Hình 2.3. Tạo bootstrap
Bƣớc 2: Xây dựng một cây quyết định ng u nhiên
Hình 2.4. Cấu trúc cây ngẫu nhiên
Cây đƣợc xây dựng từ trên xuống với mỗi nút của cây (không phải nút lá) ta lấy ng u nhiên n thuộc tính từ 9 thuộc tính (n<9).
Ví dụ: Ở đây chọn ng u nhiên 5 thuộc tính (n=5), trong 9 thuộc tính để tính thuộc tính chia tốt nhất.
Bảng 2.5. Bảng thuộc tính ngẫu nhiên để chia nút
CÁC THUỘC TÍNH Thời gian sử dụng Bảo dƣỡng định kỳ Số tiền bồi thƣờng Khu vực để xe Mục đích sử dụng
Bƣớc 3: Chọn nút chia tốt nhất b ng cách tính theo giá trị GAIN. Lập lại nhƣ vậy với mỗi nút cho đến khi cây không thể chia nữa.
Dữ liệu đào tạo [1724 khách hàng]
Dữ liệu huấn luyện [1724 khách hàng]
Cuối cùng ta đƣợc Random Forest với numTree cây.
Hình 2.5. Mô hình Random Forest với numtree cây
Giả sử ta kiểm tra 1 trƣờng hợp khách hàng mới gồm các thuộc tính nhƣ sau:
Bảng 2.6. Bảng thuộc tính của khách hàng mới
Mục Đích sử dụng Thời gian sử dụng Kinh nghiệm lái xe Giới tính Bảo dƣỡng định kỳ Số tiền bồi thƣờng Khu vực để xe Phạm vi hoạt đông Rủi ro Kinh
doanh 6 12 Nam Có 10 Gara
Trong
tỉnh Thấp Mô hình chạy hết qua các cây với mỗi cây sẽ cho 1 dự đoán, và kết quả cuối cùng là sự bỏ phiếu của các cây có kết quả lớn nhất.
Ví dụ với 10 cây: Kết quả dự đoán lần lƣợt là: Thấp, Thấp, Thấp, Thấp, Trung Bình, Thấp, Trung Bình, Trung Bình, Thấp, Thấp,
2.5.3. Mô hình tổng quát
Hình 2.6. Mô hình tổng quát của Random Forest để phân lớp
Ví dụ: Tạo mô hình Random Forest với CSDL m u của 10 khách hàng ở bảng 2.4 với giá trị numTree = 3 và numFeature = 3:
Tập dữ liệu (1724 phần tử, 9 thuộc tính)
Tập bootstrap 1 Tập bootstrap 2 … Tập bootstarp n
outbag 586 pt, 9 tt inbag 1724 pt, 9 tt outbag 586 pt, 9 tt inbag 1724 pt, 9 tt tt) outbag 586 pt, 9 tt tt) inbag 1724 pt, 9 tt
Kết quả 1 Kết quả 2 Kết quả n
Dự báo ph n tử mới
Bình chọn theo số đông n KETQUA Nút trong (không phải nút lá) Lấy ng u nhiên m thuộc tính từ 9 thuộc tính
Bƣớc 1: Tạo bootstrap 1:
Bảng 2.7. Bảng dữ liệu bootstrap 1 của 10 khách hàng
TT Mục Đích sử dụng Thời gian sử dụng Bảo dƣỡng định kỳ Số tiền bồi thƣờng Khu vực để xe Rủi ro
1 Kinh doanh 6 Có 10 Gara Thấp
2 Kinh doanh 8 Không 30 Không Trung Bình
1 Kinh doanh 6 Có 10 Gara Thấp
4 Chuyên dụng 11 Có 10 Gara Trung Bình
5 Kinh doanh 12 Có 20 Gara Trung Bình
6 Kinh doanh 12 Không 50 Không Cao
7 Không kinh
doanh 7 Có 10 Gara Thấp
6 Kinh doanh 12 Không 50 Không Cao
9 Kinh doanh 14 Không 50 Gara Trung Bình 9 Kinh doanh 14 Không 50 Gara Trung Bình
Bƣớc 2: Tạo cây phân lớp với dữ liệu bootstrap 1 +Xây dựng cây ng u nhiên
Hình 2.7. Mô hình cây phân lớp tạo với bootstrap 1
+Xây dụng mỗi nút (không phải nút lá)
Lấy ng u nhiên 3 thuộc tính trong số 6 thuộc tính là: Mục Đích Sử Dụng, Thời gian sử dụng, Số Tiền Bồi Thƣờng.
Hình 2.8. Các thuộc tính chọn để chia nút Mục Đích sử Dụng Kinh doanh Không kinh doanh Chuyên dụng Thời gian sử dụng> ? Đúng Sai Số Tiền Bồi Thƣờng > ? Đúng Sai
Đầu tiên ta tính ngƣỡng để chia của 3 thuộc tính:
Đối với thuộc tính Mục Đích Sử Dụng gồm có giá trị [kinh doanh, không kinh doanh, chuyên dụng]
Đối với thuộc tính thời gian sử dụng có giá trị [6, 8, 11, 12, 7, 14].
Trƣớc tiên ta sắp xếp thời gian sử dụng theo thứ tự, ta có [6, 7, 8, 11, 12, 14], lấy giá trị trung bình của các cặp liền kề ta đƣợc [6,5; 7,5; 9,5; 11,5; 13].
Trong tập dữ liệu trên: Gọi s1 là những bản ghi có giá trị phân lớp Thấp, S2 là những bản ghi có giá trị phân lớp Trung Bình, S3 là những bản ghi có giá trị phân lớp Cao.
Áp dụng công thức tính Entropy, ta có:
Entropy(S) = Entropy(S1, S2, S3) = - (3/10)log2(3/10) - (5/10)log2(5/14) - (2/10)log2(2/14) = 1,485
Trƣờng hợp Thời gian sử dụng (TGSD) = 6,5 năm, ta có các giá trị của TGSD≤6,5 và TGSD>6,5 (gọi là giá trị bên trái và phải).
Bảng 2.8. Entropy(S) phân theo thời gian sử dụng (TGSD) = 6,5 năm
Thời gian sử dụng SL RỦI RO Entropy
Thấp TB Cao
TGSD≤6,5 2 2 0 0 0
TGSD>6,5 8 1 5 2 1,298
Entropy(S, TGSD=6,5)= 2/10x0 + 8/10x1,298 = 1,038 Gain(S, TGSD=6,5) = Entropy(S) – Entropy(S, TGSD=6,5)
= 1.485 – 1.038 = 0.446
Tƣơng tự với trƣờng hợp còn lại ta tính đƣợc: Gain(S, TGSD=7,5) = 0,614
Gain(S, TGSD=9,5) = 0,610 Gain(S, TGSD=11,5) = 0,515 Gain(S, TGSD=13) = 0,237
Vậy ngƣỡng chia của Thời gian sử dụng với giá trị nút là 7,5.
Tiếp theo ta sắp xếp Số Tiền Bồi Thƣờng (STBT) theo thứ tự [10, 20, 30, 50], lấy giá trị trung bình của các cặp liền kề ta đƣợc: [15, 25, 40]
Tƣơng tự với cách tính nhƣ trên ta tính đƣợc: Gain(S, STBT=15) = 0,61
Gain(S, STBT=25) = 0,515 Gain(S, STBT=40) = 0,485
Vậy ngƣỡng chia của Số Tiền Bồi Thƣờng với giá trị nút là 15,5.
Hình 2.9. Ngưỡng các thuộc tính để chia
Tiếp theo tính thuộc tính chia tốt nhất với nút.
Đối với thuộc tính Mục Đích Sử Dụng, ta tính Entropy của các tập con S đƣợc chia bởi các giá trị của thuộc tính Mục Đích Sử Dụng nhƣ bảng sau:
Bảng 2.9. Entropy(S) phân theo Mục Đích Sử Dụng
Mục đích sử dụng SL RỦI RO Entropy
Thấp TB Cao
Kinh doanh 8 2 4 2 1,50
Không kinh doanh 1 1 0 0 0
Chuyên dụng 1 0 1 0 0
Entropy của S đối với thuộc tính Mục Đích Sử Dụng là: Entropy(S, MĐSD)= 8/10x1,50 + 1/10x0 + 1/10x0 = 1,2 Độ lợi thông tin tƣơng ứng là:
Gain(S, MĐSD) = Entropy(S) – Entropy(S, MĐSD) = 1.485 – 1.2 = 0.285 Mục Đích sử Dụng Kinh doanh Không kinh doanh Chuyên dụng Thời gian sử dụng ≤7.5 >7.5 ≤15.5 >15.5 Số Tiền Bồi Thƣờng
Đối với thuộc tính thời gian sử dụng ta có bảng sau:
Bảng 2.10. Entropy(S) phân theo thời gian sử dụng
Thời gian sử dụng SL RUIRO Entropy Thấp TB Cao 6 2 2 0 0 0 7 1 1 0 0 0 8 1 0 1 0 0 11 1 0 1 0 0 12 3 0 1 2 0.918 14 2 0 2 0 0
Entropy của S đối với thuộc tính Thời gian sử dụng là:
Entropy(S, TGSD) = 2/10x0 + 1/10x0 + 1/10x0 + 3/10x0,918 + 1/10x0 + 2/10x0 = 0,275
Gain(S, TGSD) = Entropy(S) – Entropy(S, TGSD) = 1,485 – 0,275 = 1,21
Đối với thuộc tính Số Tiền Bồi Thƣờng ta có bảng sau:
Bảng 2.11. Entropy(S) phân theo Số Tiền Bồi Thường
Số Tiền Bồi Thƣờng SL RUIRO Entropy Thấp TB Cao 10 4 3 1 0 0,311 20 1 0 1 0 0 30 1 0 1 0 0 50 4 0 2 2 1
Entropy của S đối với thuộc tính Số Tiền Bồi Thƣờng là:
Entropy(S, STBT) = 4/10x0,311 + 1/10x0 + 1/10x0 + 4/10x1 = 0,524
Gain(S, STBT) = Entropy(S) – Entropy(S, STBT) = 1,485 – 0,524 = 0,961
Hình 2.10. Ví dụ - Cây phân lớp với nút chia đầu tiên
Với nút tiếp theo lập lại cho đến khi cây đạt độ sâu tối đa. Bƣớc 3: Lập lại bƣớc 2 để xây dựng bootstrap 2, bootstrap 3.
2.5.4. Ƣớc tính độ chính xác của mô hình
Ƣớc tính độ chính xác của mô hình b ng cách sử dụng k-fold crops validation với k=10.
Tập dữ liệu ban đầu đƣợc chia ng u nhiên thành 10 tập con (fold) có kích thƣớc xấp xỉ nhau S1, S2, …, S10. Quá trình học và test đƣợc thực hiện 10 lần. Tại lần lặp thứ 10, S10 là tập dữ liệu kiểm tra, các tập còn lại hợp thành tập dữ liệu đào tạo gọi là R10
Độ chính xác là toàn bộ số phân lớp đúng từ 10 lần lặp chia cho tổng số m u của tập dữ liệu ban đầu.
Dữ liệu ban đầu ở đây là: 1745 khách hàng. Thời gian sử dụng > 7,5
?
Fold 1:
Hình 2.11. Fold 1 với CSDL 1724 bảng ghi của khách hàng
Fold 2:
Fold 10:
Hình 2.13. Fold 10 với CSDL 1724 bảng ghi của khách hàng
Độ chính xác của mô hình = trung bình độ chính xác của 10 fold hoặc độ
chính xác của mô hình = tổng dự đoán chính xác của 10 fold / tổng số m u của dữ liệu ban đầu.
KẾT LUẬN CHƢƠNG 2
Trong chƣơng này, tôi đã phân tích hiện trang và các yếu tố ảnh hƣởng đến rủi ro trong bảo hiểm xe cơ giới.
So sánh kết quả phân lớp giữa 2 thuật toán C4.5 và Random Forest. Phân tích đã trình bày chi tiết quá trình tính toán, chọn lựa các thuộc tính nh m xây dựng một cây quyết định trực quan có khả năng phân loại đúng đắn tập dữ liệu cho trƣớc để xây dựng hệ thống hỗ trợ đánh giá rủi ro trong bảo hiểm xe cơ giới.
Trong chƣơng tiếp đến, tôi sẽ trình bày phƣơng pháp xây dựng, cài đặt và sau đó tiến hành kiểm thử ứng dụng.
CHƯƠNG 3 XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG
3.1. CHỨC NĂNG HỆ THỐNG 3.1.1. Các chức năng chính 3.1.1. Các chức năng chính
Hệ thống xây dựng gồm các chức năng cơ bản sau:
Lựa chọn nguồn dữ liệu: Chức năng này cho phép ngƣời dùng có thể lựa chọn dữ liệu từ nhiều nguồn khác nhau để làm đầu vào cho hệ thống xử lý. Nguồn dữ liệu ở đây có thể có là các hệ quản trị cơ sở dữ liệu khác nhau nhƣ: các tập tin dữ liệu đƣợc lƣu trữ dƣới dạng Excel hoặc CSV.
Tiền xử lý dữ liệu: Chức năng này còn có thể gọi là làm sạch dữ liệu và biến đổi dữ liệu ban đầu về các dạng chuẩn để thuật toán C4.5 và Random Forest để có thể dễ dàng xử lý.
Xây dựng cây quyết định: Đây là chức năng quan trọng nhất của hệ thống. Sẽ phân tích dữ liệu, lựa chọn các thuộc tính tốt nhất để xây dựng cây quyết định dựa vào hai thuật toán C4.5 và Random Forest.
Chuyển cây về dạng luật: Từ cây quyết định đã đƣợc xây dựng, chức năng này sẽ rút ra một tập các luật đơn giản, giúp ngƣời sử dụng dễ dàng hiểu và nắm bắt đƣợc các luật xử lý dữ liệu của hệ thống.
Thống kê tỉ lệ lỗi: Đây cũng là một chức năng khá quan trọng của ứng dụng. Nó giúp ta đánh giá đƣợc mức độ tin cậy của mô hình vừa xây dựng cũng nhƣ khả năng áp dụng mô hình trong việc dự đoán rủi ro cho các tập dữ liệu mới.
3.1.2. Phân tích yêu cầu
a. Biểu đồ ca sử dụng
Dựa vào các yêu cầu chức năng về hệ thống, ta có biểu đồ ca sử dụng tổng quát. Biểu đồ ca sử dụng tổng quát gồm 02 tác nhân là cán bộ thẩm định sử dụng chƣơng trình, quản trị viên hệ thống và 03 ca sử dụng chính.
Huấn luyện Dữ Liệu
Đăng nhập
Cán bộ thẩm định Administrator
Tƣ vấn
Hình 3.1. Biểu đồ ca sử dụng tổng quát
+ Ca sử dụng Huấn luyện dữ liệu có thể phân rã thành 03 ca sử dụng nhỏ hơn là:
Huấn luyện dữ liệu
Tải dữ luyện dữ liệu huấn luyện
Huấn luyện
Lƣu cây, tập luật
<<extend>>
<<extend>>
<<extend>>
Hình 3.2. Phân rã ca sử dụng huấn luyện dữ liệu
Ca sử dụng Tải dữ liệu huấn luyện: Dùng để tải dữ liệu của thông tin khách hàng cho quá trình huấn luyện, đầu vào dữ liệu có thể là file CSV đƣợc thống nhất định dạng.
Ca sử dụng Huấn luyện: Sử dụng cả hai thuật toán C4.5 và Random Forest để xây dựng cây quyết định và sinh ra tập luật.
Ca sử dụng Lưu cây và tập luật: Lƣu lại cây và tập luật sau khi đƣợc sinh, tập luật này dùng để đánh giá và phân loại cho tập dữ liệu mới.
+ Ca sử dụng Tư vấn có thể phân rã thành 03 ca sử dụng nhỏ hơn là: Ca sử dụng Nhập dữ liệu khách hàng: Dữ liệu khách hàng có thể đƣợc nhập riêng lẽ hoặc đƣợc tải từ các file excel, CSV lƣu ở ngoài.
Ca sử dụng Áp dụng luật: Sử dụng tập luật đã lƣu dể đánh giá, tƣ vấn.