Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 47 - 50)

7. Bố cục luận văn

2.3.2.Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo

hạn chế chi phí bồi thƣờng góp phần tăng hiệu quả kinh doanh.

2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới bảo hiểm xe cơ giới

Với một khối lƣợng dữ liệu lớn về hoạt động kinh doanh trong bảo hiểm xe cơ giới trong các năm qua, chúng ta cần có một phƣơng pháp phân tích dữ liệu một cách khoa học, trên cơ sở đó đƣa ra những dự đoán về mức độ rủi ro của xe cơ giới. Từ đó, ngƣời quản lý sẽ cân đối đƣợc giữa doanh thu và bồi thƣờng để đƣa ra quyết định nh m đảm bảo hiệu quả kinh doanh.

Giải pháp sử dụng cây quyết định rất phù hợp để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới. Nó có thể xử lý đƣợc khối lƣợng lớn dữ liệu với tốc độ tính toán nhanh. Việc học tập và phân loại của cây quyết định rất đơn giản, nhanh chóng và có độ chính xác cao.

2.4. SO SÁNH KẾT QUẢ PHÂN LỚP GIỮA 2 THUẬT TOÁN C4.5 VÀ RANDOM FOREST

Thực hiện so sánh và đánh giá trên phần mềm Weka với phƣơng pháp đánh giá độ chính xác b ng 10-fold croos validation [6]

+ Đối với phƣơng pháp cây quyết định b ng C4.5 (J4.8)

Hình 2.1. Thông số của thuật toán xây dựng cây quyết định bằng C4.5

- Confidence factor: Cắt tỉa những cây giá trị nhỏ hơn cho thấy cắt tỉa nhiều.

- Debug: Nếu điều này đƣợc thiết lập để thực thông tin bổ sung đƣợc hiển thị trên giao diện điều khiển.

- MinNumObj: Hiển thị số lƣợng tối thiểu của các trƣờng hợp trên mỗi lá - Numfolds: Hiển thị số lƣợng dữ liệu đƣợc sử dụng để cắt tỉa.

- Reduced error pruning: Cắt tỉa giảm lỗi đƣợc sử dụng hay không.

- Seed: đƣợc sử dụng cho các dữ liệu ng u nhiên khi giảm tỉa lỗi đƣợc sử dụng.

- Sub - tree Raising: Đƣợc sử dụng cho giá trị - cây tăng khi chúng ta cắt tỉa đƣợc sử dụng.

- Use Laplace: Ở lá đƣợc làm nhẵn dựa trên Laplace. + Đối với phƣơng pháp Random Forest

Hình 2.2. Thông số của Random Forest

-MaxDepth: Cho thấy chiều sâu tối đa của cây, nếu = 0 là không giới hạn.

-numFeatures: Số thuộc tính đƣợc sử dụng trong khi lựa chọn ng u nhiên.

-numTrees: Số lƣợng cây đƣợc tạo ra.

Bảng 2.3. Sử dụng phần mềm Weka so sánh độ chính xác giữa thuật toán C4.5 và Random Forest TT Dữ liệu Số lƣợng bảng ghi Thuộc tính Ramdon Forest J-48 Trƣờng hợp Phân loại chính xác Trƣờng hợp Phân loại không chính xác Trƣờng hợp Phân loại chính xác Trƣờng hợp Phân loại không chính xác 1. Lymph 148 19 81.08% 18.91% 77.02% 22.97% 2. Sonar 208 61 80.77% 19.23% 71.15% 28.84% 3. Heart-h 270 14 77.89% 22.10% 80.95% 19.04% 4. Heart-c 303 14 81.51% 18.48% 77.56% 22.44% 5. Balance Scale 625 25 80.48% 19.52% 76.64% 23.36% 6. Vehicle 846 19 77.06% 22.93% 72.45% 27.54% 7. Creditg 1000 21 72.50% 27.50% 70.50% 29.50% 8. Segment 2310 20 97.66% 2.33% 96.92% 3.07% 9. Waveform 5000 41 81.94% 18.06% 75.30% 24.70% 10. Letter 20,000 17 94.71% 5.29% 87.98% 12.02%

Kết quả trên cho thấy phần lớn phƣơng pháp sử dụng thuật toán Random Forest cho kết quả chính xác cao hơn. Đặc biệt với bộ dữ liệu càng lớn thì Random Forest cho kết quả chính xác tốt hơn, còn đối với phƣơng pháp sử dụng thuật toán C4.5 (J-48 đƣợc cắt tỉa) thì lại tiện dụng với bộ dữ liệu nhỏ.

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 47 - 50)