Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới

81 19 1
Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN TRỌNG HẢI ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN TRỌNG HẢI ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS Nguyễn Trần Quốc Vinh Đà Nẵng - Năm 2016 LỜI CAM ĐOAN Tôi xin cam đoan: -Những nội dung luận văn thực hướng dẫn trực tiếp TS Nguyễn Trần Quốc Vinh -Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên công trình, thời gian địa điểm cơng bố -Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả luận văn Phan Trọng Hải MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nghiên cứu Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Dự kiến kết Ý nghĩa khoa học thực tiễn luận văn Bố cục luận văn CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lƣợc khai phá liệu 1.1.2 Các kỹ thuật áp dụng khai phá liệu 1.1.3 Các bƣớc xây dựng hệ thống khai phá liệu 1.1.4 Ứng dụng khai phá liệu 10 1.1.5 Khó khăn khai phá liệu 10 1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 11 1.2.1 Phân lớp liệu 11 1.2.2 Quá trình phân lớp liệu 11 1.2.3 Các vấn đề liên quan đến phân lớp liệu 13 1.3 GIỚI THIỆU CÂY QUYẾT ĐỊNH 16 1.3.1 Giới thiệu chung 16 1.3.2 Ƣu điểm định 17 1.3.3 Các luật đƣợc rút từ định 17 1.4 THUẬT TOÁN C4.5 18 1.4.1 Giới thiệu 18 1.4.2 Giải thuật C4.5 xây dựng định từ xuống 19 1.4.3 Chọn thuộc tính phân loại tốt 21 1.4.4 Entropy đo tính tập ví dụ 22 1.4.5 Tỷ suất lợi ích Gain Ratio 25 1.4.6 Chuyển dạng luật 26 1.5 RANDOM FOREST 27 1.5.1 Cơ sở định nghĩa 27 1.5.2 Tóm tắt giải thuật 28 1.5.3 Mô hình phân lớp với Random Forest 29 1.5.4 Xây dựng ng u nhiên 30 1.5.5 Tạo ng u nhiên 30 1.5.6 Đặc điểm Random Forest 31 KẾT LUẬN CHƢƠNG 31 CHƯƠNG ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI 32 2.1 KHÁI QUÁT VỀ THỊ TRƢỜNG BẢO HIỂM XE CƠ GIỚI 32 2.2 ĐÁNH GIÁ RỦI RO XE CƠ GIỚI 33 2.2.1 Khái niệm rủi ro 33 2.2.2 Khái niệm đánh giá rủi ro 34 2.2.3 Phạm vi bảo hiểm 34 2.2.4 Quy trình đánh giá rủi ro bảo hiểm xe giới 35 2.2.5 Các yếu tố ảnh hƣởng đến rủi ro bảo hiểm xe giới 35 2.3 PHÂN TÍCH HIỆN TRẠNG 36 2.3.1 Chỉ số lĩnh vực kinh doanh bảo hiểm xe giới 36 2.3.2 Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro bảo hiểm xe giới 37 2.4 SO SÁNH KẾT QUẢ PHÂN LỚP GIỮA THUẬT TOÁN C4.5 VÀ RANDOM FOREST 38 2.5 ỨNG DỤNG CÂY QUYẾT ĐỊNH 40 2.5.1 Phân tích liệu 40 2.5.2 Xây dựng mơ hình phân lớp với Random Forest 42 2.5.3 Mơ hình tổng quát 45 2.5.4 Ƣớc tính độ xác mơ hình 50 KẾT LUẬN CHƢƠNG 52 CHƯƠNG XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG 53 3.1 CHỨC NĂNG HỆ THỐNG 53 3.1.1 Các chức 53 3.1.2 Phân tích yêu cầu 54 3.2 THỬ NGHIỆM ỨNG DỤNG 59 3.3 ĐÁNH GIÁ ĐỘ CHÍNH XÁC 63 3.3.1 Mơ hình định b ng thuật tốn C4.5 63 3.3.2 Mơ hình Random Forest 65 3.3.3 So sánh độ xác mơ hình C4.5 Random Forest 68 KẾT LUẬN CHƢƠNG 69 KẾT LUẬN 69 DANH MỤC TÀI LIỆU THAM KHẢO 70 QUYẾT ĐỊNH GIAO ĐỀ TÀI (bản sao) DANH MỤC CÁC TỪ VIẾT TẮT Tiếng Việt CSDL Cơ sở liệu CNTT Công nghệ thông tin KPDL Khai phá liệu MDSD Mục đích sử dụng MH Máy học STBT Số tiền bồi thƣờng SL Số lƣợng TGSD Thời gian sử dụng XCG Xe giới Tiếng nƣớc CART Classification and Regression Trees DBMS Database Management System KDD Knowledge Discovery in Database OOB Out of Bag DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang 1.1 Tập ví dụ huấn luyện 19 2.1 Số liệu kinh doanh chi nhánh Quảng Ngãi 36 2.2 Thống kê tình hình bồi thƣờng tổn thất 37 2.3 Sử dụng phần mềm Weka so sánh độ xác thuật tốn C4.5 Random Forest 39 2.4 Bảng liệu m u 10 khách hàng 40 2.5 Bảng thuộc tính ng u nhiên để chia nút 43 2.6 Bảng thuộc tính khách hàng 44 2.7 Bảng liệu bootstrap 10 khách hàng 46 2.8 Entropy(S) phân theo thời gian sử dụng (TGSD) = 6,5 năm 47 2.9 Entropy(S) phân theo Mục Đích Sử Dụng 48 2.10 Entropy(S) phân theo thời gian sử dụng 49 2.11 Entropy(S) phân theo Số Tiền Bồi Thƣờng 49 3.1 Ví dụ khách hàng cần tƣ vấn 63 3.2 So sánh độ xác C4.5 Random Forest 68 DANH MỤC CÁC HÌNH Số Tên hình Trang hiệu 1.1 Quá trình khám phá tri thức 1.2 Xây dựng mơ hình phân lớp 11 1.3 Ƣớc lƣợng độ xác 12 1.4 Phân lớp liệu 12 1.5 Ƣớc lƣợng độ xác mơ hình 14 1.6 Ví dụ K-fold croos validation - fold 15 1.7 Ví dụ K-fold croos validation-fold 15 1.8 Ví dụ K-fold croos validation-fold 16 1.9 Cây định phân lớp mức lƣơng 17 1.10 Một phần định đƣợc xây dựng 20 1.11 Entropy(S) 22 1.12 Cây định đƣợc xây dựng hoàn chỉnh 25 1.13 Chuyển định dạng luật 26 1.14 Mơ hình phân lớp với Random Forest 29 2.1 Thơng số thuật tốn xây dựng định b ng 38 C4.5 2.2 Thông số Random Forest 39 2.3 Tạo bootstrap 43 2.4 Cấu trúc ng u nhiên 43 2.5 Mơ hình Random Forest với numtree 44 2.6 Mơ hình tổng qt Random Forest để phân lớp 45 2.7 Mơ hình phân lớp tạo với bootstrap 46 2.8 Các thuộc tính chọn để chia nút 46 2.9 Ngƣỡng thuộc tính để chia 48 Số Tên hình Trang hiệu 2.10 Ví dụ - Cây phân lớp với nút chia 50 2.11 Fold với CSDL 1724 bảng ghi khách hàng 51 2.12 Fold với CSDL 1724 bảng ghi khách hàng 51 2.13 Fold 10 với CSDL 1724 bảng ghi khách hàng 52 3.1 Biểu đồ ca sử dụng tổng quát 54 3.2 Phân rã ca sử dụng huấn luyện liệu 54 3.3 Phân rã ca sử dụng Tƣ vấn 55 3.4 Biểu đồ hoạt động huấn luyện liệu 56 3.5 Biểu đồ hoạt động tƣ vấn 56 3.6 Biểu đồ cho hoạt động đăng nhập 57 3.7 Biểu đồ cho hoạt động huấn luyện liệu 57 3.9 Triển khai hệ thống 58 3.10 Màn hình Đăng nhập hệ thống 59 3.11 Màn hình Menu 59 3.12 Màn hình tải liệu huấn luyện 60 3.13 Giao diện mơ hình phân lớp Decision tree (C4.5) 61 3.14 Giao diện mơ hình phân lớp Random Forest 62 3.15 Giao diện ứng dụng tƣ vấn 63 3.16 Mơ hình định b ng C4.5 64 3.17 Độ xác mơ hình định b ng C4.5- fold 64 3.18 Kết độ xác mơ hình định C4.5 65 3.19 Mơ hình Cây định b ng Random Forest 66 3.20 Độ xác mơ hình Random Forest- fold1 68 3.21 Kết Độ xác mơ hình Random Forest 68 57 Cán thẩm dịnh Form đăng nhập Điều khiển đăng nhập Nhập ID, mật Kiểm tra thông tin Xác nhận đăng nhập Thơng báo đăng nhập Hình 3.6 Biểu đồ cho hoạt động đăng nhập Cán thẩm dịnh Form huấn luyện Điều khiển huấn luyện Chọn chức tải dử liệu Gửi yêu cầu tải liệu Trả bảng liệu Chọn chức huấn luyện dƣ liệu Gửi yêu cầu huấn luyện dƣ liệu Trả đinh tập luật Chọn chức lƣu Gửi yêu cầu lƣu Hình 3.7 Biểu đồ cho hoạt động huấn luyện liệu 58 Cán thẩm dịnh Form huấn luyện Điều khiển huấn luyện Chọn chức tải dử liệu Gửi yêu cầu tải liệu Trả bảng liệu Chọn chức huấn luyện dƣ liệu Gửi yêu cầu huấn luyện dƣ liệu Trả đinh tập luật Chọn chức lƣu Gửi yêu cầu lƣu Hình 3.8 Biểu đồ cho hoạt động tư vấn e Triển khai hệ thống Hệ thống đƣợc cài đặt máy cán thẩm định sử dụng Database đƣợc cài máy server dùng chung cho máy PC client TCP/IP PC sử dụng Server Database Hình 3.9 Triển khai hệ thống 59 3.2 THỬ NGHIỆM ỨNG DỤNG  Giao diện đăng nhập hệ thống: Ngƣời dùng đăng nhập với tên đăng nhập mật riêng để đăng nhập vào hệ thống Hình 3.10 Màn hình Đăng nhập hệ thống  Giao diện chính: Có chức Huấn Luyện Dữ Liệu Tƣ Vấn: Hình 3.11 Màn hình Menu 60  Huấn Luyện Dữ Liệu: Đầu tiên ta chon mút Chọn liệu để nạp liệu huấn luyện (dữ liệu huấn luyện file excel có phần mở rộng *.xls file CSV, arff) Phần mơ hình hệ thống gồm có mơ hình phân lớp Decision tree (C4.5) Random Forest Sau chay hệ thống sinh tập luật kết xuất kết dự đốn khách hàng lƣu database Hình 3.12 Màn hình tải liệu huấn luyện 61 Mơ hình phân lớp Decision tree (C4.5) Hình 3.13 Giao diện mơ hình phân lớp Decision tree (C4.5) Trong đó: + ConfidenceFactor: Hệ số cắt tỉa, có giá trị nhỏ bị cắt tỉa + MinNumObj: Số lƣợng tối thiểu trƣờng hợp nhánh tách + NumFolds: Số lần rút liệu ng u nhiên 62  Mơ hình phân lớp với Random Forest Hình 3.14 Giao diện mơ hình phân lớp Random Forest Trong đó: + maxDepth: Cho thấy độ sâu tối đa Thƣờng chọn để truy xuất đầy đủ liệu, nhiên liệu lớn Thời quan xử lý lâu, cần giới hạn lại độ sâu + numFeatures: Số lƣợng thuộc tính sử dụng lựa chọn ng u nhiên để chia nút + numTree: Số lƣợng đƣợc tạo  Giao diện Tƣ Vấn: Khi chọn chức này, hệ thống cho phép ngƣời dùng cập nhật trực tiếp thông tin khách hàng mà cán định cần 63 hệ thống tƣ vấn tƣ vấn, sau click Xem Kết Quả, hệ thống dựa vào tập luật có database xuất kết dự đoán phân lớp khách hàng vùng thị Kết Quả Bảng 3.1 Ví dụ khách hàng cần tư vấn Mục Đích thời gian sử dụng sử dụng Chƣa xác định Chƣa xác định Kinh nghiệm lái xe Giới tính Bảo dƣỡng định kỳ Số tiền bồi thƣờng Khu vực để xe Phạm vi hoạt đông Nam Có 12 Khơng Chƣa xác định Rủi ro ? Hình 3.15 Giao diện ứng dụng tư vấn  Với liệu cần tƣ vấn bảng 3.1 chƣơng trình sinh 30 tập luật Trong có 26 tập luật nguy rủi ro trung bình, tập luật nguy rủi ro cao Từ cán thẩm định đƣa định cách 3.3 ĐÁNH GIÁ Đ CHÍNH XÁC 3.3.1 Mơ hình c y định thuật tốn C4.5 Xây dựng mơ hình phân lớp đánh giá kết với định b ng C4.5 với liệu 1724 khách hàng lựa chọn phƣơng pháp cắt tỉa 64 a ết qu mơ hình câ qu ết định b ng thu t tốn C ******* MƠ HÌNH ******* J48 pruned tree -sotienboithuong 85.54% -Fold : Đúng 141/173 => 81.97% -Fold : Đúng 145/173 => 84.30% -Fold : Đúng 152/173 => 88.37% -Fold : Đúng 141/172 => 81.97% -Fold : Đúng 146/172 => 84.88% -Fold 10: Đúng 148/172 => 86.04% Kết độ xác: 1452/1724 => 84.22% ************** TỔNG KẾT ****************** Số trường hợp xác Cây Quyết Định(C4.5) với 1724 trường hợp = 1452.0 Tỉ lệ xác của Cây Quyết Định(C4.5) = 84.22273781902551% *************************************** Hình 3.18 Kết độ xác mơ hình định C4.5 3.3.2 Mơ hình Random Forest a ết qu mơ hình phân lớp với andom rorest ******* MƠ HÌNH ******* Random forest 25 Cây, lần tạo xem xét thuộc tính Tỉ lệ lỗi Out of bag: 0.2065 RandomTree ========== phamvihoatdong = NgoaiTinh | sotienboithuong < 30 | | thoigiansudung < 8.5 | | | kinhnghiemlaixe < | | | | baoduongdinhky = Co : TrungBinh (1/0) | | | | baoduongdinhky = Khong | | | | | mucdichsudung = ChuyenDung : Thap (2/0) | | | | | | phamvihoatdong = NgoaiTinh : Thap (1/0) | | | | | | phamvihoatdong = TrongTinh : Thap (8/2) | | | | thoigiansudung >= 12 : Thap (9/0) sotienboithuong >= 35 : Cao (156/0) 66 Hình 3.19 Mơ hình Cây định Random Forest Với kết mơ hình tập hợp 25 với thuộc tính ng u nhiên đƣợc chọn xem xét chia Cách biểu diễn nhƣ giúp ta biểu diễn đƣợc có kích thƣớc lớn để dễ cho việc sử dụng Với phần định Hình 3.19 ta vẽ nhƣ sau: 67 b ánh giá độ xác mơ hình Đánh giá độ xác mơ hình b ng cách sử dụng k-fold croos validation với k=10 Kết với lần chạy là: Fold 1: 68 Hình 3.20 Độ xác mơ hình Random Forest- fold1 Vậy Fold 1: Đúng 144/173 => 83,23% Tƣơng tự với lần chạy lại: -Fold : Đúng 141/173 => 81,50% -Fold : Đúng 140/173 => 80,92% -Fold : Đúng 152/173 => 87,86% -Fold : Đúng 141/172 => 81,97% -Fold : Đúng 146/172 => 84,88% -Fold : Đúng 152/172 => 88,37% -Fold : Đúng 143/172 => 83,13% -Fold : Đúng 146/172 => 84,88% -Fold 10 : Đúng 156/172 => 84,74% Kết độ xác: 1461/1724 => 84,74% ************** TỔNG KẾT ****************** Số trường hợp xác Random Forests với 1724 trường hợp = 1461.0 Tỉ lệ xác Random Forests = 84.74477958236659% *************************************** Hình 3.21 Kết Độ xác mơ hình Random Forest 3.3.3 So sánh độ xác mơ hình C4.5 Random Forest Bảng 3.2 So sánh độ xác C4.5 Random Forest Phƣơng pháp Độ xác Độ sai lệch Thời gian 69 Random Forest C4.5 84.74 % 15.26 % 8~9 giây 83.23 % 16.77 % giây Kết bảng 3.2 cho thấy thuật tốn C4.5 có tốc độ xử lý nhanh, khoản giây, Random Forest khoảng 8~9 giây Do tiết kiệm thời gian áp dụng xử lý cho khối liệu lớn Tuy nhiên, độ xác thuật tốn Random Forest (84.74 %) tƣơng đối tốt thuật toán C4.5 (83.23 %) KẾT LUẬN CHƢƠNG Trong chƣơng này, luận văn trình bày chức hệ thống, xây dựng kiểm thử ứng dụng dựa số liệu cụ thể từ Công ty Cổ phần Bảo hiểm AAA Quảng Ngãi Hệ thống trợ giúp cho cán thẩm định dễ dàng phát trƣờng hợp khách hàng có mức độ rủi ro cao Qua đƣa định hợp lý nh m tăng hiệu kinh doanh đơn vị KẾT LUẬN Kết đạt đƣợc 70 Về lý thuyết, luận văn trình bày đƣợc sở lý thuyết liên quan đến khai phá liệu, phân lớp liệu, thuật toán định C4.5 Random Forest Hệ thống đáp ứng đầy đủ yêu cầu chuyên môn việc đánh giá rủi ro bảo hiểm xe giới Nó giúp cho ngƣời dùng định cách khoa học, tránh đƣợc tình thẩm định theo cảm tính, hạn chế trƣờng hợp rủi ro tạo mạnh cạnh tranh doanh nghiệp lĩnh vực bảo hiểm Hạn chế Chƣơng trình phải chuyển đổi liệu từ SQL Server sang Excel Nên xử lý liệu đƣợc lƣu trữ b ng tập tin Excel Chƣa kết nối truy xuất liệu trực tiếp đến hệ quản trị sở liệu SQL Server công ty Dữ liệu có độ nhiễu số thuộc tính thiếu giá trị Sẽ phát sinh trƣờng hợp phân lớp hay phân loại bị sai Hƣớng phát triển Tiếp tục nghiên cứu thuật toán khai phá liệu b ng định nhƣ thuật toán CHAID, thuật toán MARS, thuật toán ADTNDA (dựa vào độ phụ thuộc thuộc tính) để nâng cao hiệu mơ hình định Cần thử nghiệm hệ thống với khối lƣợng liệu lớn để đánh giá lại độ tin cậy định đánh giá rủi ro Xây dựng giao diện đồ họa trực quan để dễ dàng tƣơng tác với ngƣời dùng DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt 71 [1] Hoàng Kiếm, Đỗ Phúc (2005), Giáo trình khai phá liệu, Trung tâm nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh [2] Lê Văn Tƣờng Lân, Đoàn Văn Ban, Lê Mạnh Thạnh (2006), Một phương pháp để xây dựng định có hiệu khai phá liệu, Kỷ yếu hội thảo quốc gia Công nghệ phần mềm Công nghệ tri thức [3] Nguyễn Quang Thu (2008), Quản lý rủi ro bảo hiểm doanh nghiệp, NXB Thống kê [4] Khối Xe giới (2010), Tài liệu hướng dẫn khai thác bảo hiểm xe giới, Công ty Cổ phẩn Bảo Hiểm AAA, Lƣu hành nội [5] Khối Xe giới (2012), Quy trình khai thác quản lý hợp đồng bảo hiểm xe giới, Công ty Cổ phẩn Bảo Hiểm AAA, Lƣu hành nội Tiếng Anh [6] IJCSI International Journal of Computer Science Issues, Vol 9, Issue 5, No 3, September 2012, Random Forests and Decision Trees [7] Mitchell T (1999) “Machine Learning and Data Mining”, Communications of the ACM, Vol 42, No 11, pp 30-36 [8] J Ross Quinlan (1993), C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, California [9] Vanden Berghen Frank (2003), C4.5 – Classification Tree, Universit Libre de bruxelles Trang Web [10] http://en.wikipedia.org/wiki/C4.5_algorithm [11] http://www.decisiontrees.net/ [12] http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ... đánh giá bồi thƣờng rủi ro bảo hiểm xe giới Xuất phát từ lý đƣợc đồng ý TS Nguyễn Trần Quốc Vinh, chọn đề tài: ? ?Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo. ..BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN TRỌNG HẢI ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI Chuyên ngành: Hệ thống thông tin... đáo 2.2 ĐÁNH GIÁ RỦI RO XE CƠ GIỚI 2.2.1 Khái niệm rủi ro Rủi ro khái niệm cần đề cập nói bảo hiểm rủi ro bảo hiểm gắn liền với nhƣ hình với bóng, có rủi ro có bảo hiểm Vậy rủi ro gì? Rủi ro điều

Ngày đăng: 14/05/2021, 15:17

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan