Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 95 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
95
Dung lượng
6,03 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM NGUYỄN THỊ THU AN ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM NGUYỄN THỊ THU AN ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI Chuyên ngành: Hệ thống thông tin Mã số: 61.49.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Người hướng dẫn khoa học: TS Nguyễn Trần Quốc Vinh Đà Nẵng - Năm 2017 LỜI CAM ĐOAN Tôi xin cam đoan: - Những nội dung luận văn thực hướng dẫn trực tiếp TS Nguyễn Trần Quốc Vinh - Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian địa điểm công bố - Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả luận văn Nguyễn Thị Thu An MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nghiên cứu 3 Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Dự kiến kết Ý nghĩa khoa học thực tiễn luận văn Bố cục luận văn CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lược khai phá liệu 1.1.2 Các kỹ thuật áp dụng khai phá liệu 1.1.3 Các bước xây dựng hệ thống khai phá liệu 1.1.4 Ứng dụng khai phá liệu 10 1.1.5 Khó khăn khai phá liệu 10 1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 10 1.2.1 Phân lớp liệu 10 1.2.2 Quá trình phân lớp liệu 11 1.2.3 Các vấn đề liên quan đến phân lớp liệu 14 1.3 CÂY QUYẾT ĐỊNH 17 1.3.1 Cây định ID3 17 1.3.2 Cây định mờ (Fuzzy Decision tree) 21 1.4 RỪNG NGẪU NHIÊN 30 1.4.1 Rừng ngẫu nhiên (Random Forest) 30 1.4.2 Rừng ngẫu nhiên mờ (Fuzzy Random Forest) 31 1.4.3 Mơ hình phân lớp với rừng ngẫu nhiên mờ 33 KẾT CHƯƠNG 37 CHƯƠNG ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ TRONG CÔNG TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI 38 2.1 KHÁI QUÁT VỀ THỊ TRƯỜNG BẢO HIỂM XE CƠ GIỚI 38 2.2 ĐÁNH GIÁ RỦI RO XE CƠ GIỚI 39 2.2.1 Khái niệm rủi ro 39 2.2.2 Khái niệm đánh giá rủi ro 39 2.2.3 Phạm vi bảo hiểm 40 2.2.4 Quy trình đánh giá rủi ro bảo hiểm xe giới 40 2.2.5 Các yếu tố ảnh hưởng đến rủi ro bảo hiểm xe giới 40 2.3 PHÂN TÍCH HIỆN TRẠNG 41 2.3.1 Chỉ số lĩnh vực kinh doanh bảo hiểm xe giới 41 2.3.2 Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro bảo hiểm xe giới 42 2.4 ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ 42 2.4.1 Phân tích liệu 42 2.4.2 Mờ hóa liệu 44 2.4.3 Xây dựng ngẫu nhiên mờ 46 2.5.4 Mơ hình tổng qt 48 2.4.5 Ước tính độ xác mơ hình 48 KẾT CHƯƠNG 50 CHƯƠNG XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG 51 3.1 CHỨC NĂNG HỆ THỐNG 51 3.1.1 Phân tích yêu cầu 51 3.1.2 Các chức 55 3.2 THỬ NGHIỆM ỨNG DỤNG 56 3.3 ĐÁNH GIÁ ĐỘ CHÍNH XÁC 60 3.3.1 Mô hình Random Forest 60 3.3.2 Mơ hình Fuzzy Random Forest 62 2.3.3 So sánh độ xác mơ hình Random Forest Fuzzy Random Forest 64 KẾT CHƯƠNG 64 KẾT LUẬN 65 DANH MỤC TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI (BẢN SAO) PHỤ LỤC DANH MỤC CÁC TỪ VIẾT TẮT Tiếng Việt CSDL : Cơ sở liệu CNTT : Công nghệ thông tin KPDL : Khai phá liệu MDSD : Mục đích sử dụng MH : Máy học STBT : Số tiền bồi thường SL : Số lượng TGSD Thời gian sử dụng XCG Xe giới Tiếng nước CART Classification and Regression Trees DBMS Database Management System KDD Knowledge Discovery in Database FRF Fuzzy Random Forest OOB Out of Bag RF Random Forest DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng Trang 2.1 Số liệu kinh doanh chi nhánh Quảng Ngãi 41 2.2 Thống kê tình hình bồi thường tổn thất 42 2.3 Mẫu liệu 10 khách hàng 44 2.4 Giá trị hàm membership 10 liệu khách hàng 47 2.5 Mẫu bootstrap 10 khách hàng 47 3.1 Ví dụ khách hàng cần tư vấn 59 3.2 So sánh độ xác Random Forest Fuzzy Random Forest 64 DANH MỤC CÁC HÌNH Số hiệu Tên hình hình Trang 1.1 Quá trình khám phá tri thức 1.2 Xây dựng mơ hình phân lớp 12 1.3 Ước lượng độ xác 13 1.4 Phân lớp liệu 13 1.5 Ước lượng độ xác mơ hình 16 1.6 Ví dụ K-fold croos validation - fold 16 1.7 Ví dụ K-fold croos validation-fold 17 1.8 Ví dụ K-fold croos validation-fold 17 1.9 Xây dựng định theo thuật toán ID3 18 1.10 Đồ thị hàm thuộc tập mờ A 23 1.11 Hình biểu diễn chức thành phần Nhiệt độ 25 1.12 Hình biểu diễn chức thành phần Gió 26 1.13 Biểu diễn chức thành phần Ùn tắc giao thông 26 1.14 Xây dựng Fuzzy ID3 29 2.1 Đồ thị hàm membership 46 2.2 Bước tách nút lần 47 2.3 Mô hình tổng quát Fuzzy Random Forest để phân lớp 48 2.4 Fold với CSDL 1957 bảng ghi khách hàng 49 2.5 Fold với CSDL 1957 bảng ghi khách hàng 49 2.6 Fold 10 với CSDL 1957 bảng ghi khách hàng 50 3.1 Biểu đồ ca sử dụng tổng quát 51 3.2 Phân rã ca sử dụng huấn luyện liệu 52 3.3 Phân rã ca sử dụng Tư vấn 52 Số hiệu Tên hình hình Trang 3.4 Biểu đồ hoạt động huấn luyện liệu 53 3.5 Biểu đồ hoạt động tư vấn 53 3.6 Biểu đồ cho hoạt động đăng nhập 53 3.7 Biểu đồ cho hoạt động huấn luyện liệu 54 3.8 Biểu đồ cho hoạt động tư vấn 54 3.9 Triển khai hệ thống 55 3.10 Màn hình Đăng nhập hệ thống 56 3.11 Màn hình Menu 56 3.12 Màn hình tải liệu huấn luyện 57 3.13 Giao diện mơ hình phân lớp Random Forest 57 3.14 Giao diện mơ hình phân lớp Fuzzy Random Forest 58 3.15 Giao diện ứng dụng tư vấn 59 3.16 Mô hình Cây quyế t đinh ̣ Random Forest 60 3.17 Đô ̣ chiń h xác của mô hin ̀ h Random Forest- fold1 61 3.18 Kết độ xác mơ hình Random Forest 62 3.19 Mơ hình định Fuzzy Random Forest 62 3.20 3.21 Độ xác mơ hình Fuzzy Random Forest – Fold Kết độ xác mơ hình Fuzzy Random Forest 63 64 PHỤ LỤC A Hàm định mờ function [tree] = FDT(examp, attributes, C,mumfv) theta=2; theta_n=1; numberAttr=length(attributes); numberEx = length(examp(:,1)); lastColumn = examp(:, numberAttr+1); un =unique(lastColumn); num_outcome = length(un); tree = struct('value','null','bound1' ,'null','bound2' ,'null', 'bound3' ,'null','left', 'null','center', 'null', 'right', 'null'); if(num_outcome == 1) tree.value = un; return end GI=zeros(1,numberAttr); for j=1:numberAttr GI(:,j)=GGain(C(:,:,j),lastColumn); end [M I]=max(GI); index =I; m=M; %%%%%%%%%%%%%%%%% switch attributes{index} case {'GioiTinh','PhamViHD','BaoDuongDK','KVDoXe'} fBound1 = 0.25; fBound2 = 0.5; fBound3 = 0.75; case {'MucDichSD'} fBound1 = 0.5; fBound2 = 1; fBound3 = 1.5 ; case {'ThoiGianSD'} fBound1 = 5; fBound2 = 9.953; fBound3 = 15 ; case {'SoTienBT'} fBound1 = 10; fBound2 = 17.733; fBound3 = 35; case {'KinhNghiemLX'} fBound1 = 5; fBound2 = 8.255; fBound3 = 10 ; end %end ten=attributes{index}; tree.value=ten; tree.bound1=fBound1 ; tree.bound2=fBound2; tree.bound3=fBound3; if(m==0) return end %%%%%% for j=1:numberEx; if (examp(j,index)=fBound1,examp(j,index)fBound2) mumfv(j,3,index)= mumfv(j,3,index)*C(j,3,index); end end %%%%%%%%%%%%%%%%% for j=1:numberEx; if (examp(j,index)=fBound1,examp(j,index)fBound2) mumfv(j,3,index)= mumfv(j,3,index)*C(j,3,index); end end %%%%%%%%%%%% cl=[[ 3],numberAttr]; cc=[[ 3],numberAttr]; cr=[[ 3],numberAttr]; mumfvl=[[ 3],numberAttr]; mumfvc=[[ 3],numberAttr]; mumfvr=[[ 3],numberAttr]; for i=1:numberEx; if(examp(i,index)fBound2) for k=1:numberAttr cr(i,1,k)=C(i,1,k); cr(i,2,k)=C(i,2,k); cr(i,3,k)=C(i,3,k); mumfvr(i,1,k)=mumfv(i,1,k); mumfvr(i,2,k)=mumfv(i,2,k); mumfvr(i,3,k)=mumfv(i,3,k); end end if(examp(i,index)>=fBound1)&(examp(i,index)=fBound1,examp(j,index)theta, mltheta,mctheta,mr