Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,22 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM NGUYỄN THỊ THU AN ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI Chuyên ngành: Hệ thống thơng tin Mã số: 61.49.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng – Năm 2017 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH Phản biện 1: TS Phạm Anh Phương Phản biện 2: PGS.TS Hoàng Quang Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Hệ thống thông tin họp Trường Đại học Sư phạm – ĐHĐN vào ngày 30 tháng năm 2017 Có thể tìm hiểu luận văn tại: - Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng - Trung tâm thông tin học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, phát triển mạnh mẽ công nghệ thông tin làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách chóng mặt Bên cạnh đó, việc tin học hóa cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu sở liệu sử dụng cho hoạt động sản xuất, kinh doanh quản lý, Theo thống kê, dân số Quảng Ngãi có 1.200.000 người, tập trung 12 huyện thành phố Trong có khoản 593.243 phương tiện giới tham gia giao thơng có 20.114 tơ, 573.129 mơtơ loại Theo số liệu Ủy ban An toàn giao thơng tỉnh Quảng Ngãi, năm 2015 có khoản 792 vụ nạn giao thông, làm hỏng 1.467 phương tiện ô tô xe máy loại, đa số tập trung vùng đồng Mức tăng trưởng kinh tế Quảng Ngãi đạt cao liền với vấn đề tai nạn giao thông ùn tắc giao thông, đặc biệt giao thông đường bộ, số vụ giao thông không ngừng tăng quy mô số lượng Đây mối lo ngại lớn chủ xe giới họ khơng gây thiệt hại cho thân mà phải chịu trách nhiệm bên thứ ba Để khắc phục tổn hại cho bên, bảo hiểm xe giới đời chứng minh cần thiết khách quan loại hình bảo hiểm Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe giới quan trọng phức tạp Quy trình tác nghiệp địi hỏi người thẩm định vừa phải có trình độ chun mơn nghiệp vụ cao, vừa phải có nhiều kinh nghiệm thực tiễn Tuy nhiên, hầu hết công ty trọng đến vấn đề doanh thu mà quan tâm đến cơng tác đánh giá rủi ro, đa phần việc đánh giá rủi ro thủ cơng, sơ sài cảm tính dẫn đến hiệu kinh doanh thường không mong muốn Mặt khác, vấn đề giải bồi thường có tổn thất xảy cần “Nhanh, Đúng, Đủ” mang lại cho khách hàng niềm tin, sẻ chia rủi ro mà họ gặp phải Vấn đề bồi thường sau tai nạn mang tính nhạy cảm cao tác động khơng nhỏ đến tính hiệu hoạt động kinh doanh bảo hiểm Nắm bắt vấn đề tính cấp thiết hoạt động đánh giá rủi ro bồi thường tổn thất bảo hiểm xe giới, thấy cần phải xây dựng triển khai hệ thống ứng dụng công nghệ thơng tin nhằm đáp ứng nhu cầu phân tích, xử lý hỗ trợ đến mức tối đa cho công tác đánh giá bồi thường rủi ro bảo hiểm xe giới Hiện nay, có số cơng trình nghiên cứu sử dụng để xây dựng hệ thống đánh giá rủi ro xe giới như: thuật toán C4.5, thuật toán rừng nhẫu nhiên, thuật toán rừng ngẫu nhiên mờ chưa sử dụng Vì tơi chọn đề tài: “Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro bảo hiểm xe giới” để làm luận văn thạc sỹ Mục tiêu nghiên cứu - Nghiên cứu thuật toán liên quan đến định - Phân tích, so sánh đánh giá triển khai áp dụng thuật toán Random Forest Fuzzy Random Forest - Xây dựng hệ thống trợ giúp đánh giá rủi ro xe giới, đảm bảo đầy đủ yêu cầu mặt chuyên môn lĩnh vực bảo hiểm xe giới nâng cao hiệu kinh doanh đơn vị Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu - Nghiên cứu quy định, quy trình đánh giá rủi ro xe giới - Các vấn đề liên quan đến độ rủi ro bảo hiểm xe giới - Hồ sơ khách hàng tham gia mua bảo hiểm xe giới Công ty Cổ phần Bảo hiểm AAA Quảng Ngãi - Các phương pháp khai phá liệu 3.2 Phạm vi nghiên cứu - Kỹ thuật khai phá liệu rừng ngẫu nhiên (Random Forest) rừng ngẫu nhiên mờ (Fuzzy Random Forest) - Các biểu mẫu, số liệu kinh doanh Công ty Cổ phần Bảo hiểm AAA Quảng Ngãi khoảng thời gian 2013, 2014, 2015 - Thống kê, phân tích số liệu thực tế, xây dựng liệu mẫu dùng để kiểm tra, thử nghiệm chương trình đưa nhận xét, đánh giá kết đạt Phương pháp nghiên cứu 4.1 Nghiên cứu lý thuyết - Nghiên cứu tài liệu, ngơn ngữ cơng nghệ có liên quan - Khai phá liệu phân lớp liệu - Giải thuật xây dựng định - Nghiên cứu Thuật toán Random Forest Fuzzy Random Forest việc dự đốn phân loại thơng tin 4.2 Nghiên cứu thực nghiệm - Tiến hành thu thập tổng hợp tài liệu liên quan đến quy trình thẩm định đánh giá hồ sơ lĩnh vực bảo hiểm xe giới - Vận dụng sở lý thuyết để xây dựng ứng dụng, tiến hành kiểm thử so sánh đánh giá hiệu suất ứng dụng Dự kiến kết 5.1 Kết lý thuyết - Hiểu thêm phương pháp khai phá liệu - Ứng dụng phương pháp khai phá liệu vào dự đốn tính rủi ro khai thác bảo hiểm nhằm nâng cao hiệu kinh doanh đơn vị 5.2 Kết thực tiễn - Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe giới Công ty Cổ phần Bảo hiểm AAA Quảng Ngãi - Hệ thống giúp đánh giá rủi ro nhanh chóng đảm bảo mặt tối ưu, có chức dễ sử dụng Ý nghĩa khoa học thực tiễn luận văn Áp dụng lý thuyết thuật toán rừng ngẫu nhiên mờ vào toán đánh giá rủi ro khai thác bảo hiểm cho xe giới Về mặt thực tiễn, ứng dụng phân tích liệu kinh doanh công ty năm gần đây, qua phát trường hợp bảo hiểm xe giới có mức độ rủi ro cao Giúp dự đoán hỗ trợ định xác, tránh tình bồi thường theo cảm tính, đồng thời hạn chế trường hợp rủi ro tăng hiệu kinh doanh công ty Bố cục luận văn Chương 1: Nghiên cứu tổng quan Chương 2: Ứng dụng định công tác đánh giá rủi ro bồi thường bảo hiểm xe giới Chương 3: Xây dựng chương trình thử nghiệm ứng dụng Cuối đánh giá, kết luận hướng phát triển đề tài CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lược khai phá liệu Trong thời đại ngày nay, với phát triển vượt bậc công nghệ thông tin, hệ thống thơng tin lưu trữ khối lượng lớn liệu hoạt động hàng ngày chúng Từ khối liệu này, kỹ thuật khai phá liệu máy học dùng để trích xuất thơng tin hữu ích mà chưa biết Các tri thức vừa học vận dụng để cải thiện hiệu hoạt động hệ thống thơng tin ban đầu Như ta khái quát hóa khái niệm khai phá liệu “q trình khảo sát phân tích lượng lớn liệu lưu trữ sở liệu (CSDL), kho liệu… để từ trích xuất thơng tin quan trọng, có giá trị tiềm ẩn bên trong” 1.1.2 Các kỹ thuật áp dụng khai phá liệu - Học có giám sát (supervised learning) - Học khơng có giám sát (unsupervised learning) - Học bán giám sát (semi-supervised learning) - Học tăng cường (reinforcement learning) 1.1.3 Các bước xây dựng hệ thống khai phá liệu 1.1.4 Ứng dụng khai phá liệu 1.1.5 Khó khăn khai phá liệu 1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 1.2.1 Phân lớp liệu Phân lớp liệu gán mẫu vào lớp với độ xác cao để dự báo cho liệu (mẫu) Đầu vào tập mẫu liệu huấn luyện, với nhãn phân lớp cho mẫu liệu Đầu mơ hình dự đoán (bộ phân lớp) dựa tập huấn luyện nhãn phân lớp 1.2.2 Quá trình phân lớp liệu Quá trình phân lớp liệu gồm hai bước [14]: - Bước thứ (learning): quá trình ho ̣c nhằm xây dựng mô ̣t mô hình mô tả tâ ̣p các lớp dữ liê ̣u hay các khái niê ̣m đinh ̣ trước - Bước thứ hai (classification): bước này dùng mô hình đã xây dựng đươ ̣c ở bước thứ nhấ t để phân lớp dữ liê ̣u mới 1.2.3 Các vấn đề liên quan đến phân lớp liệu 1.3 CÂY QUYẾT ĐỊNH 1.3.1 Cây định ID3 1.3.2 Cây định mờ (Fuzzy Decision tree) 1.4 RỪNG NGẪU NHIÊN 1.4.1 Rừng ngẫu nhiên (Random Forest) Random Forest phương pháp học quần thể để phân loại, hồi quy nhiệm vụ khác, hoạt động cách xây dựng vô số định thời gian đào tạo đầu lớp mơ hình phân lớp hồi quy riêng biệt Nó nhóm phân loại hồi quy không cắt tỉa làm từ lựa chọn ngẫu nhiên mẫu liệu huấn luyện Tính ngẫu nhiên chọn trình cảm ứng Dự đốn thực cách kết hợp (đa số phiếu để phân loại trung bình cho hồi quy) dự đốn quần thể Thuật toán Random Forest (RF) Function RF (input: E, Output: Random Forest) Begin Tạo S: Lấy ngẫu nhiên có hồn lại |E| từ mẫu tập huấn luyện E Xây dựng định (Decision Tree – DT) từ tập S Lặp lại bước bước tất định (DT) xây dựng End 1.4.2 Rừng ngẫu nhiên mờ (Fuzzy Random Forest) Hiện có nhiều kỹ thuật thuật toán giải vấn đề phân lớp Tuy nhiên, đa số toán phân lớp áp dụng liệu đầy đủ đo đạc xác Nhưng thực tế liệu thu thập khơng hồn hảo, liệu méo mó, liệu khơng đầy đủ, việc xử lý dạng liệu khó khăn tốn Hơn thông tin thường điều chỉnh chun gia Do đó, tính xác thực liệu trở nên mơ hồ Vậy nên cần thiết xử lý trực tiếp dạng thông tin [3] Rừng ngẫu nhiên có hai yếu tố ngẫu nhiên, bagging sử dụng lựa chọn tập liệu sử dụng liệu đầu vào cho cây; hai tập thuộc tính coi ứng cử viên cho nút chia Tính ngẫu nhiên nhằm tăng đa dạng cải thiện xác kết dự báo rừng Khi rừng ngẫu nhiên xây dựng 1/3 đối tượng quan sát (exambles) loại bỏ khỏi liệu huấn luyện rừng Các đối tượng gọi “out of bag - OOB” Mỗi có tập đối tượng OOB khác Các đối tượng OOB không sử dụng để xây dựng sử dụng thử nghiệm cho tương ứng Chúng tơi phát độ xác phân lớp cải thiện với liệu khơng chắn sử dụng sức mạnh ngẫu nhiên phương pháp Fuzzy Random Forest để tăng đa dạng linh hoạt tập mờ Để phân loại, sử dụng phương pháp luận rừng ngẫu nhiên kết hợp xử lý liệu hoàn hảo, sau xây dựng rừng ngẫu nhiên sử dụng mờ phân loại sở Do đó, cố gắng sử dụng vững mạnh quần thể cây, sức mạnh ngẫu nhiênNess để tăng đa dạng rừng, linh hoạt logic mờ tập mờ để quản lý liệu khơng hồn hảo Thuật tốn Fuzzy Random Forest (FRF) tương tự thuật toán Random Forest, khác thay định thuật toán RF định mờ Function FRF (input: E, Fuzzy Partition; output: Fuzzy Random Forest) Begin Tạo tập S: Lấy ngẫu nhiên có hồn lại |E| mẫu từ tập huấn luyện E Xây dựng định mờ (Fuzzy Decision Tree – FDT) từ tập S Lặp lại bước bước tất định mờ (FDT) xây dựng End 1.4.3 Mơ hình phân lớp với rừng ngẫu nhiên mờ a Các ký hiệu - T số rừng ngẫu nhiên mờ (FRF) - Nt tổng số nút thứ t với t=1,2,3,…,T Đặc tính phân lớp định mờ mẫu thuộc nhiều khác chồng chéo tập mờ tạo số phân hoạch mà thuộc tính tồn phân hạch khác - I tổng số lớp liệu mẫu - E mẫu sử dụng huấn luyện kiểm tra - t , n (e) độ phụ thuộc mẫu e nút n t - Support độ hỗ trợ lớp I E Support (n) i với Ei tổng mức độ thuộc mẫu e lớp I En nút n, E n tổng mức độ thuộc đối tượng e nút n - L_FRF ma trận có kích thước T MAX N , với : t MAX Nt max{N1 , N2 , , NT } , phần tử ma trận véctơ có kích thước I có support(i) độ hỗ trợ nút n t Một số phần tử ma trận khơng thơng tin tất khơng có đạt MAX N t Tuy nhiên ma trận L_FRF bao gồm tất thông tin tạo FRF, thông tin sử dụng để phân lớp mẫu e - T_FRFt,i ma trận có kích thước ( T 1 ) bao gồm độ chắn (confidence) t lớp i - D_FRFi véc tơ có kích thước I, độ chắn FRF lớp i b Phân lớp rừng ngẫu nhiên mờ Phân lớp mờ P.Bonissone cộng đưa hai dạng mơ hình gọi Mơ hình (Strategy 1) Mơ hình (Strategy 2) sau: Hình 1.16 Mơ hình phân lớp mờ 10 errors (OOBt ) tỷ lệ lỗi lớn size(OOBt ) Trong đó: p max max t 1 T errors (OOBt ) size(OOBt ) rừng, tỷ lệ lỗi t, errors (OOBt ) số lỗi thực phân lớp thực t sử dụng liệu kiểm thử OOB, size(OOBt) kích thước liệu kiểm tra OOB t pmin tỷ lệ lỗi t m arg p max p Các FRF có trọng số lớn Trọng số thể tỷ lệ lỗi, có tỷ lệ lỗi thấp có trọng số Mơ hình (kí hiệu Strategy 2) Thuật toán FRF Classification (Strategy 2) FRFclassification(in: e, Fuzzy random Forest; out: c) ) Begin) Tạo ma trận L_FRF) For each class i D_FRFi=Faggre2(I,L_FRF) ) c=argmaxi,i=1 I {D_FRFi} end; Trong thuật tốn ma trận L_FRF tạo thông qua chạy mẫu e rừng hàm tổng hợp thông tin Faggre xác định công thức sau: T errors (OOBt ) Nt Faggre2 (i, T _ FRF ) T _ FRFt , n ,i t 1 size(OOBt ) n 1 (2.4) errors (OOBt ) xác định tương tự size(OOBt ) Với hàm phụ thuộc thuật toán FRF Classification (strategy 1) 11 KẾT CHƯƠNG Trong chương này, trình bày khái quát khai phá liệu, bước xây dựng hệ thống khai phá liệu, phân lớp khai phá liệu Giới thiệu chung định, thuật toán Random Forest Fuzzy Random Forest Trong chương tiếp theo, luận văn trình bày chi tiết cách thức vận dụng định để giải toán đánh giá rủi ro bồi thường bảo hiểm xe giới CHƯƠNG ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ TRONG CÔNG TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI 2.1 KHÁI QUÁT VỀ THỊ TRƯỜNG BẢO HIỂM XE CƠ GIỚI 2.2 ĐÁNH GIÁ RỦI RO XE CƠ GIỚI 2.2.1 Khái niệm rủi ro 2.2.2 Khái niệm đánh giá rủi ro 2.2.3 Phạm vi bảo hiểm 2.2.4 Quy trình đánh giá rủi ro bảo hiểm xe giới 2.2.5 Các yếu tố ảnh hưởng đến rủi ro bảo hiểm xe giới 2.3 PHÂN TÍCH HIỆN TRẠNG 2.3.1 Chỉ số lĩnh vực kinh doanh bảo hiểm xe giới 2.3.2 Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro bảo hiểm xe giới 2.4 ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ 2.5.1 Phân tích liệu Có nhiều yếu tố ảnh hưởng đến tỉ lệ rủi ro bảo hiểm xe giới nêu Tuy nhiên đây, chúng tơi trọng phân tích tập thuộc tính với yếu tố bảng liệu sau: 12 - Thuộc tính Giới tính loại tính Nominal có giá trị [Nam: 1, Nữ: 0] Thơng thường lái xe (kinh nghiệm lái xe =< năm), nguy rủi ro nữ thường cao so với nam - Thuộc tính Mục đích sử dụng loại tính Nominal có giá trị [kinh doanh:1 , không kinh doanh: 0, chuyên dụng: 2] + Xe kinh doanh: Là xe có cấp Giấy phép kinh doanh vận tải xe ô tô, thường dùng doanh nghiệp vận tải chuyên chở khách… + Xe không kinh doanh: Là xe sử dụng cá nhân cá hộ gia đình, doanh nghiệp tư nhân… + Xe chuyên dụng: Là xe sử dụng lĩnh vực đặc thù xe qua nhà nước, cứu thương, cứu hỏa… - Thuộc tính Thời gian sử dụng loại thuộc tính Numeric Xe sản xuất lâu năm nguy rủi ro cao - Thuộc tính Kinh nghiệm lái xe loại thuộc tính Numeric Nếu kinh nghiệm lái xe lâu năm, nguy rủi ro thấp Ngược lại kinh nghiệm lái xe nguy rủi ro cao - Thuộc tính Bảo dưỡng định kỳ loại tính Nominal có giá trị [Có: 1, Không: 0] Nếu chủ xe thường xuyên bảo dưỡng, kiểm tra định kỳ, chắn giảm thiểu rủi ro - Thuộc tính Khu vực để xe loại tính Nominal có giá trị [Gara: 1, Không: 0] Đây yếu tố ảnh hưởng đến mức độ rủi ro xe tham gia bảo hiểm Vì xe khơng có gara, nguy va quẹt xe nơi đậu đỗ cao - Thuộc tính Số tiền bồi thường loại thuộc tính Numeric Là tỉ lệ % số tiền bồi thường so với tổng phí bảo hiểm năm trước Nếu tỉ lệ 50% có nghĩa hợp đồng trước có nang, đồng nghĩa với tỉ lệ rủi ro cao - Thuộc tính Phạm vi hoạt động loại tính Nominal có giá trị [Trong tỉnh: 1, Ngoài tỉnh: 0] Nếu xe hoạt động địa bàn rộng (ngồi tỉnh) Thì khả gặp rủi ro cao Ngược lại xe 13 hoạt động tỉnh, nguy rủi ro thấp, thường va chạm vỏ xe chủ yếu Trong đó: + Numeric: Là giá trị số hay giá trị liên tục + Nominal: Là giá trị định danh hay giá trị không liên tục Các yếu tố tập thuộc tính, dựa vào tập thuộc tính ta dự đốn giá trị cho thuộc tính đích Rủi ro Đây thuộc tính phân loại Thuộc tính rủi ro có giá trị [Thấp: 1, Trung bình: 2, Cao: 3] 2.5.2 Mờ hóa liệu - Thuộc tính Giới tính, chúng tơi sử dụng hàm membership cho Nữ Nam a0(x) a1(x) xác định sau: 1 a0 ( x) 0 x x 1 a1 ( x) 0 x x -Thuộc tính Mục đích kinh doanh, chúng tơi sử dụng hàm membership cho Không kinh doanh, Kinh doanh Chuyên dụng b0(x), b1(x) b2(x) xác định sau: 1 b0 ( x) 0 1 b2 ( x) 0 x x 1, 2 ; 1 b1 ( x) 0 x x 0, 2 ; x x 0,1 - Thuộc tính Phạm vi hoạt động, chúng tơi sử dụng hàm membership cho Ngoại tỉnh Trong tỉnh a0 a1 - Thuộc tính Bảo dưỡng định kì, chúng tơi sử dụng hàm membership cho Khơng bảo dưỡng Có bảo dưỡng a0 a1 - Thuộc tính Khu vực đỗ xe, chúng tơi sử dụng hàm membership cho Khơng có gara Có gara a0 a1 - Thuộc tính Thời gian sử dụng, Số tiền bồi thường Kinh nghiệm lái xe, thuộc tính chúng tơi phân thành mức: Thấp, Trung bình, Cao + Đối với mức Thấp, sử dụng hàm membership Zshaped curve xác định sau: 14 x a 1 1 x a ba zmf ( x) x b ba 0 a x ab ab xb x b + Đối với mức Trung bình, chúng tơi sử dụng hàm membership Gaussian curve xác định sau: Gausmf ( x) e ( x m )2 2 + Đối với mức Cao, sử dụng hàm membership Sshaped curve xác định sau: 0 2 x a c b smf ( x) xc cb 1 x b b x bc bc xc x c Từ phân tích liệu 1957 khách hàng chúng tơi ước lượng tham số a, b c hàm zmf ( x) smf ( x) sau: Thời gian sử dụng Số tiền bồi thường Kinh nghiệm lái xe a b c 9.953 15 17.733 35 8.255 15 Ước lượng tham số m với hàm Gausmf ( x) sau: m Thời gian sử dụng 9.953 3.178 Số tiền bồi thường 17.733 11 Kinh nghiệm lái xe 8.255 2.648 Hình 2.1 Đồ thị hàm membership 15 2.5.3 Xây dựng ngẫu nhiên mờ Bước 1: Tạo mẫu bootstrap Bước Tạo định mờ với liệu bootstrap Chọn ngẫu nhiên thuộc tính thuộc tính; ta chọn thuộc tính sau: Giới tính, Phạm vi hoạt động, Kinh nghiệm lái xe Tính độ lợi thơng tin cho thuộc tính ta được: G f (S, Giới tính) = 0.4129 G f (S, Phạm vi hoạt động) = 0.6030 G f (S, Kinh nghiệm lái xe) = 0.3027 Phạm vi hoạt động có độ lợi thông tin lớn nên chọn làm nút góc để tách Bảng 2.4 Giá trị hàm membership 10 liệu khách hàng Bảng 2.5 Mẫu bootstrap 10 khách hàng 16 Hình 2.2 Bước tách nút lần Tiếp tục điều kiện dừng thỏa mãn ta định mờ 2.5.4 Mơ hình tổng qt Hình 2.3 Mơ hình tổng qt Fuzzy Random Forest để phân lớp 17 2.5.5 Ước tính độ xác mơ hình Ước tính độ xác mơ hình cách sử dụng k-fold crops validation với k=10 KẾT CHƯƠNG Trong chương này, tơi phân tích trang yếu tố ảnh hưởng đến rủi ro bảo hiểm xe giới So sánh kết phân lớp thuật toán Random Forest Fuzzy Random Forest Phân tích trình bày chi tiết q trình tính tốn, chọn lựa thuộc tính nhằm xây dựng định trực quan có khả phân loại đắn tập liệu cho trước để xây dựng hệ thống hỗ trợ đánh giá rủi ro bảo hiểm xe giới Chương tiếp theo, chúng tơi trình bày phương pháp xây dựng, cài đặt sau tiến hành kiểm thử ứng dụng CHƯƠNG XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG 3.1 CHỨC NĂNG HỆ THỐNG 3.1.1 Phân tích yêu cầu a Biểu đồ ca sử dụng b Biểu đồ hoạt động c Biểu đồ d Triển khai hệ thống 3.1.2 Các chức 3.2 THỬ NGHIỆM ỨNG DỤNG - Giao diện đăng nhập hệ thống: Người dùng đăng nhập với tên đăng nhập mật riêng để đăng nhập vào hệ thống 18 Hình 3.10 Màn hình Đăng nhập hệ thống ➢ Giao diện chính: Có chức Huấn luyện liệu Tư vấn: Hình 3.11 Màn hình Menu ➢ Huấn luyện liệu: Đầu tiên ta chon mút Chọn liệu để nạp liệu huấn luyện (dữ liệu huấn luyện file excel có phần mở rộng *.xls file CSV, arff) Phần mơ hình hệ thống gồm có mơ hình phân lớp Random Forest Fuzzy Random Forest Sau chạy hệ thống sinh 19 tập luật kết xuất kết dự đoán khách hàng lưu database Hình 3.12 Màn hình tải liệu huấn luyện - Mơ hình phân lớp với Random Forest Hình 3.13 Giao diện mơ hình phân lớp Random Forest - Mơ hình phân lớp với Fuzzy Random Forest 20 Hình 3.14 Giao diện mơ hình phân lớp Fuzzy Random Forest Trong đó: + MaxDepth: Cho thấy độ sâu tối đa Thường chọn để truy xuất đầy đủ liệu, nhiên liệu lớn Thời quan xử lý lâu, cần giới hạn lại độ sâu + NumFeatures: Số lượng thuộc tính sử dụng lựa chọn ngẫu nhiên để chia nút + NumTree: Số lượng tạo - Giao diện Tư vấn: Khi chọn chức này, hệ thống cho phép người dùng cập nhật trực tiếp thông tin khách hàng mà cán định cần hệ thống tư vấn tư vấn, sau click Xem kết quả, hệ thống dựa vào tập luật có database xuất kết dự đoán phân lớp khách hàng vùng thị Kết Bảng 3.1 Ví dụ khách hàng cần tư vấn Kinh Bảo Số tiền Khu Phạm vi Mục Đích thời gian Giới nghiệm dưỡng bồi vực để hoạt Rủi ro sử dụngsử dụng tính lái xe định kỳ thường xe đông Chưa Chưa Kinh xác Nữ Có 15 Khơng xác ? doanh định định 21 Hình 3.15 Giao diện ứng dụng tư vấn Với liệu cần tư vấn Bảng 3.1 chương trình sinh 10 tập luật Trong có tập luật nguy rủi ro TRUNG BÌNH, tập luật nguy rủi ro CAO Từ cán thẩm định đưa định cách 3.3 ĐÁNH GIÁ ĐỘ CHÍ NH XÁC 3.3.1 Mô hin ̀ h Random Forest a Kế t quả mô hình phân lớp với Random Frorest b Đánh giá đô ̣ chính xác của mô hình Đánh giá độ xác mơ hình cách sử dụng k-fold croos validation với k=10 Kế t quả với mỗi lầ n cha ̣y là: Fold 1: -Fold **Ket Qua** STT PhanLop DuDoan Thap Thap Thap Thap Thap Thap Thap TrungBinh Thap Thap ……………………………… 194 Thap Thap 195 TrungBinh TrungBinh 196 Cao Cao Số dự đoán chinh xác là: 188.0/196.0 Độ Chính Xác : 95.91836734693878% Hình 3.17 Đợ chính xác của mô hình Random Forest- fold1 22 ************** TỔNG KẾT ****************** Số trường hợp xác Random Forests với 1957 trường hợp = 1790.0 Tỉ lệ xác Random Forests = 91.4665304036791% *************************************** Hình 3.18 Kết độ xác mơ hình Random Forest 3.3.2 Mơ hình Fuzzy Random Forest a Kết mơ hình phân lớp với Fuzzy Random Forest b Đánh giá độ xác mơ hình Đánh giá độ xác mơ hình cách sử dụng k-fold croos validation với k=10 Kết với lần chạy là: Fold 1: -Fold **Ket Qua** STT PhanLop DuDoan Thap Thap Thap Thap Thap Thap ………………………… 194 Thap Thap 195 TrungBinh TrungBinh 196 Cao Cao Số dự đốn chinh xác là: 189.0/196.0 Độ Chính Xác : 97.83673469387756% Hình 3.20 Độ xác mơ hình Fuzzy Random Forest – Fold *****************TỔNG KẾT************************* Số trường hợp xác Fuzzy Random Forests với 1957 trường hợp = 1790.0 Tỉ lệ xác Fuzzy Random Forests = 93.29586101175269% ************************************* Hình 3.21 Kết độ xác mơ hình Fuzzy Random Forest 23 2.3.3 So sánh độ xác mơ hình Random Forest Fuzzy Random Forest Bảng 3.2 So sánh độ xác Random Forest Fuzzy Random Forest Phương pháp Độ xác Độ sai lệch Random Forest 91.46% 8.54% 0.32 giây Fuzzy Random Forest 93.29% 6.71% 0.34 giây Thời gian Kết Bảng 3.2 cho thấy thuật toán Random Forest Fuzzy Random Forest có tốc độ xử lý nhanh gần Do tiết kiệm thời gian áp dụng xử lý cho khối liệu lớn Do tiết kiệm thời gian áp dụng xử lý cho khối liệu lớn Tuy nhiên, độ xác thuật toán Fuzzy Random Forest (93.29%) tương đối tốt thuật toán Random Forest (91.46%) KẾT CHƯƠNG Trong chương này, luận văn trình bày chức hệ thống, xây dựng kiểm thử ứng dụng dựa số liệu cụ thể từ Công ty Cổ phần Bảo hiểm AAA Quảng Ngãi Hệ thống trợ giúp cho cán thẩm định dễ dàng phát trường hợp khách hàng có mức độ rủi ro cao Qua đưa định hợp lý nhằm tăng hiệu kinh doanh đơn vị 24 KẾT LUẬN Kết đạt - Trong luận văn này, chúng tơi trình bày số nội dung liên quan đến khai phá liệu, Thuật toán Rừng ngẫu nhiên (Random Forest) Rừng ngẫu nhiên mờ (Fuzzy Random Forest) - Xây dựng thử nghiệm ứng dụng liên quan đến thuật toán - Hệ thống đáp ứng đầy đủ yêu cầu chuyên môn việc đánh giá rủi ro bảo hiển xe giới Nó giúp cho người dùng định cách khoa học, xác, tránh tình thẩm định theo cảm tính, hạn chế trường hợp rủi ro tạo mạnh cạnh tranh doanh nghiệp Hạn chế - Chương trình phải chuyển đổi liệu từ SQL Server sang Excel Nên xử lý liệu lưu trữ tập tin Excel - Chưa kết nối truy xuất liệu trực tiếp đến hệ quản trị sở liệu SQL Server công ty - Thuộc tính mờ (3/8 thuộc tính) nên khác biệt hai thuật toán Fuzzy Random Forest Random Forest không đáng kể Hướng phát triển - Tiếp tục nghiên cứu thuật toán khai phá liệu mờ thuật toán Fuzzy C-mean Random Forest để nâng cao hiệu mơ hình định - Cần thử nghiệm hệ thống với khối lượng liệu lớn để đánh giá lại độ tin cậy định đánh giá rủi ro - Xây dựng giao diện đồ họa trực quan để dễ dàng tương tác với người dùng ... nhiên, thuật toán rừng ngẫu nhiên mờ chưa sử dụng Vì tơi chọn đề tài: ? ?Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro bảo hiểm xe giới? ?? để làm luận văn thạc... định để giải toán đánh giá rủi ro bồi thường bảo hiểm xe giới CHƯƠNG ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ TRONG CÔNG TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI 2.1 KHÁI QUÁT VỀ THỊ TRƯỜNG BẢO HIỂM... đánh giá bồi thường rủi ro bảo hiểm xe giới Hiện nay, có số cơng trình nghiên cứu sử dụng để xây dựng hệ thống đánh giá rủi ro xe giới như: thuật toán C4.5, thuật toán rừng nhẫu nhiên, thuật toán