Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe Cơ Giới

26 131 0
Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe Cơ Giới

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN TRỌNG HẢI ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI Chuyên ngành: Hệ thống thơng tin Mã số: 60.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng – Năm 2016 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: TS Nguyễn Trần Quốc Vinh Phản biện 1: PGS.TS Nguyễn Tấn Khôi Phản biện 2: TS Nguyễn Hoàng Hải Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày tháng năm 2016 * Có thể tìm hiểu luận văn tại:  Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, việc ứng dụng cộng nghệ thông tin ngày rộng khắp Vấn đề khai phá liệu ứng dụng thành công vào nhiều lĩnh vực khác như: Bảo hiểm, tài chính, y học, giáo dục viễn thông v.v Mặt khác, với phát triển mạnh mẽ kinh tế đời sống xã hội, nhu cầu vận chuyển tham gia giao thông xe giới nước ta không ngừng tăng cao, mà đa dạng phong phú chủng loại Theo thống kê, dân số Quảng Ngãi có 1.200.000 người, tập trung 12 huyện thành phố Trong có khoản 593.243 phương tiện giới tham gia giao thơng có 20.114 tơ, 573.129 môtô, xe máy Theo số liệu Ủy ban An tồn giao thơng tỉnh Quảng Ngãi, năm 2015 có khoản 792 vụ nạng giao thơng, làm hỏng 1.467 phương tiện ô tô xe máy loại, đa số tập trung vùng đồng Trong đó, hệ thống hạ tầng giao thơng chưa thể đáp ứng tốt nhu cầu lưu thông lượng xe giới lớn Những người tham gia giao thơng hiểu rằng, tai nạn xảy lúc nào, cho với hậu khơn lường Vì vậy, bảo hiểm xe giới đời trở thành nhu cầu thiết yếu với người tham gia điều khiển phương tiện giao thông Điều mở hội lớn cho công ty bảo hiểm xe giới Những cơng ty có dịch vụ tốt, chiếm lĩnh tỉ lệ khách hàng nhiều Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe giới quan trọng phức tạp Quy trình tác nghiệp đòi hỏi người thẩm định vừa phải có trình độ chun mơn nghiệp vụ cao, vừa phải có nhiều kinh nghiệm thực tiễn Hầu hết công ty trọng đến vấn đề doanh thu mà quan tâm đến công tác đánh giá rủi ro, đa phần thủ cơng sơ sài cảm tính Vì vậy, hiệu kinh doanh thường không mong muốn Mặt khác, vấn đề giải bồi thường có tổn thất xảy cần “Nhanh, Đúng, Đủ” mang lại cho khách hàng niềm tin, sẻ chia rủi ro mà họ gặp phải Vấn đề bồi thường sau tai nạn mang tính nhạy cảm cao tác động khơng nhỏ đến tính hiệu hoạt động kinh doanh bảo hiểm Nắm bắt vấn đề tính cấp thiết hoạt động đánh giá rủi ro bồi thường tổn thất bảo hiểm xe giới, thấy cần phải xây dựng triển khai hệ thống ứng dụng công nghệ thông tin nhằm đáp ứng nhu cầu phân tích, xử lý hỗ trợ đến mức tối đa cho công tác đánh giá bồi thường rủi ro bảo hiểm xe giới Xuất phát từ lý đồng ý TS Nguyễn Trần Quốc Vinh, chọn đề tài: “Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe Cơ Giới” để làm luận văn thạc sĩ Mục tiêu nghiên cứu Nghiên cứu thuật toán liên quan đến định Phân tích, so sánh, đánh giá triển khai áp dụng thuật toán C4.5 Random Forest Trên sở phân tích thực trạng đề giải pháp ứng dụng công nghệ thông tin Hướng đến xây dựng hệ thống trợ giúp đánh giá rủi ro xe giới, đảm bảo đầy đủ yêu cầu mặt chuyên môn lĩnh vực bảo hiểm xe giới Đối tƣợng phạm vi nghiên cứu 3.1 Đối tƣợng nghiên cứu - Quy trình đánh giá rủi ro xe giới - Các vấn đề liên quan đến độ rủi ro bảo hiểm xe giới - Hồ sơ khách hàng tham gia mua bảo hiểm xe giới Công ty Cổ phần bảo hiểm AAA Quảng Ngãi - Nghiên cứu phân lớp liệu khai phá liệu 3.2 Phạm vi nghiên cứu - Kỹ thuật khai phá liệu định C4.5 Random Forest - Số liệu kinh doanh Công ty Cổ phần Bảo hiểm AAA Quảng Ngãi khoảng thời gian 2012, 2013, 2014 Phƣơng pháp nghiên cứu 4.1 Nghiên cứu lý thuyết - Nghiên cứu tài liệu, ngơn ngữ cơng nghệ có liên quan - Khai phá liệu phân lớp liệu - Giải thuật xây dựng định - Nghiên cứu Thuật toán C4.5 Random Forest việc dự đốn phân loại thơng tin 4.2 Nghiên cứu thực nghiệm - Tiến hành thu thập tổng hợp tài liệu liên quan đến quy trình thẩm định đánh giá hồ sơ lĩnh vực bảo hiểm xe giới - Vận dụng sở lý thuyết để xây dựng ứng dụng, tiến hành kiểm thử so sánh đánh giá hiệu suất ứng dụng Dự kiến kết 5.1 Kết lý thuyết Hiểu thêm phương pháp khai phá liệu - Ứng dụng phương pháp khai phá liệu vào dự đốn tính rủi ro khai thác bảo hiểm nhằm nâng cao hiệu kinh doanh đơn vị 5.2 Kết thực tiễn Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe giới Công ty Cổ phần Bảo hiểm AAA Quảng Ngãi Hệ thống giúp đánh giá rủi ro nhanh chóng đảm bảo mặt tối ưu, có chức dễ sử dụng Ý nghĩa khoa học thực tiễn luận văn Áp dụng lý thuyết khai phá liệu vào toán đánh giá rủi ro khai thác bảo hiểm cho xe giới Về mặt thực tiễn, ứng dụng có khả phân tích liệu kinh doanh công ty năm gần qua có khả phát trường hợp bảo hiểm xe giới có mức độ rủi ro cao Giúp cho việc dự đoán nhằm hỗ trợ định cách khoa học, tránh tình bồi thường theo cảm tính, hạn chế trường hợp rủi ro tăng hiệu kinh doanh công ty Bố cục luận văn Chương 1: Nghiên cứu tổng quan Chương 2: Ứng dụng định công tác đánh giá rủi ro bồi thường bảo hiểm xe giới Chương 3: Xây dựng thử nghiệm ứng dụng Cuối đánh giá, kết luận hướng phát triển đề tài CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lƣợc khai phá liệu Trong thời đại ngày nay, với phát triển vượt bật cơng nghệ thơng tin, hệ thống thơng tin lưu trữ khối lượng lớn liệu hoạt động hàng ngày chúng Từ khối liệu này, kỹ thuật khai phá liệu (KPDL) máy học (MH) dùng để trích xuất thơng tin hữu ích mà chưa biết Các tri thức vừa học vận dụng để cải thiện hiệu hoạt động hệ thống thông tin ban đầu Khái niệm khai phá liệu “q trình khảo sát phân tích lượng lớn liệu lưu trữ CSDL, kho liệu… để từ trích xuất thơng tin quan trọng, có giá trị tiềm ẩn bên trong” 1.1.2 Các kỹ thuật áp dụng khai phá liệu Học có giám sát: Là q trình gán nhãn lớp cho phần tử CSDL dựa tập ví dụ huấn luyện thơng tin nhãn lớp biết Học khơng có giám sát: Là trình phân chia tập liệu thành lớp hay cụm liệu tương tự mà chưa biết trước thông tin lớp hay tập ví dụ huấn luyện Học nửa giám sát: Là trình phân chia tập liệu thành lớp dựa tập nhỏ ví dụ huấn luyện thơng tin số nhãn lớp biết trước 1.1.3 Các bƣớc xây dựng hệ thống khai phá liệu 1.1.4 Ứng dụng khai phá liệu 1.1.5 Khó khăn khai phá liệu 1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 1.2.1 Phân lớp liệu Phân lớp liệu gán mẫu vào lớp với độ xác cao để dự báo cho liệu (mẫu) Đầu vào tập mẫu liệu huấn luyện, với nhãn phân lớp cho mẫu liệu Đầu mơ hình dự đoán (bộ phân lớp) dựa tập huấn luyện nhãn phân lớp 1.2.2 Quá trình phân lớp liệu Bước thứ (learning): trình học nhằm xây dựng mơ hình mơ tả tập lớp liệu hay khái niệm định trước Bước thứ hai (classification): bước dùng mơ hình xây dựng bước thứ để phân lớp liệu 1.2.3 Các vấn đề liên quan đến phân lớp liệu 1.3 GIỚI THIỆU CÂY QUYẾT ĐỊNH 1.3.1 Giới thiệu chung 1.3.2 Ƣu điểm định 1.3.3 Các luật đƣợc rút từ định 1.4 THUẬT TOÁN C4.5 1.4.1 Giới thiệu Giải thuật C4.5 biểu diễn khái niệm dạng định Biểu diễn cho phép xác định phân loại đối tượng cách kiểm tra giá trị số thuộc tính Đầu vào: Một tập hợp ví dụ Mỗi ví dụ bao gồm thuộc tính mơ tả tình huống, hay đối tượng đó, giá trị phân loại Đầu ra: Cây định có khả phân loại đắn ví dụ tập liệu huấn luyện, hy vọng phân loại cho ví dụ chưa gặp tương lai 1.4.2 Giải thuật C4.5 xây dựng định từ xuống 1.4.3 Chọn thuộc tính phân loại tốt 1.4.4 Entropy đo tính tập ví dụ Khái niệm entropy tập S định nghĩa lý thuyết thông tin số lượng mong đợi bit cần thiết để mã hóa thơng tin lớp thành viên rút cách ngẫu nhiên từ tập S Trong trường hợp tối ưu, mã có độ dài ngắn Theo lý thuyết thơng tin, mã có độ dài tối ưu mã gán –log2p bit cho thơng điệp có xác suất p Trong trường hợp S tập ví dụ, thành viên S ví dụ, ví dụ thuộc lớp hay có giá trị phân loại Entropy có giá trị nằm khoảng [0 1] Entropy(S) = 0: tập ví dụ S toàn thuộc loại, hay S 10 Thuật toán C4.5, cải tiến ID3, mở rộng cách tính Information Gain thành Gain Ratio để cố gắng khắc phục thiên lệch Gain Ratio xác định công thức sau: GainRatio(S, A)  Gain(S, A) SplitInformation(S, A) Trong đó, SplitInformation(S, A) thông tin phân tách A sở giá trị thuộc tính phân loại S Cơng thức tính sau: c Si S log i |S| i 1 | S | SplitInformation(S, A)   1.4.6 Chuyển dạng luật 1.5 RANDOM FOREST 1.5.1 Cơ sở định nghĩa Random Forest phương pháp học quần thể để phân loại, hồi quy nhiệm vụ khác, hoạt động cách xây dựng vô số định thời gian đào tạo đầu lớp mơ hình phân lớp hồi quy riêng biệt Nó nhóm phân loại hồi quy khơng cắt tỉa làm từ lựa chọn ngẫu nhiên mẫu liệu huấn luyện Tính ngẫu nhiên chọn q trình cảm ứng Dự đốn thực cách kết hợp (đa số phiếu để phân loại trung bình cho hồi quy) dự đốn quần thể 1.5.2 Tóm tắt giải thuật Đầu vào: tập liệu đào tạo 11 Đầu ra: mơ hình Random Forest, Random Forest tập hợp nhiều định n tree Với Cây n tree xây dựng sử dụng thuật toán sau: Với N số lượng trường hợp liệu đào tạo, M số lượng biến việc phân loại Lấy m số biến đầu vào sử dụng để xác định việc phân chia Nút cây, m < M Chọn tập huấn luyện cho cách chọn n ngẫu nhiên với thay từ tất trường hợp đào tạo có sẵn N Sử dụng phần lại để ước lượng lỗi cây, cách dự đoán lớp chúng Với nút cây, chọn ngẫu nhiên m sở phân chia nút (độc lập với nút) Tính chia tốt dựa biến m tập huấn luyện n Mỗi trồng hoàn tồn khơng tỉa (có thể sử dụng vệ xây dựng phân loại bình thường) Đối với dự đốn đưa vào Nó gán nhãn mẫu đạo tạo nút cuối để kết thúc Thủ tục lập lại qua tất Ntree, số phiếu bình chọn (với phân lớp) hay trung bình (với hồi quy) Ntree dự đoán rừng ngẫu nhiên 12 1.5.3 Mơ hình phân lớp với Random Forest Hình 1.1 Mơ hình phân lớp với Random Forest 1.5.4 Tạo n tập liệu huấn luyện cách sử dụng Bootstrap 1.5.5 X y dựng c y ngẫu nhiên 1.5.6 Tạo ngẫu nhiên 1.5.7 Đặc điểm Random Forest 13 CHƯƠNG ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI 2.1 KHÁI QUÁT VỀ THỊ TRƢỜNG BẢO HIỂM XE CƠ GIỚI 2.2 ĐÁNH GIÁ RỦI RO XE CƠ GIỚI 2.2.1 Khái niệm rủi ro 2.2.2 Khái niệm đánh giá rủi ro 2.2.3 Phạm vi bảo hiểm 2.2.4 Quy trình đánh giá rủi ro bảo hiểm xe giới 2.2.5 Các yếu tố ảnh hƣởng đến rủi ro bảo hiểm xe giới 2.3 PHÂN TÍCH HIỆN TRẠNG 2.3.1 Chỉ số lĩnh vực kinh doanh bảo hiểm xe giới 2.3.2 Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro bảo hiểm xe giới 2.4 SO SÁNH KẾT QUẢ PHÂN LỚP GIỮA THUẬT TOÁN C4.5 VÀ RANDOM FOREST 2.5 ỨNG DỤNG CÂY QUYẾT ĐỊNH 2.5.1 Phân tích liệu 2.5.2 Xây dựng mơ hình phân lớp với Random Forest Xây dựng mơ hình phân lớp với liệu đầu vào bảng liệu 1724 hồ sơ khách hàng với thuộc tính thuộc tính cần phân lớp là: RỦI RO, sau: 14 Trước hết xác định giá trị quan trọng Random Forest numTree (số rừng) numFeatures (số biến lựa chọn để chia nút) Ta xây dựng Random Forest gồm numTree phân lớp Mỗi phân lớp xây dựng với bước sau: Bước 1: Tạo tập huấn luyện sử dụng bootstrap Dữ liệu đào tạo [1724 khách hàng] Dữ liệu huấn luyện [1724 khách hàng] OOB [586 khách hàng] Hình 2.1 Tạo bootstrap Bước 2: Xây dựng định ngẫu nhiên Thuộc tính ? ? ? Hình 2.2 Cấu trúc ngẫu nhiên Bước 3: Chọn nút chia tốt cách tính theo giá trị GAIN Lập lại với nút chia Cuối ta Random Forest với numTree 15 Hình 2.3 Mơ hình Random Forest với numtree 2.5.3 Mơ hình tổng qt Hình2.4 Mơ hình tổng qt Random Forest để phân lớp 2.5.4 Ƣớc tính độ xác mơ hình 16 CHƯƠNG XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG 3.1 CHỨC NĂNG HỆ THỐNG 3.1.1 Các chức 3.1.2 Phân tích yêu cầu a Biểu đồ ca sử dụng b Biểu đồ hoạt động c Biểu đồ d Triển khai hệ thống 3.2 THỬ NGHIỆM ỨNG DỤNG  Giao diện đăng nhập hệ thống: Người dùng đăng nhập với tên đăng nhập mật riêng để đăng nhập vào hệ thống Hình 3.1 Màn hình Đăng nhập hệ thống 17  Giao diện chính: Có chức Huấn Luyện Dữ Liệu Tư Vấn: Hình 3.2 Màn hình Menu  Huấn Luyện Dữ Liệu: Đầu tiên ta chon mút Chọn liệu để nạp liệu huấn luyện (dữ liệu huấn luyện file excel có phần mở rộng *.xls file CSV, arff) Phần mơ hình hệ thống gồm có mơ hình phân lớp Decision tree (C4.5) Random Forest Sau chay hệ thống sinh tập luật kết xuất kết dự đốn khách hàng lưu database 18 Hình 3.3 Màn hình tải liệu huấn luyện 19  Mơ hình phân lớp Decision tree (C4.5) Hình 3.4 Giao diện mơ hình phân lớp Decision tree (C4.5) 20  Mơ hình phân lớp với Random Forest Hình 3.5 Giao diện mơ hình phân lớp Random Forest  Giao diện Tư Vấn: Khi chọn chức này, hệ thống cho phép người dùng cập nhật trực tiếp thông tin khách hàng mà cán định cần hệ thống tư vấn tư vấn, sau click Xem Kết Quả, hệ thống dựa vào tập luật có database xuất kết dự đốn phân lớp khách hàng vùng thị Kết Quả 21 Hình 3.6 Giao diện ứng dụng tư vấn 22 3.3 ĐÁNH GIÁ Đ CH NH XÁC 3.3.1 Mơ hình c y định thuật toán C4.5 a t qu b nh gi độ ch nh h nh c qu t đ nh cc a ng thu t to n h nh Hình 3.7 Độ xác mơ hình định C4.5- fold Hình 3.8 Kết độ xác mơ hình định C4.5 3.3.2 Mơ hình Random Forest a t qu b nh gi độ ch nh h nh ph n p v i ando cc a rorest h nh Đánh giá độ xác mơ hình cách sử dụng k-fold croos validation với k=10 Kết với lần chạy là: 23 Fold 1: Hình 3.9 Độ xác mơ hình Random Forest- fold1 Hình 3.10 Kết Độ xác mơ hình Random Forest 3.4 SO SÁNH Đ CH NH XÁC GIỮA MƠ HÌNH C4.5 VÀ RANDOM FOREST Bảng 3.1 So sánh độ xác C4.5 Random Forest Phương pháp Độ xác Độ sai lệch Thời gian Random Forest 84.74 % 15.26 % 8~9 giây 83.23 % 16.77 % giây C4.5 Kết bảng 3.2 cho thấy thuật tốn C4.5 có tốc độ xử lý nhanh, khoản giây, Random Forest khoảng 8~9 giây Do tiết kiệm thời gian áp dụng xử lý cho khối liệu lớn Tuy nhiên, độ xác thuật tốn Random Forest (84.74 %) tương đối tốt thuật toán C4.5 (83.23 %) 24 KẾT LUẬN Kết đạt đƣợc Về lý thuyết, luận văn trình bày sở lý thuyết liên quan đến khai phá liệu, phân lớp liệu, thuật toán định C4.5 Random Forest Hệ thống đáp ứng đầy đủ yêu cầu chuyên môn việc đánh giá rủi ro bảo hiểm xe giới Nó giúp cho người dùng định cách khoa học, tránh tình thẩm định theo cảm tính, hạn chế trường hợp rủi ro tạo mạnh cạnh tranh doanh nghiệp lĩnh vực bảo hiểm Hạn chế Chương trình phải chuyển đổi liệu từ SQL Server sang Excel Nên xử lý liệu lưu trữ tập tin Excel Chưa kết nối truy xuất liệu trực tiếp đến hệ quản trị sở liệu SQL Server cơng ty Dữ liệu có độ nhiễu số thuộc tính thiếu giá trị Sẽ phát sinh trường hợp phân lớp hay phân loại bị sai Hƣớng phát triển Tiếp tục nghiên cứu thuật toán khai phá liệu định thuật toán CHAID, thuật toán MARS, thuật toán ADTNDA (dựa vào độ phụ thuộc thuộc tính) để nâng cao hiệu mơ hình định Cần thử nghiệm hệ thống với khối lượng liệu lớn để đánh giá lại độ tin cậy định đánh giá rủi ro Xây dựng giao diện đồ họa trực quan để dễ dàng tương tác với người dùng ... đánh giá bồi thường rủi ro bảo hiểm xe giới Xuất phát từ lý đồng ý TS Nguyễn Trần Quốc Vinh, chọn đề tài: Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe. .. BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI 2.1 KHÁI QUÁT VỀ THỊ TRƢỜNG BẢO HIỂM XE CƠ GIỚI 2.2 ĐÁNH GIÁ RỦI RO XE CƠ GIỚI 2.2.1 Khái niệm rủi ro 2.2.2 Khái niệm đánh giá rủi ro 2.2.3 Phạm vi bảo hiểm 2.2.4... phương pháp khai phá liệu - Ứng dụng phương pháp khai phá liệu vào dự đốn tính rủi ro khai thác bảo hiểm nhằm nâng cao hiệu kinh doanh đơn vị 5.2 Kết thực tiễn Xây dựng hệ thống hỗ trợ đánh giá rủi

Ngày đăng: 25/05/2019, 14:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan