1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới

81 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 2,25 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN TRỌNG HẢI ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN TRỌNG HẢI ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS Nguyễn Trần Quốc Vinh Đà Nẵng - Năm 2016 LỜI CAM ĐOAN Tôi xin cam đoan: -Những nội dung luận văn thực hướng dẫn trực tiếp TS Nguyễn Trần Quốc Vinh -Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên công trình, thời gian địa điểm cơng bố -Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả luận văn Phan Trọng Hải MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nghiên cứu Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Dự kiến kết Ý nghĩa khoa học thực tiễn luận văn Bố cục luận văn CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Sơ lƣợc khai phá liệu 1.1.2 Các kỹ thuật áp dụng khai phá liệu 1.1.3 Các bƣớc xây dựng hệ thống khai phá liệu 1.1.4 Ứng dụng khai phá liệu 10 1.1.5 Khó khăn khai phá liệu 10 1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 11 1.2.1 Phân lớp liệu 11 1.2.2 Quá trình phân lớp liệu 11 1.2.3 Các vấn đề liên quan đến phân lớp liệu 13 1.3 GIỚI THIỆU CÂY QUYẾT ĐỊNH 16 1.3.1 Giới thiệu chung 16 1.3.2 Ƣu điểm định 17 1.3.3 Các luật đƣợc rút từ định 17 1.4 THUẬT TOÁN C4.5 18 1.4.1 Giới thiệu 18 1.4.2 Giải thuật C4.5 xây dựng định từ xuống 19 1.4.3 Chọn thuộc tính phân loại tốt 21 1.4.4 Entropy đo tính tập ví dụ 22 1.4.5 Tỷ suất lợi ích Gain Ratio 25 1.4.6 Chuyển dạng luật 26 1.5 RANDOM FOREST 27 1.5.1 Cơ sở định nghĩa 27 1.5.2 Tóm tắt giải thuật 28 1.5.3 Mô hình phân lớp với Random Forest 29 1.5.4 Xây dựng ng u nhiên 30 1.5.5 Tạo ng u nhiên 30 1.5.6 Đặc điểm Random Forest 31 KẾT LUẬN CHƢƠNG 31 CHƯƠNG ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI 32 2.1 KHÁI QUÁT VỀ THỊ TRƢỜNG BẢO HIỂM XE CƠ GIỚI 32 2.2 ĐÁNH GIÁ RỦI RO XE CƠ GIỚI 33 2.2.1 Khái niệm rủi ro 33 2.2.2 Khái niệm đánh giá rủi ro 34 2.2.3 Phạm vi bảo hiểm 34 2.2.4 Quy trình đánh giá rủi ro bảo hiểm xe giới 35 2.2.5 Các yếu tố ảnh hƣởng đến rủi ro bảo hiểm xe giới 35 2.3 PHÂN TÍCH HIỆN TRẠNG 36 2.3.1 Chỉ số lĩnh vực kinh doanh bảo hiểm xe giới 36 2.3.2 Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro bảo hiểm xe giới 37 2.4 SO SÁNH KẾT QUẢ PHÂN LỚP GIỮA THUẬT TOÁN C4.5 VÀ RANDOM FOREST 38 2.5 ỨNG DỤNG CÂY QUYẾT ĐỊNH 40 2.5.1 Phân tích liệu 40 2.5.2 Xây dựng mơ hình phân lớp với Random Forest 42 2.5.3 Mơ hình tổng quát 45 2.5.4 Ƣớc tính độ xác mơ hình 50 KẾT LUẬN CHƢƠNG 52 CHƯƠNG XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG 53 3.1 CHỨC NĂNG HỆ THỐNG 53 3.1.1 Các chức 53 3.1.2 Phân tích yêu cầu 54 3.2 THỬ NGHIỆM ỨNG DỤNG 59 3.3 ĐÁNH GIÁ ĐỘ CHÍNH XÁC 63 3.3.1 Mơ hình định b ng thuật tốn C4.5 63 3.3.2 Mơ hình Random Forest 65 3.3.3 So sánh độ xác mơ hình C4.5 Random Forest 68 KẾT LUẬN CHƢƠNG 69 KẾT LUẬN 69 DANH MỤC TÀI LIỆU THAM KHẢO 70 QUYẾT ĐỊNH GIAO ĐỀ TÀI (bản sao) DANH MỤC CÁC TỪ VIẾT TẮT Tiếng Việt CSDL Cơ sở liệu CNTT Công nghệ thông tin KPDL Khai phá liệu MDSD Mục đích sử dụng MH Máy học STBT Số tiền bồi thƣờng SL Số lƣợng TGSD Thời gian sử dụng XCG Xe giới Tiếng nƣớc CART Classification and Regression Trees DBMS Database Management System KDD Knowledge Discovery in Database OOB Out of Bag DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang 1.1 Tập ví dụ huấn luyện 19 2.1 Số liệu kinh doanh chi nhánh Quảng Ngãi 36 2.2 Thống kê tình hình bồi thƣờng tổn thất 37 2.3 Sử dụng phần mềm Weka so sánh độ xác thuật tốn C4.5 Random Forest 39 2.4 Bảng liệu m u 10 khách hàng 40 2.5 Bảng thuộc tính ng u nhiên để chia nút 43 2.6 Bảng thuộc tính khách hàng 44 2.7 Bảng liệu bootstrap 10 khách hàng 46 2.8 Entropy(S) phân theo thời gian sử dụng (TGSD) = 6,5 năm 47 2.9 Entropy(S) phân theo Mục Đích Sử Dụng 48 2.10 Entropy(S) phân theo thời gian sử dụng 49 2.11 Entropy(S) phân theo Số Tiền Bồi Thƣờng 49 3.1 Ví dụ khách hàng cần tƣ vấn 63 3.2 So sánh độ xác C4.5 Random Forest 68 DANH MỤC CÁC HÌNH Số Tên hình Trang hiệu 1.1 Quá trình khám phá tri thức 1.2 Xây dựng mơ hình phân lớp 11 1.3 Ƣớc lƣợng độ xác 12 1.4 Phân lớp liệu 12 1.5 Ƣớc lƣợng độ xác mơ hình 14 1.6 Ví dụ K-fold croos validation - fold 15 1.7 Ví dụ K-fold croos validation-fold 15 1.8 Ví dụ K-fold croos validation-fold 16 1.9 Cây định phân lớp mức lƣơng 17 1.10 Một phần định đƣợc xây dựng 20 1.11 Entropy(S) 22 1.12 Cây định đƣợc xây dựng hoàn chỉnh 25 1.13 Chuyển định dạng luật 26 1.14 Mơ hình phân lớp với Random Forest 29 2.1 Thơng số thuật tốn xây dựng định b ng 38 C4.5 2.2 Thông số Random Forest 39 2.3 Tạo bootstrap 43 2.4 Cấu trúc ng u nhiên 43 2.5 Mơ hình Random Forest với numtree 44 2.6 Mơ hình tổng qt Random Forest để phân lớp 45 2.7 Mơ hình phân lớp tạo với bootstrap 46 2.8 Các thuộc tính chọn để chia nút 46 2.9 Ngƣỡng thuộc tính để chia 48 Số Tên hình Trang hiệu 2.10 Ví dụ - Cây phân lớp với nút chia 50 2.11 Fold với CSDL 1724 bảng ghi khách hàng 51 2.12 Fold với CSDL 1724 bảng ghi khách hàng 51 2.13 Fold 10 với CSDL 1724 bảng ghi khách hàng 52 3.1 Biểu đồ ca sử dụng tổng quát 54 3.2 Phân rã ca sử dụng huấn luyện liệu 54 3.3 Phân rã ca sử dụng Tƣ vấn 55 3.4 Biểu đồ hoạt động huấn luyện liệu 56 3.5 Biểu đồ hoạt động tƣ vấn 56 3.6 Biểu đồ cho hoạt động đăng nhập 57 3.7 Biểu đồ cho hoạt động huấn luyện liệu 57 3.9 Triển khai hệ thống 58 3.10 Màn hình Đăng nhập hệ thống 59 3.11 Màn hình Menu 59 3.12 Màn hình tải liệu huấn luyện 60 3.13 Giao diện mơ hình phân lớp Decision tree (C4.5) 61 3.14 Giao diện mơ hình phân lớp Random Forest 62 3.15 Giao diện ứng dụng tƣ vấn 63 3.16 Mơ hình định b ng C4.5 64 3.17 Độ xác mơ hình định b ng C4.5- fold 64 3.18 Kết độ xác mơ hình định C4.5 65 3.19 Mơ hình Cây định b ng Random Forest 66 3.20 Độ xác mơ hình Random Forest- fold1 68 3.21 Kết Độ xác mơ hình Random Forest 68 ... đánh giá bồi thƣờng rủi ro bảo hiểm xe giới Xuất phát từ lý đƣợc đồng ý TS Nguyễn Trần Quốc Vinh, chọn đề tài: ? ?Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo. ..BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN TRỌNG HẢI ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI Chuyên ngành: Hệ thống thông tin... pháp khai phá liệu - Ứng dụng phƣơng pháp khai phá liệu vào dự đốn tính rủi ro khai thác bảo hiểm nh m nâng cao hiệu kinh doanh đơn vị 4 5.2 Kết thực tiễn Xây dựng hệ thống hỗ trợ đánh giá rủi

Ngày đăng: 24/04/2022, 15:15

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hoàng Kiếm, Đỗ Phúc (2005), Giáo trình khai phá dữ liệu, Trung tâm nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Giáo trình khai phá dữ liệu
Tác giả: Hoàng Kiếm, Đỗ Phúc
Năm: 2005
[2] Lê Văn Tường Lân, Đoàn Văn Ban, Lê Mạnh Thạnh (2006), Một phương pháp để xây dựng cây quyết định có hiệu quả trong khai phá dữ liệu, Kỷ yếu hội thảo quốc gia về Công nghệ phần mềm và Công nghệ tri thức Sách, tạp chí
Tiêu đề: Một phương pháp "để xây dựng cây quyết định có hiệu quả trong khai phá dữ liệu
Tác giả: Lê Văn Tường Lân, Đoàn Văn Ban, Lê Mạnh Thạnh
Năm: 2006
[3] Nguyễn Quang Thu (2008), Quản lý rủi ro và bảo hiểm trong doanh nghiệp, NXB Thống kê Sách, tạp chí
Tiêu đề: Quản lý rủi ro và bảo hiểm trong doanh nghiệp
Tác giả: Nguyễn Quang Thu
Nhà XB: NXB Thống kê
Năm: 2008
[4] Khối Xe cơ giới (2010), Tài liệu hướng dẫn khai thác bảo hiểm xe cơ giới, Công ty Cổ phẩn Bảo Hiểm AAA, Lưu hành nội bộ Sách, tạp chí
Tiêu đề: Tài liệu hướng dẫn khai thác bảo hiểm xe cơ giới
Tác giả: Khối Xe cơ giới
Năm: 2010
[5] Khối Xe cơ giới (2012), Quy trình khai thác và quản lý hợp đồng bảo hiểm xe cơ giới, Công ty Cổ phẩn Bảo Hiểm AAA, Lưu hành nội bộ.Tiếng Anh Sách, tạp chí
Tiêu đề: Quy trình khai thác và quản lý hợp đồng bảo hiểm xe "cơ giới
Tác giả: Khối Xe cơ giới
Năm: 2012
[7] Mitchell. T (1999) “Machine Learning and Data Mining”, Communications of the ACM, Vol. 42, No. 11, pp. 30-36 Sách, tạp chí
Tiêu đề: Machine Learning and Data Mining”, "Communications of "the ACM
[8] J. Ross Quinlan (1993), C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, California Sách, tạp chí
Tiêu đề: C4.5: Programs for Machine Learning
Tác giả: J. Ross Quinlan
Năm: 1993
[9] Vanden Berghen Frank (2003), C4.5 – Classification Tree, Universit Libre de bruxelles.Trang Web Sách, tạp chí
Tiêu đề: C4.5 – Classification Tree
Tác giả: Vanden Berghen Frank
Năm: 2003
[6] IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 5, No 3, September 2012, Random Forests and Decision Trees Khác

HÌNH ẢNH LIÊN QUAN

Tên bảng Trang - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
n bảng Trang (Trang 8)
Hình 1.1. Quá trình khám phá tri thức - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 1.1. Quá trình khám phá tri thức (Trang 17)
Bƣớc thứ nhất: Quá trình học n hm xây dựng một mô hình mô tả một - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
c thứ nhất: Quá trình học n hm xây dựng một mô hình mô tả một (Trang 21)
Hình 1.5. Ước lượng độ chính xác của mô hình - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 1.5. Ước lượng độ chính xác của mô hình (Trang 24)
Hình 1.8. Ví dụ K-fold croos validation-fold 3 - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 1.8. Ví dụ K-fold croos validation-fold 3 (Trang 26)
Hình 1.10. Một phần cây quyết định được xây dựng - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 1.10. Một phần cây quyết định được xây dựng (Trang 30)
Hình 1.12. Cây quyết định đã được xây dựng hoàn chỉnh - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 1.12. Cây quyết định đã được xây dựng hoàn chỉnh (Trang 35)
1.5.3. Mô hình phân lớp với RandomForest - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
1.5.3. Mô hình phân lớp với RandomForest (Trang 39)
Bảng 2.1. Số liệu kinh doanh tại chi nhánh Quảng Ngãi - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Bảng 2.1. Số liệu kinh doanh tại chi nhánh Quảng Ngãi (Trang 46)
Hình 2.1. Thông số của thuật toán xây dựng cây quyết định bằng C4.5 - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 2.1. Thông số của thuật toán xây dựng cây quyết định bằng C4.5 (Trang 48)
Bảng 2.3. Sử dụng phần mềm Weka so sánh độ chính xác giữa thuật toán C4.5 và Random Forest  - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Bảng 2.3. Sử dụng phần mềm Weka so sánh độ chính xác giữa thuật toán C4.5 và Random Forest (Trang 49)
Hình 2.5. Mô hình RandomForest với numtree cây - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 2.5. Mô hình RandomForest với numtree cây (Trang 54)
2.5.3. Mô hình tổng quát - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
2.5.3. Mô hình tổng quát (Trang 55)
Bảng 2.7. Bảng dữ liệu bootstrap 1 của 10 khách hàng - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Bảng 2.7. Bảng dữ liệu bootstrap 1 của 10 khách hàng (Trang 56)
Bảng 2.10. Entropy(S) phân theo thời gian sử dụng - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Bảng 2.10. Entropy(S) phân theo thời gian sử dụng (Trang 59)
Hình 2.11. Fold1 với CSDL 1724 bảng ghi của khách hàng - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 2.11. Fold1 với CSDL 1724 bảng ghi của khách hàng (Trang 61)
Hình 2.12. Fold 2 với CSDL 1724 bảng ghi của khách hàng - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 2.12. Fold 2 với CSDL 1724 bảng ghi của khách hàng (Trang 61)
Hình 2.13. Fold 10 với CSDL 1724 bảng ghi của khách hàng - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 2.13. Fold 10 với CSDL 1724 bảng ghi của khách hàng (Trang 62)
Hình 3.1. Biểu đồ ca sử dụng tổng quát - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 3.1. Biểu đồ ca sử dụng tổng quát (Trang 64)
Hình 3.7. Biểu đồ tuần tự cho hoạt động huấn luyện dữ liệu - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 3.7. Biểu đồ tuần tự cho hoạt động huấn luyện dữ liệu (Trang 67)
Hình 3.6. Biểu đồ tuần tự cho hoạt động đăng nhập - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 3.6. Biểu đồ tuần tự cho hoạt động đăng nhập (Trang 67)
Hình 3.8. Biểu đồ tuần tự cho hoạt động tư vấn - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 3.8. Biểu đồ tuần tự cho hoạt động tư vấn (Trang 68)
Hình 3.10. Màn hình Đăng nhập hệ thống - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 3.10. Màn hình Đăng nhập hệ thống (Trang 69)
Hình 3.11. Màn hình Menu - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Hình 3.11. Màn hình Menu (Trang 69)
Mô hình phân lớp là Decisiontree (C4.5) - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
h ình phân lớp là Decisiontree (C4.5) (Trang 71)
Mô hình phân lớp với RandomForest - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
h ình phân lớp với RandomForest (Trang 72)
Bảng 3.1. Ví dụ về khách hàng cần tư vấn - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Bảng 3.1. Ví dụ về khách hàng cần tư vấn (Trang 73)
a. ết qu mô hình câ qu ết định b ng th ut toán C. - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
a. ết qu mô hình câ qu ết định b ng th ut toán C (Trang 74)
******* MÔ HÌNH ******* J48 pruned tree  - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
48 pruned tree (Trang 74)
b. ánh giá độ chính xác của mô hình - Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
b. ánh giá độ chính xác của mô hình (Trang 77)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN