1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng khai phá dữ liệu xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm tàu cá

73 24 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 2,37 MB

Nội dung

Đ IăH CăĐĨăN NG TR NGăĐ IăH CăS ăPH M NGUY NăPH NGăNAM NGăD NGăKHAIăPHỄăD ăLI UăĐ XỂYăD NGăH ăTH NGăTR ăGIÚP ĐỄNHăGIỄăR IăROăTRONGăB OăHI MăTĨUăCỄ LU NăVĔNăTH CăSƾă H ăTH NGăTHỌNGăTINă ĐƠăN ngă- Nĕmă2019 Đ IăH CăĐĨăN NG TR NGăĐ IăH CăS ăPH M NGUY NăPH NGăNAM NGăD NGăKHAIăPHỄăD ăLI UăĐ XỂYăD NGăH ăTH NGăTR ăGIÚP ĐỄNHăGIỄăR IăROăTRONGăB OăHI MăTĨUăCỄ ChuyênăngƠnh:ăH ăth ngăthôngătin Mưăs :ă848.01.04 LU NăVĔNăTH CăSƾă NG IăH NGăD NăKHOAăH C:ă TS NGUY NăTRẦNăQU CăVINH ĐƠăN ng,ănĕmă2019 ii M CL C L IăCAMăĐOAN i M CăL C ii DANH M C CÁC T VI T T T .iv DANH M C CÁC B NG v DANH M C CÁC HÌNH vi M ăĐẦU 1 LỦ chọn đề tƠi M c tiêu nghiên c u Đối t ợng vƠ phạm vi nghiên c u Ph ng pháp nghiên c u K t qu đạt đ ợc ụ nghĩa khoa học vƠ thực tiễn c a lu n văn Bố c c lu n văn .3 CH NGă1.ăNGHIểNăC UăT NGăQUAN 1.1 Tổng quan khai phá liệu 1.1.1 S l ợc khai phá liệu 1.1.2 Các kỹ thu t áp d ng khai phá liệu 1.1.3 Các b ớc xơy dựng hệ thống khai phá liệu .6 1.1.4 ng d ng c a khai phá liệu .7 1.1.5 Khó khăn khai phá liệu 1.2 Phơn lớp khai phá liệu .7 1.2.1 Phơn lớp liệu 1.2.2 Quá trình phơn lớp liệu 1.2.3 Các v n đề liên quan đ n phơn lớp liệu 1.3 Giới thiệu cơy quy t định 12 1.3.1 Giới thiệu chung 12 1.3.2 u điểm c a cơy quy t định 13 1.3.3 Các lu t đ ợc rút từ cơy quy t định 13 1.4 Thu t toán C4.5 14 1.4.1 Giới thiệu 14 1.4.2 Gi i thu t C4.5 xơy dựng cơy quy t định từ xuống 15 1.4.3 Chọn thu c tính phơn loại tốt nh t 17 1.4.4 Entropy đo tính nh t c a t p ví d 17 1.4.5 Tỷ su t lợi ích Gain Ratio .19 1.4.6 Chuyển cơy dạng lu t .20 iii 1.5 Random Forest (rừng ng u nhiên) 21 1.5.1 C s vƠ định nghĩa 21 1.5.2 Tóm tắt gi i thu t 22 1.5.3 Mơ hình phơn lớp với Random Forest 23 1.5.4 ơy dựng cơy ng u nhiên .24 1.5.5 Tạo cơy ng u nhiên 24 1.5.6 Đặc điểm c a Random Forest .24 K T LU N CH NG 25 CH NGă2.ă NGăD NGăCỂYăQUY TăĐ NHăTRONGăCỌNGăTỄC ĐỄNHă GIỄăR IăROăVĨăB IăTH NGăB OăHI MăTĨUăCỄ 26 2.1 Khái quát thị tr ng b o hiểm tƠu cá 26 2.2 Đánh giá r i ro tƠu cá 26 2.2.1 Khái niệm r i ro 26 2.2.2 Khái niệm đánh giá r i ro 27 2.2.3 Phạm vi b o hiểm 27 2.2.4 Quy trình đánh giá r i ro b o hiểm tƠu cá 28 2.2.5 Các y u tố nh h ng đ n r i ro b o hiểm tƠu cá 28 2.3 Phơn tích trạng 28 2.3.1 Chỉ số lĩnh vực kinh doanh b o hiểm tƠu cá .28 2.3.2 Gi i pháp xơy dựng hệ thống trợ giúp đánh giá r i ro b o hiểm tƠu cá 29 2.4 So Sánh k t qu phơn lớp thu t toán C4.5 vƠ Random Forest 30 2.4.1 ng d ng thu t toán C4.5 .30 2.4.2 ng d ng Random Forresst 31 2.4.3 So sánh C4.5 Random Forest 40 K T LU N CH NG 41 CH NGă3.ăXỂYăD NGăVĨăTH ăNGHI Mă NGăD NG 42 3.1 Ch c hệ thống 42 3.1.1 Phân tích yêu cầu 42 3.1.2 Các ch c 45 3.2 Thử nghiệm ng d ng 46 3.3 Đánh giá đ xác 49 K T LU N CH NG 52 K TăLU N 53 DANHăM CăTĨIăLI UăTHAMăKH O 54 QUY TăĐ NHăGIAOăĐ ăTĨIăLU NăVĔNă(B năsao)ă iv DANH M C CÁC T VI T T T Ti ng Vi t CSDL CNTT C s liệu Công nghệ thông tin KPDL MĐSD Khai phá liệu M c đích sử d ng MH STBT Máy học Số tiền bồi th SL Số l ợng TGSD Th i gian sử d ng Ti ngăn ng c CART DBMS Classification and Regression Trees Database Management System KDD OOB Knowledge Discovery in Database Out of Bag v DANH M C CÁC B NG S ăhi uă Tênăb ng b ng Trang 1.1 T p ví d hu n luyện 14 2.1 Số liệu kinh doanh chi nhánh Qu ng Ngưi 29 2.2 Thống kê tình hình bồi th 29 2.3 B ng liệu m u c a 10 khách hƠng 31 2.4 B ng thu c tính ng u nhiên để chia nút 33 2.5 B ng thu c tính c a khách hƠng 33 2.6 B ng liệu bootstrap c a 10 khách hƠng 35 2.7 Entropy(S) phơn theo th i gian sử d ng 36 2.8 Entropy(S) phơn theo M c Đích Sử D ng 37 2.9 Entropy(S) phơn theo th i gian sử d ng 37 2.10 Entropy(S) phơn theo Số Tiền Bồi Th 2.11 Sử d ng phần mềm Weka so sánh đ xác thu t tốn C4.5 Random Forest 40 3.1 Ví d khách hàng cần t v n 48 ng tổn th t ng 38 vi DANH M C CÁC HÌNH S ăhi uă Tên hình hình Trang 1.1 Quá trình khám phá tri th c 1.2 ơy dựng mô hình phơn lớp 1.3 ớc l ợng đ xác 1.4 Phơn lớp liệu 1.5 ớc l ợng đ xác c a mơ hình 10 1.6 Ví d K-fold croos validation - fold 11 1.7 Ví d K-fold croos validation-fold 11 1.8 Ví d K-fold croos validation-fold 12 1.9 Cơy quy t định phơn lớp m c l 13 1.10 M t phần cơy quy t định đ ợc xơy dựng 15 11 Entropy(S) 17 1.12 Cơy quy t định đư đ ợc xơy dựng hoƠn chỉnh 19 1.13 Chuyển cơy quy t định dạng lu t 21 1.14 Mơ hình phơn lớp với Random Forest 23 1.15 Ví d cơy ng u nhiên 24 2.1 Thông số c a thu t toán xơy dựng cơy quy t định C4.5 30 2.2 Tạo bootstrap 32 2.3 C u trúc cơy ng u nhiên 33 2.4 Mơ hình Random Forest với numtree cơy 33 2.5 Mơ hình tổng qt c a Random Forest để phơn lớp 34 2.6 Mô hình cơy phơn lớp tạo với bootstrap 35 2.7 Các thu c tính chọn để chia nút 35 2.8 Ng ỡng thu c tính để chia 36 2.9 Ví d - Cơy phơn lớp với nút chia 38 2.10 Fold với CSDL 1724 b ng ghi c a khách hƠng 39 2.11 Fold với CSDL 1724 b ng ghi c a khách hƠng 39 ng 48 Trong đó: + maxDepth: Cho th y đ sâu tối đa c a Th ng chọn để truy xu t đầy đ liệu, nhiên n u liệu lớn Th i quan xử lý lâu, cần giới hạn lại đ sâu c a + numFeatures: Số l ợng thu c tính sử d ng lựa chọn ng u nhiên để chia nút + numTree: Số l ợng cơy đ ợc tạo Giao diện T V n: Khi chọn ch c nƠy, hệ thống cho phép ng i dùng c p nh t trực ti p thông tin c a khách hàng mà cán b th m định cần hệ thống t v n t v n, sau click em K t Qu , hệ thống s dựa vào t p lu t đư có database xu t k t qu dự đoán phơn lớp khách hàng vùng thị K t Qu Bảng 3.1 Ví dụ khách hàng cần t vấn M c th i Kinh Đích sử gian sử nghiệm d ng Ch a xác định d ng lái tau B o d ỡng Số tiền bồi định kỳ th Có ng 10 Khu vực để Phạm vi hoạt tàu đông Cầu c ng Ch a xác định Hình 3.12 Giao diện ứng dụng t vấn R i ro ? 49 Với liệu cần t v n b ng 13 ch ng trình sinh t p lu t có nguy c r i ro TrungBinh Từ đơy cán b thẩm định đ a quy t định cách nh t 3.3.ăĐánhăgiáăđ ăchínhăxác t mơ hình phân lớp với Ranếom Forest ******* MƠ HÌNH ******* Random forest c a 25 Cơy, m i lần tạo cơy xem xét thu c tính Tỉ lệ l i Out of bag: 0.2065 RandomTree ========== SOTIENBOITHUONG < 35 | SOTIENBOITHUONG < 15 | | LAMNUOC = Co | | | PHAMVIHOATDONG = xabo | | | | KINHNGHIEMLAITAU < 10.5 | | | | | THOIGIANSUDUNG < 8.5 | | | | | | KINHNGHIEMLAITAU < : Trung Binh (2/0) | | | | | | KINHNGHIEMLAITAU >= : Thap (20/0) ……………………………… ……………… | | | | | | | | THOIGIANSUDUNG >= 6.5 : Cao (4/0) | | SOTIENBOITHUONG >= 25 : Trung Binh (59/0) SOTIENBOITHUONG >= 35 : Cao (152/0) Hình 3.13 Mơ hình CâỔ quỔ t định Random Forest Với k t qu lƠ mơ hình c a t p hợp 25 cơy với thu c tính ng u nhiên đ ợc chọn xem xét chia cơy Cách biểu diễn nh giúp ta biểu diễn đ ợc cơy có kích th ớc lớn để dễ cho việc sử d ng 50 Với phần cơy quy t định Hình 3.13 ta v nh sau: a Đánh giá độ Ếhính ồáẾ Ếủa mơ hình Đánh giá đ xác c a mơ hình cách sử d ng k-fold croos validation với k=10 K t qu với m i lần chạy lƠ: 51 Fold 1: -Fold **Ket Qua** STT PhanLop DuDoan TrungBinh Cao Cao Thap TrungBinh TrungBinh Cao Cao 172 TrungBinh TrungBinh 173 Thap Thap Số dự đoán chinh xác lƠ: 146.0/173.0 Đ Chính ác : 84.39306358381504% Hình 3.14 Độ Ếhính ồáẾ Ếủa mơ hình Ranếom Forest- fold1 V y Fold 1: Đúng 146/173 => 84,39% T ng tự với lần chạy lại: - Fold : Đúng 143/173 => 82,65% - Fold : Đúng 145/173 => 83,81% Fold : Đúng 150/173 => 86,70% Fold : Đúng 142/172 => 82,55% - Fold : Đúng 146/172 => 84,88% Fold : Đúng 153/172 => 88,95% - Fold : Đúng 143/172 => 83,13% Fold : Đúng 148/172 => 86,04% Fold 10 : Đúng 156/172 => 90,69% ************** T NG T ****************** Số tr ờng hợp Ếhính ồáẾ Ếủa Ranếom Forests với 1724 tr ờng hợp = 1472.0 Tỉ lệ Ếhính ồáẾ Ếủa Ranếom Forests = 85.38283062645012% *************************************** Hình 15 K t Độ Ếhính ồáẾ Ếủa mơ hình Ranếom Forest 52 K TăLU NăCH NGă3 Trong ch ng nƠy, lu n văn đư trình bƠy ch c c a hệ thống, xơy dựng vƠ kiểm thử ng d ng dựa số liệu c thể từ Công ty B o hiểm B o Minh Qu ng Ngưi Hệ thống trợ giúp cho cán b thẩm định dễ dƠng phát tr ng hợp khách hàng có m c đ r i ro cao Qua đ a quy t định hợp lỦ nhằm tăng hiệu qu kinh doanh đ n vị 53 K TăLU N 1.ăK tăqu ăđưăđ tăđ c Về lỦ thuy t, lu n văn đư trình bƠy đ ợc c s lỦ thuy t liên quan đ n khai phá liệu, b ớc xơy dựng hệ thống khai phá liệu vƠ đư trình bƠy đ ợc phơn lớp liệu với thu t toán cơy quy t định C4.5 vƠ Random Forest Đư phơn tích đ ợc trạng vƠ y u tố nh h ng đ n r i ro b o hiểm tƠu cá Phơn tích đư trình bƠy chi ti t q trình tính tốn, chọn lựa thu c tính để xơy dựng cơy quy t định với thu t toán C4.5 vƠ Random Forest có kh phơn loại đắn từ t p liệu tƠu cá Từ so sánh k t qua phơn lớp thu t toán C4.5 Random Foresst Weka cho th y phần lớn thu t toán Random Forest cho k t qu xác cao h n Từ k t qu so sánh nƠy lu n văn đư xơy dựng m t hệ thống trợ giúp đánh giá r i ro cho b o hiểm tƠu cá bắng thu t toán Random Forest đáp ng đầy đ yêu cầu chuyên môn Giúp cho ng i dùng quy t định m t cách khoa học, tránh đ ợc tình thẩm định theo c m tính, hạn ch tr ng hợp r i ro vƠ tạo th mạnh cạnh tranh doanh nghiệp lĩnh vực b o hiểm 2.ăH năch ă Ch ng trình ph i chuyển đổi liệu từ SQL Server sang Excel Nên xử lỦ liệu đ ợc l u trữ t p tin Excel Ch a k t nối vƠ truy xu t liệu trực ti p đ n hệ qu n trị c s liệu SQL Server c a cơng ty Dữ liệu có đ nhiễu m t số thu c tính thi u giá trị S phát sinh tr ng hợp phơn lớp hay phơn loại bị sai 3.ăH ngăphátătri nă Ti p t c nghiên c u thu t toán khai phá liệu cơy quy t định nh thu t toán CHAID, thu t toán MARS, thu t toán ADTNDA (dựa vƠo đ ph thu c c a thu c tính) để nơng cao hiệu qu mơ hình cơy quy t định Cần thử nghiệm hệ thống với khối l ợng liệu lớn để đánh giá lại đ tin c y c a cơy quy t định đánh giá r i ro ơy dựng giao diện trực quan h n để dễ dƠng t ng tác với ng i dùng 54 DANHăM CăTĨIăLI UăTHAMăKH O Ti ngăVi t [1] HoƠng Ki m, Đ Phúc (2005), Giáo trình khai phá ếữ liệu, Trung tâm nghiên c u phát triển công nghệ thông tin, Đại học Quốc gia thƠnh phố Hồ Chí Minh [2] Lê Văn T ng Lơn, ĐoƠn Văn Ban, Lê Mạnh Thạnh (2006), Một ph ơng pháp để ồâỔ ếựng ẾâỔ quỔ t định Ếó hiệu khai phá ếữ liệu, Kỷ y u h i th o quốc gia Công nghệ phần mềm vƠ Công nghệ tri th c [3] Nguyễn Quang Thu (2008), Quản lý rủi ro bảo hiểm ếoanh nghiệp, N B Thống kê Ti ngăAnh [4] IJCSI International Journal of Computer Science Issues, Vol 9, Issue 5, No 3, September 2012, Random Forests and Decision Trees [5] Mitchell T (1999) “Machine Learning and Data Mining”, Communications of the ACM, Vol 42, No 11, pp 30-36 [6] J Ross Quinlan (1993), C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, California [7] Vanden Berghen Frank (2003), C4.5 – Classification Tree, Universit Libre de bruxelles Trang Web [8] http://en.wikipedia.org/wiki/C4.5_algorithm [9] http://www.decisiontrees.net/ [10] http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ... khai phá liệu 1.1.1 S l ợc khai phá liệu 1.1.2 Các kỹ thu t áp d ng khai phá liệu 1.1.3 Các b ớc xơy dựng hệ thống khai phá liệu .6 1.1.4 ng d ng c a khai phá liệu. .. ng pháp khai phá liệu vƠ ng d ng ph ng pháp khai phá liệu vƠo dự đốn tính r i ro khai thác b o hiểm nhằm nơng cao hiệu qu kinh doanh đ n vị - ơy dựng hệ thống h trợ đánh giá r i ro cho tƠu cá. .. tác đánh giá vƠ bồi th ng r i ro b o hiểm tƠu cá 2 u t phát từ lỦ đ ợc đồng Ủ c a TS Nguyễn Trần Quốc Vinh, chọn đề tƠi: “ ng d ng khai phá liệu xơy dựng hệ thống trợ giúp đánh giá r i ro b o hiểm

Ngày đăng: 07/05/2021, 14:16

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w