Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
2,37 MB
Nội dung
Đ IăH CăĐĨăN NG TR NGăĐ IăH CăS ăPH M NGUY NăPH NGăNAM NGăD NGăKHAIăPHỄăD ăLI UăĐ XỂYăD NGăH ăTH NGăTR ăGIÚP ĐỄNHăGIỄăR IăROăTRONGăB OăHI MăTĨUăCỄ LU NăVĔNăTH CăSƾă H ăTH NGăTHỌNGăTINă ĐƠăN ngă- Nĕmă2019 Đ IăH CăĐĨăN NG TR NGăĐ IăH CăS ăPH M NGUY NăPH NGăNAM NGăD NGăKHAIăPHỄăD ăLI UăĐ XỂYăD NGăH ăTH NGăTR ăGIÚP ĐỄNHăGIỄăR IăROăTRONGăB OăHI MăTĨUăCỄ ChuyênăngƠnh:ăH ăth ngăthôngătin Mưăs :ă848.01.04 LU NăVĔNăTH CăSƾă NG IăH NGăD NăKHOAăH C:ă TS NGUY NăTRẦNăQU CăVINH ĐƠăN ng,ănĕmă2019 ii M CL C L IăCAMăĐOAN i M CăL C ii DANH M C CÁC T VI T T T .iv DANH M C CÁC B NG v DANH M C CÁC HÌNH vi M ăĐẦU 1 LỦ chọn đề tƠi M c tiêu nghiên c u Đối t ợng vƠ phạm vi nghiên c u Ph ng pháp nghiên c u K t qu đạt đ ợc ụ nghĩa khoa học vƠ thực tiễn c a lu n văn Bố c c lu n văn .3 CH NGă1.ăNGHIểNăC UăT NGăQUAN 1.1 Tổng quan khai phá liệu 1.1.1 S l ợc khai phá liệu 1.1.2 Các kỹ thu t áp d ng khai phá liệu 1.1.3 Các b ớc xơy dựng hệ thống khai phá liệu .6 1.1.4 ng d ng c a khai phá liệu .7 1.1.5 Khó khăn khai phá liệu 1.2 Phơn lớp khai phá liệu .7 1.2.1 Phơn lớp liệu 1.2.2 Quá trình phơn lớp liệu 1.2.3 Các v n đề liên quan đ n phơn lớp liệu 1.3 Giới thiệu cơy quy t định 12 1.3.1 Giới thiệu chung 12 1.3.2 u điểm c a cơy quy t định 13 1.3.3 Các lu t đ ợc rút từ cơy quy t định 13 1.4 Thu t toán C4.5 14 1.4.1 Giới thiệu 14 1.4.2 Gi i thu t C4.5 xơy dựng cơy quy t định từ xuống 15 1.4.3 Chọn thu c tính phơn loại tốt nh t 17 1.4.4 Entropy đo tính nh t c a t p ví d 17 1.4.5 Tỷ su t lợi ích Gain Ratio .19 1.4.6 Chuyển cơy dạng lu t .20 iii 1.5 Random Forest (rừng ng u nhiên) 21 1.5.1 C s vƠ định nghĩa 21 1.5.2 Tóm tắt gi i thu t 22 1.5.3 Mơ hình phơn lớp với Random Forest 23 1.5.4 ơy dựng cơy ng u nhiên .24 1.5.5 Tạo cơy ng u nhiên 24 1.5.6 Đặc điểm c a Random Forest .24 K T LU N CH NG 25 CH NGă2.ă NGăD NGăCỂYăQUY TăĐ NHăTRONGăCỌNGăTỄC ĐỄNHă GIỄăR IăROăVĨăB IăTH NGăB OăHI MăTĨUăCỄ 26 2.1 Khái quát thị tr ng b o hiểm tƠu cá 26 2.2 Đánh giá r i ro tƠu cá 26 2.2.1 Khái niệm r i ro 26 2.2.2 Khái niệm đánh giá r i ro 27 2.2.3 Phạm vi b o hiểm 27 2.2.4 Quy trình đánh giá r i ro b o hiểm tƠu cá 28 2.2.5 Các y u tố nh h ng đ n r i ro b o hiểm tƠu cá 28 2.3 Phơn tích trạng 28 2.3.1 Chỉ số lĩnh vực kinh doanh b o hiểm tƠu cá .28 2.3.2 Gi i pháp xơy dựng hệ thống trợ giúp đánh giá r i ro b o hiểm tƠu cá 29 2.4 So Sánh k t qu phơn lớp thu t toán C4.5 vƠ Random Forest 30 2.4.1 ng d ng thu t toán C4.5 .30 2.4.2 ng d ng Random Forresst 31 2.4.3 So sánh C4.5 Random Forest 40 K T LU N CH NG 41 CH NGă3.ăXỂYăD NGăVĨăTH ăNGHI Mă NGăD NG 42 3.1 Ch c hệ thống 42 3.1.1 Phân tích yêu cầu 42 3.1.2 Các ch c 45 3.2 Thử nghiệm ng d ng 46 3.3 Đánh giá đ xác 49 K T LU N CH NG 52 K TăLU N 53 DANHăM CăTĨIăLI UăTHAMăKH O 54 QUY TăĐ NHăGIAOăĐ ăTĨIăLU NăVĔNă(B năsao)ă iv DANH M C CÁC T VI T T T Ti ng Vi t CSDL CNTT C s liệu Công nghệ thông tin KPDL MĐSD Khai phá liệu M c đích sử d ng MH STBT Máy học Số tiền bồi th SL Số l ợng TGSD Th i gian sử d ng Ti ngăn ng c CART DBMS Classification and Regression Trees Database Management System KDD OOB Knowledge Discovery in Database Out of Bag v DANH M C CÁC B NG S ăhi uă Tênăb ng b ng Trang 1.1 T p ví d hu n luyện 14 2.1 Số liệu kinh doanh chi nhánh Qu ng Ngưi 29 2.2 Thống kê tình hình bồi th 29 2.3 B ng liệu m u c a 10 khách hƠng 31 2.4 B ng thu c tính ng u nhiên để chia nút 33 2.5 B ng thu c tính c a khách hƠng 33 2.6 B ng liệu bootstrap c a 10 khách hƠng 35 2.7 Entropy(S) phơn theo th i gian sử d ng 36 2.8 Entropy(S) phơn theo M c Đích Sử D ng 37 2.9 Entropy(S) phơn theo th i gian sử d ng 37 2.10 Entropy(S) phơn theo Số Tiền Bồi Th 2.11 Sử d ng phần mềm Weka so sánh đ xác thu t tốn C4.5 Random Forest 40 3.1 Ví d khách hàng cần t v n 48 ng tổn th t ng 38 vi DANH M C CÁC HÌNH S ăhi uă Tên hình hình Trang 1.1 Quá trình khám phá tri th c 1.2 ơy dựng mô hình phơn lớp 1.3 ớc l ợng đ xác 1.4 Phơn lớp liệu 1.5 ớc l ợng đ xác c a mơ hình 10 1.6 Ví d K-fold croos validation - fold 11 1.7 Ví d K-fold croos validation-fold 11 1.8 Ví d K-fold croos validation-fold 12 1.9 Cơy quy t định phơn lớp m c l 13 1.10 M t phần cơy quy t định đ ợc xơy dựng 15 11 Entropy(S) 17 1.12 Cơy quy t định đư đ ợc xơy dựng hoƠn chỉnh 19 1.13 Chuyển cơy quy t định dạng lu t 21 1.14 Mơ hình phơn lớp với Random Forest 23 1.15 Ví d cơy ng u nhiên 24 2.1 Thông số c a thu t toán xơy dựng cơy quy t định C4.5 30 2.2 Tạo bootstrap 32 2.3 C u trúc cơy ng u nhiên 33 2.4 Mơ hình Random Forest với numtree cơy 33 2.5 Mơ hình tổng qt c a Random Forest để phơn lớp 34 2.6 Mô hình cơy phơn lớp tạo với bootstrap 35 2.7 Các thu c tính chọn để chia nút 35 2.8 Ng ỡng thu c tính để chia 36 2.9 Ví d - Cơy phơn lớp với nút chia 38 2.10 Fold với CSDL 1724 b ng ghi c a khách hƠng 39 2.11 Fold với CSDL 1724 b ng ghi c a khách hƠng 39 ng 48 Trong đó: + maxDepth: Cho th y đ sâu tối đa c a Th ng chọn để truy xu t đầy đ liệu, nhiên n u liệu lớn Th i quan xử lý lâu, cần giới hạn lại đ sâu c a + numFeatures: Số l ợng thu c tính sử d ng lựa chọn ng u nhiên để chia nút + numTree: Số l ợng cơy đ ợc tạo Giao diện T V n: Khi chọn ch c nƠy, hệ thống cho phép ng i dùng c p nh t trực ti p thông tin c a khách hàng mà cán b th m định cần hệ thống t v n t v n, sau click em K t Qu , hệ thống s dựa vào t p lu t đư có database xu t k t qu dự đoán phơn lớp khách hàng vùng thị K t Qu Bảng 3.1 Ví dụ khách hàng cần t vấn M c th i Kinh Đích sử gian sử nghiệm d ng Ch a xác định d ng lái tau B o d ỡng Số tiền bồi định kỳ th Có ng 10 Khu vực để Phạm vi hoạt tàu đông Cầu c ng Ch a xác định Hình 3.12 Giao diện ứng dụng t vấn R i ro ? 49 Với liệu cần t v n b ng 13 ch ng trình sinh t p lu t có nguy c r i ro TrungBinh Từ đơy cán b thẩm định đ a quy t định cách nh t 3.3.ăĐánhăgiáăđ ăchínhăxác t mơ hình phân lớp với Ranếom Forest ******* MƠ HÌNH ******* Random forest c a 25 Cơy, m i lần tạo cơy xem xét thu c tính Tỉ lệ l i Out of bag: 0.2065 RandomTree ========== SOTIENBOITHUONG < 35 | SOTIENBOITHUONG < 15 | | LAMNUOC = Co | | | PHAMVIHOATDONG = xabo | | | | KINHNGHIEMLAITAU < 10.5 | | | | | THOIGIANSUDUNG < 8.5 | | | | | | KINHNGHIEMLAITAU < : Trung Binh (2/0) | | | | | | KINHNGHIEMLAITAU >= : Thap (20/0) ……………………………… ……………… | | | | | | | | THOIGIANSUDUNG >= 6.5 : Cao (4/0) | | SOTIENBOITHUONG >= 25 : Trung Binh (59/0) SOTIENBOITHUONG >= 35 : Cao (152/0) Hình 3.13 Mơ hình CâỔ quỔ t định Random Forest Với k t qu lƠ mơ hình c a t p hợp 25 cơy với thu c tính ng u nhiên đ ợc chọn xem xét chia cơy Cách biểu diễn nh giúp ta biểu diễn đ ợc cơy có kích th ớc lớn để dễ cho việc sử d ng 50 Với phần cơy quy t định Hình 3.13 ta v nh sau: a Đánh giá độ Ếhính ồáẾ Ếủa mơ hình Đánh giá đ xác c a mơ hình cách sử d ng k-fold croos validation với k=10 K t qu với m i lần chạy lƠ: 51 Fold 1: -Fold **Ket Qua** STT PhanLop DuDoan TrungBinh Cao Cao Thap TrungBinh TrungBinh Cao Cao 172 TrungBinh TrungBinh 173 Thap Thap Số dự đoán chinh xác lƠ: 146.0/173.0 Đ Chính ác : 84.39306358381504% Hình 3.14 Độ Ếhính ồáẾ Ếủa mơ hình Ranếom Forest- fold1 V y Fold 1: Đúng 146/173 => 84,39% T ng tự với lần chạy lại: - Fold : Đúng 143/173 => 82,65% - Fold : Đúng 145/173 => 83,81% Fold : Đúng 150/173 => 86,70% Fold : Đúng 142/172 => 82,55% - Fold : Đúng 146/172 => 84,88% Fold : Đúng 153/172 => 88,95% - Fold : Đúng 143/172 => 83,13% Fold : Đúng 148/172 => 86,04% Fold 10 : Đúng 156/172 => 90,69% ************** T NG T ****************** Số tr ờng hợp Ếhính ồáẾ Ếủa Ranếom Forests với 1724 tr ờng hợp = 1472.0 Tỉ lệ Ếhính ồáẾ Ếủa Ranếom Forests = 85.38283062645012% *************************************** Hình 15 K t Độ Ếhính ồáẾ Ếủa mơ hình Ranếom Forest 52 K TăLU NăCH NGă3 Trong ch ng nƠy, lu n văn đư trình bƠy ch c c a hệ thống, xơy dựng vƠ kiểm thử ng d ng dựa số liệu c thể từ Công ty B o hiểm B o Minh Qu ng Ngưi Hệ thống trợ giúp cho cán b thẩm định dễ dƠng phát tr ng hợp khách hàng có m c đ r i ro cao Qua đ a quy t định hợp lỦ nhằm tăng hiệu qu kinh doanh đ n vị 53 K TăLU N 1.ăK tăqu ăđưăđ tăđ c Về lỦ thuy t, lu n văn đư trình bƠy đ ợc c s lỦ thuy t liên quan đ n khai phá liệu, b ớc xơy dựng hệ thống khai phá liệu vƠ đư trình bƠy đ ợc phơn lớp liệu với thu t toán cơy quy t định C4.5 vƠ Random Forest Đư phơn tích đ ợc trạng vƠ y u tố nh h ng đ n r i ro b o hiểm tƠu cá Phơn tích đư trình bƠy chi ti t q trình tính tốn, chọn lựa thu c tính để xơy dựng cơy quy t định với thu t toán C4.5 vƠ Random Forest có kh phơn loại đắn từ t p liệu tƠu cá Từ so sánh k t qua phơn lớp thu t toán C4.5 Random Foresst Weka cho th y phần lớn thu t toán Random Forest cho k t qu xác cao h n Từ k t qu so sánh nƠy lu n văn đư xơy dựng m t hệ thống trợ giúp đánh giá r i ro cho b o hiểm tƠu cá bắng thu t toán Random Forest đáp ng đầy đ yêu cầu chuyên môn Giúp cho ng i dùng quy t định m t cách khoa học, tránh đ ợc tình thẩm định theo c m tính, hạn ch tr ng hợp r i ro vƠ tạo th mạnh cạnh tranh doanh nghiệp lĩnh vực b o hiểm 2.ăH năch ă Ch ng trình ph i chuyển đổi liệu từ SQL Server sang Excel Nên xử lỦ liệu đ ợc l u trữ t p tin Excel Ch a k t nối vƠ truy xu t liệu trực ti p đ n hệ qu n trị c s liệu SQL Server c a cơng ty Dữ liệu có đ nhiễu m t số thu c tính thi u giá trị S phát sinh tr ng hợp phơn lớp hay phơn loại bị sai 3.ăH ngăphátătri nă Ti p t c nghiên c u thu t toán khai phá liệu cơy quy t định nh thu t toán CHAID, thu t toán MARS, thu t toán ADTNDA (dựa vƠo đ ph thu c c a thu c tính) để nơng cao hiệu qu mơ hình cơy quy t định Cần thử nghiệm hệ thống với khối l ợng liệu lớn để đánh giá lại đ tin c y c a cơy quy t định đánh giá r i ro ơy dựng giao diện trực quan h n để dễ dƠng t ng tác với ng i dùng 54 DANHăM CăTĨIăLI UăTHAMăKH O Ti ngăVi t [1] HoƠng Ki m, Đ Phúc (2005), Giáo trình khai phá ếữ liệu, Trung tâm nghiên c u phát triển công nghệ thông tin, Đại học Quốc gia thƠnh phố Hồ Chí Minh [2] Lê Văn T ng Lơn, ĐoƠn Văn Ban, Lê Mạnh Thạnh (2006), Một ph ơng pháp để ồâỔ ếựng ẾâỔ quỔ t định Ếó hiệu khai phá ếữ liệu, Kỷ y u h i th o quốc gia Công nghệ phần mềm vƠ Công nghệ tri th c [3] Nguyễn Quang Thu (2008), Quản lý rủi ro bảo hiểm ếoanh nghiệp, N B Thống kê Ti ngăAnh [4] IJCSI International Journal of Computer Science Issues, Vol 9, Issue 5, No 3, September 2012, Random Forests and Decision Trees [5] Mitchell T (1999) “Machine Learning and Data Mining”, Communications of the ACM, Vol 42, No 11, pp 30-36 [6] J Ross Quinlan (1993), C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, California [7] Vanden Berghen Frank (2003), C4.5 – Classification Tree, Universit Libre de bruxelles Trang Web [8] http://en.wikipedia.org/wiki/C4.5_algorithm [9] http://www.decisiontrees.net/ [10] http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ... khai phá liệu 1.1.1 S l ợc khai phá liệu 1.1.2 Các kỹ thu t áp d ng khai phá liệu 1.1.3 Các b ớc xơy dựng hệ thống khai phá liệu .6 1.1.4 ng d ng c a khai phá liệu. .. ng pháp khai phá liệu vƠ ng d ng ph ng pháp khai phá liệu vƠo dự đốn tính r i ro khai thác b o hiểm nhằm nơng cao hiệu qu kinh doanh đ n vị - ơy dựng hệ thống h trợ đánh giá r i ro cho tƠu cá. .. tác đánh giá vƠ bồi th ng r i ro b o hiểm tƠu cá 2 u t phát từ lỦ đ ợc đồng Ủ c a TS Nguyễn Trần Quốc Vinh, chọn đề tƠi: “ ng d ng khai phá liệu xơy dựng hệ thống trợ giúp đánh giá r i ro b o hiểm