Đánh giá độ chính xác

Một phần của tài liệu 28033_1712202001914402LUANVANNGUYENPHUONGNAM (Trang 60 - 73)

7. Bố cục luận văn

3.3. Đánh giá độ chính xác

ết quả mô hình phân lớp với Random Forest

******* MÔ HÌNH *******

Random forest của 25 Cây, ở mỗi lần tạo cây xem xét 5 thuộc tính. Tỉ lệ lỗi Out of bag: 0.2065

RandomTree ========== SOTIENBOITHUONG < 35 | SOTIENBOITHUONG < 15 | | LAMNUOC = Co | | | PHAMVIHOATDONG = xabo | | | | KINHNGHIEMLAITAU < 10.5 | | | | | THOIGIANSUDUNG < 8.5

| | | | | | KINHNGHIEMLAITAU < 7 : Trung Binh (2/0) | | | | | | KINHNGHIEMLAITAU >= 7 : Thap (20/0) ………

……….

| | | | | | | | THOIGIANSUDUNG >= 6.5 : Cao (4/0) | | SOTIENBOITHUONG >= 25 : Trung Binh (59/0) SOTIENBOITHUONG >= 35 : Cao (152/0)

Hình 3.13. Mô hình Cây quyết định bằng Random Forest

Với kết quả trên là mô hình của tập hợp 25 cây với 4 thuộc tính ngẫu nhiên được chọn khi xem xét chia cây.

Cách biểu diễn như trên giúp ta có thể biểu diễn được những cây có kích thước lớn để dễ cho việc sử dụng.

Với 1 phần cây quyết định trên Hình 3.13 ta có thể vẽ như sau:

a. Đánh giá độ chính xác của mô hình

Đánh giá độ chính xác của mô hình bằng cách sử dụng k-fold croos validation với k=10 Kết quả với mỗi lần chạy là:

Fold 1: ---Fold 1--- **Ket Qua** STT PhanLop DuDoan 1 TrungBinh Thap 2 Cao Cao 3 TrungBinh TrungBinh 4 Cao Cao . . 172 TrungBinh TrungBinh 173 Thap Thap Số dự đoán chinh xác là: 146.0/173.0 Độ Chính ác : 84.39306358381504%

Hình 3.14. Độ chính xác của mô hình Random Forest- fold1

Vậy Fold 1: Đúng 146/173 => 84,39% Tương tự với các lần chạy còn lại:

- Fold 2 : Đúng 143/173 => 82,65% - Fold 3 : Đúng 145/173 => 83,81% - Fold 4 : Đúng 150/173 => 86,70% - Fold 5 : Đúng 142/172 => 82,55% - Fold 6 : Đúng 146/172 => 84,88% - Fold 7 : Đúng 153/172 => 88,95% - Fold 8 : Đúng 143/172 => 83,13% - Fold 9 : Đúng 148/172 => 86,04% - Fold 10 : Đúng 156/172 => 90,69% ************** TỔNG ẾT ******************

Số trường hợp chính xác của Random Forests với 1724 trường hợp = 1472.0 Tỉ lệ chính xác của Random Forests = 85.38283062645012%

***************************************

KẾT LUẬN CHƯƠNG 3

Trong chương này, luận văn đã trình bày các chức năng của hệ thống, xây dựng và kiểm thử ứng dụng dựa trên những số liệu cụ thể từ Công ty Bảo hiểm Bảo Minh tại Quảng Ngãi. Hệ thống trợ giúp cho cán bộ thẩm định dễ dàng phát hiện ra các trường hợp khách hàng có mức độ rủi ro cao. Qua đó đưa ra những quyết định hợp lý nhằm tăng hiệu quả kinh doanh trong đơn vị.

KẾT LUẬN 1. Kết quả đã đạt được

Về lý thuyết, luận văn đã trình bày được cơ sở lý thuyết liên quan đến khai phá dữ liệu, các bước xây dựng hệ thống khai phá dữ liệu và đã trình bày được phân lớp dữ liệu với thuật toán cây quyết định C4.5 và Random Forest

Đã phân tích được hiện trạng và các yếu tố ảnh hưởng đến rủi ro trong bảo hiểm tàu cá. Phân tích đã trình bày chi tiết quá trình tính toán, chọn lựa thuộc tính để xây dựng cây quyết định với thuật toán C4.5 và Random Forest có khả năng phân loại đúng đắn từ tập dữ liệu về tàu cá. Từ đó so sánh kết qua phân lớp giữa 2 thuật toán C4.5 và Random Foresst trên Weka cho thấy phần lớn thuật toán Random Forest cho kết quả chính xác cao hơn

Từ kết quả so sánh này luận văn đã xây dựng một hệ thống trợ giúp đánh giá rủi ro cho bảo hiểm tàu cá bắng thuật toán Random Forest đáp ứng đầy đủ các yêu cầu chuyên môn. Giúp cho người dùng ra quyết định một cách khoa học, tránh được các tình huống thẩm định theo cảm tính, hạn chế các trường hợp rủi ro và tạo thế mạnh cạnh tranh đối với các doanh nghiệp trong lĩnh vực bảo hiểm.

2. Hạn chế

Chương trình phải chuyển đổi dữ liệu từ SQL Server sang Excel. Nên chỉ xử lý dữ liệu được lưu trữ bằng các tập tin Excel.

Chưa kết nối và truy xuất dữ liệu trực tiếp đến hệ quản trị cơ sở dữ liệu SQL Server của công ty.

Dữ liệu có độ nhiễu hoặc một số thuộc tính thiếu giá trị. Sẽ phát sinh những trường hợp phân lớp hay phân loại bị sai.

3. Hướng phát triển

Tiếp tục nghiên cứu các thuật toán khai phá dữ liệu bằng cây quyết định như thuật toán CHAID, thuật toán MARS, thuật toán ADTNDA (dựa vào độ phụ thuộc mới của thuộc tính) để nâng cao hiệu quả mô hình cây quyết định.

Cần thử nghiệm hệ thống với khối lượng dữ liệu lớn để đánh giá lại độ tin cậy của cây quyết định đánh giá rủi ro.

DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Hoàng Kiếm, Đỗ Phúc (2005), Giáo trình khai phá dữ liệu, Trung tâm nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh.

[2] Lê Văn Tường Lân, Đoàn Văn Ban, Lê Mạnh Thạnh (2006), Một phương pháp để xây dựng cây quyết định có hiệu quả trong khai phá dữ liệu, Kỷ yếu hội thảo quốc gia về Công nghệ phần mềm và Công nghệ tri thức.

[3] Nguyễn Quang Thu (2008), Quản lý rủi ro và bảo hiểm trong doanh nghiệp, N B Thống kê.

Tiếng Anh

[4] IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 5, No 3, September 2012, Random Forests and Decision Trees.

[5] Mitchell. T (1999) “Machine Learning and Data Mining”, Communications of the ACM, Vol. 42, No. 11, pp. 30-36.

[6] J. Ross Quinlan (1993), C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, California.

[7] Vanden Berghen Frank (2003), C4.5 – Classification Tree, Universit Libre de bruxelles.

Trang Web

[8] http://en.wikipedia.org/wiki/C4.5_algorithm [9] http://www.decisiontrees.net/

Một phần của tài liệu 28033_1712202001914402LUANVANNGUYENPHUONGNAM (Trang 60 - 73)

Tải bản đầy đủ (PDF)

(73 trang)