So sánh độ chính xác giữa mô hình C4.5 và RandomForest

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 78 - 81)

7. Bố cục luận văn

3.3.3. So sánh độ chính xác giữa mô hình C4.5 và RandomForest

Bảng 3.2. So sánh độ chính xác giữa C4.5 và Random Forest

Random Forest 84.74 % 15.26 % 8~9 giây

C4.5 83.23 % 16.77 % 2 giây

Kết quả bảng 3.2 cho thấy thuật toán C4.5 có tốc độ xử lý nhanh, mất khoản 2 giây, trong khi đó đối với Random Forest mất khoảng 8~9 giây. Do đó sẽ rất tiết kiệm thời gian khi áp dụng xử lý cho những khối dữ liệu lớn.

Tuy nhiên, độ chính xác của thuật toán Random Forest (84.74 %) tƣơng đối tốt hơn thuật toán C4.5 (83.23 %).

KẾT LUẬN CHƢƠNG 3

Trong chƣơng này, luận văn đã trình bày các chức năng của hệ thống, xây dựng và kiểm thử ứng dụng dựa trên những số liệu cụ thể từ Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi. Hệ thống trợ giúp cho cán bộ thẩm định dễ dàng phát hiện ra các trƣờng hợp khách hàng có mức độ rủi ro cao. Qua đó đƣa ra những quyết định hợp lý nh m tăng hiệu quả kinh doanh trong đơn vị.

KẾT LUẬN

Về lý thuyết, luận văn đã trình bày đƣợc cơ sở lý thuyết liên quan đến khai phá dữ liệu, phân lớp dữ liệu, thuật toán cây quyết định C4.5 và Random Forest.

Hệ thống đáp ứng đầy đủ các yêu cầu chuyên môn trong việc đánh giá rủi ro trong bảo hiểm xe cơ giới. Nó giúp cho ngƣời dùng ra quyết định một cách khoa học, tránh đƣợc các tình huống thẩm định theo cảm tính, hạn chế các trƣờng hợp rủi ro và tạo thế mạnh cạnh tranh đối với các doanh nghiệp trong lĩnh vực bảo hiểm.

2. Hạn chế

Chƣơng trình phải chuyển đổi dữ liệu từ SQL Server sang Excel. Nên chỉ xử lý dữ liệu đƣợc lƣu trữ b ng các tập tin Excel.

Chƣa kết nối và truy xuất dữ liệu trực tiếp đến hệ quản trị cơ sở dữ liệu SQL Server của công ty.

Dữ liệu có độ nhiễu hoặc một số thuộc tính thiếu giá trị. Sẽ phát sinh những trƣờng hợp phân lớp hay phân loại bị sai.

3. Hƣớng phát triển

Tiếp tục nghiên cứu các thuật toán khai phá dữ liệu b ng cây quyết định nhƣ thuật toán CHAID, thuật toán MARS, thuật toán ADTNDA (dựa vào độ phụ thuộc mới của thuộc tính) để nâng cao hiệu quả mô hình cây quyết định.

Cần thử nghiệm hệ thống với khối lƣợng dữ liệu lớn để đánh giá lại độ tin cậy của cây quyết định đánh giá rủi ro.

Xây dựng giao diện đồ họa trực quan hơn để dễ dàng tƣơng tác với ngƣời dùng.

DANH MỤC TÀI LIỆU THAM KHẢO

[1] Hoàng Kiếm, Đỗ Phúc (2005), Giáo trình khai phá dữ liệu, Trung tâm nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh.

[2] Lê Văn Tƣờng Lân, Đoàn Văn Ban, Lê Mạnh Thạnh (2006), Một phương pháp

để xây dựng cây quyết định có hiệu quả trong khai phá dữ liệu, Kỷ yếu hội

thảo quốc gia về Công nghệ phần mềm và Công nghệ tri thức.

[3] Nguyễn Quang Thu (2008), Quản lý rủi ro và bảo hiểm trong doanh nghiệp,

NXB Thống kê.

[4] Khối Xe cơ giới (2010), Tài liệu hướng dẫn khai thác bảo hiểm xe cơ giới,

Công ty Cổ phẩn Bảo Hiểm AAA, Lƣu hành nội bộ.

[5] Khối Xe cơ giới (2012), Quy trình khai thác và quản lý hợp đồng bảo hiểm xe

cơ giới, Công ty Cổ phẩn Bảo Hiểm AAA, Lƣu hành nội bộ.

Tiếng Anh

[6] IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 5, No 3,

September 2012, Random Forests and Decision Trees.

[7] Mitchell. T (1999) “Machine Learning and Data Mining”, Communications of

the ACM, Vol. 42, No. 11, pp. 30-36.

[8] J. Ross Quinlan (1993), C4.5: Programs for Machine Learning, Morgan

Kaufmann, San Mateo, California.

[9] Vanden Berghen Frank (2003), C4.5 – Classification Tree, Universit Libre de

bruxelles.

Trang Web

[10]http://en.wikipedia.org/wiki/C4.5_algorithm

[11]http://www.decisiontrees.net/

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 78 - 81)

Tải bản đầy đủ (PDF)

(81 trang)