CHỨC NĂNG HỆ THỐNG

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 63)

7. Bố cục luận văn

3.1. CHỨC NĂNG HỆ THỐNG

3.1.1. Các chức năng chính

Hệ thống xây dựng gồm các chức năng cơ bản sau:

Lựa chọn nguồn dữ liệu: Chức năng này cho phép ngƣời dùng có thể lựa chọn dữ liệu từ nhiều nguồn khác nhau để làm đầu vào cho hệ thống xử lý. Nguồn dữ liệu ở đây có thể có là các hệ quản trị cơ sở dữ liệu khác nhau nhƣ: các tập tin dữ liệu đƣợc lƣu trữ dƣới dạng Excel hoặc CSV.

Tiền xử lý dữ liệu: Chức năng này còn có thể gọi là làm sạch dữ liệu và biến đổi dữ liệu ban đầu về các dạng chuẩn để thuật toán C4.5 và Random Forest để có thể dễ dàng xử lý.

Xây dựng cây quyết định: Đây là chức năng quan trọng nhất của hệ thống. Sẽ phân tích dữ liệu, lựa chọn các thuộc tính tốt nhất để xây dựng cây quyết định dựa vào hai thuật toán C4.5 và Random Forest.

Chuyển cây về dạng luật: Từ cây quyết định đã đƣợc xây dựng, chức năng này sẽ rút ra một tập các luật đơn giản, giúp ngƣời sử dụng dễ dàng hiểu và nắm bắt đƣợc các luật xử lý dữ liệu của hệ thống.

Thống kê tỉ lệ lỗi: Đây cũng là một chức năng khá quan trọng của ứng dụng. Nó giúp ta đánh giá đƣợc mức độ tin cậy của mô hình vừa xây dựng cũng nhƣ khả năng áp dụng mô hình trong việc dự đoán rủi ro cho các tập dữ liệu mới.

3.1.2. Phân tích yêu cầu

a. Biểu đồ ca sử dụng

Dựa vào các yêu cầu chức năng về hệ thống, ta có biểu đồ ca sử dụng tổng quát. Biểu đồ ca sử dụng tổng quát gồm 02 tác nhân là cán bộ thẩm định sử dụng chƣơng trình, quản trị viên hệ thống và 03 ca sử dụng chính.

Huấn luyện Dữ Liệu

Đăng nhập

Cán bộ thẩm định Administrator

Tƣ vấn

Hình 3.1. Biểu đồ ca sử dụng tổng quát

+ Ca sử dụng Huấn luyện dữ liệu có thể phân rã thành 03 ca sử dụng nhỏ hơn là:

Huấn luyện dữ liệu

Tải dữ luyện dữ liệu huấn luyện

Huấn luyện

Lƣu cây, tập luật

<<extend>>

<<extend>>

<<extend>>

Hình 3.2. Phân rã ca sử dụng huấn luyện dữ liệu

Ca sử dụng Tải dữ liệu huấn luyện: Dùng để tải dữ liệu của thông tin khách hàng cho quá trình huấn luyện, đầu vào dữ liệu có thể là file CSV đƣợc thống nhất định dạng.

Ca sử dụng Huấn luyện: Sử dụng cả hai thuật toán C4.5 và Random Forest để xây dựng cây quyết định và sinh ra tập luật.

Ca sử dụng Lưu cây và tập luật: Lƣu lại cây và tập luật sau khi đƣợc sinh, tập luật này dùng để đánh giá và phân loại cho tập dữ liệu mới.

+ Ca sử dụng Tư vấn có thể phân rã thành 03 ca sử dụng nhỏ hơn là: Ca sử dụng Nhập dữ liệu khách hàng: Dữ liệu khách hàng có thể đƣợc nhập riêng lẽ hoặc đƣợc tải từ các file excel, CSV lƣu ở ngoài.

Ca sử dụng Áp dụng luật: Sử dụng tập luật đã lƣu dể đánh giá, tƣ vấn. Ca sử dụng Xuất kết quả: xuất thông tin kết quả đánh giá.

Tƣ vấn Nhập dữ liệu khách hàng Áp dụng luật Xuất kết quả <<extend>> <<extend>> <<extend>> Hình 3.3. Phân rã ca sử dụng Tư vấn c. Biểu đồ hoạt động

Biểu đồ hoạt động huấn luyện dữ liệu: Hoạt động này tải thông tin dữ liệu huấn luyện, xây dựng cây quyết định và sinh tập luật.

Biểu đồ hoạt động phân loại dữ liệu: Hoạt động này tải thông tin dữ liệu dùng phân loại, sau đó áp dụng tập luật để xuất ra kết quả phân loại.

Kiểm tra tập luật

Tải dữ liệu phân loại

Kiểm tra dữ liệu Áp dụng tập luật Xuất kết quả Lỗi tập luật Xác nhận đúng

Yêu cầu tải lại

Xác nhận đúng Tải dữ liệu huấn luyện

Kiểm tra dữ liệu

C4.5 xây dựng cây quyết định, tập luật

Random Forest xây dựng cây quyết định, tập luật

Lƣu cây quyết định Tập luật

Dữ liệu lỗi

Hình 3.4. Biểu đồ hoạt động Hình 3.5. Biểu đồ hoạt động huấn luyện dữ liệu tư vấn

d. Biểu đồ tuần tự

Ta có các biểu đồ tuần tự sau:

- Biểu đồ tuần tự cho ca sử dụng đăng nhập. - Biểu đồ tuần tự cho ca dụng huấn luyện dữ liệu. - Biểu đồ tuần tự cho ca dụng tƣ vấn.

Cán bộ thẩm dịnh Form đăng nhập Điều khiển đăng nhập

Nhập ID, mật khẩu

Kiểm tra thông tin Xác nhận đăng nhập Thông báo đăng nhập

Hình 3.6. Biểu đồ tuần tự cho hoạt động đăng nhập

Cán bộ thẩm dịnh Form huấn luyện Điều khiển huấn luyện

Chọn chức năng tải dử liệu

Gửi yêu cầu tải dữ liệu Trả về bảng dữ liệu Chọn chức năng

huấn luyện dƣ liệu

Trả về cây quyết đinh tập luật Gửi yêu cầu huấn luyện dƣ liệu

Chọn chức năng lƣu cây

Gửi yêu cầu lƣu cây

Cán bộ thẩm dịnh Form huấn luyện Điều khiển huấn luyện

Chọn chức năng tải dử liệu

Gửi yêu cầu tải dữ liệu Trả về bảng dữ liệu Chọn chức năng

huấn luyện dƣ liệu

Trả về cây quyết đinh tập luật Gửi yêu cầu huấn luyện dƣ liệu

Chọn chức năng lƣu cây

Gửi yêu cầu lƣu cây

Hình 3.8. Biểu đồ tuần tự cho hoạt động tư vấn

e. Triển khai hệ thống

Hệ thống đƣợc cài đặt trên các máy của cán bộ thẩm định sử dụng. Database đƣợc cài trên một máy server dùng chung cho các máy PC client.

PC sử dụng

Database Server

TCP/IP

3.2. THỬ NGHIỆM ỨNG DỤNG

 Giao diện đăng nhập hệ thống: Ngƣời dùng đăng nhập với tên đăng nhập và mật khẩu riêng để đăng nhập vào hệ thống.

Hình 3.10. Màn hình Đăng nhập hệ thống

 Giao diện chính: Có 2 chức năng đó là Huấn Luyện Dữ Liệu và Tƣ Vấn:

 Huấn Luyện Dữ Liệu: Đầu tiên ta chon mút Chọn dữ liệu để nạp dữ liệu huấn luyện (dữ liệu huấn luyện là file excel có phần mở rộng là *.xls hoặc file CSV, arff)

Phần mô hình hệ thống gồm có 2 mô hình phân lớp Decision tree (C4.5) và Random Forest. Sau khi chay hệ thống sẽ sinh ra các tập luật và kết xuất ra kết quả dự đoán khách hàng và lƣu trong database.

Mô hình phân lớp là Decision tree (C4.5)

Hình 3.13. Giao diện mô hình phân lớp Decision tree (C4.5)

Trong đó:

+ ConfidenceFactor: Hệ số cắt tỉa, những cây có giá trị nhỏ hơn sẽ bị cắt tỉa.

+ MinNumObj: Số lƣợng tối thiểu của các trƣờng hợp trên mỗi nhánh khi tách.

 Mô hình phân lớp với Random Forest

Hình 3.14. Giao diện mô hình phân lớp Random Forest

Trong đó:

+ maxDepth: Cho thấy độ sâu tối đa của cây. Thƣờng thì chọn 0 để truy xuất đầy đủ dữ liệu, tuy nhiên nếu dữ liệu quá lớn. Thời quan xử lý quá lâu, cần giới hạn lại độ sâu của cây.

+ numFeatures: Số lƣợng các thuộc tính sử dụng khi lựa chọn ng u nhiên để chia nút.

+ numTree: Số lƣợng cây đƣợc tạo ra.

 Giao diện Tƣ Vấn: Khi chọn chức năng này, hệ thống cho phép ngƣời dùng cập nhật trực tiếp các thông tin của khách hàng mà cán bộ thậm định cần

hệ thống tƣ vấn tƣ vấn, sau đó click Xem Kết Quả, hệ thống sẽ dựa vào tập luật đã có trong database và xuất kết quả dự đoán phân lớp khách hàng trong vùng hiện thị Kết Quả. Bảng 3.1. Ví dụ về khách hàng cần tư vấn Mục Đích sử dụng thời gian sử dụng Kinh nghiệm lái xe Giới tính Bảo dƣỡng định kỳ Số tiền bồi thƣờng Khu vực để xe Phạm vi

hoạt đông Rủi ro Chƣa

xác định

Chƣa xác định

3 Nam Có 12 Không Chƣa xác

định ?

Hình 3.15. Giao diện ứng dụng tư vấn

 Với dữ liệu cần tƣ vấn trong bảng 3.1 thì chƣơng trình sinh ra 30 tập luật. Trong đó có 26 tập luật nguy cơ rủi ro là trung bình, 4 tập luật nguy cơ rủi ro là cao. Từ đây cán bộ thẩm định có thể đƣa ra quyết định 1 cách đúng nhất.

3.3. ĐÁNH GIÁ Đ CHÍNH XÁC

3.3.1. Mô hình c y quyết định bằng thuật toán C4.5

Xây dựng mô hình phân lớp và đánh giá kết quả với cây quyết định b ng C4.5 với cùng dữ liệu là 1724 khách hàng và lựa chọn phƣơng pháp cắt tỉa.

a. ết qu mô hình câ qu ết định b ng thu t toán C . ******* MÔ HÌNH ******* J48 pruned tree --- sotienboithuong <= 30 | sotienboithuong <= 10 | | khuvucdoxe = Gara | | | baoduongdinhky = Co | | | | kinhnghiemlaixe <= 10 | | | | | thoigiansudung <= 6

| | | | | | phamvihoatdong = NgoaiTinh: Thap (19.0) | | | | | | phamvihoatdong = TrongTinh | | | | | | | gioitinh = Nam | | | | | | | | kinhnghiemlaixe <= 7: Thap (65.0/15.0) .. . | | | | | kinhnghiemlaixe <= 10 | | | | | | khuvucdoxe = Gara | | | | | | | thoigiansudung <= 15: Cao (5.0/1.0) | | | | | | | thoigiansudung > 15: TrungBinh (3.0/1.0) | | | | | | khuvucdoxe = Khong: TrungBinh (31.0/1.0) | | | | | kinhnghiemlaixe > 10: Thap (5.0/1.0)

| | sotienboithuong > 20: TrungBinh (55.0) sotienboithuong > 30: Cao (158.0)

Hình 3.16. Mô hình cây quyết định bằng C4.5

b. ánh giá độ chính xác của mô hình

Fold 1: 143.0/173.0 độ chính xác: 82.65% ---Fold 1--- **Ket Qua** STT PhanLop DuDoan 1 TrungBinh Thap 2 Cao Cao 3 TrungBinh TrungBinh 4 Cao Cao 5 Thap Thap . 169 Thap TrungBinh 170 Thap Thap 171 Cao Cao 172 TrungBinh TrungBinh 173 Thap Thap Số dự đoán chinh xác là: 143.0/173.0 Độ Chính Xác: 82.65895953757226%

Tƣơng tự với các lần chạy còn lại: -Fold 2 : Đúng 146/173 => 84,39% -Fold 3 : Đúng 142/173 => 82,08% -Fold 4 : Đúng 148/173 => 85.54% -Fold 5 : Đúng 141/173 => 81.97% -Fold 6 : Đúng 145/173 => 84.30% -Fold 7 : Đúng 152/173 => 88.37% -Fold 8 : Đúng 141/172 => 81.97% -Fold 9 : Đúng 146/172 => 84.88% -Fold 10: Đúng 148/172 => 86.04% Kết quả độ chính xác: 1452/1724 => 84.22%

Hình 3.18. Kết quả độ chính xác của mô hình cây quyết định C4.5

3.3.2. Mô hình Random Forest

a. ết qu mô hình phân lớp với andom rorest

******* MÔ HÌNH *******

Random forest của 25 Cây, ở mỗi lần tạo cây xem xét 5 thuộc tính. Tỉ lệ lỗi Out of bag: 0.2065

RandomTree ========== phamvihoatdong = NgoaiTinh | sotienboithuong < 30 | | thoigiansudung < 8.5 | | | kinhnghiemlaixe < 8 | | | | baoduongdinhky = Co : TrungBinh (1/0) | | | | baoduongdinhky = Khong

| | | | | mucdichsudung = ChuyenDung : Thap (2/0) .

.

| | | | | | phamvihoatdong = NgoaiTinh : Thap (1/0) | | | | | | phamvihoatdong = TrongTinh : Thap (8/2) | | | | thoigiansudung >= 12 : Thap (9/0)

sotienboithuong >= 35 : Cao (156/0)

************** TỔNG KẾT ******************

Số trường hợp chính xác của Cây Quyết Định(C4.5) với 1724 trường hợp = 1452.0 Tỉ lệ chính xác của của Cây Quyết Định(C4.5) = 84.22273781902551%

Hình 3.19. Mô hình Cây quyết định bằng Random Forest

Với kết quả trên là mô hình của tập hợp 25 cây với 5 thuộc tính ng u nhiên đƣợc chọn khi xem xét chia cây.

Cách biểu diễn nhƣ trên giúp ta có thể biểu diễn đƣợc những cây có kích thƣớc lớn để dễ cho việc sử dụng.

b. ánh giá độ chính xác của mô hình

Đánh giá độ chính xác của mô hình b ng cách sử dụng k-fold croos validation với k=10 Kết quả với mỗi lần chạy là:

Hình 3.20. Độ chính xác của mô hình Random Forest- fold1

Vậy Fold 1: Đúng 144/173 => 83,23% Tƣơng tự với các lần chạy còn lại:

-Fold 2 : Đúng 141/173 => 81,50% -Fold 3 : Đúng 140/173 => 80,92% -Fold 4 : Đúng 152/173 => 87,86% -Fold 5 : Đúng 141/172 => 81,97% -Fold 6 : Đúng 146/172 => 84,88% -Fold 7 : Đúng 152/172 => 88,37% -Fold 8 : Đúng 143/172 => 83,13% -Fold 9 : Đúng 146/172 => 84,88% -Fold 10 : Đúng 156/172 => 84,74% Kết quả độ chính xác: 1461/1724 => 84,74% ************** TỔNG KẾT ******************

Số trường hợp chính xác của Random Forests với 1724 trường hợp = 1461.0 Tỉ lệ chính xác của Random Forests = 84.74477958236659%

***************************************

Hình 3.21. Kết quả Độ chính xác của mô hình Random Forest

3.3.3. So sánh độ chính xác giữa mô hình C4.5 và Random Forest

Bảng 3.2. So sánh độ chính xác giữa C4.5 và Random Forest

Random Forest 84.74 % 15.26 % 8~9 giây

C4.5 83.23 % 16.77 % 2 giây

Kết quả bảng 3.2 cho thấy thuật toán C4.5 có tốc độ xử lý nhanh, mất khoản 2 giây, trong khi đó đối với Random Forest mất khoảng 8~9 giây. Do đó sẽ rất tiết kiệm thời gian khi áp dụng xử lý cho những khối dữ liệu lớn.

Tuy nhiên, độ chính xác của thuật toán Random Forest (84.74 %) tƣơng đối tốt hơn thuật toán C4.5 (83.23 %).

KẾT LUẬN CHƢƠNG 3

Trong chƣơng này, luận văn đã trình bày các chức năng của hệ thống, xây dựng và kiểm thử ứng dụng dựa trên những số liệu cụ thể từ Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi. Hệ thống trợ giúp cho cán bộ thẩm định dễ dàng phát hiện ra các trƣờng hợp khách hàng có mức độ rủi ro cao. Qua đó đƣa ra những quyết định hợp lý nh m tăng hiệu quả kinh doanh trong đơn vị.

KẾT LUẬN

Về lý thuyết, luận văn đã trình bày đƣợc cơ sở lý thuyết liên quan đến khai phá dữ liệu, phân lớp dữ liệu, thuật toán cây quyết định C4.5 và Random Forest.

Hệ thống đáp ứng đầy đủ các yêu cầu chuyên môn trong việc đánh giá rủi ro trong bảo hiểm xe cơ giới. Nó giúp cho ngƣời dùng ra quyết định một cách khoa học, tránh đƣợc các tình huống thẩm định theo cảm tính, hạn chế các trƣờng hợp rủi ro và tạo thế mạnh cạnh tranh đối với các doanh nghiệp trong lĩnh vực bảo hiểm.

2. Hạn chế

Chƣơng trình phải chuyển đổi dữ liệu từ SQL Server sang Excel. Nên chỉ xử lý dữ liệu đƣợc lƣu trữ b ng các tập tin Excel.

Chƣa kết nối và truy xuất dữ liệu trực tiếp đến hệ quản trị cơ sở dữ liệu SQL Server của công ty.

Dữ liệu có độ nhiễu hoặc một số thuộc tính thiếu giá trị. Sẽ phát sinh những trƣờng hợp phân lớp hay phân loại bị sai.

3. Hƣớng phát triển

Tiếp tục nghiên cứu các thuật toán khai phá dữ liệu b ng cây quyết định nhƣ thuật toán CHAID, thuật toán MARS, thuật toán ADTNDA (dựa vào độ phụ thuộc mới của thuộc tính) để nâng cao hiệu quả mô hình cây quyết định.

Cần thử nghiệm hệ thống với khối lƣợng dữ liệu lớn để đánh giá lại độ tin cậy của cây quyết định đánh giá rủi ro.

Xây dựng giao diện đồ họa trực quan hơn để dễ dàng tƣơng tác với ngƣời dùng.

DANH MỤC TÀI LIỆU THAM KHẢO

[1] Hoàng Kiếm, Đỗ Phúc (2005), Giáo trình khai phá dữ liệu, Trung tâm nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh.

[2] Lê Văn Tƣờng Lân, Đoàn Văn Ban, Lê Mạnh Thạnh (2006), Một phương pháp

để xây dựng cây quyết định có hiệu quả trong khai phá dữ liệu, Kỷ yếu hội

thảo quốc gia về Công nghệ phần mềm và Công nghệ tri thức.

[3] Nguyễn Quang Thu (2008), Quản lý rủi ro và bảo hiểm trong doanh nghiệp,

NXB Thống kê.

[4] Khối Xe cơ giới (2010), Tài liệu hướng dẫn khai thác bảo hiểm xe cơ giới,

Công ty Cổ phẩn Bảo Hiểm AAA, Lƣu hành nội bộ.

[5] Khối Xe cơ giới (2012), Quy trình khai thác và quản lý hợp đồng bảo hiểm xe

cơ giới, Công ty Cổ phẩn Bảo Hiểm AAA, Lƣu hành nội bộ.

Tiếng Anh

[6] IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 5, No 3,

September 2012, Random Forests and Decision Trees.

[7] Mitchell. T (1999) “Machine Learning and Data Mining”, Communications of

the ACM, Vol. 42, No. 11, pp. 30-36.

[8] J. Ross Quinlan (1993), C4.5: Programs for Machine Learning, Morgan

Kaufmann, San Mateo, California.

[9] Vanden Berghen Frank (2003), C4.5 – Classification Tree, Universit Libre de

bruxelles.

Trang Web

[10]http://en.wikipedia.org/wiki/C4.5_algorithm

[11]http://www.decisiontrees.net/

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 63)