3.10. Lựa chọn thuật tốn
Trong khuơn khổ luận văn, cũng như các thuộc tính dữ liệu của rủi ro tín dụng thường là rời rạc và cĩ thể tập hợp vào danh sách các nhĩm miền giá trị nhất định.
Do đĩ tác giả lựa chọn đi sâu nghiên cứu 3 thuật tốn để áp dụng là:
C4.5 – cây quyết định
Apriori – luật kết hợp
Nạve Bayes – tính xác suất điều kiện của các thơng tin đầu vào
Các thuật tốn này dùng để phân lớp dữ liệu & cĩ ưu điểm dễ mơ hình hĩa, tính trực quan cao, phù hợp với dữ liệu cĩ dải giá trị nhỏ
3.11. Lựa chọn cơng cụ
Trong khuơn khổ luận văn, tác giả chọn cơng cụ Weka - Waikato Environment for Knowledge Analysis
Weka là một bộ phần mềm học máy được phát triển tại Đại học Waikato, New Zealand. Chương trình được viết bằng Java. Nĩ chứa một bộ sưu tập các cơng cụ trực quan và các thuật tốn để phân tích dữ liệu và mơ hình tiên đốn kết hợp với giao diện người dùng đồ họa. Weka hỗ trợ một số nhiệm vụ Khai phá dữ liệu
tiêu chuẩn, cụ thể hơn, xử lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hĩa và lựa chọn tính năng.
Ngồi ra Weka cịn cung cấp giao tiếp API cho phép tích hợp bộ cơng cụ vào ứng dụng của doanh nghiệp. Và trong luận văn này, tác giả đã thực hiện tích hợp Weka API vào hệ thống Khảo sát tín dụng Survey360 của Ngân hàng Vietinbank
3.12. Xây dựng mơ hình phân lớp
Lựa chọn dữ liệu & thuộc tính
3.12.1.
Loại bỏ thuộc tính khơng dùng để phân tích: ở đây ta loại bỏ thuộc tính MA_KH, HO_TEN
Hình 3.12.1: Loại bỏ các thuộc tính khơng sử dụng Thuộc tính DINH_MUC_DUOC_VAY
Là kiểu số, cĩ giá trị nhỏ nhất và lớn nhất lần lượt là: 25,000,000 và 1,835,200,000
Ngồi ra thuộc tính này cĩ nhiều giá trị khác nhau vì vậy sẽ chuyển giá trị của thuộc tính từ kiểu số sang kiểu rời rạc.
Chia miền giá trị của Field này thành 10 khoảng giá trị, dựa vào tần suất xuất hiện trong dữ liệu. Kết quả 10 khoảng giá trị thuộc tính như sau: