Bộ công cụ xây dựng cây quyết định

II.2 MÔ HÌNH CÂY QUYẾT ĐỊNH

3. Bộ công cụ xây dựng cây quyết định

Oracle Data Mining là bộ công cụ hỗ trợ khai phá dữ liệu đƣợc nhúng trong cơ sở dữ liệu oracle. Các giải thuật của Oracle Data Mining thao tác trực tiếp với các bảng, các khung nhìn trên cơ sở dữ liệu. Bộ công cụ này thực hiện thao tác trích chọn và chuyển đổi dữ liệu vào trong một bộ công cụ độc lập hoặc có thể là một máy chủ ứng dụng đặc biệt. Việc tích hợp bộ công cụ này vào kiến trúc của cơ sở dữ liệu làm việc quản lý dữ liệu và môi trƣờng phân tích trở lên đơn giản, tiện dụng và hiệu quả hơn. Tiến trình khai phá dữ liệu có thể chạy đồng thời và độc lập với các tiến trình đang xử lý hoặc là các ứng dụng khác của cơ sở dữ liệu. Các tiến trình phân tích dữ liệu có thể khai phá dữ liệu, xây dựng các mô hình hoặc là phƣơng pháp, và sau đó có thể áp dụng các kết quả hoặc là phƣơng pháp này vào các thành phần đầy đủ khác của một ứng dụng để sẵn sàng đƣa lên hệ các môi trƣờng thật. Lợi ích của việc tích hợp bộ công cụ này vào cơ sở dữ liệu không thể chỉ nhấn mạnh đủ trong việc triển khai các mô hình và tính hạng dữ liệu trong một môi trƣờng thật. Oracle Data Mining cho phép ngƣời dùng tận dụng đƣợc ƣu điểm trong tất cả các khía cạnh công nghệ của oracle cho một ứng dụng.

Oracle Data Mining hỗ trợ chức năng khai phá dữ liệu sau: 

o Phân lớp - Classifycation

o Hồi quy - Regression

o Lựa chọn các thuộc tính quan trọng – Attribute Importance

o Tìm kiếm các thuộc tính không phù hợp – Anormaly Detection  Khai phá dữ liệu không giám sát:

o Phân cụm – clustering

o Các mô hình luật kết hợp – Association models

o Trích trọn mẫu thông tin phức tạp – Feature Extraction

3.2. Xây dựng cây quyết quy trên Oracle Data Mining

ODM hỗ trợ một số giải thuật cung cấp các tập luật. Trong số các giải thuật đó có giải thuật cây quyết định, giải thuật phân cụm cung cấp các luật mô tả các điều kiện đƣợc chia sẻ bởi các thành phần của một cụm, và các luật kết hợp cung cấp các luật mô tả sự kết hợp giữa các thuộc tính.

Các luật chỉ ra các thành phần cơ bản cho các dự báo của mô hình. Oracle Data Mining hỗ trợ tính trong suốt ở cấp độ cao. Trong khi một vài giải thuật cung cấp các luật, tất cả các giải thuật cung cấp các chi tiết của mô hình. Ta có thể xem xét chi tiết của mô hình để xác định xem làm thế nào các giải thuật xử lý các thuộc tính bên trong, bao gồm các biến đổi thuận và các biến đổi nghịch.

Hình dƣới đây minh họa việc sinh ra một luật theo mô hình cây quyết định. Luật này đến từ một cây quyết định dự báo khả năng một khách hàng sẽ chi tiêu thêm nếu nhận đƣợc một thẻ tích điểm thƣởng. Kết quả là 0 nếu nhƣ khách hàng không chi tiêu thêm và là 1 nếu nhƣ khách hàng chi tiêu thêm.

Hình 3.1: Biểu diễn luật trong công cụ khai phá dữ liệu của oracle

(current residence > 3.5 and has college degree and is single) THEN

predicted target value = 0

Luật này là một luật đầy đủ. Một luật thay thế là một thuộc tính liên quan có thể đƣợc sử dụng tại thời điểm áp dụng nếu thuộc tính cần thiết cho việc phân chia tập dữ liệu bị thiếu. Đó chính là luật cho thuộ tính thay thế khi thuộc tính đƣợc chọn không thể phân loại tập dữ liệu.

 Độ hỗ trở và độ tin cậy

Độ hỗ trợ và độ tin cậy là các thuộc tính của các luật. Các độ đo này có thể sử dụng để xếp hạng các luật và hiểu thêm về các dự báo.

Độ hỗ trợ: số lƣợng các bản ghi trong tập dữ liệu huấn luyện phù hợp với luật.

Độ tin cậy: xác suất kiều kiện của kết quả dự báo, đƣa ra tính thỏa mãn của luật.

Ví dụ, khi xem xét danh sách 1000 khách hàng. Trong tất cả các khách hàng thì có 100 ngƣời phù hợp với tập luật. Trong 100 ngƣời này, có 75 ngƣời giống nhƣ là sẽ tăng ngân sách chi tiêu, 25 ngƣời giống nhƣ là sẽ giảm ngân sách. Khi đó độ hỗ trợ của luật là 100/1000 (10%). Độ tin cậy của kết quả dự báo (giống nhƣ kiểu tăng ngân sách chi tiêu cho mặt hàng nào đó) cho các trƣờng hợp thỏa mãn luật là 75/100 (75%)

 Phân chia dữ liệu tại các nút

Trong suốt quá trình huấn luyện dữ liệu, giải thuật cây quyết định phải lặp lại quá trình tìm kiếm cách để chi một tập các trƣờng hợp (các bản ghi) vào trong 2 nut con. Oracle Data Mining đề xuất 2 ma trận tính toán tƣơng đồng là gini và entropy, để tính toán cho việc phân chia tập dữ liệu. Ma trận tính toán mặc định là gini.

 Tối ƣu hóa giải thuật cây quyết định trên Oracle Data Mining

Oracle Data Mining hỗ trợ cấu hình các tham số giúp tối ƣu hóa giải thuật cây quyết định. Các tham số bao gồm:

- Tham số cấu hình ma trận tính toán tƣơng đồng:

TREE_INPURITY_METRIC: tham số này cho phép cấu hình giải thuật ma trận tƣơng đồng áp dụng cho việc chọn nút phân chia dữ liệu. Có thể là Gini hoặc là entropy.

TREE_TERM_MAX_DEPTH: tham số này chỉ ra chiều sâu lớn nhất của cây, tính từ gốc cho tới các nút lá. Mặc định là 7.

TREE_TERM_MINPCT_MODE: chỉ ra số lƣợng tối thiểu các trƣờng hợp (các phần tử dữ liêu) cho một nút con nào đó. Tham số đƣợc đƣa ra theo tỷ số phần trăm các bản ghi trong tập dữ liệu huấn luyện. Mặc định là 0.5%.

TREE_TERM_MINPCT_SPLIT : chỉ ra số lƣợng tối thiểu các trƣờng hợp trong một nút để có thể phân chia nút đó. Tham số này đƣợc đƣa ra theo tỷ số phần trăm các bản ghi trong tập dữ liệu huấn luyện. Mặc định là 1%.

TREE_TERM_MINREC_MODE: chỉ ra số trƣờng hợp tối thiểu yêu cầu cho một nút con. Mặc định là 10.

TREE_TERM_MINREC_SPLIT: chỉ ra số trƣờng hợp yêu cầu tối thiểu cho một nút nào đó để có thể phân chia nó. Mặc định là 20.

KẾT LUẬN CHƢƠNG

Hồi quy logit và cây quyết định là những phƣơng pháp phù hợp với bài toán phân lớp dữ liệu đặc biệt là bài toán dự báo nợ xấu. Hồi quy logit dựa trên biến đổi logit đƣa ra công thức toán học cho mô hình phân lớp. Từ công thức này, chúng ta có thể tính toán và đƣa ra kết quả của biến phụ thuộc. Giá trị của các biến phụ thuộc trong các mô hình logit là các giá trị rời rạc. Tƣơng tự nhƣ thế, kỹ thuật cây quyết định cũng hỗ trợ tìm ra giá trị của biến độc lập mà các giá trị của các biến này cũng là các giá trị rời rạc. Điểm khác biệt của cây quyết định so với hồi quy logit là kỹ thuật này đƣa ra các tập luật để định tuyến kết quả cho biến phụ thuộc. Bên cạnh đó, bài toán này đòi hỏi phân lớp biến nợ xấu vào tập gồm 2 giá trị: 1 – nợ xấu, 0 – không nợ xấu. Vì vậy bài toán dự báo nợ xấu chính là bài toán phân lớp nhị phân dựa trên các biến phụ thuộc có kiểu là số hoặc là nhãn. Và các mô hình xây dựng dựa trên hồi quy logit hoặc cây quyết định là các mô hình có thể giải quyết tốt bài toán dự báo nợ xấu. Chƣơng tiếp theo luận văn sẽ giới thiệu chi tiết quá trình xây dựng các mô hình dự báo nợ xấu dựa trên hồi quy logit hoặc cây quyết định.

CHƢƠNG III

THỰC HÀNH VÀ DỰ BÁO NỢ XẤU

Trong Chƣơng này sẽ trình bầy việc chuẩn bị dữ liệu phục vụ cho việc xây dựng mô hình dự báo nợ xấu bằng ứng dụng mô hình Logit và mô hình cây quyết định. Tiếp sau đó sẽ giới thiệu kết quả xây dựng mô hình dự báo và cuối cùng là so sánh độ chính xác của dự báo theo mô hình cây quyết định và mô hình lôgit.

Bộ công cụ xây dựng cây quyết định

Phân tích hồi quy logistic

Giới thiệu chung về mô hình logit