Tính toán thực nghiệm

Một phần của tài liệu nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng (Trang 50 - 55)

4.1.3.1 Sử dụng công cụ Rapid Miner đưa ra cây quyết định

Rapid Miner là một mã nguồn mở đứng đầu thế giới về giải pháp khai thác dữ liệu [14]. Nó được sử dụng rộng rãi bởi nhà nghiên cứu và các công ty. Rapid Miner xử lý dữ liệu một cách minh bạch, trực quan dễ hiểu và đem lại nhiều lợi ích cho người dùng. Với cơ sở dữ liệu mẫu đã có ở trên, dưới đây sẽ trình bày quy trình làm việc với phần mềm RapidMiner:

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 38 / 61

gõ “excel”, chọn “read excel”. Khi đó trong bảng điều khiển “Main Process” xuất hiện “Read Excel”. Nhấp đúp chuột vào “Read Excel” trong “Main Process”, sau đó nhấp chuột vào Button “Import Configuration Wizard” và nhập cơ sở dữ liệu.

Hình 4.2 Giao diện khi nhập cơ sở dữ liệu

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 39 / 61

- Bƣớc 2. Chia cơ sở dữ liệu 1000 bản ghi theo tỷ lệ 70%. Tại bảng điều khiển

“operator” gõ “split”, kéo “Split Validation” sang main process. Chọn split ration là 0.7.

Hình 4.4 Giao diện chọn tỷ lệ để training và test

- Bƣớc 3. Sử dụng Model Decision Tree. Click vào biểu tượng 2 hình chữ nhật nhỏ ở

góc phải của Validation để xuất hiện 2 bảng điều khiển là Training và Testing.

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 40 / 61

cửa sổ training, nối đầu vào và đầu ra của decision tree operation. Sau đó, kéo thêm apply Model và Performance vào của sổ Test.

Hình 4.6 Kéo Appy Model và Performance vào cửa số Test

- Bƣớc 4: Click vào nút PLAY để ra kết quả.

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 41 / 61

4.1.3.2 Đánh giá kết quả thực nghiệm

Áp dụng phương pháp Hold Out [2.4.3] để đánh giá hiệu quả của thuật toán cây quyết định sử dụng công cụ RapidMiner như trên.

Cây quyết định trên được xây dựng dựa trên tập training set với 700 bản ghi đầu tiên. Sau đây, ta sẽ sử dụng 300 bản ghi ở tập test set để đánh giá hiệu quả của cây quyết đó.

Ta có mô hình đánh giá kết quả thực nghiệm:

CƠ SỞ DỮ LIỆU MẪU BAN ĐẦU (1000 bản ghi)

TẬP HUẤN LUYỆN ( 700 bản ghi)

TẬP KIỂM TRA (300 bản ghi)

Đánh giá tính hiệu quả của cây quyết định đƣợc xây đựng dựatrên tập huấn luyện Thuật toán phân lớp dữ liệu

Tỷ lệ 70%

Thuật toán C4.5 - Cây quyết định

CÂY QUYẾT ĐỊNH

Kết quả của 300 bản ghi trong tập

kiểm tra

Đối chiếu kết quả của tập kiểm tra với Kết quả vừa sinh ra bởi cây quyết định vừa xây dựng

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 42 / 61

Bảng 4. 1 Kết quả đánh giá hiệu quả cây quyết định xây dựng trên CSDL bộ dữ liệu chuẩn. Đúng nhãn “Good” Đúng nhãn “Bad” Dự đoán nhãn “Good” 163 50 Dự đoán nhãn “Bad” 47 40 Độ chính xác của nhãn “Good” Độ chính xác của nhãn “Bad” Độ bao phủ Ý nghĩa:

 Độ chính xác cho biết tỷ lệ từng nhãn dự đoán đúng trên tổng số nhãn đó.

 Độ bao phủ cho biết tỷ lệ nhãn dự đoán đúng trên tổng số nhãn.

Độ chính xác và độ bảo phủ càng tiến dần đến 1 thì hiệu quả cây quyết định càng cao.

Một phần của tài liệu nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng (Trang 50 - 55)

Tải bản đầy đủ (PDF)

(60 trang)