Kết quả từ thuật toán C5.0

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng big data phân tích lỗ hổng tín dụng cho vay và giải pháp hạn chế trường hợp của ngân hàng TMCP sài gòn (SCB) (Trang 56 - 57)

Biểu đồ 4.10: Đánh giá mơ hình dựa trên nhóm Training/Đào tạo và Testing/Kiểm định

Như đã trình bày trước đó, trường mục tiêu là RANK_HOSO có ba nhóm và kết quả dự báo từ C5.0 sẽ cho trường mục tiêu dự báo là $C_RANK_HOSO. So sánh giữa hồ sơ được đánh giá ban đầu và sau khi dự báo, kết quả như được chỉ ra ở biểu đồ 4.11. Có 3 nhóm như được nêu trong biểu đồ 4.11. Mỗi nhóm có định nghĩa như sau:

(1) F1_F- : là nhóm gian lận được xác định bởi hồ sơ ban đầu được đánh giá cao (HIGH), nhưng sau khi dự báo hồ sơ này được thuật toán xếp loại lại hồ sơ thuộc nhóm thấp (LOW) hoặc nhóm trung bình (AVER). Tương tự, hồ sơ ban đầu được đánh giá mức trung bình (AVER) nhưng kết quả thuật tốn cho rằng nhóm hồ hơ này thuộc vào nhóm thấp (LOW). Trong trường hợp này, kết quả thống kê từ dự báo chỉ ra Nhóm gian lận F- chiếm 2,4%.

(2) F1_F+ : là nhóm gian lận được xác định bởi hồ sơ ban đầu được đánh giá thấp (LOW) nhưng sau khi dự báo hồ sơ này được thuật tốn xếp hồ sơ thuộc vào nhóm trung bình (AVER) hoặc nhóm cao (HIGH). Tương tự hồ sơ ban đầu được xếp hạng mức trung bình (AVER) nhưng được thuật cho kết quả dự báo nhóm này thuộc nhóm đánh giá hồ sơ thấp (HIGH). Trong trường hợp này, kết quả thống kê từ dự báo Nhóm gian lận F+ chiếm tỷ lệ 19,3%.

(3) F1_F0 : là nhóm khơng gian lận, hồ sơ ban đầu được xếp loại như thế nào, sẽ cho kết quả dự báo như thế đó. Điển hình, ban đầu hồ sơ được xếp loại cao (HIGH) sau khi dự báo cũng cho kết quả cao (HIGH), tương tự ban đầu được xếp loại thấp (LOW) sau dự báo cho kết quả thấp (LOW). Trường hợp này, kết quả thống kê từ dự báo Nhóm này chiếm tỷ lệ 78,3%.

Như vậy kết quả cho thơng điệp có sự gian lận trong đánh giá hồ sơ chiếm 21,7% (bao gồm F1_F- và F1_F+). Điều này có thể là do chủ đích của người tham gia trực tiếp thẩm định hồ sơ khi thực hiện xếp loại. Việc xác định lại nhân viên hoặc ai tham gia trực tiếp thẩm định hồ sơ là khơng khó, vì hệ thống có ghi nhận từng nhân viên trong trách nhiệm thẩm định. Hoặc chúng ta có thể xem lại đặc điểm nhận khẩu học nằm trong nhóm có nguy cơ gian lận.

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng big data phân tích lỗ hổng tín dụng cho vay và giải pháp hạn chế trường hợp của ngân hàng TMCP sài gòn (SCB) (Trang 56 - 57)

Tải bản đầy đủ (PDF)

(69 trang)