Chương 3 Bài báo “KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM
3.8.3 Chiến lược mô hình
Trong việc lựa chọn một chiến lược mô hình cho các dữ liệu trong nghiên cứu trường hợp này, các yếu tố sau đây đến:
• số lượng dữ liệu bị mất và làm thế nào nó được xử lý • mức độ đo lường của các biến đầu vào
• tỷ lệ dữ liệu đại diện cho các sự kiện mục tiêu (gian lận)
• Mục tiêu của phân tích - sự hiểu biết các yếu tố tiên đoán so với dự đoán làm cho tốt.
đào tạo một mạng lưới thần kinh sẽ được làm chậm với các đầu vào danh định. Các mục tiêu của phân tích là để hiểu làm thế nào các yếu tố đầu vào liên quan đến dự đoán gian lậnvà phát triển các quy tắc để xác định các trường hợp mới để điều tra. Bởi vì các mạng thần kinh thânvide ít nếu có thông tin phản hồi về cách đầu vào liên quan đến các mục tiêu, họ có thể không phù hợp
cho phân tích này. Do đó cho bài tập này, hồi quy và quyết định cây đã được sử dụng. Điều này dẫn đến việc xem xét cuối cùng - tỷ lệ hồ sơ gian lận trong các dữ
liệu. Để hiểu được yếu tố trong việc lựa chọn một chiến lược mô hình, bạn phải hiểu làm thế nào các thuật toán mô hình làm việc.
Cây quyết định sẽ cố gắng để nhóm tất cả các giá trị danh nghĩa của một đầu vào thành các nhóm nhỏ hơn đang ngày càng tiên đoán của các lĩnh vực mục tiêu. Ví dụ, đối với một đầu vào với danh nghĩa 8 Lev-ELS, cây quyết định có thể tự động tạo ra hai nhóm với 3 và 5 cấp độ mỗi để các nhóm 3 cấp độ có chứa phần lớn các hồ sơ gian lận. Bởi vì cây đặt dữ liệu vào một nhóm lớn và sau đó cố gắng để phân chia các nhóm lớn, cây quyết định có hầu hết các các dữ liệu có sẵn để làm việc với từ đầu. Dữ liệu không nhận được khan hiếm như cây phát triển, bởi vì từng phần mới tập con dữ liệu cho mô hình hơn nữa.
Về tình trạng khan hiếm dữ liệu, hồi quy hoạt động khác với cây quyết định. Tất cả các cấp của tất cả các đầu vào được sử dụng để tạo ra một bảng dự phòng so với mục tiêu. Nếu không có đủ dữ liệu trong một ô của bảng, sau đó hồi quy sẽ có vấn đề bao gồm cả đầu vào trong mô hình. Sự khan hiếm của dữ liệu trở nên nhiều hơn một vấn đề nếu tương tác hoặc qua thuật ngữ này đưa vào mô hình. Ví dụ, nếu đầu vào của bạn bao gồm khu vực địa lý với 50 cấp độ, và mã sản phẩm với 20 cấp độ, một mô hình hồi quy với một khu vực bởi sự tương tác sản phẩm sẽ tạo ra 50 +20 +50 * 20 tế bào trong bảng dự phòng. Bạn sẽ cần một lượng lớn dữ liệu trong mỗi 1070 tế bào để phù hợp với mô hình hồi quy.