Huấn luyện, xác thực, và kiểm tra các mô hình

Một phần của tài liệu Tiểu luận môn hệ hỗ trợ quyết định KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM SAS Enterprise Miner (Trang 39)

Chương 3 Bài báo “KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM

3.5Huấn luyện, xác thực, và kiểm tra các mô hình

Phát triển mô hình bắt đầu bằng cách phân vùng bộ dữ liệu vào một tập hợp các dữ liệu được sử dụng để đào tạo một mô hình, một bộ dữ liệu được sử dụng để xác nhận các mô hình, và một phần ba sử dụng để kiểm tra và đào tạo mô hình xác nhận.

Chia tách các dữ liệu này đảm bảo rằng các mô hình không ghi nhớ một đặc biệt tập hợp con của dữ liệu. Một mô hình đào tạo trên một tập hợp các dữ liệu, nơi nó học các mô hình cơ bản trong dữ liệu, sau đó được xác nhận trên một tập hợp các dữ liệu, mà nó chưa bao giờ thấy trước đây. Nếu mô hình không thực hiện thỏa đáng trong giai đoạn thẩm định (ví dụ, nó có thể dự đoán chính xác quá ít trường hợp trong lĩnh vực mục tiêu), nó sẽ được đào tạo lại.

Đào tạo, phê chuẩn, và kiểm tra quá trình xảy ra lặp đi lặp lại. Mô hình được đào tạo liên tục và xác nhận cho đến khi công cụ này đạt đến một giới hạn thời gian hoặc một ngưỡng chính xác. Phân vùng dữ liệu thường chia tách các dữ liệu thô ngẫu nhiên giữa đào tạo và các bộ xác nhận. Trong một số trường hợp, kiểm soát chia tách dữ liệu đào tạo và xác nhận là mong muốn. Ví dụ, một trường hợp gian lận thẻ tín dụng có thể đòi hỏi

phải phân vùng kiểm soát để tránh phân phối các gian lận các giao dịch cho một tài khoản đặc biệt giữa đào tạo và xác nhận.

Sau khi đào tạo mô hình và xác nhận, các thông số thuật toán có thể được thay đổi trong một nỗ lực để tìm thấy một mô hình tốt hơn. Mô hình mới này tạo ra kết quả mới thông qua đào tạo và xác nhận.

Mô hình là một quá trình lặp đi lặp lại. Trước khi quyết định một mô hình chấp nhận được, các nhà phân tích nên tạo ra một số mô hình mà từ đó lựa chọn tốt nhất có thể được thực hiện.

Trong khi đào tạo và xác nhận là hoạt động độc lập trong quá trình làm mẫu, họ dù sao đang liên quan gián tiếp và có thể ảnh hưởng đến khả năng khái quát của phát triển mô hình. Trong xác nhận, mô hình gián tiếp "nhìn thấy" các dữ liệu xác nhận, và cố gắng nâng cao hiệu quả của nó trong các phiên xác nhận. Mô hình này cuối cùng có thể ghi nhớ cả dữ liệu huấn luyện và gián tiếp các dữ liệu xác nhận làm cho một tập dữ liệu thứ ba biết như là một thiết lập dữ liệu thử nghiệm công cụ để cung cấp kết quả không thiên vị.

Tập dữ liệu thử nghiệm được sử dụng vào cuối của quá trình xây dựng mô hình. Tập dữ liệu thử nghiệm phải có một biến mục tiêu dân cư đầy đủ. Tập dữ liệu thử nghiệm chỉ nên được sử dụng một lần, để đánh giá hoặc so sánh hiệu suất mô hình, không để xác định mô hình cần được đào tạo lại.

Một phần của tài liệu Tiểu luận môn hệ hỗ trợ quyết định KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM SAS Enterprise Miner (Trang 39)