Chúng tôi sử dụng cơ sở dữ liệu Mã hóa các Quyết định Phê duyệt Tín dụng mà chúng tôi đã sử dụng trong Ví dụ 10.9 để phân loại dữ liệu mới trong trang tính Dữ liệu Bổ sung.
Đầu tiên, phân vùng dữ liệu hoặc sử dụng trang tính phân vùng dữ liệu đã được phân tích trong ví dụ trước.
37
Trong Bước 2 của quy trình k-NN (xem Hình 10.26), chuẩn hóa dữ liệu đầu vào và đặt số lân cận gần nhất (k) thành 2, vì đây là giá trị tốt nhất được xác định trong ví dụ trước và chọn Score trên giá trị đã chỉ định của k như trên.
Trong hộp thoại Bước 3, nhấp vào In worksheet trong ngăn Score new data của hộp thoại. Trong mục Match Variables trong hộp thoại New Range dialog, hãy chọn trang tính the Additional Data worksheet trong trường Worksheet và đánh dấu phạm vi của dữ liệu mới trong trường the Data range field, bao gồm cả tiêu đề. bởi vì chúng tôi sử dụng các tiêu đề giống nhau, hãy nhấp vào Match By Name; kết quả này trong hộp thoại được hiển thị trong Hình 10.28. Nhấp vào Finish trong hộp thoại Bước 3. Trong Navigator, chọn New Data Detail Rpt. Hình 10.29 cho thấy kết quả. Các bản ghi đầu tiên, thứ ba và thứ tư được phân loại là “đã được phê duyệt”.
Phân tích phân biệt (Discriminant Analysis )
Phân tích phân biệt là một kỹ thuật để phân loại một tập hợp các quan sát thành các lớp được xác định trước. Mục đích là để xác định lớp của một quan sát dựa trên một tập hợp các biến dự báo. Dựa trên tập dữ liệu huấn luyện, kỹ thuật xây dựng một tập hợp các hàm tuyến tính của các yếu tố dự đoán, được gọi là các hàm phân biệt, có dạng: L = b1X1 + b2X2 + c + bnXn + c (10.2) trong đó bs (s: 1,2,3,…) là trọng số, hoặc hệ số phân biệt, X là các biến đầu vào, hoặc các yếu tố dự đoán, và
c là hằng số hoặc giá trị chặn. Trọng số được xác định bằng cách tối đa hóa phương sai giữa các nhóm so với phương sai trong nhóm. Các hàm phân biệt này được sử dụng để dự đoán hạng mục của một quan sát mới. Đối với k loại, k hàm phân biệt được xây dựng. Đối với một quan sát mới, mỗi hàm trong số k hàm phân biệt được đánh giá, và quan sát được gán cho lớp i nếu hàm phân biệt thứ i có giá trị cao nhất.
38
Hình 1.28 Tính các biến trong hộp thoại phạm vi mới cho dữ liệu mới
Hình 1.29 Phân loạ i dữ liệ u thủ t ụ c k-NN của dữ liệ u mới
Ví dụ 12.Phân loại các quyết định tín dụng bằng cách sử dụng phân tích phân biệt
Trong cơ sở dữ liệu Mã hóa các Quyết định Phê duyệt Tín dụng, trước tiên, hãy phân vùng dữ liệu thành các bộ đào tạo và xác nhận, như đã mô tả trước đó. Từ các tùy chọn XLMiner, hãy chọn Phân tích Phân biệt từ menu Phân loại trong nhóm Khai thác dữ liệu. Hộp thoại đầu tiên xuất hiện được hiển thị trong Hình 10.30. Đảm
39
bảo rằng trang tính được chỉ định là trang tính có phân vùng dữ liệu. Chỉ định các biến đầu vào và biến đầu ra. Lớp “thành công” tương ứng với giá trị kết quả mà bạn coi là thành công — trong trường hợp này, việc phê duyệt khoản vay mà chúng tôi đã chỉ định giá trị 1. Xác suất giới hạn mặc định là 0,5 và điều này thường được sử dụng.
Hộp thoại thứ hai được hiển thị trong Hình 10.31. Quy trình phân tích phân biệt kết hợp các giả định trước về tần suất xuất hiện của các lớp khác nhau. Ba tùy chọn có sẵn:
1.Theo số lần xuất hiện tương đối trong dữ liệu đào tạo. Tùy chọn này giả định rằng xác suất gặp một danh mục cụ thể giống như tần suất mà nó xuất hiện trong dữ liệu huấn luyện.
2. Sử dụng các xác suất trước bằng nhau. Tùy chọn này giả định rằng tất cả các danh mục xảy ra với xác suất như nhau.
3. người dùng xác định trước xác suất. Tùy chọn này chỉ khả dụng nếu biến đầu ra có hai danh mục. Nếu bạn có thông tin về các xác suất mà một quan sát sẽ thuộc về một loại cụ thể (bất kể mẫu đào tạo là gì) thì bạn có thể chỉ định các giá trị xác suất cho hai loại.
40
Hình 1.30 Hộp thoại phân tích phân biệt, Bước 1
Hộp thoại này cũng cho phép bạn chỉ định chi phí phân loại sai khi có hai danh mục. Nếu chi phí cho hai nhóm bằng nhau, thì phương pháp sẽ cố gắng phân loại sai số lượng quan sát ít nhất trên tất cả các nhóm. Nếu chi phí phân loại sai là không bằng nhau, XLMiner sẽ cân nhắc chi phí tương đối và cố gắng phù hợp với mô hình giảm thiểu tổng chi phí phân loại sai.
Hình 1.31 Hộp thoại phân tích phân biệt, Bước 2
Hộp thoại thứ ba (Hình 1.32) cho phép bạn chỉ định các tùy chọn đầu ra. Chúng bao gồm một số thông tin thống kê nâng cao và các báo cáo chi tiết hơn; chọn hộp kiểm cho Chức năng phân loại
Hình 1.32 Hộp thoại phân tích phân biệt, Bước 3
41
Hình 1.33 cho thấ y các hàm phân loạ i (phân biệ t) cho hai loạ i từ trang tính DA_Stored. Đối với loại 1 (phê duyệt đơn xin vay), chức năng phân biệt là:
L (1) = −149,871 + 10,66073 × chủ nhà + 0,355209 × điểm tín dụng + 0,858509 × năm lịch sử tín dụng - 0,00015 × số dư quay vòng + 115,9978 × hiệu suất quay vòng
Đối với loại 0 (từ chối đơn xin vay), hàm phân biệt là:
L (0) = −174,22 + 7,589715 × chủ nhà + 0,364829 × điểm tín dụng + 0,54185 × năm lịch sử tín dụng - 0,00023 × số dư quay vòng + 170,6218 × hiệu suất sử dụng quay vòng
Ví dụ, đối với bản ghi đầu tiên trong cơ sở dữ liệu:
L (1) = −149,871 + 10,66073 × 1 + 0,355209 × 725 + 0,858509 × 20 - 0,00015 × $ 11,320 + 115,9978 × 0,25 = 162,7879 L (0) = −174,22 + 7,589715 × 1 + 0,364829 × 725 + 0,54185 × 20 - 0,00023 × 11,320 + 170,6218 × 0,25 = 148,7596
Do đó, bản ghi này sẽ được gán cho loại 1.
Hình 1.33 Kết quả phân tích – Dữ liệu chức năng phân loại
42
Hình 1.34 Kế t quả phân tích dữ liệu – Dữ liệu đào tạo và xác thực dữ liệu
Hình 1.34 cho thấy các báo cáo cho điểm cho các tập dữ liệu đào tạo và xác nhận. Chúng tôi thấy rằng có một tỷ lệ phân loại sai tổng thể là 15%.