.Tập dữ liệu phân vùng trong XLMiner

Để phân vùng dữ liệu thành các bộ đào tạo và xác nhận trong XLMiner, hãy chọn Phân vùng từ nhóm Khai thác dữ liệu và sau đó chọn Phân vùng chuẩn. Hộp thoại Phân vùng Dữ liệu Chuẩn nhắc bạn về thông tin cơ bản, Hình 1.22 cho thấy hộp thoại đã hoàn thành. Trước tiên, hộp thoại cho phép bạn chỉ định phạm vi dữ liệu và liệu nó có chứa các tiêu đề trong tệp Excel cũng như các biến để đưa vào phân vùng hay không. Để chọn một biến cho phân vùng, hãy nhấp vào nó và sau đó nhấp vào nút # (nút này sẽ thay đổi thành nút "nếu tất cả các biến đã được chuyển sang ngăn bên phải). Bạn có thể sử dụng phím Ctrl để chọn nhiều biến số ngẫu nhiên hạt giống mặc định là 12345, nhưng điều này có thể được thay đổi. XLMiner cung cấp ba tùy chọn:

1. Tỷ l ệ phần trăm tự động: Nếu bạn chọn mục này, 60% tổng số bản ghi trong tập dữ liệu được chỉ định ngẫu nhiên cho tập huấn luyện và phần còn lại cho tập xác thực. Nếu tập dữ liệu lớn, thì 60% có thể sẽ vượt quá giới hạn về số lượng bản ghi trong phân vùng huấn luyện. Trong trường hợp đó, XLMiner sẽ phân bổ tỷ lệ phần

trăm tối đa cho tập huấn luyện sẽ chỉ nằm trong giới hạn. Sau đó, nó sẽ chỉ định phần trăm còn lại cho tập hợp xác thực.

2. Chỉ định tỷ lệ phần trăm: Bạn có thể chỉ định tỷ lệ phần trăm phân vùng được yêu cầu. Trong trường hợp tập dữ liệu lớn, XLMiner sẽ đề xuất tỷ lệ phần trăm

tối đa có thể cho tập huấn luyện, để phân vùng huấn luyện nằm trong giới hạn đã chỉ định. Sau đó, nó sẽ phân bổ các bản ghi còn lại cho các bộ xác nhận và kiểm tra theo tỷ lệ 60:40. Bạn có thể thay đổi những điều này và chỉ định tỷ lệ phần trăm. XLMiner sẽ thực hiện các thông số kỹ thuật của bạn miễn là các giới hạn được đáp ứng.

3. Tỷ lệ phần trăm bằng nhau: XLMiner sẽ chia đều các bản ghi trong các bộ

đào tạo, xác nhận và kiểm tra. Nếu tập dữ liệu lớn, nó sẽ gán các bản ghi tối đa có

thể cho việc huấn luyện sao cho số lượng nằm trong giới hạn đã chỉ định cho phân vùng huấn luyện và chỉ định cùng một tỷ lệ phần trăm cho các tập xác thực và thử nghiệm. Điều này có nghĩa là tất cả các hồ sơ có thể không được cung cấp. Vì vậy, trong trường hợp tập dữ liệu lớn, hãy chỉ định tỷ lệ phần trăm nếu được yêu cầu.

Hình 1.23 cho thấy một phần kết quả của ví dụ về các Quyết định Phê duyệt Tín dụng. Bạn có thể hiển thị dữ liệu đào tạo và dữ liệu xác thực bằng cách sử dụng các liên kết Bộ điều hướng đầu ra ở đầu trang tính.

Hình 1.22 Hộp thoại phân vùng dữ liệu

Hình 1.23 Phần đầu ra của phân vùng dữ liệu

XLMiner cung cấp hai cách phân vùng tiêu chuẩn:

+ Phân vùng ngẫu nhiên:

Hình 1.24 Dữ liệu bổ sung các quyết định được mã hoá trong phê duyệt tín dụng tệp Excel

Phân vùng ngẫu nhiên sử dụng lấy mẫu ngẫu nhiên đơn giản, trong đó mọi quan sát trong tập dữ liệu chính đều có xác suất được chọn cho tập dữ liệu phân vùng bằng nhau. Ví dụ: nếu bạn chỉ định 60% cho tập dữ liệu huấn luyện, thì 60% tổng số quan sát sẽ được chọn ngẫu nhiên và sẽ bao gồm tập dữ liệu huấn luyện. Phân vùng ngẫu nhiên sử dụng các số ngẫu nhiên để tạo mẫu. Bạn có thể chỉ định bất kỳ hạt giống số ngẫu nhiên không âm nào để tạo mẫu ngẫu nhiên. Sử dụng cùng một hạt giống cho phép bạn sao chép chính xác các phân vùng cho các lần chạy khác nhau.

+ Phân vùng do người dùng xác định.

Phân loại dữ liệu mới

Mục đích của việc phát triển mô hình phân loại là để có thể phân loại dữ liệu

mới. Sau khi một sơ đồ phân loại được chọn và mô hình tốt nhất được phát triển dựa trên dữ liệu hiện có, chúng tôi sử dụng các biến dự báo làm đầu vào cho mô hình để

dự đoán đầu ra.

Ví dụ 9 Phân loại dữ liệu mới cho các quyết định tín dụng bằng cách sử dụng điểm tín dụng và năm lịch sử tín dụng

Tệp Excel Quyết định phê duyệt tín dụng và Quyết định phê duyệt tín dụng được mã hóa bao gồm một tập hợp nhỏ dữ liệu mới mà chúng tôi muốn phân loại trong dữ liệu bổ sung của trang tính. Các dữ liệu này được thể hiện trong Hình 10.24. Nếu chúng tôi sử dụng quy tắc điểm tín dụng đơn giản từ Ví dụ 10.7 rằng cần phải có số điểm hơn 640 để phê duyệt đơn đăng ký, thì chúng tôi sẽ phân loại quyết định cho các bản ghi đầu tiên, thứ ba và thứ sáu là 1 và phần còn lại là 0 . Nếu chúng tôi sử dụng quy tắc được phát triển trong

Ví dụ 10.7, bao gồm cả điểm tín dụng và số năm lịch sử tín dụng — nghĩa là, từ chối đơn đăng ký nếu số năm + 0,095 × điểm tín dụng "74,66— thì các quyết định sẽ như sau:

Kỹ thuậ t phân loại

Chúng tôi sẽ mô tả ba cách tiếp cận khai thác dữ liệu khác nhau được sử dụng để phân loại:

+ k-Hàng xóm gần nhất + Phân tích phân biệt

+ Hồi quy logistic

k-Nearest Neighbors (k-NN) (k-Hàng xóm gầ n nhất)

Thuật toán k-Nearest Neighbors (k-NN) là một lược đồ phân loại cố gắng tìm các bản ghi trong cơ sở dữ liệu tương tự như bản ghi mà chúng ta muốn phân loại. Sự giống nhau dựa trên “mức độ gần gũi” của một bản ghi với các yếu tố dự đoán số trong các bản ghi khác. Trong cơ sở dữ liệu Quyết định phê duyệt tín dụng, chúng tôi có các yếu tố dự đoán Chủ sở hữu nhà, Điểm tín dụng, Lịch sử tín dụng, Số dư luân chuyển và Mức sử dụng quay vòng. Chúng tôi tìm cách phân loại quyết định chấp thuận hoặc từ chối đơn đăng ký tín dụng. Giả sử rằng giá trị của các yếu tố dự đoán của hai bản ghi X và Y được gắn nhãn 1x1, x2, c, xn2 và 1y1, y2, c, xn2. Chúng tôi đo khoảng cách giữa hai bản ghi bằng khoảng cách Euclide trong công thức (10.1). Bởi vì các yếu tố dự báo thường có các thang đo khác nhau, chúng thường được tiêu chuẩn hóa trước khi tính toán khoảng cách.

Giả sử chúng ta có một bản ghi X mà chúng ta muốn phân loại. Người hàng xóm gần nhất với bản ghi đó trong tập dữ liệu huấn luyện là người có khoảng cách nhỏ nhất với nó. Sau đó, quy tắc 1-NN sẽ phân loại bản ghi X vào cùng loại với hàng xóm gần nhất của nó. Chúng ta có thể mở rộng ý tưởng này thành quy tắc k-NN bằng cách tìm k lân cận gần nhất trong tập dữ liệu huấn luyện cho mỗi bản ghi mà chúng ta muốn phân loại và sau đó gán phân loại như phân loại của đa số k lân cận gần

nhất. Việc lựa chọn k hơi tùy tiện. Nếu k quá nhỏ, việc phân loại bản ghi rất nhạy cảm với việc phân loại bản ghi đơn lẻ mà nó gần nhất. K lớn hơn làm giảm sự biến thiên này, nhưng k quá lớn sẽ dẫn đến sự sai lệch trong các quyết định phân loại. Ví dụ, nếu k là số lượng của toàn bộ tập dữ liệu huấn luyện, tất cả các bản ghi sẽ được phân loại theo cùng một cách. Giống như các hằng số làm mịn cho dự báo làm mịn trung bình di động hoặc theo hàm mũ, cần một số thử nghiệm để tìm giá trị tốt nhất của k nhằm giảm thiểu tỷ lệ phân loại sai trong dữ liệu xác thực. XLMiner cung cấp khả năng chọn giá trị lớn nhất cho k và đánh giá hiệu suất của thuật toán trên tất cả các giá trị của k cho đến giá trị lớn nhất được chỉ định. Thông thường, các giá trị của

k từ 1 đến 20 được sử dụng, tùy thuộc vào kích thước của tập dữ liệu và các số lẻ thường được sử dụng để tránh ràng buộc trong tính toán phân loại đa số các láng giềng gần nhất.

.Phân loại dữ liệu mới bằng k-NN