IV. Các vấn đề thực tế
4. Lựa chọn các tính năng
Nếu số lượng các thuộc tính đầu vào lớn hơn giá trị của tham số MAXIMUM_INPUT_ATTRIBUTES, hoặc nếu số lượng các thuộc tính dự đoán là lớn hơn giá trị của tham số MAXIMUM_OUTPUT_ATTRIBUTES, một thuật toán lựa chọn tính năng được sử dụng để làm giảm sự phức tạp của các mạng được bao gồm trong các mô hình khai phá. Lựa chọn tính năng làm giảm số lượng đầu vào hoặc các thuộc tính dự đoán cho những cái mà có liên quan thống kê hầu hết các mô hình.
Lựa chọn tính năng được sử dụng tự động của tất cả các Analysis Services dữ liệu các thuật toán khai thác để cải thiện phân tích và giảm tải xử lý. Phương pháp được sử dụng để lựa chọn tính năng trong mô hình mạng neural phụ thuộc vào kiểu dữ liệu của thuộc tính.
Để tham khảo, bảng dưới đây cho thấy các phương pháp lựa chọn tính năng sử dụng cho các mô hình mạng neural, và cũng cho thấy các phương pháp lựa chọn tính
năng sử dụng cho các thuật toán Regression Logistic, được dựa trên các thuật toán Neural Network.
Thuật toán Phương pháp phân tích Giải thích
Neural
Network Interestingness score Shannon'sEntropy Bayesian with K2 Prior Bayesian Dirichlet with uniform prior (default)
Các thuật toán Neural Networks có thể sử dụng cả hai phương pháp, miễn là các dữ liệu chứa các cột liên tục. Mặc định.
Logistic
Regression Interestingness scoreShannon's Entropy Bayesian with K2 Prior
Bayesian Dirichlet with uniform prior (default)
Bởi vì bạn không thể vượt qua một tham số thuật toán này để kiểm soát hành vi tính năng tranh cử , giá trị mặc định được sử dụng. Do đó, nếu tất cả các thuộc tính là rời rạc hoặc rời rạc hóa, mặc định là BDEU.
Các thông số thuật toán điều khiển tính năng lựa chọn cho một mô hình
mạng neural là MAXIMUM_INPUT_ATTRIBUTES,
MAXIMUM_OUTPUT_ATTRIBUTES, và MAXIMUM_STATES. Bạn cũng có thể kiểm soát số lượng các lớp ẩn bằng cách thiết lập các tham số HIDDEN_NODE_RATIO.