Các giải thuật được sử dụng trong Microsoft SQL Server Analysis Services là tập con của nhiều giải thuật khai phá dữ liệu khác.
Các nhóm thuật toán khai phá dữ liệu [9]
SQL Server Analysis Services cung cấp công cụ phân tích và khai thác dữ liệu dựa trên cơ sở 5 giải thuật Data Mining sau:
Thuật toán phân loại (Classification Algorithm) – dự đoán ra một hoặc nhiều
giá trị biến rời rạc, dựa trên các thuộc tính khác của tập dữ liệu. Điển hình là thuật toán cây quyết định – Microsoft Decision Trees Algorithm.
19
Thuật toán hồi quy (Regression Algorithm) – dự đoán một hoặc nhiều biến giá
trị liên tục, như lợi nhuận và giá trị thua lỗ, dựa trên các thuộc tính dữ liệu khác trong tập dữ liệu. Điển hình là thuật toán chuỗi thời gian – Microsoft Time Series Algorithm.
Thuật toán phân đoạn (Segmentation Algorithm) – phân chia dữ liệu thành
nhiều nhóm gồm các thành phần có thuộc tính tương tự nhau. Thuật toán điển hình là Microsoft Clustering Algorithm.
Thuật toán kết hợp (Assocication Algorithm) – tìm sự tương quan giữa các
thuộc tính trong củng tập dữ liệu. Ứng dụng phổ biến nhất của thuật toán này là xây dựng các luật tương quan, phân tích giỏ hàng. Thuật toán điển hình là Microsoft Assocciation Algorithm
Thuật toán phân tích chuỗi (Sequence Analysis Allgorithm) – kỹ thuật phân
tích chuỗi hoặc mảng dữ liệu trong tập dữ liệu. Điển hình cho loại thuật toán này là Microsoft Sequence Clustering Algorithm.
Bảng 2.6. Ứng dụng của các giải thuật khai phá trong Sql Server 2008 Trong phạm vi luận văn này chúng tôi sẽ dùng hai kỹ thuật đó là:
Microsoft Time series: Dự đoán xu hướng Microsoft Association Rule: Phân tích giỏ hàng
Tác vụ đặc trƣng Thuật toán sử dụng
Dự đoán các giá trị thuộc tính có tính rời rạc
Ví dụ: Dự đoán người nhận mail có khả năng mua sản phẩm trong một chiến dịch gửi mail PR
Microsoft Decision Tree Algorithm Microsoft Naïve Bayes Algorithm Microsoft Clustering Algorithm Microsoft Neural Network Algorithm
Dự đoán các thuộc tính có tính liên tục
Ví dụ: Dự đoán hoạt động bán hàng các năm tới
Microsoft Decision Tree Algorithm Microsoft Time Series Algorithm
Dự đoán chuỗi các tác vụ (thuộc trình tự)
Ví dụ: Phân tích chuỗi các hoạt động của người dùng trên Website
Microsoft Sequence Clustering Algorithm
Tìm kiếm nhóm các đối tƣợng trong giao tác hiện thực ( Luật kết hợp)
Ví dụ: Phân tích giỏ hàng để tiến hành tư vấn, đề nghị cho khách hàng
Microsoft Association Algorithm Microsoft Decision Tree Algorithm
Tìm kiếm các nhóm đối tƣợng tƣơng tự nhau
(Gom cụm)
Ví dụ: Phân đoạn dữ liệu thành các nhóm để nắm rõ hơn mối quan hệ giữa các thuộc tính.
Microsoft Clustering Algorithm Microsoft Sequence Clustering Algorithm
20