Giới thiệu tính năng khai phá dữ liệu

Một phần của tài liệu PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG TRONG SQL SERVER 2012 (Trang 30)

Microsoft SQL Server 2012 là một hệ quản trị cơ sở dữ liệu quan hệ của hãng Microsoft phát triển, phiên bản năm 2012 là phiên bản thứ 11.

SQL Server 2012 ngoài tính năng là hệ quản trị cơ sở dữ liệu thuần túy, nó còn có tính năng khai phá dữ liệu mạnh mẽ, giúp người phân tích rút ra được các tri thức từ kho dữ liệu mà không cần phải tính toán hay viết một dòng mã lệnh nào.

Các tính năng khai phá dữ liệu của SQL Server 2012 bao gồm:

+ Classification algorithms: Các giải thuật phân lớp, dự đoán giá trị rời rạc dựa trên các thuộc tính khác trong tập dữ liệu.

+Regression algorithms: Các giải thuật hồi quy, dự đoán các giá trị liên tục dựa trên các thuộc tính khác trong tập dữ liệu.

+Segmentation algorithms: Các giải thuật phân đoạn, chia dữ liệu thành các nhóm, cụm có các đặc tính giống nhau.

+Association algorithms: Các giải thuật kết hợp, tìm các mối liên hệ giữa các thuộc tính trong tập dữ liệu.

+ Sequence analysis algorithms: Các giải thuật phân tích chuỗi, tìm ra các chuỗi hay xuất hiện hoặc các phân đoạn dữ liệu liên tục.

Các tính năng trên dựa vào một số giải thuật khai phá dữ liệu phổ biến, được Microsoft chọn lọc và kết hợp để tạo thành các kỹ thuật khai phá, bao gồm:

Microsoft Association

Khám phá luật kết hợp dựa trên thuật toán Apriori Algorithm

Microsoft Clustering Gom cụm dữ liệu, sử dụng 2 thuật toán là K-Means và Algorithm Expectation Maximization (EM)

Microsoft Decision Xây dựng cây quyết định dựa trên hướng tiếp cận Bayesian, Trees Algorithm học bằng cách xây dựng các phân phối xác suất hậu nghiệm

Microsoft Linear

Giải thuật hồi quy tuyến tính, là phiên bản riêng của Microsoft

Decision Trees Algorithm được tối ưu cho các thuộc tính có Regression Algorithm

giá trị liên tục

Microsoft Naïve Bayes Dựa trên Naïve Bayes, thuật toán phân lớp dùng cho các mô Algorithm hình dự đoán với giả định các thuộc tính là độc lập

Microsoft Neural

Mạng nơ-ron nhân tạo, dựa trên một mạng Perceptron đa lớp

là mạng lan truyền ngược (Back-Propagated Delta Rule Network Algorithm

Network)

Microsoft Sequence Dùng thuật toán phân tích chuỗi Markov để xác định cácchuỗi tuần tự, kết hợp các kết quả phân tích với kỹ thuật gom

Clustering Algorithm

cụm để tạo ra các cụm dựa trên các chuỗi thứ tự đó

Dựa trên 2 giải thuật độc lập để phân tích chuỗi thời gian: giải

Microsoft Time Series

thuật ARTXP dự đoán giá trị gần giố ng kế tiếp trong chuỗi, và

Algorithm giải thuật ARIMA cải tiến độ chính xác cho các dự đoán dài hạn

Một phần của tài liệu PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG TRONG SQL SERVER 2012 (Trang 30)

Tải bản đầy đủ (DOC)

(46 trang)
w