Tiểu luận môn khai phá dữ liệu Khai phá dữ liệu trong SQL Server

Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu.. f Các phương pháp dựa trê

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

ĐẠI HỌC QUỐC GIA TPHCM

BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU

Đề tài: Khai phá dữ liệu trong SQL Server

Giảng viên: PGS.TS Đỗ Phúc

Học viên: Đào Thị Phấn

Mã số: CH1101118

TPHCM, Tháng 11/2012

Trang 2

MỤC LỤC

LỜI NÓI ĐẦU 3

Phần 1: Tổng quan khai phá dữ liệu 4

1.1 Khai phá dữ liệu là gì? 4

1.2 Các ứng dụng và chức năng của khai phá dữ liệu 4

1.3 Các bước trong khai phá dữ liệu 5

1.4 Một số phương pháp khai phá dữ liệu 6

Phần 2: Khai phá dữ liệu trong SQL Server 2005 8

2.1 Các bước khai phá dữ liệu của Microsoft 8

2.2 Các thuật toán khai phá dữ liệu trong Microsoft SQL Server 8

2.3 Vấn đề sử dụng các thuật toán 14

2.4 Công cụ khai phá dữ liệu 16

2.5 Khai phá dữ liệu bằng câu lệnh SQL 20

PHỤ LỤC 24

TÀI LIỆU THAM KHẢO 32

Trang 3

LỜI NĨI ĐẦU

Trong mơi trường thương mại điện tử ngày nay, lĩnh vực khai phá dữ liệu (data mining) ngày càng thu hút nhiều sự quan tâm Nhờ vào các phương tiện tự động hay bán tự động, data mining khảo sát và phân tích trên một lượng lớn dữ liệu để rút ra những mẫu và qui luật cĩ ý nghĩa Các thơng tin này giúp các cơng ty kinh doanh chẳng hạn như hiểu rõ khách hàng hơn để từ đĩ cĩ các chiến lược phù hợp hơn nhằm nhằm cải thiện hoạt động tiếp thị, bán hàng và hỗ trợ khách hàng

Trong những năm gần đây, Microsoft đã đưa ra OLE DB cho giao diện lập trình ứng dụng (API) data mining với nhiều data mining provider hàng đầu API này định nghĩa một ngơn ngữ truy vấn data mining dựa trên cú pháp SQL (Structured Query Language) Các mơ hình data mining (Data Mining Model) được xem như là một dạng đặc biệt của bảng quan hệ Các tính tốn dự báo được xem như là một dạng đặc biệt của phép kết Hệ quản trị dữ liệu Microsoft SQL Server 2005 cung cấp Microsoft data mining provider dựa trên OLE DB cho chuẩn Data Mining Provider này gồm một số thuật tốn data mining phổ biến như Microsoft Decision Trees, Microsoft Clustering, Microsoft Nạve Bayes, …

Tiểu luận này trình bày khái quát về khai phá dữ liệu, đồng thời trình bày sự hỗ trợ khai phá dữ liệu trong một hệ quản trị cơ sở dữ liệu phổ biến, đĩ là SQL Server

2005 và cuối cùng là minh họa cho quá trình khai thác dữ liệu trên một cơng cụ của SQL Server 2005

Em xin chân thành cảm ơn PGS.TS Đỗ Phúc – Giảng viên mơn học Khai Phá

Dữ Liệu và Kho Dữ Liệu đã truyền đạt cho em những kiến thức vơ cùng quý báu Em cũng xin chân thành cảm ơn quý Thầy Cơ thuộc phịng đào tạo Sau đại học đã tạo điều kiện về tài liệu tham khảo để em cĩ thể hồn thành mơn học này

Trang 4

Phần 1: Tổng quan khai phá dữ liệu

1.1 Khai phá dữ liệu là gì?

Khai phá dữ liệu nhằm rút trích thông tin hữu ích, chưa biết, tiềm ẩn, phân tích

dữ liệu bán tự động, giải thích dữ liệu trên các tập dữ liệu lớn

Khai phá dữ liệu - Data mining, là một bước của tiến trình KDD (Knowledge Discovery in Database), cung cấp tri thức hỗ trợ ra quyết định, dự báo và khái quát dữ liệu, tiến trình này bao gồm:

• Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding)

• Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation)

• Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu Kết quả cho ra một nguồn tri thức thô

• Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được

• Triển khai (Deployment)

Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua

1.2 Các ứng dụng và chức năng của khai phá dữ liệu

• Phân tích dữ liệu, hỗ trợ ra quyết định

- Phân tích quản lý thị trường

- Quản lý phân tích rủi ro

- Quản lý và phân tích các sai hỏng

• Các ứng dụng khác như: khai thác văn bản, phân chia tài liệu Web, điều trị y học, tài chính, bảo hiểm,

• Chức năng của khai phá dữ liệu

- Mô tả khái niệm

Trang 5

- Luật kết hợp

- Phân lớp và dự đoán

- Gom cụm

- Khai phá chuỗi

1.3 Các bước trong khai phá dữ liệu

Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình

dữ liệu thay đổi), v.v…

Tiếp theo là công việc thu thập và tiền xử lý dữ liệu Sẽ là quá cồng kềnh với một giải thuật khai phá dữ liệu nều phải truy nhập vào toàn bộ nội dung của cơ sở dữ liệu và làm những việc như trên Có rất nhiều giải thuật khai phá dữ liệu thực hiện dựa trên những thống kê tóm tắt khá đơn giản của cơ sở dữ liệu, khi mà toàn bộ thông tin trong cơ sở dữ liệu là quá dư thừa đối với mục đích của việc khai phá dữ liệu

Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu để tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn dưới dạng các luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi quy, …)

Hình 1: Các bước khai phá dữ liệu

Xác định

nhiệm vụ

Xác định dữ liệu liên quan

Thu thập và tiền xử lý dữ liệu

Giải thuật khai phá dữ liệu Thkê tóm tắt

Mẫu

DL trực tiềp

Trang 6

1.4 Một số phương pháp khai phá dữ liệu

a) Phương pháp quy nạp (induction)

Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng

có thể được suy diễn từ kho thông tin đó Có hai kỹ thuật chính để thực hiện việc này

là suy diễn và quy nạp

+ Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin

trong cơ sở dữ liệu Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ Mẫu chiết xuất được bằng cách sử dụng phương pháp này thường là các luật suy diễn

+ Phương pháp quy nạp: phương pháp quy nạp suy ra các thông tin được sinh ra từ

cơ sở dữ liệu Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu với các tri thức đã biết trước Các thông tin mà phương pháp này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu

b) Cây quyết định và luật

+Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân

các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mô tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với các giá trị của thuộc tính của đối tượng tới lá

+Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về

mặt thống kê Các luật có dạng NẾU P THÌ Q, với P là mệnh đề đúng với một phần trong cơ sở dữ liệu, Q là mệnh đề dự đoán

c) Phát hiện các luật kết hợp

Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và

B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A ⇒ B

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X⇒B sao cho tần số của luật không nhỏ hơn ngưỡng σ cho trước và độ tin cậy của luật không

Trang 7

nhỏ hơn ngưỡng θ cho trước Từ một cơ sở dữ liệu, có thể tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp

d) Các phương pháp phân lớp và hồi quy phi tuyến

Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm cho các kết hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm sigmoid, hàm spline (hàm mành), hàm đa thức) phù hợp với các kết hợp của các giá trị biến vào Các phương pháp thuộc loại này như mạng neuron truyền thẳng, phương pháp mành thích nghi, v.v…

e) Gom cụm và phân đoạn (clustering and segmentation)

Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó Mối quan hệ thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính của các thành phần như là hàm của các tham số của các thành phần Phương pháp này được gọi là phương pháp phân hoạch tối ưu (optimal partitioning)

f) Các phương pháp dựa trên mẫu

Sử dụng các mẫu mô tả từ cơ sở dữ liệu để tạo nên một mô hình dự đoán các mẫu mới bằng cách rút ra những thuộc tính tương tự như các mẫu đã biết trong mô hình Các kỹ thuật bao gồm phân lớp theo láng giềng gần nhất, các giải thuật hồi quy và các

hệ thống suy diễn dựa trên tình huống (case-based reasoning)

g) Mạng nơron (neuron network)

Mạng nơron là tiếp cận tính toán liên quan đến việc phát triển các cấu trúc toán học với khả năng học Các phương pháp là kết quả của việc nghiên cứu mô hình học của hệ thống thần kinh con người Mạng nơron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được

Trang 8

Phần 2: Khai phá dữ liệu trong SQL Server 2005

2.1 Các bước khai phá dữ liệu của Microsoft

Trong khai phá dữ liệu, khi đã có được một tập dữ liệu người ta muốn khai thác thông tin từ nó một cách hiệu quả nhằm phục vụ cho công việc Và Microsoft đưa ra một chuẩn gồm 6 bước để khai thác dữ liệu một cách hiệu quả

1) Định nghĩa vấn đề

2) Chuẩn bị vấn đề

3) Khám phá dữ liệu

4) Xây dựng mô hình

5) Khai thác và đánh giá mô hình

6) Triển khai mô hình và nâng cấp mô hình

Hình 2: Các bước khai phá dữ liệu của Microsoft

2.2 Các thuật toán khai phá dữ liệu trong Microsoft SQL Server

Hệ quản trị cơ sở dữ liệu MS SQL Server 2005 ngoài tính năng phổ biến là hỗ trợ người dùng quản trị và truy vấn dữ liệu, còn được cải tiến thêm khả năng khai thác thông tin được tích hợp trong một số công cụ, khiến cho việc triển khai và quản lý dễ dàng hơn Microsoft cung cấp công cụ phân tích và khai thác dữ liệu dựa trên cơ sở các thuật toán khai phá dữ liệu (Data Mining) sau:

a) Microsoft Decision Tree (Cây quyết định)

Trang 9

Thuật toán Microsoft Decision Tree hỗ trợ cả việc phân loại và hồi quy, và tạo rất tốt các mô hình dự đoán Sử dụng thuật toán này có thể dự đoán cả các thuộc tính rời rạc và liên tục

Trong việc xây dựng mô hình, thuật toán này sẽ khảo sát sự ảnh hưởng của mỗi thuộc tính trong tập dữ liệu và kết quả của thuộc tính dự đoán Và tiếp đến nó sử dụng các thuộc tính input (với các quan hệ rõ ràng) để tạo thành một nhóm phân hoá gọi là các node Khi một node mới được thêm vào mô hình, một cấu trúc cây sẽ được thiết lập Node đỉnh của cây sẽ miêu tả sự phân tích (bằng thống kê) của các thuộc tính dự đoán thông qua các mẫu Mỗi node thêm vào sẽ được tạo ra dựa trên sự sắp xếp các trường của thuộc tính dự đoán, để so sánh với dữ liệu input Nếu một thuộc tính input được coi là nguyên nhân của thuộc tính dự đoán (to favour one state over another), một node mới sẽ thêm vào mô hình Mô hình tiếp tục phát triển cho đến lúc không còn thuộc tính nào, tạo thành một sự phân tách (split) để cung cấp một dự báo hoàn chỉnh thông qua các node đã tồn tại Mô hình đòi hỏi tìm kiếm một sự kết hợp giữa các thuộc tính và trường của nó, nhằm thiết lập một sự phân phối không cân xứng giữa các trường trong thuộc tính dự đoán, vì thế cho phép dự đoán kết quả của thuộc tính dự đoán một cách tốt nhất

b) Microsoft Clustering(Gom cụm)

Thuật toán này sử dụng kỹ thuật lặp để nhóm các bản ghi từ một tập hợp dữ liệu vào một liên cung cùng có đặc điểm giống nhau Sử dụng liên cung này người dung có thể khám phá dữ liệu, tìm hiểu về các quan hệ đã tồn tại, mà các quan hệ này không dễ dàng tìm được một cách hợp lý thông qua quan sát ngẫu nhiên Thêm nữa, có thể dự đoán từ các mô hình liên cung đã được tạo bởi thuật toán Ví dụ, xem xét một nhóm người sống ở cùng một vùng, có cùng một loại xe, ăn cùng một loại thức ăn và mua cùng một sản phẩm Đây là một liên cung của dữ liệu, một liên cung khác có thể bao gồm những người cùng đến một nhà hàng, cùng mức lương, và được đi nghỉ ở nước ngoài hai lần trong năm Khi quan sát những liên cung này được phân phối ra sao, có thể biết rõ hơn sự ảnh hưởng của các bản ghi trong một tập hợp dữ liệu, cũng như sự ảnh hưởng này có ảnh hưởng gì đến kết quả của thuộc tính dự đoán

Trang 10

c) Microsoft Nạve Bayes

Thuật tốn này xây dựng mơ hình khai mỏ dữ liệu nhanh hơn các thuật tốn khác, phục vụ việc phân loại và dự đốn Nĩ tính tốn khả năng cĩ thể xảy ra trong mỗi trường hợp lệ của thuộc tính input, gán cho mỗi trường một thuộc tính cĩ thể dự đốn Mỗi trường này cĩ thể sau đĩ được sử dụng để dự đốn kết quả của thuộc tính

dự đốn dựa vào những thuộc tính input đã biết Các khả năng sử dụng để sinh ra các

mơ hình được tính tốn và lưu trữ trong suốt quá trình xử lý của khối lập phương (cube: các mơ hình được dựng lên từ các khối lập phương)

Microsoft Nạve Bayes chỉ hỗ trợ các thuộc tính hoặc là rời rạc hoặc liên tục, và

nĩ xem xét tất cả các thuộc tính input độc lập Ngồi ra, thuật tốn cịn cho ra một mơ hình khai mỏ đơn giản (cĩ thể được coi là điểm xuất phát của data mining), bởi vì hầu như tất cả các tính tốn sử dụng trong khi thiết lập mơ hình, được sinh ra trong xử lí của cube (mơ hình kích thước hợp nhất), kết quả được trả về nhanh chĩng Điều này tạo cho mơ hình một lựa chọn tốt để khai phá dữ liệu, khám phá các thuộc tính input được phân bố trong các trường khác nhau của thuộc tính cần dự đốn

d) Microsoft time series : (chuỗi thời gian)

Thuật tốn này tạo ra những mơ hình được sử dụng để dự đốn các biến tiếp theo

từ OLAP (On-Line Analytical Processing) và các nguồn dữ liệu quan hệ Ví dụ, sử dụng thuật tốn này để dự đốn bán hàng và lợi nhuận dựa vào các dữ liệu quá khứ

trong một cube

Sử dụng thuật tốn này cĩ thể chọn một hoặc nhiều biến để dự đốn (nhưng các biến là phải liên tục) Cĩ thể cĩ nhiều trường hợp cho mỗi mơ hình Tập các trường hợp xác định vị trí của một nhĩm, như là ngày tháng khi xem việc bán hàng thơng qua vài tháng hoặc vài năm trước

Mỗi trường hợp cĩ thể bao gồm một tập các biến (ví dụ như bán hàng tại các cửa hàng khác nhau) Thuật tốn này cĩ thể sử dụng sự tương quan của thay đối biến số (cross-variable) trong dự đốn của nĩ, ví dụ bán hàng trước kia tại một cửa hàng cĩ thể rất hữu ích trong việc dự báo bán hàng hiện tại tại những cửa hàng khác

Trang 11

e) Microsoft Association (Kết hợp)

Thuật toán này được thiết kế đặc biệt để sử dụng trong phân tích giỏ thị trường (market basket) Có một định nghĩa về market basket như sau:

Market basket (chỉ số rổ thị trường : tức là ta sẽ dùng tất cả các loại hàng hoá đang

có trên thị trường (một siêu thị chẳng hạn ), ta nhân giá cả của nó với chỉ số của hàng hoá (ví dụ gạo x 10 , thịt x 20…) để tính chỉ số CPI (consumer price index ) Nếu chỉ

số CPI của ngày hôm nay cao hơn so với ngày hôm qua thì xảy ra lạm phát ) (Nguyễn

Đức Tĩnh-Ngân hàng Hàng Hải VN)

Thuật toán Microsoft Association sẽ xem xét mỗi cặp biến/giá trị (như là sản phẩm/xe đạp) là một item Một Itemset là một tổ hợp các item trong một giao tác (transaction) đơn lẻ Thuật toán sẽ lướt qua tập hợp dữ liệu để cố gắng tìm kiếm các itemset nhằm vào việc xuất hiện trong nhiều giao tác Tham chiếu hỗ trợ (Support) sẽ định nghĩa có bao nhiêu giao tác mà itemset sẽ xuất hiện trước khi nó được cho là quan trọng Ví dụ, một itemset phổ biến có thể gồm{Gender="Male", Marital Status =

"Married", Age="30-35"} Mỗi itemset có kích thước là tổng số của mỗi item mà nó

có (ở ví dụ này là 3)

Thường thì những mô hình kết hợp làm việc dựa vào các tập dữ liệu chứa các bảng ẩn, như kiểu một danh sách khách hàng ẩn (nested) theo sau là một bảng mua bán Nếu một bảng ẩn tồn tại trong tập dữ liệu, mỗi khoá ẩn (như một sản phẩm trong bảng mua bán) được xem như một item

Thuật toán này cũng tìm các luật kết hợp với các itemset Một luật trong một mô hình kết hợp kiểu như A, B=>C (kết hợp với một khả năng có thể xảy ra ) Khi tất cả

A, B, C là những itemset thường xuyên Dấu “=>”nói rằng C được dự đoán từ A và B Khả năng giới hạn là một biến mà xác định khả năng nhỏ nhất tức là khi một luật có thể đựơc xét đến Khả năng này cũng được gọi là một “sự tin cậy” (confidence) trong khai phá dữ liệu

Trang 12

Mô hình kết hợp rất hữu ích trong cross-sell và collaborative-filtering Ví dụ, có thể sử dụng mô hình kết hợp để dự đoán các hạng mục mà khách hàng muốn mua dựa vào các danh mục hàng hoá khác trong giỏ của họ

f) Microsoft sequence clustering(Gom cụm tuần tự)

Thuật toán này phân tích các đối tượng dữ liệu có trình tự, các dữ liệu này bao gồm một chuỗi các giá trị rời rạc Thường thì thuộc tính trình tự của một chuỗi ảnh tới một tập các sự kiện của một trật tự rõ ràng Bằng cách phân tích sự chuyển tiếp giữa các tình trạng của một chuỗi, thuật toán có thể dự đoán tương lai trong các chuỗi có quan hệ với nhau

Thuật toán còn là sự pha trộn giữa thuật toán chuỗi và thuật toán liên cung Thuật toán nhóm tất cả các sự kiện phức tạp với các thuộc tính trình tự vào một phân đoạn dựa vào sự giống nhau của những chuỗi này Một đặc trưng sử dụng chuỗi sự kiên cho thuật toán này là phân tích khách hàng web của một cổng thông tin (portal site) Một Cổng thông tin là một tập các tên miền liên kết như: tin tức, thời tiết, giá tiền, mail, và thể thao… Mỗi khách hàng được liên kết với một chuỗi các “click web” trên các tên miền này Thuật toán này có thể nhóm các khách hàng web về một hoặc nhiều nhóm dựa trên kiểu hành động của họ Những nhóm này có thể được trực quan hoá, cung cấp một bản chi tiết để biết được mục đích sử dụng trang web này cuả khách hàng

g) Microsoft neural network(Mạng nơ-ron)

Trong MS SQL server 2005, thuật toán này tạo các mô hình khai mỏ hồi quy và phân loại bằng cách xây dựng đa lớp perceptom của các nơ-ron Giống như thuật toán cây quyết định, đưa ra mỗi tình trạng của thuộc tính có thể dự đoán Thuật toán này tính toán khả năng có thể của mỗi trạng thái có thể của thuộc tính input Thuật toán sẽ

xử lý toàn thể các trường hợp Sự lặp đi lặp lai so sánh các dự đoán phân loại của các trường với sự phân loại của các trường đã biết Sai số từ sự phân loại ban đầu (của phép lặp ban đầu) của toàn bộ các trường hợp được trả về mạng (network) và được sử dụng để thay đổi sự thực thi của network cho các phép lặp kế theo, v.v Có thể sau đó

sử dụng những khả năng này để dự đoán kết quả của các thuộc tính dự đoán, dựa trên

Trang 13

thuộc tính input Sự khác biệt chính giữa thuật toán này và thuật toán Cây quyết định

là các kiến thức xử lí là những tham số network tối ưu nhằm làm nhỏ nhất các lỗi có thể trong khi cây quyết định tách các luật, mục đích để cực đại hoá thông tin có lợi Mạng nơ-ron hỗ trợ cả các thuộc tính rời rạc và liên tục

h) Microsoft linear regression (Hồi quy tuyến tính)

Thuật toán này là một thể hiện dặc biệt của thuật toán cây quyết định, thu được bởi vô hiệu hoá sự chia tách (toàn bộ công thức hồi quy được xây dựng trên một node gốc ) Thuật toán này hỗ trợ quyết định của các thuộc tính liên tục

i) Microsoft logistic regression

Thuật toán này là một sự thể hiện đặc biệt của thuật toán mạng nơ-ron, thu được bằng cách loại ra các lớp ẩn Thuật toán này hỗ trợ quyết định cả thuộc tính liên tục và không liên tục

Như vậy, tổng hợp lại thì các thuật toán hỗ trợ khai phá dữ liệu nói trên có thể chia thành các nhóm thuật toán sau :

Thuật toán phân lớp (Classification algorithm): dự đoán một hoặc nhiều biến rời rạc dựa trên các thuộc tính trong tập hợp dữ liệu Điển hình là thuật toán cây quyết định (Microsoft Decision Trees Algorithm)

Thuật toán hồi quy (Regeression algorithm): dự đoán một hoặc nhiều biến liên tục, kiểu như những lợi nhuận và những tổn thất, dựa trên các thuộc tính khác nhau của tập hợp dữ liệu Điển hình là thuật toán chuỗi thời gian (Microsoft Time Series Algorithm.)

Thuật toán phân đoạn (Segmentation algorithm): Chia dữ liệu thành 2 nhóm, hoặc các liên cung, hoặc các danh mục có thuộc tính giống nhau Điển hình

là thuật toán gom cụm (Microsoft Clustering Algorithm)

Thuật toán kết hợp (Assocation algorithm): Tìm những sự tương quan giữa các thuộc tính khác nhau trong một tập hợp dữ liệu Ứng dụng phổ biến nhất của loại thuật toán này là tạo ra các luật kết hợp, có thể được sử dụng trong

Trang 14

market basket Điển hình là thuật toán kết hợp (Microsoft Association Algorithm)

Thuật toán phân tích tiến trình (Sequence Analysis algorithm): tổng kết những tiến trình thường xảy ra hoặc ít xảy ra trong dữ liệu Điển hình là thuật toán Microsoft Sequence Clustering

2.3 Vấn đề sử dụng các thuật toán

Lựa chọn đúng thuật toán để sử dụng trong một nhiệm vụ có thể coi là một thách thức Thường thì dựa vào kinh nghiệm là chính, trong khi có thể sử dụng các thuật toán khác nhau để thực hiện những công việc giống nhau, mỗi thuật toán đưa ra những kết quả khác nhau, và một vài thuật toán có thể sẽ đưa ra nhiều hơn một loại kết quả

Ví dụ như, có thể sử dụng thuật toán Microsoft Decision Trees không những để dự đoán mà còn để làm giảm bớt số cột trong tập dữ liệu (dataset), bởi Decision Trees có thể xác định các cột không ảnh hưởng đến mô hình khai mỏ cuối cùng

Ngoài ra, cũng không phải sử dụng các thuật toán độc lập với nhau – trong một giải pháp khai phá dữ liệu, có thể sử dụng một số thuật toán để khai phá dữ liệu, và tiếp đó sử dụng một số thuật toán khác dể dự đoán các kết quả cụ thể thông qua các dữ liệu đó Ví dụ có thể sử dụng thuật toán Clustering để nhận dạng các mô hình, để cắt các dữ liệu vào một nhóm cực đại hoặc tiểu đồng nhất (to break data into groups that are more or less homogeneous), và tiếp đó sử dụng những kết quả đó để tạo lên một

mô hình cây quyết định tốt hơn Có thể sử dụng nhiều thuật toán trong một giải pháp

để thực hiện những nhiệm vụ riêng biệt, ví dụ bằng cách sử dụng thuật toán cây hồi quy để thu được thông tin dự đoán tài chính, và một thuật toán luật cơ sở để thi hành việc phân tích market basket (giỏ thị trường )

Mô hình khai phá dữ liệu có thể dự đoán những giá trị, sản phẩm sơ lược của dữ liệu, và tìm ra những tương quan ẩn Nhằm giúp việc lựa chọn thuật toán cho giải pháp khai phá dữ liệu trong SQL Server, bảng mô tả dưới đây trình bày sự phân loại các thuật toán vào một số chức năng tác vụ đặc trưng:

Trang 15

Nhiệm vụ Thuật toán Microsoft sử dụng

Dự đoán một thuộc tính rời rạc

Ví dụ: dự đoán người nhận thư của mục

tiêu chiến dịch nhận thư sẽ mua sản

phẩm

Microsoft Decision Trees

Microsoft Naive Bayes Microsoft Clustering Microsoft Neural Network

Dự đoán một thuôc tính liên tục

Ví dụ: như dự báo hoạt động bán hàng

năm sau

Microsoft Decision Trees Microsoft Time Series

Dự đoán một trình tự

Ví dụ: thi hành phân tích chuỗi hoạt

động của người dùng trên một trang

Ví dụ: sử dụng phân tích giỏ thị trường

để giới thiệu thêm những sản phẩm để

khách hàng mua

Microsoft Association Microsoft Decision Trees

Tìm những mục (item) giống nhau

Ví dụ: để gom các dữ liệu nhân khẩu

học (demographic) vào một nhóm để

nhận thức dễ dàng mối quan hệ giữa các

thuộc tính

Microsoft Clustering Microsoft Sequence Clustering

Tóm lại, tùy theo loại dữ liệu, mục đích ứng dụng khai phá dữ liệu mà chọn các thuật toán phù hợp để đạt hiệu quả cao bởi mỗi mô hình của thuật toán trả về một kiểu kết quả khác nhau

Trang 16

2.4 Công cụ khai phá dữ liệu

Từ trước đến nay, SQL Server được biết đến với vai trò là một hệ quản trị cơ sở

dữ liệu có trách nhiệm hỗ trợ quản lý, lưu trữ dữ liệu với Database Engine Tuy nhiên,

từ phiên bản SQL Server 2005 thì bộ SQL Server đã được tích hợp nhiều gói dịch vụ

hỗ trợ việc tích hợp và khai thác khả năng tiềm tàng của một cơ sở dữ liệu như SQL Server Integrating Services, SQL Server Analysis Services, SQL Server Management Studio, Data Transformation Services, SQL Server Reporting Services, …Sau đây sẽ trình bày một số công cụ hỗ trợ khai phá dữ liệu trong SQL Server như đã nêu trên

a) SQL Server Analysis Services (SSAS)

SSAS là một dịch vụ hỗ trợ mạnh mẽ việc phân tích, khai thác thông tin tiềm tàng bên trong của một hệ cơ sở dữ liệu, là một trong những dịch vụ chính của SQL Server

2005 dùng để xây dựng các chiều và cubes cho nhà kho dữ liệu (Data warehouse) SSAS là một phần của nền tảng quản lý doanh nghiệp thông minh (Business Intelligence), nó không chỉ là một thành phần của SQL Server, nó còn được sử dụng trên NET Framework và môi trường phát triển Visual Studio

SSAS trong SQL Server 2005 đã được tái kiến trúc nhằm nâng cao khả năng mở rộng và tính tin cậy, trong môi trường doanh nghiệp, và khả năng bảo mật dữ liệu SSAS cung cấp khả năng tích hợp nhiều đối tượng (instance) của SSAS điều này tăng khả năng mở rộng ngoài ra dịch vụ này còn cung cấp các thuật toán để quản lý hiệu quả các cubes lớn trong một đối tượng SSAS cung cấp đa dạng các công cụ để tạo OLAP (On-Line Analytical Processing) một cách hiệu quả và quản lý dễ dàng

Trong phiên bản 2005, SSAS hỗ trợ XML theo chuẩn XML/A Điều này có nghĩa việc tra đổi dữ liệu giữa SSAS với các client là XML, sự thay đổi này nâng cao khả năng tương tác giữa các máy client và máy chủ Như ở hình 3 SSAS cung cấp ba kiểu kết nối với client

Định dạng
Số trang	32
Dung lượng	916,5 KB