Phỏt hiện cỏc luật kết hợp

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu sử dụng luật kết hợp (Trang 29 - 30)

2.8 Một số phƣơng phỏp khai phỏ dữ liệu phổ biến

2.8.3. Phỏt hiện cỏc luật kết hợp

Cỏc luật kết hợp là một dạng biểu diễn tri thức, hay chớnh xỏc hơn là dạng mẫu của hỡnh thành tri thức. Phƣơng phỏp này nhằm phỏt hiện ra cỏc luật kết hợp giữa cỏc thành phần dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phỏ dữ liệu là tập luật kết hợp tỡm đƣợc.

Cho một lƣợc đồ R={A1, A2,…, Ap} với cỏc thuộc tớnh cú miền giỏ trị {0,1} và một quan hệ r trờn R. Ta gọi một luật kết hợp trờn quan hệ r đƣợc mụ tả nhƣ sau : X=>B với XR và BR\X. Cho WR, đặt s(W,r) là tần số xuất hiện của W trong r đƣợc tớnh bằng tỷ lệ giữa cỏc hàng trong r cú giỏ trị 1 tại mỗi cột. Khi đú ta định nghĩa tần số xuất hiện và độ tin cậy của luật X=>B trong r nhƣ sau:

Tần số xuất hiện  s(X{B},r). Độ tin cậy s(X{B},r)\s(X,r)

Với X gồm nhiều thuộc tớnh và B là giỏ trị khụng cố định

Nhiệm vụ của việc phỏt hiện cỏc luật kết hợp là phải tỡm tất cả cỏc luật X=>B

sao cho tần số xuất hiờnj của luật khụng nhỏ hơn ngƣỡng  cho trƣớc và độ tin cậy

của luật khụng nhỏ hơn ngƣỡng  cho trƣớc

Khi thiết kế dữ liệu dựng cho kỹ thuật luật kết hợp cần hết sức lƣu ý để giảm thiểu số lƣợng cỏc thuộc tớnh đầu vào bởi khụng gian tỡm kiếm cỏc luật sẽ tăng theo hàm mũ của số lƣợng cỏc thuộc tớnh đầu vào.

Giải thuật tỡm cỏc luật kết hợp đƣợc bắt đầu bằng việc tỡm tất cả cỏc tập thƣờng xuyờn xuất hiện. Tập thƣờng xuyờn xuất hiện là cỏc tập thỏa món tần số xuất hiện lớn hơn ngƣỡng tần số đƣợc xỏc định trƣớc. Cỏc luật kết hợp sẽ đƣợc tạo ra bằng cỏch ghộp dần cỏc tập thuộc tớnh dựa trờn mức độ thƣờng xuyờn.

Chẳng hạn: phõn tớch CSDL bỏn hàng nhận đƣợc thụng tin về những khỏch hàng mua mỏy tớnh cú khuynh hƣớng mua phần mềm quản lý tài chớnh trong cựng lần mua đƣợc miờu tả trong luật kết hợp sau:

―Mỏy tớnh => Phần mềm quản lý tài chớnh‖ [Độ hỗ trợ: 2%, độ tin cậy: 60%]

Độ hỗ trợ và độ tin cậy là hai độ đo của sự đỏng quan tõm của luật. Chỳng tƣơng ứng phản ỏnh sự hữu ớch và sự chắc chắn của luật đó khỏm phỏ. Độ hỗ trợ 2% cú nghĩa là 2% của tất cả cỏc tỏc vụ đó phõn tớch chỉ ra rằng mỏy tớnh và phần mềm quản lý tài chớnh là đó đƣợc mua cựng nhau. Cũn độ tin cậy 60% cú nghĩa là 60% cỏc khỏch hàng mua mỏy tớnh cung mua phần mềm. Đặc biệt cỏc luật kết hợp đƣợc coi là đỏng quan tõm nếu chỳng thỏa món cả hai ngƣỡng độ hỗ trợ cực tiểu và độ tin cậy cực tiểu. Những ngƣỡng này thƣờng do ngƣời dựng hoặc cỏc chuyờn gia xỏc định.

Nhƣợc điểm của phƣơng phỏp này là sự gia tăng nhanh chúng khối lƣợng tớnh toỏn và cỏc thụng số. Tuy nhiờn với sự phỏt triển nhanh chúng và mạnh mẽ của phần cứng thỡ cỏc vấn đề này cũng đƣợc khắc phục.

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu sử dụng luật kết hợp (Trang 29 - 30)

Tải bản đầy đủ (PDF)

(107 trang)