Khai phá luật kết hợp khoảng cơ sở

Một phần của tài liệu TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN (Trang 33 - 34)

II. NỘI DUNG

2.4.4 Khai phá luật kết hợp khoảng cơ sở

Các phần trước đã mô tả luật kết hợp định lượng mà các thuộc tính định lượng được rời rạc hóa trước bởi phương pháp binning , và khoảng không gian giữa các kết quả sau đó được kết hợp. Đó là một cách tiếp cận, tuy nhiên, không thể nắm bắt ngữ nghĩa của các đoạn dữ liệu khi mà không xét các khoảng cách tương đối giữa các điểm dữ liệu hoặc giữa các đoạn. Xem xét, ví dụ, hình sau: Price ($) Equi-width (width $10) Equi-width (depth 2) Ditance-based 7 20 22 50 51 53 [0,10] [11,20] [21,30] [31,40] [41,50] [51,60] [7,20] [22,50] [51,53] [7,7] [20,22] [50,53]

Ở hình đó cho thấy dữ liệu của thuộc tính giá, các đoạn phân chia không giống nhau. Rõ ràng, một khoảng cách dựa trên phân vùng để xét mật độ hoặc số điểm trong một khoảng , cũng như sự khít của các điểm trong một khoảng giúp tạo ra có ý nghĩa hơn phân rời. Khoảng không gian cho mỗi thuộc tính định lượng có thể được thành lập theo cụm các giá trị cho thuộc tính này. Một bất lợi của các luật kết hợp là họ không cho phép tính xấp xỉ của giá trị thuộc tính. Hãy xem xét luật kết hợp sau:

Trong thực tế, nó là nhiều khả năng là giá các mặt hàng điện tử nước ngoài là gần hoặc khoảng $ 200, thay vì chính xác 200 USD. Nó sẽ là hữu ích để có luật kết hợp có thể diễn tả như một khái niệm về sự khít nhau. Lưu ý rằng sự hỗ trợ và độ tin cậy không xem xét các sự gần gũi của các giá trị cho một thuộc tính nhất định. Điều này thúc đẩy việc khai thác luật kết hợp dựa trên khoảng cách mà nắm bắt được ngữ nghĩa của dữ liệu khoảng thời gian trong khi cho phép cho gần đúng các giá trị dữ liệu. Một thuật toán gồm hai giai đoạn có thể được sử dụng để khai phá các luật kết khoảng cơ sở.

Giai đoạn sử dụng sự xếp nhóm để thứ các khoảng hoặc cụm, thích nghi với số lượng bộ nhớ có sẵn. Giai đoạn thứ hai có được luật kết hợp các khoảng cơ sở bằng cách tìm kiếm cho các nhóm của cụm xảy ra thường xuyên với nhau.

“Làm thế nào là cụm hình thành trong giai đoạn đầu tiên? "

Cho S [X] là một tập hợp các N bộ dữ liệu t1, t2;::; TN tương ứng với các thuộc tính thiết lập X. Một thước đo đường kính là cần để xét sự gần gũi của bộ dữ liệu. Đường kính của S [X] là khoảng cách trung bình giữa các cặp bộ dữ liệu dự kiến vào X.

Distx: không gian metric trên tập giá trị của tập thuộc tính X.

Trong giai đoạn thứ hai, cụm được kết hợp để tạo thành luật kết hợp khoảng cơ sở.

Lớp Cx

Ngưỡng của mật độ: Ngưỡng của tần số:

Tìm kiếm các cụm và các luật dựa trên khoảng cách: Một cải tiến của BIRCH

Ngưỡng của mật độ thay thế cho độ hỗ trợ. Ngưỡng của luật thay thế cho độ tin cậy.

Một phần của tài liệu TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN (Trang 33 - 34)

Tải bản đầy đủ (DOC)

(50 trang)
w