Sự phân cấp mức độ trừu tượng của dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu phát hiện luật kết hợp và ứng dụng đối với kho dữ liệu của ngân hàng (Trang 26 - 27)

Khái niệm phân cấp được xác định tuần tự từ mức thấp đến mức cao. Trong hình trên, khái niệm phân cấp thành 5 mức: 0, 1, 2, 3 và 4. Ta qui ước các mức được đánh số từ trên xuống, bắt đầu từ mức 0 ở nút gốc cho tất cả các nút (mức tổng quát nhất). Mức 1 bao gồm “Phần cứng”“Phần mềm”, ..., Mức 4 là mức cụ thể, riêng biệt nhất.

Các mục trong bảng dữ liệu cho ban đầu là mức cao nhất của khái niệm phân cấp trong hình trên. Khó có thể tìm ra các mẫu mua đáng quan tâm trong mức nguyên thuỷ này. Chẳng hạn: “Máy tính để bàn IBM” hoặc “Phần mềm Lotus”, chúng chỉ xuất hiện rất ít trên tổng số các giao dịch, vì thế khó có thể tìm được các luật kết hợp có chứa chúng.

Các luật được sinh ra từ khai phá luật kết hợp đa mức với khái niệm phân cấp được gọi là luật kết hợp đa mức (vì chúng đề cập đến hơn một mức khái niệm).

2.1.6.2. Khai phá luật kết hợp đa mức

Có một số hướng tiếp cận dựa trên khung làm việc độ hỗ trợ và độ tin cậy (support- confidence framework). Nhìn chung các thuật toán đều sử dụng chiến lược chia để trị Top-down, ở đó thực hiện tính tích luỹ cho các tập mục trong mỗi mức khái niệm, bắt đầu từ mức khái niệm 1 và đi xuống mức cao hơn, mức khái niệm cụ thể hơn, cho đến khi

Mức 0 Mức 1 Mức 2 Mức 3 Mức 4 Tất cả Phần cứng Phần mềm Máy tính Máy in ... Bảng tính Hệ QTCSDL ... Máy để bàn Máy xách tay ... ... Excel Lotus ... ... IBM HP ... ... ... ... ... ...

25

Ví dụ: trong hình sau, sử dụng minsup = 10% cho cả hai mức trừu tượng (ví dụ từ mức

“Máy tính” xuống mức “Máy tính để bàn”“Máy tính xách tay”). Khi đó cả “Máy tính”“Máy tính để bàn” được tìm thấy là phổ biến, trong khi đó “Máy tính xách tay”

thì không.

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu phát hiện luật kết hợp và ứng dụng đối với kho dữ liệu của ngân hàng (Trang 26 - 27)

Tải bản đầy đủ (PDF)

(60 trang)