Khai phá luật kết hợp đa chiều sử dụng rời rạc hóa tĩnh của thuộc tính định

Một phần của tài liệu TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN (Trang 30 - 31)

II. NỘI DUNG

2.4.2Khai phá luật kết hợp đa chiều sử dụng rời rạc hóa tĩnh của thuộc tính định

- Trong cách tiếp cận đầu tiên, các thuộc tính định lượng được rời rạc hóa bằng cách sử dụng một hệ thống thứ tự cơ sở định nghĩa trước. Sự rời rạc hóa đó được tiến hành trước để khai phá. Ví dụ, đối với thuộc tính thu nhập ta có một hệ thống thứ tự cơ sở có thể được sử dụng thay thế cho các con số giá trị của thuộc tính này bởi các phạm vi như: “0..20K”, “21K..30K”, “31K..40K”…Ở đây sự rời rạc hóa đó là cố định và được xác định trước. Các thuộc tính này, sau khi giá trị của nó được phân thành các phạm vi như vậy thì có thể được xem là các thuộc tính xác định trong đó mỗi phạm vi là một loại. Với cách làm như vậy ta gọi là khai phá các luật kết hợp đa chiều sử dụng sự rời rạc hóa tĩnh những thuộc tính định lượng.

- Trong phương pháp thứ 2, các thuộc tính định lượng được rời rạc hóa thành các khoản dựa trên sự phân phối của dữ liệu. Các khoản dữ liệu này có thể được tiếp tục kết hợp trong quá trình khai phá. Quá trình rời rạc hóa này là động và được tạo ra để đáp ứng một số tiêu chuẩn của khai phá như làm cho độ tin cậy của luật kết hợp là cao nhất. Luật kết hợp thu được từ cách tiếp cận này gọi là luật kết hợp định lượng.

- Trong cách tiếp cận thứ 3, các thuộc tính định lượng được rời rạc hóa để nắm bắt được ý nghĩa ngữ nghĩa của các khoảng dữ liệu. Chức năng của thủ tục rời rạc hóa này để xem xét khoảng cách giữ các điểm dữ liệu. Do đó ta gọi là khai phá luật kết hợp khoảng cơ sở.

2.4.2 Khai phá luật kết hợp đa chiều sử dụng rời rạc hóa tĩnh củathuộc tính định lượng thuộc tính định lượng

Những thuộc tính định lượng được rời rạc hóa trước để khai phá bằng cách giá trị số được thay thế bởi các vùng. Dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ, lúc đó thuật toán tìm luật kết hợp sẽ tìm kiếm trên tất cả các thuộc tính liên quan thay vì tìm trên một thuộc tính: Tìm trên các bảng có các thuộc tính liên quan thường xuyên xuất hiện để đưa ra các luật kết hợp. Ngoài ra còn có các chiến lược khác, chẳng hạn như băm, phân vùng, và lấy mẫu có thể được sử dụng để cải thiện hiệu suất.

Ngoài ra, việc chuyển đổi dữ liệu cần thiết có thể được lưu trữ trong một khối dữ liệu. Một khối dữ liệu bao gồm một mạng tinh thể của các khối đó là cấu trúc dữ liệu đa chiều. Những cấu trúc này có thể giữ cho dữ liệu cần thiết , cũng như tổng hợp, nhóm của thông tin. Hình sau cho thấy mạng của các khối được định nghĩa là một khối dữ liệu cho các thuộc tính tuổi tác, thu nhập, và mua. Các ô của một khối n-chiều được sử dụng để lưu trữ n- thuộc tính tương ứng.

Hình 3.2.1. là một mạng lưới của các khối, tạo nên một khối dữ liệu 3- chiều. Mỗi khối đại diện cho một nhóm khác nhau. Các khối cơ sở có ba thuộc tính, tuổi tác, thu nhập, và mua.

Ở chương 2 mô tả thuật toán cho việc tính toán của các khối dữ liệu, nó có thể được sửa đổi để tìm kiếm các tập phổ biến trong khối xây dựng. Các nghiên cứu đã chỉ ra rằng ngay cả khi khối lập phương được xây dựng thì việc khai phá từ dữ liệu khối có thể được nhanh hơn so với khai phá trực tiếp từ một bảng quan hệ.

Một phần của tài liệu TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN (Trang 30 - 31)