Khai phá luật kết hợp trừu tƣợng, đa mức

Một phần của tài liệu Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam (Trang 53)

Trong nhiều trường hợp, nếu các mục dữ liệu ở mức trừu tượng, việc tìm được luật kết hợp mạnh là một việc khó bởi vì tính thưa thớt của dữ liệu trong không gian đa chiều. Khám phá luật kết hợp mạnh ở mức độ cao có thể miêu tả tri thức có nghĩa phổ thông. Tuy nhiên, các luật tìm được đó có thể là tầm thường với người này nhưng lại mới lạ, quan trọng với người khác. Do vậy, các hệ thống

1. Tiền xử lý: chuyển đổi các thuộc tính số, phân loại thành thuộc tính nhị phân để có thể sử dụng được các thuật toán khai phá luật kết hợp nhị phân bằng cách gán giá trị số cho các thuộc tính phân loại, ánh xạ các khoảng giá trị của các thuộc tính thành các tập thuộc tính số phù hợp.

2. Tìm tập mục phổ biến: sử dụng thuật khai phá luật kết hợp nhị phân để tìm các tập mục phổ biến với CSDL đã được ánh xạ.

3. Sinh luật: sử dụng các thủ tục sinh luật từ các tập mục phổ biến

KPDL phải cung cấp khả năng để khai phá các luật kết hợp trừu tượng ở nhiều mức khác nhau.

Có một số cách tiếp cận vấn đề dựa trên khung làm việc độ hỗ trợ và độ tin cậy nhưng chiến lược Top-down thương được sử dụng để tính tích luỹ cho các tập mục trong mỗi mức khái niệm được phân cấp. Bắt đầu với khái niệm i và đi xuống mức thấp hơn (i+1) cho đến khi không còn tập mục phổ biến nào được tìm thấy. Có một số cải tiến cho cách tiếp cận này:

Sử dụng độ hỗ trợ cực tiểu giống nhau cho tất cả các mức: ngưỡng hỗ trợ như nhau được sử dụng khi khai phá ở mỗi mức trừu tượng. Khi sử dụng độ hỗ trợ cực tiểu giống nhau thì thủ tục tìm kiếm là đơn giản. Phương pháp này là đơn giản trong trường hợp người dùng yêu cầu chỉ một ngưỡng hỗ trợ xác định. Tuy nhiên, với độ hỗ trợ giống nhau sẽ nảy sinh một số khó khăn, nó không phù hợp với các mục ở mức thấp hơn của sự trừu tượng sẽ có tính phổ biến cao hơn. Nếu ngưỡng độ hỗ trợ đặt quá cao, có thể sẽ mất một số luật có ích ở các mức trừu tượng thấp. Nếu ngưỡng độ hỗ trợ đặt quá thấp có thể sẽ sinh ra nhiều luật không cần quan tâm ở các mức trừu tượng cao.

Hạ thấp độ hỗ trợ cực tiểu ở mức độ thấp: mỗi mức trừu tượng có một ngưỡng hỗ trợ cực tiểu của chính nó. Mức trừu tượng thấp hơn có ngưỡng tương ứng nhỏ hơn. Như vậy, khi khai phá luật kết hợp nhiều mức với cách giảm độ hỗ trợ. Nếu đã xác định cho mỗi mức trừu tượng là một đỗ hộ trợ cực tiểu thoả mãn điều kiện mức sau nhỏ hơn mức trước, có thể lựa chọn một số cách tìm kiếm. Nếu từ mức này đến mức khác một cách độc lập thì tìm kiếm theo chiều rộng, trong đó không có tri thức cơ sở của các tập mục phổ biến được dùng để tỉa. Điều đó có nghĩa là mỗi nút được xét không quan tâm nút cha của nó đã xét là phổ biến hay không phổ biến. Nếu đi qua các mức có chọn lọc, mục ở mức thứ i được xét nếu và chỉ nếu nút cha của nó ở mức (i-1) là phổ biến. Nghĩa là nếu một nút là phổ biến thì các nút con của nó được xem xét đến, còn nếu không phổ biến thì các nút thấp hơn của nó bị tỉa (để làm giảm không gian tìm kiếm). Điều này được áp dụng chi k mục tức là tập k được xét nếu và chỉ nếu nó có cha là tập k mục ở mức thứ (i-1) phổ biến.

Tuy nhiên, khi các luật đa mức được tìm ra, một số luật sẽ rút gọn là bởi vì có thể có hai luật cùng tìm thấy một luật r nào đó thì bắt buộc phải loại bỏ một luật “ít” tổng quát hơn hay “ít” ý nghĩa hơn.

Với cách các mức cùng độ hỗ trợ cực tiểu: dễ đưa đến việc phải xét một số lớn các tập mục không phổ biến và tìm ra các luật ít quan trọng.

Với cách đi qua các mức độ có chọn lọc cho phép: các hệ thống khai phá chỉ xét các con của tập k - mục phổ biến.

Với cách dùng khái niệm phân cấp: cho phép KPTT ở các mức trừu tượng khác nhau, như là các luật kết hợp đa mức. Vì vậy, phương pháp này tỏ ra rất hữu ích trong khai phá.

Một phần của tài liệu Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam (Trang 53)