Một số mở rộng khai phá luật kết hợp trong cơ sở d- 123docz.net

Lĩnh vực khai phá luật kết hợp cho đến nay đã đƣợc nghiên cứu và phát triển theo nhiều hƣớng khác nhau. Các hƣớng chính mở rộng là:

- Luật kết hợp nhị phân (Binary association rule): là hƣớng nghiên cứu đầu tiên của luật kết hợp. Theo dạng luật kết hợp này thì các items chỉ đƣợc quan tâm là có hay không có xuất hiện trong cơ sở dữ liệu giao tác (Transaction database). Thuật toán tiêu biểu nhất của khai phá dạng luật này là thuật toán Apriori.

- Luật kết hợp có thuộc tính số và thuộc tính hạng mục: các cơ sở dữ liệu thực tế thƣờng có các thuộc tính đa dạng (nhƣ nhị phân, số, mục (categorial)...) chứ không nhất quán ở một dạng nào cả. Vì vậy để khai phá luật kết hợp trong các cơ sở dữ liệu này các nhà nghiên cứu đề xuất một số phƣơng pháp rời rạc hóa nhằm chuyển CSDL cần khai phá về dạng nhị phân để có thể áp dụng các thuật toán đã có. Luật kết hợp với thuộc tính đƣợc đánh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

trọng số trong cơ sở dữ liệu thƣờng không có vai trò nhƣ nhau. Một số mục dữ liệu quan trọng và đƣợc chú trọng hơn các mục dữ liệu khác. Vì vậy trong quá trình tìm kiếm các luật từ mục dữ liệu đƣợc đánh trọng số theo mức độ xác định nào đó, ta thu đƣợc những luật “hiếm” (tức là có độ hỗ trợ thấp nhƣng mang nhiều ý nghĩa). Chúng ta sẽ nghiên cứu cụ thể hơn về khai phá luật kết hợp có trọng số không chuẩn hóa và chuẩn hoá trong chƣơng 3.

- Luật kết hợp tiếp cận theo hƣớng tập thô (mining association rule base on rough set): tìm kiếm luật kết hợp dựa trên lí thuyết tập thô.

- Luật kết hợp nhiều mức (multi-level association ruls): với cách tiếp cận luật kết hợp này sẽ tìm kiếm thêm những luật có dạng: mua máy tính PC thì mua hệ điều hành Window AND, mua phần mềm văn phòng Microsoft Office,…

- Luật kết hợp mờ (fuzzy association rule): Với những khó khăn gặp phải khi rời rạc hóa các thuộc tính số, các nhà nghiên cứu đề xuất luật kết hợp mờ khắc phục hạn chế đó và chuyển luật kết hợp về một dạng gần gũi hơn.

- Khai phá luật kết hợp song song (parallel mining of association rule): Nhu cầu song song hóa và xử lý phân tán là cần thiết vì kích thƣớc dữ liệu ngày càng lớn nên đòi hỏi tốc độ xử lý phải đƣợc đảm bảo.

Trên đây là những mở rộng, biến thể của khai phá luật kết hợp cho phép ta tìm kiếm luật kết hợp một cách linh hoạt trong những cơ sở dữ liệu lớn. Ngoài ra còn một số khái niệm mở rộng của các luật kết hợp đó là: Luật kết hợp định lƣợng, Luật kết hợp tổng quát,... Việc khai phá luật kết hợp dựa trên các khái niệm ở rộng này cho phép ngƣời ta phát hiện đƣợc nhiều luật kết hợp mà các thuật toán khai phá luật kết hợp cơ sở không tìm thấy đƣợc. Ví dụ,

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

với luật kết hợp định lƣợng cho phép ngƣời ta phát biểu một luật có dạng nhƣ sau “Nếu các khách hàng mua ít nhất 3 mặt hàng A thì cũng mua từ 5 đến 10 mặt hàng B“. Bên cạnh đó các nhà nghiên cứu còn chú trọng đề xuất các

thuật toán nhằm tăng tốc quá trình tìm kiếm luật kết hợp trong cơ sở dữ liệu.

Kết luận chƣơng 2:

Từ bài toán ban đầu là phân tích dữ liệu bán hàng của siêu thị, chƣơng 2 đã trình bày đƣợc một số vấn đề cơ bản của luật kết hợp, hai thuật toán tiêu biểu đã đƣợc trình bày đó là Apiori và FP-growth. Thuật toán kinh điển Apriori tìm tập mục thƣờng xuyên theo cách sinh ra các ứng cử viên và duyệt CSDL để kiểm tra, thuật toán FP-growh không khai phá theo cách của thuật toán Apriori mà nén các giao tác của CSDL lên cấu trúc cây FP-Tree sau đó thực hiện khai phá trên cây này. Thuật toán sinh luật từ tập mục thƣờng xuyên cũng đã đƣợc trình bày cụ thể. Những hƣớng mở rộng khai phá luật kết hợp đã đƣợc tác giả trình bày một cách tổng quát, trong đó có hƣớng mở rộng về khai phá luật kết hợp có trọng số trong CSDL sẽ đƣợc trình bày cụ thể trong nội dung của chƣơng 3 của luận văn.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Chƣơng 3: KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ

Khai phá luật kết hợp trong CSDL có nhiều hƣớng mở rộng nhƣ đã trình bày ở trên. Trong đó có một hƣớng là trong cơ sở dữ liệu gán cho mỗi tập mục dữ liệu một con số (đƣợc gọi là trọng số) để thể hiện sự quan trọng khác nhau của các mục dữ liệu, khi đó luật kết hợp trong cơ sở dữ liệu nhƣ vậy đƣợc gọi là luật kết hợp có trọng số.

Sau đây sẽ trình bày cụ thể vấn đề về luật kết hợp có trọng số và việc khai phá luật kết hợp có trọng số trong CSDL [9].

Một số mở rộng khai phá luật kết hợp trong cơ sở dữ liệu

Biểu diễn cơ sở dữ liệu giao tác

Thuật toán sinh luật kết hợp: