Ví dụ về vấn đề “điểm biên gãy” khi rời rạc hóa dữ- 123docz.net

Có những đề xuất nhằm vào cải tiến tốc độ thuật toán, có những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn, .v.v. Sau đây là một số hướng chính.

• Luật kết hợp nhị phân (binary association rule hoặc boolean association rule): là hướng nghiên cứu đầu tiên của luật kết hợp. Hầu hết các nghiên cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị phân [27] [28]. Trong dạng luật kết hợp này, các mục (thuộc tính) chỉ được quan tâm là có hay không xuất hiện trong giao dịch của CSDL chứ không quan tâm về “mức độ” xuất hiện. Có nghĩa là việc gọi 10 cuộc điện thoại và 1 cuộc được xem là giống nhau. Thuật toán tiêu biểu nhất khai phá dạng luật này là thuật toán Apriori và các biến thể của nó [28]. Đây là dạng luật đơn giản và các dạng luật khác cũng có thể chuyển về dạng luật này bằng một số phương pháp như rời rạc hóa, mờ hóa, .v.v. Một ví dụ về dạng luật này: “gọi liên tỉnh = ‘yes’ AND gọi di dộng = ‘yes’ => gọi quốc tế = ‘yes’ AND gọi dịch vụ 1080 = ‘yes’, với độ hỗ trợ 20% và độ tin cậy 80%”.

• Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative and categorical association rule): các thuộc tính của các CSDL thực tế có kiểu rất đa dạng (nhị phân – binary, số - quantitative, hạng mục – categorical, .v.v.). Để phát hiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc hóa nhằm chuyển dạng luật này về dạng nhị phân để có thể áp dụng các thuật toán đã có [27]. Một ví dụ về dạng luật này: “phương thức gọi = ‘tự động’ AND giờ gọi ∈ ’23:00:39..23:00:59’ AND thời gian đàm thoại ∈ ’200..300’ => gọi liên tỉnh = ‘có’, với độ hỗ trợ 23.53%, độ tin cậy 80%”.

• Luật kết hợp mờ (fuzzy association rule): với những hạn chế còn gặp phải trong quá trình rời rạc hóa các thuộc tính số (quantitative attributes), các nhà nghiên cứu đã đề xuất luật kết hợp mờ nhằm khắc phục những hạn chế trên và chuyển luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với người sử dụng [5] [11]. Một ví dụ về dạng luật này: Thời gian đàm thoại dài AND Loại cước = “Nội tỉnh” → Đối tượng = “Cá nhân”, với độ hỗ trợ 60% và độ tin cậy 75%”. Trong luật trên, điều kiện thời gian đàm thoại dài ở vế trái của luật là một thuộc

tính đã được mờ hóa.

• Luật kết hợp nhiều mức (multi-level association rules): ngoài các dạng luật trên, các nhà nghiên cứu còn đề xuất một hướng nghiên cứu nữa về luật kết hợp là luật kết hợp nhiều mức. Với cách tiếp cận này, người ta sẽ tìm kiếm thêm những luật có dạng “Mua máy tính PC => Mua hệ điều hành AND mua phần mềm tiện ích văn phòng, …” thay vì chỉ những luật quá cụ thể như “Mua máy tính IBM PC => Mua hệ điều hành Microsoft Windows AND mua Microsoft Office, …”. Rõ ràng, dạng luật đầu là dạng luật tổng quát hóa của dạng luật sau và tổng quát hóa cũng có nhiều mức khác nhau.

• Luật kết hợp với thuộc tính được đánh trọng số (association rule with weighted items): trong thực tế, các thuộc tính trong CSDL không phải có vai trò như nhau. Có một số thuộc tính được chú trọng và lúc đó ta nói những thuộc tính đó có mức độ quan trọng cao hơn các thuộc tính khác. Ví dụ, khi khảo sát về bài toán tính cước điện thoại, các thông tin về thời điểm bắt đầu gọi và thời gian đàm thoại rõ ràng là quan trọng hơn rất nhiều so với thông tin về đối tượng gọi. Trong quá trình tìm kiếm luật, chúng ta sẽ gán cho các thuộc tính thời điểm bắt đầu gọi và thời gian đàm thoại các trọng số lớn hơn so với trọng số của thuộc tính đối tượng gọi. Đây là một hướng nghiên cứu rất thú vị và đã được một số nhà nghiên cứu đề xuất cách giải quyết bài toán này [13] [18] [33]. Với luật kết hợp có thuộc tính được đánh trọng số, chúng ta sẽ khai phá được những luật mang rất nhiều ý nghĩa, thậm chí là những luật “hiếm” (tức có độ hỗ trợ thấp, nhưng mang một ý nghĩa đặc biệt).

• Bên cạnh những nghiên cứu về những biến thể của luật kết hợp, các nhà nghiên cứu còn chú trọng đề xuất những thuật toán nhằm tăng tốc quá trình tìm kiếm tập phổ biến từ CSDL. Người ta chứng minh rằng, chỉ cần tìm kiếm những tập phổ biến tối đại (maximal frequent itemsets) là đủ đại diện cho tập tất cả các tập phổ biến (thuật toán MAFIA), hoặc chỉ cần tìm tập các tập phổ biến đóng (closed itemsset) là đủ như thuật toán CLOSET, [23] thuật toán CHARM. Những thuật toán này cải thiện đáng kể về mặt tốc độ do áp dụng được những chiến lược cắt tỉa “tinh xảo” hơn các thuật toán trước đó.

• Khai phá luật kết hợp song song (parallel mining of association rules): bên cạnh khai phá luật kết hợp với các giải thuật tuần tự, các nhà làm tin học cũng tập trung vào nghiên cứu các giải thuật song song cho quá trình phát hiện luật kết hợp. Nhu cầu song song hóa và xử lý phân tán là cần thiết bởi kích thước dữ liệu ngày càng lớn nên đòi hỏi tốc độ xử lý cũng như dung lượng bộ nhớ của hệ thống phải được đảm bảo. Có rất nhiều thuật toán song song khác nhau đã được đề xuất [12] [27], chúng có thể phụ thuộc hoặc độc lập với nền tảng phần cứng.

• Luật kết hợp tiếp cận theo hướng tập thô (mining association rules based on rough set): tìm kiếm luật kết hợp dựa trên lý thuyết tập thô.

• Ngoài ra, còn một số hướng nghiên cứu khác về khai phá luật kết hợp như: khai phá luật kết hợp trực tuyến, khai phá luật kết hợp được kết nối trực tuyến đến các kho dữ liệu đa chiều (multidimensional data, data warehouse) thông qua công nghệ OLAP (Online Analysis Processing), MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP), ADO (ActiveX Data Object) for OLAP .v.v.

2.6. Kết luận chương 2

Chương này đã trình bày về bài toán “khai phá luật kết hợp”. Để đi vào những nghiên cứu cụ thể ở chương sau, chương này cung cấp những hiểu biết cần thiết về bài toán khai phá luật kết hợp.

Việc tìm kiếm các luật kết hợp trong CSDL nhị phân được thực hiện theo thuật toán nguyên thuỷ Apriori. Một hạn chế đáng kể của các thuật toán này là chỉ làm việc với dữ liệu ở dạng nhị phân, tức là giá trị của các thuộc tính chỉ nhận 2 giá trị là 0 và 1. Chính vì thế thuật toán khó có thể áp dụng trực tiếp trên những CSDL thực tế - những CSDL không chỉ chứa thuộc tính nhị phân, mà còn chứa cả dữ liệu số và hạng mục. Muốn thực hiện được điều này, người ta phải tiến hành rời rạc hóa dữ liệu cho các thuộc tính số để chuyển chúng về thuộc tính nhị phân. Tuy nhiên, việc rời rạc hóa như vậy có một số nhược điểm về điểm biên gãy và vấn đề về ngữ nghĩa. Trong chương sau tôi sẽ trình bày một dạng luật mới - luật kết hợp mờ - dạng luật có thể khắc phục được các nhược điểm trên. Phần cuối chương sẽ là tổng hợp những đề xuất chính trong lịch sử tồn tại và phát triển của bài toán này.

CHƯƠNG 3: KHAI PHÁ LUẬT KẾT HỢP MỜ

3.1. Tập mờ 3.1.1. Tập mờ 3.1.1. Tập mờ

Một tập mờ F trong một vũ trụ U được đặc trưng bởi một hàm thuộc: µF: U → [0,1]

trong đó µF(u) với mỗi u∈U biểu thị “mức độ thuộc” của u trong tập mờ F Với hàm thuộc, một tập mờ F được biểu diễn như sau:

F = (µ(u1)/u1, µ(u2)/u2, ..., µ(un)/un) Trong đó ui∈ U, 1 ≤ i ≤ n.

Các phép toán lý thuyết tập hợp cổ điển đã được mở rộng để xử lý các tập mờ. Ví dụ như sau :

µA∪B(u) = max(µA(u), µB(u)) µA∩B(u) = min(µA(u), µB(u)) µĀ(u) = 1 - µA(u)

trong đó A và B là hai tập mờ trong vũ trụ U với các hàm thuộc µA và µB

tương ứng.

Dựa vào các định nghĩa này, hầu hết các tính chất của các phép toán tập hợp cổ điển, chẳng hạn như luật của DeMorgan, cũng đúng với tập mờ. Luật duy nhất của lý thuyết tập hợp cổ điển không còn đúng là luật loại trừ, tức là A∩Ā ≠ ∅ và A∪Ā ≠ U, trong đó ∅ là tập rỗng. Hai tập mờ được xác định là bằng nhau nếu A ⊆ B và A ⊇ B [36].

Phép tích Đề các (Cartesian) A1 × A2 × ... × An được định nghĩa thành tập mờ u1× u2× ... × un

trong đó µA1 × µA2 × ... × µAn(u1 ... un) = min (µA1(u1), µA2(u2), ... µAn(un))

3.1.2. Khái niệm tập mờ trong lĩnh vực khai phá dữ liệu

Dữ liệu trong thực tế thường không chính xác và không chắc chắn. Những dữ liệu này cần phải được chuyển đổi để hoàn toàn xác định và không nhập

nhằng, nhờ đó nó có thể được xử lý với một mô hình dữ liệu quan hệ chuẩn. Ví dụ, nhiều mở rộng tới một mô hình quan hệ chuẩn đã được đề xuất để hỗ trợ dữ liệu số. Cách tiếp cận mờ đại diện cho một giải pháp mạnh mẽ để chuyển đổi dữ liệu. Thay vì xác định "giá trị null" đặc biệt hoặc các toán tử đại số quan hệ cụ thể, các tập mờ và CSDL mờ được sử dụng [4].

Tri thức được trình bày bởi các tập mờ không chỉ dễ hiểu hơn với con người mà còn thường súc tích và thiết thực hơn. Hơn nữa, khai phá luật kết hợp dựa vào tập mờ có thể xử lý dữ liệu số, không chỉ cung cấp sự hỗ trợ cần thiết để sử dụng dạng dữ liệu không chắc chắn bằng các thuật toán hiện có, mà còn tạo ra đường biên “mịn” hơn giữa các khoảng của giá trị số. Như vậy, cách tiếp cận mờ là một giải pháp tốt cho cả dữ liệu chính xác và không chính xác [37].

Việc sử dụng logic mờ trong mô hình quan hệ cung cấp một cách hiệu quả để xử lý dữ liệu số với các thông tin không chính xác, không chắc chắn hoặc không đầy đủ. Lý thuyết tập mờ ngày càng được sử dụng nhiều và thường xuyên hơn trong các hệ thống thông minh bởi vì mối quan hệ của nó với cách lập luận của con người và sự đơn giản của các khái niệm [36]. Một số nghiên cứu đã chứng minh được hiệu suất vượt trội của logic mờ trong KPDL và kho dữ liệu [36].

3.2. Rời rạc hoá thuộc tính dựa vào tập mờ

Theo lý thuyết tập mờ, một phần tử thuộc vào một tập nào đó với một “mức độ thuộc” (membership value) nằm trong khoảng [0, 1]. Giá trị này được xác định dựa vào hàm thuộc (membership function) tương ứng với mỗi tập mờ. Bây giờ chúng ta áp dụng khái niệm tập mờ vào việc rời rạc hóa dữ liệu để giải quyết một số vấn đề còn vướng mắc ở phần trên.

Ví dụ thuộc tính thời gian đàm thoại tính theo phút có tập xác định trong khoảng [0,1440], chúng ta gắn cho nó 5 tập mờ tương ứng là tgdt_rất ngắn, tgdt_ngắn, tgdt_trung_bình, tgdt_dài, tgdt_rất_dài và đồ thị hàm thuộc tương ứng với các tập mờ này như sau:

Ví dụ, trong đồ thị ở hình trên, thời gian đàm thoại 5 phút và 6 phút có “mức độ thuộc” vào tập mờ tgdt_ngắn tương ứng là 0.88 và 0.77. Thời gian đàm thoại 10 phút và 11 phút có “mức độ thuộc” vào tập mờ tgdt_trung bình tương ứng là 0.45 và 0.17.

Đối với những thuộc tính hạng mục (categorical) A có tập giá trị {v1, v2, …, vk} và k không quá lớn thì gắn với mỗi giá trị vi một tập mờ A_vi có hàm thuộc xác định như sau:

Ví dụ thuộc tính loại cước có tập giá trị là liên tỉnh (LT), nội tỉnh (NT), quốc tế (QT), dịch vụ (DV), di động (DD), IP171(IP). Ta gắn thuộc tính loại cước với sáu tập mờ tương ứng là:

1 nếu loạicước =’LT’ 0 nếu loạicước ≠’LT’ m1(loạicước) = 1 nếu loạicước =’NT’ 0 nếu loạicước ≠’NT’ m2(loạicước) = 1 nếu loạicước =’QT’ 0 nếu loạicước ≠’QT’ m3(loạicước) = 1 nếu x = vi 0 nếu x ≠ vi mA_vi (x) = 1 Rất ngắn

Thời gian đàm thoại Mức độ thuộc

Ví dụ về vấn đề “điểm biên gãy” khi rời rạc hóa dữ liệu

Luật kết hợp nhị phân

Luật kết hợp có thuộc tính số