1. Trang chủ
  2. » Luận Văn - Báo Cáo

(LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử

48 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 1,44 MB

Cấu trúc

  • Chương 1. Tổng quan khai phá dữ liệu và bài toán luật kết hợp (9)
    • 1.1. Khái niệm (9)
    • 1.2. Quá trình phát hiện tri thức trong cơ sở dữ liệu (9)
    • 1.3. Các kĩ thuật khai phá dữ liệu (11)
      • 1.3.1. Các kĩ thuật tiếp cận trong khai phá dữ liệu (11)
      • 1.3.2. Dạng dữ liệu có thể khai phá (12)
      • 1.3.3. Ứng dụng của khai phá dữ liệu (12)
    • 1.4. Bài toán khai phá luật kết hợp và ứng dụng (12)
      • 1.4.1. Luật kết hợp trong cơ sở dữ liệu (12)
      • 1.4.2. Luật kết hợp mờ (13)
      • 1.4.3. Tính ứng dụng (13)
  • Chương 2. Một số thuật toán khai phá luật kết hợp (15)
    • 2.1. Thuật toán Apriori (15)
      • 2.1.1. Ý tưởng thuật toán Apriori (15)
      • 2.1.2. Thuật toán Apriori (15)
      • 2.1.3. Sinh luật kết hợp từ các tập mục phổ biến (16)
    • 2.2. Ứng dụng logic mờ trong thuật toán khai luật kết hợp Apriori (17)
      • 2.2.1. Ứng dụng logic mờ trong thuật toán khai phá luật kết hợp Apriori (17)
      • 2.2.2. Thuật toán Apriori mờ (20)
      • 2.2.3. Nhận xét về thuật toán Apriori mờ (21)
  • Chương 3. Thuật toán khai phá luật kết hợp dựa trên lý thuyết đại số gia tử (22)
    • 3.1. Giới thiệu về lý thuyết đại số gia tử (22)
    • 3.2. Tiếp cận đại số gia tử trong khai phá dữ liệu (25)
    • 3.3. Thuật toán khai phá luật kết hợp dựa trên lý thuyết đại số gia tử (27)
  • Chương 4. Thử nghiệm và đánh giá thuật toán (31)
  • Kết luận (38)
  • Tài liệu tham khảo (39)

Nội dung

Tổng quan khai phá dữ liệu và bài toán luật kết hợp

Khái niệm

Khai phá dữ liệu, được giới thiệu vào cuối thập kỷ 80 của thế kỷ trước, bao gồm nhiều kỹ thuật nhằm phát hiện thông tin giá trị tiềm ẩn trong các tập dữ liệu lớn Quá trình này liên quan đến việc phân tích dữ liệu và áp dụng các phương pháp để tìm ra các mẫu hình có tính chính quy trong kho dữ liệu.

Vào năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã giới thiệu khái niệm Phát hiện tri thức trong cơ sở dữ liệu, mô tả toàn bộ quy trình tìm kiếm tri thức hữu ích từ các tập dữ liệu lớn Khai phá dữ liệu là một bước quan trọng trong quy trình này, sử dụng các thuật toán đặc biệt để chiết xuất mẫu và mô hình từ dữ liệu Ở mức độ trừu tượng, khai phá dữ liệu được định nghĩa là quá trình tìm kiếm và phát hiện tri thức mới, tiềm ẩn và hữu dụng trong cơ sở dữ liệu lớn.

Khám phá tri thức (KDD) và khai phá dữ liệu là hai khái niệm tương đương, với KDD là mục tiêu chính của khai phá dữ liệu Tuy nhiên, nếu phân chia rõ ràng, khai phá dữ liệu được xem là một bước quan trọng trong quy trình KDD.

Quá trình phát hiện tri thức trong cơ sở dữ liệu

Khám phá tri thức trong cơ sở dữ liệu (KDD) là một lĩnh vực đa ngành, bao gồm thống kê, học máy, cơ sở dữ liệu, thuật toán, trực quan hóa dữ liệu, tính toán song song và hiệu năng cao.

Quá trình phát hiện tri thức nhằm mục đích rút ra tri thức từ dữ liệu trong cơ sở dữ liệu lớn KDD là một quy trình nhiều giai đoạn và có tính lặp lại, trong đó sự lặp lại có thể xảy ra ở bất kỳ bước nào.

Quá trình đó có thể được mô tả theo hình sau:

Bước đầu tiên trong quy trình phân tích dữ liệu là hình thành và xác định bài toán, bao gồm việc tìm hiểu lĩnh vực ứng dụng để xác định các nhiệm vụ cần hoàn thành Giai đoạn này quyết định việc rút ra tri thức hữu ích và lựa chọn các phương pháp khai phá dữ liệu phù hợp với mục đích ứng dụng và đặc điểm của dữ liệu.

Bước thứ hai trong quy trình phát hiện tri thức là thu thập và tiền xử lý dữ liệu, bao gồm việc làm sạch dữ liệu để loại bỏ nhiễu, xử lý tình trạng thiếu dữ liệu, biến đổi và rút gọn dữ liệu khi cần thiết Đây là giai đoạn thường tốn nhiều thời gian nhất do dữ liệu được thu thập từ nhiều nguồn khác nhau, dẫn đến sự không nhất quán Sau khi hoàn thành bước này, dữ liệu sẽ trở nên nhất quán, đầy đủ, được rút gọn và phân tách rõ ràng.

Bước thứ ba trong quy trình khai thác dữ liệu là rút ra tri thức từ các mẫu và mô hình ẩn trong dữ liệu Giai đoạn này rất quan trọng, bao gồm xác định chức năng, nhiệm vụ và mục đích của việc khai phá dữ liệu, cũng như lựa chọn phương pháp phù hợp Các bài toán khai phá dữ liệu thường được chia thành hai loại: bài toán mô tả, nhằm đưa ra các đặc điểm chung của dữ liệu, và bài toán dự báo, bao gồm việc phát hiện các suy diễn từ dữ liệu hiện có Việc lựa chọn phương pháp khai phá dữ liệu phụ thuộc vào loại bài toán đã xác định.

Bước thứ tư trong quy trình là áp dụng các tri thức đã phát hiện, đặc biệt là làm rõ các mô tả và dự đoán Các bước trước đó có thể được lặp lại nhiều lần, và kết quả thu được có thể được trung bình hóa từ tất cả các lần thực hiện để đảm bảo tính chính xác và đáng tin cậy.

Hình 1 Các bước trong quá trình khai phá tri thức

Quá trình phát hiện tri thức (KDD) mang lại 11 kết quả có thể ứng dụng trong nhiều lĩnh vực khác nhau Những kết quả này, bao gồm dự đoán và mô tả, có thể được tích hợp vào các hệ thống hỗ trợ ra quyết định, giúp tự động hóa quy trình này Tóm lại, khai thác dữ liệu là giai đoạn quan trọng nhất trong KDD, đóng vai trò then chốt trong việc trích xuất tri thức từ kho dữ liệu.

Các kĩ thuật khai phá dữ liệu

1.3.1 Các kĩ thuật tiếp cận trong khai phá dữ liệu

Căn cứ vào lớp các bài toán cần giải quyết, khai phá dữ liệu có các kỹ thuật áp dụng sau:

Phân lớp và dự đoán là quá trình xếp một đối tượng vào một trong những lớp đã biết trước, chẳng hạn như phân loại bệnh nhân trong hồ sơ bệnh án Phương pháp này thường áp dụng các kỹ thuật học máy như cây quyết định và mạng nơron nhân tạo để đạt được hiệu quả cao trong việc phân loại dữ liệu.

Luật kết hợp là phương pháp nhằm phát hiện các mối quan hệ giữa các thành phần dữ liệu trong cơ sở dữ liệu (CSDL) Kết quả của thuật toán khai phá dữ liệu là tập hợp các luật kết hợp được tìm ra Ví dụ, trong phân tích CSDL bán hàng, có thể nhận thấy rằng khách hàng mua máy tính thường có xu hướng mua phần mềm quản lý tài chính trong cùng một lần giao dịch, điều này được thể hiện qua luật kết hợp.

“Mua máy tính  Mua phần mềm quản lý tài chính”

Độ hỗ trợ và độ tin cậy là hai chỉ số quan trọng trong việc đánh giá mối quan hệ giữa các sản phẩm Cụ thể, độ hỗ trợ 4% cho thấy chỉ có 4% các tác vụ phân tích cho thấy máy tính và phần mềm quản lý tài chính được mua cùng nhau Trong khi đó, độ tin cậy 70% chỉ ra rằng 70% khách hàng đã mua máy tính cũng chọn mua phần mềm quản lý tài chính, phản ánh sự liên kết mạnh mẽ giữa hai sản phẩm này.

Phân tích chuỗi theo thời gian là phương pháp tương tự như khai phá luật kết hợp, nhưng nó chú trọng đến tính thứ tự và yếu tố thời gian Hướng tiếp cận này được áp dụng rộng rãi trong lĩnh vực tài chính và thị trường chứng khoán nhờ khả năng dự đoán chính xác.

Phân cụm: xếp các đối tượng theo từng cụm dữ liệu tự nhiên

Mô tả khái niệm: thiên về mô tả, tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản.

1.3.2 Dạng dữ liệu có thể khai phá

Khai phá dữ liệu được ứng dụng rộng rãi và có khả năng xử lý nhiều loại dữ liệu khác nhau, bao gồm cơ sở dữ liệu quan hệ, cơ sở dữ liệu đa chiều (như kho dữ liệu), cơ sở dữ liệu giao dịch, cơ sở dữ liệu quan hệ-hướng đối tượng, dữ liệu không gian và thời gian, dữ liệu chuỗi thời gian, cơ sở dữ liệu đa phương tiện, cũng như dữ liệu văn bản và web.

1.3.3 Ứng dụng của khai phá dữ liệu

Khai phá dữ liệu là một lĩnh vực quan trọng và được ứng dụng rộng rãi trong nhiều ngành Một số ứng dụng tiêu biểu của khai phá dữ liệu bao gồm phân tích hành vi khách hàng, dự đoán xu hướng thị trường, tối ưu hóa quy trình sản xuất và phát hiện gian lận trong giao dịch.

 Phân tích dữ liệu và hỗ trợ ra quyết định;

 Tài chính và thị trường chứng khoán;

Bài toán khai phá luật kết hợp và ứng dụng

1.4.1 Luật kết hợp trong cơ sở dữ liệu Gọi I = I 1 , I 2, , I m là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là một mục Gọi D là một cơ sở dữ liệu, trong đó mỗi bản ghi T là một giao dịch và chứa các tập mục, T  I Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng X  Y, trong đó X, Y  I là các tập mục(itemsets), và X  Y   Ở đây, X được gọi là tiền đề, Y là mệnh đề kết quả

Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c) Độ hỗ trợ (support) của luật kết hợp X  Y được định nghĩa là tỷ lệ phần trăm các bản ghi X  Y so với tổng số giao dịch trong cơ sở dữ liệu Đối với một số giao dịch nhất định, độ tin cậy (confidence) là tỷ lệ số giao dịch chứa X  Y so với số giao dịch chứa X, được tính bằng đơn vị phần trăm (%).

Lựa chọn luật Ứng dụng

Khai thác luật kết hợp từ cơ sở dữ liệu nhằm tìm ra tất cả các luật có độ hỗ trợ và độ tin cậy vượt qua ngưỡng minsup và mincof do người dùng xác định Tập mục X  Y được coi là tập mục lớn nếu luật X  Y có độ hỗ trợ lớn hơn minsup Một đặc điểm quan trọng trong khai thác luật kết hợp là bất kỳ tập con nào của một tập mục lớn cũng sẽ là tập mục lớn Các thuật toán trích xuất luật kết hợp, như Apriori, dựa trên nguyên tắc bắt đầu từ các tập mục đơn, loại bỏ những mục không phải là tập mục lớn, sau đó kết hợp các mục còn lại và tiếp tục kiểm tra cho đến khi tìm ra tập mục lớn nhất có thể.

1.4.2 Luật kết hợp mờ Với luật kết hợp mờ, như đã nói trong phần mở đầu, với mỗi mục có thể chia ra các miền mờ (như "trẻ", "trung niên" ), thực chất là ta chia một mục ban đầu thành các mục con và giá trị của mỗi hàng tại mục đó sẽ nằm trong [0,1] chứ không chỉ là 0 hoặc 1 Khi đó, độ hỗ trợ của một miền mờ s i thuộc mục x i được định nghĩa là:

FS     (1) còn độ hỗ trợ của các miền mờ s 1 , s 2 , , s k của các mục x 1 , x 2 , , x k tương ứng sẽ là

FS          (2) ở đó x i là mục thứ i, s i là miền mờ thuộc mục thứ i, n là số hàng trong CSDL, i i x

) ( d x j i là độ thuộc của giá trị tại cột thứ i, hàng j vào tập mờ s i

1.4.3 Tính ứng dụng Luật kết hợp có ứng dụng trong nhiều lĩnh vực khác nhau của đời sống như: khoa học, hoạt động kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khoán, tài chính và đầu tư, Ứng dụng luật kết hợp phải chỉ rõ các đặc điểm về: nguồn gốc, điều kiện áp dụng, phạm vi ứng dụng, mục đích ứng dụng Những đặc điểm này được thể hiện bằng mô hình sau:

Hình 2 Mô hình ứng dụng luật

Tập luật có ứng dụng rộng rãi trong nhiều lĩnh vực như khoa học, kinh doanh, tiếp thị, thương mại và phân tích thị trường chứng khoán.

Tại giai đoạn này, các tập luật được tham chiếu từ tập luật R là những tập luật được sinh ra từ cơ sở dữ liệu chứa các tác nhân yêu cầu sử dụng.

 Lựa chọn luật, ở bước này chúng ta tiến hành lọc các luật hữu ích nhất phục vụ cho phạm vi sử dụng

 Ứng dụng, đây là kết quả mong đợi nhất từ khi bắt đầu khai thác cho đến khi thi hành luật

Mô hình ứng dụng luật đã làm sáng tỏ tính ứng dụng của việc khai thác luật kết hợp trong cơ sở dữ liệu

Khai thác luật kết hợp trong cơ sở dữ liệu giao dịch là một phần quan trọng của khai phá dữ liệu, với ứng dụng rộng rãi trong bối cảnh phát triển xã hội hiện nay.

Tính ứng dụng của khai thác luật kết hợp trong cơ sở dữ liệu giao dịch là việc sử dụng các tập luật đã được phát hiện để phục vụ những mục đích cụ thể, từ đó đạt được kết quả tối ưu.

Một số thuật toán khai phá luật kết hợp

Thuật toán Apriori

Apriori là thuật toán được giới thiệu lần đầu bởi Rakesh Agrawal, Tomasz Imielinski và Arun Swami vào năm 1993 Thuật toán này tìm kiếm các giao dịch có độ hỗ trợ và độ tin cậy vượt quá một ngưỡng nhất định.

Thuật toán Apriori tính tất cả các tập ứng cử của tập k trong một lần duyệt CSDL

Apriori sử dụng cấu trúc cây băm để thực hiện tìm kiếm Khi đi xuống cây và chạm đến lá, chúng ta xác định được một tập ứng cử viên có tiền tố chung trong giao dịch Các ứng cử viên này sau đó được kiểm tra trong các giao dịch đã được ánh xạ trước đó Nếu tìm thấy, biến đếm sẽ được tăng lên 1.

Trong bài viết này, chúng ta giả sử rằng các mục trong mỗi giao dịch được lưu trữ theo trật tự từ điển Kích thước của một tập mục được định nghĩa là số lượng các mục trong đó, và tập mục có kích thước k được gọi là tập k-mục Tất cả các mục trong mỗi tập cũng được sắp xếp theo trật tự từ điển Chúng ta sẽ sử dụng các ký hiệu cụ thể để minh họa cho các khái niệm này.

L k : Tập các tập k-mục phổ biến (với độ hỗ trợ cực tiểu minsup nào đó)

C k : Tập các tập k-mục ứng cử (các tập mục phổ biến tiềm năng)

Output: Tập các tập mục phổ biến

4 { C k = apriori_gen(L k-1 , minsup);// các ứng cử mới theo chương trình con ở dưới đây

6 { C t =Subset (C k ,t);// ứng cử viên được chứa trong t

14 Return L=  k L k' ; // sinh ứng cử viên mới (**)

5 if( has_inrequent_subset(c, L k-1 )) delete c;

Boolean has_infrequent_subset(c,L k-1 ) 1.{ for ( (k-1)-subset s c)

2.1.3 Sinh luật kết hợp từ các tập mục phổ biến

Sau khi xác định các tập mục phổ biến từ các tác vụ trong cơ sở dữ liệu, có thể tạo ra các luật kết hợp mạnh Luật kết hợp mạnh được định nghĩa là những luật đáp ứng cả hai tiêu chí: độ hỗ trợ tối thiểu và độ tin cậy tối thiểu Để thực hiện điều này, ta cần sử dụng tính độ tin cậy của luật, mà cụ thể là độ tin cậy của luật X .

Y là: conf (X  Y) = P(Y/X) = sup(XY)/sup(X) ở đó sup(XY) là độ hỗ trợ của XY và sup(X) là độ hỗ trợ của X

Có thể coi tỷ số trên là tỷ số giữa: số các tác vụ chứa XY và số các tác vụ chứa

X Dựa trên biểu thức tính toán đó, các luật kết hợp có thể được sinh như sau: Với mỗi tập mục phổ biến l, sinh ra tất cả các tập con không rỗng của l

Với mỗi tập con không rỗng a của l, ta có luật a  (l-a) nếu

) sup( a l  minconf ở đó minconf là ngưỡng độ tin cậy cực tiểu

Độ hỗ trợ của luật, được xác định từ các tập mục phổ biến, đã được thoả mãn, tức là sup(l) chính là độ hỗ trợ của luật.

Chúng ta cải tiến quy trình xử lý bằng cách tạo ra các tập con từ tập lớn thông qua phương pháp đệ quy ưu tiên độ sâu Chẳng hạn, với tập mục ABCD, chúng ta bắt đầu bằng cách xem xét tập con ABC, tiếp theo là AB, và cứ thế tiếp tục.

Nếu tập con a của tập mục lớn l không tạo ra được luật, thì các tập con của nó cũng không cần được xem xét Ví dụ, nếu luật ABC → D không đạt độ tin cậy, thì luật AB → CD cũng không cần phân tích thêm Điều này có thể được chứng minh một cách đơn giản.

Nếu luật a (l-a) không thoả mãn độ tin cậy, tức là: conf(a l-a)) nhỏ hơn minconf, thế thì với bất kỳ tập con b nào của a ta có:

Vì b a nên supp(b)supp(a), do vậy:

Tức là độ tin cậy của luật b(l-b) cũng nhỏ hơn minconf Thuật toán đơn giản này có thể mô tả như sau:

For all large itemsets l k , k2 do call genrules(l k ,l k )

Ggenrules(l k :large k-itemsets, a m : large m-itemsets){

A={(m-1)-itemsets a m-1 |a m-1  a m }; for (a m-1  A){ conf=support(l k )/support(a m-1 );

} if (conf  minconf) { output the rule a m-1 (l k -a m-1 ), with confidence=conf and support=support(l k ) if (m-l > l) then call genrules(l k ,a m-1 );

//để sinh ra các luật với tập con của a m-1 là phần tiền đề }

Ứng dụng logic mờ trong thuật toán khai luật kết hợp Apriori

2.2.1 Ứng dụng logic mờ trong thuật toán khai phá luật kết hợp Apriori

Thuật toán Apriori đã cung cấp một phương pháp cơ bản để khai phá luật kết hợp trong siêu thị, nhưng chỉ giới hạn ở dữ liệu nhị phân (có hoặc không) Mặc dù phương pháp này hiệu quả trong việc xử lý tập dữ liệu lớn, nhưng khi áp dụng vào thực tế, nó gặp vấn đề với các thuộc tính số học và phạm trù, như thu nhập và tuổi, mà thường xuất hiện trong cơ sở dữ liệu thực Do đó, cần phát triển các phương pháp mới để xử lý dữ liệu phức tạp hơn nhằm cải thiện khả năng khai thác thông tin.

Những hạn chế của phương pháp Aragwa đã được nhận diện, dẫn đến nhiều nghiên cứu sau này đề xuất các giải pháp khắc phục Tuy nhiên, hầu hết các phương pháp này vẫn dựa trên nguyên tắc cơ bản của thuật toán Apriori, cụ thể là: "Một tập mục lớn chỉ khi tất cả các tập mục con của nó cũng là tập mục lớn."

Một trong những cách tiếp cận đầu tiên là chuyển đổi các dữ liệu chưa ở dạng nhị phân thành dạng nhị phân bằng cách quy định một ngưỡng t Điều này cho phép phân loại dữ liệu thành hai giá trị {0,1} Ví dụ, với một tập dữ liệu cụ thể, việc áp dụng ngưỡng t sẽ giúp xác định các giá trị nhị phân tương ứng.

Bảng 1 Ví dụ dữ liệu mẫu case age income risk credit result

Theo như phương pháp nói trên, thì với mỗi thuộc tính sẽ được đặt một ngưỡng α để chuyển đổi dữ liệu về dạng nhị phân theo hàm:

1 𝑛ế𝑢 𝐴 𝑖𝑗 ≥ 𝛼 𝑖 ,trong đó, 1 ≤ i ≤ n, 1 ≤ j ≤ m Giả sử cho 𝛼 1 = 30, 𝛼 2 = 35000, 𝛼 3 = 0, khi đó dữ liệu tương ứng được chuyển về thành dạng:

Bảng 2 Dữ liệu được chuyển về dạng nhị phân case age income risk credit result

Chúng tôi sẽ áp dụng mô hình thuật toán Apriori để giải quyết bài toán Mặc dù cách tiếp cận này khá đơn giản, nhưng việc lựa chọn các ngưỡng lại phụ thuộc nhiều vào người thiết kế bài toán, và độ chính xác của tập luật sẽ chịu ảnh hưởng lớn từ các ngưỡng này Hơn nữa, việc áp dụng cho dữ liệu ví dụ trên không phù hợp, vì khi chuyển đổi dữ liệu thành dạng {0,1}, chúng ta đã làm mất đi các giá trị cơ bản của dữ liệu.

Một trong những cách tiếp cận hiệu quả để giải quyết bài toán là ứng dụng lý thuyết logic mờ, bao gồm các lý thuyết như lý thuyết tập mờ, lý thuyết thống kê, lý thuyết tập thô và lý thuyết tập cặp Lý thuyết tập mờ, được giới thiệu bởi Zadeh vào năm 1965, nổi bật nhờ tính đơn giản và khả năng tương thích với logic con người Lý thuyết này tập trung vào việc lượng hóa và lập luận bằng ngôn ngữ tự nhiên thông qua các từ có tính mờ, giúp người sử dụng đưa ra quyết định linh hoạt hơn Hiện nay, lý thuyết tập mờ đang ngày càng được ứng dụng rộng rãi trong các hệ thống thông minh Một tập mờ A trong tập vũ trụ U được định nghĩa rõ ràng theo các tiêu chí của lý thuyết này.

Trong đú: Hàm A(x) xác định mức độ thuộc của x trong A, có nghĩa là khi giá trị của x tăng lên, x càng thuộc A nhiều hơn Tập mờ có thể được mở rộng thành tập cứng, trong đó các phần tử chỉ có thể thuộc hoặc không thuộc tập.

Các phương pháp dựa trên logic mờ đang thu hút sự chú ý trong lĩnh vực khai thác luật kết hợp, vì chúng tương đồng với cách lập luận tự nhiên của con người.

Các phương pháp dựa trên logic mờ đã được áp dụng cho 20 người, mang lại kết quả khả quan về tính toán và độ chính xác của tập luật.

Thuật toán khai phá luật kết hợp dựa trên logic mờ được trình bày sau đây Ngưỡng hỗ trợ và ngưỡng tin cậy được cho trước

Các ký hiệu dùng trong thuật toán: n: Tổng số giao giao dịch trong cơ sở dư liệu m: Tổng số các thuộc tính

R jk là miền mờ thứ k của A j, với 1 ≤ k ≤ |A j | Trong miền R jk, w jk là trọng số có giá trị từ 0 đến 1 D(i) đại diện cho dữ liệu giao dịch thứ i, với 1 ≤ i ≤ n Giá trị phàm trù hoặc định lượng của A j trong D(i) được ký hiệu là v j (i) Giá trị hàm thuộc của v j (i) trong R jk được thể hiện qua f jk (i), với 1 ≤ f jk (i) ≤ m.

Sup(R jk ): Độ hỗ trợ của R jk

Sup: giá trị hỗ trợ của mỗi tập mục lớn;

Conf: độ tin cậy của mỗi tập mục lớn Minsup: Giá trị hỗ trợ tối thiểu cho trước Minconf: giá trị tin cậy cho trước

C r : tập các tập mục thỏa mãn với r thuộc tính (tập mục), 1 ≤ r ≤ m;

L r : tập các tập mục lớn thỏa mãn với r thuộc tính (tập mục) 1 ≤ r ≤ m;

Thuật toán khai phá dữ liệu mờ có trọng số cho các giá trị định lượng được thực hiện theo các bước sau:

Input: n,m, w jk , hàm thuộc của các tập mục, minsup và minconf Output: luật kết hợp mờ

Bước 1: Chuyển các giá trị định lượng và phàm trù v j (i) của mỗi giao dịch D(i), i từ

1 tới n, với mỗi thuộc tính Aj, j từ 1 tới m, về giá trị mờ f jk (i)(1 ≤ k ≤ |A|) bằng hàm thuộc R jk

Bước 2 : Tính giá trị hỗ trợ

𝑛 , 1 ≤ 𝑗 ≤ 𝑛, 1 ≤ 𝑘 ≤ 𝐴 𝑗 giá trị hỗ trợ của miền mờ R jk , để chuyển C 1 thành tập tham chiếu 1- itemsets

Bước 3 : Nếu Sup(R jk ) ≥ minsup thì đưa R jk vào L 1 (L 1 là tập mục lớn mức 1)

Bước 4 : Nếu L 1 không rỗng, tiếp tục bước sau, nếu rỗng thoát chương trình

Bước 5: Thuật toán tạo ra tập mục lớn mức r từ các tập mục lớn mức r-1 bằng cách chọn hai tập mục lớn mức r-1 chỉ khác nhau ở một mục duy nhất Khi kết hợp hai tập mục này, ta thu được tập mục ứng viên Cr Nếu tập mục ứng viên này xuất hiện trong cơ sở dữ liệu, nó sẽ được xem xét.

21 có giá trị hỗ trợ và tin cậy thỏa mãn thì nó được đưa vào danh sách các tập mục lớn mức r

Bước 6: Lặp lại các bước con cho các tập mục lớn hơn được sinh ra, bao gồm (r+1) tập mục lớn S với các mục (s1, s2, …, st, …, sr+1) trong Cr+1, với điều kiện 1≤ t ≤ r+1.

Để tính các giá trị mờ của mỗi giao dịch D(t) của S, ta sử dụng công thức 𝑓𝑠(𝑡) = 𝑟+1 𝑡=1 𝑤𝑠𝑡𝑓𝑠𝑡(𝑖), trong đó fst(i) đại diện cho giá trị hàm thuộc của D(t) trong miền mờ st, và wst là trọng số của st Khi áp dụng toán tử cực tiểu, ta có f s (t) = min wstfst(i).

 Tính giá trị hỗ trợ sup(S) của S trong giao dịch

 If Sup(S) ≥ minsup, thì đưa S vào L r+1

Bước 7 : Nếu Lr+1 là rỗng, thì thực hiện bước tiếp theo, ngược lại, đặt r=r+1, thực hiện lại bước 5 và 6

Bước 8 : Thu thập các tập mục lớn Bước 9 : Đưa ra các luật kết hợp từ các tập mục lớn vừa thu thập theo cách sau:

 Với mỗi luật kết hợp khả thi sau đây: s 1 ∩…∩s x ∩s y ∩…∩s q → s k (k=1 tới q, x=k-1, y= k+1)

 Tính độ tin cậy của luật

Conf(s1∩…∩sx∩sy∩…∩sq → sk) = 𝑛 𝑖=1 𝑚𝑖𝑛 𝑘=1 𝑞 𝑓 𝑠𝑡 (𝑖) min ⁡ (𝑚𝑖𝑛 𝑘=1 𝑥 𝑊𝑠𝑘 )

2.2.3 Nhận xét về thuật toán Apriori mờ

Việc áp dụng lý thuyết logic mờ vào thuật toán đã hỗ trợ trong việc gán nhãn cho các trường dữ liệu định lượng, từ đó giúp khai thác luật kết hợp từ các dữ liệu này Tuy nhiên, việc xây dựng hàm mờ để gán nhãn có thể rất phức tạp và phụ thuộc vào từng bài toán cụ thể, điều này làm hạn chế khả năng ứng dụng của các phương pháp khai phá luật kết hợp mờ.

Thuật toán khai phá luật kết hợp dựa trên lý thuyết đại số gia tử

Giới thiệu về lý thuyết đại số gia tử

Ý tưởng áp dụng ĐSGT trong khai thác dữ liệu bắt nguồn từ cấu trúc rõ ràng của các giá trị thuộc biến ngôn ngữ, chẳng hạn như "tuổi" hay "trình độ chuyên môn" Trong mô hình ĐSGT tuyến tính, các giá trị của biến ngôn ngữ được sắp xếp theo thứ tự nhất định, ví dụ như giá trị của biến "tuổi" được phân loại từ "rất trẻ" đến "khá già", tạo ra một hệ thống phân loại có tính logic và dễ hiểu.

Các giá trị ngôn ngữ như "già" và "rất già" được phân bố có quy luật trên trục số giữa giá trị tối thiểu và tối đa Dựa trên một số giả thiết hợp lý, mỗi giá trị này gắn với một khoảng lân cận trên trục số, tạo thành một phân hoạch cho đoạn min, max Giá trị đại diện cho khoảng này có thể được sử dụng trong các ứng dụng khai phá dữ liệu, thay thế cho các giá trị hàm trong lý thuyết tập mờ của Zadeh Thông tin chi tiết về ĐSGT có thể tham khảo trong các tài liệu [1], [2], [8], [9].

Giả thiết đại số gia tử AX* = (X*, G, H, σ, , ) được coi là tuyến tính và đầy đủ, trong đó X* là tập cơ sở, G = (0, c−, W, c+, 1) là tập các phần tử sinh, H là tập các gia tử, và  là quan hệ thứ tự toàn phần trên X* Các phép toán mở rộng  và  đảm bảo rằng với mọi x ∈ X*,  x và σ x lần lượt là cận dưới đúng và cận trên đúng trong X* của tập H(x), tức là tập hợp tất cả các phần tử sinh ra từ x thông qua các tác động của các gia tử trong H.

Gia tử được phân loại thành dương và âm dựa trên các điều kiện cụ thể: một gia tử được gọi là dương nếu hc + > c + (hay h c  < c  ), ngược lại, nó sẽ được xem là âm Tập hợp các gia tử dương được ký hiệu là H +, trong khi tập hợp các gia tử âm được ký hiệu là H - Tổng hợp tất cả các gia tử sẽ được ký hiệu là H = H + ∪ H -.

Gia tử h được xem là dương (âm) đối với gia tử k khi tồn tại ít nhất một x thuộc tập hợp Dom(X) thỏa mãn điều kiện: nếu x nhỏ hơn kx thì kx lớn hơn hkx, hoặc nếu x lớn hơn kx thì kx nhỏ hơn hkx.

Tính chất 1.2.1.Tính chất dương (âm) của một gia tử này đối với một gia tử khác không phụ thuộc vào phần tử x mà chúng tác động

Tính chất 1.2.2 Nếu hx

Ngày đăng: 17/12/2023, 01:55

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN