1. Trang chủ
  2. » Luận Văn - Báo Cáo

Vấn đề phát hiện luật kết hợp trong cơ sở dữ liệu và khai phá dữ liệu

73 840 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 39,21 MB

Nội dung

Các công cụ và kỹ thuật này là chủ đề của một lĩnh vực mới xuất hiện đó là lĩnh vực khám phá tri thức trong CSDL.Khả năng tăng trưởng vượt bậc của dữ liệu được xem xét theo hai mặt: tạo

Trang 2

Danh inục bảng biểu, hình v ẽ 3

Các ký hiệu và từ viết tắt 4

VIỞ đ ầ u 5

Chương 1 Tổng quan về khai phá dữ liệu 7

1.1 Khai phá dữ liệu 7

1.1.1 Định nghĩa 7

1.1.2 Các ứng dụng của khai phá dữ liệ u 7

1.2 Các giai đoạn chính của quá trình phát hiện tri thức 8

1.3 Các bài toán trong khải phá dữ liệu 10

1.3.1 Phát hiện sự phụ thuộc dữ liệ u 11

1.3.2 Phát hiện sự biến đổi và độ lệch 11

1.3.3 Phát hiện luật kết hợp 12

1.3.4 Mô hình hoá sự phụ thuộc 12

1.3.5 Phân lớp 13

1.3.6 Hồi quy 13

1.3.7 Tổng hợp 13

1.4 Các kỹ thuật khai phá dữ liệu phổ b iến 14

1.4.1 Các công cụ truy vấn 14

1.4.2 K-láng giềng gần 15

1.4.3 Cây quyết định 15

1.4.4 Các luật kết hợp 17

Chương 2 Phát hiện luật kết hợp trong cơ sở dữ liệu lớn 20

2.1 Phát biểu bài toán phát hiện luật kết hợp 20

2.2 Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân 22

2.2.1 Các định nghĩa hình thức trên hệ thông tin nhị phân 22

2.2.2 Thuật toán phát hiện tập chỉ báo và luật kết hợp nhị phân 25

2.2.3 Ví dụ minh hoạ 27

2.3 Phát hiện luật kết hợp dựa trên hệ thông tin m ờ 30

M Ụ C L Ụ C

Trang 3

2.3.1 Các định nghĩa hình thức trên hệ thông tin m ờ 30

2.3.2 Ví dụ minh hoạ 32

2.3.3 Thuật toán phát hiện tập chỉ báo và các luật kết hợp m ờ 34

Chương 3 Một sô th u ật toán phát hiện luật kết hợ p 37

3.1 Thuật toán AIS 37

3.2 Thuật toán SETM 39

3.3 Thuật toán A priori 42

3.4 Thuật toán AprioriTid 44

3.5 Thuật toán phân hoạch 46

3.6 Thuật toán CH A RM 51

Chương 4 áp dung kỹ thuật khai phá dữ liệu vào bài toán bảo h iểm 58

5.1 Bài toán 58

5.2 Cài đặt chương trìn h 60

5.3 Kết quả chạy chương trình 61

5.4 Nhận xét kết q u ả : 67

Kết luận 6 8 Tài liệu tham k h ả o 69

P h ụ l ụ c 72

Trang 4

D A N H M Ụ C B Ả N G B IỂU , H ÌN H VẼ

Hình 1.1: Quá trình khám phá tri thức 9

Bảng 2.1: Thuật toán phát hiện tập chỉ báo phổ biến nhị phân 26

Bảng 2.2: Thuật toán phát hiện luật kết hợp nhị phân 27

Bảng 2.3: Bảng của giao dịch và các chỉ mục 33

Bảng 2.4: Hệ thông tin nhị phân 33

Bảng 2.5: Hệ thông tin m ờ 34

Bảng 2.6: Thuật toán phát hiện tập chỉ báo mờ 35

Bảng 2.7: Thuật toán phát hiện luật kết hợp m ờ 36

Bảng 3.1: Thuật toán AIS 37

Bảng 3.2: Ví dụ thuật toán AIS 38

Bảng 3.3: Thuật toán SETM 40

Bảng 3.4: Ví dụ thuật toán SETM 42

Bảng 3.5: Thuật toán Apriori 42

Bảng 3.6: Hàm apriori_gen 43

Bảng 3.7: Ví dụ thuật toán Apriori 44

Bảng 3.8: Algorithm AprioriTid 45

Bảng 3.9: Ví dụ thuật toán AprioriTid 46

Bảng 3.10: Ký hiệu sử dụng trong thuật toán phân hoạch 48

Bảng 3.11: Thuật toán phân hoạch 49

Bảng 3.12: Thủ tục gen_large_itemsets 49

Bảng 3.13: Thủ tục prune 50

Bảng 3.14: Thủ tục gen_final_count 51

Bảng 3.15: Thuật toán CHARM 54

Hình 3.1: CH ARM sắp xếp Iheo thứ tự từ điển 55

Hình 3.2: CHARM sắp xếp theo độ hỗ trợ tăng dần 56

Hình 4.1: Sơ đồ quan hệ 59

Hình 4.2: Cửa sổ giao diện chính của chương trình KDD on Insurance 72

Trang 5

Kÿ hiêu,

tir viét tât

Môi thành viên cüa tâp cô hai truông: i) tâp mue và ii) dô hô tra

Môi thành viên cüa tâp cô hai truàng: i) tâp mue và ii) dô hô trçf

Trang 6

Sự tăng trưởng vượt bậc của các CSDL thương mại, quản lý, và khoa học đã thúc đấy nhanh chóng năng lực phân tích, khai phá dữ liệu đó, tạo ra nhu cầu đòi hòi một thế hệ mới của các công cụ và kỹ thuật phân tích dữ liệu tự động, thông minh Các công cụ và kỹ thuật này là chủ đề của một lĩnh vực mới xuất hiện đó là lĩnh vực khám phá tri thức trong CSDL.

Khả năng tăng trưởng vượt bậc của dữ liệu được xem xét theo hai mặt: tạo mới và thu thập dữ liệu Sự mở rộng trong thu thập dữ liệu khoa học, kỹ thuật, sự giới thiệu rộng rãi mã vạch đối với hầu hết các sản phẩm thương mại và máy móc hoá các thương vụ (mua bằng thẻ tín dụng) và giao dịch quản lý (như thu thuế) đã sinh ra các dòng dữ liệu nhanh chóng và dễ dàng Sự mở rộng của công nghệ lưu trữ, chẳng hạn các thiết bị lựu trữ dữ liệu làm việc nhanh hơn, chất lượng cao hơn, giá thành rẻ hơn, rồi sự phát triển của các công nghệ Intranet, Internet, và công nghệ Data warehouse đã tạo ra nhiều cơ hội cho chúng ta trong việc thu thập, phân tích, xử lý và duy trì dữ liệu Vì thê' dữ liệu của các doanh nghiệp, các tổ chức và đơn vị ngày càng nhiều thông tin, phong phú và đa dạng Các phương pháp phân tích dữ liệu truyền thống không còn phù hợp với dữ liệu kiểu này Các phương pháp truyền thống có thể tạo ra các báo cáo từ dữ liệu nhưng không thể phân tích nội dung các báo cáo làm nổi bật các tri thức quan trọng Điều đó dẫn đến nhu cầu đòi hỏi sự ra đời thế hệ mới của các công cụ và kỹ thuật có khả năng thông minh và tự động giúp con người phân tích hình núi dữ liệu để khai thác tri thức hữu dụng Các

kỹ thuật và công cụ đó là đề tài của các lĩnh vực nổi bật là khám phá tri thức trong các CSDL Khai phá dữ liệu là một giai đoạn quan trọng trong khai phá tri thức từ CSDL Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu

Mục đích của luận văn là nghiên cứu, tổng hợp các kiến thức về khai phá dữ liệu; tìm hiểu một số thuật toán khai phá luật kết hợp trong CSDL lớn và áp dụng vào một bài toán trong thực tế

M Ở Đ Ầ U

Trang 7

Chương 1, trình bày tổng quát về khai phá dữ liệu, cụ thể là định nghĩa khai phá dữ liệu và các ứng dụng của nó, các giai đoạn của quá trình phát hiện tri thức, các bài toán trong khai phá dữ liệu Cuối chương 1, luận văn trình bày các kỹ thuật khai phá dữ liệu phổ biến hiện nay.

Chương 2, phát biểu bài toán phát hiện luật kết hợp, tiếp đến tìm hiểu hệ thông tin nhị phân và hệ thông tin mờ cùng thuật toán phát hiện luật kết hợp trên hệ thông tin nhị phân và thuật toán phát hiện luật kết hợp trên hệ thông tin mờ

Chương 3, giới thiệu một số thuật toán được sử dụng để khai phá dữ liệu như: AIS, SETM, Apriori, AprioriTid, phân hoạch, CHARM

Chương 4, đề xuất áp dụng khai phá dữ liệu vào bài toán bảo hiểm và viết chương trình thử nghiệm

Cuối cùng là kết luận những kết quả đạt được của luận văn và hướng phát triển trong tương lai

Luận văn gồm các nội dung chính sau :

Trang 8

Sau đây là một số định nghĩa mang tính mô tả mà Friedman đã lựa chọn từ

- Định nghĩa của Fayyad: “Khai phá tri thức là một quá Irình không tầm thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích tiềm năng và có thể hiểu được.”

- Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập các phương pháp được dàng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chưa biết bên trong dữ liệu.”

- Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn.”

1.1.2 Các ứng dụng của khai phá dữ liệu

Khai phá dữ liệu là một lĩnh vực nghiên cứu mới ra đời vào những năm 80

cứu nhờ vào những ứng dụng thực tiễn của nó Các kỹ thuật khai phá dữ liệu có thể

áp dụng vào nhiều tình huống thực hiện quyết định đa dạng và phạm vi rộng trong kinh doanh Các lĩnh vực chiếm tỷ lệ áp dụng đáng kể gồm có:

Trang 9

- Marketing-, các ứng dụng gồm phân tích nhu cầu khách hàng dựa trên các mẫu mua; xác định các chiên lược kinh doanh gồm: quảng cáo, vị trí kho hàng, và mục tiêu phấn đấu; phân loại khách hàng, kho hoặc sản phẩm; và thiết kế danh mục, xếp đặt kho hàng, và chiến dịch quảng cáo.

- Tài chính, chứng khoán : các ứng dụng gồm phân tích khả năng trả nợ của khách hàng, phân loại tài khoản có thể nhận được, hiệu quả, phân tích đầu tư tài chính như chứng khoán, các hợp đồng (khế ước), và công trái; mệnh giá của các lựa chọn tài chính; và phát hiện sự gian lận

- Sản xuất, chế tạo: các ứng dụng gồm tối ưu hoá tài nguyên như các thiết

bị, nhân lực, và vật liệu; tối ưu thiết kế quy trình sản xuất, bố trí khu chế tạo, và thiết kế sản phẩm, chẳng hạn.như ỏtò

- Chăm sóc sức klioẻ: các ứng dụng gồm phân tích hiệu qủa điều trị chắc chắn; tối ưu quá thời gian điều trị (tối ưu thời gian nằm viện), dữ liệu liên quan đến sức khoẻ bệnh nhân với chứng nhận của bác sỹ; và phân tích tác động của ma tuý,

•V.V.

- Tin-sinh học : Phát hiện các đoạn lặp trong trình tự ADN và protein,.v.v

- Phân tích dữ liệu v à hỗ trợ quyết địnli

- Giáo dục

- Phân loại v ă n bản

- Khai phá Web

- v.v

1.2 Các giai đoạn chính của quá trình phát hiện tri thức

Trong mục này, chúng ta khảo sát quá trình, phân tích các giai đoạn phát hiện tri thức Có 5 giai đoạn chính trong quá trình phát hiện tri thức [4,7,8,18]:

- Trích chọn dữ liệu

- Tiền xử lý dữ liệu

Trang 10

- Biến đổi dữ liệu

TransformedData

Interpretation EvaluationPatterns

Tiền xử lý dữ liệu (data preprocessing): là bước làm sạch dữ liệu và làm giàu dữ liệu Nghĩa là xử lý các dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không

rút gọn dữ liệu, rời rạc hoá dữ liệu Sau bước này dữ liệu dùng cho việc khai phá tri thức sẽ nhất quán, đầy đủ, được rút gọn và được rời rạc hoá Ví dụ, một khách hàng

có thể có nhiều bản ghi do việc viết sai tên, thay đổi địa chỉ và gây ra sự lầm tưởng

là có nhiều khách hàng khác nhau Thậm chí, có khách hàng cố ý phát âm hoặc viết sai tên hoặc đưa thông tin liên quan đến việc họ bị từ chối một vài hình thức khuyến mại hay bảo hành, v.v Làm giàu dữ liệu là chuẩn hoá và làm mịn dữ liệu

dể đưa về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá dữ liệu ở bước sau Các dữ liệu ở các khuôn dạng khác nhau cũng cần được qui đổi và tính toán lại để đưa về một kiểu thống nhất tiện cho quá trình phân tích, chẳng hạn qui đổi đơn vị tiền tệ, tuổi hay ngày sinh, địa chỉ chi tiết hay chia theo vùng, v.v

Trang 11

Biến đổi dữ liệu (data transformation): Chính là bước mã hoá dữ liệu Các thiết kế để chọn lọc, làm sạch và làm giàu dữ liệu sẽ được mã hoá dưới dạng các thủ tục, chương tinh hay tiện ích nhằm tự động hoá việc kết xuất, biến đổi và di chuyển dữ liệu nhằm mục đích khai phá Các chương trình có thể thực hiện các công việc theo định kỳ để làm tươi dữ liệu cho phân tích.

Khai phá dữ liệu (data mining): bước khai phá dữ liệu bắt đầu khi hệ thống dữ liệu được xây dựng và biến đổi Các bước trước là công việc của người thiết kế và lập trình Bắt đầu từ bước này là công việc của các nhà phân tích và ra quyết định Đây là bước áp dụng các kỹ thuật khai phá để khai phá, trích chọn được các mẫu thông tin, những mối quan hệ đặc biệt trong dữ liệu Bước này được xem

là quan trọng và tốn nhiều thời gian nhất của quá trình khai phá tri thức

Biểu diễn và đánh giá tri thức (knowlede representation & evolution):

Các kết quả khai phá dữ liệu cùng với các kết quả từ các công cụ phân tích khác có thể được tổng hợp dưới dạng các báo cáo cho các mục đích hỗ trợ quyết định khác nhau Các mẫu thông tin và mối quan hệ trong dữ liệu khai phá được ở bước trên được chuyển thành dạng gần gũi với người sử dụng như biểu đồ, cây, bảng biểu, luật, v.v Đồng thời đánh giá những tri thức khám phá được theo những tiêu chí nhất định

Khai phá dữ liệu chỉ là một giai đoạn của quá trình phát hiện tri thức trong CSDL Mặc dù có 5 giai đoạn, nhưng quá trình xây dựng và hoàn chỉnh việc phát hiện tri thức không chỉ qua 5 bước mà theo chu trình liên tục kiểu xoáy ốc, trong

đó các giai đoạn được lặp đi lặp lại, lần sau hoàn chỉnh hơn lần trước và các giai đoạn sau dựa trên các kết quả đã đạt được của giai đoạn trước

1.3 Các bài toán trong khai phá dữ liệu

Hai mục tiêu chính của khai phá dữ liệu trong thực tế cần đạt được là dự đoán và mô tả Dự đoán đòi hỏi sử dụng một số biến hoặc trường trong cơ sở dữ liệu để dự đoán về các biến khác cần quan tâm mà chưa biết hoặc sẽ có giá trị trong tương lai Mô tả tập trung vào việc tìm ra các mẫu được biểu diễn bởi người mô tả

Trang 12

dữ liệu Tầm quan trọng trong mối quan hệ dự báo và mô tả đối với các thuật toán khai phá dữ liệu cụ thể riêng có thể được quan tâm khác nhau.

Do sự phát triển mạnh mẽ của các loại hệ thống phát hiện tri thức trong CSDL theo yêu cầu nhằm đáp ứng những đòi hỏi trong nhiều lĩnh vực ứng dụng khác nhau, việc phát hiện tri thức cũng trở nên đa dạng hơn, do đó, nhiệm vụ của phát hiện tri thức cũng trở nên phong phú Một trong các bước đầu tiên trong quá trình khai phá tri thức là quyết định xem loại kiến thức nào mà thuật toán phát hiện tri thức cần phải kết xuất từ dữ liệu Điều này phụ thuộc vào yêu cầu của lĩnh vực ứng dụng và lợi ích của người dùng Do vậy, việc phân loại các kiểu nhiệm vụ phát hiện tri thức là vấn đề đáng quan tâm nhằm tạo ra một hệ thống phát hiện tri thức trong CSDL hữu hiệu,

1.3.1 Phát hiện sự phụ thuộc dữ liệu

Trong mô hình dữ liệu quan hệ, chúng ta nghiên cứu quan hệ trong CSDL không tính đến quan hệ giữa các thuộc tính Các quan hệ này thường được thể hiện thông qua sự phụ thuộc dữ liệu hoặc ràng buộc tính toàn vẹn, ở đây sẽ sử dụng thuật ngữ phụ thuộc dữ liệu để chỉ sự phụ thuộc dữ liệu kiểu này Sự phụ thuộc dữ liệu được sử dụng trong thiết kế và duy trì một CSDL Phương pháp phát hiện tự động các sự phụ thuộc dữ liệu này là một kiểu nhiệm vụ của khai phá dữ liệu [4]

1.3.2 Phát hiện sự biến đổi và độ lệch

Nhiệm vụ này tập trung vào việc khám phá hầu hết sự thay đổi có ý nghĩa dưới dạng độ đo đã biết trước hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ liệu thực và nội dung mong đợi Hai mô hình độ lệch hay dùng

là lệch theo thời gian và lệch theo nhóm Độ lệch theo thời gian là sự thay đổi có ý nghĩa của dữ liệu theo thời gian Độ lệch theo nhóm là sự khác nhau không chờ đợi giữa dữ liệu trong hai tập con dữ liệu, ở đây tính đến cả trường hợp tập con này thuộc tập con kia, nghĩa là xác định dữ liệu trong một nhóm con của đối tượng có khác đáng kể so với toàn bộ đối tượng không Theo cách này, các sai sót dữ liệu hay sai lệch so với giá trị thông thường được phát hiện [4, 18]

Trang 13

1.3.3 Phát hiện luật kết hợp

Ta xét một tập các thuộc tính nhị phân gọi là các mục Mỗi mục tương ứng với một giao dịch của khách hàng, trong đó thu thập các mục có giá trị có hoặc không phụ thuộc vào khách hàng tương ứng có mua mục đó trong giao dịch hay không Loại dữ liệu này thường được gọi là dữ liệu mục và thường được thu thập thông qua công nghệ, ví dụ mã vạch trong các hoạt động kinh doanh siêu thị

Cho một tập các giao dịch, trong đó mỗi giao dịch là một tập các mục, một luật kết hợp là một biểu thức X => Y, trong đó X và Y là tập các mục Phần trăm số giao dịch trong CSDL mà chứa các mục trong X thì cũng chứa các mục trong Y được gọi là độ tin cậy của luật Độ hỗ trợ của luật X => Y là phần trăm số giao dịch chứa cả X và Y Bài toán phát hiện luật kết hợp là tìm tất cả các luật thoả mãn độ

hỗ trợ tối thiểu và độ tin cậy tối thiểu được xác định bởi người sử dụng [14, 12, 3,

4, 7]

1.3.4 Mô hình hoá sự phụ thuộc

Công việc này bao gồm việc tìm ra một mô hình mô tả sự phụ thuộc có ý nghĩa giữa các biến, phát hiện sự phụ thuộc giữa các thuộc tính Mô hình phụ thuộc bao gồm hai mức [18, 4]: mức cấu trúc của mô hình mô tả (thường dưới dạng đồ thị) trong đó các biến phụ thuộc bộ phận vào các biến khác, mức định lượng của

mô hình mô tả mức độ phụ thuộc Những pnụ thuộc này thường được hiển thị dưới dạng theo luật “nếu- thì” (nếu tiền đề là đúng thì kết luận là đúng) Về nguyên tắc,

cả tiền đề và kết luận của luật đều có thể là sự kết hợp logic của các giá trị thuộc tính Trên thực tế, tiền đề thựờng là nhóm các giá trị thuộc tính và kết luận chỉ là một giá trị thuộc tính Hơn nữa, hệ thống có thể phát hiện các luật với nhiều thuộc tính trong phần kết luận của luật Điều này khác với luật phân lớp trong đó tất cả các luật cần phải có cùng một thuộc tính do người dùng chỉ ra trong kết luận

Quan hệ phụ thuộc cũng có thể biểu diễn dưới dạng mạng tin cậy Bayes Đó

là một đồ thị có hướng, không chu trình Các nút biểu diễn thuộc tính và trọng số của liên kết giữa hai nút biểu diễn mức độ phụ thuộc giữa các nút đó

Trang 14

1.3.5 Phân lớp

Phân lớp là cách xác định ánh xạ ( hay phân loại ) mục dữ liệu vào một trong một số lớp đã biết trước [18] Mục tiêu của thuật toán phân lớp là tìm mối quan hệ nào đó giữa các thuộc tính dự báo và thuộc tính phân lớp [4] Như thế quá trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới Trong trường hợp các kiến thức được phát hiện biểu diễn dưới dạng các luật, các luật được phát hiện có thể biểu diễn theo cách sau: “nếu các thuộc tính dự báo của một mục thoả mãn các điều kiện của các tiền đề, thì mục có lớp chỉ ra trong kết luận” Ví

dụ, một mục biểu diễn một bản ghi nhân viên trong đó các thuộc tính dự báo là tuổi, giới tính, Irình độ học vấn,.v.v., của nhân viên và thuộc tính phân lớp là trình

độ lãnh đạo của nhân viên

1.3.6 Hồi quy

Hồi quy là cách ánh xạ một mục dữ liệu vào tập các giá trị thực [18,4] Nhiệm vụ hồi quy tương tự như phân lớp Điểm khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải rời rạc Việc dự báo các giá trị số thường được làm bởi các phương pháp thống kê cổ điển, chẳng hạn như hổi quy tuyến tính Tuy nhiên, các phương pháp mô hình hoá cũng được sử dụng, ví dụ cây quyết định

ứng dụng của hồi quy rất nhiều, ví dụ như: dự đoán số lượng sinh vật phát quang hiện thời trong khu rừng bằng việc dò vi sóng bằng các cảm biến từ xa, ước lượng xác suất mà người bệnh có thể chết bằng kết quả kiểm tra các triệu chứng, dự báo nhu cầu của người dùng đối với một sản phẩm mới,.v.v

1.3.7 Tổng hợp

Tổng hợp bao gồm các phương pháp tìm một mô tả cô đọng đối với một tập con dữ liệu [18,4] Kỹ thuật tổng hợp thường được áp dụng trong việc phân tích dữ liệu thăm dò có tương quan và tự động hoá sinh báo cáo Nhiệm vụ chính là sản sinh ra các mô tả đặc trưng cho một lớp Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của tất cả hay hầu hết các mục thuộc một lớp Các mô tả đặc trưng thể hiện dưới dạng luật có dạng sau: “Nếu một mục thuộc về lớp đã chỉ trong

Trang 15

tiền đề thì mục có tất cả các thuộc tính đã nêu trong kết luận” Lưu ý rằng luật dạng này có những khác biệt so với luật phân lớp Luật phát hiện đặc trưng cho một lớp chỉ sản sinh khi các mục đã thuộc về lớp đó.

1.4 C ác kỹ th u ậ t k h ai p h á dữ liệu phổ biến

Các kỹ thuật khai phá dữ liệu là vấn đé “bất kỳ sự hoạt động nào” dùng các tiếp cận từ nhiều lĩnh vực kiến thức (như thống kê, học máy, phục hồi thông tin, và tính toán hiệu năng cao) Các phương pháp khác như mạng nơron, giải thuật di truyền, nhận dạng mẫu, phân tích dữ liệu không gian, xử lý tín hiệu, lý thuyết đồ thị, xác suất, và lập trình logic quy nạp, cây quyết định, .V V , có thể được phỏng theo và tích hợp vào các hệ thống lai để khai phá dữ liệu Các phương pháp phân tích một tập dữ liệu lớn đã lừng được phát triển theo thống kê trong nhiều nám nghiên cứu, tuy nhiên với dữ liệu lưu trữ rất lớn trong CSDL muốn khai phá thì các phương pháp này đối diện với các thử thách về mặt hiệu quả và quy mô

Trong mục nay, chúng tôi chỉ xem xét một sô' kỹ thuật quan trọng được dùng trong khai phá dữ liệu: các công cụ truy vấn, k-láng giềng gần, cây quyết định, các luật kết hợp

1.4.1 Các công cụ truy vấn

Bước đầu tiên trong khai phá một tập dữ liệu luôn phải phân tích dữ liệu thô

sử dụng các công cụ truy vấn truyền thống

Ví dụ, bằng việc áp dụng các ngôn ngữ truy vấn có cấu trúc đơn giản, như SQL, có thể thu được tri thức có ích trong CSDL Nó cho phép nhìn cùng một thông tin theo nhiều chiều, có nghĩa là các phép toán của đại số quan hệ mà cho phép một người dùng lựa chọn từ các bảng (các dòng và các cột của dữ liệu) hoặc nối thông tin liên quan từ các bảng dựa trên các trường chung

SQL chỉ có thể phát hiện dữ liệu không sâu, nhưng dễ sử dụng SQL không thực sự thuộc các kỹ thuật khai phá dữ liệu Tuy nhiên, hầu hết các thông tin quan tâm (gần 80%) có thể được lấy từ CSDL sử dụng SQL Các kỹ thuật tinh vi hơn cần

Trang 16

cho việc khai phá các thông tin quan tâm còn lại (gần 2 0%), nó gồm các tri thức ẩn

có thể là của các chiến lược quan trọng đối với các tổ chức lớn [7, 4]

1.4.2 K-Iáng giềng gần

Sự miêu tả của các bản ghi trong tập dữ liệu khi trỏ vào không gian nhiều chiều là rất có ích đối với việc phân tích dữ liệu [7] Việc dùng các miêu tả này, nội dung của vùng lân cận có thể được định nghĩa, trong đó các bản ghi gần nhau trong không gian được xem xét thuộc về lân cận (hàng xóm) của nhau Khái niệm này được dùng trong kỹ thuật học mạnh mà đơn giản, gọi là Ẩ:-láng giềng gần, trong đó

là “ thực hiện như các láng giềng của bạn làm” Ví dụ, để dự đoán cách hoạt động

bình của cách hoạt động củà các láng giềng đưa ra sự dự đoán về cách hoạt động của cá thể đó [7, 3, 4]

Kỹ thuật A'-láng giềng là một phương pháp tìm kiếm đơn giản Tuy nhiên, nó

có một số mặt hạn chế, nó giới hạn khả năng ứng dụng phổ biến của nó Ví dụ, thuật toán Ẩ:-láng giềng có độ phức tạp tính toán bậc hai (theo số các bản ghi của tập dữ liệu)

Vấn đề khác là liên quan đến số thuộc tính của bản ghi Một bản ghi gồm nhiều thuộc tính độc lập bằng một điểm trong không gian tìm kiếm có số chiểu lớn Trong các không gian có số chiều lớn, hai điểm hầu như cùng khoảng cách, vì thế

kỹ thuật Ẩ:-láng giềng không cho ta thông tin có ích nào, khi tất cả các cặp điểm là các láng giềng Cuối cùng, kỹ thuật Ấr-láng giềng không đưa ra một lý thuyết để hiểu cấu trúc của dữ liệu Hạn chế cuối cùng có thể khắc phục bằng kỹ thuật cây quyết định

1.4.3 Cây quyết định

Cây quyết định trình bày các hàm nhị phân [7, 18, 3, 4] Cho vào một bản ghi, cây quyết định cho kết quả quyết định là “yes” hoặc “no” Mỗi nút bên trong thể hiện một giá trị thử của các thuộc tính, và các nhánh được gán nhãn với các giá

Trang 17

trị có thể có Mỗi nút lá trong cây xác định giá trị nhị phân được trả về nếu nút lá

đó được tìm kiếm

Ví dụ, giả sử chúng ta dựa vào một CSDL xuất bản tạp chí bao gồm các bản ghi chứa các thuộc tính của có dạng: tuổi, thu nhập, số tiền gửi ngân hàng, và các thuộc tính nhị phân diễn tả thu nhập hàng năm của 5 loại tạp chí mà nhà xuất bản bán, cụ thể là ô tô, nhà, thể thao, âm nhạc và truyện tranh

Giả sử mục đích là dự đoán về số người sẽ mua tạp chí ô tô Thuộc tính đích

là ’’khách hàng sẽ mua tạp chí ô tô” Thuộc tính đích thường được dùng để phân hoạch CSDL thành hai lớp mẫu: lớp các mẫu khẳng định bao gồm các bản ghi trong đó thuộc tính tạp chí ô tô là đúng; và lớp các mẫu phủ định, bao gồm các bản ghi trong đó thuộc tính ô tô là sai

Giả sử rằng thuộc tính tạp chí thể thao hiện chiếm 90% các mẫu có giá trị đúng (vì vậy, 1 0% mẫu còn lại có giá trị sai), trong khi tất cả các thuộc tính khác hiện chỉ chiếm 50% đến 60% các mẫu có giá trị đúng Thì tạp chí thể thao là thuộc tính quan trọng nhất

Thuộc tính quan trọng nhất thường được dùng khi duyệt cây lần đầu tiên Với mỗi giá trị của thuộc tính này, một cạnh có giá trị này đối với thuộc tính được chọn được kết hợp với cạnh đó Theo cách này, kiểm tra thuộc tính đầu tiên tách tập dữ liệu, và mỗi kết quả là bài toán học quyết định mới trong chính nó, với số bản ghi ít hơn và thuộc tính ít hơn Có thổ phân biệt ba trường hợp cho bài toán đệ quy này

1 Tập dữ liệu hiện tại chỉ chứa các mẫu khẳng định hoặc chỉ chứa các mẫu phủ định (các bản ghi có cùng giá trị đối với thuộc tính tạp chí ô tô) Nếu tất cả các mẫu là khẳng định, thì một nút với quyết định “yes” được tạo Ngược lại, nếu tất cả các mẫu là phủ định, thì một nút với quyết định “no” được tạo

2 Tập dữ liệu hiện tại chứa cả các mẫu khẳng định và phủ định (các bản ghi có giá trị khác nhau đối với thuộc tính tạp chí ô tô)

Trang 18

(a) Nếu có các thuộc tính phía trái thì có thể chọn thuộc tính quan trọng nhất đối với tập này để tách các bản ghi còn lại.

(b) Ngược lại, có nghĩa là có nhiễu trong dữ liệu, VI các bản ghi trong tập đó

có cùng mô tả nhưng khác phân lớp

3 Tập dữ liệu hiện tại là rỗng, nghĩa là không có dấu hiệu của giá trị thuộc tính

lớp chiếm đa số tại nút cha và được trả về là quyết định

Có nhiều thuật toán hiệu quả cho quy nạp cây quyết định có độ phức tạp tính toán là 0 (nlog(/ỉ)), trong đó n là số các bản ghi trong tập dữ liệu ban đầu Thuật toán quy nạp cây quyết định Thuật toán quy nạp cây quyết định tốt đối với các tập dữ liệu lớn Một ưu điểm khác là nó đưa ra mô tà rõ ràng với quá trình quyết định của tự nhiên một cách logic Tuy nhiên, trong một số trường hợp, các cây quyết định có thổ có độ phức tạp hàm mũ theo số các thuộc tính Một cách tổng quát, bất kỳ loại trình bày nào được sử dụng là tốt đối với một số loại chức năng, và không tốt đối với cái khác

1.4.4 Các luật kết hợp

Các luật kết hợp có dạng: 98% khách hàng mua tạp chí thể thao cũng mua tạp chí ô tô Các loại mô tả này cung cấp rõ ràng thuộc tính khách hàng mà có thể dùng cho các quyết định tiếp thị Một cách hình thức, một luật kết hợp được viết là x=> Y I (c,s) Ở đây, X và Y là các tập thuộc tính nhị phân gọi là các tập mục,

X nY = 0 ; c là độ tin cậy của luật; và s là độ hỗ trợ của luật Độ tin cậy được đo bằng độ bén luật, đó là, phần trăm của các bản ghi với tất cả các thuộc tính trong Y

có tất cả các thuộc tính trong X u Y với giá trị True

các sản phẩm được mua trong siêu thị như “sữa, bơ, bánh mỳ, nước ép trái cây”, thì luật kết hợp (Bánh mỳ, sữa}=> {nước ép trái cây} I (98, 70) có nghĩa 70% số bản ghi chứa bánh mỳ, sữa và nước ép trái cây và 98% số bản ghi chứa nước trái cây cũng chứa bánh mỳ và sữa

Ị ' đ ạ : h ọ c Õ ú Ó c g ; A H À N Ộ I ;

I TRUi'iGTÀM THÔMG T i î i T h J V Ỉ Ẻ M I

I M / - L o / j j f - '

Trang 19

Khai phá luật kết hỢf) trong CSDL đã thu hút rất nhiều sự chú ý của cộng

vượt quá độ hỗ trợ tối thiểu và độ tin cậy tối thiểu do người dùng xác định

Bài toán này được tách thành hai bước [12, 13, 14, 7, 9]:

1 Sinh ra tất cả các tập mục mà có độ hỗ trợ lớn hơn ngưỡng s Các tập mục như vậy được gọi là các tập mục phổ biến

2 Với mỗi tập mục phổ biến, sinh ra tất cả các luật mà có độ tin cậy lớnhơn ngưỡng c

Bài toán thứ hai có thể được giải quyết như sau: đối với một tập mục lớn X

và với một tập con Y của X (Y e X), xét tập X’ = X \Y gồm các thành phần của X

mà không thuộc Y Luật X’ => Y được sinh ra nếu độ hỗ trợ của X đã tách bởi độ

hỗ trợ của X’ là lớn hơn c Độ hỗ trợ của tập mục X là số bản ghi trong tập dữ liệu với tất cả các thuộc tính trong X có giá trị True

Việc sinh ra các luật kết hợp bằng việc sử dụng tất cả các tập mục phổ biến

là khá đơn giản Tuy-nhiên, việc phát hiện tất cả các tập mục lớn cũng như giá trị đối với các độ hỗ trợ của chúng là vấn đề chính nếu các yếu tố của tập các mục là rất lớn

Đặc trưng của siêu thị là có hàng nghìn mục Số các mục khác biệt là 2m ,

mất rất nhiều thời gian tính toán

Để giảm không gian tìm kiếm của các thuật toán tìm các luật kết hợp khai thác các thuộc tính dưới đây của các tập mục phổ biến:

- Một tập con của tập mục phổ biến cũng phổ biến

- Ngược lại, một mở rộng của tập mục không phổ biến là không phổ biến

Các thuộc tính được dùng trong các thuật toán cơ bản đối với việc tìm tất cả các tập mục phổ biến, lược đồ chính của nó có thể được tóm tắt như sau [15, 7]:

Trang 20

1 Kiểm tra độ hỗ trợ của tập mục có kích cỡ là 1, gọi là 1-itemset, bằng việc quét CSDL Loại bỏ các 1-itemset có độ hỗ trợ nhỏ hơn s.

2 Mở rộng các 1-itemset lớn thành các 2-itemset phổ biến bằng việc mỗi

mục ứng cử với hai thành phần Kiểm tra độ hỗ trợ của các ứng cử viên

3 Lặp lại các bước trên; ở bước k, các (k-l)-itemset phổ biến đã tìm ở bước trước được mở rộng thành k-itemset và đã kiểm tra độ hỗ trợ tối thiểu

chủ yếu trong cách sinh các tập mục ứng cử viên và cách tính các độ hỗ trợ cho các tập mục ứng cử viên Ngoài ra, nhiều loại luật kết hợp khác đã được giới thiệu: tổng quát hoá các luật kết hợp, nồ thu nhận sự xuất hiện của các phân loại (là các cấp bậc) trên các mục; các luật kết hợp phủ định là các luật có dạng “60% khách hàng mua khoai tây rán, không mua trái cây”

Trang 21

C H Ư Ơ N G 2 P H Á T H IỆN L U Ậ T K Ế T H Ợ P T R O N G• • •

C ơ SỞ D ữ L IỆ U L Ớ N

2.1 Phát biểu bài toán phát hiện luật kết hợp

Cho I = {i„ i2, u là tập m phần tử phân biệt gọi là các mục Cho D là tập các giao dịch, trong đó mỗi giao dịch T là một tập các mục mà T ç I, kết hợp với mỗi giao dịch có một định danh duy nhất gọi là TID Chúng ta nói rằng một giao dịch T chứa X ( tập một số mục thuộc I ) nếu X C T Một luật kết hợp có dạng X => Y, trong đó X c I , Y c I, và X n Y = 0 , Luật X => Y nằm trong tập giao dịch D với độ tin cậy c, nếu c% số các giao dịch thuộc D chứa X cũng chứa Y Luật X => Y có độ hỗ trợ s trong tập giao dịch D nếu s% số các giao dịch trong D chứa X u Y

Cho một tập các giao dịch D, bài toán phát hiện luật kết hợp là sinh ra tất cả các luật kết hợp mà có độ hỗ trợ và độ tin cậy lớn hơn độ hỗ trợ tối thiểu và độ tin cậy tối thiểu tương ứng do người dùng xác định

Vấn đẽ khai phá luật kết hợp có thể được phân thành hai bài toán con [12,

13, 14,7,9]:

1 Tim tất cả các tập mục mà độ hỗ trợ của nó lớn hơn độ hỗ trợ tối thiểu mà người dùng xác định Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập mục phổ biến

2 Dùng các tập mục phổ biến để sinh ra các luật mong muốn Ý tưởng chung là nếu nói ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định nếu luật AB => CD giữ lại bởi việc tính tỷ lệ conf = sup(ABCD)/sup(AB) Nếu conf

> minconf, thì luật được giữ lại (Luật này sẽ thoả mãn độ hỗ trợ tối thiểu bởi vì ABCD là phổ biến)

- Định nghĩa tập phổ biến: X là tập phổ biến nếu: support(X) > minsup(X)

Trang 22

+ X| Ç x 2 thì minsup(X!) < minsup(X2).

+ Nếu x 2 phổ biến và X| Ç x 2 thì X, cũng phổ biến

Ví dụ: Cho giao dịch I = {Bánh mỳ, Bơ, Trứng, Sữa}, T = {1, 2, 3, 4 )

Trang 23

Nếu cho độ tin cậy tối thiểu là 60%, ta có

tương ứng

Thoả mãn minsup > 60% ?

2.2 Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân

2.2.1 Các định nghĩa hình thức trên hệ thông tin nhị phân

Trong mục này, chúng tôi nêu một số định nghĩa hình thức như hệ thông tin nhị phân, các ánh xạ thông tin nhị phân, các tập chỉ báo nhị phân, các luật kết hợp phổ biến nhị phân, vectơ chỉ báo nhị phân [16, 2 0, 1 1, 1, 2 , 2 1]

/ Hệ thông tin nhị phân

Cho o = {0 |, .,0,,} là một tập hữu hạn n đối tượng D = { d |, .,d„,} là một

(O, D, B, x) trong đó X là ánh xạ X : o X D -» B, x(o, d) = 1 nếu đối tượng 0 có bộ

Trang 24

2 Các ánh xạ t h ô n g tin nhị phân

Cho hệ thông tin nhị phân SB = (O, D, B, x). Cho P(O) là tập các tập con

được định nghĩa như sau:

P b : P(D) - > P(0) và XB: P(O) - > P(D)

Cho s c D , pB(S) = Ịo e o I Vd eS, x ( o , d) = 1}

3 Tập c h ỉ báo p h ổ biên n h ị phàn

Cho một hộ thông tin nhị phân SB = (O D B, x) và một ngưỡng u e[o, 1]

4 Các lu ậ t kết hợp p h ổ biến n h ị phân và hệ sô tin cậy

Cho hệ thông tin nhị phân SB = (O, D, B, x) và một ngưỡng o e[0, 1] Cho L

là một phần tử của LB, X và Y là các tập con của L trong đó :

L = X u Y , x * {}, Y * { Ị v à Xn Y * {}.

Chúng xác định các lụật kết hợp nhị phân giữa tập chỉ báo X và tập chỉ báo

Y là một ánh xạ thông tin: X —»Y Hệ số tin cậy của luật này được biểu diễn là :

Trang 25

Chúng ta biểu diễn RBp là tập tất cả các luật kết hợp phổ biến nhị phân, nó được phát hiện từ SB.

Trong đó: CFB(r) >= p, Vr e RB p

5 Các vectơ c h ỉ báo nhị phân và các phép toán

báo

a Vecto c h ỉ báo n h ị phân

vectơ chỉ báo nhị phân của SB Nếu card(X) = 1, X là bộ chỉ báo của SB và Xj= x(o, X)

b Tích véctơ c h ỉ báo nhị phân

c Độ hỗ trợ các vectơ c h ỉ báo n h ị phân

Trang 26

Dễ thấy rằng: Card(supB(vB(X|))) = cardCpgíX)))

d Tính card(pB(S))

Cho S={S|, .,skỊ là tập con của D trong đó Sj là bộ chỉ báo của SB, j = 1 ,

k Mỗi Sj tương ứng với vectơ chỉ báo nhị phân VB( {Sj Ị) Các yếu tố của Pb(S) được tính bằng:

Chúng ta biểu diễn VSBh là tập con của VSB chứa chỉ vectơ VB(X) trong đó XcD và card(X) = h, h là một ngưỡng cho trước

2.2.2 Thuật toán phát hiện tập chỉ báo và luật kết hợp nhị phân

Trong mục này, chúng tôi nêu một thuật toán được phát triển từ ý tưởng của thuật toán Apriori-Tid để phát hiện các tập chỉ báo nhị phân phổ biến và các luật kết hợp nhị phân lừ hệ thông tin nhị phân được đề xuất trong tài liệu [16] Thuật toán này làm việc với các bít trong bộ nhớ và không làm việc với CSDL trên đĩa, vì thế có thể cải tiến tốc độ quá trình phát hiện luật Cho một CSDL và hai ngưỡng MINSUP, MINCONF đối với độ hỗ trợ tối thiểu và độ tin cậy tối thiểu của luật kết hợp Thuật toán Apriori-Tid QÓ hai pha:

Pha 2: xây dựng các luật kết hợp dựa trên một ngưỡng MINCONF cho trước

trong đó u là MINSƯP, và p là MINCONF

1 Phát hiện tập chỉ báo phổ biến nhị phản

1 Traloi = {};

Cho X ị d D, độ hỗ trợ của VB(X|) biểu diễn là supB(vB(X|)) được định nghĩa

l à :

Trang 27

2 For (i=l;i <= m;i++) do

quả như sau:

10 end;

11 Traloi = LBk;

12 Return Traloi;

Trang 28

2 Phát hiện các luật phô biến nhị phân

10 end;

11 Traloi=RBP;

// SaveRule(X—»Y, RBp) là hàm để ghi luật kết hợp nhị phân vào RBp

Bảng 2.2: Thuật toán phát hiện luật kết hợp nhị phân

Trang 30

Cho (X,Y) G Lb ixLb I và X <> Y, T = XuY, giá trị của f(X,Y) là

card(supB(vB(T)))

Chọn T = X uY , ta có card(supB(vB(X) 0 B VB(Y))) = card(supB(vB(T)) >=

MINSUP*card(0) và card(T) = 2 Khi tính supB(vB(T)), T=XuY, ta sử dụng VB(X)

card(supB(vB(T))) >=MINSUPP*card(0), card(T) =3

Khi tính card(supB(vB(T))), T = XuY, ta sử dụng VB(X) đã được ghi trong

một vectơ chỉ báo VB( {d2, di, d5 Ị ) = (0, 1, 1, 0)

4 Tạo Lb<4 từ Lịị j

Trang 31

2.3 Phát hiện luật kết hợp dựa trên hệ thông tin mờ

2.3.1 Các định nghĩa hình thức trên hệ thông tin mờ

Trong mục này, chúng ta nêu một số định nghĩa hình thức như hệ thông tin

mờ, các ánh xạ thông tin mờ, các tập chỉ báo phổ biến mờ, các luật kết hợp mờ và các vectơ chỉ báo mờ [16]

1 Hệ thông tin mờ

Cho 0 = (0 |, ,o„Ị là một tập hữu hạn có n đối tượng và D ={d|, d„,} là

là Sp = (0,D,F,|i) Ánh xạ Ị.I được định nghĩa là |i: OxD —> F

Trong đó, |i(o,d) e F biểu diễn mức độ của đối tượng o có chỉ báo d

Trang 32

3 Các tập chỉ báo phổ biến mờ

Cho ma trận thông tin mờ Sp = (0,D,F, |i) và một ngưỡng u eT Cho S c D ,

4 Các luật kết hợp mờ và hệ sô tin cậy

Ta xác định luật kết hợp giữa các tập chỉ báo X và Y và được biểu thị là X—>

Y Hệ số tin cậy của luật này được tính bằng:

Ta biểu thị RFp là tập tất các luật kết hợp lớn mờ r có đã được phát hiện từ

Sp và CFp(r) >=ß

5 Các vectơ chỉ báo mờ và các phép toán trên các vectơ đó

a Các vectơ chỉ báo mờ

Cho X là một tập con của D, chúng ta xác định một vectơ chỉ báo mờ Vp(X)

để trình diễn X Một vectơ chỉ báo mờ Vp(X) = (X j, .,Xn) là một vectơ với n thành phần, mỗi thành phần X| chiếm một giá trị trong F Cho VSp là một tập gồm tất cả

Trang 33

b Tích vectơmờ

Cho Vp(dị) = (dn , ,d|„) và vF(d2)=(d2i, • • Md2n) là các phần tử của VSF

c Độ hỗ trợ của vecíơ chỉ báo mờ

Cho v(d() = (du , d|n) là một phần tử của VSF và một ngưỡng cho trước a

G T Một độ hỗ trợ của vectơ mờ v(dị) được định nghĩa là:

Với tất cả j = 1, -,n

d Tính các yếu tố của pF(S)

D, với j =1, ,k Mỗi Sj tưoíng đương với một vectơ v(Sj) của VF Các thành phần của Pp(S) được tính bằng:

Giả sử chúng ta có một bảng, trong đó mỗi dòng là một giao dịch và mỗi cột

là một mục Đặc trưng của giao dịch này được trình bày trong bảng 2.3

Trang 34

—>{0,1}, trong đó x(°>d) =1 nếu giao dịch o có chỉ mục d Từ bảng 2.3, chúng ta xây dựng X như trong bảng 2.4 Với ngưỡng u = 0.6 (60%), tập {dj,d2,d3} và {d4,d5,d6} là các tập chỉ báo phổ biến nhị phân và các luật kết hợp nhị phân như {di,d2} -> {d3}.

Bảng 2.4: Hệ thông tin nhị phân

Ma trận thông tin nhị phân, mỗi x(°-d) bằng 1 hoặc 0 Trình diễn này không xem xét số lượng các chỉ mục mua trong giao dịch vì nếu giao dịch Oị có 35 chỉ mục của d3 và giao dịch 05 chỉ có một chỉ mục của d3 nhưng x(Oi,d3) = x(o5,d3) = 1 Nếu d3 là một chỉ mục mà có giá cao, việc bán hàng của một số lượng nhỏ của d3

và số lượng lớn của d3 có sự khác nhau lớn

Chúng tôi dùng các tập mờ MANY, AVERAGE, FEW đối với mỗi chỉ mục

mờ Các hàm thành viên của các tập mờ này được thích hợp với chỉ mục d làM^many » P^AVERAGE’ M-dFE\v • Cho HdlMANY V • •» M-dnMANY là n hàm thành viên của n tập

Trang 35

mờ MANY đã thích hợp với n chỉ mục Chúng ta mờ hoá bảng thông tin trong bảng 2.3 và kết quả được trình bày trong bảng 2.5.

Với u = 0.5 (50%); X = 0.6 (60%), ta có thể phát hiện từ ma trận thông tin

có nghĩa là luật kết hợp mờ {dị, d2} —> {d3}, CFf của luật này là bằng 1 hay 100%

Có nghĩa là “Có 100% khách hàng mua MANY {d„ d2}, mua MANY Ịd ,)”

2.3.3 Thuật toán phát hiện tập chỉ báo và các luật kết hợp mờ

Cho ma trận thông tiĩi mờ Sp = (0,D,F,fi) và các ngưỡng u, Pe [0,1] trong

đó u là MINSUPP và p là MINCONF Cho Lp là tập của tất cả các tập chỉ báo mờ phổ biến của SF, cho LFk là tập con của Lp, nếu X e L Fk, card(X) = k và RFp là tập tất cả các luật kết hợp mờ có độ tin cậy lớn hơn ngưỡng cho trước (5 Thuật toán để phát hiện các tập chỉ báo mờ và luật kết hợp mờ được đề xuất trong tài liệu [16] được trình bày như dưới đây

1 Phát hiện tập chỉ báo phổ biến mờ

Trang 36

6 R eturn Traloi;

Bảng 2.6: Thuật toán phát hiện tập chỉ báo mờ

a Sinh LFk.Ị

1 • Lp, 1= í )»

2 For (i=l; i <= m; i++) do

quả như sau:

Ngày đăng: 25/03/2015, 10:32

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w