Tiểu luận môn Thuật Toán và Phương Pháp Giải Quyết Vấn Đề THUẬT TOÁN APRIORI VÀ ÁP DỤNG TÌM LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU SIÊU THỊ

Khai phá dữ liệu bao gồm rất nhiều những kỹ thuật phân tích dữ liệu bên trong như:luật kết hợp, phân loại dữ liệu, gom nhóm dữ liệu, lập mô hình, dự báo…nhưng quantrọng nhất vẫn là phươn

Trang 1

Giáo viên hướng dẫn:PGS.TS Đỗ Văn NhơnHọc viên

thực hiện:Vũ Xuân VinhMã số học viên:CH1301117Lớp:Cao học khóa 8

LỜI

MỞ

ĐẦU

Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các thiết bị

điện tử không ngừng tăng lên Sự tích lũy dữ liệu này xảy ra với một tốc độ chóng mặt

TRONG CƠ SỞ DỮ LIỆU SIÊU THỊBÀI THU HOẠCH MÔN THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT

Trang 2

Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm vàtheo đó số lượng cũng như kích cỡ của các cơ sở dữ liệu cũng tăng lên một cách nhanhchóng Nhu cầu được đặt ra là liệu chúng ta có thể khai thác được gì từ lượng dữ liệukhổng lồ và tưởng chừng như vô nghĩa đó? Phương pháp khai phá dữ liệu (data mining)

ra đời như là một hướng giải pháp hữu hiệu cho câu hỏi trên

Khai phá dữ liệu bao gồm rất nhiều những kỹ thuật phân tích dữ liệu bên trong như:luật kết hợp, phân loại dữ liệu, gom nhóm dữ liệu, lập mô hình, dự báo…nhưng quantrọng nhất vẫn là phương pháp tìm luật kết hợp để tạo ra các tri thức hữu dụng Ví dụnhư chúng ta có thể dự đoán được những sản phẩm nào sẽ được mua cùng nhau trongmột thời gian cụ thể đối với hệ thống siêu thị hay dự đoán thị trường đối với lĩnh vựckinh doanh chứng khoán…

Trong phạm vi bài tiểu luận này, em sẽ trình bày một cách tổng quát về cơ sở lýthuyết của phương pháp tìm luật kết hợp, ứng dụng và cải tiến thuật toán Apriori và đồngthời áp dụng những lý thuyết đó để xây dựng nên một ứng dụng nhỏ để minh họa chophương pháp tìm luật kết hợp đó

Qua đây, em cũng xin được gửi lời cảm ơn chân thành đến giảng viên Đỗ Văn Nhơn,

người không những tận tâm truyền đạt những kiến thức nền tảng cơ bản về môn học màcòn giúp em có được cơ sở vững chắc để phục vụ cho việc nghiên cứu sau này

Trang 3

MỤC LỤC HÌNH ẢNH

Hình 1: Quá trình phát hiện tri thức từ cơ sở dữ liệu 6

Hình 2: Minh họa các bước chạy thuật toán Apriori 17

Hình 3: Sơ đồ so sánh Apriori và AprioriTid 21

Hình 4: Sơ đồ mối quan hệ giữa các bảng 22

Hình 5: Giao diện chương trình tìm luật kết hợp trong siêu thị 24

Hình 6: Giao diện kết quả chương trình tìm luật kết hợp trong siêu thị 25

Hình 7: File excel cho hóa đơn 26

Hình 8: File excel cho chi tiết hàng hóa 26

Trang 4

MỤC LỤC

LỜI MỞ ĐẦU 1

MỤC LỤC HÌNH ẢNH 2

MỤC LỤC 3

CHƯƠNG 1 TỔNG QUAN 4

1.1 Giới thiệu 4

1.2 Mục đích và nhiệm vụ của đề tài 4

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 5

2.1 Tổng quan về khai phá dữ liệu 5

2.1.1 Khái niệm 5

2.1.2 Quá trình khám phá tri thức trong CSDL 5

2.1.3 Các kỹ thuật khai phá dữ liệu 7

2.2 Luật kết hợp trong khai phá dữ liệu 9

2.2.1 Khai phá luật kết hợp 9

2.2.2 Lý thuyết về luật kết hợp 11

2.3 Thuật toán tìm luật kết hợp Apriori 16

2.3.1 Mô tả thuật toán: 16

2.3.2 Minh họa thuật toán Apriori 17

2.3.3 Ứng dụng thực tế thuật toán Apiori vào hệ thống siêu thị: 18

2.3.4 Ưu điểm và khuyết điểm của thuật toán Apriori: 18

3.3.5 Cải tiến thuật toán: 19

CHƯƠNG 3 CÀI ĐẶT CHƯƠNG TRÌNH VÀ THỬ NGHIỆM 22

3.1 Phát biểu bài toán: 22

3.2 Phân tích bài toán 24

3.3 Các bảng cơ sở dữ liệu 24

3.4 Giao diện chương trình 26

CHƯƠNG 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 30

TÀI LIỆU THAM KHẢO 31

CHƯƠNG 1 TỔNG QUAN

Trang 5

1.1 Giới thiệu

Trong những năm gần đây, với sự phát triển công nghệ thông tin chúng ta thấy mộtthực tế là con người có trong tay một lượng dữ liệu rất lớn nhưng với những kỹ thuật khaithác cũ như SQL dường như đã không còn phù hợp nữa, nó dần nhường chỗ cho những

kỹ thuật tiên tiến hơn mà cụ thể là khai phá dữ liệu (data mining) Khai phá dữ liệu đã trởthành một trong những lĩnh vực chính được các nhà khoa học quan tâm nghiên cứu bởikhả năng áp dụng cao trong thực tiễn cuộc sống Nó được áp dụng rộng rãi trong nhiềulĩnh vực như: tài chính, thị trường chứng khoán, thương mại, giáo dục, y tế… với nhiềuhướng tiếp cận như: phân lớp/ dự đoán, phân cụm, tìm luật kết hợp …

Trong phạm vi tiểu luận này, em xin trình bày vấn đề tìm luật kết hợp trong cơ sở dữliệu siêu thị dựa trên thuật toán Apriori, cách đánh giá và cải thiện cho thuật toán nàycũng như thiết kế và cài đặt một ứng dụng nhỏ để biểu diễn cho thuật toán

1.2 Mục đích và nhiệm vụ của đề tài

Nghiên cứu khai phá dữ liệu và ứng dụng luật kết hợp (Associatin Rule) để hỗ trợ choviệc ra quyết định phục vụ cho công tác quản lý kho hàng của siêu thị dựa trên luật kếthợp

Nghiên cứu thuật toán Apriori và tìm cách cải thiện thuật toán nhằm xây dựng ứngdụng đơn giản để khai phá luật kết hợp

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Trang 6

2.1 Tổng quan về khai phá dữ liệu

ra các giá trị tiềm ẩn từ kho dữ liệu

Hiện nay khai phá dữ liệu được ứng dụng vào rất nhiều lĩnh vực cụ thể khác nhaunhư: y tế, dầu khí, khí tượng, kinh doanh, y học, tài chính và thị trường chứng khoán, bảohiểm

2.1.2 Quá trình khám phá tri thức trong CSDL

Khám phá tri thức trong CSDL (KDD) là lĩnh vực liên quan đến các ngành như: thống

kê, học máy, CSDL, thuật toán, trực quan hóa dữ liệu, tính toán song song và hiệu năngcao …

Mục đích của quá trình khám phá tri thức là rút ra tri thức từ dữ liêu trong CSDL lớn.Quá trình KDD là quá trình gồm nhiều giai đoạn và lặp đi lặp lại, mà trong đó sự lặp lại

có thể xuất hiện ở bất cứ bước nào

Quá trình đó gồm các bước như sau:

a) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu không thích

hợp

Trang 7

b) Làm giàu dữ liệu (data enrichment): tích hợp dữ liệu từ các nguồn khác nhau

như: CSDL, Kho dữ liệu, file text

c) Chọn lọc dữ liệu (data selection): chọn những dữ liệu liên quan trực tiếp đến

nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu

d) Chuyển đổi dữ liệu (data transformation): dữ liệu sẽ được chuyển đổi về dạng

phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp

e) Khai phá dữ liệu (data mining): là giai đoạn quan trọng nhất, trong đó các

phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu

f) Đánh giá mẫu (pattern evaluation): đánh giá sự hữu ích của các mẫu biểu diễn tri

thức dựa vào một số phép đo

g) Biểu diễn dữ liệu (knowlegde presentation): sử dụng các kỹ thuật trình diễn và

trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng

Hình 1 – Quá trình phát hiện tri thức từ cơ sở dữ liệu(Nguồn: Internet)

Trang 8

2.1.3 Các kỹ thuật khai phá dữ liệu

a) Phương pháp suy diễn và qui nạp: Một cơ sở dữ liệu là một kho thông tin nhưng

các thông tin quan trọng hơn cũng có thể được suy diễn từ kho thông tin đó Cóhai kỹ thuật chính để thực hiện việc này là suy diễn và quy nạp

 Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông

tin trong cơ sở dữ liệu Phương pháp suy diễn dựa trên các sự kiện chính xác

để suy ra các tri thức mới từ các thông tin cũ Mẫu chiết xuất được bằng cách

sử dụng phương pháp này thường là các luật suy diễn

 Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh ra

từ cơ sở dữ liệu Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ khôngphải bắt đầu với các tri thức đã biết trước Các thông tin mà phương pháp này đemlại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữliệu Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL Trongkhai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật

b) Phương pháp cây quyết định và luật:

 Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm

phân các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây đượcgán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của cácthuộc tính, các lá mô tả các lớp khác nhau Các đối tượng được phân lớp theocác đường đi trên cây, qua các cạnh tương ứng với các giá trị, thuộc tính củađối tượng tới lá

 Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về

mặt thống kê Các luật có dạng Nếu P thì Q, với P là mệnh đề đúng với mộtphần trong CSDL, Q là mệnh đề dự đoán

Cây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hình suydiễn khá dễ hiểu đối với người sử dụng Tuy nhiên, giới hạn của nó là mô tả

Trang 9

cây và luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn

về cả độ chính xác của mô hình

c) Phương pháp mạng Neural:

Mạng Neuron là tiếp cận tính toán mới liên quan tới việc phát triển cấu trúc toán học

và khả năng học Các phương pháp là kết quả của việc nghiên cứu mô hình học của hệthống thần kinh con người

Mạng Neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và

có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phức tạp màcon người cũng như các kỹ thuật máy tính khác không thể phát hiện được Khi đề cập đếnkhai thác dữ liệu, người ta thường đề cập nhiều đến mạng Neuron Tuy mạng Neuron cómột số hạn chế gây khó khăn trong việc áp dụng và phát triển nhưng nó cũng có những

ưu điểm đáng kể

d) Phương pháp tìm luật kết hợp:

Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệutrong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìmđược Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thànhphần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của Btrong cùng bản ghi đó: A => B

Việc phát triển một thuật toán phải phát hiện luật này trong cơ sở dữ liệu lớn là khôngkhó Tuy nhiên, vấn đề là ở chỗ có thể có rất nhiều luật kiểu này hoặc là ta chỉ biết mộttập nhỏ dữ liệu trong cơ sở dữ liệu lớn thoả mãn tiền đề của luật Ví dụ chỉ có số ít ngườimua sách tiếng anh mà mua thêm đĩa CD Số lượng các luật kết hợp trong một số cơ sở

dữ liệu lớn gần như vô hạn Do vậy thuật toán sẽ không thể phát hiện hết các luật vàkhông phân biệt được luật nào là thông tin thực sự có giá trị và thú vị

Trang 10

Vậy chúng ta đặt ra câu hỏi là luật kết hợp nào là thực sự có giá trị? Chẳng hạn ta cóluật: Âm nhạc, ngoại ngữ, thể thao => CD, nghĩa là những người mua sách âm nhạc,ngoại ngữ, thể thao thì cũng mua đĩa CD Lúc đó ta quan tâm đến số lượng trường hơpkhách hàng thoả mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ cho luật này Độ hỗ trợcho luật chính là phần trăm số bản ghi có cả sách âm nhạc, ngoại ngữ, thể thao và đĩa CDhay tất cả những người thích cả ba loại sách trên.

Tuy nhiên giá trị hỗ trợ là không đủ Có thể có trường hợp ta có một nhóm tương đốinhững người đọc cả ba loại sách trên nhưng lại có một nhóm với lượng lớn hơn những ngườithích sách thể thao, âm nhạc, ngoại ngữ mà không thích mua đĩa CD Trong trường hợp nàytính kết hợp rất yếu mặc dù độ hỗ trợ tương đối cao Như vậy chúng ta cần thêm một độ đothứ hai đó là độ tin cậy (Confidence) Độ tin cậy là phần trăm các bản ghi có đĩa CD trong sốcác bản ghi có sách âm nhạc, thể thao, ngoại ngữ

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật dạng X => Bsao cho tần số của luật không nhỏ hơn ngưỡng Minsup cho trước và độ tin cậy của luậtkhông nhỏ hơn ngưỡng Minconfi cho trước Từ một cơ sở dữ liệu ta có thể tìm được hàngnghìn và thậm chí hàng trăm nghìn các luật kết hợp

2.2 Luật kết hợp trong khai phá dữ liệu

2.2.1 Khai phá luật kết hợp

Được giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận được rất nhiều sựquan tâm của nhiều nhà nghiên cứu Ngày nay việc khai thác các luật như thế vẫn là mộttrong những phương pháp khai thác mẫu phổ biến nhất trong việc khám phá tri thức vàkhai phá dữ liệu

Mục đích chính của khai phá dữ liệu là các tri thức được kết xuất ra sẽ được sử dụngtrong dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu Trong hoạtđộng sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rấtthích có được các thông tin mang tính thông kê như: “90% phụ nữ có xe máy màu đỏ thì

Trang 11

dùng nước hoa hiệu Chanel” hoặc “70% khách hàng mua bia sẽ mua thêm nước ngọt”.Những thông tin như vậy rất hữu ích trong việc định hướng kinh doanh Vậy vấn đề đặt

ra là liệu có tìm được các luật như vậy bằng các công cụ khai phá dữ liệu hay không ?Điều đó hoàn toàn có thể, đó chính là vấn đề khai phá luật kết hợp

Giả sử ta có một CSDL D Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiệncủa tập các mục S nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tậpnhững mục U cũng trong những bản ghi đó Mỗi luật kết hợp được đặc trưng bởi một cặp

tỉ lệ Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả S và U Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợ  và độtin cậy  Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn 

và  tương ứng Giả thiết D là CSDL giao dịch và với  =40%,  = 90% Vấn đề pháthiện luật kết hợp được thực hiện như sau: Liệt kê, đếm tất cả những quy luật chỉ ra sựxuất hiện một số các mục sẽ kéo theo một số mục khác Chỉ xét những quy luật mà tỉ lệ

hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90% Ta hình dung rằng, một công ty bán hàngqua mạng, các khách hàng được yêu cầu điền vào các mẫu bán hàng để công ty có đượcmột CSDL về các yêu cầu của khách hàng Giả sử công ty quan tâm đến mối quan hệ

“tuổi, giới tính, nghề nghiệp và sản phẩm” Khi đó có thể có rất nhiều câu hỏi tương ứngvới luật trên Ví dụ trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua loạimặt hàng gì, như là áo dài là nhiều nhất, thỏa mãn một ngưỡng nào đó

2.2.2 Lý thuyết về luật kết hợp

A Một số khái niệm cơ bản

Kí hiệu I = {i1, i2, …, im} là tập các thuộc tính được gọi là các mục dữ liệu D là cơ

sở dữ liệu của tập các giao tác, mỗi giao tác T là một tập mục con của tập mục I, Ti I.Mỗi giao tác Ti có một định danh duy nhất gọi là TID (Transaction Identification) X={i1,i2,…,ik} I được gọi là một tập mục hay một tập k-mục nếu nó chứa k mục Một giao

Trang 12

tác T được gọi là chứa tập mục X chỉ khi X  T Mỗi giao tác là một bộ <TID, I>, I làtập mục

Luật kết hợp là một mối liên hệ điều kiện giữa hai tập các hạng mục dữ liệu X và Y

theo dạng sau: Nếu X thì Y, và ký hiệu là X  Y Ta có luật kết hợp X  Y, nếu X  I,

Y  I và X  Y =  Chúng phụ thuộc vào 2 đại lượng cơ bản là độ hỗ trợ (S) và độ tin

cậy (C).

a) Độ hỗ trợ (Support): Độ hỗ trợ của một luật r = X  Y là tỉ số phần trăm của

số giao tác trong D có chứa X Y Kí hiệu Supp(r).

Supp(r) thể hiện phạm vi ảnh hưởng của luật trên toàn bộ cơ sở dữ liệu Ngưỡng

nhỏ nhất của độ hỗ trợ gọi là minsupp

Supp(r)= Card Card(X(D)Y)(%) 0  Supp(r)  1

Với:

Card(X Y): tập các giao tác trên CSDL có chứa cả vế trái lẫn vế phải Card(D): tập tất cả các dòng trên CSDL.

b)Độ tin cậy (Confidence): Độ tin cậy của một luật r = X  Y là tỉ số phần trăm

của số giao tác trong D chứa X Y với số giao tác trong D có chứa tập mục X Kí hiệu Conf(r).

Conf(r) thể hiện tính chính xác, tính đúng đắn hay khả năng tin cậy của luật trong

phạm vi ảnh hưởng của luật (được xác định bởi Supp(r)) Ngưỡng nhỏ nhất của độ tin cậy

gọi là minconf

) (

X Card

Y X Card 

0  Conf(r)  1.

Với:

Trang 13

Card(X Y): tập các giao tác trên CSDL có chứa cả vế trái lẫn vế phải Card(X): tổng số dòng chứa vế trái của luật trên CSDL.

c)Large ItemSet: Tập các hạng mục dữ liệu (ItemSet) có độ hỗ trợ (Supp) lớn

hơn hay bằng giá trị của ngưỡng nhỏ nhất (minsupp).

d)Small ItemSet : Tập các hạng mục dữ liệu (ItemSet) có độ hỗ trợ (Supp) nhỏ

hơn giá trị của ngưỡng nhỏ nhất (minsupp).

 Tóm lại: Với L là một Large ItemSet, A là một tập con khác rỗng của L, nếu tỉ lệ

phần trăm giữa Support của L so với Support của A lớn hơn hay bằng độ tin cậy nhỏ nhất

(minconf) thì ta có luật kết hợp A  (L\A)

B Một số tính chất liên quan đến các hạng mục phổ biến

 Tập mục phỗ biến

Tính chất 1 (Độ hỗ trợ của tập con):

Với A và B là tập các mục, nếu A  B thì sup(A)  sup (B)

Điều này rõ ràng vì tất cả các giao tác của D hỗ trợ B thì cũng hỗ trợ A

Tính chất 2:

Một tập chứa một tập không phổ biến thì cũng là tập không phổ biến

Nếu một mục trong B không có độ hỗ trợ tối thiểu trên D nghĩa là sup (B) < minsupthì một tập con A của B sẽ không phải là một tập phổ biến vì support(B)  support(A) <minsup (theo tính chất 1)

Tính chất 3: các tập con của tập phổ biến cũng là tập phổ biến

Nếu mục B là mục phổ biến trên D, nghĩa là support (B)  minsup thì mọi tập con Acủa B là tập phổ biến trên D vì support(A)  support(B)> minsup.Một số hướng tiếp cậntrong khai phá luật kết hợp

 Các tính chất của luật kết hợp:

Tính chất 1:(không hợp các luật kết hợp)

Trang 14

Nếu có X  Z và Y Z trong D thì không nhất thiết X  Y  Z là đúng

Xét trường hợp X  Z =  và các tác vụ trong D hỗ trợ Z nếu và chỉ nếu chúng hỗtrợ mỗi X hoặc Y, khi đó luật X  Y  Z có độ hỗ trợ 0% s

Tương tự: X  Y  X  Z  X  Y  Z

Tính chất 2: không tách luật

Nếu XY X thì X Z và Y Z chưa chắc xảy ra

Ví dụ trường hợp Z có mặt trong một giao tác chỉ khi cả hai X và Y cũng có mặt, tức

là sup(XY)=sup(Z), nếu độ hỗ trợ của X và Y đủ lớn hơn sup(XY), tức làsup(X)>sup(XY) và sup(Y)>sup(XY) thì hai luật riêng biệt sẽ không đủ độ tin cậy Tuy nhiên đảo lại: X YZ  X Y X Z

Tính chất 3 (Các luật kết hợp không có tính bắc cầu)

Nếu X Y và Y Z, chúng ta không thể suy ra X Z

Ví dụ: giả sử T(X) T(Y)  T(Z), ở đó T(X),T(Y),T(Z) tương ứng là các giao dịchchứa X, Y, Z và độ tin cậy cực tiểu minconf

conf(X Y)=conf(Y Z)=minconf thế thì: conf(X Y)=minconf2 < minconf vìminconf < 1, do đó luật X Z không đủ độ tin cậy

Tính chất 4 :

Nếu A (L-A) không thỏa mãn độ tin cậy cực tiểu thì luật

B (L-B) cũng không thỏa mãn với các tập mục L,A,B và B A L

Vì supp(B)  sup(A) (theo tính chất 1) và định nghĩa độ tin cậy, chúng ta nhận được:conf(B (L-B))= sup(sup(B L)) sup(sup(B L)) < min conf

Cũng như vậy: Nếu có (L-C)  C thì ta cũng có luật (L-D)  D, với D C và D

Bởi vì D C nên (L-D) (L-C) do đó sup(L-D) sup(L-C)

C Một số hướng tiếp cận trong khai phá luật kết hợp

Trang 15

Hướng khai thác luật kết hợp cho đến nay đã được nghiên cứu và phát triển theo nhiềuhướng khác nhau Có những ý tưởng nhằm cải tiến tốc độ thuật toán, có những đề xuấtnhằm tìm kiếm luật có ý nghĩa hơn.

Luật kết hợp nhị phân là hướng nghiên cứu đầu tiên của luật kết hợp Hầu hết cácnghiên cứu ở thời kỳ đầu đều về liên quan đến luật kết hợp nhị phân Trong dạng luật kếthợp này, các mục, thuộc tính, chỉ được quan tâm là có hay không xuất hiện trong giao táccủa CSDL chứ không quan tâm về mức độ xuất hiện Ví dụ như trong hệ thống tính cướcđiện thoại thì việc gọi 10 cuộc điện thoại với 1 cuộc được xem là giống nhau Thuật toántiêu biểu nhất khai phá dạng luật này là thuật toán Apriori và các biến thể của nó Đây làdạng luật đơn giản và các luật khác cũng có thể chuyển về dạng luật này nhờ một sốphương pháp như rời rạc hóa, mờ hóa… Một ví dụ cho dạng luật này : “gọi liên tỉnh =

‘yes’ AND gọi di động = ‘yes’  gọi quốc tế = ‘yes’ AND gọi dịch vụ 108 = ‘yes’, với

độ hỗ trợ 20% và độ tin cậy 80%”

Luật kết hợp có thuộc tính số và thuộc tính hạng mục: các thuộc tính của các cơ sở dữliệu thực tế có kiểu rất đa dạng, như số nhị phân, giá trị định tính, định lượng… Để pháthiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đã đề xuất ra một số phươngpháp rời rạc hóa nhằm chuyển dạng luật này về dạng nhị phân để có thể áp dụng các thuậttoán đã có Một ví dụ về dạng luật này “phương thức gọi = ‘Tự động’ AND giờ gọi IN[’23:00:30… 23:00:59]” AND Thời gian đàm thoại IN [‘200…3000’]gọi liên tỉnh =

‘có’, với độ hỗ trợ là 23.45% và độ tin cậy là 80%”

Luật kết hợp tiếp cận theo hướng tập thô: tìm luật kết hợp dựa trên lý thuyết tập thô.Luật kết hợp nhiều mức : cách tiếp cận theo luật này sẽ tìm kiếm thêm những luật códạng “mua máy tính PC  mua hệ điều hành AND mua phần mềm tiện ích văn phòngMicrosoft Office” Như vậy dạng luật đầy là dạng luật tổng quát của dạng luật sau vàtổng quát theo nhiều mức khác nhau

Định dạng
Số trang	30
Dung lượng	681 KB