Khai thác mẫu khổng lồ trên cơ sở dữ liệu nhiều chiều

‘Khai thác tập phổ biến’ được xem như là một bài toán rất quan trọng trongkhai thác dữ liệu đã được nghiên cứu rộng rãi trong nhiều năm qua.. Tuy nhiên, đây là những thuật toán chỉ hiệu

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM

-ĐẶNG VĂN QUANG

KHAI THÁC MẪU KHỔNG LỒ TRÊN

CƠ SỞ DỮ LIỆU NHIỀU CHIỀU

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM

-ĐẶNG VĂN QUANG

KHAI THÁC MẪU KHỔNG LỒ TRÊN

CƠ SỞ DỮ LIỆU NHIỀU CHIỀU

Trang 3

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH

Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc

sĩ)

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được sửa chữa (nếu có)

Chủ tịch Hội đồng đánh giá LV

Trang 4

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: ĐẶNG VĂN QUANG Giới tính: Nam

Ngày, tháng, năm sinh: 15/03/1972 Nơi sinh: Quảng Tín

Chuyên ngành: Công Nghệ Thông Tin MSHV:1541860039

I- Tên đề tài:

KHAI THÁC MẪU KHỔNG LỒ

TRÊN CƠ SỞ DỮ LIỆU NHIỀU CHIỀU

II- Nhiệm vụ và nội dung:

− Biểu diễn CSDL trên ma trận bit

− Khai thác CSDL theo cấu trúc cây tìm kiếm

− Khai thác mẫu khổng lồ trên CSDL nhiều chiều

− Đề xuất thuật toán, xây dựng chương trình thực nghiệm

− So sánh và đánh giá kết quả thực nghiệm

III- Ngày giao nhiệm vụ: 15/03/2017

IV- Ngày hoàn thành nhiệm vụ: 31/08/2017

V- Cán bộ hướng dẫn: TS PHẠM THỊ THIẾT

CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH

(Họ tên và chữ ký) (Họ tên và chữ ký)

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kếtquả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳcông trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này

đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồngốc

Học viên thực hiện Luận văn

(Ký và ghi rõ họ tên)

Đặng Văn Quang

Trang 6

LỜI CÁM ƠN

Chân thành cảm ơn TS Phạm Thị Thiết, giảng viên đã hướng dẫn tôi thực hiệnluận văn này

Cảm ơn quý Thầy Cô Khoa Công nghệ thông tin Trường Đại học Công nghệ

Tp HCM đã giảng dạy và cung cấp cho tôi những kiến thức quý báu trong suốt thờigian học tập và nghiên cứu thực hiện luận văn

Tôi gửi lời cảm ơn đến gia đình, người thân và bạn bè đã luôn quan tâm, giúp

đỡ tôi trong suốt thời gian học tập, nghiên cứu hoàn thành luận văn

Luận văn khó có thể tránh khỏi những sai sót, rất mong nhận được ý kiến đónggóp của quý Thầy Cô, bạn bè, và những người luôn quan tâm, ủng hộ tôi

Chân thành cảm ơn!

Học viên thực hiện Luận văn

Đặng Văn Quang

Trang 7

TÓM TẮT

Ngày nay khoa học tiến bộ, chúng ta đang bị cuốn hút bởi sự bùng nổ của dữliệu, dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và dữliệu tiếp thị Các nhà khoa học luôn quan tâm đến nguồn tài nguyên quý báu này

Do đó, Khám phá tri thức tiềm ẩn trong CSDL là m c tiêu chung của ngành khoahọc khai thác dữ liệu nhằm đem lại lợi ích cho con người Bên cạch đó là nhữngkhó khăn đầy thách thức cho ngành khoa học này

‘Khai thác tập phổ biến’ được xem như là một bài toán rất quan trọng trongkhai thác dữ liệu đã được nghiên cứu rộng rãi trong nhiều năm qua Có rất nhiềuthuật toán đã được phát triển để khai thác tập phổ biến hiệu quả, như Apriori, Eclat,FP-Growth, PrePost, và FIN Tuy nhiên, đây là những thuật toán chỉ hiệu quả khikhai thác tập phổ biến trên CSDL thương mại truyền thống, thường có chứa rất

nhiều các giao tác và mỗi giao tác lại chứa rất ít các m c.Trên thực tế có nhiều

CSDL đặc biệt, chẳng hạn như dữ liệu sinh học-gọi là dữ liệu nhiều chiều, được mô

tả có ít các giao tác và trong mỗi giao tác có chứa rất nhiều m c Các thuật toán trênkhông thể chạy khi ngưỡng hỗ trợ tối thiểu nhỏ bởi vì không gian tìm kiếm là rấtlớn, các ứng viên tăng theo cấp số mũ trong quá trình khai thác Do đó các thuậttoán này không phù hợp với dữ liệu nhiều chiều

Điều này dẫn đến nảy sinh ra bài toán khai thác mẫu khổng lồ trên CSDLnhiều chiều.Trong năm 2012, Sohrabi và Barforoush đề xuất thuật toán BVBUCkhai thác mẫu khổng lồ dựa trên giản đồ từ dưới lên Tuy nhiên, BVBUC còn nhiềuhạn chế vì nó tạo ra rất nhiều các ứng viên và tốn nhiều thời gian để kiểm tra cácứng viên này Nghiên cứu trong luận văn này tập trung vào xây dựng chiến lượckhai thác mẫu khổng lồ trên CSDL nhiều chiều hiệu quả hơn bằng cách đề xuấtthuật toán gọi là IBVBUC dựa trên BVBUC áp d ng phương pháp khai thác từ dướilên theo chiều dọc, sử d ng ma trận bit n n tập dữ liệu để dễ dàng sử d ng hơn.Ngoài ra, kỹ thuật cắt tỉa để nâng cao hiệu quả trong quá trình khai thác cũng được

sử d ng Cuối cùng, cài đặt, so sánh và đánh giá thuật toán

Trang 8

ABSTRACT

Nowadays, science made its progress We’re being attracted by the explosion

of data, Science data, Medical data, Demography data, Finance data, and Marketingdata The scientists always care about these valuable resources Hence, discoveringhidden knowledge in database is common goal of the information technologyscience in order to bring benefit for human Besides, those are the very challengingfor these sciences

‘Frequent itemset mining’ is consider a very important issue in datadeveloping that has been extensively studied over the years There are manyalgorithms that have been developed to effectively frequent itemset mining, such asApriori, Eclat, FP-Growth, PrePost, and FIN However, these are only effectivealgorithms for common exploitation on database traditional commercial, usuallycontains a lot of transaction and each transaction contains very few items Onreality, there are many special database, such as Biomedical data is characterized byfewer transaction, and each transaction contains a large number of items, calledhigh dimensional The algorithms can not operate when the minimum Supportthreshold is small because the search space is very large, the candidates increaseexponentially during the exploiting process Therefore, these algorithms are notsuitable for multi-dimensional data

This led to the problem of exploiting colossal patterns on multi-dimensionaldatabase In 2012, Sohrabi and Barfroush proposed BVBUC algorithm exploitscolosal pattern base on a bottom-up schema However, BVBUC has manylimitations as it creates a lot of candidates and takes a lot of time to test thesecandidates The study in this thesis focuses on developing a strategy for theextraction of colossal patterns in more efficient multi-dimensional databases byproposing an algorithm called IBVBUC base on BVBUC that applies a bottom-upfollow vertical exploiting method, use a bit matrix to compress data to make it moreeasy to use In addition, pruning techniques to improve efficiency during harvestingare also used Finally installing, comparing and evaluating algorithm

Trang 9

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CÁM ƠN ii

TÓM TẮT iii

ABSTRACT iv

MỤC LỤC .v DANH MỤC CÁC TỪ VIẾT TẮT vii

DANH MỤC CÁC BẢNG viii

CHƯƠNG 1: TỔNG QUAN .1

1.1 Lý do chọn đề tài 1

1.2 M c tiêu, nội dung nghiên cứu 2

1.3 Phương pháp nghiên cứu 2

1.4 Phạm vi đề tài 3

1.5 Cấu trúc luận văn 3

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 4

2.1 Tổng quan về khai thác dữ liệu 4

2.1.1 Khám phá tri thức 4

2.1.2 Khai thác dữ liệu 6

2.1.3 Các kỹ thuật khai thác dữ liệu 9

2.1.4 Ứng d ng trong khai thác dữ liệu 9

2.1.5 Những thách thức trong khai thác dữ liệu 10

2.2 Tổng quan về khai thác tập phổ biến 11

2.2.1 Một số khái niệm cơ bản 11

2.2.2 Một số thuật toán cơ bản 14

2.3 Khái quát về dữ liệu nhiều chiều 18

2.3.1 Giới thiệu 18

2.3.2 Những thách thức trên CSDL nhiều chiều 19

2.3.3 Các kỹ thuật cơ bản trên CSDL nhiều chiều .19

2.4 Khái quát về mẫu khổng lồ 23

2.5 Lý thuyết khai thác mẫu khổng lồ trên CSDL nhiều chiều 25

Trang 10

2.5.1 Giới thiệu 25

2.5.2 Định nghĩa bài toán 27

2.5.3 Biểu diễn tập dữ liệu trên ma trận bit (bit-wise) 28

2.5.4 Các chiến lược khai thác 32

2.5.5 Khai thác mẫu khổng lồ 35

CHƯƠNG 3: THUẬT TOÁN KHAI THÁC MẪU KHỔNG LỒ 42

3.1 Công trình liên quan 42

3.1.1 Thuật toán BVBUC 42

3.1.2 Minh họa thuật toán BVBUC 43

3.2 Thuật toán đề xuất (thuật toán IBVBUC) .46

3.2.1 Định nghĩa 46

3.2.2 Một số hạn chế của BVBUC 48

3.2.3 Xây dựng thuật toán IBVBUC 49

3.2.4 Thuật toán IBVBUC 49

3.2.5 Minh họa thuật toán IBVBUC 51

3.3 Nhận x t 53

CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM .55

4.1 Môi trường và CSDL thực nghiệm .55

4.1.1 Môi trường thực nghiệm 55

4.1.2 CSDL thực nghiệm 55

4.2 Kết quả thực nghiệm 56

4.2.1 Giao diện thực nghiệm 56

4.2.2 Kết quả thực nghiệm 58

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .66

5.1 Kết luận 66

5.2 Hướng phát triển 67

TÀI LIỆU THAM KHẢO 68

Trang 11

DANH MỤC CÁC TỪ VIẾT TẮT

colossal

Khai thác mẫu khổng lồ duyệt cây từ dưới lên theo chiều dọc

Trang 12

DANH MỤC CÁC BẢNG

Bảng 2.1 – Minh họa CSDL giao dịch giỏ hàng 11

Bảng 2.2 – CSDL mẫu minh họa khai thác tập phổ biến 12

Bảng 2.3 – CSDL mẫu minh họa khai thác mẫu khổng lồ 28

Bảng 3.1 – CSDL mẫu minh họa thực nghiệm 44

Bảng 4.1– Bảng mô tả CSDL thực nghiệm 55

Bảng 4.2– Bảng so sánh thời gian và số nút trên cây 58

Trang 13

DANH MỤC CÁC HÌNH

Hình 2.1 – Quá trình khám phá tri thức [7] 5

Hình 2.2 – Sự tiến triển khoa học kỹ thuật, hệ CSDL 8

Hình 2.3 – Minh họa thuật toán Apriori 15

Hình 2.4 – Cây IT-tree dùng Tidset với minSup =3 18

Hình 2.5 – Một ví d về mẫu khổng lồ 24

Hình 2.6 – Dữ liệu tổng hợp có chứa một số mẫu khổng lồ 24

Hình 2.7 – Ma trận bit của CSDL Bảng 2.3 28

Hình 2.8 – Cắt tỉa ma trận bit 29

Hinh 2.9 – ColAndVectors 30

Hình 2.10 – Kiểm tra tập đóng ad 31

Hình 2.11 – Kiểm tra tập phổ biến đóng eg 31

Hình 2.12 – Cây tìm kiếm theo chiều ngang 32

Hình 2.13 – Cây tìm kiếm từ dưới lên theo chiều dọc 34

Hình 2.14 – Cây tìm kiếm từ trên xuống theo chiều dọc 35

Hình 2.15 – Khai thác từ dưới lên 37

Hình 2.16 – Cây được cắt tỉa đến mức minSup .39

Hình 2.17 – Mức 1 của cây đã lược bỏ đến minSup 40

Hình 2.18 – Nút 1 và con của nó 40

Hình 2.20 – Nut 13 và con của nó 41

Hình 3.1 – Biểu diễn ma trận bit cho CSDL giao dịch 44

Hình 3.2 – Ma trận bit sau khi lược bỏ các cột không thỏa minSup 44

Hình 3.3 – Cây tìm kiếm từ dưới lên theo chiều dọc (CSDL Bảng 3.1) 45

Hình 3.4 – Ma trận bit đã lược bỏ dòng và cột 52

Hình 3.5 – Minh họa xây dựng cây đến mức 2 52

Hình 3.6 – Minh họa xây dựng cây đến mức minSup 53

Trang 14

Hình 3.7 – Cậy được xây dựng hoàn chỉnh đến mức minSup với CSDL bảng 3.1 53

Hình 4.1a – Giao diện màn hình chính của chương trình ở Step 1 56

Hình 4.1b – Giao diện màn hình chính của chương trình ở Step 2 57

Hình 4.1c – Giao diện màn hình chính của chương trình ở Step 3 57

Hình 4.2 – dữ liệu Chess 50 transactions 59

Hình 4.3 – dữ liệu Accidents 80 transactions 60

Hình 4.4– dữ liệu Mushroom 50 transactions 60

Hình 4.5 – dữ liệu Retails 50 transactions 61

Hình 4.6 – dữ liệu Mushroom 90 transactions 61

Hình 4.7– dữ liệu Retails 100 transactions 62

Hình 4.8 – dữ liệu Accidents 100 transactions 63

Hình 4.9 – dữ liệu Accidents 100 transactions với minSup=3% 64

Hình 4.10 – dữ liệu Mushroom 100 transactions với minSup=3% 64

Trang 15

1

Trang 16

1.1 Lý do chọn đề tài

CHƯƠNG 1: TỔNG QUAN

Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin đãlàm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăngnhanh một cách nhanh chóng Bên cạnh đó, việc tin học hóa một cách nhanh chóngcác hoạt động sản xuất, thương mại, địa chất, y tế,… cũng như nhiều lĩnh vực hoạtđộng khác đã tạo ra cho chúng ta một kho dữ liệu khổng lồ Hàng triệu cơ sở dữ liệu(CSDL) đã được sử d ng, trong đó có nhiều CSDL cực lớn Sự bùng nổ này đã dẫntới một yêu cầu cấp thiết là cần có những kỹ thuật và công c mới để tự độngchuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích

Với lượng dữ liệu khổng lồ và luôn gia tăng theo thời gian, rõ ràng các phươngpháp phân tích dữ liệu truyền thống sẽ không còn hiệu quả, gây tốn k m và dễ dẫnđến những kết quả sai lệch Để có thể khai thác hiệu quả các CSDL lớn, một lĩnh

vực khoa học mới đã ra đời: Khám phá tri thức trong CSDL (Knowledge Discovery

in Databases - KDD) Khai thác dữ liệu (Data Mining - DM) là một công đoạn

chính trong quá trình khám phá tri thức, nhằm tìm kiếm, phát hiện các tri thức mới,hữu ích tiềm ẩn trong các cơ sở dữ liệu lớn

Khai thác tập phổ biến là một trong những vấn đề cốt lõi trong khai thác dữ liệu,

là một trong hai giai đoạn rất quan trọng trong khai thác luật kết hợp Việc khai tháctập phổ biến thường được mô tả là một quá trình lấy thông tin có giá trị từ CSDLlớn, nó bắt nguồn từ dạng mẫu có sẵn tồn tại trong CSDL, các mẫu này có khuynhhướng gom nhóm lại với nhau và được định nghĩa như là một mô hình khai thác.Nhiều thuật toán đã được xây dựng để hỗ trợ quá trình khai thác tập phổ biếntrong các CSDL thương mại truyền thống như thuật toán Apriori, thuật toán cải tiến

Apriori (Apriori-TID), thuật toán FP-Growth, thuật toán IT-Tree, v.v Với CSDL

dạng này thường bao gồm rất nhiều các giao tác nhưng mỗi giao tác lại gồm ít m c.Trong thực tế nhiều CSDL có số chiều rất lớn, đặc biệt như CSDL địa chất, y tế

và phân tích các chuổi ADN: có số lượng m c rất lớn, nhưng các giao tác khôngnhiều dẫn đến việc khai thác theo phương pháp truyền thống thường gặp hạn chế vềkhông gian lưu trữ cũng như hiệu năng tính toán do số lượng các ứng viên xuất hiện

Trang 17

trong quá trình khai thác tăng theo hàm số hàm mũ, dữ liệu được xuất ra dư thừanhưng không có đủ thông tin phù hợp cho một số ứng d ng, vv… Để giải quyếtnhững vấn đề này, nội dung nghiên cứu của luận văn sẽ tập trung vào việc nghiêncứu, tìm hiểu về khai thác dữ liệu với mẫu có kích thước rất lớn trên CSDL nhiềuchiều và các mẫu này được gọi là mẫu khổng lồ.

1.2 Mục tiêu, nội dung nghiên cứu

Nội dung của luận văn là tập trung nghiên cứu các chiến lược khai thác dữ liệuvới mẫu có kích thước khổng lồ trên CSDL nhiều chiều, trình bày một phương phápkhai thác từ dưới lên theo chiều dọc để tiến hành khai thác các mẫu khổng lồ phổ

biến trên CSDL nhiều chiều Trong thuật toán, sử d ng một ma trận bit (bit matrix)

n n dữ liệu để dễ dàng sử d ng trong quá trình khai thác, xây dựng kỹ thuật khaithác dữ liệu dựa trên cấu trúc cây tìm kiếm duyệt theo giao tác Bên cạnh đó, áp

d ng phương pháp cắt tỉa nhằm lược bỏ các nút không cần thiết trên cây để rút ngắnthời gian khai thác

Từ những nghiên cứu này, luận văn hướng đến m c tiêu là đề xuất thuật toánkhai thác các mẫu khổng lồ phổ biến trên CSDL nhiều chiều hiệu quả hơn Cuốicùng, cài đặt thuật toán và đánh giá kết quả thực nghiệm

1.3 Phương pháp nghiên cứu

− Nghiên cứu tổng quan về khám phá tri thức-khai thác dữ liệu, từ đó có thể

nắm bắt được các luận điểm, giải thuật cơ bản để làm tiền đề cho việcnghiên cứu

− Tìm hiểu một số kỹ thuật và thuật toán khai thác tập phổ biến để tìm cácphương pháp tăng tốc độ khai thác trong CSDL có số lượng m c lớn

− Nghiên cứu, tìm hiểu về mẫu khổng lồ (colossal pattern)

− Tìm hiểu về dữ liệu nhiều chiều (high dimensional datasets)

− Tìm hiểu, nghiên cứu các phương pháp khai thác mẫu khổng lồ phổ biến

− Nghiên cứu tìm hiểu thuật toán thích hợp để khai thác mẫu khổng lồphổ biến trên dữ liệu nhiều chiều một cách có hiệu quả

− Xây dựng chương trình thực nghiệm , so sánh, đánh giá kết quả đạt được

Trang 18

1.4 Phạm vi đề tài

phạm vi nghiên cứu của luận văn là từ các bước cơ bản nhất của quy trìnhkhám phá tri thức cho đến các thuật toán về khai thác dữ liệu, khai thác tập phổbiến, khai thác mẫu khổng lồ trên CSDL nhiều chiều duyệt từ dưới lên theochiều dọc, xây dựng chương trình thực nghiệm, so sánh, đánh giá kết quả

1.5 Cấu trúc luận văn

Luận văn gồm có 5 chương:

− Chương 1: Giới thiệu tổng quan nhằm hướng tới bối cảnh thực tiễn, địnhhướng nghiên cứu của luận văn

− Chương 2: Trình bày tổng quan về khám phá tri thức, khai thác dữ liệu, khaithác luật kết hợp và phương pháp khai thác tập phổ biến Giới thiệu phươngpháp khai thác mẫu khổng lồ trên CSDL nhiều chiều với chiến lược khaithác từ dưới lên theo chiều dọc

− Chương 3: Nghiên cứu mặt hạn chế của thuật toán BVBUC Nghiên cứu

và đề xuất thuật toán cải tiến nhằm nâng cao hiệu quả về thời gian khaithác dựa trên cấu trúc cây tìm kiếm từ dưới lên theo chiều dọc

− Chương 4: Giới thiệu môi trường thực nghiệm, CSDL dùng để thực nghiệm

So sánh về thời gian thực hiện giữa BVBUC và thuật toán đề xuất

− Chương 5: Kết luận và hướng phát triển

Trang 19

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1 Tổng quan về khai thác dữ liệu

2.1.1 Khám phá tri thức

2.1.1.1 khái niệm

− Tri thức: Tri thức là hệ thống hóa thông tin hay dữ liệu bằng một cách c thể.Chúng có các mối quan hệ với nhau trước khi được nhận thức, phân tích,khám phá, và nghiên cứu để có thể truyền đạt Nói cách khác, tri thức có thểđược xem như là kết quả của sự hiểu biết, hoặc là dữ liệu có độ trừu tượng và

tổ chức ở mức độ cao

− Khám phá tri thức [3,5]: Khám phá tri thức (KPTT) là quá trình xác định tính

hợp lệ, mới lạ, tiềm ẩn, hữu ích và dễ hiểu từ các tập dữ liệu lớn và phức tạp.KPTT trong CSDL là phân tích, thăm dò và mô hình hóa kho dữ liệu lớnnhằm rút trích các thông tin có ích, xác định các giá trị, quy luật tiềm ẩntrong các khuôn mẫu hay mô hình dữ liệu

2.1.1.2 Quá trình khám phá tri thức

Khám phá tri thức từ CSDL là quá trình sử d ng các phương pháp và công

c tin học, là một hệ thống bao gồm nhiều hoạt động tương tác thường xuyên giữacon người và CSDL, trong đó con người là trung tâm điều khiển quá trình Do đó,người sử d ng hệ thống phải có kiến thức về lĩnh vực cần khám phá để có thể chọnđược tập con dữ liệu tốt, từ đó phát hiện các mẫu phù hợp với m c tiêu đề ra Đóchính là tri thức được rút trích từ CSDL, thường để ph c v cho việc giải quyết mộtloạt nhiệm v nhất định cho từng lĩnh vực c thể Tuy vậy, quá trình khám phá trithức mang tính chất hướng nhiệm v vì không phải mọi tri thức tìm thấy đều áp

d ng được trong thực tế [3,6]

Tiến trình Khám phá tri thức từ CSDL bao gồm 5 giai đoạn Tại mỗi giaiđoạn, tiến trình có thể quay lui qua một hay nhiều giai đoạn [2, 7]:

Trích chọn dữ liệu : Giai đoạn này bao gồm việc trích chọn ra các tập dữ

liệu cần được khai thác, hoặc tích hợp các tập dữ liệu nhỏ, rời rạc hoặc dữ liệumẫu từ các tập dữ liệu lớn ( data warehouse, data repositories, databases) theomột số tiêu chí nhất định

Trang 20

Tiền xử lý dữ liệu: Giai đoạn này bao gồm làm sạch dữ liệu và tiền xử lý để

có được dữ liệu nhất quán Áp d ng một số kỷ thuật để loại bỏ dữ liệu khôngđầy đủ, nhiễu, và các dữ liệu không phù hợp

Biến đổi dữ liệu: Giai đoạn này sử d ng các phương pháp làm giảm

hoặc chuyển đổi kích thước dữ liệu hoặc hợp nhất thành dạng thích hợp đểphù hợp với việc khai thác

Khai thác dữ liệu: Giai đoạn này rất quan trọng, bao gồm tìm kiếm các

mẫu đặc biệt được quan tâm tùy thuộc vào m c đích khai thác dữ liệu

(KTDL); Áp d ng một số kỹ thuật KPTT để khai thác, trích chọn những mẫu

thông tin, những mối liên hệ trong dữ liệu

Biểu diễn / Đánh giá: Giai đoạn này bao gồm việc biểu diễn và đánh giá

mô hình khai thác; Những tri thức khai thác được, sẽ được biến đổi và trìnhbày dưới dạng dễ hiểu như luật, cây, bảng biểu hay đồ thị… Giai đoạn nàycũng đánh giá các tri thức khai thác được theo một số tiêu chí dựa trên m

c đích

KTDL

Trang 21

Biến đổi dữ liệuTiền xử lý dữ liệu

Khai thác dữ liệu

Trình bày/đánh giá

Tri thứcTrích lọc dữ liệu

Dữ liệu Dữ liệu

đã đượctrích lọc

Dữ liêu đã được xử lý

Dữ liêu

đã đượcchuyển

Trang 22

lặp lại, liên quan đến nhiều bước với nhiều quyết định được thực hiện bởi người sử

d ng

Về cơ bản KPTT và KTDL, một số ứng d ng được phát triển rất đa dạng

trong nhiều lĩnh vực Nhiều lĩnh vực nỗi lên nhanh chóng từ CSDL lớn (big

databases) ngày càng tăng Tuy nhiên, có nguy cơ lãng phí các giá trị và thông tin

dồi giàu trong các CSDL này, trừ khi các kỹ thuật thích hợp được áp d ng để tríchxuất tri thức hữu ích Việc ứng d ng các kỹ thuật KTDL thành công có thể được tìmthấy rộng rãi và đa dạng hóa trong nhiều lĩnh vực ứng d ng, như tin sinh học, sinhthái học, tài chính, công nghiệp, tiếp thị, nghiên cứu khoa học, viễn thông và cáclĩnh vực ứng d ng khác

2.1.2 Khai thác dữ liệu

2.1.2.1 Khai thác dữ liệu là gì:

Khai thác dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong CSDL C thểhơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn chưabiết nhưng hữu ích từ các CSDL lớn [3] Đây là giai đoạn cốt lõi của quá trìnhKPTT, liên quan đến việc suy ra các thuật toán khai thác dữ liệu, phát triển mô hình

và khám phá những mẫu chưa được biết Mô hình này được sử d ng để hiểu đượchiện tượng từ dữ liệu, để phân tích và dự đoán [5]

Khai thác dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệuthành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiếntrình ra quyết định [2]

Có thể chia KTDL thành 2 dạng chính [2]:

 KTDL theo hướng kiểm tra: Người dùng đề xuất giả thiết, hệ thống kiểm

tra tính đúng đắn của giả thiết (bao gồm: Truy vấn, báo cáo, phân tích đachiều, phân tích thống kê, …)

 KTDL theo hướng khám phá: Tìm kiếm các tri thức tiềm ẩn trong CSDL

bằng cách tiến hành xem x t tất cả các giả thiết Do không gian tìm kiếm lớn,nên rất nhiều heuristic đã được đề xuất nhằm nâng cao hiệu suất của cácthuật giải tìm kiếm

Trang 23

2.1.1.2 Tại sao phải khai thác dữ liệu [6]

"Chúng ta đang sống trong thời đại thông tin" là một câu nói phổ biến; Tuynhiên trên thực tế, chúng ta đang sống trong thời đại dữ liệu Hàng Terabyte hoặcPetabyte dữ liệu được đổ vào mạng máy tính của chúng ta, World Wide Web(WWW), và các thiết bị lưu trữ dữ liệu khác nhau mỗi ngày từ kinh doanh, xã hội,khoa học, kỹ thuật, y học, và trong hầu hết các khía cạnh của cuộc sống hàng ngày

Sự tăng trưởng bùng nổ của lượng dữ liệu sẵn có là kết quả của việc tin học hoá xãhội và sự phát triển nhanh chóng của công c thu thập và lưu trữ dữ liệu mạnh mẽ.Các doanh nghiệp trên toàn thế giới tạo ra tập dữ liệu khổng lồ, bao gồm các giaodịch bán hàng, chứng khoán, hồ sơ giao dịch, mô tả sản phẩm, khuyến mãi bánhàng, hồ sơ công ty và hiệu suất phản hồi của khách hàng Ví d : các cửa hàng lớn,chẳng hạn như Wal-Mart, xử lý hàng trăm triệu giao dịch mỗi tuần tại hàng ngànchi nhánh xung quanh Thế giới Các thực tiễn khoa học và kỹ thuật tạo ra các đơnhàng petabytes dữ liệu cao một cách liên t c, từ viễn thám, đo quá trình, thí nghiệmkhoa học, Thực hiện hệ thống, quan sát kỹ thuật và giám sát môi trường

Các mạng viễn thông toàn cầu mang hàng ch c petabytes lưu lượng dữ liệumỗi ngày Ngành y tế tạo ra lượng dữ liệu khổng lồ từ hồ sơ bệnh án, theo dõi bệnhnhân và ảnh y tế Hàng tỷ lượt tìm kiếm Web được hỗ trợ bởi các công c tìm kiếm

và xử lý hàng ch c petabytes dữ liệu hàng ngày Cộng đồng và phương tiện truyềnthông xã hội đã trở thành nguồn dữ liệu ngày càng quan trọng, sản xuất hình ảnh kỹthuật số, video, blog, cộng đồng Web, và các loại mạng xã hội khác nhau Danhsách các nguồn tạo ra số lượng lớn dữ liệu là vô tận Dữ liệu đang phát triển nhanhchóng, rộng rãi và khối lượng khổng lồ này làm cho chúng ta đang thật sự là thờiđại của dữ liệu Rất cần thiết một công c mạnh mẽ và linh hoạt để tự động khaithác thông tin có giá trị từ số lượng dữ liệu to lớn và để biến đổi dữ liệu đó thành trithức có ích Sự cần thiết này đã dẫn đến sự ra đời của khai thác dữ liệu Lĩnh vựcnày còn trẻ, năng động và hứa hẹn Khai thác dữ liệu đã và sẽ tiếp t c thực hiệnnhững bước tiến vĩ đại trong cuộc hành trình của chúng ta từ thời đại dữ liệu trởthành thời đại thông tin

M c đích của việc thu thập và lưu trữ các kho dữ liệu khổng lồ được liệt kêdưới đây nhằm phát hiện các tri thức mới có ích cho con người Tập hợp các dữ liệu

Trang 24

được thu thập qua các thời kỳ như sau:

Tập hợp dữ liệu và khởi tạo CSDL

(tới c u ối nhữn g năm 1960)

Hệ quản trị CSDL

(những năm 1970 đến những năm đầu 1980)

- Hệ CSDL và phân cấp mạng

- Công c mô hình dữ liệu: mô hình thực thể

- Phương pháp đánh chỉ số và truy cập: cây

B+, hàm băm

- Ngôn ngữ truy vấn SQL

- Giao diện người dùng, nhập liệu và kết xuất

- Xử lý và tối ưu hóa truy vấn

- Quản lý giao dịch, Điều khiển tranh chấp và

ph c hồi

- Xử lý giao dị ch trự c tu yế n (OLTP)

Trang 25

Hệ CSDL tiến tiến

(những năm giữa 1980 đến nay)

- Mô hình dữ liệu tiên tiến: Quan hệ mở rộng,

quan hệ-đối tượng, quan hệ suy diễn.

- Quản lý dữ liệu tiên tiến: không gian, thời

gian, đa phương tiện, cấu trúc tuần tự, khoa

học, ứng d ng khoa học, đối tượng động

- Dữ liệu luồng và hệ dữ liệu vật lý ảo

- Hệ CSDL dựa trên web (XML, ngôn ngữ

- An ninh và bảo mật dữ liệu

Phân tích dữ liệu tiên tiến

(những năm cuối 1980 đến nay)

- Kho dữ liệu và OLAP

- Khai thác dữ liệu và khám phátri thức: Phân lớp, phân c m, kếthợp, phân tích mẫu, phân tíchngoại lai…

- Kiểu dữ liệu phức tạp: Luồng,chuổi, văn bản, không gian, thờigian, đa phương tiện, web…

- Ứng d ng KTDL: Thuong mại,

xã hội, ngân hàng, viễn thông,khoa học và ứng d ng khoa học,web cá nhân, báo đời sống…

- Khai thác và trao đổi dữ liệu:Khai thác dữ liệu ẩn, bảo mậtkhai thác dữ liệu, mạng thôngtin, hệ khuyến cáo

Hệ thống thông tin trong tương lai

(hiện=nay đế n tuon g lai )

Hình 2.2 – Sự tiến triển khoa học kỹ thuật, hệ CSDL

Trang 26

Khai thác dữ liệu có thể được xem như là kết quả tiến hóa tự nhiên của côngnghệ thông tin CSDL và công nghiệp quản lý dữ liệu phát triển một số chức năng

quan trọng (Hình2.2): thu thập dữ liệu và tạo CSDL, quản lý dữ liệu (bao gồm cả

lưu trữ dữ liệu, thu hồi và xử lý CSDL giao dịch), phân tích dữ liệu tiên tiến (bao gồm kho dữ liệu và khai thác dữ liệu) Sớm phát triển cơ chế thu thập dữ liệu và

CSDL ph c v như là một điều kiện tiên quyết để phát triển các cơ chế lưu trữ

và ph c hồi dữ liệu hiệu quả, cũng như truy vấn và xử lý giao dịch Ngày nay, trênthực tế nhiều hệ thống CSDL cung cấp truy vấn và xử lý giao dịch một cáchthông thường Phân tích dữ liệu tự nhiên nâng cao trở thành bước tiếp theo

2.1.3 Các kỹ thuật khai thác dữ liệu

Các kỹ thuật Khai thác dữ liệu được kế thừa, kết hợp và mở rộng từ các kỹ thuậtđược nghiên cứu từ trước như học máy, nhận dạng, thống kê, các mô hình đồ thị,mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia,… Tuy nhiên, kỹ thuậtKhai thác dữ liệu có ưu thế hơn hẳn các phương pháp trước đó, đem lại nhiều triểnvọng trong việc ứng d ng phát triển nghiên cứu khoa học cũng như áp d ng vàothực tế

Các kỹ thuật Khai thác dữ liệu thể được chia làm 2 nhóm chính sau:

 Kỹ thuật khai thác dữ liệu mô tả: kỹ thuật này có nhiệm v mô tả về các tính

chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có Nhóm kỹ

thuật này gồm các phương pháp: phân nhóm (Clustering), tổng hợp hóa (Summerization), Phát hiện sự biến đổi và độ lệch (Change and deviation

detection), phân tích luật kết hợp (Association Rules),

 Kỹ thuật khai thác dữ liệu dự đoán: kỹ thuật này đưa ra các dự đoán dựa vào

các suy diễn trên dữ liệu hiện thời Nhóm kỹ thuật này gồm các phương

pháp: phân lớp (Classification), hồi quy (Regression),

2.1.4 Ứng dụng trong khai thác dữ liệu

KTDL có nhiều ứng d ng trong thực tế, một số ứng d ng điển hình như:

Ứng d ng trong Ngân hàng:

− Xây dựng mô hình dự báo rủi ro tín d ng

− Xây dựng quy luật của thị trường chứng khoán và đầu tư bất động

Trang 27

Ứng d ng trong Thương mại điện tử:

− Công c tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng

− Phân tích khách hàng duyệt web

− Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thịphù hợp với loại khách hàng trong một phân khu thị trường nhấtđịnh.v.v

Ứng d ng trong Công nghệ sinh học và dược phẩm:

− Xây dựng công c KTDL trực quan cho ph p phát hiện sự hiện diệncủa dược chất, phân tích dữ liệu di truyền.v.v

Ứng d ng Quản lý nhân sự:

− Giúp nhà tuyển d ng chọn ứng viên thích hợp nhất theo nhu cầu củacông ty

− Phát hiện giả mạo thẻ trong lĩnh vực viễn thông

− Phát hiện dùng thẻ tín d ng giả trên mạng và là công c hữu ích chodịch v quản lý rủi ro cho thương mại điện tử

− Phát hiện xâm nhập mạng trái ph p.v.v

2.1.5 Những thách thức trong khai thác dữ liệu

Rất nhiều các giải pháp mới luôn được đề xuất trong khai thác dữ liệu, nhưng trên thực tế vẫn gặp nhiều khó khăn và thách thức như:

− Mức độ nhiễu cao trong KTDL: Các trường dữ liệu không phù hợp, bị thiếuhoặc bị nhiễu gây nên khó khăn trong quá trình khai thác, vì vậy, tiêu chuẩnxây dựng giải thuật loại bỏ nhiễu ngày càng trở nên quan trọng hơn

− Kích thước CSDL lớn: Các tập dữ liệu trong KTDL thường có kích thước rất

lớn (tera-byte) và liên t c gia tăng Với kích thước CSDL lớn, tiêu tốn rất

nhiều thời gian I/O, và thời gian xử lý mặc dù tài nguyên máy tính luôn đượccải thiện Vì vậy, vận d ng các kỹ thuật xác suất, lấy mẫu, đệm, song song vàtăng dần vào các giải thuật KTDL trở nên quan trọng

− Các kỹ thuật trong KPDL là hướng tác v và hướng dữ liệu: Thay vì tậptrung xử lý tri thức như trong máy học, phát triển trong KPDL dựa trên tính

Trang 28

TID Sản phẩm

1 Bưởi, Cam, Thanh long, Sầu riêng

2 Cam, Dứa, Sầu riêng

3 Bưởi, Cam, Thanh long, Sầu riêng

4 Bưởi, Cam, Dứa, Sầu riêng

5 Bưởi, Cam, Dứa, Thanh long, Sầu riêng

6 Bưởi, Cam, Thanh long

đặc thù của dữ liệu trong từng ứng d ng c thể

2.2 Tổng quan về khai thác tập phổ biến

Khai thác tập phổ biến để tìm mối quan hệ giữa các m c (item) trong CSDL

là bài toán quan trọng trong khai thác dữ liệu Từ tập phổ biến người ta có thể khaithác luật kết hợp, gom c m hay phân lớp, v.v Do đó, bài toán khai thác tập phổbiến được nhiều nhóm khoa học trên thế giới quan tâm và nghiên cứu rộng rãi trongnhiều năm qua Khai thác luật kết hợp đóng vai trò quan trọng trong các hệ thống hỗtrợ quyết định để khai thác luật kết hợp mạnh mẽ, cần phải khai thác tập phổ biến

Có rất nhiều thuật toán đã được phát triển để khai thác tập phổ biến hiệu quả, chẳnghạn như Apriori, Eclat, FP-Growth, PrePost, và FIN…

2.2.1 Một số khái niệm cơ bản

2.2.1.1 Cơ sở dữ liệu giao dịch

Cơ sở dữ liệu giao dịch: Gọi D là một cơ sở dữ liệu giao dịch gồm một bộ đôi{I, T}, trong đó I = {i1,i2, ,in} là tập tất cả các m c dữ liệu và T = {t1,t2,.,tm} là tập tất cả các giao dịch

Giao dịch (hay còn gọi là giao tác): Một giao tác t  D là một tập các m c

gắn với một định danh duy nhất gọi là TID (hay còn gọi là Mã giao dịch).

Bảng 2.1 – Minh họa CSDL giao dịch giỏ hàng

Ví d :

Ví d giỏ mua hàng:

− Giỏ 1: {Bưởi, Cam, Sầu riêng}

− Giỏ 2: {Cam, Dứa}

…

− Giỏ n: {Bưởi, Cam, Thanh long}

Trang 29

− M c dữ liệu : Mặt hàng trong giỏ hay một thuộc tính.

− Tập m c dữ liệu : Bao gồm các m c dữ liệu, ký hiệu I = {i1,i2, ,in} trong đó

i1,i2, ,in là các m c dữ liệu

Ví d : I={ Bưởi, Cam, Thanh long, Sầu riêng }

 Giao dịch: Tập m c (Itemset) được mua trong giỏ.

 Giao dịch t: Tập các m c sao cho t  I

Ví d : t ={ Bưởi, Cam, Thanh long}

2.2.1.2 Độ hỗ trợ và độ hỗ trợ tối thiểu

 Độ hỗ trợ (Support) của tập m c X trong CSDL D là tỷ lệ giữa số các

giao dịch chứa X trên tổng số các giao dịch trong D

Ký hiệu: Sup(X) = count(X) / |D|

Giao dịch t chứa X nếu X là tập m c trong I và X  t

Ví d : t = { Bưởi, Cam, Thanh long} và X ={ Bưởi, Cam }

 Độ hỗ trợ tối thiểu (minSup): là ngưỡng do người sử d ng quy định nhỏ

hơn độ hỗ trợ

2.2.1.3 Tập phổ biến

Một tập m c được gọi là tập phổ biến nếu nó có độ hỗ trợ thỏa mãn độ hỗ trợ

tối thiểu minSup.

Gọi S là tập m c trong tập dữ liệu, Nếu Sup(S) > minSup thì S là tập phổ biến

Bảng 2.2 – CSDL mẫu minh họa khai thác tập phổ biến

TID Nội dung giao dịch

Trang 30

= 50%a) ChoX

={B,C,T},

X cóph

ải

là tậ

p ph

ổ biếnkhông?b

tính

độ

hỗ

trợ

của

Y

?

Ta

có:

Trang 31

a) Count(X) = 3; |D|= 6;  Sup(X) =3/6= 50%; Sup(X)  minSup.vậy X là tập phổ biến.

2.2.1.5 Tập phổ biến tối đại

Tập phổ biến tối đại là tập phổ biến và không tồn tại tập nào chứa nó là phổbiến

Ví dụ: Sử d ng CSDL giao dịch bảng 2.2

Cho minSup =50%

− Ta có {B, C, T, S} là tập phổ biến tối đại, Bởi vì{B, C, T, S} là tập phổ biến

và không có tập nào chứa nó là tập phổ biến

− {B, C}là tập phổ biến nhưng không phải là tập phổ biến tối đại, Bởi vì{B, C,

T, S} là tập phổ biến có độ hỗ trợ là 50% chứa nó Tương tự như vậy, {B, C,T} cũng không phải là tập phổ biến tối đại

2.2.1.6 Tính chất Apriori

Tất cả các tập con của tập phổ biến đều là tập phổ biến; nếu một tập không là tập phổ biến thì tất cả các tập chứa nó đều không là tập phổ biến [1, 3, 4]

Trang 33

2.2.2 Một số thuật toán cơ bản

2.2.2.1 Thuật toán Apriori

Apriori là thuật toán nền tảng để tìm các tập phổ biến sử d ng phương pháp sinh ứng viên

Trang 34

L2

Itemset Sup

2nd scan

Trang 35

Hình 2.3 – Minh họa thuật toán Apriori

THUẬT TOÁN APRIORI [1]

Đầu vào:CSDL giao dịch D và ngưỡng phổ biến minSup

Đầu ra: FIs chứa tất cả các tập phổ biến của D

Mã giả:

L k: Các tập phổ biến có kích thước k

L 1 = { i  I: Sup(i)  minSup}

Trang 36

2.2.2.2 Phương pháp dựa trên cây IT-tree

Năm 1997, Zaki và các cộng sự đã phát triển thuật toán Eclat để khai thác tậpphổ biến bằng cách sử d ng cây IT-Tree (Itemset Tidset-tree) Eclat áp d ng lược

đồ tìm kiếm chiều sâu và định dạng dữ liệu theo chiều dọc để khai thác các tập phổbiến Những ưu điểm của cách tiếp cận này là nó chỉ qu t CSDL một lần và nhanhchóng tính toán độ hỗ trợ của các mẫu dựa trên giao giữa 2 tidset [8, 11]

Cấu trúc IT-tree:

Cho X ⊆ I, ta định nghĩa hàm P (X, k) = X [ 1: k ] gồm k phần tử đầu của X

và quan hệ tương đương dựa vào tiền tố như sau [1]:

Trang 37

4) Ngược lại của 1, 2 và 3 thì c(Xi) ≠ c(Xj) ≠ c(Xi ≠ Xj)

Trang 38

Dữ liệu được chuyển sang định dạng dọc

Xây dựng nút gốc (Root) là nút rỗng (null).

Mức 1: là các nút chứa itemset chỉ 1 danh m c dựa trên các danh m c phổ biến thỏa minSup

− B x t(B) = B x 1345 ; C x t(C) = C x 123456 ; D x t(D) = D x 2456

T x t(T) = T x 1356 ; S x t(S) = S x 12345Mức 2: là các nút con chứa itemset gồm 2 danh m c, được xây dựng bằngcách hợp các itemset của các nút mức 1 và giao giữ hai Tidset này:

x 45 không tạo thành nút mới ở mức 2

Và cứ tiếp th c như vậy, các tập phổ biến được liệt kê trong tất cả các nút của câyIT-tree, trong quá trình xây dựng cây It-tree chính là đi tìm các tập phổ biến củaCSDL

Trang 39

{} x 123456

Trang 40

B x 1345 C x 123456 D x 2456 T x 1356 S x 12345

BC x 1345 BT x 135 BS x 1345 CD x 2456 CT x 1356 CS x 12345 DS x 245 TS x 135

BCT x 135 BCS x 1345 BTS x 135 CDS x 245 CTS x 135

BCTS x 135

Hình 2.4 – Cây IT-tree dùng Tidset với minSup =3

THUẬT TOÁN ECLAT [1]

Sự xuất hiện của nhiều lĩnh vực ứng d ng mới, chẳng hạn như tin sinh học

và thương mại điện tử, nhấn mạnh sự cần thiết phải phân tích dữ liệu nhiều chiều.Trong tập dữ liệu microarray biểu hiện gen, có thể có hàng ch c hoặc hàng trămchiều, mỗi chiều tương ứng với mỗi điều kiện thực nghiệm Trong tập dữ liệu hành

Định dạng
Số trang	106
Dung lượng	2,78 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] PGS.TS. Võ Đình Bảy (2016). Bài giảng môn Data Mining. Đại học Công Nghệ Tp.HCM	Khác
[2] PGS.TS. Đỗ Phúc (2013). Giáo trình khai thác dữ liệu. NXB Đại học quốc gia Tp.HCM	Khác
[3] ThS. Lê Đình Thâm (2016). Khai thác dữ liệu với mẫu kích thước lớn. Luận văn thạc sỹ, Đại học Công nghệ TP.Hồ Chí Minh	Khác
[4] R. Agrawal, T. Imielinski, A. Swami (1993). Mining Association Rules between Sets of Items in Large Databases. SIGMOD, pp 207–216	Khác
[5] O. Maimon, L. Rokach Editors (2010). Data Mining and Knowledge Discovery Handbook. Second Edition	Khác
[6] J. Han, M. Kamber (2012). Data Mining: Concepts and Techniques. 3rd edition, M.Kaufmann	Khác
[7] M. Khosrow-Pour Editor (2015). Encyclopedia of Information Science and Technology, 3rd edition, Information Resources Management Association, USA	Khác
[8] M.J. Zaki, S. Parthasarathy, M. Ogihara, W. Li (1997). New algorithms for fast discovery of association rules. KDD, pp 283-286	Khác
[9] F. Zhu, X. Yan, J. Hany, P S. Yuz, H. Cheng (2007). Mining Colossal Frequent Patterns by Core Pattern Fusion. Pacific-Asia Conference on Knowledge Discovery and Data Mining	Khác
[10] M K Sohrabi, A A Barforoush (2012). Efficient colossal pattern mining in high dimensional datasets. Knowledge-Based Systems, Volume 33, pp 41–52	Khác
[11] T-L. Nguyen , B. Vo , V. Snasel (2017). Efịcient Algorithms for Mining Colossal Patterns in High Dimensional Databases. Knowledge-Based Systems, Volume 122, pp 75-89	Khác
[12] M. Dabbiru, M. Shashi (2010). An Efficient Approach to Colossal Pattern Mining. IJCSNS International Journal of Computer Science and Network Security, Volume.10 No.1	Khác
[13] K.Prasanna, M.Seetha (2015). A Doubleton Pattern Mining Approach for Discovering Colossal Patterns from Biological Dataset. International Journal of Computer Applications, Volume 119, No.21	Khác
[14] B. Vo, H T. Nguyen (2015). Mining frequent closed itemsets from multidimensional databases. Int. J. Computational Vision and Robotics, Volume. 5, No. 3	Khác
[15] B. Vo , T-P. Hong, B. Le (2012). DBV-Miner: A Dynamic Bit-Vector approach for fast mining frequent closed itemsets. Expert Systems with Applications, Volume 39, pp 7196–7206	Khác