‘Khai thác tập phổ biến’ được xem như là một bài toán rất quan trọng trongkhai thác dữ liệu đã được nghiên cứu rộng rãi trong nhiều năm qua.. Tuy nhiên, đây là những thuật toán chỉ hiệu
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM
-ĐẶNG VĂN QUANG
KHAI THÁC MẪU KHỔNG LỒ TRÊN
CƠ SỞ DỮ LIỆU NHIỀU CHIỀU
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM
-ĐẶNG VĂN QUANG
KHAI THÁC MẪU KHỔNG LỒ TRÊN
CƠ SỞ DỮ LIỆU NHIỀU CHIỀU
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc
sĩ)
Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được sửa chữa (nếu có)
Chủ tịch Hội đồng đánh giá LV
Trang 4NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: ĐẶNG VĂN QUANG Giới tính: Nam
Ngày, tháng, năm sinh: 15/03/1972 Nơi sinh: Quảng Tín
Chuyên ngành: Công Nghệ Thông Tin MSHV:1541860039
I- Tên đề tài:
KHAI THÁC MẪU KHỔNG LỒ
TRÊN CƠ SỞ DỮ LIỆU NHIỀU CHIỀU
II- Nhiệm vụ và nội dung:
− Biểu diễn CSDL trên ma trận bit
− Khai thác CSDL theo cấu trúc cây tìm kiếm
− Khai thác mẫu khổng lồ trên CSDL nhiều chiều
− Đề xuất thuật toán, xây dựng chương trình thực nghiệm
− So sánh và đánh giá kết quả thực nghiệm
III- Ngày giao nhiệm vụ: 15/03/2017
IV- Ngày hoàn thành nhiệm vụ: 31/08/2017
V- Cán bộ hướng dẫn: TS PHẠM THỊ THIẾT
CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký) (Họ tên và chữ ký)
Trang 5LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kếtquả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳcông trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồngốc
Học viên thực hiện Luận văn
(Ký và ghi rõ họ tên)
Đặng Văn Quang
Trang 6LỜI CÁM ƠN
Chân thành cảm ơn TS Phạm Thị Thiết, giảng viên đã hướng dẫn tôi thực hiệnluận văn này
Cảm ơn quý Thầy Cô Khoa Công nghệ thông tin Trường Đại học Công nghệ
Tp HCM đã giảng dạy và cung cấp cho tôi những kiến thức quý báu trong suốt thờigian học tập và nghiên cứu thực hiện luận văn
Tôi gửi lời cảm ơn đến gia đình, người thân và bạn bè đã luôn quan tâm, giúp
đỡ tôi trong suốt thời gian học tập, nghiên cứu hoàn thành luận văn
Luận văn khó có thể tránh khỏi những sai sót, rất mong nhận được ý kiến đónggóp của quý Thầy Cô, bạn bè, và những người luôn quan tâm, ủng hộ tôi
Chân thành cảm ơn!
Học viên thực hiện Luận văn
Đặng Văn Quang
Trang 7TÓM TẮT
Ngày nay khoa học tiến bộ, chúng ta đang bị cuốn hút bởi sự bùng nổ của dữliệu, dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và dữliệu tiếp thị Các nhà khoa học luôn quan tâm đến nguồn tài nguyên quý báu này
Do đó, Khám phá tri thức tiềm ẩn trong CSDL là m c tiêu chung của ngành khoahọc khai thác dữ liệu nhằm đem lại lợi ích cho con người Bên cạch đó là nhữngkhó khăn đầy thách thức cho ngành khoa học này
‘Khai thác tập phổ biến’ được xem như là một bài toán rất quan trọng trongkhai thác dữ liệu đã được nghiên cứu rộng rãi trong nhiều năm qua Có rất nhiềuthuật toán đã được phát triển để khai thác tập phổ biến hiệu quả, như Apriori, Eclat,FP-Growth, PrePost, và FIN Tuy nhiên, đây là những thuật toán chỉ hiệu quả khikhai thác tập phổ biến trên CSDL thương mại truyền thống, thường có chứa rất
nhiều các giao tác và mỗi giao tác lại chứa rất ít các m c.Trên thực tế có nhiều
CSDL đặc biệt, chẳng hạn như dữ liệu sinh học-gọi là dữ liệu nhiều chiều, được mô
tả có ít các giao tác và trong mỗi giao tác có chứa rất nhiều m c Các thuật toán trênkhông thể chạy khi ngưỡng hỗ trợ tối thiểu nhỏ bởi vì không gian tìm kiếm là rấtlớn, các ứng viên tăng theo cấp số mũ trong quá trình khai thác Do đó các thuậttoán này không phù hợp với dữ liệu nhiều chiều
Điều này dẫn đến nảy sinh ra bài toán khai thác mẫu khổng lồ trên CSDLnhiều chiều.Trong năm 2012, Sohrabi và Barforoush đề xuất thuật toán BVBUCkhai thác mẫu khổng lồ dựa trên giản đồ từ dưới lên Tuy nhiên, BVBUC còn nhiềuhạn chế vì nó tạo ra rất nhiều các ứng viên và tốn nhiều thời gian để kiểm tra cácứng viên này Nghiên cứu trong luận văn này tập trung vào xây dựng chiến lượckhai thác mẫu khổng lồ trên CSDL nhiều chiều hiệu quả hơn bằng cách đề xuấtthuật toán gọi là IBVBUC dựa trên BVBUC áp d ng phương pháp khai thác từ dướilên theo chiều dọc, sử d ng ma trận bit n n tập dữ liệu để dễ dàng sử d ng hơn.Ngoài ra, kỹ thuật cắt tỉa để nâng cao hiệu quả trong quá trình khai thác cũng được
sử d ng Cuối cùng, cài đặt, so sánh và đánh giá thuật toán
Trang 8ABSTRACT
Nowadays, science made its progress We’re being attracted by the explosion
of data, Science data, Medical data, Demography data, Finance data, and Marketingdata The scientists always care about these valuable resources Hence, discoveringhidden knowledge in database is common goal of the information technologyscience in order to bring benefit for human Besides, those are the very challengingfor these sciences
‘Frequent itemset mining’ is consider a very important issue in datadeveloping that has been extensively studied over the years There are manyalgorithms that have been developed to effectively frequent itemset mining, such asApriori, Eclat, FP-Growth, PrePost, and FIN However, these are only effectivealgorithms for common exploitation on database traditional commercial, usuallycontains a lot of transaction and each transaction contains very few items Onreality, there are many special database, such as Biomedical data is characterized byfewer transaction, and each transaction contains a large number of items, calledhigh dimensional The algorithms can not operate when the minimum Supportthreshold is small because the search space is very large, the candidates increaseexponentially during the exploiting process Therefore, these algorithms are notsuitable for multi-dimensional data
This led to the problem of exploiting colossal patterns on multi-dimensionaldatabase In 2012, Sohrabi and Barfroush proposed BVBUC algorithm exploitscolosal pattern base on a bottom-up schema However, BVBUC has manylimitations as it creates a lot of candidates and takes a lot of time to test thesecandidates The study in this thesis focuses on developing a strategy for theextraction of colossal patterns in more efficient multi-dimensional databases byproposing an algorithm called IBVBUC base on BVBUC that applies a bottom-upfollow vertical exploiting method, use a bit matrix to compress data to make it moreeasy to use In addition, pruning techniques to improve efficiency during harvestingare also used Finally installing, comparing and evaluating algorithm
Trang 9MỤC LỤC
LỜI CAM ĐOAN i
LỜI CÁM ƠN ii
TÓM TẮT iii
ABSTRACT iv
MỤC LỤC .v DANH MỤC CÁC TỪ VIẾT TẮT vii
DANH MỤC CÁC BẢNG viii
CHƯƠNG 1: TỔNG QUAN .1
1.1 Lý do chọn đề tài 1
1.2 M c tiêu, nội dung nghiên cứu 2
1.3 Phương pháp nghiên cứu 2
1.4 Phạm vi đề tài 3
1.5 Cấu trúc luận văn 3
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 4
2.1 Tổng quan về khai thác dữ liệu 4
2.1.1 Khám phá tri thức 4
2.1.2 Khai thác dữ liệu 6
2.1.3 Các kỹ thuật khai thác dữ liệu 9
2.1.4 Ứng d ng trong khai thác dữ liệu 9
2.1.5 Những thách thức trong khai thác dữ liệu 10
2.2 Tổng quan về khai thác tập phổ biến 11
2.2.1 Một số khái niệm cơ bản 11
2.2.2 Một số thuật toán cơ bản 14
2.3 Khái quát về dữ liệu nhiều chiều 18
2.3.1 Giới thiệu 18
2.3.2 Những thách thức trên CSDL nhiều chiều 19
2.3.3 Các kỹ thuật cơ bản trên CSDL nhiều chiều .19
2.4 Khái quát về mẫu khổng lồ 23
2.5 Lý thuyết khai thác mẫu khổng lồ trên CSDL nhiều chiều 25
Trang 102.5.1 Giới thiệu 25
2.5.2 Định nghĩa bài toán 27
2.5.3 Biểu diễn tập dữ liệu trên ma trận bit (bit-wise) 28
2.5.4 Các chiến lược khai thác 32
2.5.5 Khai thác mẫu khổng lồ 35
CHƯƠNG 3: THUẬT TOÁN KHAI THÁC MẪU KHỔNG LỒ 42
3.1 Công trình liên quan 42
3.1.1 Thuật toán BVBUC 42
3.1.2 Minh họa thuật toán BVBUC 43
3.2 Thuật toán đề xuất (thuật toán IBVBUC) .46
3.2.1 Định nghĩa 46
3.2.2 Một số hạn chế của BVBUC 48
3.2.3 Xây dựng thuật toán IBVBUC 49
3.2.4 Thuật toán IBVBUC 49
3.2.5 Minh họa thuật toán IBVBUC 51
3.3 Nhận x t 53
CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM .55
4.1 Môi trường và CSDL thực nghiệm .55
4.1.1 Môi trường thực nghiệm 55
4.1.2 CSDL thực nghiệm 55
4.2 Kết quả thực nghiệm 56
4.2.1 Giao diện thực nghiệm 56
4.2.2 Kết quả thực nghiệm 58
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .66
5.1 Kết luận 66
5.2 Hướng phát triển 67
TÀI LIỆU THAM KHẢO 68
Trang 11DANH MỤC CÁC TỪ VIẾT TẮT
colossal
Khai thác mẫu khổng lồ duyệt cây từ dưới lên theo chiều dọc
Trang 12DANH MỤC CÁC BẢNG
Bảng 2.1 – Minh họa CSDL giao dịch giỏ hàng 11
Bảng 2.2 – CSDL mẫu minh họa khai thác tập phổ biến 12
Bảng 2.3 – CSDL mẫu minh họa khai thác mẫu khổng lồ 28
Bảng 3.1 – CSDL mẫu minh họa thực nghiệm 44
Bảng 4.1– Bảng mô tả CSDL thực nghiệm 55
Bảng 4.2– Bảng so sánh thời gian và số nút trên cây 58
Trang 13DANH MỤC CÁC HÌNH
Hình 2.1 – Quá trình khám phá tri thức [7] 5
Hình 2.2 – Sự tiến triển khoa học kỹ thuật, hệ CSDL 8
Hình 2.3 – Minh họa thuật toán Apriori 15
Hình 2.4 – Cây IT-tree dùng Tidset với minSup =3 18
Hình 2.5 – Một ví d về mẫu khổng lồ 24
Hình 2.6 – Dữ liệu tổng hợp có chứa một số mẫu khổng lồ 24
Hình 2.7 – Ma trận bit của CSDL Bảng 2.3 28
Hình 2.8 – Cắt tỉa ma trận bit 29
Hinh 2.9 – ColAndVectors 30
Hình 2.10 – Kiểm tra tập đóng ad 31
Hình 2.11 – Kiểm tra tập phổ biến đóng eg 31
Hình 2.12 – Cây tìm kiếm theo chiều ngang 32
Hình 2.13 – Cây tìm kiếm từ dưới lên theo chiều dọc 34
Hình 2.14 – Cây tìm kiếm từ trên xuống theo chiều dọc 35
Hình 2.15 – Khai thác từ dưới lên 37
Hình 2.16 – Cây được cắt tỉa đến mức minSup .39
Hình 2.17 – Mức 1 của cây đã lược bỏ đến minSup 40
Hình 2.18 – Nút 1 và con của nó 40
Hình 2.19 – Nút 12 và con của nó 41
Hình 2.20 – Nut 13 và con của nó 41
Hình 2.21 – Nút 14 và con của nó 41
Hình 2.22 – Nút 15 và con của nó 41
Hình 3.1 – Biểu diễn ma trận bit cho CSDL giao dịch 44
Hình 3.2 – Ma trận bit sau khi lược bỏ các cột không thỏa minSup 44
Hình 3.3 – Cây tìm kiếm từ dưới lên theo chiều dọc (CSDL Bảng 3.1) 45
Hình 3.4 – Ma trận bit đã lược bỏ dòng và cột 52
Hình 3.5 – Minh họa xây dựng cây đến mức 2 52
Hình 3.6 – Minh họa xây dựng cây đến mức minSup 53
Trang 14Hình 3.7 – Cậy được xây dựng hoàn chỉnh đến mức minSup với CSDL bảng 3.1 53
Hình 4.1a – Giao diện màn hình chính của chương trình ở Step 1 56
Hình 4.1b – Giao diện màn hình chính của chương trình ở Step 2 57
Hình 4.1c – Giao diện màn hình chính của chương trình ở Step 3 57
Hình 4.2 – dữ liệu Chess 50 transactions 59
Hình 4.3 – dữ liệu Accidents 80 transactions 60
Hình 4.4– dữ liệu Mushroom 50 transactions 60
Hình 4.5 – dữ liệu Retails 50 transactions 61
Hình 4.6 – dữ liệu Mushroom 90 transactions 61
Hình 4.7– dữ liệu Retails 100 transactions 62
Hình 4.8 – dữ liệu Accidents 100 transactions 63
Hình 4.9 – dữ liệu Accidents 100 transactions với minSup=3% 64
Hình 4.10 – dữ liệu Mushroom 100 transactions với minSup=3% 64
Trang 151
Trang 161.1 Lý do chọn đề tài
CHƯƠNG 1: TỔNG QUAN
Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin đãlàm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăngnhanh một cách nhanh chóng Bên cạnh đó, việc tin học hóa một cách nhanh chóngcác hoạt động sản xuất, thương mại, địa chất, y tế,… cũng như nhiều lĩnh vực hoạtđộng khác đã tạo ra cho chúng ta một kho dữ liệu khổng lồ Hàng triệu cơ sở dữ liệu(CSDL) đã được sử d ng, trong đó có nhiều CSDL cực lớn Sự bùng nổ này đã dẫntới một yêu cầu cấp thiết là cần có những kỹ thuật và công c mới để tự độngchuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích
Với lượng dữ liệu khổng lồ và luôn gia tăng theo thời gian, rõ ràng các phươngpháp phân tích dữ liệu truyền thống sẽ không còn hiệu quả, gây tốn k m và dễ dẫnđến những kết quả sai lệch Để có thể khai thác hiệu quả các CSDL lớn, một lĩnh
vực khoa học mới đã ra đời: Khám phá tri thức trong CSDL (Knowledge Discovery
in Databases - KDD) Khai thác dữ liệu (Data Mining - DM) là một công đoạn
chính trong quá trình khám phá tri thức, nhằm tìm kiếm, phát hiện các tri thức mới,hữu ích tiềm ẩn trong các cơ sở dữ liệu lớn
Khai thác tập phổ biến là một trong những vấn đề cốt lõi trong khai thác dữ liệu,
là một trong hai giai đoạn rất quan trọng trong khai thác luật kết hợp Việc khai tháctập phổ biến thường được mô tả là một quá trình lấy thông tin có giá trị từ CSDLlớn, nó bắt nguồn từ dạng mẫu có sẵn tồn tại trong CSDL, các mẫu này có khuynhhướng gom nhóm lại với nhau và được định nghĩa như là một mô hình khai thác.Nhiều thuật toán đã được xây dựng để hỗ trợ quá trình khai thác tập phổ biếntrong các CSDL thương mại truyền thống như thuật toán Apriori, thuật toán cải tiến
Apriori (Apriori-TID), thuật toán FP-Growth, thuật toán IT-Tree, v.v Với CSDL
dạng này thường bao gồm rất nhiều các giao tác nhưng mỗi giao tác lại gồm ít m c.Trong thực tế nhiều CSDL có số chiều rất lớn, đặc biệt như CSDL địa chất, y tế
và phân tích các chuổi ADN: có số lượng m c rất lớn, nhưng các giao tác khôngnhiều dẫn đến việc khai thác theo phương pháp truyền thống thường gặp hạn chế vềkhông gian lưu trữ cũng như hiệu năng tính toán do số lượng các ứng viên xuất hiện
Trang 17trong quá trình khai thác tăng theo hàm số hàm mũ, dữ liệu được xuất ra dư thừanhưng không có đủ thông tin phù hợp cho một số ứng d ng, vv… Để giải quyếtnhững vấn đề này, nội dung nghiên cứu của luận văn sẽ tập trung vào việc nghiêncứu, tìm hiểu về khai thác dữ liệu với mẫu có kích thước rất lớn trên CSDL nhiềuchiều và các mẫu này được gọi là mẫu khổng lồ.
1.2 Mục tiêu, nội dung nghiên cứu
Nội dung của luận văn là tập trung nghiên cứu các chiến lược khai thác dữ liệuvới mẫu có kích thước khổng lồ trên CSDL nhiều chiều, trình bày một phương phápkhai thác từ dưới lên theo chiều dọc để tiến hành khai thác các mẫu khổng lồ phổ
biến trên CSDL nhiều chiều Trong thuật toán, sử d ng một ma trận bit (bit matrix)
n n dữ liệu để dễ dàng sử d ng trong quá trình khai thác, xây dựng kỹ thuật khaithác dữ liệu dựa trên cấu trúc cây tìm kiếm duyệt theo giao tác Bên cạnh đó, áp
d ng phương pháp cắt tỉa nhằm lược bỏ các nút không cần thiết trên cây để rút ngắnthời gian khai thác
Từ những nghiên cứu này, luận văn hướng đến m c tiêu là đề xuất thuật toánkhai thác các mẫu khổng lồ phổ biến trên CSDL nhiều chiều hiệu quả hơn Cuốicùng, cài đặt thuật toán và đánh giá kết quả thực nghiệm
1.3 Phương pháp nghiên cứu
− Nghiên cứu tổng quan về khám phá tri thức-khai thác dữ liệu, từ đó có thể
nắm bắt được các luận điểm, giải thuật cơ bản để làm tiền đề cho việcnghiên cứu
− Tìm hiểu một số kỹ thuật và thuật toán khai thác tập phổ biến để tìm cácphương pháp tăng tốc độ khai thác trong CSDL có số lượng m c lớn
− Nghiên cứu, tìm hiểu về mẫu khổng lồ (colossal pattern)
− Tìm hiểu về dữ liệu nhiều chiều (high dimensional datasets)
− Tìm hiểu, nghiên cứu các phương pháp khai thác mẫu khổng lồ phổ biến
− Nghiên cứu tìm hiểu thuật toán thích hợp để khai thác mẫu khổng lồphổ biến trên dữ liệu nhiều chiều một cách có hiệu quả
− Xây dựng chương trình thực nghiệm , so sánh, đánh giá kết quả đạt được
Trang 181.4 Phạm vi đề tài
phạm vi nghiên cứu của luận văn là từ các bước cơ bản nhất của quy trìnhkhám phá tri thức cho đến các thuật toán về khai thác dữ liệu, khai thác tập phổbiến, khai thác mẫu khổng lồ trên CSDL nhiều chiều duyệt từ dưới lên theochiều dọc, xây dựng chương trình thực nghiệm, so sánh, đánh giá kết quả
1.5 Cấu trúc luận văn
Luận văn gồm có 5 chương:
− Chương 1: Giới thiệu tổng quan nhằm hướng tới bối cảnh thực tiễn, địnhhướng nghiên cứu của luận văn
− Chương 2: Trình bày tổng quan về khám phá tri thức, khai thác dữ liệu, khaithác luật kết hợp và phương pháp khai thác tập phổ biến Giới thiệu phươngpháp khai thác mẫu khổng lồ trên CSDL nhiều chiều với chiến lược khaithác từ dưới lên theo chiều dọc
− Chương 3: Nghiên cứu mặt hạn chế của thuật toán BVBUC Nghiên cứu
và đề xuất thuật toán cải tiến nhằm nâng cao hiệu quả về thời gian khaithác dựa trên cấu trúc cây tìm kiếm từ dưới lên theo chiều dọc
− Chương 4: Giới thiệu môi trường thực nghiệm, CSDL dùng để thực nghiệm
So sánh về thời gian thực hiện giữa BVBUC và thuật toán đề xuất
− Chương 5: Kết luận và hướng phát triển
Trang 19CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về khai thác dữ liệu
2.1.1 Khám phá tri thức
2.1.1.1 khái niệm
− Tri thức: Tri thức là hệ thống hóa thông tin hay dữ liệu bằng một cách c thể.Chúng có các mối quan hệ với nhau trước khi được nhận thức, phân tích,khám phá, và nghiên cứu để có thể truyền đạt Nói cách khác, tri thức có thểđược xem như là kết quả của sự hiểu biết, hoặc là dữ liệu có độ trừu tượng và
tổ chức ở mức độ cao
− Khám phá tri thức [3,5]: Khám phá tri thức (KPTT) là quá trình xác định tính
hợp lệ, mới lạ, tiềm ẩn, hữu ích và dễ hiểu từ các tập dữ liệu lớn và phức tạp.KPTT trong CSDL là phân tích, thăm dò và mô hình hóa kho dữ liệu lớnnhằm rút trích các thông tin có ích, xác định các giá trị, quy luật tiềm ẩntrong các khuôn mẫu hay mô hình dữ liệu
2.1.1.2 Quá trình khám phá tri thức
Khám phá tri thức từ CSDL là quá trình sử d ng các phương pháp và công
c tin học, là một hệ thống bao gồm nhiều hoạt động tương tác thường xuyên giữacon người và CSDL, trong đó con người là trung tâm điều khiển quá trình Do đó,người sử d ng hệ thống phải có kiến thức về lĩnh vực cần khám phá để có thể chọnđược tập con dữ liệu tốt, từ đó phát hiện các mẫu phù hợp với m c tiêu đề ra Đóchính là tri thức được rút trích từ CSDL, thường để ph c v cho việc giải quyết mộtloạt nhiệm v nhất định cho từng lĩnh vực c thể Tuy vậy, quá trình khám phá trithức mang tính chất hướng nhiệm v vì không phải mọi tri thức tìm thấy đều áp
d ng được trong thực tế [3,6]
Tiến trình Khám phá tri thức từ CSDL bao gồm 5 giai đoạn Tại mỗi giaiđoạn, tiến trình có thể quay lui qua một hay nhiều giai đoạn [2, 7]:
Trích chọn dữ liệu : Giai đoạn này bao gồm việc trích chọn ra các tập dữ
liệu cần được khai thác, hoặc tích hợp các tập dữ liệu nhỏ, rời rạc hoặc dữ liệumẫu từ các tập dữ liệu lớn ( data warehouse, data repositories, databases) theomột số tiêu chí nhất định
Trang 20Tiền xử lý dữ liệu: Giai đoạn này bao gồm làm sạch dữ liệu và tiền xử lý để
có được dữ liệu nhất quán Áp d ng một số kỷ thuật để loại bỏ dữ liệu khôngđầy đủ, nhiễu, và các dữ liệu không phù hợp
Biến đổi dữ liệu: Giai đoạn này sử d ng các phương pháp làm giảm
hoặc chuyển đổi kích thước dữ liệu hoặc hợp nhất thành dạng thích hợp đểphù hợp với việc khai thác
Khai thác dữ liệu: Giai đoạn này rất quan trọng, bao gồm tìm kiếm các
mẫu đặc biệt được quan tâm tùy thuộc vào m c đích khai thác dữ liệu
(KTDL); Áp d ng một số kỹ thuật KPTT để khai thác, trích chọn những mẫu
thông tin, những mối liên hệ trong dữ liệu
Biểu diễn / Đánh giá: Giai đoạn này bao gồm việc biểu diễn và đánh giá
mô hình khai thác; Những tri thức khai thác được, sẽ được biến đổi và trìnhbày dưới dạng dễ hiểu như luật, cây, bảng biểu hay đồ thị… Giai đoạn nàycũng đánh giá các tri thức khai thác được theo một số tiêu chí dựa trên m
c đích
KTDL
Trang 21Biến đổi dữ liệuTiền xử lý dữ liệu
Khai thác dữ liệu
Trình bày/đánh giá
Tri thứcTrích lọc dữ liệu
Dữ liệu Dữ liệu
đã đượctrích lọc
Dữ liêu đã được xử lý
Dữ liêu
đã đượcchuyển
Trang 22lặp lại, liên quan đến nhiều bước với nhiều quyết định được thực hiện bởi người sử
d ng
Về cơ bản KPTT và KTDL, một số ứng d ng được phát triển rất đa dạng
trong nhiều lĩnh vực Nhiều lĩnh vực nỗi lên nhanh chóng từ CSDL lớn (big
databases) ngày càng tăng Tuy nhiên, có nguy cơ lãng phí các giá trị và thông tin
dồi giàu trong các CSDL này, trừ khi các kỹ thuật thích hợp được áp d ng để tríchxuất tri thức hữu ích Việc ứng d ng các kỹ thuật KTDL thành công có thể được tìmthấy rộng rãi và đa dạng hóa trong nhiều lĩnh vực ứng d ng, như tin sinh học, sinhthái học, tài chính, công nghiệp, tiếp thị, nghiên cứu khoa học, viễn thông và cáclĩnh vực ứng d ng khác
2.1.2 Khai thác dữ liệu
2.1.2.1 Khai thác dữ liệu là gì:
Khai thác dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong CSDL C thểhơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn chưabiết nhưng hữu ích từ các CSDL lớn [3] Đây là giai đoạn cốt lõi của quá trìnhKPTT, liên quan đến việc suy ra các thuật toán khai thác dữ liệu, phát triển mô hình
và khám phá những mẫu chưa được biết Mô hình này được sử d ng để hiểu đượchiện tượng từ dữ liệu, để phân tích và dự đoán [5]
Khai thác dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệuthành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiếntrình ra quyết định [2]
Có thể chia KTDL thành 2 dạng chính [2]:
KTDL theo hướng kiểm tra: Người dùng đề xuất giả thiết, hệ thống kiểm
tra tính đúng đắn của giả thiết (bao gồm: Truy vấn, báo cáo, phân tích đachiều, phân tích thống kê, …)
KTDL theo hướng khám phá: Tìm kiếm các tri thức tiềm ẩn trong CSDL
bằng cách tiến hành xem x t tất cả các giả thiết Do không gian tìm kiếm lớn,nên rất nhiều heuristic đã được đề xuất nhằm nâng cao hiệu suất của cácthuật giải tìm kiếm
Trang 232.1.1.2 Tại sao phải khai thác dữ liệu [6]
"Chúng ta đang sống trong thời đại thông tin" là một câu nói phổ biến; Tuynhiên trên thực tế, chúng ta đang sống trong thời đại dữ liệu Hàng Terabyte hoặcPetabyte dữ liệu được đổ vào mạng máy tính của chúng ta, World Wide Web(WWW), và các thiết bị lưu trữ dữ liệu khác nhau mỗi ngày từ kinh doanh, xã hội,khoa học, kỹ thuật, y học, và trong hầu hết các khía cạnh của cuộc sống hàng ngày
Sự tăng trưởng bùng nổ của lượng dữ liệu sẵn có là kết quả của việc tin học hoá xãhội và sự phát triển nhanh chóng của công c thu thập và lưu trữ dữ liệu mạnh mẽ.Các doanh nghiệp trên toàn thế giới tạo ra tập dữ liệu khổng lồ, bao gồm các giaodịch bán hàng, chứng khoán, hồ sơ giao dịch, mô tả sản phẩm, khuyến mãi bánhàng, hồ sơ công ty và hiệu suất phản hồi của khách hàng Ví d : các cửa hàng lớn,chẳng hạn như Wal-Mart, xử lý hàng trăm triệu giao dịch mỗi tuần tại hàng ngànchi nhánh xung quanh Thế giới Các thực tiễn khoa học và kỹ thuật tạo ra các đơnhàng petabytes dữ liệu cao một cách liên t c, từ viễn thám, đo quá trình, thí nghiệmkhoa học, Thực hiện hệ thống, quan sát kỹ thuật và giám sát môi trường
Các mạng viễn thông toàn cầu mang hàng ch c petabytes lưu lượng dữ liệumỗi ngày Ngành y tế tạo ra lượng dữ liệu khổng lồ từ hồ sơ bệnh án, theo dõi bệnhnhân và ảnh y tế Hàng tỷ lượt tìm kiếm Web được hỗ trợ bởi các công c tìm kiếm
và xử lý hàng ch c petabytes dữ liệu hàng ngày Cộng đồng và phương tiện truyềnthông xã hội đã trở thành nguồn dữ liệu ngày càng quan trọng, sản xuất hình ảnh kỹthuật số, video, blog, cộng đồng Web, và các loại mạng xã hội khác nhau Danhsách các nguồn tạo ra số lượng lớn dữ liệu là vô tận Dữ liệu đang phát triển nhanhchóng, rộng rãi và khối lượng khổng lồ này làm cho chúng ta đang thật sự là thờiđại của dữ liệu Rất cần thiết một công c mạnh mẽ và linh hoạt để tự động khaithác thông tin có giá trị từ số lượng dữ liệu to lớn và để biến đổi dữ liệu đó thành trithức có ích Sự cần thiết này đã dẫn đến sự ra đời của khai thác dữ liệu Lĩnh vựcnày còn trẻ, năng động và hứa hẹn Khai thác dữ liệu đã và sẽ tiếp t c thực hiệnnhững bước tiến vĩ đại trong cuộc hành trình của chúng ta từ thời đại dữ liệu trởthành thời đại thông tin
M c đích của việc thu thập và lưu trữ các kho dữ liệu khổng lồ được liệt kêdưới đây nhằm phát hiện các tri thức mới có ích cho con người Tập hợp các dữ liệu
Trang 24được thu thập qua các thời kỳ như sau:
Tập hợp dữ liệu và khởi tạo CSDL
(tới c u ối nhữn g năm 1960)
Hệ quản trị CSDL
(những năm 1970 đến những năm đầu 1980)
- Hệ CSDL và phân cấp mạng
- Công c mô hình dữ liệu: mô hình thực thể
- Phương pháp đánh chỉ số và truy cập: cây
B+, hàm băm
- Ngôn ngữ truy vấn SQL
- Giao diện người dùng, nhập liệu và kết xuất
- Xử lý và tối ưu hóa truy vấn
- Quản lý giao dịch, Điều khiển tranh chấp và
ph c hồi
- Xử lý giao dị ch trự c tu yế n (OLTP)
Trang 25Hệ CSDL tiến tiến
(những năm giữa 1980 đến nay)
- Mô hình dữ liệu tiên tiến: Quan hệ mở rộng,
quan hệ-đối tượng, quan hệ suy diễn.
- Quản lý dữ liệu tiên tiến: không gian, thời
gian, đa phương tiện, cấu trúc tuần tự, khoa
học, ứng d ng khoa học, đối tượng động
- Dữ liệu luồng và hệ dữ liệu vật lý ảo
- Hệ CSDL dựa trên web (XML, ngôn ngữ
- An ninh và bảo mật dữ liệu
Phân tích dữ liệu tiên tiến
(những năm cuối 1980 đến nay)
- Kho dữ liệu và OLAP
- Khai thác dữ liệu và khám phátri thức: Phân lớp, phân c m, kếthợp, phân tích mẫu, phân tíchngoại lai…
- Kiểu dữ liệu phức tạp: Luồng,chuổi, văn bản, không gian, thờigian, đa phương tiện, web…
- Ứng d ng KTDL: Thuong mại,
xã hội, ngân hàng, viễn thông,khoa học và ứng d ng khoa học,web cá nhân, báo đời sống…
- Khai thác và trao đổi dữ liệu:Khai thác dữ liệu ẩn, bảo mậtkhai thác dữ liệu, mạng thôngtin, hệ khuyến cáo
Hệ thống thông tin trong tương lai
(hiện=nay đế n tuon g lai )
Hình 2.2 – Sự tiến triển khoa học kỹ thuật, hệ CSDL
Trang 26Khai thác dữ liệu có thể được xem như là kết quả tiến hóa tự nhiên của côngnghệ thông tin CSDL và công nghiệp quản lý dữ liệu phát triển một số chức năng
quan trọng (Hình2.2): thu thập dữ liệu và tạo CSDL, quản lý dữ liệu (bao gồm cả
lưu trữ dữ liệu, thu hồi và xử lý CSDL giao dịch), phân tích dữ liệu tiên tiến (bao gồm kho dữ liệu và khai thác dữ liệu) Sớm phát triển cơ chế thu thập dữ liệu và
CSDL ph c v như là một điều kiện tiên quyết để phát triển các cơ chế lưu trữ
và ph c hồi dữ liệu hiệu quả, cũng như truy vấn và xử lý giao dịch Ngày nay, trênthực tế nhiều hệ thống CSDL cung cấp truy vấn và xử lý giao dịch một cáchthông thường Phân tích dữ liệu tự nhiên nâng cao trở thành bước tiếp theo
2.1.3 Các kỹ thuật khai thác dữ liệu
Các kỹ thuật Khai thác dữ liệu được kế thừa, kết hợp và mở rộng từ các kỹ thuậtđược nghiên cứu từ trước như học máy, nhận dạng, thống kê, các mô hình đồ thị,mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia,… Tuy nhiên, kỹ thuậtKhai thác dữ liệu có ưu thế hơn hẳn các phương pháp trước đó, đem lại nhiều triểnvọng trong việc ứng d ng phát triển nghiên cứu khoa học cũng như áp d ng vàothực tế
Các kỹ thuật Khai thác dữ liệu thể được chia làm 2 nhóm chính sau:
Kỹ thuật khai thác dữ liệu mô tả: kỹ thuật này có nhiệm v mô tả về các tính
chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có Nhóm kỹ
thuật này gồm các phương pháp: phân nhóm (Clustering), tổng hợp hóa (Summerization), Phát hiện sự biến đổi và độ lệch (Change and deviation
detection), phân tích luật kết hợp (Association Rules),
Kỹ thuật khai thác dữ liệu dự đoán: kỹ thuật này đưa ra các dự đoán dựa vào
các suy diễn trên dữ liệu hiện thời Nhóm kỹ thuật này gồm các phương
pháp: phân lớp (Classification), hồi quy (Regression),
2.1.4 Ứng dụng trong khai thác dữ liệu
KTDL có nhiều ứng d ng trong thực tế, một số ứng d ng điển hình như:
Ứng d ng trong Ngân hàng:
− Xây dựng mô hình dự báo rủi ro tín d ng
− Xây dựng quy luật của thị trường chứng khoán và đầu tư bất động
Trang 27Ứng d ng trong Thương mại điện tử:
− Công c tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng
− Phân tích khách hàng duyệt web
− Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thịphù hợp với loại khách hàng trong một phân khu thị trường nhấtđịnh.v.v
Ứng d ng trong Công nghệ sinh học và dược phẩm:
− Xây dựng công c KTDL trực quan cho ph p phát hiện sự hiện diệncủa dược chất, phân tích dữ liệu di truyền.v.v
Ứng d ng Quản lý nhân sự:
− Giúp nhà tuyển d ng chọn ứng viên thích hợp nhất theo nhu cầu củacông ty
− Phát hiện giả mạo thẻ trong lĩnh vực viễn thông
− Phát hiện dùng thẻ tín d ng giả trên mạng và là công c hữu ích chodịch v quản lý rủi ro cho thương mại điện tử
− Phát hiện xâm nhập mạng trái ph p.v.v
2.1.5 Những thách thức trong khai thác dữ liệu
Rất nhiều các giải pháp mới luôn được đề xuất trong khai thác dữ liệu, nhưng trên thực tế vẫn gặp nhiều khó khăn và thách thức như:
− Mức độ nhiễu cao trong KTDL: Các trường dữ liệu không phù hợp, bị thiếuhoặc bị nhiễu gây nên khó khăn trong quá trình khai thác, vì vậy, tiêu chuẩnxây dựng giải thuật loại bỏ nhiễu ngày càng trở nên quan trọng hơn
− Kích thước CSDL lớn: Các tập dữ liệu trong KTDL thường có kích thước rất
lớn (tera-byte) và liên t c gia tăng Với kích thước CSDL lớn, tiêu tốn rất
nhiều thời gian I/O, và thời gian xử lý mặc dù tài nguyên máy tính luôn đượccải thiện Vì vậy, vận d ng các kỹ thuật xác suất, lấy mẫu, đệm, song song vàtăng dần vào các giải thuật KTDL trở nên quan trọng
− Các kỹ thuật trong KPDL là hướng tác v và hướng dữ liệu: Thay vì tậptrung xử lý tri thức như trong máy học, phát triển trong KPDL dựa trên tính
Trang 28TID Sản phẩm
1 Bưởi, Cam, Thanh long, Sầu riêng
2 Cam, Dứa, Sầu riêng
3 Bưởi, Cam, Thanh long, Sầu riêng
4 Bưởi, Cam, Dứa, Sầu riêng
5 Bưởi, Cam, Dứa, Thanh long, Sầu riêng
6 Bưởi, Cam, Thanh long
đặc thù của dữ liệu trong từng ứng d ng c thể
2.2 Tổng quan về khai thác tập phổ biến
Khai thác tập phổ biến để tìm mối quan hệ giữa các m c (item) trong CSDL
là bài toán quan trọng trong khai thác dữ liệu Từ tập phổ biến người ta có thể khaithác luật kết hợp, gom c m hay phân lớp, v.v Do đó, bài toán khai thác tập phổbiến được nhiều nhóm khoa học trên thế giới quan tâm và nghiên cứu rộng rãi trongnhiều năm qua Khai thác luật kết hợp đóng vai trò quan trọng trong các hệ thống hỗtrợ quyết định để khai thác luật kết hợp mạnh mẽ, cần phải khai thác tập phổ biến
Có rất nhiều thuật toán đã được phát triển để khai thác tập phổ biến hiệu quả, chẳnghạn như Apriori, Eclat, FP-Growth, PrePost, và FIN…
2.2.1 Một số khái niệm cơ bản
2.2.1.1 Cơ sở dữ liệu giao dịch
Cơ sở dữ liệu giao dịch: Gọi D là một cơ sở dữ liệu giao dịch gồm một bộ đôi{I, T}, trong đó I = {i1,i2, ,in} là tập tất cả các m c dữ liệu và T = {t1,t2,.,tm} là tập tất cả các giao dịch
Giao dịch (hay còn gọi là giao tác): Một giao tác t D là một tập các m c
gắn với một định danh duy nhất gọi là TID (hay còn gọi là Mã giao dịch).
Bảng 2.1 – Minh họa CSDL giao dịch giỏ hàng
Ví d :
Ví d giỏ mua hàng:
− Giỏ 1: {Bưởi, Cam, Sầu riêng}
− Giỏ 2: {Cam, Dứa}
…
− Giỏ n: {Bưởi, Cam, Thanh long}
Trang 29− M c dữ liệu : Mặt hàng trong giỏ hay một thuộc tính.
− Tập m c dữ liệu : Bao gồm các m c dữ liệu, ký hiệu I = {i1,i2, ,in} trong đó
i1,i2, ,in là các m c dữ liệu
Ví d : I={ Bưởi, Cam, Thanh long, Sầu riêng }
Giao dịch: Tập m c (Itemset) được mua trong giỏ.
Giao dịch t: Tập các m c sao cho t I
Ví d : t ={ Bưởi, Cam, Thanh long}
2.2.1.2 Độ hỗ trợ và độ hỗ trợ tối thiểu
Độ hỗ trợ (Support) của tập m c X trong CSDL D là tỷ lệ giữa số các
giao dịch chứa X trên tổng số các giao dịch trong D
Ký hiệu: Sup(X) = count(X) / |D|
Giao dịch t chứa X nếu X là tập m c trong I và X t
Ví d : t = { Bưởi, Cam, Thanh long} và X ={ Bưởi, Cam }
Độ hỗ trợ tối thiểu (minSup): là ngưỡng do người sử d ng quy định nhỏ
hơn độ hỗ trợ
2.2.1.3 Tập phổ biến
Một tập m c được gọi là tập phổ biến nếu nó có độ hỗ trợ thỏa mãn độ hỗ trợ
tối thiểu minSup.
Gọi S là tập m c trong tập dữ liệu, Nếu Sup(S) > minSup thì S là tập phổ biến
Bảng 2.2 – CSDL mẫu minh họa khai thác tập phổ biến
TID Nội dung giao dịch
Trang 30= 50%a) ChoX
={B,C,T},
X cóph
ải
là tậ
p ph
ổ biếnkhông?b
tính
độ
hỗ
trợ
của
Y
?
Ta
có:
Trang 31a) Count(X) = 3; |D|= 6; Sup(X) =3/6= 50%; Sup(X) minSup.vậy X là tập phổ biến.
2.2.1.5 Tập phổ biến tối đại
Tập phổ biến tối đại là tập phổ biến và không tồn tại tập nào chứa nó là phổbiến
Ví dụ: Sử d ng CSDL giao dịch bảng 2.2
Cho minSup =50%
− Ta có {B, C, T, S} là tập phổ biến tối đại, Bởi vì{B, C, T, S} là tập phổ biến
và không có tập nào chứa nó là tập phổ biến
− {B, C}là tập phổ biến nhưng không phải là tập phổ biến tối đại, Bởi vì{B, C,
T, S} là tập phổ biến có độ hỗ trợ là 50% chứa nó Tương tự như vậy, {B, C,T} cũng không phải là tập phổ biến tối đại
2.2.1.6 Tính chất Apriori
Tất cả các tập con của tập phổ biến đều là tập phổ biến; nếu một tập không là tập phổ biến thì tất cả các tập chứa nó đều không là tập phổ biến [1, 3, 4]
Trang 332.2.2 Một số thuật toán cơ bản
2.2.2.1 Thuật toán Apriori
Apriori là thuật toán nền tảng để tìm các tập phổ biến sử d ng phương pháp sinh ứng viên
Trang 34L2
Itemset Sup
2nd scan
Trang 35Hình 2.3 – Minh họa thuật toán Apriori
THUẬT TOÁN APRIORI [1]
Đầu vào:CSDL giao dịch D và ngưỡng phổ biến minSup
Đầu ra: FIs chứa tất cả các tập phổ biến của D
Mã giả:
L k: Các tập phổ biến có kích thước k
L 1 = { i I: Sup(i) minSup}
Trang 362.2.2.2 Phương pháp dựa trên cây IT-tree
Năm 1997, Zaki và các cộng sự đã phát triển thuật toán Eclat để khai thác tậpphổ biến bằng cách sử d ng cây IT-Tree (Itemset Tidset-tree) Eclat áp d ng lược
đồ tìm kiếm chiều sâu và định dạng dữ liệu theo chiều dọc để khai thác các tập phổbiến Những ưu điểm của cách tiếp cận này là nó chỉ qu t CSDL một lần và nhanhchóng tính toán độ hỗ trợ của các mẫu dựa trên giao giữa 2 tidset [8, 11]
Cấu trúc IT-tree:
Cho X ⊆ I, ta định nghĩa hàm P (X, k) = X [ 1: k ] gồm k phần tử đầu của X
và quan hệ tương đương dựa vào tiền tố như sau [1]:
Trang 374) Ngược lại của 1, 2 và 3 thì c(Xi) ≠ c(Xj) ≠ c(Xi ≠ Xj)
Trang 38Dữ liệu được chuyển sang định dạng dọc
Xây dựng nút gốc (Root) là nút rỗng (null).
Mức 1: là các nút chứa itemset chỉ 1 danh m c dựa trên các danh m c phổ biến thỏa minSup
− B x t(B) = B x 1345 ; C x t(C) = C x 123456 ; D x t(D) = D x 2456
T x t(T) = T x 1356 ; S x t(S) = S x 12345Mức 2: là các nút con chứa itemset gồm 2 danh m c, được xây dựng bằngcách hợp các itemset của các nút mức 1 và giao giữ hai Tidset này:
x 45 không tạo thành nút mới ở mức 2
Và cứ tiếp th c như vậy, các tập phổ biến được liệt kê trong tất cả các nút của câyIT-tree, trong quá trình xây dựng cây It-tree chính là đi tìm các tập phổ biến củaCSDL
Trang 39{} x 123456
Trang 40B x 1345 C x 123456 D x 2456 T x 1356 S x 12345
BC x 1345 BT x 135 BS x 1345 CD x 2456 CT x 1356 CS x 12345 DS x 245 TS x 135
BCT x 135 BCS x 1345 BTS x 135 CDS x 245 CTS x 135
BCTS x 135
Hình 2.4 – Cây IT-tree dùng Tidset với minSup =3
THUẬT TOÁN ECLAT [1]
Sự xuất hiện của nhiều lĩnh vực ứng d ng mới, chẳng hạn như tin sinh học
và thương mại điện tử, nhấn mạnh sự cần thiết phải phân tích dữ liệu nhiều chiều.Trong tập dữ liệu microarray biểu hiện gen, có thể có hàng ch c hoặc hàng trămchiều, mỗi chiều tương ứng với mỗi điều kiện thực nghiệm Trong tập dữ liệu hành