1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác mẫu khổng lồ trên cơ sở dữ liệu nhiều chiều

106 145 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - ĐẶNG VĂN QUANG KHAI THÁC MẪU KHỔNG LỒ TRÊN CƠ SỞ DỮ LIỆU NHIỀU CHIỀU LUẬN VĂN THẠC SĨ Chuyên ngành : Công Nghệ Thơng Tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 08 năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - ĐẶNG VĂN QUANG KHAI THÁC MẪU KHỔNG LỒ TRÊN CƠ SỞ DỮ LIỆU NHIỀU CHIỀU LUẬN VĂN THẠC SĨ Chuyên ngành : Công Nghệ Thông Tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS PHẠM THỊ THIẾT TP HỒ CHÍ MINH, tháng 08 năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS Phạm Thị Thiết (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 19 tháng 11 năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng PGS.TS Đỗ Phúc Chủ tịch TS Nguyễn Thị Thúy Loan Phản biện TS Trần Minh Thái Phản biện TS Nguyễn Hà Giang Ủy viên TS Lê Thị Ngọc Thơ Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT PHÒNG QLKH – ĐTSĐH NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 20 … NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: ĐẶNG VĂN QUANG Giới tính: Nam Ngày, tháng, năm sinh: 15/03/1972 Nơi sinh: Quảng Tín Chuyên ngành: Công Nghệ Thông Tin MSHV:1541860039 I- Tên đề tài: KHAI THÁC MẪU KHỔNG LỒ TRÊN CƠ SỞ DỮ LIỆU NHIỀU CHIỀU II- Nhiệm vụ nội dung: − Biểu diễn CSDL ma trận bit − Khai thác CSDL theo cấu trúc tìm kiếm − Khai thác mẫu khổng lồ CSDL nhiều chiều − Đề xuất thuật tốn, xây dựng chương trình thực nghiệm − So sánh đánh giá kết thực nghiệm III- Ngày giao nhiệm vụ: 15/03/2017 IV- Ngày hoàn thành nhiệm vụ: 31/08/2017 V- Cán hướng dẫn: TS PHẠM THỊ THIẾT CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Đặng Văn Quang ii LỜI CÁM ƠN Chân thành cảm ơn TS Phạm Thị Thiết, giảng viên hướng dẫn thực luận văn Cảm ơn quý Thầy Cô Khoa Công nghệ thông tin Trường Đại học Công nghệ Tp HCM giảng dạy cung cấp cho kiến thức quý báu suốt thời gian học tập nghiên cứu thực luận văn Tôi gửi lời cảm ơn đến gia đình, người thân bạn bè quan tâm, giúp đỡ suốt thời gian học tập, nghiên cứu hoàn thành luận văn Luận văn khó tránh khỏi sai sót, mong nhận ý kiến đóng góp quý Thầy Cô, bạn bè, người quan tâm, ủng hộ Chân thành cảm ơn! Học viên thực Luận văn Đặng Văn Quang TÓM TẮT Ngày khoa học tiến bộ, bị hút bùng nổ liệu, liệu khoa học, liệu y tế, liệu nhân học, liệu tài chính, liệu tiếp thị Các nhà khoa học quan tâm đến nguồn tài nguyên quý báu Do đó, Khám phá tri thức tiềm ẩn CSDL m c tiêu chung ngành khoa học khai thác liệu nhằm đem lại lợi ích cho người Bên cạch khó khăn đầy thách thức cho ngành khoa học ‘Khai thác tập phổ biến’ xem toán quan trọng khai thác liệu nghiên cứu rộng rãi nhiều năm qua Có nhiều thuật toán phát triển để khai thác tập phổ biến hiệu quả, Apriori, Eclat, FP-Growth, PrePost, FIN Tuy nhiên, thuật toán hiệu khai thác tập phổ biến CSDL thương mại truyền thống, thường có chứa nhiều giao tác giao tác lại chứa m c.Trên thực tế có nhiều CSDL đặc biệt, chẳng hạn liệu sinh học-gọi liệu nhiều chiều, mơ tả có giao tác giao tác có chứa nhiều m c Các thuật tốn khơng thể chạy ngưỡng hỗ trợ tối thiểu nhỏ khơng gian tìm kiếm lớn, ứng viên tăng theo cấp số mũ q trình khai thác Do thuật tốn khơng phù hợp với liệu nhiều chiều Điều dẫn đến nảy sinh toán khai thác mẫu khổng lồ CSDL nhiều chiều.Trong năm 2012, Sohrabi Barforoush đề xuất thuật toán BVBUC khai thác mẫu khổng lồ dựa giản đồ từ lên Tuy nhiên, BVBUC nhiều hạn chế tạo nhiều ứng viên tốn nhiều thời gian để kiểm tra ứng viên Nghiên cứu luận văn tập trung vào xây dựng chiến lược khai thác mẫu khổng lồ CSDL nhiều chiều hiệu cách đề xuất thuật toán gọi IBVBUC dựa BVBUC áp d ng phương pháp khai thác từ lên theo chiều dọc, sử d ng ma trận bit n n tập liệu để dễ dàng sử d ng Ngoài ra, kỹ thuật cắt tỉa để nâng cao hiệu trình khai thác sử d ng Cuối cùng, cài đặt, so sánh đánh giá thuật toán ABSTRACT Nowadays, science made its progress We’re being attracted by the explosion of data, Science data, Medical data, Demography data, Finance data, and Marketing data The scientists always care about these valuable resources Hence, discovering hidden knowledge in database is common goal of the information technology science in order to bring benefit for human Besides, those are the very challenging for these sciences ‘Frequent itemset mining’ is consider a very important issue in data developing that has been extensively studied over the years There are many algorithms that have been developed to effectively frequent itemset mining, such as Apriori, Eclat, FP-Growth, PrePost, and FIN However, these are only effective algorithms for common exploitation on database traditional commercial, usually contains a lot of transaction and each transaction contains very few items On reality, there are many special database, such as Biomedical data is characterized by fewer transaction, and each transaction contains a large number of items, called high dimensional The algorithms can not operate when the minimum Support threshold is small because the search space is very large, the candidates increase exponentially during the exploiting process Therefore, these algorithms are not suitable for multi-dimensional data This led to the problem of exploiting colossal patterns on multi-dimensional database In 2012, Sohrabi and Barfroush proposed BVBUC algorithm exploits colosal pattern base on a bottom-up schema However, BVBUC has many limitations as it creates a lot of candidates and takes a lot of time to test these candidates The study in this thesis focuses on developing a strategy for the extraction of colossal patterns in more efficient multi-dimensional databases by proposing an algorithm called IBVBUC base on BVBUC that applies a bottom-up follow vertical exploiting method, use a bit matrix to compress data to make it more easy to use In addition, pruning techniques to improve efficiency during harvesting are also used Finally installing, comparing and evaluating algorithm MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC .v DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii CHƯƠNG 1: TỔNG QUAN 1.1 Lý chọn đề tài 1.2 M c tiêu, nội dung nghiên cứu 1.3 Phương pháp nghiên cứu 1.4 Phạm vi đề tài 1.5 Cấu trúc luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai thác liệu 2.1.1 Khám phá tri thức 2.1.2 Khai thác liệu 2.1.3 Các kỹ thuật khai thác liệu .9 2.1.4 Ứng d ng khai thác liệu 2.1.5 Những thách thức khai thác liệu 10 2.2 Tổng quan khai thác tập phổ biến 11 2.2.1 Một số khái niệm 11 2.2.2 Một số thuật toán 14 2.3 Khái quát liệu nhiều chiều 18 2.3.1 Giới thiệu 18 2.3.2 Những thách thức CSDL nhiều chiều 19 2.3.3 Các kỹ thuật CSDL nhiều chiều 19 2.4 Khái quát mẫu khổng lồ .23 2.5 Lý thuyết khai thác mẫu khổng lồ CSDL nhiều chiều 25 2.5.1 Giới thiệu 25 2.5.2 Định nghĩa toán 27 2.5.3 Biểu diễn tập liệu ma trận bit (bit-wise) .28 2.5.4 Các chiến lược khai thác .32 2.5.5 Khai thác mẫu khổng lồ 35 CHƯƠNG 3: THUẬT TOÁN KHAI THÁC MẪU KHỔNG LỒ 42 3.1 Cơng trình liên quan 42 3.1.1 Thuật toán BVBUC 42 3.1.2 Minh họa thuật toán BVBUC 43 3.2 Thuật toán đề xuất (thuật toán IBVBUC) 46 3.2.1 Định nghĩa 46 3.2.2 Một số hạn chế BVBUC .48 3.2.3 Xây dựng thuật toán IBVBUC 49 3.2.4 Thuật toán IBVBUC 49 3.2.5 Minh họa thuật toán IBVBUC 51 3.3 Nhận x t .53 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM .55 4.1 Môi trường CSDL thực nghiệm 55 4.1.1 Môi trường thực nghiệm .55 4.1.2 CSDL thực nghiệm .55 4.2 Kết thực nghiệm 56 4.2.1 Giao diện thực nghiệm 56 4.2.2 Kết thực nghiệm 58 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66 5.1 Kết luận 66 5.2 Hướng phát triển 67 TÀI LIỆU THAM KHẢO 68 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM Trong chương này, luận văn giới thiệu môi trường thực nghiệm, mô tả sở liệu sử d ng cho chương trình, mơ tả giao diện chức chương trình thực nghiệm Ghi nhận kết , so sánh kết đánh giá kết thực nghiệm 4.1 Môi trường CSDL thực nghiệm 4.1.1 Mơi trường thực nghiệm Các thuật tốn cài đặt máy tính có cấu hình: SONY, 2.10 GHz xử lý Intel(R) ỉ3-2310M 4GB nhớ chính, chạy hệ điều hành Windows 64bit Mã nguồn thuật tốn viết ngơn ngữ C# 2015 4.1.2 CSDL thực nghiệm Để đo tính hiệu thuật tốn BVBUC IBVBUC, chương trình thực CSDL từ ví d mẫu (data.txt) CSDL chuẩn để kiểm chứng độ xác chương trình CSDL liệu chuẩn Accidents, Chess, Mushroom, Retails download từ nguồn http://fimi.ua.ac.be/data/ điều chỉnh, với cấu trúc CSDL mô tả bảng 4.1 Bảng 4.1– Bảng mô tả CSDL thực nghiệm STT Tên CSDL Kích thước Số lượng giao dịch Số lượng m c (size) (transaction) (item) data.txt KB 38 Accidents80 8KB 80 2640 Accidents100 12 KB 100 3300 Chess50 KB 50 1850 Mushroom50 KB 50 1050 Mushroom90 KB 90 1890 Mushroom100 10 KB 100 2100 Retails50 KB 50 231 Retails100 KB 100 600 4.2 Kết thực nghiệm 4.2.1 Giao diện thực nghiệm Kết giao diện thực nghiệm với chương trình viết ngơn ngữ C# CSDL mẫu (data.txt) Bảng 3.1 – CSDL mẫu minh họa thực nghiệm Giao diện hình sau: Hình 4.1a – Giao diện hình chương trình Step − Textbox File Path: Cho ph p chọn file liệu cần thực thi dạng file *.txt − Textbox MinSup: Dùng nhập độ hỗ trợ tối thiểu (do người dùng xác định) − Textbox Colossal: Dùng nhập số lượng m c tối thiểu mẫu khổng lồ (minColossal người dùng qui định) để khai thác mẫu khổng lồ phổ biến − DataGridView: Hiển thị kết ma trận bit Hình 4.1b – Giao diện hình chương trình Step − RichTextBox: Chứa nút lược bỏ nút không đạt đến mức minSup minColossal − DataGridView: Chứa ma trận bit lược bỏ cột không thỏa minSup dòng khơng thỏa minColossal Hình 4.1c – Giao diện hình chương trình Step − RichTextBox (rTxtResult): Chứa mẫu khổng lồ phổ biến − RichTextBox (rTxtNum): Chứa chứa số lượng nút mức Hình 4.1a, hình 4.1b hình 4.1c cho thấy giao diện kết thực nghiệm thuật toán cải tiến IBVBUC với CSDL (data.txt bảng 4.1) minh họa bảng 3.1 4.2.2 Kết thực nghiệm Kết thực nghiệm so sánh thuật toán BVBUC thuật toán cải tiến IBVBUC với liệu chuẩn Accidents, Chess, Mushroom, Retails Bảng 4.1 Bảng tổng hợp so sánh thời gian số nút cây: BVBUC tạo nhiều [11], tức có nhiều mẫu trùng lặp số nút nhiều đáng kể, làm tốn nhiều thời gian để tính tốn Trong bảng so sánh cho thấy kết thuật toán có số lượng tập m c nhau, IBVBUC hiệu nhiều số nút thời gian tính tốn Kết bảng 4.2 khơng có sử d ng kiểm tra trùng lặp mẫu đóng thuật tốn (khơng sử d ng dòng lệnh 12,13 15) Nếu có sử d ng dòng lệnh 12 13 tốc độ thuật tốn tăng nhanh đáng kể Bảng 4.2– Bảng so sánh thời gian số nút Tên CSDL Rows minSup minColossal BVBUC IBVBUC BVBUC IBVBUC Kết Quả (%) (item) (ms) (ms) (node) (node) (itemset) 934 552 3239 1238 1158 2741 771 85319 3447 1933 44857 997 1663739 5074 1042 #NA 1293 #NA 7950 1488 #NA 1265 #NA 9269 543 #NA 1217 #NA 9719 161 #NA 1222 #NA 9806 45 #NA 1185 #NA 9805 415 274 1274 1173 860 1043 867 20824 11404 1167 6760 4406 249899 48211 1053 69676 13642 2349059 186902 870 Accidents80 80 Accidents100 100 Chess50 50 6 20 20 30 10 Mushroom50 50 15 304 167 1274 582 255 Mushroom90 90 Retails50 Retails100 50 100 556 315 20824 3553 196 6923 618 249899 16569 137 909 677 4094 1622 534 2478 964 121484 15317 440 12814 2672669 115174 314 15 54890 745 469 1274 444 21 1195 498 20824 3217 11 2641 647 249899 17318 10 24485 3088 2347978 73062 1204 518 5150 518 121 3250 557 171699 1864 88 #NA 580 #NA 5500 50 #NA 1149 #NA 33278 13 #NA 2781 #NA 108699 Để mô tả trực quan hơn, luận văn trình bày kết so sánh thời gian thực hai thuật toán BVBUC IBVBUC dạng biểu đồ, từ hình 4.2 đến hình 4.8 với số liệu thống kê bảng 4.2 Hình 4.2 – liệu Chess 50 transactions Hình 4.2 cho thấy kết so sánh BVBUC IBVBUC, với liệu Chess có 50 transactions minColossal = 30, minSup = BVBUC thực 0,415 (s) IBVBUC thực 0,274 (s), minSup = BVBUC thực 1,043 (s) IBVBUC thực 0,867 (s), minSup = BVBUC thực 6,76 (s) IBVBUC thực 4,406 (s), minSup =10 BVBUC thực đến 69,676 (s) IBVBUC thực 13,642 (s) Hình 4.3 – liệu Accidents 80 transactions Hình 4.4– liệu Mushroom 50 transactions Hình 4.5 – liệu Retails 50 transactions Hình 4.6 – liệu Mushroom 90 transactions Kết so sánh BVBUC IBVBUC từ hình 4.2 đến hình 4.6 cho thấy IBVBUC hiệu nhiều thời gian tính tốn với nhiều liệu khác Với liệu dày đặc Chess Mushroom có số lượng m c mẫu khổng lồ lớn liệu thưa Retails, minSup tăng lên, BVBUC chạy chậm Với tài nguyên máy tính này, thuật tốn BVBUC khơng thể chạy với liệu có 100 transactions, chẳng hạn Retails, Mushroom Accidents với minSup Trong đó, thuật toán cải tiến IBVBUC chạy tốt với minSup lớn , với m c đích tìm kiếm mẫu khổng lồ tăng minSup lên cao không đủ số lượng m c mẫu khổng lồ dừng kiểm chứng thuật tốn khơng tăng minSup lên cao Như hình 4.7 hình 4.8 Hình 4.7– liệu Retails 100 transactions Với liệu Retail có 100 transactions minColossal = 3, BVBUC chạy minSup = Trong hình 4.7 cho thấy IBVBUC chạy tốt với minSup lớn 4, minSup = IBVBUC thực 0,58 (s), minSup = IBVBUC thực 1,149 (s) minSup = IBVBUC thực 2,781 (s) Hình 4.8 – liệu Accidents 100 transactions Hình 4.7 hình 4.8 cho thấy thuật toán cải tiến IBVBUC chạy tốt với minSup lớn 4, BVBUC chạy với minSup IBVBUC dựa BVBUC cải tiến cách loại bỏ tất dòng cột khơng đạt đến minColossal minSup, xây dựng theo mức áp d ng kỷ thuật so sánh tiền tố nút mức loại bỏ đáng kể số nút khơng đạt đến minColossal Do đó, liệu minSup định, tăng số lượng m c mẫu (tăng minColossal) thời gian tính tốn giảm Như hình 4.9 hình 4.10 Hình 4.9 – liệu Accidents 100 transactions với minSup=3% Hình 4.10 – liệu Mushroom 100 transactions với minSup=3% Hình 4.9 hình 4.10 cho thấy tăng minColossal, thời gian tính tốn IBVBUC giảm đáng kể Chẳng hạn hình 4.10, Với liệu Mushroom có 100 transactions cố định minSup = 3, minColossal = IBVBUC thực 17,826 (s), minColossal = IBVBUC thực 17,247 (s), minColossal = IBVBUC thực 15,942 (s), minColossal = 12 IBVBUC thực 6,932 (s) minColossal = 15 IBVBUC thực 1,065 (s) Bằng phương pháp loại bỏ tất dòng cột không đạt đến minColossal minSup, xây dựng duyệt theo mức, áp d ng kỷ thuật so sánh tiền tố nút mức Vì vậy, loại bỏ đáng kể số nút không đạt đến minSup minColossal cây, kết thực nghiêm cho thấy thuât toán đề xuất IBVBUC hiệu BVBUC nhiều số nút thời gian tính tốn để tìm kiếm tất mẫu khổng lồ phổ biến CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Xuyên suốt trình thực hiện, luận văn trình bày vấn đề khám phá tri thức khai thác liệu, nghiên cứu tất bước qui trình KPTT, KTDL Đồng thời, luận văn tổng quan khai thác tập phổ biến, trình bày số phương pháp khai thác tập phổ biến, chẳng hạn Apriori thuật toán tảng tìm kiếm tập phổ biến cách sử d ng phương pháp sinh ứng viên định dạng liệu theo chiều ngang, phương pháp dựa IT-tree áp d ng giản đồ tìm kiếm chiều sâu liệu định dạng theo chiều dọc để khai thác tập phổ biến, nhiên thuật toán hiệu khai thác tập phổ biến CSDL thương mại truyền thống, thường có chứa nhiều giao tác giao tác lại chứa m c Trên thực tế có nhiều CSDL đặc biệt, chẳng hạn liệu sinh học – gọi liệu nhiều chiều, mơ tả có giao tác giao tác có chứa nhiều m c Điều dẫn đến nảy sinh toán khai thác mẫu khổng lồ CSDL nhiều chiều.Trong năm 2012, Sohrabi Barforoush đề xuất thuật toán BVBUC khai thác mẫu khổng lồ dựa giản đồ từ lên Tuy nhiên, BVBUC nhiều hạn chế tạo nhiều ứng viên tốn nhiều thời gian để kiểm tra ứng viên M c đính luận văn tập trung vào nghiên cứu xây dựng chiến lược khai thác mẫu khổng lồ CSDL nhiều chiều hiệu cách đề xuất thuật toán gọi IBVBUC dựa BVBUC áp d ng phương pháp khai thác từ lên theo chiều dọc, sử d ng ma trận bit để n n tập liệu Ngoài ra, kỹ thuật cắt tỉa để nâng cao hiệu trình khai thác sử d ng Vì thế, luận văn khái quát liệu nhiều chiều, khái quát mẫu khổng lồ, trình bày chi tiết thuật toán BVBUC đề xuất thuật toán IBVBUC cách loại bỏ giao tác không khổng lồ trước xây dựng tìm kiếm, phát triển định lý định lý nhằm xây dựng theo kỷ thuật tiền tố, làm hạn chế số nút cây, giảm ph p tính khơng cần thiết thời gian tính tốn đáng kể Cuối kết thực nghiệm, luận văn cài đặt, so sánh đánh giá thuật toán cho thấy IBVBUC cải thiện đáng kể số nút cây, từ giảm nhớ lưu trữ hiệu thời gian tính tốn để tìm kiếm mẫu khổng lồ CSDL nhiều chiều 5.2 Hướng phát triển Mặc dù phương pháp mà luận văn đề xuất cải thiện đáng kể số nút thời gian tìm kiếm mẫu khổng lồ, nhiên liệu có số lượng giao tác (dòng) q lớn, thuật tốn chạy chậm không chạy với máy tính có nguồn tài ngun hạn chế khơng đủ nhớ lưu trữ Do đó, luận văn chưa làm vấn đề mạnh dạng đề xuất hướng phát triển sử d ng bít vectơ động B Vo đồng trình bày đề xuất năm 2012 [15] thay cho bít vectơ để làm giảm nhớ lưu trữ, để từ thuật tốn khai thác hiệu mẫu khổng lồ CSDL nhiều chiều TÀI LIỆU THAM KHẢO [1] PGS.TS Võ Đình Bảy (2016) Bài giảng môn Data Mining Đại học Công Nghệ Tp.HCM [2] PGS.TS Đỗ Phúc (2013) Giáo trình khai thác liệu NXB Đại học quốc gia Tp.HCM [3] ThS Lê Đình Thâm (2016) Khai thác liệu với mẫu kích thước lớn Luận văn thạc sỹ, Đại học Cơng nghệ TP.Hồ Chí Minh [4] R Agrawal, T Imielinski, A Swami (1993) Mining Association Rules between Sets of Items in Large Databases SIGMOD, pp 207–216 [5] O Maimon, L Rokach Editors (2010) Data Mining and Knowledge Discovery Handbook Second Edition [6] J Han, M Kamber (2012) Data Mining: Concepts and Techniques 3rd edition, M.Kaufmann [7] M Khosrow-Pour Editor (2015) Encyclopedia of Information Science and Technology, 3rd edition, Information Resources Management Association, USA [8] M.J Zaki, S Parthasarathy, M Ogihara, W Li (1997) New algorithms for fast discovery of association rules KDD, pp 283-286 [9] F Zhu, X Yan, J Hany, P S Yuz, H Cheng (2007) Mining Colossal Frequent Patterns by Core Pattern Fusion Pacific-Asia Conference on Knowledge Discovery and Data Mining [10] M K Sohrabi, A A Barforoush (2012) Efficient colossal pattern mining in high dimensional datasets Knowledge-Based Systems, Volume 33, pp 41–52 [11] T-L Nguyen , B Vo , V Snasel (2017) EfÞcient Algorithms for Mining Colossal Patterns in High Dimensional Databases Knowledge-Based Systems, Volume 122, pp 75-89 [12] M Dabbiru, M Shashi (2010) An Efficient Approach to Colossal Pattern Mining IJCSNS International Journal of Computer Science and Network Security, Volume.10 No.1 [13] K.Prasanna, M.Seetha (2015) A Doubleton Pattern Mining Approach for Discovering Colossal Patterns from Biological Dataset International Journal of Computer Applications, Volume 119, No.21 [14] B Vo, H T Nguyen (2015) Mining frequent closed itemsets from multidimensional databases Int J Computational Vision and Robotics, Volume 5, No [15] B Vo , T-P Hong, B Le (2012) DBV-Miner: A Dynamic Bit-Vector approach for fast mining frequent closed itemsets Expert Systems with Applications, Volume 39, pp 7196–7206 ... tri thức, khai thác liệu, khai thác luật kết hợp phương pháp khai thác tập phổ biến Giới thiệu phương pháp khai thác mẫu khổng lồ CSDL nhiều chiều với chiến lược khai thác từ lên theo chiều dọc... thức khai thác theo số tiêu chí dựa m c đích KTDL Trình bày/đánh giá Khai thác liệu Biến đổi liệu Tri thức Tiền xử lý liệu Trích lọc liệu Dữ liêu chuyển Dữ liệu Các mẫu liệu Dữ liêu Dữ liệu. .. Tín Chun ngành: Cơng Nghệ Thơng Tin MSHV:1541860039 I- Tên đề tài: KHAI THÁC MẪU KHỔNG LỒ TRÊN CƠ SỞ DỮ LIỆU NHIỀU CHIỀU II- Nhiệm vụ nội dung: − Biểu diễn CSDL ma trận bit − Khai thác CSDL theo

Ngày đăng: 18/01/2019, 00:34

TỪ KHÓA LIÊN QUAN

w