1. Trang chủ
  2. » Luận Văn - Báo Cáo

khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn

74 974 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 1,17 MB

Nội dung

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT&TT  ĐỖ THỊ HẢI YẾN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU LỚN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT&TT  ĐỖ THỊ HẢI YẾN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU LỚN CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN THANH TÙNG THÁI NGUYÊN - 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan Luận văn "Khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn" là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của PGS.TS Nguyễn Thanh Tùng. Kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác. Trong toàn bộ luận văn, những điều được trình bày là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Thái Nguyên, ngày 30 tháng 9 năm 2011 Ngƣời cam đoan Đỗ Thị Hải Yến Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS.TS. Nguyễn Thanh Tùng - Viện Công nghệ thông tin, người thầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này. Tôi xin chân thành cảm ơn sự dạy bảo, giúp đỡ, tạo điều kiện và khuyến khích tôi trong quá trình học tập và nghiên cứu của các thầy cô giáo của Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên. Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè - những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống và trong công việc. Tôi xin chân thành cảm ơn! Thái Nguyên, ngày 30 tháng 9 năm 2011 Tác giả Đỗ Thị Hải Yến Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC Trang Trang bìa phụ Lời cảm ơn Lời cam đoan Mục lục i Danh mục các từ, các ký hiệu viết tắt iii Danh mục các bảng iv Danh mục các hình v LỜI MỞ ĐẦU 1 Chƣơng 1. KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 4 1.1. Khai phá dữ liệu 4 1.2. Khai phá tập mục thường xuyên 8 1.2.1. Cơ sở dữ liệu giao tác 8 1.2.2. Tập mục thường xuyên và luật kết hợp 10 1.2.3 Bài toán khai phá luật kết hợp 11 1.3. Các cách tiếp cận khai phá tập mục thường xuyên 12 1.3.1 Thuật toán Apriori 13 1.3.2 Thuật toán FP-growth 17 1.4. Mở rộng bài toán khai phá tập mục thường xuyên 23 1.5. Kết luận chương 1 24 Chƣơng 2. KHAI PHÁ TẬP MỤC LỢI ÍCH CAO: BÀI TOÁN VÀ BA THUẬT GIẢI KIỂU APRIORI 25 2.1. Mở đầu 25 2.2. Bài toán khai phá tập mục lợi ích cao 26 2.3. Ba thuật toán khai phá tập mục lợi ích cao kiểu Apriori 30 2.3.1. Thuật toán UMining 30 2.3.2. Thuật toán UMining-H 32 2.3.3. Thuật toán hai pha HUMining 34 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 2.4. Kết luận chương 2 41 Chƣơng 3. THUẬT TOÁN HIỆU QUẢ KHAI PHÁ TẬP MỤC LỢI ÍCH CAO KIỂU FP-GROWTH 42 3.1 Mở đầu 42 3.2. Thuật toán COUI-Mine 42 3.2.1. Xây dựng cây TWUI-tree 44 3.2.2. Khai phá cây TWUI-tree 48 3.2.3. Đánh giá độ phức tạp của thuật toán COUI-Mine 55 3.2.4. Nhận xét thuật toán COUI-Mine 58 3.2.5. Khai phá tương tác với cây TWU-tree 59 3.3. Kết luận chương 3 60 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 64 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC CÁC TỪ VIẾT TẮT STT Cụm từ viết tắt Nghĩa của cụm từ viết tắt 1 CNTT Công nghệ thông tin 2 CSDL Cơ sở dữ liệu 3 KDD Khám phá tri thức trong cơ sở dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC BẢNG Trang Bảng 1.1: Biểu diễn ngang của cơ sở dữ liệu giao tác 9 Bảng 1.2: Biểu diễn dọc của cơ sở dữ liệu giao tác 9 Bảng 1.3: Ma trận giao tác của cơ sở dữ liệu bảng 1.1 10 Bảng 1.4: Cơ sở dữ liệu giao tác minh hoạ thực hiện thuật toán Apriori. 16 Bảng 1.5: Cơ sở dữ liệu giao tác minh hoạ thực hiện thuật toán COFI-tree 19 Bảng 1.6: Các mục dữ liệu và độ hỗ trợ 20 Bảng 1.7: Các mục dữ liệu thường xuyên đã sắp thứ tự 20 Bảng 1.8: Các mục dữ liệu trong giao tác sắp giảm dần theo độ hỗ trợ. 21 Hình 1.4: Các bước khai phá cây D-COFI-tree. 23 Bảng 2.1. Cơ sở dữ liệu giao tác 27 Bảng 2.2. Giá trị lợi ích chủ quan của các mục trong bảng 1. 27 Hình 2.1. Dàn tập mục trong cơ sở dữ liệu bảng 1 29 Bảng 3.1: Lợi ích các giao tác của cơ sở dữ liệu 45 Bảng 3.2: Lợi ích TWU của các mục dữ liệu 45 Bảng 3.3: Các mục dữ liệu có lợi ích TWU cao sắp giảm dần theo twu 46 Bảng 3.4: Các mục dữ liệu trong giao tác sắp giảm dần theo lợi ích TWU. 46 Hình 3.7: Cây D-COUI-tree 50 Bảng 3.5: Lợi ích các tập mục ứng viên 53 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC HÌNH Trang Hình 1.1. Các bước thực hiện của quá trình khai phá dữ liệu 6 Hình 1.2: Cây FP-tree của CSDL bảng 1.5. 21 Hình 1.3: Cây COFI-tree của mục D 21 Hình 2.2. Không gian tìm kiếm tập mục lợi ích cao theo thuật toán UMining 32 Hình 2.3. Không gian tìm kiếm tập mục lợi ích cao theo thuật toán UMining-H 33 Hình 2.4. Không gian tìm kiếm tập mục lợi ích cao theo thuật toán HUMining 39 Hình 3.1: Cây TWUI-tree sau khi lưu thao tác T1. 47 Hình 3.2: Cây TWUI-tree sau khi lưu thao tác T1 và T2. 47 Hình 3.3: Cây TWUI-tree của cơ sở dữ liệu bảng 3.1 và 3.2. 47 Hình 3.4: Cây C-COUI-tree sau khi lưu mẫu CBE 49 Hình 3.5: Cây C-COUI-tree sau khi lưu mẫu CBE và CE 50 Hình 3.6: Cây C-COUI-tree sau khi xây dựng xong. 50 Hình 3.8: Cây B-COUI-tree 51 Hình 3.9: Các bước khai phá cây D-COUI-tree. 52 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 LỜI MỞ ĐẦU Trong những năm gần đây, cùng với sự phát triển vượt bậc của công nghệ thông tin, truyền thông, khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin không ngừng được nâng cao. Với lượng dữ liệu khổng lồ và luôn gia tăng theo thời gian, rõ ràng các phương pháp phân tích dữ liệu truyền thống sẽ không còn hiệu quả, gây tốn kém và dễ dẫn đến những kết quả sai lệch. Để có thể khai thác hiệu quả các cơ sở dữ liệu lớn, một lĩnh vực khoa học mới đã ra đời: Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD). Khai phá dữ liệu (Data Mining) là một công đoạn chính trong qúa trình khám phá tri thức, nhằm tìm kiếm, phát hiện các tri thức mới, hữu ích tiềm ẩn trong các cơ sở dữ liệu lớn. Khai phá luật kết hợp là một nhiệm vụ quan trọng của khai phá dữ liệu. Bài toán truyền thống (hay còn gọi bài toán nhị phân) khai phá luật kết hợp do R. Agrawal, T. Imielinski và A. N. Swami đề xuất và nghiên cứu lần đầu tiên vào năm 1993 khi phân tích các cơ sở dữ liệu của các siêu thị. Mục tiêu của nó là phát hiện các tập mục thường xuyên, từ đó tạo các luật kết hợp phản ánh hành vi mua hàng của khách hàng. Những thông tin như vậy giúp nhà quản lý có thể lựa chọn phương án tiếp thị, kinh doanh hiệu quả hơn. Cho đến nay, bài toán khai phá luật kết hợp truyền thống có nhiều ứng dụng, tuy vậy do tập mục thường xuyên chỉ mang ngữ nghĩa thống kê nên mô hình bài toán truyền thống chỉ đáp ứng được phần nào nhu cầu ứng dụng thực tiễn. Thật ra, trong kinh doanh, điều mà người quản lý quan tâm hơn là phát hiện những khách VIP, đem lại lợi nhuận cao. Trong thực hành, có những tập mục thường xuyên nhưng chỉ đóng góp phần rất nhỏ, ngược lại có những tập mục không thường xuyên lại đóng góp phần đáng kể vào lợi nhuận chung của công ty. Gần đây, nhằm khắc phục hạn chế của bài toán truyền thống khai phá luật kết hợp, các nhà nghiên cứu đã mở rộng nó theo nhiều hướng khác nhau, trong đó có vấn đề khai phá tập mục lợi ích cao. Lợi ích của một tập mục là số đo lợi nhuận mà nó có thể mang lại trong kinh doanh, được tính toán dựa trên giá trị khách quan và [...]... toán khai phá dữ liệu nhị phân đã biết - Chú ý đến cả cấu trúc dữ liệu lẫn mức độ quan trọng khác nhau của các thuộc tính trong cơ sở dữ liệu Theo hướng này, nhiều nhà nghiên cứu đã đề xuất các mô hình mở rộng: khai phá tập mục cổ phần cao đánh giá sự đóng góp của tập mục trong tổng số các mục của cơ sở dữ liệu; khai phá tập mục lợi ích cao, đánh giá lợi ích mà tập mục mang lại trong cơ sở dữ liệu, ... quan của các mục thành viên Giá trị khách quan của một mục là số đơn vị mục bán được, dữ liệu này có sẵn trong cơ sở dữ liệu Giá trị chủ quan của một mục là giá trị lợi nhuận mà mỗi đơn vị mục có thể đem lại, theo đánh giá của nhà kinh doanh Khai phá tập mục lợi ích cao là khám phá tất cả tập mục X đem lại lợi ích u( X )   , trong đó  là ngưỡng quy định bởi người sử dụng Trong khai phá luật kết... nhà kinh doanh Khai phá tập mục lợi ích cao là khám phá tất cả tập mục X đem lại lợi ích u( X )   , trong đó  là ngưỡng quy định bởi người sử dụng Có thể coi bài toán cơ bản khai phá tập mục thường xuyên là trường hợp đặc biệt của bài toán khai phá tập mục lợi ích cao, trong đó tất cả các mục đều có giá trị khách quan bằng 0 hoặc 1 và giá trị chủ quan bằng 1 Số hóa bởi Trung tâm Học liệu – Đại học... tập mục thường xuyên xuất hiện như là bài toán con của nhiều lĩnh vực khai phá dữ liệu như khám phá luật kết hợp, khám phá mẫu tuần tự, phân tích tương quan, phân lớp, phân cụm dữ liệu, khai phá web… Bài toán khai phá tập mục thường xuyên được giới thiệu lần đầu tiên bởi Agrawal năm 1993 khi phân tích cơ sở dữ liệu bán hàng của siêu thị trong mô hình của bài toán khai phá luật kết hợp [3, 4] Khai phá. .. về khai phá dữ liệu Tuy nhiên, ở một mức độ trừu tượng nhất định, chúng ta định nghĩa khai phá dữ liệu như sau [9]: Khai phá dữ liệu là quá trình tìm kiếm, phát hiện các tri thức mới, hữu ích tiềm ẩn trong cơ sở dữ liệu lớn Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 Khám phá tri thức trong CSDL (Knowledge Discovery in Databases – KDD) là mục tiêu chính của khai phá. .. đã đề xuất bài toán khai phá tập mục lợi ích cao Lợi ích của một tập mục là số đo lợi nhuận mà nó có thể mang lại trong kinh doanh, được tính toán dựa trên giá trị khách quan và giá trị chủ quan của các mục thành viên Giá trị khách quan của một mục là số đơn vị mục bán được, dữ liệu này có sẵn trong cơ sở dữ liệu Giá trị chủ quan của một mục là giá trị lợi nhuận mà mỗi đơn vị mục có thể đem lại, theo... nhưng các mục dữ liệu có thứ tự ngược lại Mỗi mục trong bảng đầu mục chứa 3 trường: tên mục dữ liệu, độ hỗ trợ địa phương (số lần xuất hiện của mục dữ liệu trong cây COFI-tree) và con trỏ (trỏ đến nút đầu tiên biểu diễn mục dữ liệu này trong cây) Một danh sách liên kết được duy trì giữa các nút cùng tên để thuận lợi cho quá trình khai phá Mỗi nút của cây COFI-tree có 4 trường: tên mục dữ liệu, hai... phép loại bỏ được phần lớn các tổ hợp mục không thường xuyên ra khỏi không gian tìm kiếm tại mỗi bước Đáng tiếc là ràng buộc lợi ích cao không thỏa mãn tính chất Apriori Do đó, việc tìm kiếm, phát hiện tập mục lợi ích cao không thể thực hiện được như trong khai phá tập mục thường xuyên Cần phải nghiên cứu tìm ra những thuật toán hiệu quả cho việc phát hiện tập mục lợi ích cao Trong những năm gần đây,... ích cao trong cơ sở dữ liệu lớn Nội dung chính của luận văn gồm ba chương Chương 1: Trình bày khái quát về khai phá dữ liệu, bài toán khai phá tập mục thường xuyên với hai thuật toán quan trọng làm cơ sở cho việc trình bày nội dung hai chương tiếp theo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 Chương 2: Phát biểu bài toán và trình bày ba thuật toán khai phá tập mục. .. FP-growth do nén toàn bộ cơ sở dữ liệu lên một cấu trúc dữ liệu nhỏ hơn là cây FP-tree nên tránh được việc duyệt nhiều lần cơ sở dữ liệu (thuật toán chỉ duyệt cơ sở dữ liệu 2 lần) Tiếp theo thuật toán khai phá cây bằng phát triển dần các mẫu mà không sinh các tập mục ứng viên, do đó tránh được khối lượng tính toán lớn Tuy vậy, thuật toán FP-growth khai phá cây FP-tree sử dụng phương pháp đệ quy, đòi hỏi . 2.1. Dàn tập mục trong cơ sở dữ liệu bảng 1 29 Bảng 3.1: Lợi ích các giao tác của cơ sở dữ liệu 45 Bảng 3.2: Lợi ích TWU của các mục dữ liệu 45 Bảng 3.3: Các mục dữ liệu có lợi ích TWU cao sắp. KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 4 1.1. Khai phá dữ liệu 4 1.2. Khai phá tập mục thường xuyên 8 1.2.1. Cơ sở dữ liệu giao tác 8 1.2.2. Tập mục thường. Chƣơng 2. KHAI PHÁ TẬP MỤC LỢI ÍCH CAO: BÀI TOÁN VÀ BA THUẬT GIẢI KIỂU APRIORI 25 2.1. Mở đầu 25 2.2. Bài toán khai phá tập mục lợi ích cao 26 2.3. Ba thuật toán khai phá tập mục lợi ích cao kiểu

Ngày đăng: 05/10/2014, 02:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Thanh Tùng (2007), Khai phá tập mục lợi ích cao trong cơ sở dữ liệu. Tạp chí Tin học và Điều khiển học, tập 23, số 4, trang 364-373 Sách, tạp chí
Tiêu đề: Tạp chí Tin học và Điều khiển học
Tác giả: Nguyễn Thanh Tùng
Năm: 2007
[2] Nguyễn Huy Đức (2009), Khai phá tập mục cổ phần cao và lợi ích cao trong cơ sở dữ liệu. Luận án tiến sĩ, Viện Công nghệ Thông tin, Hà Nội 2009 Sách, tạp chí
Tiêu đề: Khai phá tập mục cổ phần cao và lợi ích cao trong cơ sở dữ liệu
Tác giả: Nguyễn Huy Đức
Năm: 2009
[3] R. Agrawal, T. Imielinski, and A. N. Swami (1993), Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, Washington, D.C Sách, tạp chí
Tiêu đề: Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data
Tác giả: R. Agrawal, T. Imielinski, and A. N. Swami
Năm: 1993
[4] R. Agrawal and R. Srikant (1994), Fast algorithms for mining association rules. In Proceedings of 20th International Conference on Very Large Databases, Santiago, Chile Sách, tạp chí
Tiêu đề: Proceedings of 20th International Conference on Very Large Databases
Tác giả: R. Agrawal and R. Srikant
Năm: 1994
[5] El-Hajj M. and Zaiane Osmar R. (2003), “Non recursive generation of frequent k-itemsets from frequent pattern tree representations”, In Proc. of 5th International Conference on Data Warehousing and Knowledge Discovery (DaWak’2003), pp.371-380 Sách, tạp chí
Tiêu đề: Non recursive generation of frequent k-itemsets from frequent pattern tree representations”, In "Proc. of 5th International Conference on Data Warehousing and Knowledge Discovery
Tác giả: El-Hajj M. and Zaiane Osmar R
Năm: 2003
[6] El-Hajj M. and Zaiane Osmar R. (2003), “COFI-tree Mining: A New Approach to Pattern Growth with Reduced Candidacy Generation”, In Proc.2003 Int’l Conf. on Data Mining and Knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA Sách, tạp chí
Tiêu đề: COFI-tree Mining: A New Approach to Pattern Growth with Reduced Candidacy Generation”, In "Proc. "2003 Int’l Conf. on Data Mining and Knowledge Discovery
Tác giả: El-Hajj M. and Zaiane Osmar R
Năm: 2003
[7] Grahne G. and Zhu J. (2003), “Efficient using prefix-tree in mining frequent itemsets”, in Proc. IEEE ICDM Workshop on Frequent Itemset Mining Implementations, Melbourne, FL Sách, tạp chí
Tiêu đề: Efficient using prefix-tree in mining frequent itemsets”, "in Proc. IEEE ICDM Workshop on Frequent Itemset Mining Implementations
Tác giả: Grahne G. and Zhu J
Năm: 2003
[8] H. Mannila (1996), Data mining: machine learning, statistics, and databases. Eight International Conference on Scientific and Statistical Database Management, Stockholm June 18-20, 1996, p. 1-8 Sách, tạp chí
Tiêu đề: Eight International Conference on Scientific and Statistical Database Management
Tác giả: H. Mannila
Năm: 1996
[9] Han J., and Kamber M. (2000), Data Mining: Concepts and Techniques, Morgan Kanufmann Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
Tác giả: Han J., and Kamber M
Năm: 2000
[10] Han J. (2004), “Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach”, Data Mining and Knowledge Discovery, Vol.8, pp. 53–87 Sách, tạp chí
Tiêu đề: Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach”, "Data Mining and Knowledge Discovery
Tác giả: Han J
Năm: 2004
[12] Han J., Pei J., and Yin Y. (2000), “Mining frequent patterns without candidate generation”, In ACM SIGMOD Int. Conference on Management of Data, pp. 1-12 Sách, tạp chí
Tiêu đề: Mining frequent patterns without candidate generation”, In "ACM SIGMOD Int. Conference on Management of Data
Tác giả: Han J., Pei J., and Yin Y
Năm: 2000
[13] Liu Y., W. Liao K., and Choudhary A. (2005), “A fast high utility itemsets mining algorithm”, in Proc. 1st Intl. Conf. on Utility-Based Data Mining, Chicago Chicago Illinois, pp.90-99, USA Sách, tạp chí
Tiêu đề: A fast high utility itemsets mining algorithm”, in "Proc. 1st Intl. Conf. on Utility-Based Data Mining
Tác giả: Liu Y., W. Liao K., and Choudhary A
Năm: 2005
[14] R. Chan, Q. Yang, and Y. D. Shen (2003), Mining High Utility Itemsets. In In Proceedings of 3rd IEEE International conference on Data Mining, Melbourne, Florida Sách, tạp chí
Tiêu đề: Proceedings of 3rd IEEE International conference on Data Mining
Tác giả: R. Chan, Q. Yang, and Y. D. Shen
Năm: 2003
[15] Yao H., Hamilton H. J. (2006), “Mining Itemsets Utilities from Transaction Databases”, Data and Knowledge Engeneering, Vol. 59, issue 3 Sách, tạp chí
Tiêu đề: Mining Itemsets Utilities from Transaction Databases”, "Data and Knowledge Engeneering
Tác giả: Yao H., Hamilton H. J
Năm: 2006
[16] Yao H., Hamilton H. J., and Butz C. J. (2004), “A foundational Approach to Mining Itemset Utilities from Databases”, Proceedings of the 4th SIAM International Conference on Data Mining, Florida, USA Sách, tạp chí
Tiêu đề: A foundational Approach to Mining Itemset Utilities from Databases”, "Proceedings of the 4th SIAM International Conference on Data Mining
Tác giả: Yao H., Hamilton H. J., and Butz C. J
Năm: 2004
[17] Yao H., Hamilton H. J., and Geng L. (2006), “A Unified Framework for Utility Based Measures for Mining Itemsets”, UBDM’06 Philadelphia, Pennsylvania, USA Sách, tạp chí
Tiêu đề: A Unified Framework for Utility Based Measures for Mining Itemsets”, "UBDM’06 Philadelphia
Tác giả: Yao H., Hamilton H. J., and Geng L
Năm: 2006
[11] Han J., Cheng H., Xin D., Yan X. (2007), “Frequent pattern mining: current status Khác
[18] Chowdhury Farhan Ahmed, Syed Khairuzzaman Tanbeer, Byeong-Soo Jeong, Young-Koo Lee (2011), HUC-Prune: an efficient candidate pruning technique to mine high utility patterns, Applied Intelligence , Vol. 34, Nr. 2 181-198 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Các bước thực hiện của quá trình khai phá dữ liệu - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 1.1. Các bước thực hiện của quá trình khai phá dữ liệu (Trang 15)
Bảng 1.2: Biểu diễn dọc của cơ sở dữ liệu giao tác  Mục dữ liệu  Định danh giao tác - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 1.2 Biểu diễn dọc của cơ sở dữ liệu giao tác Mục dữ liệu Định danh giao tác (Trang 18)
Bảng 1.3: Ma trận giao tác của cơ sở dữ liệu bảng 1.1 - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 1.3 Ma trận giao tác của cơ sở dữ liệu bảng 1.1 (Trang 19)
Bảng 1.4: Cơ sở dữ liệu giao tác minh hoạ thực hiện thuật toán Apriori. - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 1.4 Cơ sở dữ liệu giao tác minh hoạ thực hiện thuật toán Apriori (Trang 25)
Bảng 1.5: Cơ sở dữ liệu giao tác minh hoạ thực hiện thuật toán COFI-tree - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 1.5 Cơ sở dữ liệu giao tác minh hoạ thực hiện thuật toán COFI-tree (Trang 28)
Bảng 1.8: Các mục dữ liệu trong giao tác sắp giảm dần theo độ hỗ trợ. - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 1.8 Các mục dữ liệu trong giao tác sắp giảm dần theo độ hỗ trợ (Trang 30)
Hình 1.4: Các bước khai phá cây D-COFI-tree. - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 1.4 Các bước khai phá cây D-COFI-tree (Trang 32)
Bảng 2.1. Cơ sở dữ liệu giao tác - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 2.1. Cơ sở dữ liệu giao tác (Trang 36)
Ví dụ:  Cho cơ sở dữ liệu bảng 1, bảng 2 và giả sử  minutil = 130. Sau khi tính - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
d ụ: Cho cơ sở dữ liệu bảng 1, bảng 2 và giả sử minutil = 130. Sau khi tính (Trang 38)
Hình  2.2.    Không gian tìm kiếm tập mục lợi ích cao theo thuật toán  UMining (gồm 25 tập mục tô đen) trong dàn tập mục của cơ sở dữ liệu  bảng 1, với  minutil = 130 - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
nh 2.2. Không gian tìm kiếm tập mục lợi ích cao theo thuật toán UMining (gồm 25 tập mục tô đen) trong dàn tập mục của cơ sở dữ liệu bảng 1, với minutil = 130 (Trang 41)
Hình 2.3 dưới đây mô tả không gian tìm kiếm tập mục lợi ích cao trong cơ sở  dữ liệu bảng 1 theo thuật toán UMining-H - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 2.3 dưới đây mô tả không gian tìm kiếm tập mục lợi ích cao trong cơ sở dữ liệu bảng 1 theo thuật toán UMining-H (Trang 42)
Hình 2.4 dưới đây mô tả không gian tìm kiếm tập mục lợi ích cao trong cơ sở  dữ liệu bảng 1 theo thuật toán HUMining - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 2.4 dưới đây mô tả không gian tìm kiếm tập mục lợi ích cao trong cơ sở dữ liệu bảng 1 theo thuật toán HUMining (Trang 48)
Bảng 3.1: Lợi ích các giao tác của cơ sở dữ liệu - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 3.1 Lợi ích các giao tác của cơ sở dữ liệu (Trang 54)
Bảng 3.2: Lợi ích TWU của các mục dữ liệu  Mục dữ liệu  twu - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 3.2 Lợi ích TWU của các mục dữ liệu Mục dữ liệu twu (Trang 54)
Bảng 3.3: Các mục dữ liệu có lợi ích TWU cao sắp giảm dần theo twu  Mục dữ liệu  twu - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 3.3 Các mục dữ liệu có lợi ích TWU cao sắp giảm dần theo twu Mục dữ liệu twu (Trang 55)
Bảng 3.4: Các mục dữ liệu trong giao tác sắp giảm dần theo lợi ích TWU. - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 3.4 Các mục dữ liệu trong giao tác sắp giảm dần theo lợi ích TWU (Trang 55)
Hình 3.3: Cây TWUI-tree của cơ sở dữ liệu bảng 3.1 và 3.2. - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 3.3 Cây TWUI-tree của cơ sở dữ liệu bảng 3.1 và 3.2 (Trang 56)
Hình 3.1: Cây TWUI-tree sau khi lưu thao tác T1. - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 3.1 Cây TWUI-tree sau khi lưu thao tác T1 (Trang 56)
Hình 3.2: Cây TWUI-tree sau khi lưu thao tác T1 và T2. - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 3.2 Cây TWUI-tree sau khi lưu thao tác T1 và T2 (Trang 56)
Hình 3.4: Cây C-COUI-tree sau khi lưu mẫu CBE - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 3.4 Cây C-COUI-tree sau khi lưu mẫu CBE (Trang 58)
Hình 3.5: Cây C-COUI-tree sau khi lưu mẫu CBE và CE - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 3.5 Cây C-COUI-tree sau khi lưu mẫu CBE và CE (Trang 59)
Hình 3.7: Cây D-COUI-tree - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 3.7 Cây D-COUI-tree (Trang 59)
Hình 3.6: Cây C-COUI-tree sau khi xây dựng xong. - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 3.6 Cây C-COUI-tree sau khi xây dựng xong (Trang 59)
Hình 3.8: Cây B-COUI-tree - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 3.8 Cây B-COUI-tree (Trang 60)
Hình 3.9: Các bước khai phá cây D-COUI-tree. - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Hình 3.9 Các bước khai phá cây D-COUI-tree (Trang 61)
Bảng 3.5: Lợi ích các tập mục ứng viên - khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn
Bảng 3.5 Lợi ích các tập mục ứng viên (Trang 62)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w