1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác tập được đánh trọng phổ biến trên cơ sở dữ liệu tăng trưởng

70 403 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 1,52 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - TẠ THẾ VINH KHAI THÁC TẬP ĐƯỢC ĐÁNH TRỌNG PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - TẠ THẾ VINH KHAI THÁC TẬP ĐƯỢC ĐÁNH TRỌNG PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH, tháng năm 2016 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : PGS.TS VÕ ĐÌNH BẢY Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 31 tháng 05 năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên TS Đặng Trường Sơn TS Vũ Thanh Hiền TS Lư Nhật Vinh TS Cao Tùng Anh TS Nguyễn Thị Thúy Loan Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 20 tháng 05 năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Tạ Thế Vinh Giới tính: Nam Ngày, tháng, năm sinh: 01/05/1982 Nơi sinh: Bến Tre Chuyên ngành: Công Nghệ Thông Tin MSHV: 1241860028 I- Tên đề tài: - Khai thác tập đánh trọng phổ biến sở liệu tăng trưởng II- Nhiệm vụ nội dung: - Nghiên cứu toán khai thác tập đánh trọng phổ biến - Nghiên cứu toán khai thác tập đánh trọng phổ biến sở liệu tăng trưởng - Kết hợp hai thuật toán để giải vấn đề - Cài đặt ứng dụng minh họa III- Ngày giao nhiệm vụ: 20/01/2016 IV- Ngày hoàn thành nhiệm vụ: 14/05/2016 V- Cán hướng dẫn: PGS.TS Võ Đình Bảy CÁN BỘ HƯỚNG DẪN PGS.TS Võ Đình Bảy KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Tạ Thế Vinh ii LỜI CẢM ƠN Để hoàn thành luận văn này, em giúp đỡ tận tình thầy cô giáo giúp đỡ bạn đồng nghiệp, gia đình bạn bè Nhân dịp em xin tỏ lòng biết ơn tới: Các thầy cô khoa đào tạo sau đại học Trường Đại Học Công Nghệ Thành Phố Hồ Chí Minh truyền đạt cho em kinh nghiệm quý báu Bên cạnh đó, em xin gửi lời cảm ơn đến Ban giám hiệu, Ban chủ nhiệm ban ngành Trường Đại Học Công Nghệ Thành Phố Hồ Chí Minh tạo điền kiện thuận lợi cho em trình học tập hoàn thiện luận văn Em xin chân thành cảm ơn thầy PGS.TS.Võ Đình Bảy, người tận tình hướng dẫn em bước suốt trình thực đề tài Trong trình làm luận văn thầy tận tình hướng dẫn giúp em giải vấn đề hoàn thành luận văn Xin chân thành cảm ơn thầy cô hội đồng chấm luận văn cho em đóng góp quý báu để luận văn thêm hoàn chỉnh Xin chân thành cảm ơn thầy cô giáo, anh chị đồng nghiệp, bạn bè gia đình giúp em hoàn thành luận văn Em xin chân thành cảm ơn! TP Hồ Chí Minh, tháng năm 2016 Người thực Tạ Thế Vinh iii TÓM TẮT Dữ liệu tài sản quý giá doanh nghiệp, liệu thông thường mà ẩn chứa nhiều thông tin có giá trị cho doanh nghiệp, đặc biệt sở liệu bán hàng suốt trình hoạt động doanh nghiệp, khai thác cách, khám phá tri thức hữu ích cho doanh nghiệp, từ giúp doanh nghiệp định hướng phát triển đắn Để khám phá thông tin có giá trị sở liệu, khai thác luật kết hợp phương pháp phổ biến để đạt mục đích Trong khai thác tập phổ biến đóng vai trò quan trọng khai thác luật kết hợp Tập phổ biến thường khai thác từ sở liệu nhị phân Tuy nhiên, sở liệu nhị phân quan tâm đến vấn đề khách hàng có mua hay không mua sản phẩm Nhưng thực tế, sản phẩm mà khách hàng mua lại có giá trị khác Tương tự hạng mục giao dịch có trọng số khác tùy theo loại sở liệu cụ thể Khai thác tập đánh trọng phổ biến sở liệu tăng trưởng chưa phát triển Vì vậy, việc nghiên cứu kỹ thuật để khai thác sở liệu mang tính thực tiễn cao Luận văn nghiên cứu thuật toán khai thác tập đánh trọng phổ biến thuật toán Apriori, WIT-FWIs, WIT-FWIs-MDIFY, WIT-FWIs-DIFF, dựa vào làm tảng để tiến hành nghiên cứu toán khai thác tập phổ biến đánh trọng CSDL tăng trưởng, đề nghị ứng dụng khái niệm pre-large vào khai thác tập đánh trọng phổ biến sở liệu tăng trưởng nhằm hạn chế phải quét lại sở liệu ban đầu liệu tăng trưởng, từ đề xuất thuật toán INCREMENTAL_WIT_FWI khai thác tập phổ biến đánh trọng số liệu tăng trưởng iv ABSTRACT The data are valuable assets of the business, it's not the usual data but that it hides a lot of information is valuable for business, especially sales database during the operation of the business, if we exploit properly, will discover useful knowledge for the enterprise, helping businesses develop proper orientation To discover valuable information in the database, association rules mining is one of the most well know methods to achieve this purpose In this, frequent itemsets mining play an important part in associative rules mining Frequent itemsets often mined from the binary database However, the binary database are only interested in customers buy or not buy a product In fact, every product that customer buy can have different values Similarly, each item of transactions also have different weights depending on the type of specific databases Frequent itemsets mining is considered common practice on the basis of current growth data have yet to be developed Thus the techniques research to mining the database have highly practical This thesis is devoted to Frequent itemsets mining algorithm is considered common practice on the basis as Apriori algorithm, WIT-FWIs, WIT-FWIs-MDIFY, WIT-FWIs-DIFF, thank to that is foundation to conduct research Frequent itemsets mining, and proposed the concept of pre-large to exploit large weight is considered common practice in the database to limit growth to scan the initial database when the data is grow, since, the proposed algorithm INCREMENTAL_WIT_FWI in incremental data mining v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC v DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC BIỂU ĐỒ, HÌNH ẢNH ix PHẦN MỞ ĐẦU 1 Đặt vấn đề Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Cấu trúc luận văn CHƯƠNG 1: TỔNG QUAN LĨNH VỰC NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT 1.1 Các khái niệm định nghĩa 1.2 Tổng quan khai thác luật kết hợp 1.3 Thuật toán Apriori 1.4 Thuật toán Eclat 12 1.5 Định nghĩa tính chất tập đánh trọng số 16 1.6 Khai thác tập phổ biến đánh trọng số 17 1.7 Cấu trúc WIT-tree 18 1.8 Thuật toán WIT-FWI 20 1.9 Khái niệm PRE-LARGE khai thác liệu tăng trưởng 26 1.10 Khai thác tập phổ biến sở liệu tăng trưởng 27 vi CHƯƠNG 2: KHAI THÁC TẬP PHỔ BIẾN ĐƯỢC ĐÁNH TRỌNG SỐ TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG 35 2.1 Khai thác tập phổ biến đánh trọng số 35 2.2 Khai thác tập phổ biến đánh trọng số liệu tăng trưởng 36 2.3 Các bước thuật toán tăng trưởng INCREMENTAL-WIT-FWI() 36 2.4 Mô tả thuật toán INCREMENTAL_WIT_FWI 36 2.5 Thực thiện thuật toán tăng trưởng liệu mẫu 38 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 45 3.1 Môi trường thực nghiệm 45 3.2 Đặc điểm liệu thực nghiệm 45 3.3 Kết thực nghiệm 46 PHẦN KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53 Kết Luận 53 Nhận xét ưu điểm hạn chế 53 Hướng phát triển 54 TÀI LIỆU THAM KHẢO 55 42 {} Cx∅ 0.45 CEx∅ 0.30 CEBx∅ 0.40 CBx∅ 0.45 Ax13457 0.78 ADx1357 AEx∅ 0.68 0.53 ADEx∅ 0.43 ADBx∅ 0.43 Dx13567 0.83 ABx∅ 0.53 Ex∅ 0.60 DEx∅ 0.43 AEBx∅ 0.53 DBx∅ 0.58 Bx∅ 0.75 EBx∅ 0.60 DEBx∅ 0.43 ADEBx∅ 0.43 Hình 2.4: Cập nhật lại nút mức L1 Sau cập nhật xong thuật toán tính lại ngưỡng an toàn f cập nhật lại liệu D Lúc liệu D2 thêm vào thuật toán tính lại tổng trọng số giao dịch Sum(D) = Sum(D1) + Sum(D2) = 2.28+0.75 = 3.03 Lúc f = f – Sum(D2)= 1.1-0.75 = 0.35 Cập nhật lại liệu D= D1 + D2 Khi liệu thêm vào mà có tổng trọng số hỗ trợ lớn ngưỡng an toàn f điều có nghĩa thuật toán cần phải quét lại toàn liệu để tính toán lại thông tin Ta tiến hành tăng trưởng liệu D3 ( bảng 2.2) có giao dịch, thuật toán tiến hành tính tổng trọng số giao dịch liệu D3 = 0.6 Tuy nhiên, lúc ngưỡng an toàn f = 0.35 vượt ngưỡng an toàn nên ta tiến hành quét lại toàn liệu để tính toán lại thông tin 43 {} Ex12345 0.51 Cx24568 0.54 Bx123456 0.63 EBx12345 EAx1345 CDx568 BAx1345 0.45 0.40 0.45 0.5.1 Ax134578 0.82 BDx1356 0.49 Dx135678 0.86 ADx13578 0.74 EBAx1345 0.45 Hình 2.5: Cây sau tăng trưởng liệu D3 với WSL=0.4 Sau kết thúc tăng trưởng D3 thuật toán lấy danh sách nút thỏa ngưỡng trọng số hỗ trợ (WSU=0.60) {} Bx123456 0.63 Ax134578 0.82 Dx135678 0.86 ADx13578 0.74 Hình 2.6: Danh sách nút thỏa ngưỡng WSU sau tăng trưởng D3 44 Ta hiểu liệu thêm vào thuật toán xem xét ngưỡng an toàn liệu mới, không vượt ngưỡng an toàn không cần phải quét lại toàn liệu mà tiến hành cập nhật lại thông tin với liệu mới, điều giúp giảm đáng kể thời gian cho việc khai thác tập phổ biến đánh trọng số sở liệu tăng trưởng 45 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Môi trường thực nghiệm Tất thí nghiệm trình bày phần thực máy tính cá nhân với thông số cấu hình máy tính CPU Intel i5-5200U 2.20 GHz GB RAM chạy hệ điều hành Windows Tất chương trình mã hóa C# 2013 3.2 Đặc điểm liệu thực nghiệm Nguồn sở liệu thực nghiệm lấy từ trang web Frequent Itemset Mining Dataset Repository: http://fimi.cs.helsinki.fi/data/ với tên sở liệu sử dụng cho thực nghiệm là: Chess, Mushroom, Connect Các liệu sửa đổi cách thêm vào bảng để lưu trữ trọng số hỗ trợ item, trọng số có giá trị từ đến 10 cho sở liệu Dữ liệu thực nghiệm tiến hành khai thác liệu chuẩn bảng 3.1 Bảng 3.1: Cơ sở liệu thực nghiệm có chỉnh sửa trọng số hỗ trợ CSDL Số Item Số giao dịch Tình trạng 76 3196 Đã sửa đổi MUSHROOM 120 8124 Đã sửa đổi CONNECT 129 67557 Đã sửa đổi CHESS Nội dung thực nghiệm sử dụng hai thuật toán WIT-FWI thuật toán tăng trưởng INCREMENTAL_WIT_FWI chạy liệu chuẩn so sánh thời gian thực hai thuật toán để tìm thuật toán tối ưu khai thác liệu tăng trưởng 46 3.3 Kết thực nghiệm Thời gian thực thi chương trình cho việc tìm kiếm tập phổ biến đánh trọng số khác tùy theo ngưỡng trọng số hỗ trợ, ngưỡng trọng số hỗ trợ thấp thời gian thực thi lâu, kết tìm kiếm tập FWI tìm thấy nhiều Khoảng cách ngưỡng trọng số hỗ trợ WSL WSU xa khả quét lại toàn liệu ban đầu thấp, nhiên việc tốn nhiều nhớ làm chậm thời gian tìm kiếm tập FWI, việc chọn ngưỡng trọng số hỗ trợ cho phù hợp với liệu điều quan trọng giúp giảm đáng kể thời gian khai thác Tiến hành thực nghiệm với liệu Chess, liệu Chess gồm có 3196 giao dịch, chia làm hai phần, phần gồm 3096 giao dịch làm liệu gốc, phần gồm có 100 giao dịch chia điều cho 10 lần tăng trưởng (mỗi tăng trưởng 10 giao dịch), kết sau 10 lần tăng trưởng tìm thấy 50649 tập FWI Ở hai thuật toán cho kết khác thời gian thực thi tìm kiếm Hinh 3.1: Thời gian thực thi liệu Chess 47 Hinh 3.2: Tổng thời gian thực liệu Chess Hinh 3.3: Bộ nhớ sử dụng chạy liệu Chess 48 Tiếp đến ta tiến hành thực nghiệm với liệu Mushroom, liệu Mushroom gồm có 8124 giao dịch, chia làm hai phần, phần gồm 7624 giao dịch làm liệu gốc, phần gồm có 500 giao dịch chia điều cho 10 lần tăng trưởng ( tăng trưởng 50 giao dịch) , kết sau 10 lần tăng trưởng tìm thấy 54115 tập FWI, hai thuật toán WIT-FWI thuật tóa tăng trưởng INCREMENTAL_WIT_FWI cho kết khác thời gian thực thi tìm kiếm Hinh 3.4: Thời gian thực thi liệu Mushroom 49 Hinh 3.5: Tổng thời gian thực liệu Mushroom Hinh 3.6: Bộ nhớ sử dụng chạy liệu Mushroom 50 Kế tiếp ta tiến hành thực nghiệm với liệu Connect, liệu Connect gồm có 67557 giao dịch, chia làm hai phần, phần gồm 55557 giao dịch làm liệu gốc, phần gồm có 1200 giao dịch chia điều cho 10 lần tăng trưởng ( tăng trưởng 1200 giao dịch) , kết sau 10 lần tăng trưởng tìm thấy 1077 tập FWI, hai thuật toán WIT-FWI thuật tóa tăng trưởng INCREMENTAL_WIT_FWI cho kết khác thời gian thực thi tìm kiếm Hinh 3.7: Thời gian thực thi liệu Connect 51 Bộ nhớ sử dụng (GB) Hinh 3.8: Tổng thời gian thực thi liệu Connect Hinh 3.9: Bộ nhớ sử dụng chạy liệu Connect 52 Từ kết thực nghiệm ta thấy thời gian xử lý cho liệu khác cần có thời gian xử lý khác nhau, tùy thuộc vào ngưỡng trọng số hỗ trợ người dùng đặt độ lớn liệu cần khai thác, tổng số thời gian thực cho 10 lần tăng trưởng, thuật toán tăng trưởng INCREMENTAL_WIT_FWI cho thời gian thực thi nhanh thuật toán WIT-FWI Thuật toán tăng trưởng INCREMENTAL_WIT_FWI thực mang lại hiệu đáng kể khai thác liệu tăng trưởng, giúp rút ngắn thời gian khai thác làm giảm đáng kể số lần phải quét lại toàn liệu, khai thác sở liệu lớn, lúc ngưỡng an toàn lớn, liệu tăng trưởng thực tế thường nhỏ thường không vượt ngưỡng an toàn Vì ứng dụng thuật toán tăng trưởng INCREMENTAL_WIT_FWI mang lại hiệu đáng kể cho việc khai thác tập phổ biến đánh trọng số sở liệu tăng trưởng 53 PHẦN KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết Luận Đề tài tập trung nghiên cứu khai thác tập phổ biến đánh trọng số liệu tăng trưởng, đề xuất thuật toán hiệu để khai thác liệu tăng trưởng trì WIT-FWI dựa khái niệm pre-large Thông qua trình thực đề tài thực mục tiêu: - Nghiên cứu sở lý thuyết kỹ thuật khai thác tập phổ biến phương pháp Apriori, IT-tree, WIT-tree - Tìm hiểu sở liệu giao dịch có trọng số, trọng số hỗ trợ lý thuyết có liên quan - Nghiên cứu thuật toán khai thác tập phổ biến sở liệu giao dịch có trọng số WIT-FWI, WIT-FWI-MODIFY, WIT-FWI-DIF - Cài đặt thực nghiệm để khảo sát kết thuật toán đề xuất: tiến hành khai thác tập phổ biến đánh trọng số sở liệu chuẩn Chess, Mushroom, Connect Từ đề xuất thuật toán INCREMENTAL_WIT_FWI để khai thác tập phổ biến đánh trọng số sở liệu tăng trưởng, áp dụng khái niệm pre-large khai thác liệu tăng trưởng, giúp hạn chế việc phải quét lại toàn liệu ban đầu có liệu thêm vào làm cho việc khai thác xử lý nhanh Với thuật toán đề xuất mang lại hiệu đáng kể khai thác tập phổ biến sở liệu tăng trưởng Từ ứng dụng thuật toán vào thực tiễn Nhận xét ưu điểm hạn chế Ưu điểm: Trong khai thác liệu tăng trưởng, liệu thêm vào thường xuyên, có liệu thêm vào cần phải quét lại toàn liệu để cập nhật lại trọng số hỗ trợ, việc phải quét lại liệu ban đầu làm tốn nhiều thời gian, thuật toán 54 đề xuất đề tài khắc phục nhược điểm này, làm tăng tốc độ xử lý Hạn chế: Bên cạnh ưu điểm thuật toán tồn mặt hạn chế, thuật toán cần nhiều nhớ để lưu trữ thông tin phục vụ cho việc tính toán nhanh trọng số hỗ trợ, khai thác sở liệu lớn cần phải tốn lượng lớn nhớ cho việc lưu trữ Lần đầu chạy thuật toán cần nhiều thời gian cho việc xây dựng cấu trúc lưu trữ liệu phục vụ cho việc tính toán nhanh liệu tăng trưởng Người dùng cần chọn ngưỡng trọng số hỗ trợ phù hợp với liệu cần khai thác Hướng phát triển Tiếp tục nghiên cứu cách khai thác tập phổ biến đánh trọng số sở liệu tăng trưởng cách hiệu Nghiên cứu áp dụng kỹ thuật Diffset khai thác tăng trưởng Nghiên cứu cải tiến thuật toán theo hướng giảm thời gian tính toán Nghiên cứu cải tiến thuật toán theo hướng giảm nhớ lưu trữ cho việc tính toán 55 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Nguyễn Xuân Huy, Đoàn Văn Ban, Nguyễn Huy Trọng, Huỳnh Văn Đức (2007) Thuật toán khai thác liệu tăng trưởng Tạp chí khoa học công nghệ, Tập 45, Số (9-18) [2] Mai Ngoc Thu (2015), Khai thác TOP-RANK K cho tập đánh trọng sở liệu có trọng số Trường Đại Học Công Nghệ TP.HCM (1-64) Tài liệu tiếng anh [3] B Vo, F Coenen, B Le (2013) A new method for mining Frequent Weighted Itemsets based on WIT-trees Expert Systems with Applications 40:1256–1264 [4] B Vo, F Coenen, B Le (2014) An effective approach for maintenance of pre-largebased frequent-itemset lattice in incremental mining, Appl Intell (2014) 41:759– 775 [5] T.P Hong, C.Y Wang, Y.H Tao (2001) A new incremental data mining algorithm using pre-large itemsets Int Data Anal 5(2):111–129 [6] B Vo, B Le (2009) Mining traditional association rules using frequent itemsets lattice In: CIE’09 (1401–1406) [7] G.D Ramkumar, S Ranka, S Tsur (1998) Weigh ted Association Rules Model and Algorithm In: SIGKDD’98 (661–666) [8] F Tao, F Murtagh, M Farid (2003) Weighted Association Rule Mining using Weighted Support and Significance Framework In: SIGKDD’03 (661-666) [9] T.P Hong, H.Y Chen, S.T Li (2008) Incrementally Fast Updated Sequential Pattern Trees (3991-3996) [10] R Agrawal, T Imielinski, A Swami (1993) Mining Association Rule between sets of items in large databases ACM SIGMOD Record 22 (2) (207-216) [11] M.J Zaki, S Parthasarathy, M Ogihara, W Li (1997) New algorithms for fast discovery of association rules In KDD97 (pp 283-286) 56 [12] R Agrawal, R Srikant (1994) Fast algorithms for mining association rules In: VLDB’94 (pp 487–499) [...]... được đánh trọng được quan tâm, tuy nhiên chưa có công trình nào xem xét việc khai thác tập được đánh trọng trên CSDL tăng trưởng Luận văn tập trung tìm hiểu bài toán khai thác tập được đánh trọng từ đó phát triển thuật toán khai thác tập được đánh trọng trên CSDL tăng trưởng 2 Mục tiêu nghiên cứu Mục tiêu chung - Nghiên cứu các thuật toán để khai thác tập phổ biến được đánh trọng số trên cơ sở dữ liệu. .. được đánh trọng số trên cơ sở dữ liệu tăng trưởng, nhằm giảm quét lại cơ sở dữ liệu ban đầu khi CSDL tăng trưởng 2 Mục tiêu cụ thể - Nghiên cứu các thuật toán để khai thác tập được đánh trọng phổ biến - Nghiên cứu khai thác tập phổ biến trên CSDL tăng trưởng - Ứng dụng các thuật toán nghiên cứu vào khai thác tập được đánh trọng phổ biến trên cơ sở dữ liệu tăng trưởng 3 Đối tượng và phạm vi nghiên cứu... thuật toán khai thác luật kết hợp - Các thật toán khai thác tập phổ biến được đánh trọng số - Các thuật toán khai khác tập phổ biến trên CSDL tăng trưởng - Các CSDL lớn thường xuyên thay đổi (Giới hạn trong trường hợp thêm dữ liệu) Phạm vi nghiên cứu: - Luận văn tập trung vào nghiên cứu các thuật toán để khai thác tập phổ biến được đánh trọng và nghiên cứu khai thác tập phổ biến trên CSDL tăng trưởng 4... 1.1: “Mọi tập con khác rỗng của tập phổ biến cũng là tập phổ biến và mọi tập chứa tập không phổ biến đều là tập không phổ biến có nghĩa là nếu cho X ⊂ Y thì khi đó ws(X) ≥ ws(Y) 1.7 Cấu trúc WIT-tree Để khai thác các luật kết hợp có trọng số, đầu tiên chúng ta phải tìm tất cả các tập được đánh trọng số thỏa điều kiện ngưỡng trọng số tối thiểu minws Việc khai thác các tập được đánh trọng số được xem... hơn và làm tăng doanh thu cho doanh nghiệp Khai thác dữ liệu là quá trình phân tích và tìm ra các thông tin có giá trị được ẩn chứa trong cơ sở dữ liệu (CSDL) Khai thác luật kết hợp là một trong những phương pháp phổ biến nhất mà các nhà nghiên cứu thường hay dùng Mục đính của việc khai thác luật kết hợp nhằm tìm ra các mối quan hệ giữa các tập trong cơ sở dữ liệu, trong đó khai thác tập phổ biến đóng... vào các tập phổ biến đã được tìm thấy Trong lĩnh vực khai thác dữ liệu, mục tiêu cuối cùng là tìm ra được các mối quan hệ tiềm ẩn giữa các đối tượng trong cơ sở dữ liệu, để đạt được mục tiêu, khai thác luật kết 5 hợp là vấn đề cần được tìm hiểu, nội dung cơ bản của luật kết hợp (Association Rule – AR) được mô tả như sau: Một cơ sở dữ liệu giao dịch (D) được định nghĩa như sau: D là bao gồm một tập hợp... trình quan trọng nhất trong việc khai thác các luật kết hợp có trọng số Ramkumar và các đồng sự [7] đã trình bày giải thuật khai thác các tập được đánh trọng số dựa trên mô hình thuật toán Apriori 19 Nhược điểm chính của các giải thuật dựa trên thuật toán Apriori là việc phải quét cơ sở dữ liệu nhiều lần để tìm ra các tập phổ biến, dẫn đến việc sẽ phát sinh chi phí lớn Khai thác tập phổ biến trên CSDL... quan trọng trong khai thác luật kết hợp Khai thác tập phổ biến thường được khai thác từ CSDL nhị phân, trong đó từng mục trong giao dịch có thể mang nhiều ý nghĩa khác nhau Tuy nhiên, khai thác CSDL nhị phân người ta thường chỉ quan tâm đến số lượng bán ra của một sản phẩm nào đó, chưa quan tâm nhiều đến giá trị và lợi ích của các sản phẩm được bán ra Gần đây, khai thác tập được đánh trọng phổ biến trên. .. 11 Bảng 1.6: Cơ sở dữ liệu giao dịch 16 Bảng 1.7: Trọng số giao dịch của từng item 16 Bảng 1.8: Trọng số giao dịch của từng giao dịch ở bảng 1.6 17 Bảng 1.9: Bảng trọng số hỗ trợ cho tập phổ biến 1 phần tử 18 Bảng 2.1: Bảng dữ liệu tăng trưởng D2 38 Bảng 2.2: Bảng dữ liệu tăng trưởng D3 38 Bảng 3.1: Cơ sở dữ liệu thực nghiệm có chỉnh sửa trọng số hỗ trợ... khái niệm, định nghĩa, cơ sở khoa học, các công trình nghiên cứu có liên quan, các phương pháp nghiên cứu và nhận xét ưu khuyết điểm của các phương pháp Chương 2: Ứng dụng khái niệm pre-large vào khai thác tập được đánh trọng phổ biến trên cơ sở dữ liệu tăng trưởng Chương 3: Trình bày về thực nghiệm bao gồm môi trường thực nghiệm, cơ sở dữ liệu thực nghiêm, đánh giá các kết quả thu được Phần kết luận:

Ngày đăng: 17/11/2016, 16:45

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Xuân Huy, Đoàn Văn Ban, Nguyễn Huy Trọng, Huỳnh Văn Đức (2007). Thuật toán khai thác dữ liệu tăng trưởng. Tạp chí khoa học và công nghệ, Tập 45, Số 2 (9-18) Khác
[2] Mai Ngoc Thu (2015), Khai thác TOP-RANK K cho tập đánh trọng trên cơ sở dữ liệu có trọng số. Trường Đại Học Công Nghệ TP.HCM. (1-64)Tài liệu tiếng anh Khác
[3] B. Vo, F. Coenen, B. Le (2013). A new method for mining Frequent Weighted Itemsets based on WIT-trees. Expert Systems with Applications 40:1256–1264 Khác
[4] B. Vo, F. Coenen, B. Le (2014). An effective approach for maintenance of pre-large- based frequent-itemset lattice in incremental mining, Appl Intell (2014) 41:759–775 Khác
[5] T.P. Hong, C.Y. Wang, Y.H. Tao (2001) A new incremental data mining algorithm using pre-large itemsets. Int Data Anal 5(2):111–129 Khác
[6] B. Vo, B. Le (2009). Mining traditional association rules using frequent itemsets lattice. In: CIE’09 (1401–1406) Khác
[7] G.D. Ramkumar, S. Ranka, S. Tsur (1998) Weigh ted Association Rules Model and Algorithm. In: SIGKDD’98 (661–666) Khác
[8] F. Tao, F. Murtagh, M. Farid (2003). Weighted Association Rule Mining using Weighted Support and Significance Framework. In: SIGKDD’03 (661-666) Khác
[9] T.P. Hong, H.Y. Chen, S.T. Li. (2008) Incrementally Fast Updated Sequential Pattern Trees. (3991-3996) Khác
[10] R. Agrawal, T. Imielinski, A. Swami (1993). Mining Association Rule between sets of items in large databases. ACM SIGMOD Record 22 (2) (207-216) Khác
[11] M.J. Zaki, S. Parthasarathy, M. Ogihara, W. Li. (1997). New algorithms for fast discovery of association rules. In KDD97 (pp. 283-286) Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w