Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 83 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
83
Dung lượng
1,73 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TP HỒ CHÍ MINH ĐẶNG CƠNG QUỐC ĐÁNH GIÁ CÁC THUẬT TỐN KHAI THÁC TẬP MỤC LỢI ÍCH CAO LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, tháng 10 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HỒ CHÍ MINH ĐẶNG CƠNG QUỐC ĐÁNH GIÁ CÁC THUẬT TỐN KHAI THÁC TẬP MỤC LỢI ÍCH CAO LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS TƠ HỒI VIỆT TP HỒ CHÍ MINH, tháng 10 năm 2015 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TP HỒ CHÍ MINH Cán hƣớng dẫn khoa học: ………………… TS TƠ HỒI VIỆT Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM (HUTECH) ngày 17 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Chức danh Hội đồng Họ Tên PGS.TSKH Nguyễn Xuân Huy Chủ tịch TS Lƣ Nhật Vinh Phản biện TS Võ Đình Bảy Phản biện TS Trần Đức Khánh TS Nguyễn Thị Thúy Loan Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TP.HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc PHÒNG QLKH – ĐTSĐH TP HCM, ngày 17 tháng 10 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Đặng Cơng Quốc Giới tính: Nam Ngày, tháng, năm sinh : 21 – 06 – 1968 Nơi sinh: Thừa Thiên Huế Chuyên ngành : Công Nghệ Thông Tin MSHV : 1341860050 I- Tên đề tài: ĐÁNH GIÁ CÁC THUẬT TỐN KHAI THÁC TẬP MỤC LỢI ÍCH CAO II- Nhiệm vụ nội dung: Nghiên cứu thuật tốn khai thác tập mục lợi ích cao, tập trung tìm hiểu vào phƣơng pháp thực nghiệm từ báo đƣợc nhiều tác giả tham khảo Tìm hiểu đánh giá thuật tốn khai thác tập mục lợi ích cao III- Ngày giao nhiệm vụ: 03/4/2015 IV- Ngày hoàn thành nhiệm vụ: 17/9/2015 V- Cán hƣớng dẫn: TS Tơ Hồi Việt CÁN BỘ HƢỚNG DẪN TS Tơ Hồi Việt KHOA CƠNG NGHỆ THƠNG TIN i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết đánh giá, nhận xét đề xuất cải tiến nêu Luận văn trung thực chƣa đƣợc công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn nhƣ trích dẫn hay tài liệu học thuật tham khảo đƣợc cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thơng tin trích dẫn Luận văn Học viên thực Luận văn Đặng Công Quốc ii LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới TS Tơ Hồi Việt – Trƣờng Đại học Sài Gòn, PGS.TSKH Nguyễn Xuân Huy – Viện Hàn lâm KHCN Việt Nam, TS Võ Đình Bảy – Trƣờng Đại học Cơng nghệ TP Hồ Chí Minh, TS Lƣ Nhật Vinh – Trƣờng Đại học Công nghiệp Thực phẩm TP Hồ Chí Minh, PGS.TS Lê Hồi Bắc – Trƣờng Đại học Khoa học Tự nhiên TP Hố Chí Minh, TS Nguyễn Quốc Huy – Trƣờng Đại học Sài Gòn, ngƣời thầy bảo hƣớng dẫn tận tình cho tơi suốt q trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn dạy bảo, giúp đỡ, tạo điều kiện khuyến khích tơi q trình học tập nghiên cứu thầy cô giáo, cán quản lý Trƣờng Đại học Công nghệ TP Hồ Chí Minh Và cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, ngƣời thân bạn bè ngƣời ln bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! Tp Hồ Chí Minh, ngày 26 tháng 10 năm 2015 Tác giả Đặng Cơng Quốc iii TĨM TẮT Phân tích hành vi mua sắm khách hàng toán lĩnh vực kinh doanh nhƣ nghiên cứu marketing Vì vậy, việc thực hệ thống có tên gọi Hệ phân tích hành vi khách hàng để hỗ trợ cho nhà buôn bán lẻ tận dụng khai thác khối lƣợng liệu giao dịch khổng lồ từ cửa hàng họ điều cần thiết Hệ thống gồm nhiều mô đun nhiều giai đoạn để thực hiện, tất mô đun giai đoạn thực khó phức tạp Nhƣng cốt lõi hết việc xử lý liệu lớn hiệu Vì vậy, tác giả ƣu tiên tập trung nghiên cứu thuật tốn tìm tập mặt hàng mang lại lợi ích cho cửa hàng Việc nghiên cứu bƣớc đầu có số kết nhƣ sau: - Xác định mã nguồn cấu trúc liệu thuật toán cài đặt SPMF nhƣ mô tả báo công bố để xác định độ tin cậy công cụ SPMF - Xác định đƣợc thuật tốn Two-Phase SPMF cài đặt khơng với báo ban đầu (cài đặt theo WIT-TREE, sử dụng Tidset) - Cài đặt bổ sung thuật toán Diffset-Two-Phase (mở rộng Two-Phase có dùng thêm tính chất Diffset Zaki) - Thực nghiệm lại tất thực nghiệm đƣợc thực cơng trình cơng bố để xác định tính đắn thuật tốn Các kết hoàn thành mục tiêu đánh giá khách quan ƣu điểm khuyết điểm thuật toán Đánh giá số thuật toán theo cấu trúc cây, số thuật toán theo utility-list; So sánh hiệu cấu trúc utility-list Kiểm tra tính đắn mã nguồn thuật toán khai thác tập có ích cao cơng cụ SPMF so với mã giả thuật toán đƣa báo Hiện thực lại thực nghiệm cho thuật tốn trình bày báo cơng bố Qua iv đó, đảm bảo mơi trƣờng thực nghiệm hoàn toàn đáng tin cậy để so sánh đánh giá với kết sau có v ABSTRACT Customer behavior analysis is a basis problem in business area as well as marketing research Thus, it is very necessary for setting up a system named Customer Behavior Analysis System to support the retailers in mining the huge transaction data from their stores The system has many modules and many phases which need to implement They are very touch and complexity In these modules, the main core is how to process big data effectively So the thesis focuses on studying algorithms which can find out the high utility itemsets for the stores There are some initial results of research as follows: - To identify whether the source code and data structures of each algorithm in SPMF tool are correct as the description of the proposed papers If it is right, the SPMF is considered as high confident tool to compare the algorithms in many data - We see that the source code of Two-Phase algorithm in SPMF tool is not right one hundred percent as described in the original paper It is implemented as the description of WIT-TREE, an enhancement of TwoPhase - We implemented one more algorithm named Diffset-Two-Phase It is the expanding of Two-Phase which applied the Diffset property - All experiments in proposed papers of HUI mining are implemented again to identify the correctness of algorithms These results help us measure objectively the advantages and disadvantages of novel algorithms Especially, we focus on algorithms using lattice structure and utility-list, and identify the correctness of source code of SPMF is based on the pseudo-code proposed in HUI papers Then, the correctness of experiments in HUI papers is also reviewed by re-running the algorithms with experiment data From vi that, we can claim that experiment environment is confident already to test every new algorithms as well as new data in future if possible 53 Bảng 3.5: Đặc điểm CSDL thử nghiệm Tên CSDL Số giao Số item Độ dài trung dịch Độ dài tối đa bình Chess 3196 16 8 Chess* 3196 30 15 15 Mushroom 8124 89 18 18 Mushroom* 8124 92 19 19 Pumsb 49046 275 20 20 Pumsb* 49046 297 22 22 Connect 67557 48 16 16 Connect* 67557 54 18 18 Accidents 111758 159 17 17 Accidents* 111758 307 20 20 Trên tập liệu chuẩn thƣờng đƣợc dung để so sánh đánh giá tính khách quan hiệu suất cho thuật tốn Tập liệu có chỉnh sửa cách xóa bớt item để giảm độ phức tạp Bảng 3.6: Kết thực nghiệm so sánh nhóm (Two-phase, Diffset-Two-Phase) (Hui-Miner, FHM) Thời gian thực (s) Tên CSDL minSup (%) Minutil Số Two- Diffset- Utility phase Two- HuiMiner FHM Phase Chess 0.1 153 4425 1.523 1.500 0.201 0.110 0.2 306 4228 1.459 1.364 0.176 0.106 0.4 611 3863 1.372 1.302 0.162 0.101 0.6 917 3603 1.203 1.200 0.127 0.097 0.8 1223 3345 1.198 1.181 0.098 0.095 54 Chess* Mushroom Mushroom* Pumsb Pumsb* Connect 40 81778 5707 38.916 38.319 1.337 1.286 50 102223 2062 26.004 22.556 0.835 0.810 60 122667 638 19.233 16.707 0.560 0.558 70 143112 168 11.687 10.094 0.382 0.375 80 163556 37 9.691 7.741 0.299 0.280 50 74625 3427 60.419 51.910 0.662 0.617 60 89549 930 38.845 34.233 0.356 0.320 70 104474 144 11.124 10.708 0.192 0.173 80 119399 27 8.948 8.313 0.133 0.126 90 134324 7.376 6.806 0.074 0.067 70 113070 217 32.924 30.574 0.325 0.224 75 121147 86 27.465 23.060 0.202 0.158 80 129223 40 25.486 22.162 0.141 0.126 85 137300 19 21.785 19.035 0.103 0.094 90 145376 19.756 14.305 0.086 0.080 75 377629 145 46.217 37.760 0.364 0.276 80 402804 79 31.222 28.530 0.302 0.225 85 427979 35 25.891 23.004 0.172 0.162 90 453155 15 24.778 21.922 0.122 0.118 95 478330 17.224 16.904 0.97 30 4694 42008 1155.250 1150.537 0.177 0.114 40 6258 10519 235.378 204.293 0.070 0.069 50 7823 3653 62.189 61.107 0.060 0.051 60 9388 1331 26.064 25.441 0.027 0.022 70 10952 420 6.868 6.491 0.013 0.012 40 150717 3660 26.912 24.784 1.339 1.244 50 188397 1582 13.942 13.180 0.746 0.719 60 226076 621 12.956 9.535 0.504 0.461 0.093 55 Connect* Accidents Accidents* 70 263755 220 9.233 6.271 0.355 0.287 80 301434 62 4.488 4.413 0.160 0.156 70 273993 746 30.367 22.463 0.661 0.660 80 313135 190 18.374 17.374 0.395 0.338 85 332706 80 14.662 12.747 0.211 0.210 90 352277 28 10.646 10.326 0.130 0.127 95 371848 9.380 9.051 0.085 0.077 30 15784 18035 125.785 111.675 0.568 0.417 40 21045 5800 35.775 35.728 0.425 0.272 50 26307 1880 21.818 19.261 0.243 0.193 60 31568 583 12.020 10.378 0.155 0.133 70 36829 170 7.577 6.572 0.106 0.095 70 37291 602 101.218 92.359 0.315 0.141 75 39955 313 71.727 39.955 0.166 0.116 80 42618 156 59.059 48.796 0.98 0.077 90 47946 29 29.533 27.733 0.60 0.045 95 50609 22.460 22.104 0.038 0.035 Với thực nghiệm trên, xem khác biệt kết thực nghiệm thông qua đồ thị So sánh nhóm (Two-phase, Diffset-Two-Phase) (Hui-Miner, FHM) 56 Runtime (s) Chess 1.6 1.4 1.2 0.8 0.6 0.4 0.2 Two-Phase Diffset-Two-Phase Hui-Miner FHM 153 306 611 minutil 917 1223 Hình 3.14: Đồ thị minh họa chess Chess * 45 40 Runtime (s) 35 30 25 Two-Phase 20 Diffset-Two-Phase 15 Hui-Miner 10 FHM 81778 102223 122667 143112 163556 minutil Hình 3.15: Đồ thị minh họa cho liệu Chess* 57 Mushroom 70 Runtime (s) 60 50 40 Two-Phase 30 Diffset-Two-Phase 20 Hui-Miner FHM 10 74625 89549 104474 119399 134324 Minutil Hình 3.16: Đồ thị minh họa cho liệu Mushroom Mushroom* 35 30 Runtime (s) 25 20 Two-Phase 15 Diffset-Two-Phase Hui-Miner 10 FHM 113070 121147 129223 137300 145376 Minutil Hình 3.17: Đồ thị minh họa cho liệu Mushroom* 58 Runtime (s) Pumsb 50 45 40 35 30 25 20 15 10 Two-Phase Diffset-Two-Phase Hui-Miner FHM 377629 402804 427979 453155 478330 minutil Hình 3.18: Đồ thị minh họa cho liệu Pumsb Pumsb* 1400 1200 Runtime (s) 1000 800 Two-Phase 600 Diffset-Two-Phase Hui-Miner 400 FHM 200 4694 6258 7823 9388 Minutil 10952 Hình 3.19: Đồ thị minh họa cho liệu Pumsb* 59 Connect 30 Runtime (s) 25 20 Two-Phase 15 Diffset-Two-Phase 10 Hui-Miner FHM 150717 188397 226076 263755 301434 Minutil Hình 3.20: Đồ thị minh họa cho liệu Connect Connect* 35 Runtime (s) 30 25 20 Two-Phase 15 Diffset-Two-Phase Hui-Miner 10 FHM 273993 313135 332706 352277 371848 Minutil Hình 3.21: Đồ thị minh họa cho liệu Connect* 60 Accidents 140 Runtime (s) 120 100 80 Two-Phase 60 Diffset-Two-Phase Hui-Miner 40 FHM 20 15784 21045 26307 31568 Minutil 36829 Hình 3.22: Đồ thị minh họa cho liệu Accidents Accidents* 120 Runtime (s) 100 80 Two-Phase 60 Diffset-Two-Phase Hui-Miner 40 FHM 20 37291 39955 42618 47946 Minutil 50609 Hình 3.23: Đồ thị minh họa cho liệu Accidents* 61 Kết thực nghiệm cho thấy thuật toán Two-Phase có kết chậm nhiều so với thuật tốn sử dụng utility-list Trong họ thuật tốn Two-Phase thuật toán Diffset-Two-Phase tốt Và họ thuật tốn có dung utility-list thuật tốn FHM tốt thuật toán HUI-Miner hầu hết trƣờng hợp 62 ẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Phần đề cập lại mục tiêu nghiên cứu luận văn, mô tả kết làm đƣợc làm chƣa đƣợc trình nghiên cứu Những kết phần nhỏ mục tiêu nghiên cứu tổng kết lại hƣớng nghiên cứu tƣơng lai Hình 4.1: Hệ thống phân tích hành vi khách hàng Với vấn đề nghiên cứu đƣợc đặt phần mở đầu, luận văn quan tâm đến xây dựng Hệ thống phân tích hành vi khách hàng để hỗ trợ cho nhà buôn bán lẻ tận dụng khai thác khối lƣợng liệu giao dịch khổng lồ từ hàng họ Hệ thống gồm ba mơ đun nhiều giai đoạn để thực nhƣ hình 4.1 - Đầu tiên mô đun thu thập liệu, mô đun thu thập liệu từ nhiều nguồn thực việc tiền xử lý liệu, để liệu cuối có định dạng giống nhƣ định dạng liệu nghiên cứu - Mô đun thứ hai mô đun phân tích thống kê, mơ đun chứa tất thuật tốn có SPMF, tất nhiên thuật tốn đƣợc kiểm tra tính đắn thực tế 63 - Mô đun cuối phần trực quan hóa, biểu diển két khai thác đƣợc thành báo cáo hình ảnh trực quan.tất mơ đun giai đoạn thực khó phức tạp Nhƣng cốt lõi hết việc xử lý liệu lớn hiệu Vì vậy, tác giả ƣu tiên tập trung nghiên cứu thuật tốn tìm tập mặt hàng mang lại lợi ích cho cửa hàng Giai đoạn giai đoạn chuẩn bị cho việc xây dựng mô đun thứ hai 4.1 ết luận Việc nghiên cứu lâu dài khó khăn, khn khổ thời gian thực luận văn, bao gồm trình tìm hiểu đọc tài liệu, chạy thực nghiệm nhƣ kiểm tra tính đắn thuật tốn đƣợc cài đặt cơng cụ SPMF Khu vực nghiên cứu luận văn nằm giới hạn sau: - Tác giả tìm hiểu thuật tốn khai thác tập có ích cao liệu tĩnh (dữ liệu khơng có biến động) Trong thực tế liệu tĩnh phù hợp phân tích, rút kinh nghiệm quãng thời gian khơng có tính tƣơng tác kịp thời Dữ liệu động phù hợp tốn cần có tính tƣơng tác cao Với loại liệu có tập thuật toán phù hợp để khai thác - Dữ liệu nghiên cứu đƣợc lấy từ nguồn liệu nghiên cứu chuẩn (chƣa thử nghiệm liệu thực) Những liệu luận văn liệu giả lập, việc dễ nhiều so với thao tác liệu thực tế liệu thực tế phải qua bƣớc tiền xử lý liệu - Việc đánh giá đánh giá dựa tốc độ xử lý liệu thuật tốn (chƣa đánh giá tính có ích thực so với ý kiến thực khách hàng) Trong thực tế cần đánh giá độ trùng khớp kết thu đƣợc với tri thức khách hàng, độ trùng khớp cao kết hệ thống có giá trị sử dụng, thông tin bất thƣờng thực thú vị với mong muốn khai thác lệu 64 - Việc xử lý liệu theo hƣớng tập trung (chƣa nghiên cứu hƣớng phân tán) Trong thực tế, liệu đƣợc lấy từ nhiều nguồn – nhiều chi nhánh khác nhau, đƣợc lƣu trữ nhiều nơi khác Q trình nghiên cứu có kết bƣớc đầu quan trọng mục tiêu xây dựng hệ thống thực tế, kết bƣớc đầu đƣợc xem nhƣ đóng góp luận văn: - Xác định mã nguồn cấu trúc liệu thuật toán cài đặt SPMF có nhƣ mơ tả báo công bố để xác định độ tin cậy công cụ SPMF Tác giả đọc mã nguồn so sánh với mã giả báo liên quan thuật toán nhận thấy việc cài đặt cơng cụ SPMF hồn tồn chuẩn mực đáng tin cậy - Xác định đƣợc thuật toán Two-Phase SPMF cài đặt không với báo ban đầu (thuật toán Two-Phase SPMF cài đặt theo thuật toán cài tiến TWU-Mining []) - Cài đặt bổ sung thuật tốn Diffset-Two-Phase (mở rộng TWU-Mining có dùng thêm tính chất Diffset Zaki), thuật tốn Diffset-Two-Phase thuật toán tốt họ Two-Phase, kết đƣợc thể qua thực nghiệm Cần có đề nghị bổ sung thuật toán vào SPMF thay cho thật toán TwoPhase hành - Hiện thực lại tất thực nghiệm đƣợc thực cơng trình cơng bố để xác định tính đắn thuật toán Các kết thực nghiệm tác giả cơng bố hồn tồn khớp với kết thực nghiệm 4.2 Hƣớng phát triển Liên quan đến lĩnh vực nghiên cứu luận văn Để thực hóa Hệ thống phân tích hành vi khách hàng cần phải nghiên cứu thêm vấn đề sau: - Tập thuật tốn khai thác tập có ích cao liệu động; - Làm thực nghiệm toàn thuật toán liệu thực tế; 65 - Nghiên cứu đánh giá độ tƣơng quan kết đạt đƣợc so với ý kiến ngƣời bán hàng lâu năm; - Nghiên cứu thuật toán khai thác tập có ích cao sở liệu phân tán Hình 4.2: Minh họa thành phần SSAS – SSIS – SSRS BIDS Trong thực tế, vấn đề luận văn quan tâm lĩnh vực BI (Business Intelligence) phổ biến, hãng Microsoft hỗ trợ framework để làm việc lĩnh vực BI BIDS (Business Intelligence Development Studio) gồm có thành phần SSAS, SSIS, SSRS ứng với mô đun hình 4.1 Việc nghiên cứu luận văn để nhằm hiểu đƣợc vấn đề cốt lõi framework BIDS để từ tự điều chỉnh xác phƣơng thức đƣợc xây dựng sẵn kế thừa hiệu cơng nghệ có sẵn 66 TÀI LIỆU THAM HẢO Lê Hoài Bắc (2014) Bài gi ng môn h c Khai thác liệu Lê Hồi Bắc, Võ Đình Bảy (2007) „Thuật tốn tìm nhanh Minimal Generator tập phổ biến ón ’ Tạp chí phát triển KH & CN, số 12, P 11-19 Đỗ Phúc (2012) Khai thác liệu NXB Đại học Quốc Gia TP Hồ Chí Minh Lê Văn Phùng, Quách Xuân Trƣờng (2012) Khai phá liệu NXB Thông tin Truyền thông Nguyễn Thanh Tùng (2007) „Khám phá tập item lợ í o on liệu’ Tạp chí Tin học Điều khiển học, T.23, S.4, P 364-373 Bac Le, Huy Nguyen, Bay Vo (2011) „An efficient strategy for mining high utility itemsets’ International Journal of Intelligent Information and Database Systems, Volume Issue 2, P 164-176 Mohammed J Zaki, Wagner Meira JR (2014) Data Mining and Analysis, Fundamental Concepts and Algorithms Cambridge University press Jiawei Han, Micheline Kamber, Jian Pei (2006) Data Mining - Concepts and Techniques 3rd ed , Morgan Kaufmann Publishers Hong Yao, Howard J Hamilton, Liqiang Geng (2006) „A Unified Framework for Utility Based Measures for Mining Itemsets’ Second Internatinal Workshop on Utility-Based Data Mining, Philadelphia, Pennsylvania, USA, P 28-37 10 Hong Yao, Howard J Hamilton (2006) „Mining Itemsets Utilities from Transaction Databases’ Data and Knowledge Engeneering, Volume 59, Issue 3, December, P 603-626 11 Hong Yao, Howard J Hamilton, and Cory J Butz (2004) „A foundational Approach to Mining Itemset Utilities from Databases’ Proceedings of the Fourth SIAM International Conference on Data Mining, Orlando, Frorida, USA, P 482-486 67 12 Ying Liu, Wei-Keng Liao, and Alok Choudhary (2005) „A Two-Phase Algorithm for Fast Discovery of High utility Itemsets’ In: Proceeding of the 9th Pacific-Asia conference on Advances in Knowledge Discovery and Data Mining, P 689-695 13 Mengchi Liu, Junfeng Qu (2012) „Mining High Utility Itemsets without Candidate generation’ Proceedings of the 21st ACM international conference on Information and Knowledge management, P 55-64 14 Philippe Fournier-Viger, Cheng-Wei wu, Souleymane Zida, Vincent S.Tseng (2014) „Faster High-Utility Itemsets Mining Using Estimated Utility Cooccurrence Pruning’ Volume 8502 of the series Lecture Notes in Computer, P 83-92 ... MSHV : 1341860050 I- Tên đề tài: ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO II- Nhiệm vụ nội dung: Nghiên cứu thuật tốn khai thác tập mục lợi ích cao, tập trung tìm hiểu vào phƣơng pháp... itemset có ích 29 CHƢƠNG 3: ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO 34 viii 3.1 Bài toán ban đầu 34 3.2 Các thuật toán theo cấu trúc dàn 35 3.2.3 Thuật toán Two-Phase 37 3.2.4 Cấu... có ích cách dùng tính chất tốn học đƣợc xác định Ngƣợc lại, kết hợp tính chất vào thuật tốn đƣợc sử dụng cho phép đo độ có ích 34 CHƢƠNG ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO