1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo nghiên cứu khoa học: Nghiên cứu ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị

96 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Đề tài Nghiên cứu ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị tập trung nghiên cứu về các khía cạnh sau: nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá tập mục thường xuyên; xây dựng mô hình áp dụng một số thuật toán khai phá mục thường xuyên hỗ trợ phân... Đề tài Hoàn thiện công tác quản trị nhân sự tại Công ty TNHH Mộc Khải Tuyên được nghiên cứu nhằm giúp công ty TNHH Mộc Khải Tuyên làm rõ được thực trạng công tác quản trị nhân sự trong công ty như thế nào từ đó đề ra các giải pháp giúp công ty hoàn thiện công tác quản trị nhân sự tốt hơn trong thời gian tới.

0 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Mã số: CS20 - 42 Chủ nhiệm đề tài: ThS GVC NGUYỄN HƯNG LONG Thành viên tham gia: ThS Nguyễn Thị Vân Trang ThS Lê Kim Anh Hà Nội, 03/2021 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Chủ nhiệm đề tài: ThS GVC NGUYỄN HƯNG LONG Thành viên tham gia: ThS Nguyễn Thị Vân Trang ThS Lê Kim Anh Xác nhận Trường Đại học Thương mại Hà Nội, 03/2021 Chủ nhiệm đề tài f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH DANH MỤC CÁC TỪ VIẾT TẮT CHƯƠNG TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI Tính cấp thiết đề tài Tổng quan đề tài nghiên cứu 10 Mục tiêu nghiên cứu 15 Đối tượng phạm vi nghiên cứu 15 Phương pháp nghiên cứu 15 Kết cấu báo cáo nghiên cứu 16 CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU BÁN HÀNG SIÊU THỊ, MƠ HÌNH VÀ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN 17 2.1 Hệ thống bán hàng siêu thị 17 2.1.1 Hệ thống quản lí bán hàng 17 2.1.2 Siêu thị đặc trưng siêu thị 17 2.1.3 Cơng việc chức siêu thị 18 2.2 Cơ sở liệu bán hàng siêu thị 19 2.2.1 Cơ sở liệu tầm quan trọng quản lí sở liệu 19 2.2.2 Cơ sở liệu bán hàng siêu thị 21 2.3 Khai phá liệu khai phá liệu bán hàng siêu 23 2.3.1 Khai phá liệu 23 2.3.2 Khai phá liệu bán hàng siêu thị 24 2.4 Mơ hình toán thuật toán khai phá TMTX 25 2.4.1 Mơ hình toán thuật toán khai phá tập mục thường xuyên đa ngưỡng/một ngưỡng 25 2.4.2 Mơ hình tốn thuật tốn khai phá tập mục thường xuyên với trọng số thích nghi 28 CHƯƠNG 3: ỨNG DỤNG MỘT SỐ THUẬT TỐN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ 34 3.1 Ứng dụng thuật tốn khai phá tập mục thường xun phân tích sở liệu bán hàng siêu thị 34 3.1.1 Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng 34 3.1.2 Ứng dụng thuật toán BMB khai phá TMTX 39 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 3.2 Ứng dụng thuật toán khai phá tập mục thường xuyên với trọng số thích nghi phân tích sở liệu bán hàng siêu thị 43 3.2.1 Đặt toán 43 3.2.2 Tổ chức khai phá liệu 43 3.2.3 Nhận xét, đánh giá kết khai phá 46 CHƯƠNG KẾT LUẬN, THẢO LUẬN VÀ ĐỀ XUẤT VẤN ĐỀ NGHIÊN CỨU 48 4.1 Các kết luận 48 4.2 Các dự báo phát triển vấn đề nghiên cứu 48 4.3 Các đề xuất kiến nghị vấn đề nghiên cứu 48 Tài liệu tham khảo 50 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 DANH MỤC CÁC BẢNG Bảng Biểu diễn ngang CSDL giao tác 25 Bảng Dòng liệu thời điểm T1 29 Bảng Trọng số mục theo lô thời điểm T1 .30 Bảng Dữ liệu giỏ hàng bán siêu thị (sau mã hóa tên hàng) 34 Bảng Bảng tập TMTX tương ứng với ngưỡng 35 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟏 = 𝟎 𝟓 36 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟐 = 𝟎 𝟓𝟓 𝐯à 𝛆𝐭𝟑 = 𝟎 𝟔 36 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟒 = 𝟎 𝟔𝟓 𝐯à 𝛆𝐭𝟓 = 𝟎 𝟕 37 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟔 = 𝟎 𝟕𝟓 𝐯à 𝛆𝐭𝟕 = 𝟎 𝟖 37 Bảng 10 Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟖 = 𝟎 𝟖𝟓 37 Bảng 11 Dữ liệu khác giỏ hàng bán siêu thị (sau mã hóa tên hàng) 39 Bảng 12 Ma trận nhị phân A 39 Bảng 13 Ma trận rút gọn A1 40 Bảng 14 Ma trận rút gọn A2 .41 Bảng 15 Ma trận nhị phân thu gọn A3 .41 Bảng 16 Tập mặt hàng thường xuyên độ hỗ trợ 42 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 DANH MỤC CÁC HÌNH Hình Cây SAWFI-tree sau chèn 12 giao tác lơ dịng liệu 32 Hình Cây SAWFI-tree(e) điều kiện “e” 44 Hình Cây SAWFI-tree(d), điều kiện “d” “cd” 45 Hình Cây SAWFI-tree(c), điều kiện “c” 45 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 DANH MỤC CÁC TỪ VIẾT TẮT Danh mục từ viết tắt tiếng Việt TT Cụm từ đầy đủ Từ viết tắt KPDL Khai phá liệu CSDL Cơ sở liệu DHTVTS Độ hỗ trợ với trọng số TMTX Tập mục thường xuyên TMUV Tập mục ứng viên Ngĩa từ tiếng Anh TT Nghĩa tiếng Việt Cụm từ tiếng Anh Downward Closure Property Bao đóng xuống Data Mining Khai phá liệu Frequent Items Mining Khai phá tập mục thường xuyên Frequnet Pattern Mẫu thường xuyên Itemset Tập mục Transaction Giao tác Transaction Data Base Cơ sở liệu giao tác f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI NCKH CẤP TRƯỜNG Thông tin chung: - Tên đề tài: NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TỐN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Mã số: CS20 - 42 - Chủ nhiệm: ThS, GVC NGUYỄN HƯNG LONG - Cơ quan chủ trì: Trường Đại học Thương mại - Thời gian thực hiện: 30/08/2020 – 31/03/2021 Mục tiêu: Đề tài tập trung nghiên cứu khía cạnh sau: - Nghiên cứu lý thuyết khai phá liệu bán hàng siêu thị, khai phá TMTX - Xây dựng mơ hình áp dụng số thuật tốn khai phá TMTX hỗ trợ phân tích CSDL bán hàng siêu thị - Đề xuất mơ hình áp dụng số thuật toán khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị Tính sáng tạo: Đề tài vận dụng tính khoa học lĩnh vực Khai phá liệu, cụ thể số thuật toán khai phá tập mục thường xuyên ứng dụng thuật toán cho tốn phân tích sở liệu bán hàng siêu thị Đây xu hướng cần thiết việc giải toán khai phá sở liệu lớn phức tạp bối cảnh kinh tế tri thức Trong số thuật tốn trình bày đề tài tác giả vận dụng đề xuất thuật toán khác có tính hiệu nhớ độ phức tạp thời gian Đây cần thiết cho nhà nghiên cứu nghiên cứu lĩnh vực khai phá liệu Kết đề tài ứng dụng nhiều mặt đời sống - xã hội không cho tốn phân tích sở liệu bán hàng siêu thị f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 Kết nghiên cứu: - Đề tài đạt mục tiêu đề - Có cơng bố sản phẩm khoa học - Một Báo cáo tổng kết Công bố sản phẩm khoa học từ kết nghiên cứu đề tài Để thực đề tài tác giả cộng công bố viết cho Hội thảo quốc gia Hội thảo cấp Trường có uy tín 1) Nguyễn Hưng Long, Nguyễn Minh Hồng (2020), Ứng dụng thuật toán khai phá tập phổ biến dựa ma trận nhị phân phân tích sở liệu bán hàng siêu thị, Kỷ yếu Hội thảo quốc gia “Phát triển Thương mại điện tử Việt Nam kỷ nguyên số”, tr 717 – 727 2) Nguyễn Hưng Long, Nguyễn Minh Hồng (2021), Thuật tốn khai phá tập mục thường xuyên sở liệu lớn thông qua mẫu đại diện, Hội thảo khoa học cấp trường “Ứng dụng phân tích định lượng kinh tế - xã hội”, tr 284 – 294 Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Đề tài có ý nghĩa lý luận thực tiễn Đề tài tài liệu tham khảo cho giảng viên sinh viên thuộc chuyên ngành Quản trị HTTT kinh tế trường Đại học Thương mại trường đại học cao đẳng khác có đào tạo chuyên ngành tương đồng Ngày 20 tháng 03 năm 2021 Chủ nhiệm đề tài NGUYỄN HƯNG LONG f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 CHƯƠNG TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI Tính cấp thiết đề tài Ngày nay, với xu hội nhập kinh tế quốc tế mở cho quốc gia nhiều hội phát triển mặt kinh tế - xã hội Xét góc độ thị trường bán lẻ (siêu thị, đại siêu thị, trung tâm thương mại - gọi chung siêu thị), siêu thị ngày gia tăng qui mô, số lượng chất lượng Các siêu thị lớn kinh doanh đến hàng chục nghìn mặt hàng, với hàng triệu, chục triệu lượt khách hàng năm siêu thị hàng ngày phải xử lí đến hàng chục nghìn đơn hàng với chủng loại đa dạng khác Do vậy, CSDL bán hàng siêu thị phức tạp, lớn số giỏ hàng (mặt hàng/nhóm mặt hàng) mà siêu thị bán theo thời điểm (ngày, tuần, quí, ) Mặt khác, hành vi (sự quan tâm) khách hàng siêu thị thường bị ảnh hưởng nhiều yếu tố như: nhu cầu, thời gian, tính phổ biến, vấn đề trị, kiện xã hội, … Do vậy, giá (trọng số) mặt hàng bán siêu thị thay đổi theo nhằm mục đích lưu chuyển hàng hóa nhanh tăng doanh thu cho siêu thị Một yêu cầu đặt nhà quản lí siêu thị cần trả lời cho câu hỏi CSDL bán hàng siêu thị thì: mặt hàng/nhóm mặt hàng mà khách hàng thường xuyên mua giỏ hàng? Mối quan hệ mặt hàng giỏ hàng nào? để từ nhà quản lí xây dựng kế hoạch kinh doanh với mục đích góp phần tăng doanh thu đạt lợi nhuận tối đa cho siêu thị Khai phá liệu lĩnh vực nghiên cứu quan trọng công nghệ thơng tin nhằm trích lọc thơng tin hữu ích chưa biết, tiềm ẩn CSDL lớn Khai phá TMTX đóng vai trị quan trọng nhiều nhiệm vụ khai phá liệu như: khám phá luật kết hợp, khám phá mẫu tuần tự, phân tích tương quan, phân lớp, gom cụm liệu, khai phá web, Khai phá TMTX nhà nghiên cứu liên tục xây dựng phát triển cơng cụ (thuật tốn) để giải tốn kinh tế - xã hội nói chung tốn phân tích CSDL bán hàng siêu thị khơng ngoại lệ nhằm hỗ trợ nhà quản lí siêu thị định đắn chiến lược phát triển siêu thị Hầu hết thuật toán khai phá liệu, khai phá TMTX nhà nghiên cứu, đề xuất mang tính lý thuyết khơng/ít đề xuất mơ hình ứng dụng cụ thể thuật tốn khai phá hỗ trợ phân tích hoạt động kinh doanh nói chung hay hỗ trợ phân tích CSDL bán hàng siêu thị nói riêng Mặt khác, với phát triển lĩnh vực khai phá liệu, u cầu địi hỏi ngày hồn thiện, phát triển, tái cấu trúc học phần chương trình đào tạo trường đại học thuộc khối kinh tế, quản trị, kinh doanh, mà đặc biệt Trường Đại học Thương mại với chuyên ngành Quản trị hệ thống thơng tin, việc nghiên cứu ứng dụng cơng cụ (thuật tốn) khai phá liệu hoạt động kinh doanh thương mại nói chung, bán hàng siêu thị nói riêng cần thiết Xuất phát từ sở lý luận, nhu cầu thực tiễn yêu cầu đòi hỏi đổi đại học tình hình mới, chúng tơi lựa chọn đề xuất đề tài “Nghiên cứu ứng dụng f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 - Nhóm mặt hàng mua nên bố trí xếp chúng gian hàng siêu thị để đánh trúng tâm lí khách hàng (khi mua mặt hàng họ họ mua ln nhóm mặt hàng) tùy theo nhu cầu sở thích họ - Nhà quản lí xây dựng chiến lược quảng cáo, sách khuyến mại cho tập khách hàng tiềm siêu thị, … KẾT LUẬN Trong viết chúng tơi nghiên cứu thuật tốn BMB khai phá TPB ứng dụng thuật tốn phân tích CSDL bán hàng siêu thị Về lí thuyết, BMB giảm chi phí đáng kể q trình xử lí khơng gian lưu trữ thông qua chuyển đổi CSDL giao tác ma trận nhị phân ma trận nhị phân rút gọn Về thực tiễn, kết khai phá CSDL bán hàng siêu thị sở để giúp cho nhà quản lí xây dựng chiến lược bán hàng hiệu mang lại lợi nhuận cho siêu thị Thuật tốn BMB áp dụng cho giải số toán khác thực tiễn như: phân tích dịng kích hoạt web, phân tích nhu cầu khách hàng sử dụng mạng viễn thơng, phân tích dầu tư chứng khốn, phân tích rủi ro tài chính, TÀI LIỆU THAM KHẢO Trương Đình Chiến (2015), Quản trị Marketing, NXB Đại học Kinh tế quốc dân, Hà Nội [2] Lê Văn Đông, (2011), Nghiên cứu luật kết hợp ứng dụng công tác quản lí kho hàng Siêu thị Metro, Luận văn thạc sĩ, Đại học Đà Nẵng [3] Vũ Minh Đức, Vũ Huy Thơng, (2018) Giáo trình quản trị bán hàng, NXB Đại học Kinh tế Quốc Dân, Hà Nội [4] Nguyễn Hưng Long (2018), Ứng dụng số thuật toán toán khai thác liệu cho hoạt động kinh doanh thương mại, Đề tài NCKH CN cấp sở, Trường Đại học Thương mại [5] Nguyễn Hưng Long, Nguyễn Thị Vân Trang, (2019), Khai phá tập phổ biến đa ngưỡng phân tích sở liệu bán hàng siêu thị, Hội thảo quốc tế Khởi nghiệp Sáng tạo - Cơ hội thách thức doanh nghiệp Việt Nam (tập 2), NXB Hà Nội, tr 217-231 [6] Nguyễn Thanh Tùng, Phạm Quang Trung (2008), Thuật toán khai phá tập mục thường xuyên dựa ma trận nhị phân, Tạp chí Khoa học Công nghệ, Tập 2, Số 1(45), tr 15-21 [7] Aggarwal, C In C Aggarwal (Ed.) (2007), Data Streams: Models and algorithms Springer [8] Agrawal R., Srikant, R (1994), Fast Algorithms for Mining Association Rules In: 20th Int Conf on Very Large Data Bases (VLDB), pp 487-499 [9] Wu X, Kumar V., Ross Q J., Ghosh J., Yang Q., Motoda H., McLachlan G J., Angus Ng., Liu B., Yu P S., Zhou Z H., Steinbach M., Hand D J., Steinberg D., (2008), Top 10 algorithm in data mining, Knowledge and Information Systems, pp 1-37 http://tapchibanle.org/ https://vi.wikipedia.org/wiki/ [12] http://www.brandsvietnam.com/ 727 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 Giải phát phát triển hạ tầng, dịch vụ điện toán đám mây nhằm thúc đẩy chuyển đổi số cho doanh nghiệp Việt Nam ThS Hàn Minh Phương Khoa hệ thống thông tin kinh tế Thương mại điện tử Trường Đại học Thương mại Nâng cao hiệu sản xuất may cơng nghiệp sở số hóa quy trình sản xuất lập kế hoạch điều phối luồng công việc ThS Đặng Quốc Hữu Trường Đại học Thương Mại TS Nguyễn Thế Lộc Trường Đại học Sư phạm Hà Nội TS Nguyễn Doãn Cường Viện Khoa học Công nghệ Quân Nền tảng công nghệ hướng phát triển du lịch thông minh Việt Nam ThS Trần Thị Nhung, ThS Nguyễn Quang Trung Khoa Hệ thống thông tin kinh tế Thương mại điện tử Đại học Thương mại Du lịch thông minh - thách thức giải pháp phát triển Việt Nam ThS Đào Thị Thu Hường Trường Đại học Công nghệ thông tin TT Việt Hàn Đại học Đà Nẵng Xu khả ứng dụng công nghệ Blockchain Việt Nam ThS.Vũ Quang Huy, ThS Hoàng Ngọc Cảnh; ThS Trần Lê Kim Danh Trung tâm Công nghệ thông tin Trường Đại học Thương mại Ứng dụng thuật toán khai phá tập phổ biến dựa ma trận nhị phân phân tích sở liệu bán hàng siêu thị Th.S Nguyễn Hưng Long Khoa Hệ thống thông tin kinh tế Thương mại điện tử Trường Đại học Thương mại Nguyễn Minh Hồng Khoa Tốn - Cơ - Tin học Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội 738 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 28 THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN THÔNG QUA MẪU ĐẠI DIỆN 285 Nguyễn Hưng Long Khoa Hệ thống thông tin KT Thương mại ĐT, Đại học Thương mại Nguyễn Minh Hồng Khoa Tốn - Cơ - Tin học, Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội 29 ĐO LƯỜNG CHẤT LƯỢNG DỊCH VỤ CỦA CÔNG TY TNHH XÂY DỰNG KIẾN TRÚC NHÀ TA VỚI KHÁCH HÀNG CÁ NHÂN TẠI KHU VỰC HÀ NỘI VÀ MỘT SỐ TỈNH THÀNH LÂN CẬN Ths Lê Văn Hùng, Ths Nguyễn Thanh Thụy, Ths Lê Thanh Phúc 296 Khoa Hệ thống Thông tin Quản lý - Học viện Ngân hàng 30 ƯỚC LƯỢNG HIỆU QUẢ KĨ THUẬT BẰNG PHƯƠNG PHÁP PHÂN TÍCH BIÊN NGẪU NHIÊN ThS Hồng Thị Thu Hà Bộ mơn tốn, Đại học Thương mại 304 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN THÔNG QUA MẪU ĐẠI DIỆN Nguyễn Hưng Long Khoa Hệ thống thông tin kinh tế Thương mại điện tử, Đại học Thương mại Nguyễn Minh Hồng Khoa Tốn - Cơ - Tin học, Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội Tóm tắt Bài viết đề xuất thuật tốn RSFPGrowth khai phá tập mục thường xuyên sở liệu lớn thơng qua mẫu đại diện Thuật tốn RSFPGrowth cho phép thay tìm tập tất tập mục thường xuyên sở liệu lớn cách tìm tập chứa hầu hết tập tập mục thường xuyên từ tập mẫu đại diện giao tác Bởi cỡ mẫu n cần lấy cho tập mẫu tăng chậm so với cỡ tổng thể nên độ hiệu việc khai phá tập tập mục thường xuyên thông qua lấy mẫu đại diện giao tác cao kích thước sở liệu ban đầu lớn Từ khóa: Khai phá liệu, tập mục thường xuyên, sở liệu, mẫu đại diện, FPGrowth Mở đầu Trong năm gần đây, khai phá liệu (KPDL) trở thành đề tài thu hút quan tâm nhiều nhà nghiên cứu ứng dụng thành công mặt đời sống - xã hội Khai phá liệu định nghĩa q trình trích lọc khơng tầm thường thơng tin hữu ích chưa biết từ sở liệu (CSDL) lớn (có chứa đến hàng vạn, triệu giao tác) Khai phá tập mục thường xuyên (TMTX) biết đến toán toán khai phá liệu giới thiệu lần vào năm 1993 Agrawal R Srikant R [5, 6], thuộc Trung tâm nghiên cứu Almaden IBM (Mỹ), nhằm phân tích CSDL bán hàng siêu thị Qua trình phân tích giúp cho nhà phân tích lựa chọn phương án tốt hoạt động kinh doanh siêu thị Để giải toán này, tác giả đề xuất thuật toán Apriori Tại hội nghị quốc tế khai phá liệu vào tháng 12 năm 2006 đánh giá thuật toán Apriori đứng top 10 thuật toán khai phá liệu [9] Hiện có nhiều nghiên cứu, xây dựng thuật tốn khai phá TMTX dựa thuật toán Apriori (gọi thuật toán kiểu Apriori) Thuật toán Apriori thuật tốn kiểu Apriori có hai nhược điểm lớn: Phải sinh khối lượng khổng lồ tập ứng viên duyệt CSDL giao tác nhiều lần TMTX công cụ hiệu để khai phá luật kết hợp (association rule), tập mục đóng (closed itemset), tập mục (sequential itemset), phụ thuộc hàm (functional dependencies), Để khắc phục hạn chế thuật toán Apriori, Han J cộng [7, 8] Trường Đại học Simon Fraser (Canada) đề xuất thuật toán FP-growth Thuật toán FP-growth khai phá TMTX xây dựng dựa kĩ thuật sau: (1) Nén toàn CSDL giao tác lên cấu trúc cây, gọi FP-tree, nhờ giảm chi phí cho số lần duyệt CSDL giao tác trình khai phá (2) Dùng phương pháp chia để trị (devide285 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 and-conquer), cách trình xây dựng khai phá liệu chia làm thành toán nhỏ hơn, theo nghĩa xây dựng FP-tree có điều kiện khai phá TMTX FP-tree có điều kiện tạo Do vậy, trình khai phá phát triển dần mẫu mà không sinh nhiều tập mục ứng viên làm giảm khối lượng thời gian tính tốn Q trình khai phá TMTX thực theo hai pha: Pha xây dựng FP-tree pha khai phá FP-tree thuật toán FP-growth Mặc dù thuật tốn FP-growth có ưu điểm (về tổ chức liệu, nhớ, thời gian tính tốn) thuật tốn Apriori CSDL giao tác lớn cần khai phá khơng hiệu Để áp dụng thuật tốn FP-growth CSDL kích thước lớn, viết chúng tơi trình bày phương pháp tiếp cận xấp xỉ Thay tìm tập TMTX CSDL cần khai phá, ta tìm tập chứa hầu hết tập mục từ CSDL mẫu đại diện Độ hiệu việc khai phá thông qua lấy mẫu cao kích thước CSDL ban đầu lớn, cỡ mẫu n cần lấy tăng chậm so với cỡ tổng thể Nội dung viết sau: Mục giới thiệu mơ hình tốn thuật tốn FP-Growth khai phá TMTX CSDL giao tác; Mục trình bày phương pháp tiếp cận xấp xỉ: khai phá TMTX thông qua khai phá mẫu đại diện cuối kết luận Khai phá tập mục thường xuyên csdl giao tác thuật toán fp-growth 2.1 Bài toán khai phá tập mục thường xuyên CSDL giao tác [5, 6] Định nghĩa Cho I = {i , i , … , i } tập phần tử Mỗi phần tử I gọi mục (item) Một tập X ⊆ I gọi tập mục (itemset) Số phần tử X kí hiệu Card(X) Nếu Card (X) = k, (k ∈ Z) X gọi k-tập mục Nếu Card(X)=1 X 1-tập mục hay cịn gọi mục đơn Để đơn giản, thay viết k-tập mục {i , i , … , i } ta viết i i … i Chẳng hạn, tập mục {a, b, c} viết ngắn gọn abc Định nghĩa Một giao tác (transaction) T = 〈TI D, X〉, với TID định danh giao tác (transaction identifier) X ⊆ I tập mục Giao tác T gọi chứa tập mục Y Y ⊆ T Định nghĩa CSDL giao tác (transaction database) tập giao tác TDB = {T , T , … , T } Biểu diễn CSDL giao tác ngang : CSDL tập giao tác Trong đó, giao tác bao gồm định danh (thứ tự) TID danh sách mục Ví dụ Trong Bảng biểu diễn ngang CSDL giao tác Bảng Biểu diễn ngang CSDL giao tác TID Tập mục T1 abcdef T2 T3 bcefh acdefgh 286 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 Định nghĩa Cho I = {i , i , … , i } tập mục tập mục X ⊆ I Ta gọi độ hỗ trợ (support) X CSDL giao tác DT ký hiệu supp(X), tỷ lệ phần trăm giao tác DT chứa X, tức là: supp(X) = card({T ∈ DT|X ⊆ T}) card(DT) Với card(TDB) số giao tác DT Ta có: ≤ supp(X) ≤ 1, ∀X ⊆ I Định nghĩa Cho tập mục X ⊆ I ngưỡng độ hỗ trợ tối thiểu minsupp (minimum support) xác định người dùng, < minsupp ≤ Nếu supp(X) ≥ minsupp X gọi TMTX (frequent itemset) với độ hỗ trợ tối thiểu minsupp, hay ta nói X thỏa minsupp, trường hợp ngược lại ta nói X tập khơng thường xun (infrequent itemset), hay ta nói X khơng thỏa minsupp 2.2 Thuật toán FP-growth Nội dung thuật toán FP-growth [7, 8] với ý tưởng sau: - Nén tồn giao tác lên cấu trúc cây, gọi FP-tree, nhờ giảm chi phí cho số lần duyệt CSDL giao tác Mỗi nút FP-tree có mục, nút chúng xếp để tiện cho việc chèn giao tác lên nút xuất thường xuyên dễ dàng chia sẻ với nút xuất hơn, đồng thời nút không thường xuyên bị sớm loại bỏ mà không làm ảnh hưởng kết khai phá Bước cần duyệt CSDL giao tác lần - Áp dụng phương pháp chia để trị (devide and conquer) Quá trình khai phá liệu chia làm thành phần việc nhỏ hơn, tiến hành xây dựng FPtree có điều kiện khai phá TMTX FP-tree có điều kiện tạo Do vậy, trình khai phá phát triển dần mẫu mà không sinh nhiều tập mục ứng viên đồng thời làm giảm khối lượng tính tốn Bước xây dựng FP-tree cần duyệt thêm lần CSDL giao tác - Q trình khai phá thực theo hai pha chính: (1) Xây dựng cấu trúc FPtree; (2) Khai phá FP-tree thuật toán FP-growth Khai phá tập mục thường xun thơng qua mẫu đại diện Thuật tốn FP-growth có ưu điểm thuật tốn Apriori [7], khai thác CSDL lớn thuật tốn FP-growth khơng hiệu Để áp dung thuật tốn FP-growth CSDL lớn đề nghị phương pháp tiếp cận xấp xỉ Thay tìm tập tất cácTMTX CSDL cần khai phá, ta tìm tập chứa hầu hết tập mục từ CSDL mẫu đại diện [1, 2, 3] Trên thực tế đối tượng loại mà nhà thống kê quan tâm nghiên cứu gọi tổng thể Tổng thể thường bao gồm số lượng lớn, có lớn đối tượng Nghiên cứu toàn đối tượng tổng thể việc làm khó khăn khơng thể thực được, chưa kể có khơng có nghĩa Vì người ta thường dùng phương pháp chọn mẫu, tức từ tổng thể có N đối tượng (N gọi kích thước tổng thể) rút n đối tượng (n gọi kích thước mẫu), tiến hành nghiên cứu mẫu vào kết thu mà suy rộng cho tổng thể Các kết suy rộng tránh khỏi sai lệch Độ lớn sai lệch phụ thuộc 287 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 vào hai yếu tố phương pháp chọn mẫu kích thước mẫu Vì vậy, vấn đề quan trọng đảm bảo cho mẫu phải phản ánh đắn cấu trúc tổng thể, tức mẫu phải mang tính đại diện sai lệch chọn mẫu nhỏ tốt Kích thước mẫu lớn, tính đại diện mẫu cao, nhiên chi phí lớn [1, 2, 3] Trong thực hành, tùy vào tình cụ thể, người ta áp dụng phương pháp chọn mẫu khác Mỗi phương pháp có ưu điểm nhược điểm riêng Có số phương pháp chon mẫu sau: Chọn mẫu ngẫu nhiên đơn giản (Simple Random Sampling); Chọn mẫu ngẫu nhiên phân vùng (Stratified Random Sampling); Chọn mẫu có hệ thống (Systematic Sampling); [1, 2, 3] Để chọn mẫu khai phá liệu, người ta thường sử dụng phương pháp chọn mẫu ngẫu nhiên đơn giản (khơng hồn lại), lý sau: (1) Dễ mô cài đặt (2) Việc chọn mẫu ngẫu nhiên đơn giản mơ thực cách sử dụng thuật toán (hàm) tạo số ngẫu nhiên (3) Ước lượng tỷ lệ dựa mẫu ngẫu nhiên đơn giản ước lượng không chệch (4) Khơng cần có thơng tin tiên nghiệm quần thể [1, 2, 3] 3.1 Xác định cỡ mẫu sở liệu giao tác Tư tưởng thuật tốn sau: Trước tiên, từ CSDL giao tác ban đầu, chọn mẫu ngẫu nhiên đơn giản giao tác Sau đó, áp dụng thuật toán FP-growth [7, 8] khai phá TMTX CSDL mẫu Trong [1, 4] phân tích, việc chọn mẫu ngẫu nhiên đơn giản đây: Xác định cỡ mẫu Giả sử CSDL DT bao gồm N giao tác, có SC(DT,X) giao tác chứa tập mục X Khi xác suất để giao tác chứa X p=sup(X)=SC(DT,X)/N Ký hiệu S mẫu gồm n giao tác chọn phương pháp chọn ngẫu nhiên khơng hồn lại từ DT Gọi SC(S,X) số giao tác S chứa tập mục X Khi SC(S,X) tuân theo luật phân phối siêu bội với hàm xác suất: Pr ( , ) = )= , (1) = 0,1, … , Giá trị kỳ vọng, phương sai SC(S,X) [1]: (2) ( , ) = ( , ) = 1− (1 − ) ≈ − (1 − ) (3) Với mẫu cỡ n, người ta thường lấy ̂ = ( , )/ làm giá trị ước lượng cho xác suất p (tức support(DT,X)) Từ (2) (3) suy ra: ( ̂) = ( ̂) = − ( ) ≈ 1− ( ) Vì E(p) = p, ̂ ước lượng không chệch p (4) (5) Trong [1] chứng minh rằng, n đủ lớn (n>=30), đại lượng ngẫu nhiên chuẩn hóa 288 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 = ( (6) ) có phân phối tiệm cận phân phối chuẩn chuẩn tắc ( )= (0,1) với hàm phân phối: (7) ∫ √ Giả sử với sai số tuyệt đối d xác suất rủi ro α cho trước, ta muốn ước lượng xác suất p p cho (8) (| − ̂ | < ) = − Ký hiệu z phân vị mức − α đại lượng Z có phân phối (3.7), nghĩa z giá trị thỏa mãn hệ thức: < (9) =1− Khi | |< (10) =1− Kết hợp hệ thức (6), (8) (9) suy ra, muốn ước lượng p với sai số tuyệt đối d xác suất rủi ro α cho trước cỡ mẫu n phải thỏa hệ thức: = Hay = ( ( 1− ) ( ) (11) ) (12) Trong công thức (11), p giá trị chưa biết, cần ước lượng Tuy vậy, tích p(1p) đạt cực đại 1/4 p=1/2, ta lấy = max ( ( ) ) (13) = Do cỡ mẫu số nguyên, nên lấy (14) = 3.2 Thuật tốn khai phá TMTX CSDL giao tác thơng qua mẫu đại diện 3.2.1 Ý tưởng Với cỡ mẫu n xác định theo (14), việc lấy mẫu S từ CSDL giao tác DT tiến hành sau: - Đánh số thứ tự tất giao tác DT - Tạo n số nguyên ngẫu nhiên khác khoảng [1, N], - Lấy CSDL mẫu S tập n giao tác có số thứ tự số nguyên ngẫu nhiên tạo Trong thực hành, sai số tuyệt đối d rủi ro 0.01 289 thường chọn tương ứng 0.05 f1f374da 5941a3 9812 c7a6fb3 282 f2aa6a2a 9df0f3 8b9e 4f5 e5d7 911d0a231 81 a0d857e 97e4fbb597 d7476 8cfd8faa 0ae64a d5f0fc205ff3 96a1e0 c0e3 8b0 f43 bb79 b6c3f2 3b5 df0 f74 9f7 d5bbad43 7460 09ab8 f6ff04 8349 c7d3e64 c69 bcfe7 a06427 f7d2 b31 b305 2a04e3 e61 c8b4 7c4 35b9 333a6 cd6 d029 26ef4c2 f0e 420b4 9f081 c4 f5f9180 7f8 8258 f3 f9a15a3 2ce 28104 e878e 4c1 0512 3c4e f92 48ada c3 f12e2 4da7 f9c211 d1d8 7bc45a6ae 68c0 0364a 2f3 f53 b0ac982 f755 52732 5c4 13 9783c4c7 cba c8 f5896 b7 c194e 7e77a bdf7cc3 c177a2 dcded0 098 b4e05 9c7 bb5 db0b09bb91 cb0a9aa 0b81 87ee cc7 1c1 16ff8a1 b3151a 9c3 e5923 d3fb1e f51a0 d b1b5 c751 2398ff1a 0e929 5f7 2e7b8d74 0c7 f78 c48 d2 f70b5dc7002a 1a0735a 3b 8dd4 d7b8 451b6c3a 83c183 c3763 494 c5d861cbfd0eac441 f3cbba f5502 7627 de dbb3 7b2 c5ae5 d9eb 615 c5b8 3a17dcfd992 50e6 c4a86 f0 f6d1b03 88c128e d6023 df93 b711 51b6 4cfb1 065 c76cb5 f5f469a3 4fc6c5 2d4a9 2f2 35a8ff93 e6f066ad 3ddc7c9 38a02 f4fb c8f724b3c8 7b19 2ac8 3c5 cda8 0c4 6cd6998 c82 5a7f3ce4 00 d54f00d7 3217 4dd77c0 0aa82 db50ae 365a0fb4 239ae f77 f7d7ed f0bc26a6 2ab6 e42d34 d2dded 41d0 51c2223 fa2b6a 8cc924 3255 d39e6 6fb746 b5f0adaf8eb3a 758b3 d1d7 1ab9 d318 9d60 75b1 f6e b25 d8a5b72c7e209 5faa1e 4a63 f3941 877e d2050a0 b7a4 686a16 43d7 89f3dcff2068 5a0904 7c7a 1931 286dcf703 c7acfd9 6aa7c4a1 d158 0ac8a 41be 1df9c3 c39 923 b32e7 2694e 1b24 37e59 d79 5e39e9 0c4 1b3a23 b183 f2e2 28b00bc224 674c6d9 991 c48 f706 dd08 f36 cc5a798 f49 9e0a6d e12249 c58a5 c17 d960 d5 f077 153fcd6 2d6 b18b4ddc04 cb3c7 0dbf2ae3 d854 5f8 bdc26837 6190 d717 fc2 7c4 0283 9d2a6 8992ae 5b5a4 642 c180 3090 f602 35f2e8b 2fc9e e07fe91d68a0 c222e d1 c2435 1b27 ceaa8 34020 e3c346 f09d2b82 6f6 3e4d dbd2 b90 c0d4478e 91eb 8652 c3b02bb6e4 b7fc7e43 0e30 b5f5f0 95e8 be869 ec1 81a8c1 c84 8076 78114 9fc52ab34cf9 f0d2 79fd9df650 863fd1dfc3 c8 f9b837d7 daa7a826fb df20 269a b5f421b71c88fb157e bc2527 c70 b8de 9df485 d8a76 b953 6b4ba f362 396 c600 c6a84 0db7d5 c91 bdfe cce9c3f0 e7f19c1 bb8 900 d30df91a dcad7 bc327 f7f5b2a4 3d99 c8a6 9dd6ab12 89b7 d9 c38 f8bc17 bb98 227 c8da1 215 02f02 d758 95ac8594 f14 6891 da1d6 d609 5f5 d0a2a 9b9 c479e d7a68 f0 f9 c0258 b 1e0b72 e2de 5e6db42 f651 c48 951e4e e736 70d1 b6b93874 6bb0835e 4c0 4eae2 dc 0f3e2 83b7 8e61aa9a 39d9 cf7b1a 0f4 7ab00 7acda74fc4d54f2f6 e897e 7b73 c39 fe3c5 f23 9e708 8d0 fe672 e6df1 cc38a 8502a 2b3 f2a0 be9c12e1 b8a97 b1aa1b2e bbf1 5559 d971 07e97 745bbd4 074 f556 37ab1 7a98 f6d5 68ee2 e71b05d3 de32 c18 3.2.2 Thuật tốn RSFPGrowth Bảng Bảng kí hiệu thuật toán RSFPGrowth Ký hiệu DT minsupp Ý nghĩa CSDL giao tác ban đầu Độ hỗ trợ tối thiểu Z Phân vị mức − /2 phân phối chuẩn chuẩn tắc (tức giá trị (0,1)) a Độ rủi ro d Cận sai số N Tổng số giao tác CSDL ban đầu n Cỡ mẫu S Tập giao tác chọn vào mẫu Nội dung thuật toán RSFPGrowth khai phá TMTX CSDL mẫu sau: Input: CSDL DT, tổng số giao tác N CSDL giao tác, cỡ mẫu n, hai ngưỡng hỗ trợ minsupp, cận sai số d, độ rủi ro Output: Tập TMTX Method: Thuật toán RSFPGrowth 1) if n>=30 2) 3) { 4) z = Calculate(a); 5) = 6) for (i = 1; i

Ngày đăng: 30/12/2023, 14:43

Xem thêm: