Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,85 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI CHU THỊ THỊNH CHU THỊ THỊNH CÔNG NGHỆ THƠNG TIN PHÁT HIỆN CÁC MẪU HỮU ÍCH TRONG CƠ SỞ DỮ LIỆU GIAO DỊCH LUẬN VĂN THẠC SĨ KỸ THUẬT CƠNG NGHỆ THƠNG TIN KHỐ 2016B Hà Nội – Năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI CHU THỊ THỊNH PHÁT HIỆN CÁC MẪU HỮU ÍCH TRONG CƠ SỞ DỮ LIỆU GIAO DỊCH CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS NGUYỄN THỊ KIM ANH Hà Nội – Năm 2019 MỤC LỤC Trang phụ bìa Lời cam đoan Danh mục ký hiệu, chữ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị MỞ ĐẦU Chương - TỔNG QUAN 1.1 Giới thiệu toán thực tiễn 1.2 Phát biểu toán tổng quát Chương - KỸ THUẬT SỬ DỤNG 2.1 Một số định nghĩa cở sở khai phá mẫu chuỗi 2.1.1 Cơ sở liệu chuỗi 2.1.2 Độ hỗ trợ chuỗi 2.1.3 Phép toán mở rộng chuỗi 2.1.4 Khai phá mẫu chuỗi 2.1.5 Cơ sở liệu ngang 2.1.6 Cơ sở liệu dọc 2.2 Một số thuật toán khai phá mẫu chuỗi 2.2.1 Giới thiệu thuật toán khai phá mẫu chuỗi 2.2.2 Thuật toán GSP 2.2.3 Thuật toán SPADE SPAM 2.2.4 Thuật toán CM-SPAM CM-SPADE 2.2.5 Thuật toán PrefixSpan 2.2.6 Nhận xét thuật toán Chương - ỨNG DỤNG THỰC TẾ 3.1 Môi trường công nghệ sử dụng 3.2 Áp dụng vào hệ thống thực tế 3.2.1 Giới thiệu hệ thống thực tế 3.2.2 Cách thực 3.2.3 Tiền xử lý liệu 3.2.4 Xây dựng cấu trúc liệu thuật tiện cho việc khai phá 3.2.5 Lựa chọn giá trị minsup để thử nghiệm 3.2.6 Thử nghiệm với thuật toán 3.2.7 Tích hợp vào hệ thống thực tế Chương - KẾT QUẢ VÀ BÀN LUẬN 4.1 Kết đạt 4.2 Phân tích kết 4.3 Hướng phát triển KẾT LUẬN VÀ KIẾN NGHỊ TÀI LIỆU THAM KHẢO Trang 10 10 12 14 14 14 15 16 17 17 17 19 19 20 23 27 32 35 38 38 40 40 41 41 42 44 45 50 58 58 58 60 61 62 LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Phát mẫu hữu ích Cơ sở liệu giao dịch” cơng trình độc lập khơng có chép người khác Đề tài sản phẩm mà nỗ lực nghiên cứu trình học tập trường làm việc Công ty Cổ phần Olbius Việt Nam Trong trình viết bài, tơi có tham khảo số tài liệu, báo có nguồn gốc rõ ràng liệt kê đầy đủ tài liệu tham khảo, hướng dẫn PGS TS Nguyễn Thị Kim Anh Tơi xin cam đoan có vấn đề liên quan tới nội dung luận văn, tơi xin chịu hoàn toàn trách nhiệm Hà Nội, ngày 15 tháng 04 năm 2019 Tác giả luận văn DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu/Từ viết tắt Ý nghĩa CSDL Cơ sở liệu SBD Cơ sở liệu chuỗi (Sequence database) Support Độ hỗ trợ chuỗi Minsup Ngưỡng độ hỗ trợ tối thiểu Bitvector Vector thành phần bit CMAP Cấu trúc ánh xạ đồng xuất (Co-occurrence Map) DANH MỤC CÁC BẢNG Bảng 1: Một sở liệu chuỗi 15 Bảng 2: Biểu diễn bitvector cho CSDL dọc 27 Bảng 3: CMAPi CMAPs cho CSDL Bảng minsup=2 29 Bảng 4: CSDL chiếu mẫu chuỗi 33 Bảng 5: Kết chạy thuật toán với minsup 3.0%, 1.0% 45 Bảng 6: Kết chạy thuật toán với minsup 0.9%, 0.8%, 0.7%, 0.6% 46 Bảng 7: Kết chạy thuật toán với minsup 0.5%, 0.4%, 0.3%, 0.2% 47 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Biểu diễn dọc CSDL ngang 18 Hình 2: Cấu trúc bảng CSDL giao dịch thực tế 41 Hình 3: Cấu trúc bảng CSDL giao dịch thực tế sau lọc 43 Hình 4: So sánh hiệu thuật toán theo thời gian với giá trị minsup giảm dần 47 Hình 5: So sánh lượng nhớ sử dụng chạy thuật toán với giá trị minsup giảm dần 49 Hình 6: Giao diện thực chạy khai phá mẫu chuỗi kết trả 53 Hình 7: Giao diện chạy khai phá mẫu chuỗi 54 Hình 8: Giao diện kết khai phá mẫu chuỗi 54 Hình 9: Màn hình lưu file kết sau chạy khai phá mẫu chuỗi 55 Hình 10: Nội dung file kết khai phá mẫu chuỗi 56 Hình 11: Màn hình xem chi tiết mẫu chuỗi kết lượt chạy 56 Hình 12: Màn hình lưu file Excel chứa danh sách mẫu chuỗi kết 57 Hình 13: Màn hình nội dung file Excel chứa danh sách mẫu chuỗi kết 57 MỞ ĐẦU Trong thời đại ngày nay, công nghệ thông tin phần thiếu lĩnh vực khác đời sống xã hội Khi thứ tin học hóa, lượng liệu thu nhập nhiều hơn, xuất hội thách thức khác dựa nguồn liệu để thu thập thơng tin hữu ích phục vụ người Bằng cách phân tích liệu thơ thu thập được, thu nhiều thơng tin hữu ích Khi này, tốn đặt cần lấy thơng tin xử lý liệu thơ Để giải toán vậy, chủ đề khai phá liệu nghiên cứu rộng rãi áp dụng nhiều nơi nhiều lĩnh vực Áp dụng vào thực tế, làm việc Công ty cổ phần Olbius Việt Nam, chuyên cung cấp phần mềm ERP cho doanh nghiệp phân phối, cung cấp hệ thống bán hàng cửa hàng tạp hóa bán lẻ Co.opSmile, với quy mơ vài trăm cửa hàng phân bố tập trung khu vực thành phố Hồ Chí Minh Lượng liệu thu trình bán hàng cửa hàng phong phú, tốc độ gia tăng liệu nhanh Bản thân tự nhận thấy hội lượng liệu nên liên hệ tới PGS TS Nguyễn Thị Kim Anh, cô giúp định hướng đề tài mà tơi cần thực “Phát mẫu hữu ích Cơ sở liệu giao dịch” Nhiệm vụ luận văn phát mẫu hữu ích từ CSDL giao dịch thực tế có để phân tích chuỗi sản phẩm mà người dùng thường xuyên mua sắm cửa hàng tạp hóa bán lẻ Để giải tốn cá nhân, luận văn trình bày toán tổng quát sử dụng phương pháp khai pháp khai phá cho tốn tổng qt Phương pháp khai phá sử dụng luận văn khai phá mẫu chuỗi CSDL chuỗi Việc phát mẫu chuỗi có nhiều ứng dụng khác sống phân tích giỏ hàng, phân tích tính tương tác trang web, phân tích chuỗi văn bản, … luận văn trình bày ứng dụng phát mẫu hữu ích để phân tích chuỗi sản phẩm mà người dùng thường xuyên mua cửa hàng tạp hóa bán lẻ Để hồn thành luận văn, tơi theo phương pháp nghiên cứu sau: - Phân tích CSDL giao dịch có để tìm mục tiêu thơng tin cần khai thác Phát biểu tốn tổng qt từ tốn cá nhân có - Nghiên cứu thuật toán phổ biến để giải toán tổng quát Chọn số thuật toán phổ biến, tiến hành thử nghiệm liệu thực tế Từ đó, phân tích chọn thuật toán phù hợp để áp dụng vào hệ thống thực tế - Áp dụng thuật toán chọn vào hệ thống có, triển khai cho khách hàng sử dụng Thêm số tiện ích để tăng tốc việc xử lý liệu thực tế Nhận định hướng, hướng dẫn cô Nguyễn Thị Kim Anh việc nghiên cứu thân, tơi hồn thành yêu cầu đề Nhưng thời gian thực luận văn có hạn kiến thức tơi cịn hạn chế, nên việc thiếu sót khơng thể tránh khỏi, mong nhận hướng dẫn góp ý thầy bạn để có sản phẩm hồn thiện thời gian tới Để có kết ngày hơm nay, em xin chân thành cảm ơn cô Nguyễn Thị Kim Anh hướng dẫn em tận tình thời gian qua Và em cảm ơn Công ty Cổ phần Olbius Việt Nam tạo điều kiện cho em thực luận văn Em xin chân thành cảm ơn! Hà Nội, ngày 15 tháng 04 năm 2019 Tác giả luận văn Chu Thị Thịnh Chƣơng - TỔNG QUAN 1.1 Giới thiệu toán thực tiễn Hiện tại, làm việc Công ty Cổ phần Olbius Việt Nam, chuyên cung cấp giải pháp ERP cho doanh nghiệp phân phối, cung cấp hệ thống bán hàng cửa hàng tạp hóa bán lẻ Co.opSmile, với quy mô vài trăm cửa hàng phân bố tập trung khu vực thành phố Hồ Chí Minh Ngày nay, với cạnh tranh khơng ngừng ngành bán lẻ, việc đưa thông tin phân tích thị trường, phân tích hành vi người dùng để nâng cao khả chăm sóc, đáp ứng nhu cầu khách hàng từ giữ khách hàng cũ thu hút thêm khách hàng toán cấp thiết cần đặt với doanh nghiệp phân phối bán lẻ Và thách thức doanh nghiệp cung cấp hệ thống thông tin cho doanh nghiệp phân phối Bằng việc cung cấp hệ thống thông tin cho đối tượng khách hàng trên, công ty cần phải đưa giải pháp mới, công cụ để hỗ trợ khách hàng tốt Bản thân cá nhân nhận thấy vấn đề trên, suy nghĩ tới việc phân tích, khai phá sâu nguồn liệu có Thay cung cấp cơng cụ tạo báo cáo, biểu đồ cho họ từ nguồn liệu hoạt động Đặc điểm nguồn liệu khách hàng sau: số lượng khách hàng thân thiết lớn phạm vi chuỗi cửa hàng triển khai Dữ liệu liên quan tới chuỗi giao dịch mua hàng tiêu dùng ngày khách hàng Lượng liệu gia tăng nhanh Với đặc điểm trên, liên hệ tới cô Nguyễn Thị Kim Anh, cô giúp xác định hướng phân tích, khai phá nguồn liệu để thu kết mong muốn Với nguồn liệu giao dịch bán hàng cửa hàng bán lẻ, có nhiều hướng khai phá liệu như: - Khai phá tập mục thường xuyên: trình tìm mục thường xuất CSDL giao dịch khách hàng Từ tập mục này, doanh nghiệp đưa định chiến lược khác để tăng doanh thu đồng quảng bá sản phẩm, đồng giảm giá khuyến mại 10 So sánh nhớ sử dụng: Từ bảng 7, ta có biểu đồ so sánh nhớ sử dụng thuật toán chạy với giá trị ngưỡng độ hỗ trợ tối thiểu giảm dần, thể Hình Hình 5: So sánh lượng nhớ sử dụng chạy thuật toán với giá trị minsup giảm dần Nhìn vào Hình 5, thấy được, thuật toán GSP [8] SPAM [2] khơng tính tốn sau (do phân tích thời gian chạy phía trên) nên khơng phân tích đường (nó thể có độ lớn tới ) Các thuật tốn cịn lại SPADE [3], CM-SPAM [4], CM-SPADE [4] PrefixSpan [1] sau: giá trị minsup từ 3.0% 0.4% CM-SPAM [4] CM-SPADE [4] tốt PrefixSpan [1], minsup giảm xuống cịn 0.3% 0.2%, thuật tốn tăng cao PrefixSpan [1] rõ ràng Nhìn tổng thể biểu đồ, thấy nhớ thuật toán PrefixSpan [1] ổn định thuật toán Giải thích điều này, PrefixSpan [1] sử dụng kỹ thuật phép chiếu giả để thực tạo CSDL chiếu tương ứng, không tốn không gian lưu trữ thực tế Kết luận: Dựa vào phần thực nghiệm thuật toán phổ biến khai phá mẫu chuỗi liệu thực tế phân tích kết đạt Tôi nhận thấy kết 49 thuật toán PrefixSpan [1] ổn định tốt áp dụng vào liệu Tôi sử dụng để áp dụng vào hệ thống thực tế có 3.2.7 Tích hợp vào hệ thống thực tế Thực tích hợp thuật tốn PrefixSpan [1] vào hệ thống có Các cơng việc thực sau: - Tích hợp luồng tiền xử lý liệu: lọc liệu cần mã hóa liệu cho phù hợp Thực số hóa mã sản phẩm để phù hợp với định dạng liệu đầu vào thuật toán PrefixSpan [1] Sử dụng số cách để giảm thời gian tiền xử lý liệu cách lưu trữ thời gian lần chạy xử lý liệu - Tiến hành xuất file định dạng đầu vào thuật toán từ liệu làm mã hóa Sử dụng số cách để giảm thời gian tạo file đầu vào hàm chạy thuật tốn - Tạo tính chạy thuật tốn Lưu trữ hiển thị kết đầu thuật toán a Cấu trúc liệu trước sau bước tiền xử lý Cấu trúc liệu trước sau bước tiền xử lý mô tả phần trước Một số điểm tổng kết từ việc tiền xử lý: - Loại bỏ hết liệu dư thừa không phục vụ việc khai phá mẫu chuỗi: bỏ cột không dùng tới, loại bỏ giao dịch khơng có thơng tin khách hàng - Mã hóa liệu để đáp ứng liệu đầu vào thuật toán PrefixSpan [1]: mã hóa sản phẩm cách ánh xạ mã sản phẩm ban đầu (kiểu liệu văn bản) thành dạng số Dữ liệu đầu vào thuật toán yêu cầu mục có dạng số, đồng thời mục tập mục xếp theo thứ tự - tơi chọn thứ tự số tự nhiên tăng dần Trong đó, có áp dụng số cách để tăng tốc độ xử lý sau: - Tại lần chạy tiền xử lý liệu: lưu lại thời gian thành công cuối Tới lần chạy tiếp theo, xử lý giao dịch từ thời điểm thành công trước 50 tới thời điểm Việc nhằm giảm số lần thực xử lý lại toàn liệu xử lý, giảm số lần truy vấn đọc/ghi liệu - Khi xuất liệu từ CSDL file đầu vào chạy thuật tốn: thực lưu lại số dịng file ứng với mã khách hàng CSDL Khi có giao dịch bổ sung, tiến hành kiểm tra mã khách hàng giao dịch, tìm tới dịng văn thực nối tiếp vào cuối dòng Trong trường hợp khách hàng chưa có số dịng file, tiến hành tới cuối file bổ sung chuỗi Bằng cách thực điều này, giảm số lần truy vấn thông tin giao dịch để tạo chuỗi tạo trước b Cấu trúc liệu đầu vào chạy thuật toán Định dạng file đầu vào, file văn có: - Mỗi dòng đại diện cho chuỗi CSDL chuỗi - Mỗi mục chuỗi số nguyên dương - Các mục tập mục phân cách dấu cách - Giả sử mục tập mục xếp theo thứ tự từ điển khơng có mục giống tập mục - Giá trị “-1” việc kết thúc tập mục - Giá trị “-2” việc kết thúc chuỗi (đặt cuối dòng) Một vài dòng file đầu vào với liệu thực tế: 1736 2666 -1 -2 49 2206 -1 2860 -1 -2 284 1782 2410 2431 -1 -2 1285 1985 -1 841 1702 -1 670 1306 1512 2078 2822 -1 670 1786 2100 -1 155 1235 1245 1361 1700 1888 2515 2653 -1 2226 2791 -1 -2 1205 2033 -1 1263 -1 1403 1933 -1 1065 -1 -2 Giải thích: - Mỗi mục số nguyên dương sản phẩm bán cửa hàng Ví dụ: sản phẩm 1736, 2666 dòng sản phẩm khác 51 - Với dòng đại diện cho chuỗi chứa tất giao dịch mua hàng người dùng chuỗi cửa hàng tiện lợi bán lẻ Ví dụ: dịng “1736 2666 -1 -2” ứng với chuỗi thông tin mua hàng khách hàng chuỗi - Mỗi tập mục đơn hàng Ví dụ với dịng “49 2206 -1 2860 -1 -2” ứng với chuỗi biểu diễn cho khách hàng có đơn hàng chuỗi cửa hàng Trong đơn thứ chứa mục (49, 2206) đơn chứa mục (2860) c Cấu trúc liệu đầu chạy thuật toán Định dạng file đầu định nghĩa sau: - File đầu file văn - Mỗi dòng mẫu chuỗi thường xuyên - Mỗi mục mẫu chuỗi số nguyên dương - Các mục tập mục ngăn cách dấu cách - Giá trị “-1” đặt cuối tập mục - Mỗi dòng, mẫu chuỗi phần đầu Sau đó, từ khóa “#SUP:” xuất hiện, số nguyên thể độ hỗ trợ mẫu Một vài dòng file đầu với liệu thực tế: 890 2337 -1 #SUP: 330 890 2350 -1 #SUP: 297 890 1360 -1 #SUP: 222 890 -1 2337 -1 #SUP: 215 890 -1 301 -1 #SUP: 214 890 -1 2350 -1 #SUP: 255 Giải thích: - Mỗi dịng chuỗi thường xun Với giá trị thường xuyên xác định độ đo hỗ trợ Ví dụ, dịng “890 -1 2337 -1 #SUP: 215” ứng với chuỗi với hỗ trợ 215, nghĩa chuỗi chứa 215 chuỗi CSDL chuỗi đầu vào, hiểu, có 215 người 52 thực mua sản phẩm 890 trước, sau lần mua sau, họ mua sản phẩm 2337 d Màn hình chương trình hiển thị thơng tin chạy kết Giao diện 1: giao diện thực chạy khai phá mẫu chuỗi kết trả Cho phép người dùng thực chạy khai phá mẫu chuỗi với thông tin “ngưỡng độ hỗ trợ tối thiểu tuyệt đối” người dùng chọn Và xem danh sách kết phía Hình 6: Giao diện thực chạy khai phá mẫu chuỗi kết trả Trong đó, danh sách chứa thơng tin sau: - Mã: lượt chạy - Mã trạng thái: trạng thái lượt chạy - Ngày tạo: thời điểm chạy - MinSup tương đối: độ hỗ trợ tối thiểu tương đối (%) - MinSup tuyệt đối: độ hỗ trợ tối thiểu tuyệt đối (số chuỗi) - Số mẫu kết quả: số lượng mẫu chuỗi thường xuyên thu - Bộ nhớ sử dụng: dung lượng nhớ cần thiết chạy thuật toán, đơn vị mb - Thời gian chạy: thời gian chạy thuật toán, đơn vị ms - Tên file: tên file chứa danh sách mẫu chuỗi kết thu được lưu máy chủ - Kích thước: kích thước file theo KB - Tải về: chọn để tải file từ máy chủ máy tính cá nhân người dùng 53 Để chạy khai phá mẫu chuỗi: người dùng thực nhập giá trị ngưỡng độ hỗ trợ tối thiểu mong muốn (là số chuỗi nhỏ chứa mẫu kết quả), sau ấn chọn “Chạy tổng hợp” Ví dụ, chạy với ngưỡng minsup 194: Hình 7: Giao diện chạy khai phá mẫu chuỗi Kết sau hệ thống xử lý xong: Hình 8: Giao diện kết khai phá mẫu chuỗi Trong đó, có thơng tin: - Mã lượt chạy: 211 - Trạng thái: thành công (COMPLETE) - Thời gian chạy: 10/04/2019 17:48:00 54 - Ngưỡng độ hỗ trợ nhỏ tương đối: 0.005022 194 0.5% - Ngưỡng độ hỗ trợ nhỏ tuyệt đối: 1432 (chuỗi) - Bộ nhớ sử dụng: 494.739151mb - Thời gian chạy: 5157ms - Tên file đầu lưu máy chủ: output_mining_20190410_174805.txt - Kích thước file: 100298 KB Thực tải file đầu máy tính cá nhân, click vào icon “Tải về”, hệ thống hiển thị hình cho phép chọn vị trí lưu file: Hình 9: Màn hình lưu file kết sau chạy khai phá mẫu chuỗi Nội dung file kết đầu sau: 55 Hình 10: Nội dung file kết khai phá mẫu chuỗi Tổng số dòng file (1432 dòng) với số mẫu chuỗi kết thu hiển thị danh sách kết Giao diện 2: Xem chi tiết danh sách mẫu kết lần chạy Tại hình “Giao diện 1” phía trên, click vào mã lượt chạy, hệ thống chuyển sang giao diện xem chi tiết mẫu kết lượt chạy chọn: Hình 11: Màn hình xem chi tiết mẫu chuỗi kết lượt chạy Màn hình thể dòng, dòng mẫu chuỗi kết quả, độ hỗ trợ chuỗi thông tin số thứ tự mẫu file kết “.txt” thu 56 Ngoài ra, hệ thống cho phép tải file Excel chứa danh sách mẫu chuỗi kết này, cách click vào icon “Excel” góc bên phải danh sách mẫu chuỗi kết Màn hình lưu file Excel xuất: Hình 12: Màn hình lưu file Excel chứa danh sách mẫu chuỗi kết Nội dung file Excel sau: Hình 13: Màn hình nội dung file Excel chứa danh sách mẫu chuỗi kết 57 Chƣơng - KẾT QUẢ VÀ BÀN LUẬN 4.1 Kết đạt đƣợc Luận văn nêu tốn thực tế, khái qt hóa tốn dạng tổng qt, trình bày số thuật tốn khai phá mẫu chuỗi thường xuyên CSDL chuỗi để giải tốn tốn Từ đó, thử nghiệm với liệu thực tế, so sánh hiệu thuật tốn Phân tích lựa chọn thuật toán phù hợp với liệu Cuối cùng, áp dụng thuật toán chọn vào hệ thống thực tế có để khai phá mẫu hữu ích CSDL giao dịch 4.2 Phân tích kết Dựa vào phần lý thuyết nêu phần chương 2, phần áp dụng vào liệu thực tế, thấy rằng: - Khẳng định lý thuyết phân tích: o Với CSDL chuỗi đầu vào giống nhau, ngưỡng minsup giống nhau, giả sử mục tập mục chuỗi xếp theo thứ tự (có thể thứ tự từ điển) với thuật tốn khai phá mẫu chuỗi khác chạy đưa đầu mẫu chuỗi thường xuyên giống Như vậy, việc so sánh thuật toán khai phá mẫu chuỗi cần so sánh hiệu thuật toán (hiệu thời gian, nhớ lưu trữ) o Với minsup nhỏ, tốc độ xử lý thuật toán chậm, nhớ lưu trữ lớn, số lượng mẫu chuỗi thường xuyên thu tăng lên nhanh Với minsup tuyệt đối 194, số mẫu chuỗi thường xuyên thu 1432 chuỗi Khi minsup tuyệt đối giảm xuống 78, số mẫu chuỗi thường xuyên thu 16521 chuỗi Minsup giảm 40.20%, chuỗi mẫu đầu thu tăng lên 1153.70% - Có số điểm mới: 58 o Với CSDL chuỗi thưa CSDL chuỗi thực tế chạy, CSDL chuỗi chưa lớn thuật tốn PrefixSpan [1] có tốc độ chạy nhanh thuật tốn CM-SPADE [4] Như vậy, với CSDL thực tế này, việc áp dụng thuật toán PrefixSpan [1] chấp nhận Để đánh giá mức độ hữu ích mẫu chuỗi kết quả, tơi giới thiệu tính tới phận Marketing thuộc bên khách hàng để đánh giá tính hữu ích Ở thời điểm tại, khách hàng bắt đầu tiếp cận sử dụng tính Đối với người dùng, với kết thu từ việc khai phá mẫu chuỗi, trưởng phận Marketing lên chương trình khuyến mại tới khách hàng Ví dụ 1: kết có chuỗi với độ độ hỗ trợ 174 chạy với minsup 0.2%, viết tắt thành “Kem d.xanhyenmach” “Kem k.mon-luamach”, đồng thời thị trường có lô hàng kem “Kem k.mon-luamach” tồn lớn sản phẩm sản phẩm thị trường Với kết trên, trưởng phận Marketing tiến hành tạo CTKM sau: mua số lượng “ ” que “Kem d.xanh-yenmach” tặng thêm que “Kem k.mon-luamach” để giới thiệu sản phẩm Khi này, lượng người mua “Kem d.xanhyenmach” vốn đơng có thêm sản phẩm “Kem k.mon-luamach” giỏ hàng, dẫn tới xảy khả khách hàng mua sản phẩm “Kem k.mon-luamach” vào lần Ví dụ 2: Có chuỗi với độ hỗ trợ 104 chạy với minsup 0.2%, viết tắt thành “Mì Hảo Hảo”, “Nước Cocacola” Với mẫu chuỗi này, trưởng phận Marketing nhận thấy rằng, khách hàng có xu mua “Mì Hảo Hảo”, sau lần mua “Nước Cocacola”, sau mua “Nước Cocacola”, đồng thời có ưu đãi từ Nhà cung cấp với sản phẩm “Nước Cocacola”, dẫn tới để đẩy nhanh trình bán hàng, trưởng phận Marketing đưa CTKM mua “Mì Hảo Hảo”, giảm giá “Nước Cocacola”, đẩy nhanh trình tiêu thụ “Nước 59 Cocacola” đồng thời rút ngắn lần mua hàng tới giai đoạn bán “Nước Cocacola” tập mục số Như vậy, tùy vào mẫu chuỗi kết quả, người sử dụng đánh giá đưa chương trình ưu đãi phù hợp với biến động thị trường 4.3 Hƣớng phát triển Hiện tại, để người dùng sử dụng tính khai phá mẫu chuỗi, tơi phải giới thiệu khái niệm ngưỡng độ hỗ trợ tối thiểu tới họ để họ hiểu chọn ngưỡng độ hỗ trợ nhỏ hợp lý Việc lựa chọn ngưỡng phù hợp quan trọng thuật tốn PrefixSpan triển khai, chọn ngưỡng minsup thấp, số lượng mẫu tìm lớn, thời gian chạy lâu, chọn ngưỡng minsup cao, số lượng mẫu tìm nhỏ Để giải vấn đề này, nhà phát triển tìm giải pháp khai phá mẫu chuỗi Top-k Khai phá mẫu chuỗi Top-k bao gồm việc phát “k” mẫu chuỗi thường xuyên CSDL chuỗi Các thuật toán yêu cầu người dùng nhập vào số lượng chuỗi kết mong muốn, mà không cần phải suy nghĩ tới ngưỡng minsup Đây coi vấn đề khó so với khai phá mẫu chuỗi Tôi tiếp tục nghiên cứu đề tài theo hướng khai phá mẫu chuỗi Top-k tương lai để góp phần nâng cao tính cho hệ thống phát triển Hơn nữa, theo xu chung giới, với lượng liệu lớn dần chuyển sang sử dụng hệ quản trị CSDL NoSQL thay SQL Do chưa lựa chọn, phân tích triển khai hệ thống thực tế áp dụng cho khách hàng, nên dùng hệ quản trị CSDL SQL để lưu trữ nguồn liệu tinh chuẩn bị đầu vào cho thuật tốn PrefixSpan Trong tương lai, tơi phân tích đề xuất hướng triển khai sử dụng hệ quản trị CSDL NoSQL để lưu trữ thông tin áp dụng vào hệ thống có 60 KẾT LUẬN VÀ KIẾN NGHỊ Sau thời gian thực đề tài, bảo hướng dẫn tận tình Nguyễn Thị Kim Anh, tơi hồn thành công việc đề Kết đạt gồm: trình bày tốn thực tế, tổng qt hóa tốn, tìm hiểu số thuật tốn khai phá mẫu chuỗi thường xuyên phổ biến nay, đánh giá hiệu thuật toán, tiến hành thử nghiệm vào CSDL giao dịch thực tế, phân tích lựa chọn thuật toán hợp lý nhất, cuối áp dụng vào hệ thống thực tế có Với đề tài này, trình làm luận văn, cá nhân thu nhiều kiến thức kinh nghiệm khai phá liệu, cụ thể khai phá mẫu chuỗi thường xuyên CSDL chuỗi Áp dụng vào hệ thống thực tế công ty làm việc Tuy nhiên, thời gian thực kiến thức cá nhân hạn chế, nên kết đạt cịn thiếu xót CSDL lưu trữ liệu sau làm sử dụng CSDL quan hệ, việc nâng cấp cách sử dụng CSDL NoSQL để việc truy vấn liệu tinh nhanh Trong thời gian tới, tiếp tục theo đuổi đề tài này, nhằm tối ưu hóa cho tính áp dụng hệ thống thực tế, để cung cấp sản phẩm tối ưu tới khách hàng dùng phần mềm Mặc dù cố gắng, song tránh khỏi thiếu sót, tơi mong nhận quan tâm góp ý q thầy bạn để đề tài phát triển tốt Một lần em xin cảm ơn cô Nguyễn Thị Kim Anh giúp đỡ em q trình hồn thành luận văn Hà Nội, ngày 15 tháng 04 năm 2019 Tác giả luận văn Chu Thị Thịnh 61 TÀI LIỆU THAM KHẢO J Pei, J Han, B Mortazavi-Asl, J Wang, H Pinto, Q Chen, U Dayal, and M C Hsu (2004), “Mining sequential patterns by pattern-growth: The prefixspan approach”, IEEE Transactions on knowledge and data engineering, 16(11), pp 1424-1440 J Ayres, J Gehrke, T Yiu, J Flannick (2002), “Sequential pattern mining using a bitmap representation”, ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 429-435 M J Zaki (2001), “SPADE: An effcient algorithm for mining frequent sequences”, Machine learning, 42(1-2), pp 31-60 P Fournier-Viger, A Gomariz, M Campos, R Thomas (2014), “Fast Vertical Mining of Sequential Patterns Using Co-occurrence Information”, The Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp 40-52 Philippe Fournier-Viger, Jerry Chun-Wei Lin, Bay Vo, Tin Truong Chi, Ji Zhang, Hoai Bac Le (2017), “A Survey of Itemset Mining”, WIREs Interdisciplinary reviews, Data Mining and Knowledge Discovery Philippe Fournier-Viger, Jerry Chun-Wei Lin, Rage Uday Kiran, Yun Sing Koh, Rincy Thomas (2017), “A Survey of Sequential Pattern Mining”, Data Science and Pattern Recognition, 1(1), pp 54-77 R Agrawal and R Srikant (1995), “Mining Sequential Patterns”, Proc of the 11th Int'l Conference on Data Engineering R Srikant, R Agrawal (1996), “Mining sequential patterns: Generalizations and performance improve-ments”, The International Conference on Extending Database Technology, pp 1-17 62 Thabet Slimani, Amor Lazzer (2013), “Sequential mining: patterns and algorithms analysis”, International Journal of Computer and Electronics Research, 2, pp 639-647 63 ... giúp định hướng đề tài mà tơi cần thực ? ?Phát mẫu hữu ích Cơ sở liệu giao dịch? ?? Nhiệm vụ luận văn phát mẫu hữu ích từ CSDL giao dịch thực tế có để phân tích chuỗi sản phẩm mà người dùng thường... ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI CHU THỊ THỊNH PHÁT HIỆN CÁC MẪU HỮU ÍCH TRONG CƠ SỞ DỮ LIỆU GIAO DỊCH CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG... khách hàng gọi giao dịch, CSDL giao dịch chứa tập giao dịch Một giao dịch chứa sản phẩm mua thời điểm, thực khách hàng cửa hàng Như vậy, có tập giao dịch thực khách hàng, tập giao dịch có thứ tự,