1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá tập mục lợi ích cao và ứng dụng tại công ty cổ phần siêu thị VHSC (tóm tắt luận văn ngành hệ thống thông tin)

26 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 889,54 KB

Nội dung

HỌC VIÊN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Trọng Thắng KHAI PHÁ TẬP MỤC LỢI ÍCH CAO VÀ ỨNG DỤNGTẠI CƠNG TY CỔ PHẦN SIÊU THỊ VHSC Chuyên ngành: Hệ thống thơng tin Mã số : 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2018 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: Giáo sư Tiến sỹ Vũ Đức Thi Phản biện 1: Phó Giáo sư Tiến sỹ Nguyễn Hà Nam Phản biện 2: Phó Giáo sư Tiến sỹ Lê Thanh Hương Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 09 40 phút ngày 06 tháng 01 năm 2018 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Luận văn tác giả tập trung tìm hiểu phân tích q trình giao dịch bán hàng dựa tập liệu giao dịch tìm nhóm mặt hàng bán, theo chu kỳ, định kỳ, tìm nhóm mặt hàng đưa lợi nhuận Từ ý nghĩa khoa học thực tiễn tác giả chọn đề tài: “Khai phá tập mục lợi ích cao ứng dụng công ty Cổ phần siêu thị VHSC” Tổng quan vấn đề nghiên cứu Luận văn xác định số nội dung trọng tâm sau: - Tìm thuật tốn hiệu cho việc phát nhóm hàng bán đem lại lợi nhuận cao dựa hóa đơn giao dịch - Tìm thuật toán hiệu cho việc phát nhu cầu mua hàng khách hàng thường xuyên đem lại lợi nhuận cao dựa hóa đơn giao dịch - Khả ứng dụng công ty Cổ phần siêu thị VHSC Mục tiêu nghiên cứu  Mục tiêu tổng quát:  Nghiên cứu tập mục lợi ích cao  Khảo sát nhu cầu thực tế mặt hàng bán với lợi nhuận thu dựa giao dịch, chu kỳ bán hàng hóa đem lại lợi nhuận, đưa phương pháp khai phá tập mục lợi ích cao phù hợp  Mục tiêu cụ thể:  Tìm hiểu thuật tốn khai phá tập mục lợi ích cao áp dụng vào nhu cầu thực tế Công ty Cổ phần siêu thị VHSC  Cài đặt chương trình thử nghiệm khai phá tập mục lợi ích cao Đối tượng phạm vi nghiên cứu  Đối tượng nghiên cứu:  Một số vấn đề khai phá tập tập mục lợi ích cao  Thuật toán FHM, thuật toán FHN, thuật toán PHM, thuật tốn FOSHU khả áp dụng cơng ty cổ phần Siêu thị VHSC  Phạm vi nghiên cứu  Trên liệu tĩnh Việc xử lý liệu theo hướng tập trung  Khả ứng dụng thuật tốn khai phá tập tập mục lợi ích cao công ty cổ phần Siêu thị VHSC  Không sâu nghiên cứu chi tiết, đánh giá hiệu suất thuật toán Phương pháp nghiên cứu  Nghiên cứu lý thuyết:  Luận văn sử dụng phương pháp thu thập, phân tích, tổng hợp thơng tin để tổng kết kiến thức tảng, công bố khoa học ứng dụng từ nguồn tài liệu Internet nguồn tài liệu báo khoa học kỷ yếu hội thảo, tạp chí chuyên ngành…  Nghiên cứu thực nghiệm:  Cài đặt thực nghiệm thuật toán  Đánh giá khả áp dụng khai phá thuật toán khai phá tập mục lợi ích cao công ty cổ phần Siêu thị VHSC Kết cấu luận văn Ngoài phần mục lục, danh mục, mở đầu, kết luận, tài liệu tham khảo Luận văn cấu trúc thành chương với nội dung sau: Chương 1- Cơ sở lý thuyết: Trình bày tổng quan khai phá liệu, khái quát khai phá tập mục thường xuyên, khai phá liệu lợi ích cao, định nghĩa tốn khai phá tập mục lợi ích cao Chương - Thuật tốn khai phá tập mục lợi ích cao: Trình bày thuật tốn thuật tốn FHM, thuật tốn FHN, thuật toán PHM thuật toán FOSHU Chương - Cài đặt ứng dụng thử nghiệm: Ứng dụng sở thuật tốn trình bày, kiểm tra với mẫu số liệu cụ thể, đánh giá khả ứng dụng áp dụng Công ty cổ phàn siêu thị VHSC Chương - CƠ SỞ LÝ THUYẾT 1.1 Mở đầu Khai phá liệu (Data mining) q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ sở liệu, kho liệu 1.1.1 Quy trình khai phá liệu phát tri thức - Từ liệu thơ q trình khám phá tri thức phân thành bước sau: Lựa chọn liệu; Thu thập tiền xử lý liệu; Khai phá liệu; Đánh giá biểu diễn tri thức; Tri thức 1.1.2 Các phương pháp khai phá liệu Các phương pháp KPDL phân chia theo chức hay lớp toán khác sau: - Phân lớp dự đoán, Luật kết hợp, Phân cụm phân đoạn, Khái niệm tổng hợp hóa 1.1.3 Các sở liệu khai phá KPDL ứng dụng rộng rãi có nhiều dạng liệu khác nhau: - Cơ sở liệu quan hệ,Cơ sở liệu giao tác, CSDL đa chiều, CSDL hướng đối tượng ,CSDL khơng gian, CSDL có yếu tố thời gian,CSDL đa phương tiện 1.1.4 Kiến trúc hệ thống khai phá liệu - Kiến trúc hệ thống KPDL điển hình có thành phần : Kho liệu; Máy chủ CSDL; Cơ sở tri thức; Máy KPDL; Modun đánh giá mẫu; Giao diện đồ họa người dùng 1.1.5 Khai phá liệu số lĩnh vực liên quan - Cơ sở liệu; Thống kê; Máy móc, trí tuệ nhân tạo; Thương mại; Y tế; Tài chính, ngân hàng; Giáo dục; Thuật toán; Các ngành khoa học khác 1.1.6 Một số ứng dụng khai phá liệu - Phân tích liệu gen sinh học y học, Phân tích liệu tài chính, Phân tích mẫu gian lận xác định mẫu khác thường 1.1.7 Các vấn đề sở liệu - Dữ liệu lớn ,Kích thước lớn, Dữ liệu động, Các trường không phù hợp, Các giá trị bị thiếu, Các trường bị thiếu, Độ nhiễu không chắn, Mối quan hệ phức tạp trường 1.2 Giới thiệu toán khai phá tập mục lợi ích cao 1.2.1 Khai phá tập mục thường xun Bài tốn truyền thống (hay cịn gọi tốn nhị phân) với mục đích phát tập mục thường xuyên, từ tạo luật kết hợp Trong khai phá luật kết hợp bản, thuật toán khám phá tập mục thường xuyên xây dựng theo phương pháp tìm kiếm bước Cơ sở thuật tốn tính chất Apriori hay cịn gọi tính chất phản đơn điệu, tính chất đóng xuống tập mục thường xuyên Đó tập khác rỗng tập mục thường xuyên phải tập thường xuyên 1.2.2 Giới thiệu toán khai thác tập lợi ích cao Trong mơ hình khai thác lợi ích cao, giá trị mục liệu giao tác số (chẳng hạn số lượng bán mặt hàng), ngồi cịn có bảng lợi ích cho biết lợi ích mang lại bán đơn vị hàng đó, người quản lý kinh doanh xác định) Lợi ích tập mục số đo lợi nhuận tập mục CSDL, tổng lợi nhuận, tổng chi phí tập mục 1.2.3 Cách tiếp cận khai thác tập lợi ích cao - Dựa vào biên độ có ích); Dựa vào định nghĩa về TWU; Dựa TWU FP-tree; Dựa TWU phương pháp cắt tỉa cách ước lượng giá trị lợi ích đồng thời mang tên EUCP 1.3 Các định nghĩa quy ước khai thác tập mục lợi ích cao Định nghĩa 1.1: sở liệu giao tác: Cho tập mục (item) I= {i1, i2 ,…in} Một giao tác Tc tập I ,Tc ∈ I Cơ sở liệu giao tác tập giao tác D = {T1, T2, , Tn}.Mỗi giao tác Tc, Tc ∈ I c gán định danh gọi TID Mỗi mục i ∈ I liên quan đến số dương 𝑝(𝑖) gọi lợi ích bên ngồi (ví dụ đơn vị lợi nhuận hay gọi giá trị chủ quan ) Đối với giao tác Tc mà i ∈ Tc số dương q(i, Tc) gọi lợi ích i Định nghĩa 1.2: Lợi ích mục/tập mục giao tác: 𝑢(𝑋, 𝑇𝑐 ) =∑𝑖∈𝑋 𝑢(𝑖, 𝑇𝑐 ) Định nghĩa 1.3: Lợi ích tập mục sở liệu giao tác: 𝑢(𝑋) = ∑𝑇𝑐 ∈𝑔(𝑋) 𝑢(𝑋, 𝑇𝑐 ).𝑔(𝑋) tập hợp giao tác chứa 𝑋 Định nghĩa 1.4: Khai phá tập mục lợi ích cao.Một tập 𝑋 coi tập mục lợi ích cao nếu: 𝑢(𝑋) ≥ 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 Nếu khơng tập lợi ích thấp Định nghĩa 1.5: Lợi ích giao tác: 𝑇𝑈(𝑇𝑐 ) = ∑ 𝑥∈𝑇𝑐 𝑢 (𝑥, 𝑇𝑐 ) Định nghĩa 1.6: Lợi ích trọng số giao tác: 𝑇𝑊𝑈 (𝑋) = ∑ 𝑇𝑈 (𝑇𝑐 ) 𝑇𝑐 ∈𝑔(𝑋) Định nghĩa 1.7: Danh sách lợi ích.Mục 𝑖𝑢𝑡𝑖𝑙 lợi ích 𝑋 𝑇𝑡𝑖𝑑 là: u(X, Ttid) Mục 𝑟𝑢𝑡𝑖𝑙 xác định là: ∑𝑖∈𝑇𝑡𝑖𝑑 ∧𝑖∈𝑋 𝑈(𝑖, 𝑇𝑡𝑖𝑑 ) Tính chất 1.1: Trọng số độ lợi ích giao tác tập mục 𝑋 lớn với lợi ích : 𝑇𝑊𝑈 (𝑋) ≥ 𝑢(𝑋) Tính chất 1.2: Thuật toán TWU chống đơn điệu Coi 𝑋 𝑌 hai tập mục.Nếu 𝑋 ⊂ 𝑌 𝑇𝑊𝑈(𝑋) ≥ 𝑇𝑊𝑈(𝑌) Tính chất 1.3: Coi 𝑋 tập mục Nếu 𝑇𝑊𝑈(𝑋) < 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 tập 𝑋 tập mục lợi ích thấp tất tập khác rỗng Tính chất 1.4: Tổng iutils Gọi 𝑋 tập mục Nếu tổng giá trị 𝑖𝑢𝑡𝑖𝑙 danh sách lợi ích 𝑋 lớn 𝑚𝑖𝑛𝑢𝑡𝑖𝑙, 𝑋 tập lợi ích cao Ngược lại, lợi ích thấp Tính chất 1.5: Sử dụng danh sách lợi ích để tính tốn lợi ích tập mục.Lợi ích tập mục tổng giá trị 𝑖𝑢𝑡𝑖𝑙 danh sách lợi ích Tính chất 1.6: Tổng iutils rutils Gọi 𝑋 tập mục Gọi phần mở rộng 𝑋 tập mục có cách thêm mục 𝑦 vào 𝑋 cho 𝑦 ≻ 𝑖 tất mục 𝑖 𝑋 Nếu tổng giá trị 𝑖𝑢𝑡𝑖𝑙 𝑟𝑢𝑡𝑖𝑙 danh sách lợi ích 𝑥 nhỏ 𝑚𝑖𝑛𝑢𝑡𝑖𝑙, tất phần mở rộng 𝑋 phần mở rộng chuyển tiếp tập mục lợi ích thấp Tính chất 1.7: Sử dụng danh sách lợi ích để tỉa khơng gian tìm kiếm Xét 𝑋 tập mục Coi phần mở rộng 𝑋 tập mục thu cách thêm mục 𝑦 vào 𝑋 cho 𝑦 ≻ 𝑖, ∀𝑖 ∈ 𝑋 Nếu tổng giá trị 𝑖𝑢𝑡𝑖𝑙 𝑟𝑢𝑡𝑖𝑙 𝑢𝑙(𝑋) nhỏ 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 𝑋 phần mở rộng lợi ích thấp Tính chất 1.8: Cho tập X Lợi ích u(X) với tổng giá trị iutil ul (X) [12] Tính chất 1.9: Cho tập X Tổng giá trị iutil rutil ul(X) giới hạn u(X) Hơn nữa, chứng minh giới hạn chặt chẽ TWU(X) 1.4 Kết luận chương 1: Chương luận văn trình bày khái quát về KPDL KDD, toán khai phá tập mục thường xuyên, khai phá liệu lợi ích cao, số định nghĩa, tính chất tốn khai phá tập mục lợi ích cao sử dụng cho chương Chương - THUẬT TỐN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO 2.1 Thuật toán FHM 2.1.1 Đặt vấn đề Trong mục này, tác giả trình bày thuật tốn có tên FHM (Khai phá hiệu tập mục lợi ích cao) để khai phá HUIs xem xét đơn vị lợi nhuận dương 2.1.2 Nội dung thuật toán FHM Thủ tục lấy giá trị lợi ích ngưỡng 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 làm đầu vào cở sở liệu Đầu tiên qt sở liệu để tính TWU mục Sau xác định tập hợp 𝐼 ∗ tất mục có TWU không nhỏ 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 (các mục khác bị bỏ qua chúng khơng thể phần tập mục lợi ích cao theo tính chất 1.1) Giá trị TWU mục sau sử dụng để thiết lập thứ tự toàn phần ≻ mục, thứ tự tăng dần giá trị TWU Việc phát HUIs cách thực quét sở liệu đơn để thiết lập danh sách lợi ích mẫu có chứa mục đơn Sau đó, ta thu mẫu dài cách thực hoạt động nối danh sách lợi ích mẫu ngắn Sau thực quét sở liệu lần thứ Trong trình quét sở liệu này, mục giao tác xếp lại theo thứ tự tồn phần ≻, danh sách lợi ích mục i ∈ I* xây dựng cấu trúc đặt tên EUCS (Cấu trúc ước lượng giá trị lợi ích đồng thời) Cấu trúc định nghĩa ba có dạng (𝑎, 𝑏, 𝑐) ∈ 𝐼∗ × 𝐼 ∗ × 𝑅 Một ba (𝑎, 𝑏, 𝑐) TWU({𝑎, 𝑏}) = 𝑐 EUCS có 10 cách nối mục đơn tỉa khơng gian tìm kiếm theo tính chất 1.5 Có thể dễ dàng thấy được, theo tính chất 1.4 tính chất 1.5, thủ tục xác hồn thành việc thăm dị tất tập tin lợi ích cao Cắt tỉa đồng thời Điểm FHM chế cắt tỉa có tên EUCP dựa vào cấu trúc EUCS EUCP chiến lược cắt tỉa để trực tiếp loại bỏ mở rộng lợi ích thấp 𝑃𝑥𝑦 tất mở rộng chuyển tiếp mà không cần xây dựng danh sách lợi ích chúng Điều kiện cắt tỉa khơng có (𝑥, 𝑦, 𝑐) EUCS cho 𝑐 ≥ 𝑚𝑖𝑛𝑢𝑡𝑖𝑙, sau 𝑃𝑥𝑦 tất mục khác rỗng tập lợi ích thấp không cần phải khám phá 2.2 Thuật toán FHN 2.2.1 Đặt vấn đề Trong mục này, tác giả trình bày thuật tốn có tên FHN (Khai phá hiệu tập mục lợi ích cao với lợi nhuận đơn vị âm) để khai phá HUIs xem xét lợi nhuận đơn vị dương âm Để thực thuật toán sử dụng đơn vị lợi nhuận âm ta cần định nghĩa lại lợi ích bên ngồi chấp nhận hai giá trị dương âm 2.2.2 Nội dung thuật toán FHN Đầu tiên, mơ tả thủ tục chính, tương tự thủ tục từ thuật tốn FHM [10] Thủ tục xử lý giá trị lợi ích bên ngồi dương Sau xử lý lợi nhuận đơn vị âm mà không HUIs Thủ tục Search lấy đầu vào (1) tập mục 𝑃, (2) phần mở rộng 𝑃 có dạng 𝑃𝑧 nghĩa có 𝑃𝑧 cách thêm mục 𝑧 vào 𝑃, (3) 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 (4) EUCS Thủ tục Search thực sau Đối với phần mở rộng 𝑃𝑥 𝑃, 11 tổng giá trị 𝑖𝑢𝑡𝑖𝑙 danh sách lợi ích 𝑃𝑥 khơng nhỏ 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 𝑃𝑥 tập mục lợi ích cao đầu (xem tính chất 1.2) Sau đó, tổng giá trị 𝑖𝑢𝑡𝑖𝑙 𝑟𝑢𝑡𝑖𝑙 danh sách lợi ích 𝑃𝑥 khơng nhỏ 𝑚𝑖𝑛𝑢𝑡𝑖𝑙, điều có nghĩa phần mở rộng 𝑃𝑥 cần thăm dị (xem tính chất 1.3) Việc thực cách hợp 𝑃𝑥 với tất phần mở rộng 𝑃𝑦 thuộc 𝑃 cho 𝑦 ≻ 𝑥 𝑇𝑊𝑈({𝑥, 𝑦}) ≥ 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 để hình thành phần mở rộng có dạng 𝑃𝑥𝑦 chứa |𝑃𝑥| + hạng mục Danh sách lợi ích 𝑃𝑥𝑦 sau xây dựng FHM cách gọi thủ tục Construct để nối danh sách lợi ích 𝑃, 𝑃𝑥 𝑃𝑦 Thủ tục thứ giống FHM [10] không nêu chi tiết Sau đó, gọi đệ quy 𝑃𝑥𝑦 tới thủ tục Search thực nhằm tính độ lợi ích thăm dị phần mở rộng Kể từ thủ tục Search khởi động từ hạng mục đơn lẻ, tiến hành thăm dị đệ quy khơng gian tìm kiếm tập mục cách nối mục đơn tỉa khơng gian tìm kiếm theo tính chất 1.3 + Điều chỉnh thuật toán để xử lý khoản lợi nhuận đơn vị âm Trước hết phải xác định thứ tự toàn phần ≻ cho hạng mục âm tất hạng mục dương Bây xét tập 𝑋 Cho 𝑢𝑝(𝑋) ⊆ 𝑋 tập hợp tất mục dương 𝑋 Ngoài ra, gọi 𝑢𝑛(𝑋) ⊆ 𝑋 tập hợp tất mục âm thuộc 𝑋 Tuy nhiên việc sử dụng điều kiện cắt tỉa vào thuật tốn u cầu tính tốn cách hiệu Thứ nhất, thay tính TWU ban đầu, TWU xác định lại sử dụng để 12 ngăn chặn việc đánh giá thấp độ lợi ích HUI chứa mục dương Thứ hai, danh sách lợi ích xác định lại cho yếu tố 𝑖𝑝𝑢𝑡𝑖𝑙 𝑖𝑛𝑢𝑡𝑖𝑙 sử dụng Hơn nữa, giá trị 𝑟𝑢𝑡𝑖𝑙 danh sách lợi ích chứa giá trị lợi ích mục dương Lý thuật tốn bỏ sót số HUIs giá trị 𝑟𝑢𝑡𝑖𝑙 mục âm không nằm danh sách lợi ích Thứ ba, thứ tự tồn phần xác định lại cho tất mục âm áp đảo mục dương Thứ tư, điều kiện cắt tỉa TWU 𝑇𝑊𝑈({𝑥, 𝑦}) < 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 sử dụng cấu trúc EUCS áp dụng cho mục dương Thứ năm, điều kiện cắt tỉa áp dụng để định liệu tập mục có nên mở rộng mục âm hay không Thứ sáu, điều kiện cắt tỉa mục dương dựa tổng giá trị 𝑖𝑛𝑢𝑡𝑖𝑙 𝑟𝑢𝑡𝑖𝑙 định nghĩa lại tổng giá trị 𝑖𝑝𝑢𝑡𝑖𝑙 𝑟𝑢𝑡𝑖𝑙 Bây thảo luận đắn sửa đổi để tìm tất HUIs sử dụng mục âm mục dương Ta chia phần giải thích thành hai phần (1) thuật tốn trước tiên mở rộng tập mục cách thêm hạng mục dương (2) sau thuật tốn nối hạng mục âm (trên sở ≻ ) Trong phần đầu tiên, FHN hoạt động thuật tốn khai thác HUI thơng thường để phát HUI chứa mục dương Điều mặt hàng âm ln ln thêm sau mặt hàng dương (do mục âm không xét HUIs chứa mục dương) Hơn nữa, điều kiện cắt tỉa phải đảm bảo tổng giá trị 𝑟𝑢𝑡𝑖𝑙 𝑖𝑝𝑢𝑡𝑖𝑙 phải lớn 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 giá trị 𝑟𝑢𝑡𝑖𝑙 mục âm khơng xét danh sách lợi ích thuật toán TWU chứa mục dương Việc cắt tỉa phải đảm bảo cho việc mở rộng 𝑃𝑥𝑦 không khám phá 13 𝑇𝑊𝑈(𝑥, 𝑦) < 𝑚𝑖𝑛𝑢𝑡𝑖𝑙 xác sử dụng TWU định nghĩa lại Ở phần thứ hai (khi mục âm kết nối), ta sử dụng điều kiện cắt tỉa theo tính chất 2.4 Chính vậy, khơng có HUIs chứa mục âm bị bỏ sót 2.3 Thuật tốn PHM 2.3.1 Đặt vấn đề Trong mục này, tác giả trình bày thuật tốn có tên PHM Thứ nhất, khái niệm mẫu tuần hoàn sử dụng FIM kết hợp với khái niệm HUIs để xác định kiểu mẫu đặt tên Các tập mục lợi ích cao có tính chu kỳ định kỳ (PHIs), thuộc tính nghiên cứu Thứ hai, biện pháp định kỳ định kỳ gọi chu kỳ trung bình chu kỳ tuần hoàn tối thiểu giới thiệu để cung cấp cách linh hoạt để đánh giá chu kỳ mẫu Thứ ba, thuật toán hiệu tên PHM (khai thác tập mục lợi ích cao theo chu kỳ) trình bày phát có hiệu tập mục có lợi ích cao có chu kì 2.3.2 Nội dung thuật tốn PHM Thuật tốn PHM thuật tốn dựa danh sách lợi ích, dựa ý tưởng từ thuật toán FHM [10], danh sách lợi ích tập thuộc tính X giải hai giá trị bổ sung: minper(X) maxper(X) Thủ tục PHM đầu vào sở liệu giao tác: input, minutil, minAvg, maxAvg, minPer maxPer Thuật toán quét sở liệu để tính tốn TWU({i}), minper({i}), maxper({i}), |g({i})| cho mục i ∈ I Sau đó, thuật tốn tính giá trị γ = (|D|/maxAvg) -1 sau sử dụng cho tập thường xuyên tỉa sử dụng tính chất 2.2 Sau đó, thuật tốn xác định tập I * tất mục có TWU không nhỏ 14 minutil, chu kỳ tối đa khơng lớn maxPer, xuất khơng γ lần giao tác (các mục khác bị bỏ qua chúng khơng thể phần PHUIs tính chất 1.7, 2.1 2.2) Các giá trị TWU mục sau sử dụng để thiết lập thứ tự toàn phần ≻ mục, thứ tự giá trị TWU tăng dần Sau thực quét sở liệu Trong trình quét sở liệu này, mục giao tác xếp lại theo thứ tự tồn phần ≻, danh sách lợi ích mục I ∈ I* xây dựng cấu trúc tên EUCS xây dựng [10] Cấu trúc thứ hai định nghĩa tập gồm ba ba dạng (a, b, c) ∈ I* x I* x R Một tập ba (a, b, c) TWU({a, b}) = c EUCS thực ma trận tam giác sơ đồ phạm vi hashmaps có đôi dạng (a, b, c) cho c≠0 giữ lại Sau xây dựng EUCS, khám phá tìm kiếm sâu tập bắt đầu cách gọi thủ tục đệ quy Search cách tìm mục rỗng ∅, tập mục đơn I*, 𝛾, minutil, minAvg, minPer, maxPer, cấu trúc EUCS, |D| Thủ tục Search lấy nhập vào tập mục P, phần mở rộng P có dạng Pz có nghĩa Pz có trước cách nối mục z tới P, 𝛾, minutil, minAvg, minPer, maxPer, cấu trúc EUCS, |D| Các thủ tục tìm kiếm thực vịng lặp phần mở rộng Px P Trong vòng này, trung bình chu kỳ Px thu cách chia | D | Bởi số lượng yếu tố danh sách lợi ích Px cộng với Sau đó, khoảng trung bình Px nằm khoảng [minAvg, maxAvg], tổng giá trị iutil danh sách lợi ích Px khơng nhỏ minutil, chu kỳ tối thiểu / 15 tối đa Px không nhỏ / không lớn minPer / maxPer theo giá trị lưu trữ danh sách lợi ích nó, sau Px PHUIs xuất Sau đó, tổng giá trị iutil rutil danh sách lợi ích Px khơng minutil, số lượng mục danh sách lợi ích Px không nhỏ hơn𝛾, maxper (Px) không lớn maxPer, Nó có nghĩa mở rộng Px nên khám phá (theo tính chất 1.6, 2.1 2.2 ) Điều thực cách hợp Px với tất phần mở rộng Py P cho y ≻ x để tạo thành phần mở rộng có dạng Pxy chứa | Px | + mục Danh sách lợi ích Pxy sau xây dựng cách gọi thủ tục Construct, để kết hợp lợi ích giá trị danh sách P, Px Py Sau đó, gọi đệ quy cho thủ tục Search với Pxy thực để tính lợi ích khám phá phần mở rộng Sau đó, gọi đệ quy cho thủ tục Search với Pxy thực để lợi ích khám phá phần mở rộng Thủ tục Search mục đơn lẻ, khám phá đệ quy khơng gian tìm kiếm tập cách nối mục đơn dọn dẹp khơng gian tìm kiếm tính chất 1.6, 2.1 2.2 Do đó, dễ dàng thấy thủ tục xác đầy đủ để khám phá tất PHUIs Hơn nữa, q trình thực PHM, có hai tối ưu hóa bổ sung, mơ tả ngắn gọn Tối ưu Phương pháp ước lượng chu kì trung bình (EAPP) Các thuật tốn PHM tạo cấu trúc gọi EUCS để lưu giữ TWU tất cặp mục xảy sở liệu, cấu trúc sử dụng để tỉa tập Pxy có chứa cặp item {x, y} có TWU thấp minutil (dòng 16 thủ tục Search) Chiến lược EAPP chiến lược sử dụng ý tưởng mục sử dụng chu kỳ trung bình thay lợi ích Trong q trình quét sở liệu lần thứ hai, cấu trúc gọi ESCS tạo để lưu trữ | g({x, y}) | Cho cặp mục {x, y}, dịng thủ tục tìm kiếm sửa đổi thành tập Pxy | g ({x, y}) | nhỏ 𝛾 theo tính chất 2.8 Tối ưu Abandoning List Construction early (ALC) Một chiến lược khác giới thiệu PHM ngừng xây dựng danh sách lợi ích tập điều kiện cụ thể đáp ứng, cho thấy tập khơng thể PHUI Theo tính chất 2.8, tập Pxy khơng thể PHUI, xuất giao tác nhỏ y = (| D / / MaxAvg) - Chiến lược ALC bao gồm sửa đổi thủ tục Construct sau Sửa đổi lần khởi tạo biến max với giá trị 𝛾 Dòng Sửa đổi lần thứ hai dịng sau, danh sách lợi ích Pxy xây dựng cách kiểm tra danh sách lợi Px xuất danh sách lợi ích Py (Dịng 3) Đối với khơng xuất Py, biến max giảm dần Nếu max nhỏ 𝛾, việc xây dựng danh sách lợi ích Pxy bị dừng lại | g(Pxy) | Sẽ khơng lớn 𝛾 Do Pxy khơng phải PHUI theo tính chất 2.8, phần mở rộng bị bỏ qua 2.4 Thuật toán FOSHU 2.4.1 Đặt vấn đề Trong mục này, tác giả trình bày thuật tốn khai thác HOU với lợi nhuận đơn vị âm/dương bán khoảng thời gian [20] Gọi PE tập số nguyên dương đại diện 17 cho khoảng thời gian Mỗi giao tác Tc ∈ D kết hợp với khoảng thời gian pt(Tc) ∈ PE, đại diện cho khoảng thời gian diễn giao tác 2.4.2 Nội dung thuật tốn FOSHU Trong phần này, tác giả trình bày thuật toán FOSHU, dựa vào cấu trúc danh sách lợi ích sử dụng FHM[10] đo giá trị TWU, để xử lý khoảng thời gian mục có lợi nhuận theo đơn vị âm Xử lý khoảng thời gian Thủ tục Thủ tục lấy làm đầu vào sở liệu chuyển tiếp ngưỡng minutil Đầu tiên, thuật toán quét sở liệu để tính tồn TWU mục i, xác định TWU (i) = h∈pi(x) TWU(X, h) TWU({i}, h) cho giai đoạn h Hơn nữa, tập tất khoảng thời gian PE lợi ích pto(h) giai đoạn h ∈ PE tính lần quét sở liệu Sau đó, thuật tốn cố gắng loại bỏ mục đơn lẻ không thuộc tập tính chất lợi ích cao Điều thực cách tính đến (i) cho mục i cách sử dụng pi(i) lợi ích khoảng thời gian thu trước Điều cho phép tạo tập I * chứa tất mục i cho có tồn khoảng thời gian h thỏa mãn TWU({i}, h)/to({i})≥ minutil Sau đó, tất mục khơng có I * bị bỏ qua chúng khơng thể phần tập lợi ích cao bày khoảng thời tính chất 2.9 Điều quan trọng TWU cần phải sử dụng để phân cắt mục đơn thay tổng iutil rutil danh sách lợi ích (tính chất 2.11), chiến lược phân cắt sau định nghĩa phần mở rộng w.r.t mục, giai đoạn này, phần mở rộng 18 chưa xem xét Các giá trị TWU mục sau sử dụng để thiết lập thứ tự toàn phần ≻ tập I *, thứ tự tăng dần giá trị TWU toàn cục Thứ tự sử dụng bớt giảm khơng gian tìm kiếm sử dụng thăm dò sâu khai thác HUI [19, 26, 29] Sau thực quét sở liệu lần thứ hai Trong trình quét sở liệu này, mục giao tác xếp lại theo thứ tự toàn phần ≻ danh sách lợi ích mục i ∈ I* xây dựng Sau xây dựng danh sách lợi ích, khám phá tìm kiếm tập bắt đầu cách áp dụng phương pháp đệ quy tìm tập rỗng ∅, tập I* minutil Thủ tục Search lấy đầu vào (1) tập mục P, (2) phần mở rộng P có dạng Pz có nghĩa Pz có trước cách thêm mục z vào P, (3) minutil Thủ tục Search sau Đối với phần mở rộng Px P, thủ tục tìm kiếm quét danh sách lợi ích Px để tính sumUtil (Px,h) cho khoảng thời gian h Px xuất Đồng thời, tổng lợi ích khoảng thời gian mà Px xuất (to(Px)) tính tốn, tổng lợi ích Px (tương đương với sumlUtil(Px) tính chất 2.13) Sau đó, lợi ích tương dối Px tính ru(Px) = sumlUtil(Px)/to(Px) Nếu ru(Px) < minutil, Px tập mục có lợi ích cao đầu Sau đó, có khoảng thời gian h cho tổng sum/Util(Px, h) + sumRUtil(Px, h))/to(Px) lớn minutil, có nghĩa phần mở rộng Px nên khai phá (theo tính chất 2.20) Thực cách hợp Px với tất phần mở rộng Py P cho y ≻ x để tạo thành phần mở rộng có dạng Pxy chứa | Px | +1 mục Danh sách lợi ích Pxy sau tạo 19 FHM cách sử dụng Thủ tục Contrstruct để nối danh sách lợi ích P, Px Py Thủ tục tương tự FHM [10] khơng cần mơ tả chi tiết thêm Sau đó, thực kiểm tra để xác định Pxy phần mở rộng tập mục giá trị cao theo khoảng thời gian hay không cách sử dụng Thủ tục TWU (dịng 12), dựa tính chất 2.12 Thực cách quét danh sách lợi ích Pxy Để tính TWU(Pxy, h) cho khoảng thời gian h Pxy xuất Nếu TWU(Pxy, h)/pto (h)≥ minutil khoảng thời gian h, sau Pxy thêm vào phần mở rộng Px, tập hợp phần mở rộng Px xem xét để mở rộng thêm với lặp lại đệ quy Search Xử lý lợi nhuận đơn vị âm Để chuyển đổi thuật tốn mơ tả phần trước thành thuật toán mà đầu HOU sử dụng mục âm mục dương, tiến hành thực sửa đổi sau Chúng ta xác định thứ tự toàn phần ≻ cho mục âm nối tiếp mục dương Bằng cách sử dụng thứ tự này, mục dương sử dụng để mở rộng tập trước sử dụng mục âm Điều cho phép xác định tỉ lệ phân cắt Sau đó, tập X, sử dụng kí hiệu up(X) un(X) tham chiếu tương ứng đến tập hợp tất mục âm mục dương X Dựa ý tưởng trên, thuật toán FOSHU thực sửa đổi sau đây: Thứ nhất, tính tốn TWU ban đầu, TWU định nghĩa lại sử dụng để tránh đánh giá thấp lợi ích HOUs chứa mục dương Thứ hai, danh sách lợi ích xác định lại cho mục iputil inutil 20 sử dụng Ngồi ra, giá trị lợi ích mục dương nằm giá trị rutil danh sách lợi ích (như giải thích trước) Thứ ba, thứ tự toàn phần ≻ xác định cho mục âm nối sau mục dương (như giải thích trước) Thứ tư, điều kiện phân cắt dựa tính chất 2.20 mục dương dựa tổng giá trị iutil rutil định nghĩa lại tính chất 2.25 2.5 Kết luận chương Chương luận văn phát biểu tốn khai phá tập mục lợi ích cao trình bày bốn thuật tốn khai phá tập mục lợi ích cao : + FHM: Thuật tốn khai phá tập mục lợi ích cao (FHM) phát tập mục lợi ích cao mà khơng cần tạo ứng viên + FHN: Thuật toán khai phá tập mục lợi ích cao với lợi nhuận âm (FHN) phát tập mục lợi ích cao mà khơng cần tạo ứng viên giới thiệu số chiến lược để xử lý hạng mục lợi ích âm cách hiệu + PHM: Một thuật toán khai thác tập mục lợi ích cao hiệu có tên PHM liệt kê tất tập phổ biến hữu ích cách hiệu lọc lượng lớn chuỗi tuần hồn khơng tuần hồn để tiết lộ tập thuộc tính hữu ích theo chu kỳ mong muốn Mục đích để khám phá nhóm mặt hàng khách hàng mua theo định kỳ tạo lợi nhuận cao + FOSHU: Thuật toán khai thác Tập mục lợi ích cao sử dụng thời gian bán để khai thác tập mục HUI xem xét thời gian bán mặt hàng mặt hàng lợi nhuận đơn vị dương âm 21 Chương - CÀI ĐẶT ỨNG DỤNG THỬ NGHIỆM 3.1 Phát biểu toán Các liệu khai thác từ danh sách hóa đơn bán hàng đưa thơng tin có ích nhằm trợ giúp phận có phân tích hiệu q trình bày hàng (tiếp thị chéo), trình đặt hàng, lưu kho, bày hàng hàng hóa, kế hoạch khuyến mại … 3.2 Thơng tin sở liệu mẫu + Số lượng giao tác: 214 giao tác + Số lượng mã hàng: 597 mục + Bao gồm chương trình giảm giá dẫn tới lợi nhuận 0, lợi nhuận dương lợi nhuận âm 3.3 Lựa chọn công cụ phát triển - Công cụ Ngôn ngữ thực + Hệ điều hành Windows + Chip: Intel(R) Core(TM) i3-311M CPU @ 2.40GHz + Ngôn ngữ Java chạy Net Bean 8.1.1 3.4 Quy trình xây dựng ứng dụng khai phá tập mục lợi ích cao Q trình khai phá liệu thực theo bước sau: Bước thứ nhất: Lựa chọn liệu giao dịch: Lựa chọn khoảng thời gian cần xuất liệu, cửa hàng bán, nhóm hàng Bước thứ hai: Thu thập tiền xử lý liệu: Tại bước tiến hành làm liệu bao gồm thơng tin khơng cần thiết cho q trình sử dụng cho chương trình Xử lý theo định dạng chuẩn Bước thứ ba: Khai phá liệu giao dịch: Sử dụng thuật toán FHM, thuật toán FHN, thuật toán PHM, thuật toán FOSHU Bước thứ tư: Kết thu sử dụng thuật toán: Sử 22 dụng thuật toán FHM, thuật toán FHN, thuật toán PHM, thuật toán FOSHU Bước thứ năm: Đánh giá kết thu khi: Sử dụng thuật toán FHM, thuật toán FHN, thuật toán PHM, thuật toán FOSHU 3.5 Áp dụng khai phá tập mục lợi ích cao 3.5.1 Lựa chọn liệu giao dịch Do tính chất số lượng giao tác lớn (hóa đơn bán lẻ), tác giả sử dụng số liệu từ ngày 01-09-2017 đến ngày 05-09-2017 (04 ngày) thông qua 01 máy bán hàng với thông tin mô tả 3.5.2 Thu thập tiền xử lý liệu Trên liệu thu tiến hành xử lý liệu chọn liệu cho chương trình khai phá Mỗi mặt hàng xuất hàng giao dịch Bước thực xử lý giao dịch dịng đủ thơng tin định dạng cho trình làm đầu vào cho liệu chương trình 3.5.3 Thực chương trình khai phá lợi ích cao Khai phá lợi ích cao FHM 3.5.4 Kết thu sử dụng thuật toán Kết thử nghiệm sử dụng thuật toán FHM: + Khi nhập giá trị tối thiểu ( ví dụ minutil= 590.000) ta thu : 10 tập mục liệt kê lợi nhuận mặt hàng bán với có lợi nhuận ≥ 590.000 Kết thử nghiệm sử dụng thuật toán FHN: + Khi nhập giá trị tối thiểu (ví dụ minutil= 590.000): 10 tập mục liệt kê lợi nhuận mặt hàng bán với có lợi nhuận ≥ 590.000 23 Kết thử nghiệm sử dụng thuật toán PHM: Khi nhập giá trị: minutil = 590.000, minper = 1, maxper = 10000, minavgper = 1, maxavgper = 10000, Kết ta thu được: 10 tập mục có khoảng cách chu kỳ với lợi nhuận ≥ 590.000 Kết thử nghiệm sử dụng thuật toán FOSHU: Khi nhập giá trị: minutil = 0.442 ta thu được: 12 tập mục có tỷ lệ lợi nhuận ≥ minutil = 0.442 3.5.5 Đánh giá kết chương trình Các thuật toán cho kết sau: + Sử dụng thuật tốn FHM FHN: Cho kết 10 nhóm mặt hàng bán với tổng giá trị lợi nhuận lớn hơn: 590.000 + Sử dụng thuật toán FHN: Cho kết 10 nhóm mặt hàng bán với tổng giá trị lợi nhuận lớn hơn: 590.000 + Sử dụng thuật tốn PHM: Cho kết 10 nhóm mặt hàng bán với tổng giá trị lợi nhuận lớn hơn: 590.000 + Sử dụng thuật toán FOSHU: Với tỷ lệ lợi ích tương đối =0.442 Cho kết 10 nhóm mặt hàng bán với tổng giá trị lợi nhuận lớn hơn: 590.000 nhóm mặt hàng có lợi nhuận lớn 580.000 3.6 Kết luận chương Trong chương 3, tiến hành chạy thử nghiệm chương trình với thuật tốn áp dụng thử nghiệm Công ty cổ phần siêu thị VHSC(VIETNAM) sở liệu với mẫu thực tế 24 KẾT LUẬN Những kết luận văn Luận văn tìm hiểu cách tiếp cận khác nhằm tìm hiểu mơ hình tốn với số thuật toán quan trọng khai phá tập mục lợi ích cao sở liệu: thuật tốn FHM, FHN, PHM FOSHU Từ đó, tìm hiểu khả áp dụng vào doanh nghiệp siêu thị, cung cấp thêm thông tin hỗ trợ cho phép người quản lý phân tích lên kế hoạch đặt hàng, dự trữ hàng tồn kho, đảm bảo an toàn cho nhà quản trị minh hoạ ví dụ cụ thể áp dụng thuật toán thử nghiệm vào hệ thống Công ty cổ phần Siêu thị VHSC Hướng nghiên cứu Trên sở trình bày luận văn, học viên tiếp tục tìm hiểu sâu hơn: - Thuật tốn khai thác lợi ích cao sử dụng giai đoạn xử lý, đặc biệt cải tiến việc xử lý liệu thô nhằm tăng thời gian xử lý - Tìm hiểu thêm thuật tốn tập mục lợi ích cao như: Thuật tốn FHM+, FHMFreq, FCHM, HUSRM  Làm thực nghiệm toàn thuật toán liệu thực tế lớn triệu giao tác  Tìm hiểu đánh giá độ tựơng quan kết đạt đựợc so với ý kiến ngựời bán hàng lâu năm phận liên quan  Tìm hiểu thuật tốn khai thác tập có ích cao sở liệu phân tán ... Kết luận chương Chương luận văn phát biểu tốn khai phá tập mục lợi ích cao trình bày bốn thuật tốn khai phá tập mục lợi ích cao : + FHM: Thuật tốn khai phá tập mục lợi ích cao (FHM) phát tập mục. .. lại lợi nhuận, đưa phương pháp khai phá tập mục lợi ích cao phù hợp  Mục tiêu cụ thể:  Tìm hiểu thuật tốn khai phá tập mục lợi ích cao áp dụng vào nhu cầu thực tế Công ty Cổ phần siêu thị VHSC. .. tổng quan khai phá liệu, khái quát khai phá tập mục thường xuyên, khai phá liệu lợi ích cao, định nghĩa toán khai phá tập mục lợi ích cao Chương - Thuật toán khai phá tập mục lợi ích cao: Trình

Ngày đăng: 02/06/2021, 22:08