1. Phát biểu bài toán
Siêu thị Metro trực thuộc Công ty TNHH Metro CASH-Metro Việt Nam. Siêu thị kinh doanh tất cả các mặt hàng tiêu dùng, sản phẩm công nghiệp và cả
các thiết bị công nghệ cao, … phục vụ nhu cầu đời sống hàng ngày và hoạt động sản xuất kinh doanh.
Siêu thị có các bộ phận sau: 1. Bộ phận nhập hàng. 2. Bộ phận kho hàng. 3. Bộ phận hướng dẫn viên. 4. Bộ phận thu ngân. 5. Bộ phận kiểm soát. 6. Bộ phận dịch vụ.
Người tiêu dùng muốn trở thành hội viên khách hàng trong Metro cần phải có giấy phép đăng ký kinh doanh bất cứ một lĩnh vực hay dịch vụ nào đó. Khi mang giấy kinh doanh và chứng minh nhân dân đến, nhân viên trong siêu thị sẽ cấp cho khách hàng một tấm thẻ, trên đó lưu các thông tin: Số hiệu thẻ, tên hội viên, lĩnh vực kinh doanh và ảnh. Các thông tin về khách hàng sẽ được lưu vào trong CSDL Hội viên (khách hàng).
Khi khách hàng muốn vào siêu thị mua hàng hoá hoặc tham quan, khách hàng phải xuất trình thẻ của mình cho kiểm soát viên. Kiểm soát viên sẽ đưa thẻ vào máy đọc thẻ nhận dạng hội viên. Do vậy hệ thống quản lý trong siêu thị hoàn toàn có thể kiểm soát lượng hội viên ra vào. Trường hợp có người đi kèm thì khách hàng phải đảm bảo là đi cùng đoàn.
Khách hàng có thể tự do lựa chọn mặt hàng cần mua theo tên hàng hoá, đơn giá đã có in sẵn trên các mặt hàng và đặt vào trong giỏ hàng (xe đẩy). Có thắc mắc gì có thể hỏi trực tiếp nhân viên quầy.
Khi chọn xong hàng hoá, khách hàng đẩy xe đến bộ phận thu ngân. Tại đây khách hàng xuất trình thẻ cho nhân viên thu ngân đưa vào máy đọc nhận dạng. Các hàng hoá được cập nhật vào hệ thống tính toán thông qua máy đọc mã vạch. Các tính toán tổng cộng trên hoá đơn được thực hiện tự động và được lưu vào trong CSDL.
Với cách quản lý khách hàng như trên, siêu thị hoàn toàn có các tổng kết đánh giá về các thông tin như: sức mua của khách hàng (theo nghề nghiệp, theo địa bàn, theo thời gian, …). Từ đó có thể có các chiến lược kinh doanh cho phù hợp.
Bài toán phát hiện luật kết hợp trong mua bán các mặt hàng tại siêu thị
Với số lượng khách hàng vào mua sắm rất lớn, bình quân 4.000 ÷10.000
lượt/ ngày. CSDL hoá đơn của Metro tăng lên rất nhanh. Với số tiền thanh toán
Trên hoá đơn có các thông tin sau: Số hoá đơn, mã số khách hàng, tên khách hàng, địa chỉ, người đại diện, ngày, giờ, mã số nhân viên thu ngân, quầy, số trang hoá đơn.
Các thông tin tiếp theo của hoá đơn có liên quan đến hàng hoá như: mã hàng hoá, tên hàng hoá, số lượng đóng gói, đơn vị tính, số lượng, đơn giá, giá đóng gói, giá trước thuế VAT, % thuế VAT, tiền thuế VAT, thành tiền đã có thuế VAT.
Cuối hoá đơn có các thông tin tổng hợp như: tổng tiền phải thanh toán có thuế VAT, tổng tiền thuế VAT, số tiền thanh toán, tiền trong phiếu quà tặng, tiền khách hàng trả, tiền trả lại khách.
Từ các dữ liệu thu được, các nhà quản lý rất cần có các thông tin thống kê, dự đoán sau:
Sức mua sắm của khách hàng theo nghề nghiệp, ví dụ: công ty, cửa hàng, nhà máy xí nghiệp, …
Sức mua sắm của khách hàng theo khu vực dân cư, ví dụ: địa bàn thành phố, địa bàn nông thôn, khách hàng ngoại tỉnh, …
Chu kỳ mua sắm theo thời gian, ví dụ: vào các ngày nghỉ, ngày lễ sức mua tăng hơn các ngày khác.
Sự kết hợp của các mặt hàng khác nhau trong cùng một lần mua hàng tại siêu thị
v..vv…
Trên cơ sở đó, các nhà quản lý siêu thị sẽ có kế phương án, kế hoạch như: Tuyển dụng, đào tạo nhân viên … để đáp ứng nhu cầu của khách hàng. Phân công công việc hợp lý cho nhân viên.
Lên kế hoạch liên kết hợp tác với các khách hàng (vì khách hàng của siêu thị cũng chính là nhà kinh doanh)
Có kế hoạch cung ứng các loại mặt hàng phù hợp với nhu cầu của khách hàng theo mức sống, địa bàn dân cư, theo chu kỳ thời gian ví dụ: vào dịp lễ tết, nhu cầu về thực phẩm, thời trang sẽ tăng .v..v…
2. Phân tích chương trình
Muốn có được các thông tin trên, nhưng do dung lượng quá lớn, nên dùng các phương pháp thống kê cổ điển thì sẽ không thể kết xuất ra được. Do vậy cần dùng các kỹ thuật khai phá dữ liệu – sử dụng luật kết hợp.
Trong chương trình, tôi chỉ quan tâm đến các dữ liệu thuộc CSDL bán hàng trong siêu thị, đặc biệt là bảng LoaiHang. Sử dụng thuật toán Apriori và Fp- growth tìm ra sự kết hợp giữa các mặt hàng khác nhau trong một giao dịch của khách hàng khi đến siêu thị.
Các giai đoạn thực hiện của hệ thống ứng dụng luật kết hợp áp dụng giải quyết bài toán trên:
Quá trình thực hiện ứng dụng khai phá luật kết hợp
Trong đó:
Giai đoạn tiền xử lý: Giai đoạn này nhằm thiết lập các đối tượng dữ liệu từ dữ liệu trong CSDL khách hàng. Dữ liệu được tiền xử lý đưa về dạng text, các thuộc tính (chính là các item) được ánh xạ bởi các số tự nhiên (tức là đánh số thứ tự các thuộc tính từ 1 đến hết). Mỗi dòng (bản ghi) được mô tả thành một dòng text như sau: liệt kê số thứ tự của các thuộc tính (item) cách nhau một dấu cách (không liệt kê các thuộc tính mà liệt kê số thứ tự của nó). Tìm tập mục phổ biến và luật kết hợp dựa trên các số thứ tự này, kết quả được ánh xạ ngược trở lại tên các mục.
Giai đoạn khai phá: Đây là quá trình thực hiện các thuật toán (Apriori, Fp- growth) áp dụng đối với dữ liệu cung cấp sau giai đoạn tiền xử lý
Dữ liệu khách hàng Tiền xử lý dữ liệu Thuật toán Apriori, Fp- growth Các mẫu dữ liệu khai phá Khai phá luật kết hợp
KẾT LUẬN
Tiểu luận đã trình bày tổng quan và các nét đặc trưng nhất trong lĩnh vực Data Mining bao gồm các vấn đề cần khám phá tri thức, các hướng tiếp cận và nghiên cứu tiểu biểu, trong đó phát hiện luật kết hợp là một phương pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng như trong thực tiễn. Đây là chủ đề trọng tâm cho nội dung của tiểu luận.
Về mặt lý thuyết, khai phá tri thức bao gồm các bước: Hình thành, xác định và định nghĩa bài toán; thu thập và tiền xử lý dữ liệu; khai phá dữ liệu, rút ra các tri thức; sử dụng các tri thức phát hiện được.
Về thuật toán khai phá tri thức, tiểu luận trình bày một số thuật toán và minh hoạ một số thuật toán kinh điển về phát hiện tập chỉ báo phổ biến và khai phá luật kết hợp, như: Apriori, FP-growth.
Trong quá trình thực hiện tiểu luận, chúng tôi đã cố gắng tập trung tìm hiểu và tham khảo các tài liệu liên quan. Tuy nhiên, với thời gian và trình độ có hạn nên không tránh khỏi những hạn chế và thiếu sót. Chúng tôi rất mong được sự nhận xét và góp ý của thầy TS. Trương Công Tuấn và bạn bè cùng lớp để tiểu luận của nhóm hoàn thiện hơn.
TÀI LIỆU THAM KHẢO:
1. Pieter Adriaans - Dolf Zantinge, DATA MINING, Addison-Wesley -1988.
2. Trần Đức Quang. Nguyên lý các hệ Cơ sở dữ liệu và Cơ sở tri thức. Tập 3 (biên dịch từ bản gốc của Jeffrey D. Ullman). NXB Thống kê, 2000.
3. Hoàng Kiếm, Đỗ Văn Nhơn, Đỗ Phúc. Giáo trình các hệ cơ sở tri thức. NXB Đại học Quốc gia TP. Hồ Chí Minh, 2002.