CHƢƠNG 2 LÝ THUYẾT KHAI PHÁ MẪU PHỔ BIẾN VÀ LUẬT KẾT HỢP
2.3. Luật kết hợp trong hệ gợi ý
Trƣớc hết điểm qua những nghiên cứu về hƣớng khai phá luật kết hợp áp dụng cho lĩnh vực gợi ý. Hƣớng tiếp cận khai phá luật kết hợp khá tƣơng đồng với hƣớng lọc cộng tác dựa trên item [6], tuy nhiên ít linh hoạt hơn khi cần đến những dữ liệu rõ ràng nhƣ là transaction - những sự kiện trong một phiên giao dịch của ngƣời dùng. Nhƣng hiệu quả của nó có thể áp dụng ở nhiều trƣờng hợp nhƣ khi thể hiện ở trang web cá nhân, giúp thiết kế giao diện dựa trên những mẫu chuyển hƣớng, tốt hơn nhiều khi sử dụng hệ gợi ý dựa trên kNN (ngƣời láng giềng gần nhất) về cả độ chính xác và phạm vi; áp dụng ARM tìm kiếm từ thông tin ngƣời dùng sự tƣơng quan giữa các item, còn tốt hơn cả những độ đo tƣơng đồng item-item; áp dụng cho hệ gợi ý hội thoại; điều chỉnh minsup cho các luật trong suốt quá trình khai phá, từ cả user và item để tìm ra những luật thích hợp hơn. Cuối cùng, đáng chú ý là Cho và cộng sự [37] đã đƣa ra một kết hợp giữa cây quyết định và ARM cho RS của một trang web bán hàng, họ đã sử dụng ARM để liên kết các sản phẩm liên quan, đƣa ra gợi ý sau khi đã tính toán các luật kết hợp giao nhau dựa theo sở thích của ngƣời dùng. Từ những giao dịch nhƣ lƣợt mua, lƣợt bỏ vào giỏ hàng, lƣợt click liên tiếp họ tìm kiếm những luật khác nhau, chọn theo kinh nghiệm trọng số cho các luật với mỗi loại giao dịch, ví dụ nhƣ đánh trọng số cho mua hàng cao hơn là nhấp chuột để xem.
Xem xét một khía cạnh là đánh giá khi sử dụng luật kết hợp cho bài toán gợi ý. Geyer-schuls và cộng sự [22] trong bài báo đánh giá các thuật toán gợi ý dựa trên các luật kết hợp đơn giản và lý thuyết mua lại, tác giả có đƣa ra một thống kê về vài cách đánh giá tƣơng ứng với 5 bƣớc của quy trình khai phá tri thức (KDD – Knowledge Discovery in Databases) (5 bƣớc bao gồm: chọn dữ liệu; tiền xử lý; khai phá dữ liệu; giải thích và đánh giá; biểu diễn) nhƣ là: 1) đánh giá tính có ích của hệ gợi ý phục vụ cho những bên liên quan nhƣ ngƣời dùng, ngƣời cung cấp dịch vụ, bên bán hàng… đƣợc triển khai ở cả 5 bƣớc trong quy trình; 2) đánh giá việc khai phá sử dụng web ở ba bƣớc đầu có thể là: chọn đúng hành vi của ngƣời dùng khi thu thập nhƣ là lọc hành vi do robot web tự động, dò các phiên truy cập,… thông qua các thống kê khi tiền xử
lý; 3) đánh giá các thuật toán khai phá thông qua hiệu suất ví dụ nhƣ với tập dữ liệu huấn luyện và kiểm tra; 4) đánh giá việc biểu diễn gợi ý cho ngƣới dùng là một vấn đề trong HCI (human-computer interface); 5) đánh giá hiệu suất của thuật toán luật kết hợp và thuật toán dựa trên lý thuyết mua lặp lại, tƣơng ứng với bƣớc khai phá và đánh giá trong quy trình: dựa trên việc so sánh những luật tìm đƣợc phù hợp với khái niệm „gợi ý hữu ích‟ cho ngƣời dùng (đƣợc thu thập qua khảo sát ngƣời dùng).
Trong cuốn „Introduction to Data Mining‟, chƣơng 6, của Tan và cộng sự [38] có đƣa ra rất nhiều độ đo giúp đánh giá luật, cả độ đo đối xứng và không đối xứng… trong quá trình thực nghiệm luận văn sẽ lựa chọn ra một vài độ đo tƣơng ứng phù hợp để khai phá và đánh giá luật, những khái niệm cụ thể của từng loại luật đƣợc mô tả ở mục 2.1 trên.