6.4.3 Truy vấn kết quả
Mỗi một câu truy vấn của các index trong hệ thống thường bao gồm các phần sau:
match query: truy vấn kết quả dựa vào từ khóa tìm kiếm với các trường dữ liệu dạng
text. Đối với trường hợp cho phép tìm kiếm nhiều trường khác nhau, hệ thống sử dụng
multi-match query thay thế.
filter query: lọc kết quả ở các trường nested và không nested dựa trên các kiểu dữ liệu
còn lại.
must_not: lọc kết quả không thỏa mãn điều kiện.
pagination: thông qua from và size (phân trang truyền thống) và search_after (phân
6.5 Hệ thống giới thiệu
Như đã trình bày ở phần Cơ sở lý thuyết, nhóm làm đề tài sử dụng cách tiếp cận là sử dụng giải thuật đề xuất được cung cấp bởi phần mềm mã nguồn mở ActionML có tên là The Universal Recommender để hiện thực tính năng gợi ý. The Universal Recommender có nền tảng là giải thuật Correlated Cross-Occurrence, cho phép lời giới thiệu được học từ nhiều loại sự kiện và hành vi khác nhau của người dùng. Mục này sẽ trình bày kỹ hơn quá trình hiện thực, bao gồm cơng đoạn thử nghiệm và cơng đoạn tích hợp vào hệ thống.
6.5.1 Thử nghiệm
Nhóm làm đề tài sử dụng tập dữ liệu RetailRocket chứa dữ liệu hành vi của người dùng trong một website Ecommerce để tiến hành thử nghiệm và đánh giá chất lượng của ActionML so với một vài giải thuật và mơ hình Giới thiệu khác. Cụ thể, chúng là Alternating Least Square – là một giải thuật trong họ Thừa số hóa ma trận – và Spotlight – một thư viện sử dụng các mơ hình Deep Learning để hiện thực Hệ thống giới thiệu.
Đối với ALS, có rất nhiều thư viện hiện thực giải thuật này nhưng nhóm làm đề tài chọn Implicit vì nó cải biến giải thuật để phù hợp với các tập dữ liệu chứa các phản hồi tiềm ẩn. RetailRocket là một tập dữ liệu như vậy vì thơng tin được lưu trữ khơng phải là một con số đánh giá thể hiện mức độ yêu thích của người dùng mà là các sự kiện thuộc ba nhóm: mua (transaction), xem thơng tin (view) và đưa vào giỏ hàng (add-to-cart). Đối với SpotLight, nhóm làm đề tài lựa chọn mô hình Sequence làm đối tượng kiểm thử. Đây là mô hình
timeseries được xây dựng dựa trên mạng Long Short-term Memory và 1D CNN. Việc lựa
chọn giải thuật và mơ hình thỏa mãn hai yêu cầu sau:
Phải thuộc lớp giải thuật Collaborative Filtering. Điều này là bởi các giải thuật Content- based Filtering khá phụ thuộc vào tiến trình trích xuất đặc trưng, địi hỏi hiểu biết chuyên sâu về lĩnh vực cần đưa ra giới thiệu.
Có khả năng làm việc dữ liệu là phản hồi tiềm ẩn (implicit feedback).