Cập nhật dữ liệu bằng Update-by-query API- 123docz.net

Cập nhật dữ liệu bằng Update-by-query API

6.4.3 Truy vấn kết quả

Mỗi một câu truy vấn của các index trong hệ thống thường bao gồm các phần sau:

 match query: truy vấn kết quả dựa vào từ khóa tìm kiếm với các trường dữ liệu dạng

text. Đối với trường hợp cho phép tìm kiếm nhiều trường khác nhau, hệ thống sử dụng

multi-match query thay thế.

 filter query: lọc kết quả ở các trường nested và không nested dựa trên các kiểu dữ liệu

còn lại.

 must_not: lọc kết quả không thỏa mãn điều kiện.

 pagination: thông qua from và size (phân trang truyền thống) và search_after (phân

6.5 Hệ thống giới thiệu

Như đã trình bày ở phần Cơ sở lý thuyết, nhóm làm đề tài sử dụng cách tiếp cận là sử dụng giải thuật đề xuất được cung cấp bởi phần mềm mã nguồn mở ActionML có tên là The Universal Recommender để hiện thực tính năng gợi ý. The Universal Recommender có nền tảng là giải thuật Correlated Cross-Occurrence, cho phép lời giới thiệu được học từ nhiều loại sự kiện và hành vi khác nhau của người dùng. Mục này sẽ trình bày kỹ hơn quá trình hiện thực, bao gồm cơng đoạn thử nghiệm và cơng đoạn tích hợp vào hệ thống.

6.5.1 Thử nghiệm

Nhóm làm đề tài sử dụng tập dữ liệu RetailRocket chứa dữ liệu hành vi của người dùng trong một website Ecommerce để tiến hành thử nghiệm và đánh giá chất lượng của ActionML so với một vài giải thuật và mơ hình Giới thiệu khác. Cụ thể, chúng là Alternating Least Square – là một giải thuật trong họ Thừa số hóa ma trận – và Spotlight – một thư viện sử dụng các mơ hình Deep Learning để hiện thực Hệ thống giới thiệu.

Đối với ALS, có rất nhiều thư viện hiện thực giải thuật này nhưng nhóm làm đề tài chọn Implicit vì nó cải biến giải thuật để phù hợp với các tập dữ liệu chứa các phản hồi tiềm ẩn. RetailRocket là một tập dữ liệu như vậy vì thơng tin được lưu trữ khơng phải là một con số đánh giá thể hiện mức độ yêu thích của người dùng mà là các sự kiện thuộc ba nhóm: mua (transaction), xem thơng tin (view) và đưa vào giỏ hàng (add-to-cart). Đối với SpotLight, nhóm làm đề tài lựa chọn mô hình Sequence làm đối tượng kiểm thử. Đây là mô hình

timeseries được xây dựng dựa trên mạng Long Short-term Memory và 1D CNN. Việc lựa

chọn giải thuật và mơ hình thỏa mãn hai yêu cầu sau:

 Phải thuộc lớp giải thuật Collaborative Filtering. Điều này là bởi các giải thuật Content- based Filtering khá phụ thuộc vào tiến trình trích xuất đặc trưng, địi hỏi hiểu biết chuyên sâu về lĩnh vực cần đưa ra giới thiệu.

 Có khả năng làm việc dữ liệu là phản hồi tiềm ẩn (implicit feedback).

Một phần của tài liệu Xây dựng hệ quản trị đào tạo tích hợp mạng xã hội (Trang 136 - 137)

Cập nhật dữ liệu bằng Update-by-query API

Minh họa kỹ thuật đánh index ngược

Tìm kiếm theo tương đồng ngữ nghĩa