Hệ tư vấn là hệ thống được thiết kế để hướng người dùng đến những đối tượng quan tâm, yêu thích, khi lượng thông tin quá lớn vượt quá khả năng xử lý của người dùng. Bên cạnh những thông tin phổ biến (người dùng, sản phẩm, đánh giá của người dùng với sản phẩm) được khai thác thường xuyên trong hệ tư vấn, một trong những yếu tố quan trọng ảnh hưởng tới việc ra quyết định trong hệ tư vấn được đặc biệt quan tâm nghiên cứu trong những năm gần đây, đó là thông tin ngữ cảnh sử dụng sản phẩm của người dùng.
Đỗ Thị Liên MỘT PHƯƠNG PHÁP LỌC TRƯỚC THEO NGỮ CẢNH CHO HỆ TƯ VẤN Đỗ Thị Liên Học viện Cơng nghệ Bưu Viễn thơng Tóm tắt: Hệ tư vấn hệ thống thiết kế để hướng người dùng đến đối tượng quan tâm, yêu thích, lượng thông tin lớn vượt khả xử lý người dùng Bên cạnh thông tin phổ biến (người dùng, sản phẩm, đánh giá người dùng với sản phẩm) khai thác thường xuyên hệ tư vấn, yếu tố quan trọng ảnh hưởng tới việc định hệ tư vấn đặc biệt quan tâm nghiên cứu năm gần đây, thơng tin ngữ cảnh sử dụng sản phẩm người dùng Mặc dù việc tích hợp ngữ cảnh vào hệ tư vấn chứng minh giúp nâng cao đáng kể chất lượng tư vấn sản phẩm tới người dùng, nhiên khó khăn điển hình gặp phải hệ tư vấn dựa vào ngữ cảnh lúc làm để tích hợp thông tin ngữ cảnh vấn đề liệu thưa, điều ảnh hưởng trực tiếp tới chất lượng tư vấn Trong báo này, tác giả đề xuất phương pháp lọc trước theo ngữ cảnh cho hệ tư vấn cho phép tích hợp đầy đủ thơng tin ngữ cảnh giải hiệu vấn đề liệu thưa Trong đó, việc tích hợp ngữ cảnh thực thủ tục phân tách sản phẩm theo ngữ cảnh vấn đề liệu thưa giải qua q trình huấn luyện theo mơ hình đồng huấn luyện cho toán phân lớp lọc cộng tác Kết thực nghiệm số liệu thực cho thấy phương pháp đề xuất cải thiện đáng kể chất lượng dự đoán so với phương pháp tư vấn dựa vào ngữ cảnh sở trước Từ khóa: Hệ tư vấn dựa vào ngữ cảnh (Context-aware recommender system - CARS); Lọc cộng tác dựa vào ngữ cảnh (Context-aware collaborative filtering - CACF); Ngữ cảnh (Context); Lọc trước theo ngữ cảnh (Contextual pre-filtering); Phân tách sản phẩm theo ngữ cảnh (Item splitting); Mơ hình đồng huấn luyện (Co-training model) I MỞ ĐẦU Hệ tư vấn (Recommender System) xem hệ thống lọc tích cực, có chức hỗ trợ đưa định, nhằm mục đích cung cấp cho người sử dụng gợi ý sản phẩm phù hợp với sở thích riêng người Các nghiên cứu việc xây dựng hệ tư vấn truyền thống trước chủ yếu tập trung sử dụng thông tin người dùng, sản phẩm đánh giá người dùng với sản phẩm việc đưa gợi ý Bài toán tư vấn truyền thống biểu diễn dựa ma trận đánh giá hai chiều sau: 𝑅𝑜 : 𝑈𝑠𝑒𝑟 × 𝐼𝑡𝑒𝑚 → 𝑅𝑎𝑡𝑖𝑛𝑔 (1) Để giải toán tư vấn truyền thống, nghiên cứu có tiếp cận theo ba hướng là: lọc cộng tác, lọc theo nội dung lọc kết hợp [1] Tuy nhiên thực tế, đánh giá người dùng không cố định, mà thay đổi theo ngữ cảnh bên ngồi Ví dụ người trời nóng thích ăn kem, trời lạnh lại thích ăn lẩu Hoặc phim trời mưa thích Tác giả liên hệ: Đỗ Thị Liên Email: liendt@ptit.edu.vn Đến tòa soạn: 10/2020, chỉnh sửa: 11/2020 , chấp nhận đăng: 12/2020 SOÁ 04A (CS.01) 2020 xem cịn trời khơ có lại khơng thích Do việc xem xét kết hợp thơng tin ngữ cảnh vào hệ tư vấn chủ đề quan tâm nghiên cứu năm gần Theo [2]: “Thông tin ngữ cảnh thơng tin mơ tả hồn cảnh thực thể Thực thể người, vật đối tượng có liên quan tới tương tác người dùng ứng dụng, bao gồm thân người dùng ứng dụng đó” Chẳng hạn hệ tư vấn du lịch, yếu tố ngữ cảnh thời gian (buổi ngày, thời gian tuần, mùa), bạn đồng hành (một mình, gia đình, bạn bè) Hệ tư vấn đóng vai trị ghi nhớ lại sở thích người dùng theo ngữ cảnh để đưa gợi ý xác Ví dụ số hệ tư vấn dựa ngữ cảnh hệ tư vấn phim âm nhạc [3], tư vấn địa điểm yêu thích [4], thương mại điện tử [5],…Khi đó, tốn tư vấn theo ngữ cảnh biểu diễn dựa ma trận đánh giá đa chiều (Multidimensional matrix) sau: 𝑅1 : 𝑈𝑠𝑒𝑟 × 𝐼𝑡𝑒𝑚 × 𝐶𝑜𝑛𝑡𝑒𝑥𝑡 → 𝑅𝑎𝑡𝑖𝑛𝑔 (2) Để giải toán tư vấn theo ngữ cảnh, có hướng tiếp cận điển hình biết đến là: Lọc trước theo ngữ cảnh (Contextual Prefiltering), lọc sau theo ngữ cảnh (Contextual Postfiltering) mơ hình hóa ngữ cảnh (Contextual Modeling) [2][6] Trong đó, lọc trước ngữ cảnh sử dụng thông tin ngữ cảnh để lọc tập liệu ban đầu nhằm giữ lại liệu phù hợp với ngữ cảnh yêu cầu, liệu lọc học phương pháp tư vấn truyền thống Trái ngược với hướng lọc trước theo ngữ cảnh, lọc sau theo ngữ cảnh sử dụng phương pháp tư vấn truyền thống để học liệu, kết dự đoán thu lọc lại lần ngữ cảnh thời nhằm thu kết tư vấn cuối Đối với hai hướng tiếp cận lọc trước theo ngữ cảnh lọc sau theo ngữ cảnh thơng tin ngữ cảnh khơng tích hợp q trình huấn luyện Một hướng tiếp cận thứ ba cho phép tích hợp trực tiếp ngữ cảnh vào trình huấn luyện tư vấn mơ hình hóa ngữ cảnh Theo hướng tiếp cận thứ ba thơng tin ngữ cảnh, người dùng sản phẩm biểu diễn trực tiếp mơ hình, ma trận đánh giá đa chiều sử dụng trực tiếp cho trình huấn luyện tư vấn Căn vào kết thực nghiệm nhiều nghiên cứu phương pháp có ưu nhược điểm riêng, khơng có phương pháp tốt cho trường hợp liệu, việc lựa chọn phương pháp phụ thuộc vào hiệu cho liệu toán nghiệp vụ khác [7], hai hướng tiếp cận lọc trước theo ngữ cảnh mô hình hóa ngữ cảnh thu hút quan tâm đặc biệt cộng đồng nghiên cứu hệ tư vấn theo ngữ cảnh, với số lượng báo cơng bố lớn hướng tiếp cận cịn lại chứng minh cho hiệu tư vấn cao nhiều trường hợp Mặc dù vậy, số vấn đề cịn tồn với phương pháp thuộc hướng tiếp cận TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 121 MỘT PHƯƠNG PHÁP LỌC TRƯỚC THEO NGỮ CẢNH CHO HỆ TƯ VẤN lọc trước ngữ cảnh mơ hình hóa ngữ cảnh vấn đề liệu thưa Ngồi việc tích hợp thơng tin ngữ cảnh vào trình huấn luyện tư vấn khiến cho phương pháp mơ hình hóa ngữ cảnh gặp phải vấn đề tăng độ phức tạp tính tốn số chiều liệu tăng lên Nhằm phát huy tính đơn giản cài đặt tận dụng phương pháp tư vấn truyền thống có, báo tác giả tiếp cận phương pháp lọc trước theo ngữ cảnh đối tượng nghiên cứu Theo hướng này, có số nghiên cứu điển hình như: phương pháp phân tách sản phẩm theo ngữ cảnh (Item splitting) đề xuất Baltrunas Ricci[8], phương pháp phân cụm người dùng sản phẩm dựa điều kiện ngữ cảnh [9], phương pháp thu giảm số chiều nhằm giữ lại tập giữ liệu tập nhỏ ngữ cảnh quan trọng [10] Theo đó, phương pháp phân tách sản phẩm theo ngữ cảnh sử dụng chiều ngữ cảnh để phân tách sản phẩm ban đầu thành sản phẩm giả lập, khiến có nhiều thơng tin từ chiều ngữ cảnh khác không khai thác triệt để vào trình tư vấn sau Phương pháp phân cụm theo ngữ cảnh gặp vấn đề cần thay đổi theo tập liệu khác nhau, dẫn tới khó khăn việc kết hợp kết tư vấn sau Phương pháp thu giảm số chiều gặp vấn đề bỏ qua thơng tin hữu ích từ chiều ngữ cảnh khác phục vụ cho trình huấn luyện liệu Để giảm thiểu hạn chế nêu trên, tác giả đề xuất phương pháp tư vấn cộng tác theo ngữ cảnh thuộc hướng tiếp cận lọc trước ngữ cảnh nhằm giải hạn chế cịn tồn phổ biến, tích hợp đầy đủ thông tin ngữ cảnh giải hiệu vấn đề liệu thưa hệ tư vấn theo ngữ cảnh Cụ thể, tác giả đề xuất sử dụng phương pháp phân tách sản phẩm theo ngữ cảnh cải tiến nhằm khắc phục hạn chế nêu phương pháp phân tách sản phẩm theo ngữ cảnh ngun thủy, cho phép tích hợp đầy đủ thơng tin ngữ cảnh việc chuyển hóa sản phẩm ban đầu thành sản phẩm giả lập Tuy nhiên áp dụng thủ tục phân tách sản phẩm theo ngữ cảnh cải tiến lên ma trận đánh giá đa chiều 𝑅1 , với việc giới thiệu sản phẩm giả lập, khiến ma trận đánh giá hai chiều 𝑅𝑜 thu thưa thớt nữa, điều giải qua trình học liệu đánh giá theo mơ hình đồng huấn luyện cho toán phân lớp lọc cộng tác Đồng huấn luyện phương pháp học bán giám sát điển hình sử dụng để học từ đánh giá biết chưa biết ma trận đánh giá để đưa dự đốn, từ giải hiệu vấn đề liệu thưa ma trận đánh giá, giúp nâng cao chất lượng tư vấn Kết thực nghiệm số liệu thực cho thấy phương pháp đề xuất cải thiện đáng kể chất lượng dự đoán so với phương pháp tư vấn dựa vào ngữ cảnh sở trước Phương pháp đề xuất đánh giá đơn giản cài đặt tận dụng phương pháp tư vấn truyền thống có Để trọng tâm vào phương pháp đề xuất, Mục II tác giả trình bày nghiên cứu liên quan Tiếp đến phương pháp đề xuất Mục III Mục IV trình bày phương pháp thực nghiệm đánh giá Mục V nêu kết luận hướng phát triển thời gian tới II CÁC NGHIÊN CỨU LIÊN QUAN Việc khai thác thông tin ngữ cảnh hệ tư vấn đề cập nghiên cứu Adomavicius and Tuzhilin [1], theo liệu huấn luyện biểu SOÁ 04A (CS.01) 2020 diễn từ kết hợp người dùng, sản phẩm chiều ngữ cảnh tương ứng Trên sở đó, có nhiều cơng trình nghiên cứu liên quan khác cơng bố sau nhằm giải vấn đề khác hệ tư vấn theo ngữ cảnh, tập trung vào cải tiến phương pháp tư vấn theo ngữ cảnh Các phương pháp đưa để giải toán tư vấn theo ngữ cảnh thuộc ba hướng tiếp cận: (i) lọc trước ngữ cảnh, (ii) lọc sau ngữ cảnh (iii) mơ hình hóa ngữ cảnh [2][6] Về bản, phương pháp tư vấn theo ngữ cảnh thuộc hướng lọc trước ngữ cảnh sử dụng thông tin ngữ cảnh để lọc tập liệu ban đầu nhằm giữ lại liệu phù hợp với ngữ cảnh yêu cầu.Trong đó, phân tách sản phẩm theo ngữ cảnh (Item splitting) [8] phương pháp điển hình thuộc hướng tiếp cận đánh giá cho hiệu tư vấn tương đối tốt nhiều tập liệu Phương pháp thực tách sản phẩm tập liệu ban đầu thành sản phẩm giả lập Trong đó, sản phẩm giả lập tạo từ kết hợp sản phẩm ban đầu với tình ngữ cảnh cụ thể Tập liệu lọc dùng để huấn luyện tư vấn Quá trình huấn luyện tư vấn cho hệ tư vấn theo ngữ cảnh sau sử dụng trực tiếp phương pháp lọc thông tin áp dụng cho hệ tư vấn truyền thống Ví dụ số phương pháp lọc cộng tác UserKNN, ItemKNN, Matrix Factorization, SLIM…[2][6] áp dụng trực tiếp sau bước lọc trước ngữ cảnh để sinh sản phẩm dự đoán cho người dùng tình ngữ cảnh cụ thể Tương tự thế, phân tách người dùng theo ngữ cảnh (User splitting), phân tách người dùng sản phẩm theo ngữ cảnh (UI splitting) phương pháp đưa thuộc hướng có chế hoạt động tương tự [11] Trái ngược với hướng lọc trước ngữ cảnh, lọc sau ngữ cảnh sử dụng toàn ma trận đánh giá loại bỏ chiều ngữ cảnh để huấn luyện tư vấn Kết tư vấn lọc lại lần để thu kết tư vấn cuối sản phẩm chưa người dùng đánh giá tình ngữ cảnh cụ thể Như phương pháp tư vấn theo ngữ cảnh thuộc hướng lọc sau ngữ cảnh áp dụng phương pháp tư vấn truyền thống (i) Hướng tiếp cận thứ ba mơ hình hóa ngữ cảnh Theo hướng thông tin ngữ cảnh, người dùng sản phẩm biểu diễn trực tiếp mơ hình Khi ma trận đánh giá đa chiều sử dụng trực tiếp cho trình huấn luyện tư vấn Với hướng tiếp cận này, số phương pháp mơ hình hóa ngữ cảnh đưa như: Mơ hình hóa ngữ cảnh độc lập Tensor Decomposition [12] mơ hình hóa ngữ cảnh phụ thuộc [13][14] Thực nghiệm cho thấy phương pháp mơ hình hóa ngữ cảnh phụ thuộc cho kết tốt phương pháp mơ hình hóa ngữ cảnh độc lập [14] Tuy nhiên vấn đề đặt với phương pháp mơ hình hóa ngữ cảnh phụ thuộc tích hợp ngữ cảnh vào hệ tư vấn dựa giải thuật tư vấn truyền thống Matrix Factorization, SLIM…là vấn đề liệu thưa khả mở rộng Ngồi phương pháp mơ hình hóa ngữ cảnh đánh giá có độ phức tạp lớn phương pháp thuộc hướng lọc trước sau theo ngữ cảnh, đặc biệt số chiều ngữ cảnh tăng lên TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 122 Đỗ Thị Liên Trong báo này, tác giả tiếp cận nghiên cứu đề xuất phương pháp tư vấn theo ngữ cảnh mới, cụ thể phương pháp tư vấn thuộc hướng lọc trước theo ngữ cảnh Trong đề xuất mình, tác giả tiếp cận kết hợp thủ tục phân tách sản phẩm theo ngữ cảnh cải tiến với mơ hình đồng huấn luyện cho lọc cộng tác Khác với việc sử dụng chiều ngữ cảnh để phân tách sản phẩm ban đầu thành sản phẩm giả lập không cho phép khai thác triệt để thông tin từ chiều ngữ cảnh lại, thủ tục phân tách sản phẩm theo ngữ cảnh cải tiến kết hợp sử dụng tất chiều ngữ cảnh để phân tách sản phẩm ban đầu thành sản phẩm giả lập, điều giúp tích hợp đầy đủ thơng tin ngữ cảnh vào q trình tư vấn Việc giới thiệu sản phẩm giả lập đồng thời chuyển hóa ma trận đánh giá đa chiều thành ma trận đánh giá hai chiều Tuy nhiên, thân ma trận đánh giá đa chiều ban đầu thưa chuyển hóa thành ma trận đánh giá hai chiều trở lên thưa thớt Để giải vấn đề này, tác giả tiếp cận học liệu đánh giá cho lọc cộng tác mơ hình đồng huấn luyện, phương pháp điển hình thuộc hướng học bán giám sát cho toán phân lớp, nhằm học từ đánh giá biết chưa biết ma trận đánh giá, từ giải hiệu vấn đề liệu thưa ma trận đánh giá, giúp nâng cao chất lượng tư vấn cho hệ tư vấn theo ngữ cảnh III PHƯƠNG PHÁP ĐỀ XUẤT Về phương pháp đề xuất thực cách kết hợp hai phương pháp: 1) Lọc trước theo ngữ cảnh; 2) Lọc cộng tác đồng huấn luyện Sự kết hợp hai phương pháp phương pháp đề xuất thể qua ba bước: 1) Phân tách sản phẩm theo ngữ cảnh; 2) Học liệu mô hình đồng huấn luyện; 3) Sinh tư vấn Ba bước kết hợp với khung đề xuất triển khai phương pháp lọc trước theo ngữ cảnh dựa vào đồng huấn luyện cho hệ tư vấn theo ngữ cảnh Hình Phân tách sản phẩm theo ngữ cảnh U U C T P Đồng huấn luyện Danh sách Top-N sản phẩm tư vấn Mơ hình học theo người dùng Ma trận đánh giá R cập nhật đánh giá dự đoán Ma trận đánh giá R cập nhật đánh giá dự đốn Mơ hình học theo sản phẩm Sinh tư vấn Ma trận đánh giá R tích hợp đầy đủ đánh giá dự đốn Hình Bộ khung triển khai phương pháp lọc trước theo ngữ cảnh dựa vào đồng huấn luyện A Phân tách sản phẩm theo ngữ cảnh Thơng tin đầu vào cho tốn tư vấn theo ngữ cảnh gồm có: Tập hợp hữu hạn gồm 𝑁 người dùng 𝑈 = {𝑢1 , 𝑢1 , … , 𝑢𝑁 }, 𝑀 sản phẩm 𝑃 = {𝑝1 , 𝑝2 , … , 𝑝𝑀 } K chiều ngữ cảnh 𝐶1 , 𝐶2 , … , 𝐶𝐾 , chiều ngữ cảnh có tương ứng 𝑁𝑐1 , 𝑁𝑐2 , … , 𝑁𝑐𝐾 điều kiện ngữ cảnh Từ thông tin đầu vào trên, việc phân tách sản phẩm theo ngữ cảnh chuyển hóa sản phẩm ban đầu theo ngữ cảnh thành sản phẩm giả lập Mỗi sản phẩm giả lập tạo từ SOÁ 04A (CS.01) 2020 kết hợp sản phẩm ban đầu với tình ngữ cảnh cụ thể, thủ tục gọi “Item Splitting” [8] Thủ tục “Item Splitting” trước sử dụng chiều ngữ cảnh để phân tách sản phẩm theo ngữ cảnh, việc chọn chiều ngữ cảnh dựa vào độ đo thống kê, độ lợi thông tin (Information gain) [3][11] Điều nhiều trường hợp khiến cho nhiều thông tin từ chiều ngữ cảnh khác không khai thác triệt để vào trình tư vấn sau Từ lập luận đưa trên, tác giả đề xuất phương pháp phân tách sản phẩm theo ngữ cảnh cải tiến nhằm khắc phục hạn chế nêu phương pháp phân tách sản phẩm theo ngữ cảnh nguyên thủy Phương pháp phân tách sản phẩm theo ngữ cảnh cải tiến cho phép tích hợp đầy đủ thơng tin ngữ cảnh việc chuyển hóa sản phẩm ban đầu thành sản phẩm giả lập Các bước thực cụ thể sau: • Bước Tạo chiều ngữ cảnh 𝐶 đại diện cho 𝐾 chiều ngữ cảnh 𝐶1 , 𝐶2 , … , 𝐶𝐾 cách lấy tích Đề-các tất chiều ngữ cảnh Khi đó, điều kiện ngữ cảnh 𝐶 kết hợp điều kiện ngữ cảnh chiều tương ứng Số lượng điều kiện ngữ cảnh 𝐶 𝑁𝑐 , với 𝑁𝑐 = 𝑁𝑐1 ∗ 𝑁𝑐2 ∗ … ∗ 𝑁𝑐𝐾 • Bước Tạo tập sản phẩm giả lập 𝑇 cách lấy tích Đề-các tập sản phẩm 𝑃 chiều ngữ cảnh 𝐶 Khi đó, sản phẩm giả lập thuộc 𝑇 kết hợp sản phẩm ban đầu thuộc 𝑃 với điều kiện ngữ cảnh thuộc 𝐶 Số lượng sản phẩm tập 𝑇 𝐻, với 𝐻 = 𝑀 ∗ 𝑁𝑐 • Bước Chuyển đổi ma trận đánh giá đa chiều ma trận đánh giá hai chiều việc loại bỏ tập ngữ cảnh, thay tập sản phẩm ban đầu 𝑃 tập sản phẩm giả lập 𝑇 Ví dụ áp dụng phương pháp phân tách sản phẩm theo ngữ cảnh lên ma trận đánh giá đa chiều lọc cộng tác theo ngữ cảnh (Bảng 1) ta thu ma trận đánh giá hai chiều (Bảng 2), với 𝑡1 sản phẩm giả lập tạo kết hợp sản phẩm 𝑝1 tình ngữ cảnh (“Cuối tuần”,”Tại nhà”,”Trẻ em”) Với ví dụ đưa Bảng 1, hệ tư vấn có sản phẩm 12 tình ngữ cảnh có, số lượng sản phẩm giả lập sinh theo phương pháp phân tách sản phẩm theo ngữ cảnh cải tiến 24 Ma trận đánh giá hai chiều nhận thể Bảng 2, tác giả xếp cặp người dùng - sản phẩm có đánh giá dòng ma trận cặp cịn lại khơng có đánh giá bên Để tiết kiệm khơng gian trình bày, cặp người dùng - sản phẩm khơng có đánh giá khơng nêu đầy đủ Bảng Bảng Ma trận đánh giá đa chiều lọc cộng tác theo ngữ cảnh Người Sản dùng phẩm 𝑢1 𝑝1 Đánh giá 𝑢1 𝑝1 𝑢2 𝑝1 Thời gian Cuối tuần Trong tuần Cuối Địa Bạn đồng điểm hành Tại Trẻ em nhà Tại Gia đình nhà Tại rạp Đối tác TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 123 MỘT PHƯƠNG PHÁP LỌC TRƯỚC THEO NGỮ CẢNH CHO HỆ TƯ VẤN 𝑢2 𝑝1 𝑢3 𝑝1 𝑢3 𝑝2 tuần Trong tuần Cuối tuần Cuối tuần Tại nhà Tại rạp Gia đình Tại rạp Đối tác Đối tác Bảng Ma trận đánh giá hai chiều nhận sau phân tách sản phẩm theo ngữ cảnh Người dùng 𝑢1 𝑢1 𝑢2 𝑢2 𝑢3 𝑢3 𝑢1 … 𝑢3 Sản phẩm giả lập 𝑡1 𝑡3 𝑡2 𝑡3 𝑡2 𝑡4 𝑡2 … 𝑡24 Đánh giá 4 … Quá trình phân tách sản phẩm theo ngữ cảnh biến đổi ma trận đánh giá đa chiều 𝑅1 (biểu diễn đánh giá người dùng với sản phẩm tình ngữ cảnh khác nhau) ma trận đánh giá hai chiều 𝑅𝑜 (biểu diễn đánh giá người dùng với sản phẩm giả lập) Trên thực tế, số lượng đánh giá ban đầu đưa người dùng cho sản phẩm tình ngữ cảnh ít, khiến cho ma trận 𝑅1 thưa Khi áp dụng thủ tục phân tách sản phẩm theo ngữ cảnh cải tiến lên 𝑅1 , với việc giới thiệu sản phẩm giả lập, khiến ma trận 𝑅𝑜 thu thưa thớt Để hạn chế vấn đề liệu thưa lọc cộng tác áp dụng cho ma trận đánh giá hai chiều 𝑅𝑜 , tác giả tiến hành học ma trận đánh giá lọc cộng tác mơ hình đồng huấn luyện Nội dung chi tiết mơ hình đồng huấn luyện cho lọc cộng tác trình bày mục B B Mơ hình đồng huấn luyện cho lọc cộng tác Bài toán lọc cộng tác nhằm dự đoán đánh giá chưa biết từ tập đánh giá biết phát biểu toán phân lớp sở học máy [15][16][17][18] Tiếp cận lọc cộng tác phân lớp ta cần cá nhân hóa mơ hình học theo người dùng theo sản phẩm nhằm gán nhãn cho giá trị đánh giá chưa biết ma trận đánh giá Do vậy, việc xác định phương pháp phân lớp phù hợp cho lọc cộng tác định chất lượng hệ tư vấn Về bản, toán phân lớp loại toán lĩnh vực học máy Các nghiên cứu học máy dựa phương thức học liệu có bốn hướng tiếp cận học máy [19][20], là: 1) Học có giám sát (Supervised learning); 2) Học không giám sát (Unsupervised learning); 3) Học bán giám sát (Semisupervised learning); 4) Học củng cố (Reinforcement learning) Trong bốn hướng tiếp cận học máy học có giám sát bán giám sát hai hướng tiếp cận phù hợp để giải toán phân lớp quy mô tổng quát Với thông tin đầu vào lọc cộng tác ma trận đánh giá có số đánh giá biết trước, áp dụng phương pháp học máy có giám sát có số đánh giá tham gia vào trình học để sinh tư vấn, SOÁ 04A (CS.01) 2020 giá trị đánh giá biết trước gọi nhãn phân loại Như vậy, việc áp dụng phương pháp học có giám sát cho hệ tư vấn cộng tác dựa vào nhớ bỏ qua nhiều mẫu liệu khác chưa gán nhãn vào trình tư vấn, vấn đề liệu thưa ảnh hưởng trực tiếp tới chất lượng tư vấn Với mong muốn khai thác đầy đủ liệu gán nhãn chưa gán nhãn từ ma trận đánh giá đầu vào cho hệ tư vấn nhằm hạn chế ảnh hưởng vấn đề liệu thưa, tác giả tập trung nghiên cứu vào hướng tiếp cận học bán giám sát cho toán phân lớp, trường hợp toán lọc cộng tác Trong phương pháp học bán giám sát đưa [21][22], tác giả tiếp cận phương pháp đồng huấn luyện để giải toán phân lớp lọc cộng tác Lý cho việc lựa chọn phương pháp đồng huấn luyện đánh giá phù hợp cho liệu chứa mẫu liệu quan sát hai góc nhìn độc lập nhau, trường hợp đánh giá ma trận đánh giá quan sát hai góc nhìn người dùng sản phẩm Q trình đồng huấn luyện sử dụng phân lớp xác định nhằm học mẫu liệu độc lập từ quan sát theo người dùng quan sát theo sản phẩm để gán nhãn cho mẫu liệu chưa biết, trường hợp đưa dự đoán đánh giá cho giá trị đánh giá chưa biết ma trận đánh giá Quá trình học lặp lại luân phiên hai chế quan sát theo người dùng theo sản phẩm đến thỏa mãn điều kiện mẫu liệu gán nhãn (Ma trận đánh giá cập nhật đầy đủ giá trị đánh giá) số vòng lặp đạt đến ngưỡng xác định Cụ thể trình học theo người dùng dự đoán số nhãn phân loại tin cậy cho mẫu liệu chưa biết đánh giá chuyển giao cho trình học theo sản phẩm Ngược lại, trình học theo sản phẩm dự đoán số nhãn phân loại cho mẫu liệu chưa biết đánh giá chuyển giao cho trình học theo người dùng Mỗi trình học cập nhật đánh giá dự đốn vào ma trận đánh giá Hai trình học thực luân phiên theo tinh thần thuật tốn đồng huấn luyện, điều góp phần hạn chế ảnh hưởng vấn đề liệu thưa cho lọc cộng tác Nội dung mục 1) 2) trình bày trình xây dựng mơ hình học theo người dùng, xây dựng mơ hình học theo sản phẩm từ ma trận đánh giá 𝑅𝑜 nhận theo thủ tục phân tách sản phẩm theo ngữ cảnh (Mục A) Trên sở đề xuất kết hợp hai mơ hình hai phương pháp đồng huấn luyện cho lọc cộng tác mục 3) Kết trình đồng huấn luyện ma trận 𝑅𝑜 tích hợp đầy đủ giá trị đánh giá dự đoán sử dụng để sinh tư vấn sản phẩm phù hợp với người dùng thời 1) Mơ hình học theo người dùng Mơ hình học theo người dùng sử dụng báo dựa vào phương pháp lọc cộng tác theo người dùng UserBased k-NN [1][23] Đây phương pháp đánh giá đơn giản cài đặt, thời gian thực nhanh thực loại liệu Tuy nhiên nhược điểm điển hình với phương pháp vấn đề liệu thưa, điều tác giả giải mô hình đồng huấn luyện đưa báo Thuật tốn UserBased k-NN có xây dựng cho người dùng tập láng giềng có đánh giá tương tự ma trận người dùng – sản phẩm, đánh giá từ TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 124 Đỗ Thị Liên người dùng sau sử dụng để đưa dự đoán, làm sở để đưa tư vấn Trong đề xuất này, việc xác định mức độ tương tự cặp người dùng không dùng để xác định tập láng giềng 𝐾𝑖 tác động trực tiếp lên tư vấn, mà để dùng vào việc xác định nhãn phân loại chắn 𝑟𝑖𝑦 cho người dùng 𝑢𝑖 Theo đó, mơ hình học theo người dùng đề xuất thực thông qua bước: (1) Tính tốn độ tương tự cặp người dùng; (2) Tìm tập láng giềng cho người dùng cần tư vấn; (3) Xác định nhãn phân loại chắn cho ma trận đánh giá Phương pháp CoTrainning-UserItem mơ tả chi tiết Thuật tốn 3.2 thực thơng qua 𝑡 vịng lặp Bước Tính tốn mức độ tương tự cặp người dùng Khởi tạo số bước lặp ban đầu: 𝑡0; Độ tương tự dựa độ đo tương quan Pearson ∑𝑝𝑥∈𝑇𝑖∩𝑇𝑗(𝑟𝑖𝑥 − 𝑟̅)(𝑟 ̅) (3) 𝑖 𝑗𝑥 − 𝑟 𝑗 𝑢𝑖𝑗 = 2∑ ̅) √∑𝑡𝑥∈𝑇𝑖∩𝑇𝑗(𝑟𝑖𝑥 − 𝑟̅) 𝑖 𝑡𝑥 ∈𝑇𝑖 ∩𝑇𝑗 (𝑟𝑗𝑥 − 𝑟 𝑗 Thuật toán Thuật toán CoTrainning-UserItem (0) Đầu vào:Khởi tạo ma trận đánh giá 𝑅𝑜 (0) = {𝑟𝑖𝑥 } = {𝑟𝑖𝑥 } (𝑡) Đầu :Ma trận dự đoán 𝑅𝑜 (𝑡) = {𝑟𝑖𝑥 } Các bước tiến hành: Bước lặp: Repeat 2.1 Tăng bước lặp: 𝑡𝑡 + 1; 2.2 Huấn luyện theo mơ hình học theo người dùng: (𝑡) a) Tìm 𝑢𝑖𝑗 theo cơng thức (3) Trong : o 𝑇𝑖𝑗 = {𝑡𝑥 |𝑟𝑖𝑥 ≠ ∅ ∩ 𝑟𝑗𝑥 ≠ ∅} tập tất (𝑡) b) Tìm 𝐾𝑖 sản phẩm đánh giá 𝑢𝑖 𝑢𝑗 o 𝑟̅, ̅𝑗 trung bình cộng đánh giá 𝑖 𝑟 (𝑡) c) Dự đoán 𝑟𝑖𝑥 theo công thức (4) 2.3 Huấn luyện theo mô hình học theo sản phẩm: (𝑡) a) Tìm 𝑡𝑥𝑦 theo thuật toán ItemBased khác 𝑢𝑖 𝑢𝑗 k-NN sở [1][23] Bước 2: Xác định tập láng giềng cho người dùng cần tư vấn Tại bước ta cần xếp giá trị uij theo thứ tự giảm dần, sau chọn tập 𝐾𝑖 người dùng làm tập láng giềng người dùng 𝑢𝑖 Bước 3: Xác định nhãn phân loại chắn cho ma trận Dựa tập láng giềng 𝐾𝑖 người dùng 𝑢𝑖 ∈ 𝑈, mẫu liệu chưa có đánh giá gán nhãn giá trị dự đoán (nhãn phân loại chắn) theo công thức (4) (4) ∑𝑢𝑗 ∈𝐾𝑖 (𝑟𝑗𝑥 − 𝑟̅)𝑢 𝑗 𝑖𝑗 𝑟𝑖𝑥 = 𝑟̅𝑖 + ∑𝑢𝑗 ∈𝐾𝑖 |𝑢𝑖𝑗 | Ma trận đánh giá nhận sau mơ hình học theo người dùng bổ sung đánh giá dự đoán mới, phục vụ cho q trình huấn luyện theo mơ hình học theo sản phẩm phương pháp đồng huấn luyện trình bày mục báo 2) Mơ hình học theo sản phẩm Mơ hình học theo sản phẩm sử dụng báo dựa vào phương pháp lọc cộng tác theo sản phẩm ItemBased k-NN [1][23].Tương tự người dùng, việc xác định mức độ mức độ tương tự cặp sản phẩm 𝑝𝑥 ∈ 𝑃 không dùng để xác định tập láng giềng 𝐾𝑥 tác động trực tiếp lên tư vấn [1][23], mà để dùng vào việc xác định nhãn phân loại chắn 𝑟𝑖𝑥 cho sản phẩm 𝑡𝑥 Ma trận đánh giá nhận sau mơ hình học theo sản phẩm bổ sung đánh giá dự đoán mới, phục vụ cho q trình huấn luyện theo mơ hình học theo người dùng phương pháp đồng huấn luyện trình bày mục báo 3) Lọc cộng tác phương pháp đồng huấn luyện SOÁ 04A (CS.01) 2020 (𝑡) b) Tìm 𝐾𝑥 (𝑡) c) Dự đốn 𝑟𝑖𝑥 (𝑡) (𝑡−1) Until (𝑟𝑖𝑥 = 𝑟𝑖𝑥 ) Tại bước khởi tạo 𝑡 = 0, ma trận dự đoán 𝑅1 (0) = lấy ma trận đánh giá ban đầu 𝑅1 = {𝑟𝑖𝑥 } Tại đầu bước lặp, 𝑡 tăng lên đơn vị Tại bước 2.2, trình huấn luyện theo người dùng thực theo bước (2.2.a), (2.2.b),(2.2.c) Tại (𝑡) bước (2.2.a) ta cần xác định mức độ tương tự 𝑢𝑖𝑗 người 𝑢𝑖 ∈ 𝑈 người dùng 𝑢𝑗 theo công thức (3) Tại (𝑡) bước (2.2.b), sử dụng 𝑢𝑖𝑗 xác định bước (0) {𝑟𝑖𝑥 } (𝑡) (2.2.a) ta xác định 𝐾𝑖 tập láng giềng người (𝑡) dùng 𝑢𝑖 bước lặp thứ 𝑡 Tại bước (2.2.c), sử dụng 𝐾𝑖 (𝑡) xác định bước (2.2.b) ta dự đoán 𝑟𝑖𝑥 quan điểm chắn người dùng 𝑢𝑖 cho sản phẩm 𝑝𝑥 (𝑡) bước lặp thứ 𝑡 theo cơng thức (4) Các giá trị 𝑟𝑖𝑥 dự đốn theo người dùng bước lặp thứ 𝑡 bổ sung thêm vào trình huấn luyện theo sản phẩm bước 2.3 (𝑡) Tại bước (2.3.a) ta cần xác định mức độ tương tự 𝑡𝑥𝑦 sản phẩm 𝑡𝑥 ∈ 𝑇 sản phẩm 𝑡𝑦 Tại bước (2.3.b), (𝑡) sử dụng 𝑡𝑥𝑦 xác định bước (2.3.a) ta tìm (𝑡) 𝐾𝑥 tập láng giềng sản phẩm 𝑡𝑥 bước lặp thứ 𝑡 (𝑡) Tại bước (2.3.c), sử dụng 𝐾𝑥 xác định bước (2.3.b) (𝑡) ta dự đoán 𝑟𝑖𝑥 quan điểm chắn người dùng 𝑢𝑖 cho sản phẩm 𝑡𝑥 bước lặp thứ 𝑡 Sau bước 2.3, thuật toán kiểm tra thỏa mãn điều kiện hội tụ khơng có nhãn phân loại bổ sung vào ma trận dự TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 125 MỘT PHƯƠNG PHÁP LỌC TRƯỚC THEO NGỮ CẢNH CHO HỆ TƯ VẤN (t) (t−1) đốn, rix = rix dừng lại, chưa trình đồng huấn luyện thực vòng lặp C Sinh tư vấn Sau kết thúc trình đồng huấn luyện, hệ thống thu ma trận dự đoán 𝑅𝑜 (𝑡) sở để sinh tư vấn sản phẩm phù hợp cho người dùng theo ngữ cảnh, điều miêu tả cụ thể Thuật toán Như vậy, sở khung triển khai phương pháp lọc trước theo ngữ cảnh dựa vào đồng huấn luyện với bước thực Mục A, Mục B, Mục C trình bày trên, tác giả đề xuất hai thuật toán cho lọc trước ngữ cảnh dựa vào đồng huấn luyện theo người dùng (ISCoTraining-UserItem) lọc trước ngữ cảnh dựa vào đồng huấn luyện theo sản phẩm (IS-CoTrainingItemUser) thực trước, trình thực sau chế chuyển giao tri thức mơ hình IV THỰC NGHIỆM VÀ KẾT QUẢ A Dữ liệu thực nghiệm Để thấy rõ hiệu phương pháp đề xuất, tác giả thực tiến hành thực nghiệm hai liệu DepaulMovie, InCarMusic [24] • Bộ liệu DepaulMovie chứa 5043 đánh giá từ 97 người dùng cho 79 phim tình ngữ cảnh khác Bộ liệu có chiều ngữ cảnh Time, Location, Companion Chiều ngữ cảnh Time có điều kiện ngữ cảnh (“Weekend”, “Weekday”), chiều ngữ cảnh Location có điều kiện ngữ cảnh (“Home”, “Cinema”), chiều ngữ cảnh Companion có điều kiện ngữ cảnh (“Alone”, “Family”, “Partner”) Các mức đánh giá nằm dải từ đến 5, mức độ thưa thớt liệu 94,516% Các mức đánh giá 1, 2, 3, 4, chuyển đổi thành 0.2, 0.4, 0.6, 0.8, 1.0 • Bộ liệu InCarMusic chứa 3938 đánh giá từ 1042 người dùng, 139 album tình ngữ cảnh khác Bộ liệu có chiều ngữ cảnh Driving style, Road type, Landscape, Sleepiness, Traffic conditions, Mood, Weather, Natural Phenomena Chiều ngữ cảnh Driving style có điều kiện ngữ cảnh (“Relaxed driving”, “Sport driving”), chiều ngữ cảnh Road type có điều kiện ngữ cảnh (“City”, “Highway”, “Serpentine”), chiều ngữ cảnh Landscape có điều kiện ngữ cảnh (“Coast line”, “country side”, “mountains/hills”, “Urban”), chiều ngữ cảnh Sleepiness có điều kiện ngữ cảnh (“Awake”, “Sleepy”), chiều ngữ cảnh Traffic conditions có điều kiện ngữ cảnh (“Free road”, “Many Cars”, “Traffic jam”), chiều ngữ cảnh Mood có điều kiện ngữ cảnh (“Active”, “Happy”, “Lazy”, “Sad”), chiều ngữ cảnh Weather có điều kiện ngữ cảnh (“Cloudy”, “Snowing”, “Sunny”, “Rainy”), chiều ngữ cảnh Natural Phenomena có điều kiện ngữ cảnh (“Day time”, “Morning”, “Night”, “Afternoon”) Các mức đánh giá nằm dải từ đến 5, mức độ thưa thớt liệu 99.9996996% Các mức đánh giá 1, 2, 3, 4, chuyển đổi thành 0.2, 0.4, 0.6, 0.8, 1.0 Thuật toán Thuật toán IS-CoTraining-UserItem Đầu vào: - Ma trận đánh giá đa chiều 𝑅1 (chứa thông tin ngữ cảnh) - 𝑢𝑎 ∈ 𝑈 người dùng thời cần tư vấn - 𝑐 ∈ (𝐶1 × 𝐶2 × … × 𝐶𝐾 ) ngữ cảnh ứng với người dùng thời - 𝐾1 số lượng người dùng tập láng giềng với 𝑢𝑎 - 𝐾2 số lượng sản phẩm cần tư vấn cho 𝑢𝑎 Đầu ra: - Danh sách 𝐾2 sản phẩm tư vấn tới người dùng 𝑢𝑎 tình ngữ cảnh 𝑐 Các bước thực hiện: Bước Chuyển đổi ma trận đánh giá dạng đa chiều 𝑅1 dạng hai chiều 𝑅𝑜 Theo thủ tục phân tách sản phẩm theo ngữ cảnh (Mục A) Bước Học liệu mơ hình đồng huấn luyện (Theo Thuật toán 1) Bước Sinh tư vấn cho người dùng thời 𝑢𝑎 ngữ cảnh 𝑐 • Từ ma trận 𝑅𝑜 (𝑡) xếp sản phẩm chưa đánh giá ban đầu người dùng thời (𝑡) 𝑢𝑎 theo thứ tự giảm dần 𝑟𝑖𝑥 Với người dùng thời 𝑢𝑎 , chọn 𝐾1 sản phẩm có số tư vấn cho người dùng 𝑢𝑎 • Chuyển đổi ma trận dự đoán đánh giá hai chiều chứa sản phẩm giả lập (trong tập 𝑇) ma trận dự đoán đánh giá đa chiều chứa sản phẩm thực (thuộc tập 𝑃) tình ngữ cảnh kèm (thuộc tập 𝐶) • Chọn 𝐾2 sản phẩm thực 𝑃 có đánh giá dự đốn cao để tư vấn cho người dùng 𝑢𝑎 tình ngữ cảnh 𝑐 Phương pháp lọc trước ngữ cảnh dựa vào sản phẩm đề xuất (IS-CoTraining-ItemUser) có chế thực tương tự phương pháp lọc trước ngữ cảnh dựa vào người dùng (IS-CoTraining-UserItem) Điểm khác biệt hai phương pháp đồng huấn luyện trình SOÁ 04A (CS.01) 2020 B Cài đặt thực nghiệm 1) Độ đo Hai nhiệm vụ hệ tư vấn dự đoán đánh giá tư vấn danh sách ngắn sản phẩm cho người dùng thời Để đánh giá hiệu đánh giá dự đoán, độ đo thường sử dụng 𝑀𝐴𝐸, 𝑅𝑀𝑆𝐸, 𝑀𝑃𝐸 Để đánh giá hiệu tư vấn danh sách sản phẩm, độ đo điển hình sử dụng 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛@𝑁 , 𝑀𝐴𝑃@𝑁 Trong báo này, tác giả tập trung đánh giá hiệu tư vấn danh sách sản phẩm phương pháp đề xuất so sánh với phương pháp tư vấn theo ngữ cảnh sở nên độ đo 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛@𝑁, 𝑀𝐴𝑃@𝑁 lựa chọn để đánh giá kết Cụ thể độ đo sau: - Độ xác Precision@N cho biết tỷ lệ dự đốn xác top-N sản phẩm dự đốn cho người dùng (top-N items) TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 126 Đỗ Thị Liên Precision@N = - |{𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑖𝑡𝑒𝑚𝑠}∩{𝑡𝑜𝑝−𝑁 𝑖𝑡𝑒𝑚𝑠}| ItemSplitting-CoTraining-UserItem: Phương pháp lọc trước ngữ cảnh dựa vào đồng huấn luyện theo người dùng,kết hợp hai phương pháp: 1) Lọc trước theo ngữ cảnh nguyên thủy; 2) Lọc cộng tác đồng huấn luyện theo người dùng (5) - 𝑁 𝑀𝐴𝑃 thể tính đắn thứ hạng gợi ý 𝑀𝐴𝑃@𝑘 định nghĩa thông qua 𝐴𝑃@𝑘 (𝐴𝑣𝑒𝑟𝑎𝑔𝑒 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛) 𝐴𝑃@𝑘 (6) - ItemSplitting-CoTraining-ItemUser: Phương pháp lọc trước ngữ cảnh dựa vào đồng huấn luyện theo sản phẩm,kết hợp hai phương pháp: 1) Lọc trước theo ngữ cảnh nguyên thủy; 2) Lọc cộng tác đồng huấn luyện theo sản phẩm - IS-CoTraining-UserItem: Phương pháp lọc trước ngữ cảnh dựa vào đồng huấn luyện theo người dùng đề xuất, kết hợp hai phương pháp: 1) Lọc trước theo ngữ cảnh cải tiến; 2) Lọc cộng tác đồng huấn luyện theo người dùng - IS-CoTraining-ItemUser: Phương pháp lọc trước ngữ cảnh dựa vào đồng huấn luyện theo sản phẩm đề xuất, kết hợp hai phương pháp: 1) Lọc trước theo ngữ cảnh cải tiến; 2) Lọc cộng tác đồng huấn luyện theo sản phẩm 𝑘 = ∑(𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛@𝑖 𝑛ế𝑢 𝑠ả𝑛 𝑝ℎẩ𝑚 𝑡ℎứ 𝑖 𝑝ℎù ℎợ𝑝) 𝑚 𝑖=1 𝑘 = ∑ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛@𝑖 𝑟𝑒𝑙(𝑖) 𝑚 𝑖=1 Trong đó: • • 𝑟𝑒𝑙(𝑖) = sản phẩm thứ 𝑖 phù hợp với người dùng, 𝑟𝑒𝑙(𝑖) = trường hợp lại 𝑚: tổng số lượng sản phẩm liên quan Độ đo 𝐴𝑃@𝑘 áp dụng để tính độ xác trung bình cho người dùng thuộc tập 𝑈𝑡𝑒𝑠𝑡 Trên sở đó, độ xác trung bình tuyệt đối 𝑀𝐴𝑃@𝑘 cho tất người dùng tập 𝑈𝑡𝑒𝑠𝑡 tính trung bình cộng 𝐴𝑃@𝑘 người dùng 𝑈𝑡𝑒𝑠𝑡 | 𝑈𝑡𝑒𝑠𝑡 | (7) 𝑀𝐴𝑃@𝑘 = ∑ (𝐴𝑃@𝑘)𝑢𝑖 | 𝑈𝑡𝑒𝑠𝑡 | C Kết thực nghiệm Kết thực nghiệm đưa Bảng 1, Bảng nhằm đánh giá số kịch sau: - So sánh ItemSplitting-CoTraining-UserItem, ItemSplitting-CoTraining-ItemUser với phương pháp lọc trước sử dụng chiều ngữ cảnh - So sánh IS-CoTraining-UserItem, IS-CoTrainingItemUser với ItemSplitting-CoTraining-UserItem, ItemSplitting-CoTraining-ItemUser 𝑖=1 2) Phương pháp thực nghiệm Để đánh giá độ xác danh sách sản phẩm tư vấn, tác giả thực phân chia tập liệu U thành tập Utrain Utest sử dụng phương pháp kiểm thử chéo (k-fold cross-validation) phương pháp sử dụng rộng rãi cho kết đánh giá khách quan Trong thực nghiệm, tác giả lấy 𝑘 = 10 để tiến hành chia liệu kiểm nghiệm Việc thực nghiệm thực 10 lần lấy trung bình kết thực nghiệm 3) Các phương pháp tư vấn sử dụng để so sánh - - - UserSplitting-BiasedMF [11]: Phương pháp tư vấn dựa vào ngữ cảnh, sử dụng phương pháp phân tách người dùng theo ngữ cảnh nguyên thủy, người dùng tách thành hai người dùng giả lập tùy thuộc vào tình ngữ cảnh kết hợp với họ Sau huấn luyện đưa tư vấn sử dụng phương pháp phân rã ma trận BiasedMF (Biased-Matrix Factorization) [25] ItemSplitting-BiasedMF [8][26]: Phương pháp tư vấn dựa vào ngữ cảnh, sử dụng phương pháp phân tách sản phẩm theo ngữ cảnh nguyên thủy, sản phẩm tách thành hai sản phẩm giả lập tùy thuộc vào tình ngữ cảnh kết hợp với Sau huấn luyện đưa tư vấn sử dụng phương pháp phân rã ma trận BiasedMF UISplitting-BasedMF [26]: Phương pháp tư vấn dựa vào ngữ cảnh, sử dụng phương pháp phân tách người dùng sản phẩm theo ngữ cảnh, sau huấn luyện đưa tư vấn sử dụng phương pháp phân rã ma trận BiasedMF Bảng Giá trị Precision@10, MAP@10 tập DepaulMovie Phương pháp Precision@10 MAP@10 UserSplitting-BiasedMF 0.089 0.161 ItemSplitting-BiasedMF 0.086 0.147 UISplitting-BiasedMF 0.084 0.144 ItemSplittingCoTraining-UserItem 0.119 0.135 0.121 0.152 0.119 0.160 0.122 0.159 ItemSplitting CoTraining-ItemUser IS-CoTrainingUserItem IS-CoTrainingItemUser Bảng Giá trị Precision@10, MAP@10 tập InCarMusic Phương pháp Precision@10 MAP@10 UserSplitting-BiasedMF ItemSplitting-BiasedMF UISplitting-BiasedMF ItemSplitting- 0.033 0.034 0.033 0.125 0.127 0.117 0.065 CoTraining-UserItem ItemSplittingCoTraining-ItemUser SOÁ 04A (CS.01) 2020 0.036 0.037 0.112 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 127 MỘT PHƯƠNG PHÁP LỌC TRƯỚC THEO NGỮ CẢNH CHO HỆ TƯ VẤN IS-CoTraining- 0.037 0.145 UserItem IS-CoTrainingItemUser 0.038 0.141 Một số nhận xét đưa vào phân tích kết thực nghiệm đưa Bảng 1, Bảng sau: 1) Các phương pháp lọc trước sử dụng chiều ngữ cảnh ItemSplitting-CoTraining-UserItem, ItemSplitting-CoTraining-ItemUser cho lại Precision@10 tốt hơn, MAP@10 lại cho kết thấp phương pháp tư vấn theo ngữ cảnh sở hướng Như khẳng định việc dùng chiều ngữ cảnh phương pháp phân tách sản phẩm theo ngữ cảnh kết hợp với phương pháp đồng huấn luyện cho lọc cộng tác chưa giải pháp tối ưu 2) Kết hợp phương pháp phân tách sản phẩm theo ngữ cảnh cải tiến (sử dụng đồng thời nhiều chiều ngữ cảnh) phương pháp CoTraining-UserItem, CoTraining-ItemUser để tạo thành phương pháp đề xuất IS-CoTraining-UserItem, IS-CoTrainingItemUser So sánh giá trị Precision@10 nhận thấy phương pháp CoTraining-UserItem, CoTrainingItemUser cho Precision@10 cao chút so với ItemSplitting-CoTraining-UserItem, ItemSplittingCoTraining-ItemUser So sánh giá trị MAP@10 phương pháp đề xuất lớn ItemSplittingCoTraining-UserItem, ItemSplitting-CoTrainingItemUser tập liệu Điều chứng tỏ việc sử dụng đồng thời nhiều chiều ngữ cảnh giúp bổ sung thông tin hữu ích cho trình tư vấn việc sử dụng chiều ngữ cảnh xét tiêu chí Precision@10 MAP@10 Kết kiểm nghiệm phương pháp đề xuất ISCoTraining-UserItem, IS-CoTraining-ItemUser cho lại độ xác 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛@10 tốt phương pháp sở Đặc biệt, phương pháp IS-CoTrainingItemUser cho 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛@10 cao hai tập liệu Phương pháp IS-CoTraining-UserItem cho 𝑀𝐴𝑃@10 cao tập liệu InCarMusic Quan sát riêng tập liệu DepaulMovie, tác giả nhận thấy phương pháp UserSplitting-BiasedMF cho MAP@10 cao phương pháp khác, điều lý giải DepaulMovie tập liệu thưa thớt hai tập liệu Các kết đưa chứng cho thấy phương pháp đề xuất báo nhạy cảm với liệu thưa thớt so với phương pháp tư vấn theo ngữ cảnh sở, dù thực tế phương pháp đề xuất tích hợp đầy đủ thông tin ngữ cảnh 3) Trong hai phương pháp đề xuất báo, ISCoTraining-ItemUser cho độ xác 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛@10 cao IS-CoTrainingUserItem, điều lý giải bước thuật tốn, sản phẩm phân tách thành sản phẩm giả lập nên thông tin sản phẩm khai thác chi tiết đầy đủ cho trình huấn luyện sinh tư vấn sau SỐ 04A (CS.01) 2020 V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo trình bày đề xuất phương pháp lọc trước theo ngữ cảnh cho hệ tư vấn, cho phép tích hợp đầy đủ thơng tin ngữ cảnh giải hiệu vấn đề liệu thưa Trong đó, việc tích hợp ngữ cảnh thực thủ tục phân tách sản phẩm theo ngữ cảnh cải tiến Quá trình phân tách sản phẩm theo ngữ cảnh biến đổi ma trận đánh giá đa chiều thưa ma trận đánh giá hai chiều trở lên thưa thớt Để giải vấn đề thưa thớt liệu này, tác giả tiếp cận phương pháp đồng huấn luyện cho lọc cộng tác, phương pháp thuộc hướng tiếp cận học bán giám sát cho tốn phân lớp Trong đó, q trình huấn luyện theo người dùng bổ sung thêm số nhãn phân loại chắn cho trình huấn luyện theo sản phẩm Ngược lại, trình huấn luyện theo sản phẩm bổ sung thêm nhãn phân loại chắn cho trình huấn luyện theo người dùng Hai trình huấn luyện thực đồng thời cho phép bổ sung nhãn phân loại tin cậy theo bước thực hiện, nhờ cải thiện độ xác dự đoán đánh giá tư vấn sản phẩm phù hợp cho người dùng Kết thực nghiệm số liệu thực cho thấy phương pháp đề xuất cải thiện đáng kể chất lượng dự đoán so với phương pháp tư vấn dựa vào ngữ cảnh sở trước Trong thời gian tới, tác giả dự định mở rộng nghiên cứu cho hệ tư vấn lai theo ngữ cảnh nhằm tích hợp nhiều thơng tin phục vụ cho q trình huấn luyện nâng cao chất lượng tư vấn Ngoài tác giả có kế hoạch nghiên cứu phát triển phương pháp mơ hình hóa ngữ cảnh phụ thuộc áp dụng cho hệ tư vấn theo ngữ cảnh TÀI LIỆU THAM KHẢO [1] G Adomavicius and A Tuzhilin, “Toward the next generation of recommender systems: A survey of the stateof-the-art and possible extensions,” IEEE Trans Knowl Data Eng., vol 17, no 6, pp 734–749, 2005, doi: 10.1109/TKDE.2005.99 [2] G Adomavicius, B Mobasher, F Ricci, and A Tuzhilin, “Context-Aware Recommender Systems,” AI Mag., vol 32, no 3, pp 67–80, 2011 [3] L Baltrunas, B Ludwig, and F Ricci, “Matrix Factorization Techniques for Context Aware,” Acm Rs, no October, pp 301–304, 2011, doi: 10.1145/2043932.2043988 [4] L Cai, J Xu, J Liu, and T Pei, “Integrating spatial and temporal contexts into a factorization model for POI recommendation,” Int J Geogr Inf Sci., vol 32, no 3, pp 524–546, 2018, doi: 10.1080/13658816.2017.1400550 [5] A Razia Sulthana and S Ramasamy, “Ontology and context based recommendation system using Neuro-Fuzzy Classification,” Comput Electr Eng., vol 0, pp 1–13, 2018, doi: 10.1016/j.compeleceng.2018.01.034 [6] F Ricci, L Rokach, B Shapira, and P B.Kantor, Recommender systems handbook Springer, 2011 [7] U Panniello, A Tuzhilin, and M Gorgoglione, “Comparing context-aware recommender systems in terms of accuracy and diversity,” User Model User-adapt Interact., vol 24, no 1–2, pp 35–65, 2014, doi: 10.1007/s11257-012-9135-y [8] L Baltrunas and F Ricci, “Context-Based Splitting of Item Ratings in Collaborative Filtering,” in Proceedings of the third ACM conference on Recommender systems - RecSys ’09, 2009, pp 245–248 [9] H Yin and B Cui, Spatio-Temporal Recommendation in Social Media 2016 [10] M Unger, A Bar, B Shapira, and L Rokach, “Towards TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 128 Đỗ Thị Liên latent context-aware recommendation systems,” Knowledge-Based Syst., vol 104, pp 165–178, 2016, doi: 10.1016/j.knosys.2016.04.020 [11] Y Zheng, R Burke, and B Mobasher, “Splitting approaches for context-aware recommendation,” Proc 29th Annu ACM Symp Appl Comput - SAC ’14, pp 274–279, 2014, doi: 10.1145/2554850.2554989 [12] A Karatzoglou, X Amatriain, L Baltrunas, and N Oliver, “Multiverse Recommendation: N-dimensional Tensor Factorization for Context-aware Collaborative Filtering,” in Proceedings of the Fourth ACM Conference on Recommender Systems, 2010, pp 79–86, doi: 10.1145/1864708.1864727 [13] G Adomavicius, R Sankaranarayanan, S Sen, and A Tuzhilin, “Incorporating Contextual Information in Recommender Systems Using a Multidimensional Approach,” ACM Trans Inf Syst., vol 23, no 1, pp 103– 145, Jan 2005, doi: 10.1145/1055709.1055714 [14] Y Zheng, “Tutorial : Context In Recommender Systems,” 2016 [15] C Basu, H Hirsh, and W Cohen, “Recommendation as classification: using social and content-based information in recommendation,” in AAAI ’98/IAAI ’98 Proceedings of the fifteenth national/tenth conference on Artificial intelligence/Innovative applications of artificial intelligence, 1998, pp 714–720, [Online] Available: https://dl.acm.org/citation.cfm?id=295795 [16] X Su, T M Khoshgoftaar, X Zhu, and R Greiner, “Imputation-boosted collaborative filtering using machine learning classifiers,” Proc 2008 ACM Symp Appl Comput SAC ’08, no 2, p 949, 2008, doi: 10.1145/1363686.1363903 [17] D Billsus and M J Pazzani, “Learning Collaborative Information Filters,” in ICML ’98 Proceedings of the Fifteenth International Conference on Machine Learning, 1998, pp 46–54, [Online] Available: https://dl.acm.org/citation.cfm?id=657311 [18] N D Phuong and T M Phuong, “Collaborative Filtering by Multi-task Learning,” vol 00, no c, pp 1–6, 2008 [19] I Portugal, P Alencar, and D Cowan, “The use of machine learning algorithms in recommender systems: A systematic review,” Expert Syst Appl., vol 97, pp 205– 227, 2018, doi: 10.1016/j.eswa.2017.12.020 [20] S Shalev-Shwartz and S Ben-David, Understanding Machine Learning : From Theory to Algorithms Cambridge University Press, 2014 [21] A Z Olivier Chapelle, Bernhard Scho ̈lkopf, A semisupervised learning, vol 1, no The MIT Press Cambridge, Massachusetts London, England, 2009 [22] P Rai, “Semi-supervised Learning,” in CS 5350/6350: Machine Learning, 2011, vol 2011 [23] X Su and T M Khoshgoftaar, “A Survey of Collaborative Filtering Techniques,” Adv Artif Intell., vol 2009, 2009, doi: 10.1155/2009/421425 [24] Y Zheng, B Mobasher, and R Burke, “CARSKit: A Java-Based Context-Aware Recommendation Engine,” in Proceedings of the 2015 IEEE International Conference on Data Mining Workshop (ICDMW), 2015, pp 1668–1671, doi: 10.1109/ICDMW.2015.222 [25] Y Koren, R Bell, and C Volinsky, “Matrix factorization techniques for recommender systems,” Computer (Long Beach Calif)., vol 42, no 8, pp 30–37, 2009, doi: 10.1109/MC.2009.263 [26] L Baltrunas and F Ricci, “Experimental evaluation of context-dependent collaborative filtering using item splitting,” User Model User-adapt Interact., vol 24, no 1–2, pp 7–34, 2014, doi: 10.1007/s11257-012-9137-9 SOÁ 04A (CS.01) 2020 A CONTEXTUAL PRE-FILTERING METHOD FOR CONTEXT-AWARE RECOMMENDER SYSTEMS Abstract: Recommender systems are specially designed to toward users to interested items when huge information from Internet is beyond the user’s processing capability A common characteristic of recommender systems is that they mainly focus on modeling users, items and ratings In parallel, there is an understanding that it is also important to consider the context in which a recommendation is made Although the integration of context into recommender systems has been shown to improve quality of suggestions significantly, the main difficulty of context-aware recommender systems is how to integrate effectively and the data sparseness problem which directly affect to quality of the recommendation In this paper, I will propose a new contextual pre-filtering method that allow fully integrated context situations and resolve effectively the data sparseness problem In there, the contextual integration is done by a item splitting proceduce based on context and the data sparseness issue is resolved through the training process according to the co-training model for classification problem of collaborative filtering The experimental results on some real data sets show that the proposed method outperforms several baselines and state-of-the-art context-aware recommendation methods Keyword: Context-aware recommender system - CARS; Context-aware collaborative filtering - CACF; Context; Contextual pre-filtering; Item splitting; Co-training model Đỗ Thị Liên, Nhận tốt nghiệp đại học, thạc sỹ học vị tiến sĩ Học viện Công nghệ Bưu Viễn thơng vào năm 2010, 2013, 2020 Hiện giảng viên Học Viện Cơng nghệ Bưu Chính Viễn Thơng Lĩnh vực nghiên cứu chính: học máy ứng dụng lọc thông tin, phát triển ứng dụng đa phương tiện TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 129 ...MỘT PHƯƠNG PHÁP LỌC TRƯỚC THEO NGỮ CẢNH CHO HỆ TƯ VẤN lọc trước ngữ cảnh mơ hình hóa ngữ cảnh vấn đề liệu thưa Ngoài việc tích hợp thơng tin ngữ cảnh vào q trình huấn luyện tư vấn khiến cho phương. .. vấn đề khác hệ tư vấn theo ngữ cảnh, tập trung vào cải tiến phương pháp tư vấn theo ngữ cảnh Các phương pháp đưa để giải toán tư vấn theo ngữ cảnh thuộc ba hướng tiếp cận: (i) lọc trước ngữ cảnh, ... với tình ngữ cảnh cụ thể Tập liệu lọc dùng để huấn luyện tư vấn Quá trình huấn luyện tư vấn cho hệ tư vấn theo ngữ cảnh sau sử dụng trực tiếp phương pháp lọc thông tin áp dụng cho hệ tư vấn truyền