PHÁT TRIỂN một số PHƯƠNG PHÁP xây DỰNG hệ tư vấn tt

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THƠNG ****************************************** ĐỖ THỊ LIÊN PHÁT TRIỂN MỘT SỐ PHƢƠNG PHÁP XÂY DỰNG HỆ TƢ VẤN Chuyên ngành: Hệ thống thơng tin Mã số : 9.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT HÀ NỘI – 2020 Cơng trình hồn thành tại: Học viện Cơng nghệ Bƣu Viễn thơng Người hướng dẫn khoa học: GS.TS Từ Minh Phƣơng TS Nguyễn Duy Phƣơng Phản biện 1: ……………………………………………………… Phản biện 2: ……………………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án tại: Học viện Cơng nghệ Bƣu Viễn thơng Vào hồi: ……giờ, ngày…… tháng…….năm…………… Có thể tìm hiểu luận án tại: Thƣ viện Quốc gia Việt Nam Thƣ viện Học viện Cơng nghệ Bƣu Viễn thơng MỞ ĐẦU Tính cấp thiết luận án Với gia tăng nhanh chóng thơng tin Web cần thiết phải có cơng cụ giúp người dùng lựa chọn thơng tin trực tuyến phù hợp với Để đáp ứng nhu cầu này, hệ thống tư vấn đời Hệ tư vấn (Recommender System) xem hệ thống lọc tích cực, có chức hỗ trợ đưa định, nhằm mục đích cung cấp cho người sử dụng gợi ý thông tin, sản phẩm dịch vụ phù hợp với yêu cầu sở thích riêng người tình (ngữ cảnh) Về hệ tư vấn chia thành hai hướng tiếp cận tùy thuộc vào cách khai thác thông tin đầu vào khác phục vụ cho mục đích tư vấn, là: 1) Hệ tư vấn với cách tiếp cận truyền thống; 2) Hệ tư vấn mở rộng cách tiếp cận truyền thống Trong trình nghiên cứu ứng dụng, có nhiều nghiên cứu đề xuất đưa để giải toán tư vấn theo hai hướng tiếp cận trên, nhiên số vấn đề mang tính đặc thù thơng tin tư vấn vấn đề liệu thưa, người dùng mới, sản phẩm mới, vấn đề sở thích thay đổi theo thời gian, yêu cầu kết hợp dạng thông tin khác nhau, làm việc với liệu kích thước lớn cập nhật thường xuyên… vấn đề có tính thời thu hút quan tâm cộng đồng việc nghiên cứu triển khai vào thực tế Đề tài “Phát triển số phương pháp xây dựng hệ tư vấn” thực khuôn khổ luận án tiến sĩ chuyên ngành hệ thống thơng tin nhằm góp phần giải số vấn đề tồn q trình xây dựng hệ tư vấn, vấn đề liệu thưa kết hợp số dạng thông tin khác vào trình tư vấn Mục tiêu luận án Mục tiêu luận án nghiên cứu phát triển số phương pháp xây dựng hệ tư vấn Đặc biệt, nghiên cứu tập trung vào việc nâng cao độ xác kết dự đốn sản phẩm phù hợp với người dùng trường hợp liệu thưa, trường hợp có liệu sở thích người dùng, thơng tin đặc trưng người dùng, thông tin đặc trưng sản phẩm thông tin ngữ cảnh sử dụng sản phẩm người dùng Đồng thời, nghiên cứu tập trung đề xuất số phương pháp tư vấn đơn giản cài đặt để khả thi triển khai thực tế Các đóng góp luận án (1) Đề xuất phương pháp lọc cộng tác dựa mơ hình đồ thị cho hệ tư vấn theo ngữ cảnh (2) Đề xuất phương pháp lọc kết hợp phương pháp đồng huấn luyện Bố cục luận án Chương 1: Tổng quan hệ tư vấn Chương 2: Phát triển phương pháp lọc cộng tác dựa mơ hình đồ thị cho hệ tư vấn theo ngữ cảnh Chương 3: Phát triển phương pháp lọc kết hợp đồng huấn luyện CHƢƠNG 1: TỔNG QUAN VỀ HỆ TƢ VẤN 1.1 Khái niệm hệ tƣ vấn Hệ tư vấn, tiếng anh Recommender System Recommendation System, hệ thống thiết kế để hướng người dùng đến đối tượng quan tâm, u thích, lượng thơng tin q lớn vượt khả xử lý người dùng Theo Ricci cộng sự, hệ tư vấn công cụ phần mềm, kỹ thuật cung cấp đề xuất đối tượng hữu ích với người dùng Những đề xuất liên quan đến định người dùng như: sản phẩm nên mua, hát nên nghe, hay tin tức nên đọc 1.2 Các lĩnh vực ứng dụng hệ tƣ vấn Hiện hệ tư vấn ứng dụng rộng rãi nhiều lĩnh vực khác nhau, điển thương mại điện tử, giáo dục, giải trí, du lịch, chăm sóc sức khỏe, truyền thông xã hội, ăn uống… 1.3 Phát biểu toán tƣ vấn Cho tập hợp hữu hạn gồm người dùng Mỗi người dùng (với trưng nội dung Các đặc trưng sản phẩm ) biểu diễn thông qua đặc thông thường thông tin cá nhân người dùng (Demographic Information) Mỗi sản phẩm (với ) hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người dùng cần đến Mỗi sản phẩm biểu diễn thông qua đặc trưng nội dung Các đặc trưng nhận từ phương pháp trích chọn đặc trưng lĩnh vực truy vấn thông tin Mối quan hệ tập người dùng thông qua ma trận đánh giá với ; tập sản phẩm biểu diễn (Hình 1.2) Gọi người dùng thời, người dùng cần tư vấn hay người dùng tích cực Khi đó, tồn hai dạng tốn điển hình hệ tư vấn là: (1) Dự đốn đánh giá người dùng với sản phẩm chưa có đánh giá trước (2) Tư vấn danh sách ngắn sản phẩm phù hợp với người dùng thời Cụ thể người dùng , hệ tư vấn chọn sản phẩm phù hợp với người dùng để gợi ý cho họ 1.4 Qui trình xây dựng hệ tƣ vấn Qui trình tổng quát để giải tốn tư vấn thơng thường gồm có giai đoạn chính: 1) Thu thập thơng tin; 2) Xây dựng mơ hình; 3) Dự đốn đánh giá / Đưa tư vấn 1.5 Các hƣớng tiếp cận xây dựng hệ tƣ vấn 1.5.1 Hệ tƣ vấn sử dụng lọc cộng tác Lọc cộng tác phương pháp khai thác khía cạnh liên quan đến thói quen sử dụng sản phẩm cộng đồng người dùng có sở thích khứ để đưa dự đoán sản phẩm phù hợp với người dùng thời Các phương pháp lọc cộng tác nói chung phân thành hai nhóm chính: 1) Lọc cộng tác dựa vào nhớ (Memory-based /Heuristic-based); 2) Lọc cộng tác dựa vào mơ hình (Model-based) Những vấn đề cần tiếp tục nghiên cứu lọc cộng tác vấn đề liệu thưa, vấn đề người dùng sản phẩm mới, vấn đề sở thích thay đổi theo thời gian 1.5.2 Hệ tƣ vấn sử dụng lọc nội dung Lọc theo nội dung phương pháp gợi ý cho người dùng sản phẩm có nội dung tương tự với sản phẩm họ mua truy nhập khứ Các phương pháp tiếp cận cho lọc theo nội dung chia thành hai nhóm chính: 1) Lọc nội dung dựa vào nhớ 2) Lọc nội dung dựa vào mơ hình Những vấn đề cần tiếp tục nghiên cứu lọc nội dung vấn đề trích chọn đặc trưng người dùng 1.5.3 Hệ tƣ vấn sử dụng lọc kết hợp Lọc kết hợp phương pháp kết hợp kỹ thuật tư vấn khác Trong có bốn xu hướng là: 1) Kết hợp kết dự đoán lọc cộng tác lọc nội dung lọc kết hợp; 2) Kết hợp đặc tính lọc nội dung vào lọc cộng tác; 3) Kết hợp đặc tính lọc cộng tác vào lọc nội dung; 4) Xây dựng mơ hình hợp lọc cộng tác lọc nội dung Vấn đề cần tiếp tục nghiên cứu lọc kết hợp nâng cao hiệu phương pháp biểu diễn dự đốn cho mơ hình kết hợp 1.5.4 Hệ tƣ vấn mở rộng cách tiếp cận truyền thống Các nghiên cứu hệ tư vấn tập trung theo hai xu hướng chính: 1) Cải tiến phương pháp lọc tin truyền thống hệ tư vấn; 2) Mở rộng phương pháp tư vấn truyền thống cho phép tích hợp thêm nguồn thơng tin khác, điển hình thơng tin ngữ cảnh 1.6 Các phƣơng pháp độ đo đánh giá hệ tƣ vấn 1.6.1 Phƣơng pháp đánh giá hệ thống tƣ vấn Để đánh giá độ xác hệ thống tư vấn, trước tiên từ ma trận đánh giá ta tiến hành chia người dùng (các hàng ma trận ) thành hai phần, phần sử dụng làm liệu huấn luyện, phần lại sử dụng để kiểm tra cho Tập liệu huấn luyện dùng để xây dựng mơ hình theo thuật tốn lọc sử dụng hệ tư vấn, tập kiểm tra dùng vào trình kiểm nghiệm thuật tốn tư vấn Một số cách tiếp cận để chia tập người dùng thành phần : Phân chia (Splitting), Lấy mẫu Bootstrap (Bootstrap sampling), Kiểm thử chéo (k-fold cross validation) 1.6.2 Độ đo đánh giá độ xác đánh giá dự đốn Độ đo điển hình để đánh giá tính xác giá trị dự đoán mà hệ tư vấn đưa độ sai số giá trị dự đoán giá trị thực tế Một số độ đo phổ biến đánh giá sai số phân loại: Độ đo trung bình giá trị tuyệt đối lỗi MAE, độ đo trung bình lỗi lấy RMSE 1.6.3 Độ đo đánh giá độ xác danh sách sản phẩm tƣ vấn Một số độ đo phổ biến để đánh giá độ xác danh sách sản phẩm tư vấn: Độ xác (Precision), độ nhạy (Recall), E-measure, F-measure; Độ xác trung bình tuyệt đối MAP (Mean Average Precision) 1.7 Các nguồn tài nguyên hỗ trợ học tập, nghiên cứu hệ tƣ vấn 1.8 Kết luận chƣơng Nội dung chương trình bày làm rõ khái niệm hệ tư vấn, phạm vi ứng dụng phát biểu toán hệ tư vấn mức tổng quát Qua đây, luận án phân tích ưu điểm mặt hạn chế phương pháp nghiên cứu có, làm sở để nghiên cứu sinh nghiên cứu phát triển số phương pháp tư vấn Các đề xuất luận án trình bày chương CHƢƠNG 2: PHÁT TRIỂN PHƢƠNG PHÁP LỌC CỘNG TÁC DỰA TRÊN MƠ HÌNH ĐỒ THỊ CHO HỆ TƢ VẤN THEO NGỮ CẢNH 2.1 Đặt vấn đề Một số khó khăn mà phương pháp lọc cộng tác gặp phải vấn đề liệu thưa Để giải vấn đề liệu thưa cho lọc cộng tác, hướng tiếp cận điển hình đưa ra: 1) Giảm số chiều ma trận đánh giá; 2) Khai thác mối liên hệ gián tiếp ma trận đánh giá Trong chương luận án trình bày đề xuất phương pháp tính tốn mức độ tương tự cặp người dùng sản phẩm dựa mơ hình đồ thị, theo hướng tiếp cận thứ Trên sở độ đo tương tự dựa mơ hình đồ thị đề xuất cho hệ tư vấn cộng tác với cách tiếp cận truyền thống đưa Mục 2.2, luận án phát triển hệ tư vấn cộng tác theo ngữ cảnh mục 2.3 Mơ hình đồ thị cho phép khai thác mối quan hệ trực tiếp bắc cầu đỉnh giúp giải vấn đề liệu thưa, đồng thời khắc phục nhược điểm phương pháp hướng trước 2.2 Độ đo tƣơng tự cho lọc cộng tác dựa mơ hình đồ thị 2.2.1 Biểu diễn đồ thị cho lọc cộng tác Hệ lọc cộng tác với ma trận đánh giá gồm người dùng sản phẩm hình thành nên đồ thị hai phía, phía tập người dùng, phía lại tập sản phẩm, ký hiệu đồ thị Tập đỉnh đồ thị chia thành hai tập: tập đỉnh người dùng tập đỉnh sản phẩm ( ) Tập cạnh đồ thị xác định theo công thức (2.2) Mỗi cạnh kết nối từ đỉnh người dùng tới đỉnh sản phẩm tồn đánh giá biết trước với , có dạng Khơng tồn cạnh nối hai đỉnh người dùng cạnh nối hai đỉnh sản phẩm Trọng số cạnh định theo (2.3) { ( ) xác (2.2) | (2.3) { 2.2.2 Độ đo tƣơng tự cho lọc cộng tác dựa biểu diễn đồ thị 2.2.2.1 Độ đo tương tự cặp người dùng cho lọc cộng tác dựa biểu diễn đồ thị Mức độ tương tự người dùng người dùng ước lượng bẳng tổng trọng số tất đường độ dài từ đỉnh đến đỉnh đồ thị, với trọng số đường tính tích trọng số cạnh tương ứng Việc làm xác định thông qua ma trận trọng số tổng quát biểu diễn đồ thị ( (2.4) ) Khi đó, mức độ tương tự cặp người dùng tính tốn dựa vào ma trận trọng số theo công thức sau: (2.5) { Định lý 2.1 cho ta cách xác định cộng tác liên thông trường hợp đồ thị biểu diễn lọc Định lý 2.1 Nếu đồ thị biểu diễn cho hệ lọc cộng tác tồn số tự nhiên chẵn để với Trong đó, liên thơng ln ln xác định theo (2.5) 2.2.2.2 Độ đo tương tự cặp người dùng cho lọc cộng tác dựa biểu diễn đồ thị Mức độ tương tự cặp sản phẩm tính tốn theo cơng thức (2.6) sau: (2.6) { Định lý 2.2 Nếu đồ thị biểu diễn cho hệ lọc cộng tác số tự nhiên chẵn L để pz xy  với liên thông ln ln tồn Trong đó, pz xyL xác định theo (2.6) 2.3 Lọc cộng tác dựa mô hình đồ thị cho hệ tƣ vấn theo ngữ cảnh 2.3.1 Ngữ cảnh Định nghĩa ngữ cảnh: “Thông tin ngữ cảnh thơng tin mơ tả hoàn cảnh thực thể Thực thể người, vật đối tượng có liên quan tới tương tác người dùng ứng dụng, bao gồm thân người dùng ứng dụng đó” 2.3.2 Bài tốn tƣ vấn theo ngữ cảnh Bài toán tư vấn truyền thống biểu diễn dựa ma trận đánh giá hai chiều sau: (2.7) Bài toán tư vấn theo ngữ cảnh dựa ma trận đánh giá đa chiều (Multidimensional matrix) sau: (2.8) Tổng quát hóa, giả sử ta có tập hữu hạn tập gồm người dùng, tập gồm sản phẩm chiều ngữ cảnh , chiều ngữ cảnh có tương ứng điều kiện ngữ cảnh Mối quan hệ tập người dùng , tập sản phẩm tập ngữ cảnh biểu diễn thông qua công thức (2.8) Nhiệm vụ hệ tư vấn theo ngữ cảnh dự đoán đánh giá đưa tư vấn sản phẩm cho người dùng tình ngữ cảnh cụ thể 2.3.3 Các hƣớng tiếp cận giải toán tƣ vấn theo ngữ cảnh Các cách tiếp cận để sử dụng thông tin ngữ cảnh q trình tư vấn phân thành hướng tiếp cận: 1) Lọc trước theo ngữ cảnh; 2) Lọc sau theo ngữ cảnh 3) Mô hình hóa ngữ cảnh Luận án đề xuất phương pháp tư vấn cộng tác theo ngữ cảnh thuộc hướng tiếp cận lọc trước ngữ cảnh theo hình 2.4 sau Phân tách sản phẩm theo ngữ cảnh U Biểu diễn đồ thị cho lọc cộng tác U C T P Đồ thị hai phía Ma trận tƣơng tự cặp ngƣời dùng Danh sách Top-N sản phẩm tƣ vấn Tính độ tƣơng tự cho lọc cộng tác dựa biểu diễn đồ thị Sinh tƣ vấn Ma trận tƣơng tự cặp sản phẩm Hình 2.4 Bộ khung triển khai phương pháp lọc cộng tác dựa mơ hình đồ thị cho hệ tư vấn theo ngữ cảnh 2.3.4.1 Phân tách sản phẩm theo ngữ cảnh Phương pháp phân tách sản phẩm theo ngữ cảnh cải tiến cho phép tích hợp đầy đủ thơng tin ngữ cảnh việc chuyển hóa sản phẩm ban đầu thành sản phẩm giả lập Các bước thực cụ thể sau:    Bƣớc Tạo chiều ngữ cảnh đại diện cho chiều ngữ cảnh cách lấy tích Đề-các tất chiều ngữ cảnh Bƣớc Tạo tập sản phẩm giả lập cách lấy tích Đề-các tập sản phẩm chiều ngữ cảnh Bƣớc Chuyển đổi ma trận đánh giá đa chiều ma trận đánh giá hai chiều việc loại bỏ tập ngữ cảnh, thay tập sản phẩm ban đầu tập sản phẩm giả lập Quá trình phân tách sản phẩm theo ngữ cảnh biến đổi ma trận đánh giá đa chiều (biểu diễn đánh giá người dùng với sản phẩm tình ngữ cảnh khác nhau) ma trận đánh giá hai chiều (biểu diễn đánh giá người dùng với sản phẩm giả lập) Để hạn chế vấn đề liệu thưa lọc cộng tác áp dụng cho ma trận đánh giá hai chiều , luận án sử dụng phương pháp tính tốn tốn mức độ tương tự cặp người dùng sản phẩm dựa mơ hình đồ thị đề xuất Mục 2.2 2.3.4.2 Biểu diễn đồ thị cho lọc cộng tác Áp dụng phương pháp biểu diễn đồ thị cho lọc cộng tác đề xuất Mục 2.2.1 cho ma trận đánh giá hai chiều thu sau bước 2.3.4.1 2.3.4.3 Tính độ tương tự cho lọc cộng tác dựa biểu diễn đồ thị Việc tính tốn mức độ tương tự cho lọc cộng tác dựa vào biểu diễn đồ thị nêu đươc chia thành cách tiếp cận theo đề xuất 2.2.2 2.3.4.4 Sinh tư vấn Áp dụng phương pháp kNN để sinh danh sách sản phẩm tư vấn phù hợp với người dùng thời với độ đo tương tự trình bày Mục 2.3.4.3 Trên sở khung triển khai phương pháp lọc cộng tác dựa mơ hình đồ thị cho hệ tư vấn theo ngữ cảnh, luận án đề xuất hai thuật toán cho hệ tư vấn cộng tác theo ngữ cảnh là: 1) Thuật toán lọc cộng tác theo ngữ cảnh dựa vào mức độ tương tự cặp người dùng mơ hình đồ thị (IS-UserBased-Graph); 2) Thuật toán lọc cộng tác theo ngữ cảnh dựa vào mức độ tương tự cặp sản phẩm mơ hình đồ thị (IS-ItemBased-Graph) Đầu vào: - Ma trận đánh giá đa chiều (chứa thông tin ngữ cảnh) người dùng thời cần tư vấn ngữ cảnh ứng với người dùng thời số lượng người dùng tập láng giềng với số lượng sản phẩm cần tư vấn cho Đầu ra: - Danh sách sản phẩm tư vấn tới người dùng tình ngữ cảnh Các bƣớc thực hiện: Bƣớc Chuyển đổi ma trận đánh giá dạng đa chiều dạng hai chiều Theo phương pháp phân tách sản phẩm theo ngữ cảnh ( Mục 2.3.4.1) Bƣớc Tính mức độ tương tự cặp người dùng dựa mơ hình đồ thị Biểu diễn đồ thị cho hệ tư vấn (Mục 2.3.4.2)  ; //Thiết lập độ dài đường ban đầu cặp người dùng Repeat {  Until ( ; // Tăng độ dài đường với ); - Bƣớc Sinh tư vấn cho người dùng thời ngữ cảnh  Với người dùng thời , chọn người dùng có mức độ tương tự cao với làm tập láng giềng Kí hiệu tập láng giềng gồm người dùng  Dự đoán đánh giá chưa biết người dùng với sản phẩm ∑ { }  Chuyển đổi ma trận dự đoán đánh giá hai chiều chứa sản phẩm giả lập (trong tập ) ma trận dự đoán đánh giá đa chiều chứa sản phẩm thực (thuộc tập ) tình ngữ cảnh kèm (thuộc tập )  Chọn sản phẩm thực có đánh giá dự đốn cao để tư vấn cho người dùng tình ngữ cảnh Thuật toán 2.1 Thuật toán IS-UserBased-Graph Đầu vào: - Ma trận đánh giá đa chiều (chứa thông tin ngữ cảnh) người dùng thời cần tư vấn ngữ cảnh ứng với số lượng sản phẩm tập láng giềng với sản phẩm đánh giá số lượng sản phẩm cần tư vấn cho Đầu ra: - Danh sách sản phẩm tư vấn tới người dùng tình ngữ cảnh Các bƣớc thực hiện: Bƣớc Chuyển đổi ma trận đánh giá dạng đa chiều dạng hai chiều Theo phương pháp phân tách sản phẩm theo ngữ cảnh ( Mục 2.3.4.1) Bƣớc Tính mức độ tương tự cặp sản phẩm dựa mơ hình đồ thị Biểu diễn đồ thị cho hệ tư vấn (Mục 2.3.4.2)  ; //Thiết lập độ dài đường ban đầu cặp sản phẩm Repeat {  Until ( ; // Tăng độ dài đường với ); - Bƣớc Sinh tư vấn cho người dùng thời  Thực lặp: với sản phẩm giả lập o Chọn ngữ cảnh chưa đánh giá người dùng sản phẩm có mức độ tương tự cao với tập láng giềng gồm o Dự đoán đánh giá chưa biết sản phẩm người dùng với làm tập láng giềng Kí hiệu pháp tư vấn truyền thống cho lại hiệu tư vấn tốt so với phương pháp tư vấn theo ngữ cảnh khác, hướng tiếp cận để đưa đề xuất phương pháp tư vấn theo ngữ cảnh tác giả luận án 4) Các phương pháp dựa mơ hình đồ thị sử dụng chiều ngữ cảnh ItemSplitting-UserBasedGraph, ItemSplitting-ItemBased-Graph cho lại Precision@10 tốt hơn, MAP@10 lại cho kết thấp phương pháp dựa mơ hình đồ thị khơng sử dụng ngữ cảnh UserBasedGraph / ItemBased-Graph phương pháp tư vấn theo ngữ cảnh sở hướng sử dụng kết hợp ItemSplitting Như khẳng định việc dùng chiều ngữ cảnh phương pháp phân tách sản phẩm theo ngữ cảnh kết hợp với phương pháp dựa đồ thị chưa giải pháp tối ưu 5) Việc sử dụng đồng thời nhiều chiều ngữ cảnh giúp bổ sung thơng tin hữu ích cho trình tư vấn việc sử dụng chiều ngữ cảnh xét tiêu chí Precision@10 MAP@10 Kết kiểm nghiệm phương pháp đề xuất IS-UserBased-Graph, IS-ItemBased-Graph cho lại độ xác tốt phương pháp sở Đặc biệt, phương pháp ISItemBased-Graph cho cao ba tập liệu cao tập liệu MovieLens Phương pháp IS-UserBased-Graph cho cao tập liệu InCarMusic Quan sát riêng tập liệu DepaulMovie, tác giả nhận thấy phương pháp UserSplitting-BiasedMF cho cao phương pháp khác, điều lý giải DepaulMovie tập liệu thưa thớt ba tập liệu Các kết đưa chứng cho thấy phương pháp đề xuất luận án nhạy cảm với liệu thưa thớt so với phương pháp tư vấn theo ngữ cảnh sở, dù thực tế phương pháp đề xuất tích hợp đầy đủ thông tin ngữ cảnh Trong hai phương pháp đề xuất luận án, IS-ItemBased-Graph cho độ xác cao IS-UserBased-Graph, điều lý giải bước thuật tốn, sản phẩm phân tách thành sản phẩm giả lập nên thông tin sản phẩm khai thác chi tiết đầy đủ cho trình huấn luyện sinh tư vấn sau 6) Phương pháp đề xuất luận án IS-UserBased-Graph, IS-ItemBased-Graph cho lại độ xác cao IS-Graph, điều khẳng định việc kết hợp khai thác mối quan hệ bắc cầu cặp người dùng cặp sản phẩm giải thuật kNN cho lại hiệu tư vấn tốt việc khai thác mối quan hệ bắc cầu đỉnh người dùng sản phẩm đồ thị trước 2.5 Kết luận chƣơng Chương trình bày độ đo tương tự cặp người dùng cặp sản phẩm để giải toán lọc cộng tác cho hệ tư vấn truyền thống trọng tâm vào mở rộng cho hệ tư vấn theo ngữ cảnh Phương pháp lọc cộng tác dựa mơ hình đồ thị đề xuất cho hệ tư vấn theo ngữ cảnh cho phép tích hợp đầy đủ thơng tin ngữ cảnh vào q trình dự đoán sản phẩm phù hợp cho người dùng hạn chế ảnh hưởng vấn đề thưa liệu đánh giá Kết kiểm nghiệm ba tập liệu thực cho thấy phương pháp đề xuất cho lại kết dự đoán tốt phương pháp tư vấn theo ngữ cảnh sở, đặc biệt trường hợp liệu thưa 11 CHƢƠNG 3: PHÁT TRIỂN PHƢƠNG PHÁP LỌC KẾT HỢP BẰNG ĐỒNG HUẤN LUYỆN 3.1 Đặt vấn đề Lọc kết hợp phương pháp kết hợp phương pháp tư vấn khác cho phép ta tận dụng lợi phương pháp việc nâng cao kết dự đoán Trong chương này, luận án tiếp cận hướng kết hợp đặc tính lọc nội dung vào lọc cộng tác dựa vào nhớ để phát triển phương pháp lọc kết hợp cho hệ tư vấn Mục 3.2 trình bày đề xuất phương pháp giải vấn đề liệu thưa cho lọc cộng tác đồng huấn luyện Trên sở lọc cộng tác phương pháp đồng huấn luyện, luận án đề xuất phương pháp lọc kết hợp đồng huấn luyện Mục 3.3 nhằm giải vấn đề liệu tích hợp hiệu đặc trưng nội dung vào lọc cộng tác 3.2 Lọc cộng tác phƣơng pháp đồng huấn luyện Bài toán lọc cộng tác nhằm dự đoán đánh giá chưa biết từ tập đánh giá biết phát biểu toán phân lớp sở học máy 3.2.1 Phát biểu toán lọc cộng tác phân lớp Nhiệm vụ lọc cộng tác điền vào hay dự đốn giá trị thích hợp cho giá trị chưa có đánh giá ma trận đánh giá Tiếp cận lọc cộng tác phân lớp ta cần cá nhân hóa mơ hình học theo người dùng theo sản phẩm nhằm gán nhãn cho giá trị đánh giá chưa biết ma trận đánh giá Các nhãn thuộc dải giá trị với giá trị đánh giá biết 3.2.2 Phân lớp phƣơng pháp đồng huấn luyện 3.2.2.1 Giải toán phân lớp theo hướng tiếp cận học bán giám sát Xét mức độ phù hợp hướng tiếp cận học máy cho hệ tư vấn, với thông tin đầu vào ma trận đánh giá, tác giả nhận định rằng: Với ma trận đánh giá ban đầu có số đánh giá biết trước, để khai thác đầy đủ liệu gán nhãn chưa gán nhãn từ ma trận đánh giá đầu vào cho hệ tư vấn nhằm hạn chế ảnh hưởng vấn đề liệu thưa, tác giả tập trung nghiên cứu vào hướng tiếp cận học bán giám sát cho toán phân lớp, trường hợp toán lọc cộng tác 3.2.2.2 Phát biểu toán phân lớp học bán giám sát Cho tập hữu hạn gồm mẫu liệu gán nhãn, tập hữu hạn gồm mẫu liệu chưa gán nhãn, Nhiệm vụ toán phân lớp liệu cần xây dựng mơ hình phân lớp để có mẫu liệu vào mơ hình phân lớp cho biết mẫu liệu thuộc lớp Với hướng tiếp cận học bán giám sát cho tốn phân lớp hai tập liệu gán nhãn chưa gán nhãn tham gia vào việc huấn luyện dự đoán lớp Trong phạm vi luận án, tác giả đề xuất cách tiếp cận dựa vào phương pháp đồng huấn luyện cho toán phân lớp lọc cộng tác 3.2.2.3 Bán giám sát phương pháp đồng huấn huyện Phương pháp đồng huấn luyện đánh giá phù hợp cho liệu chứa mẫu liệu quan sát hai góc nhìn độc lập nhau, phương pháp cho phép phân lớp học riêng biệt góc nhìn liệu kết hợp dự đốn để giảm lỗi phân lớp Q trình lặp lại đến thỏa mãn điều kiện mẫu liệu gán nhãn số vòng lặp đạt đến ngưỡng xác định trước 12 3.2.3 Mơ hình đồng huấn luyện cho lọc cộng tác Hình 3.1 Bộ khung triển khai lọc cộng tác phương pháp đồng huấn luyện 3.2.3.1 Mơ hình học theo người dùng Việc xác định mức độ tương tự cặp người dùng không dùng để xác định tập láng giềng tác động trực tiếp lên tư vấn trong, mà để dùng vào việc xác định nhãn phân loại chắn cho người dùng Để thực điều này, tác giả đưa khái niệm tập sinh cho người dùng theo định nghĩa 3.1 Định nghĩa 3.1 Tập sinh cho người dùng dùng có đánh giá giao với tối thiểu dương ký hiệu là tập tất người sản phẩm Trong đó, số nguyên (3.1) Mức độ tương tự mỗi người dùng tập sinh người dùng  ∑ ̅ ̅ ∑ √∑ { Tập láng giềng người dùng Trong đó,  có mức độ tương tự (3.2) ̅ ̅ xác định theo định nghĩa 3.2 Định nghĩa 3.2 Tập láng giềng người dùng thuộc tập sinh tính tốn , ký hiệu , tập người dùng xác định theo công thức (3.2) vượt ngưỡng  (3.3) Dựa tập láng giềng người dùng , mẫu liệu chưa có đánh giá gán nhãn giá trị dự đoán (nhãn phân loại chắn) theo công thức (3.4) 13 ∑ ̅ ( (3.4) ̅) ∑ 3.2.3.2 Mơ hình học theo sản phẩm Tương tự người dùng, việc xác định mức độ mức độ tương tự cặp sản phẩm dựa khái niệm tập sinh cho sản phẩm theo định nghĩa 3.3 Định nghĩa 3.3 Tập sinh cho sản phẩm ký hiệu là tập tất sản phẩm có đánh giá giao với tối thiểu người dùng Trong đó, số nguyên dương (3.5) Mức độ tương tự sản phẩm sinh sản phẩm tính tốn tập  ∑ { ̅ √∑ ̅ ∑ ̅ Tập láng giềng sản phẩm (3.6) ̅ xác định theo định nghĩa 3.4 Định nghĩa 3.4 Tập láng giềng sản phẩm ký hiệu là tập sản phẩm thuộc tập sinh có mức độ tương tự xác định theo công thức (3.6) vượt ngưỡng  Trong đó,  { (3.7) | Dựa tập láng giềng sản phẩm dự đốn theo cơng thức (3.8) ∑ , nhãn phân loại chắn cho người dùng (3.8) ∑ 3.2.3.2 Lọc cộng tác phương pháp đồng huấn luyện theo người dùng Đầu vào:Khởi tạo ma trận đánh giá Đầu :Ma trận dự đoán { { } } Các bƣớc tiến hành: Khởi tạo số bước lặp ban đầu: Bước lặp: Repeat 2.1 Tăng bước lặp: ; 2.2 Huấn luyện theo người dùng: a) Tìm b) Tìm c) Dự đốn theo cơng thức (3.1), (3.2) theo cơng thức (3.3) theo công thức (3.4) 2.3 Huấn luyện theo sản phẩm: 14 theo cơng thức (3.5), (3.6) a) Tìm theo cơng thức (3.7) b) Tìm c) Dự đốn theo cơng thức (3.8) Until Thuật tốn 3.2 Thuật tốn CoTrainning-UserItem Tính hội tụ điều kiện cần đủ để thuật tốn CoTraining-UserItem điền đầy đủ giá trị dự đoán theo mệnh đề 3.1 định lý 3.1 Mệnh đề 3.1 Thuật toán CoTraining-User tem s hội t v ng lặp thứ t khơng có nh n phân loại bổ sung vào ma trận dự đốn, với Định lý 3.1 Điều kiện cần đủ để dự đoán quan điểm người dùng cho tất sản phẩm giá trị đánh giá theo phương pháp CoTraining-UserItem Trong đó, xác định theo cơng thức (3.3) ⋃ 3.2.3.3 Lọc cộng tác phương pháp đồng huấn luyện theo sản phẩm Đầu vào:Khởi tạo ma trận đánh giá Đầu :Ma trận dự đoán { { } } Các bƣớc tiến hành: Khởi tạo số bước lặp ban đầu: Bước lặp: Repeat 2.1 Tăng bước lặp: ; 2.2 Huấn luyện theo sản phẩm: theo cơng thức (3.5), (3.6) a) Tìm b) Tìm c) Dự đốn theo cơng thức (3.7) theo cơng thức (3.8) 2.3 Huấn luyện theo người dùng: theo công thức (3.1), (3.2) a) Tìm b) Tìm c) Dự đốn theo cơng thức (3.3) theo cơng thức (3.4) Until Thuật tốn 3.3 Thuật tốn CoTraining-ItemUser Tính hội tụ điều kiện cần đủ để thuật tốn CoTraining-ItemUser điền đầy đủ giá trị dự đoán theo mệnh đề 3.2 định lý 3.2 15 Mệnh đề 3.2 Thuật tốn CoTraining-ItemUser s hội t vòng lặp thứ khơng có nh n phân loại bổ sung vào ma trận dự đốn, với Định lý 3.2 Điều kiện cần đủ người dùng dự đoán sản phẩm giá trị đánh giá ⋃ Trong đó, xác định theo công thức (3.7) 3.2.3.2 Sinh tư vấn Từ ma trận thu sau trình đồng huấn luyện, tiến hành xếp sản phẩm chưa đánh giá ban đầu người dùng thời theo thứ tự giảm dần sản phẩm số tư vấn cho người dùng Sau đó, chọn 3.3 Lọc kết hợp phƣơng pháp đồng huấn luyện 3.3.1 Hợp biểu diễn giá trị đặc trƣng nội dung vào ma trận đánh giá 3.3.1.1 Hợp hồ sơ người dùng lọc nội dung vào ma trận đánh giá Gọi xác đinh theo (3.12) tập sản phẩm đánh giá người dùng (3.12) Gọi công thức (3.13) tập sản phẩm chứa đựng đặc trưng xác định theo (3.13) Dựa phương pháp tư vấn theo nội dung ước lượng trọng số phản ánh mức độ quan trọng đặc trưng nội dung người dùng Trong đề xuất tác giả đưa phép trích chọn đặc trưng có mức độ đánh giá tự nhiên theo (3.14) (3.14) ∑ ∑ { Dễ dàng nhận thấy , Chính vậy, ta xem đặc trưng nội dung sản phẩm đóng vai trò sản phẩm phụ bổ sung vào tập sản phẩm Ma trận đánh giá mở rộng theo hồ sơ người dùng xác định theo (3.15) Trong đó, ( ) đóng vai trò sản phẩm phụ bổ sung vào ma trận đánh giá phía sản phẩm (3.15) { 3.3.1.2 Hợp hồ sơ sản phẩm lọc nội dung vào ma trận đánh giá Gọi phẩm xác đinh theo công thức (3.16) tập người dùng sử dụng sản (3.16) 16 Gọi tập người dùng có đặc trưng xác định theo cơng thức (3.17) { (3.17) } Tác giả đề xuất phương pháp trích chọn đặc trưng nội dung người dùng có mức độ đánh giá với giá trị đánh giá theo (3.18) (3.18) ∑ ∑ { Ma trận đánh giá mở rộng theo hồ sơ sản phẩm xác định theo cơng thức (3.19) Trong đó, đóng vai trò người dùng phụ bổ sung vào để mở rộng ma trận đánh giá phía người dùng (3.19) { 3.3.2 Mơ hình học theo ngƣời dùng Mơ hình học kết hợp theo người dùng phát triển từ mơ hình học theo người dùng cho lọc cộng tác đề xuất Mục 3.2.3.1 Để hạn chế ảnh hưởng vấn đề liệu thưa, với người dùng tác giả xây dựng tập sinh định nghĩa theo (3.20) để giám sát việc tính tốn mức độ tương tự cặp người dùng Trong đó, xác định theo (3.12), xác định theo (3.21) (3.20) { | | | | } (3.21) Dựa vào độ tương quan Pearson, mức độ tương tự cặp người dùng lọc cộng tác xác định theo công thức (3.22), mức độ tương tự cặp người dùng lọc nội dung xác định theo công thức (3.23), mức độ tương tự cặp người dùng lọc kết hợp xác định theo công thức (3.24)  (3.22) ∑ ̅ ( √∑ { ̅ ̅) √∑ ( ̅)  ∑ ⃛ ( √∑ { ⃛ √∑ ⃛) √∑ ∑ ̿ (3.23) ( ⃛) ̿ ( ̿) √∑ (3.24) ̿ ( ) { 17 Trong đó, xác định theo (3.12), xác định theo công thức (3.21); , ̅ , ⃛ , ̿ xác định theo (3.25), (3.26), (3.27), (3.28) (3.25) (3.26) ̅ ∑ ⃛ (3.27) ∑ ̿ (3.28) ∑ Sau xác định mức độ tương tự cặp người dùng, tác giả xây dựng tập láng giềng cho người dùng theo cơng thức (3.29) Phương pháp dự đốn sản phẩm chưa người dùng biết đến thực theo công thức (3.30) (3.29) { } ∑ ̿ ( ∑ (3.30) ̿) | | Những sản phẩm có giá trị dự đốn theo (3.30) dự đoán tin cậy bổ sung vào ma trận đánh giá mở rộng theo hồ sơ sản phẩm 3.3.3 Mơ hình học kết hợp theo sản phẩm Mơ hình học kết hợp theo sản phẩm phát triển từ mơ hình học theo sản phẩm cho lọc cộng tác phương pháp đồng huấn luyện đề xuất Mục 3.3.2 Tương tự người dùng, với sản phẩm tác giả xây dựng tập định nghĩa theo công thức (3.31) để giám sát việc tính tốn mức độ tương tự cặp sản phẩm Trong đó, xác định theo công thức (3.16), xác định theo công thức (3.32) (3.31) { | | | | } (3.32) Dựa vào độ tương quan Pearson, mức độ tương tự cặp sản phẩm lọc cộng tác xác định theo công thức (3.33), mức độ tương tự cặp sản phẩm lọc nội dung xác định theo công thức (3.34), mức độ tương tự cặp sản phẩm lọc kết hợp xác định theo công thức (3.35)  (3.33) ∑ ̅ ( ̅) { √∑ ̅ ( ̅)  ∑ { √∑ √∑ ( ( ⃛ )( ⃛ ) √∑ ⃛) ( 18 ⃛) (3.34) ∑ ̿ ( √∑ ̿ √∑ (3.35) ̿) ( ̿) ( ) { Trong đó, xác định theo cơng thức (3.16), xác định theo công thức (3.32), , ̅ , ⃛ , ̿ xác định theo công thức (3.36), (3.37), (3.38), (3.39), theo thứ tự (3.36) (3.37) ̅ ∑ ⃛ ∑ ̿ ∑ (3.38) (3.39) Sau xác định mức độ tương tự cặp sản phẩm, tác giả xây dựng tập láng giềng cho sản phẩm theo công thức (3.40) Phương pháp dự đoán mức độ phù hợp người dùng sản phẩm thực theo công thức (3.41) (3.40) { } ∑ ∑ (3.41) | | Giá trị dự đoán theo (3.41) phản ánh mức độ phù hợp người dùng phẩm bổ sung vào ma trận đánh giá mở rộng theo hồ sơ người dùng sản 3.3.4 Mơ hình đồng huấn luyện cho lọc kết hợp Đầu vào: - Ma trận xác định theo công thức (3.9) - Ma trận xác định theo công thức (3.10) - Ma trận xác định theo công thức (3.11) - Người dùng - người dùng thời cần tư vấn số lượng sản phẩm cần tư vấn cho người dùng thời số v ng lặp giới hạn Đầu : Danh sách sản phẩm tư vấn tới người dùng thời Các bƣớc tiến hành: Begin Bƣớc 1( Khởi tạo): //khởi tạo số bước lặp ban đầu { }; Bƣớc (Bƣớc lặp): Repeat 19 2.1 Tăng bước lặp : 2.2 Huấn luyện kết hợp theo người dùng a) Xác định trọng số đặc trưng nội dung sản phẩm vòng lặp thứ theo công thức (3.14) b) Mở rộng ma trận đánh giá theo hồ sơ người dùng v ng lặp thứ t theo công thức (3.15) c) Xác định theo cơng thức (3.20) theo cơng thức (3.24) d) Tính tốn e) Xác định theo cơng thức (3.29) f) Dự đốn giá trị theo cơng thức (3.30) 2.3 Huấn luyện kết hợp theo sản phẩm a) Xác định trọng số đặc trưng nội dung người dùng v ng lặp thứ t theo công thức (3.18) b) Mở rộng ma trận đánh giá theo hồ sơ sản phẩm theo công thức (3.19) c) Xác định theo công thức (3.31) d) Tính tốn theo cơng thức (3.35) e) Xác định theo cơng thức (3.40) f) Dự đốn giá trị ) (t = Until (( theo công thức (3.41) )) Bƣớc (sinh tƣ vấn): ; Thuật toán 3.4 Thuật toán CoTraining–HybridFiltering 3.4 Thực nghiệm kết 3.4.1 Thực nghiệm kết phƣơng pháp lọc cộng tác đồng huấn luyện 3.4.1.1.Dữ liệu thực nghiệm Thuật toán lọc cộng tác thực nghiệm liệu: MovieLens-100K bao gồm 100.000 đánh giá 943 người dùng cho 1682 phim; MovieLens-1M bao gồm 1000.000 đánh giá 6000 người dùng cho 4000 phim; MovieLens-10M bao gồm 10.000.000 đánh giá 72000 người dùng với 10.000 phim 3.4.1.2.Cài đặt thực nghiệm  Độ đo: 20  Phƣơng pháp thực nghiệm: Việc phân chia tập liệu U thành tập Utrain Utest thực sau: Lần lượt chọn ngẫu nhiên 200, 400, 600 người dùng tập MovieLens100K làm liệu huấn luyện, 200 người dùng lựa chọn ngẫu nhiên số lại để làm tập kiểm tra Chọn ngẫu nhiên 1000, 2000, 3000 người dùng tập MovieLens-1M làm liệu huấn luyện, 1000 người dùng lựa chọn ngẫu nhiên số lại để làm tập kiểm tra Chọn ngẫu nhiên 10000, 20000, 40000 người dùng tập MovieLens-10M làm liệu huấn luyện, 10000 người dùng lựa chọn ngẫu nhiên số lại để làm tập kiểm tra Việc thực nghiệm thực 10 lần lấy trung bình kết thực nghiệm  Các phƣơng pháp tƣ vấn đƣợc sử dụng để so sánh: UserBased, ItemBased, CoTrainingUserItem, CoTraining-ItemUser 3.4.1.3.Kết kiểm nghiệm Bảng 3.11 Giá trị MAE, RMSE tập MovieLens-100K Kích thước tập liệu huấn luyện 200 người dùng 400 người dùng 600 người dùng Phương pháp UserBased ItemBased CoTraining-UserItem CoTraining -ItemUser UserBased ItemBased CoTraining -UserItem CoTraining -ItemUser UserBased ItemBased CoTraining -UserItem CoTraining -ItemUser MAE Số đánh giá biết trước RMSE Số đánh giá biết trước 10 20 10 20 0.732 0.742 0.621 0.598 0.694 0.711 0.615 0.607 0.693 0.697 0.548 0.534 0.711 0.722 0.594 0.572 0.675 0.697 0.615 0.607 0.686 0.687 0.519 0.524 0.645 0.673 0.512 0.507 0.644 0.653 0.587 0.517 0.686 0.687 0.511 0.514 0.934 0.943 0.789 0.761 0.885 0.904 0.782 0.771 0.885 0.886 0.696 0.679 0.908 0.917 0.754 0.727 0.862 0.886 0.781 0.769 0.876 0.873 0.659 0.666 0.824 0.855 0.651 0.644 0.822 0.829 0.746 0.657 0.876 0.873 0.649 0.653 Bảng 3.12 Giá trị MAE, RMSE tập MovieLens-1M Kích thước tập liệu huấn luyện Phương pháp UserBased 1000 người ItemBased dùng CoTraining-UserItem CoTraining -ItemUser UserBased 2000 người ItemBased dùng CoTraining -UserItem CoTraining -ItemUser UserBased 4000 ItemBased người dùng CoTraining -UserItem CoTraining -ItemUser MAE Số đánh giá biết trước 0.792 0.789 0.764 0.759 0.734 0.731 0.685 0.667 0.713 0.719 0.684 0.667 21 10 0.779 0.774 0.752 0.756 0.725 0.739 0.654 0.647 0.688 0.675 0.642 0.631 20 0.764 0.732 0.716 0.714 0.663 0.657 0.615 0.607 0.686 0.618 0.597 0.598 RMSE Số đánh giá biết trước 10 20 0.960 0.952 0.922 0.917 0.889 0.883 0.827 0.805 0.865 0.868 0.825 0.806 0.945 0.934 0.906 0.912 0.879 0.892 0.789 0.779 0.835 0.815 0.774 0.761 0.927 0.883 0.864 0.862 0.803 0.792 0.743 0.733 0.832 0.746 0.720 0.721 Bảng 0.1 Giá trị MAE, RMSE tập MovieLens-10M MAE RMSE Số đánh giá biết trước Phương pháp Số đánh giá biết trước 10 20 10 20 0.763 0.724 0.716 0.924 0.878 0.868 UserBased 0.788 0.729 0.723 0.951 0.879 0.873 10000 người ItemBased dùng CoTraining-UserItem 0.712 0.694 0.647 0.859 0.837 0.781 CoTraining -ItemUser 0.708 0.674 0.653 0.856 0.813 0.788 0.734 0.615 0.664 0.889 0.746 0.805 UserBased 20000 người ItemBased 0.746 0.618 0.672 0.901 0.746 0.810 dùng CoTraining -UserItem 0.689 0.643 0.622 0.832 0.775 0.751 CoTraining -ItemUser 0.681 0.667 0.619 0.822 0.802 0.747 0.796 0.766 0.684 0.965 0.929 0.829 UserBased 0.790 0.775 0.698 0.954 0.936 0.843 40000 ItemBased người dùng CoTraining -UserItem 0.688 0.669 0.616 0.831 0.807 0.743 CoTraining -ItemUser 0.679 0.654 0.642 0.820 0.789 0.774 Kết kiểm nghiệm đưa Bảng 3.11, Bảng 3.12, Bảng 3.13 cho thấy sai số hai phương pháp lọc cộng tác đồng huấn luyện CoTraining-UserItem CoTraining-ItemUser nhỏ UserBased ItemBased truyền thống kích thước liệu huấn luyện số lượng đánh giá cho trước người dùng Điều khẳng định phương pháp đề xuất cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác, đặc biệt trường hợp liệu thưa Kích thước tập liệu huấn luyện 3.4.2 Thực nghiệm kết phƣơng pháp lọc kết hợp đồng huấn luyện 3.4.2.1.Dữ liệu thực nghiệm Tác giả sử dụng tập liêu MovieLens 1M để tiến hành thực nghiệm cho phương pháp đề xuất Tập liệu MovieLens 1M gồm 1MB đánh giá 6000 người dùng cho 4000 phim 3.4.2.2.Cài đặt thực nghiệm  Độ đo:  Phƣơng pháp thực nghiệm: việc phân chia tập liệu U thành tập Utrain Utest thực sau: Lấy ngẫu nhiên 4000 người dùng tập MovieLens làm liệu huấn luyện Chọn ngẫu nhiên 1000 người dùng số lại để làm tập liệu kiểm tra (test1.inp, test2.inp, test3.inp, test3.inp) Đối với tập liệu kiểm tra, tác giả thực loại bỏ ngẫu nhiên đánh giá cho số đánh giá biết trước người dùng sản phẩm lại 5, 10, 15 20 đánh giá  Các phƣơng pháp tƣ vấn đƣợc sử dụng để so sánh: CF-UserBased, CF-ItemBased, CBFUserBased, CBF-ItemBased, Hybrid-UserBased, Hybrid-ItemBased, CoTrainingHybridFiltering 3.4.2.3.Kết kiểm nghiệm Kết Bảng 3.14 cho thấy phương pháp CoTraining- HybridFiltering cho lại giá trị MAE, RMSE thấp tất mức độ thưa thớt liệu khác Điều khẳng định phương pháp xác định độ tương tự dựa tập không thưa người dùng sản phẩm hoàn toàn tin cậy Phương pháp đồng huấn luyện cho lọc kết hợp đề xuất cho phép chuyển giao kết 22 dự đốn q trình học kết hợp theo người dùng học kết hợp theo sản phẩm để hạn chế hiệu vấn đề liệu thưa phương pháp lọc RMSE MAE Số lượng đánh giá biết trước Phương pháp Số lượng đánh giá biết trước 20 20 10 15 10 15 0.865 0.859 0.855 0.835 1.049 1.042 1.029 1.013 CBF-UserBased 0.894 0.883 0.875 0.845 1.085 1.071 1.054 1.025 CBF-ItemBased 0.824 0.817 0.821 0.813 0.999 0.992 0.988 0.986 CF-UserBased 0.846 0.841 0.836 0.815 1.021 1.015 0.998 0.984 CF-ItemBased Hybrid-UserBased 0.793 0.792 0.791 0.702 0.957 0.956 0.946 0.922 0.695 Hybrid-ItemBased 0.798 0.788 0.782 0.963 0.952 0.935 0.928 CoTraining0.672 0.629 0.617 0.811 0.759 0.738 0.707 HybridFiltering 0.585 Để đánh giá mức độ ảnh hưởng việc tích hợp thêm đặc trưng nội dung vào phương pháp đồng huấn luyện cho lọc kết hợp so với phương pháp đồng huấn luyện cho lọc cộng tác, ta quan sát kết kiểm nghiệm phương pháp CoTraining- HybridFiltering bảng 3.14 CoTraining -UserItem bảng 3.12 trường hợp sử dụng 4000 người dùng làm liệu huấn luyện Kết MAE CoTraining –UserItem 0.684, 0.642, 0.597, MAE CoTraining- HybridFiltering 0.672, 0.629, 0.617, 0.585 với mức độ thưa thớt 5, 10, 20 đánh giá biết trước Nhận định tương tự so sánh giá trị RMSE hai phương pháp Điều chứng tỏ độ xác dự đoán đánh giá phương pháp lọc kết hợp cải thiện tích hợp thêm đặc trưng nội dung vào trình đồng huấn luyện so với phương pháp lọc cộng tác đồng huấn luyện 3.5 Kết luận chƣơng Chương trình bày kết nghiên cứu luận án đề xuất phương pháp lọc kết hợp lọc cộng tác lọc nội dung Mơ hình kết hợp lọc cộng tác lọc nội dung trình bày chương thực dựa việc hợp biểu diễn giá trị đặc trưng nội dung vào lọc cộng tác Lọc kết hợp phương pháp đồng huấn luyện đề xuất phát triển từ phương pháp lọc cộng tác phương pháp đồng huấn luyện, phương pháp thuộc hướng tiếp cận học bán giám sát cho tốn phân lớp Trong đó, q trình huấn luyện theo người dùng bổ sung thêm số nhãn phân loại chắn cho trình huấn luyện theo sản phẩm Ngược lại, trình huấn luyện theo sản phẩm bổ sung thêm nhãn phân loại chắn cho trình huấn luyện theo người dùng Hai trình huấn luyện thực đồng thời cho phép bổ sung nhãn phân loại tin cậy theo bước thực hiện, nhờ cải thiện độ xác dự đoán đánh giá tư vấn sản phẩm phù hợp cho người dùng Kết thực nghiệm liệu thực phim cho thấy, phương pháp đề xuất cho lại kết dự đoán tốt, đặc biệt trường hợp liệu thưa KẾT LUẬN I Kết đạt đƣợc luận án Về mặt lý thuyết, luận án tổng kết nghiên cứu mở rộng hệ tư vấn theo hướng tiếp cận khác nhau, kèm theo vấn đề cần tiếp tục nghiên cứu xu hướng Trên sở kiến thức tảng, tác giả tập trung nghiên cứu nâng cao kết dự đoán sản phẩm cho người dùng trường hợp liệu thưa, trường hợp có liệu sở thích 23 người dùng, thông tin nội dung người dùng, thông tin nội dung sản phẩm thông tin ngữ cảnh sử dụng sản phẩm người dùng Kết luận án đưa đề xuất chính: 1) Đề xuất phương pháp lọc cộng tác dựa mơ hình đồ thị cho hệ tư vấn theo ngữ cảnh [C1][C3][C7][C4][J2]; 2) Đề xuất phương pháp lọc kết hợp phương pháp đồng huấn luyện [C2][C5][C6][J1] Về mặt thực tiễn, kết luận án thực nghiệm liệu thực kịch khác nhau, kết thực nghiệm phương pháp đề xuất đánh giá có độ xác tốt phương pháp sở đa số trường hợp, đồng thời đơn giản cài đặt để triển khai hệ tư vấn thực tế Đây sở cho thấy áp dụng kết nghiên cứu đề tài việc triển khai hệ thống tư vấn thơng tin cá nhân hóa tới người dùng đa dạng lĩnh vực II Hạn chế hƣớng phát triển luận án Hạn chế Một số hạn chế định chưa giải đề xuất nêu luận án, là: - Vấn đề sở thích người dùng với sản phẩm thay đổi cập nhật thường xuyên theo thời gian - Vấn đề người dùng tham gia vào hệ thống tư vấn Hướng phát triển - Nghiên cứu phát triển mơ hình học máy cho hệ tư vấn theo hướng kết hợp thông tin nội dung đặc trưng sản phẩm người dùng hệ tư vấn theo ngữ cảnh - Nghiên cứu phát triển phương pháp đồng huấn luyện cho lọc cộng tác lọc kết hợp theo hướng mở rộng nhiều chế quan sát liệu phù hợp với liệu thực tế Đồng thời xem xét tích hợp mơ hình phân lớp tiên tiến để học liệu - Nghiên cứu giải vấn đề người dùng mới, sở thích người dùng với sản phẩm thay đổi theo thời gian DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ CỦA NGHIÊN CỨU SINH C1 Do Thi Lien, Nguyen Duy Phuong: Collaborative filtering with a graph-based similarity measure 2014 International Conference on Computing, Management and Telecommunications, ComManTel 2014, pp 251–256 (2014) C2 Tran Nhat Quang, Do Thi Lien, and Nguyen Duy Phuong: Collaborative Filtering by CoTraining Method Knowledge and Systems Engineering 2014 Sixth International Conference on Knowledge and Systems Engineering, pp 273-285 (2014) C3 Do Thi Lien, Nguyen Xuan Anh, Nguyen Duy Phuong: A Graph Model For Hybrid Recommender System Knowledge and Systems Engineering 2015 Seventh International Conference on Knowledge and Systems Engineering, pp 138-143 (2015) C4 Đỗ Thị Liên, Nguyễn Xuân Anh, Nguyễn Duy Phương, Từ Minh Phương: Một mơ hình đồ thị cho hệ tư vấn lai Fair’8 - Nghiên Cứu Cơ Bản Và Ứng Dụng Công Nghệ Thông Tin, trang 430-443 (2015) C5 Do Thi Lien, Nguyen Duy Phuong: A Semi-supervised Learning Method for Hybrid 24 Filtering ICTA International Conference on Advances in Information and Communication Technology 538, pp 94-103 (2016) C6 Đỗ Thị Liên, Nguyễn Duy Phương: Một Phương Pháp Học Bán Giám Sát Cho Lọc Kết Hợp Fair’9 - Nghiên Cứu Cơ Bản Và Ứng Dụng Công Nghệ Thông Tin, trang 423-434 (2016) J1 Đỗ Thị Liên, Nguyễn Duy Phương, Từ Minh Phương: Hợp lọc cộng tác lọc nội dung phương pháp học bán giám sát Chun san cơng trình nghiên cứu phát triển CNTT & TT Tập V-2, số 18 (38), trang 1-11 (2017) C7 Đỗ Thị Liên, Nguyễn Duy Phương: Một phương pháp tư vấn cộng tác theo ngữ cảnh Fair 11 - Nghiên Cứu Cơ Bản Và Ứng Dụng Công Nghệ Thông Tin, trang 319-329 (2018) J2 Tu Minh Phuong, Do Thị Lien, Nguyen Duy Phuong: Graph-based Context-Aware Collaborative Filtering Expert Systems with Applications 126, pp 9–19 (2019) 25 ... số vấn đề tồn q trình xây dựng hệ tư vấn, vấn đề liệu thưa kết hợp số dạng thông tin khác vào trình tư vấn Mục tiêu luận án Mục tiêu luận án nghiên cứu phát triển số phương pháp xây dựng hệ tư. .. tách theo ngữ cảnh với phương 10 pháp tư vấn truyền thống cho lại hiệu tư vấn tốt so với phương pháp tư vấn theo ngữ cảnh khác, hướng tiếp cận để đưa đề xuất phương pháp tư vấn theo ngữ cảnh tác... Đề xuất phương pháp lọc kết hợp phương pháp đồng huấn luyện Bố cục luận án Chương 1: Tổng quan hệ tư vấn Chương 2: Phát triển phương pháp lọc cộng tác dựa mơ hình đồ thị cho hệ tư vấn theo ngữ

Định dạng
Số trang	27
Dung lượng	1,12 MB