(Luận văn thạc sĩ) phản hồi ẩn trong hệ thống gợi ý nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THẾ CHUẨN PHẢN HỒI ẨN TRONG HỆ THỐNG GỢI Ý NỘI DUNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THẾ CHUẨN PHẢN HỒI ẨN TRONG HỆ THỐNG GỢI Ý NỘI DUNG Ngành: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 60480101 LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Việt Anh Hà Nội - 2015 Lời cảm ơn Đầu tiên, xin gửi lời cảm ơn chân thành tới TS Nguyễn Việt Anh Sự bảo hướng dẫn tận tình thầy suốt thời gian tơi nghiên cứu giúp tơi hồn thành luận văn tốt nghiệp Nguồn hỗ trợ cổ vũ lớn lao tơi động viên, khích lệ hai bên bố mẹ, vợ em trai Thiên thần bé nhỏ chào đời hai vợ chồng nguồn động lực lớn để tơi tập trung cho luận văn Ngồi ra, cảm ơn tất thầy cô, anh chị, bạn đồng nghiệp, bạn khoá học chia sẻ, giúp đỡ suốt thời gian học Trường đại học Công nghệ - ĐHQGHN Chúc tất người có sức khỏe tốt, gia đình hạnh phúc gặt hái nhiều thành cơng sống Học viên Đỗ Thế Chuẩn Lời cam đoan Tôi xin cam đoan kết nghiên cứu, thực nghiệm trình bày luận văn thực hướng dẫn TS Nguyễn Việt Anh Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Tác giả Đỗ Thế Chuẩn Mục lục Danh mục hình vẽ Danh mục bảng LỜI NÓI ĐẦU Chương 1: Đặt vấn đề 1.1 Bài toán 1.2 Nội dung phương pháp nghiên cứu 1.3 Phạm vi nghiên cứu .7 1.4 Kết đạt .7 Chương 2: Các nghiên cứu liên quan 2.1 Hệ thống gợi ý .8 2.2 Phân loại hệ thống gợi ý 2.2.1 Hệ thống gợi ý dựa vào nội dung 2.2.2 Hệ thống gợi ý dựa vào cộng tác 11 2.2.3 Hệ thống lai 13 2.3 Hồ sơ đối tượng nội dung 13 2.4 Mơ hình người dùng 14 2.5 Phản hồi người dùng hệ thống gợi ý nội dung 17 2.5.1 Phản hồi tường minh 17 2.5.2 Phản hồi ẩn 17 2.6 Kỹ thuật phân rã ma trận 18 2.7 Một số hệ thống gợi ý nội dung 19 2.7.1 Google Tin tức 19 2.7.2 Trang web Báo Mới 20 2.7.3 Trang báo điện tử VietNamNet 21 Chương 3: Xây dựng hệ thống gợi ý tin tức sử dụng phản hồi ẩn 23 3.1 Kiến trúc hệ thống 23 3.1.1 Mô tả kiến trúc hệ thống .23 3.1.2 Nguyên lý hoạt động hệ thống .24 3.2 Hồ sơ đối tượng tin tức 25 3.3 Module phản hồi ẩn 27 3.3.1 Phương pháp biễu diễn liệu ẩn 27 3.3.2 Giải thuật sử dụng cho hệ thống gợi ý sử dụng phản hồi ẩn 30 Chương 4: Thực nghiệm đánh giá 32 4.1 Thực nghiệm đánh giá 32 4.2 Hướng nghiên cứu .35 Danh mục cơng trình khoa học tác giả liên quan đến luận văn 36 Kết luận 37 Tài liệu tham khảo 38 Danh mục hình vẽ Hình 2.1: Ma trận biểu diễn xếp hạng người dùng tin tức Hình 2.2: Kỹ thuật phân rã ma trận 18 Hình 2.3: Giao diện hệ thống Google Tin tức 19 Hình 2.4: Giao diện Trang cá nhân Báo 20 Hình 2.5: Giao diện cuối tin tức báo VietNamNet 21 Hình 3.1: Giao diện trang chủ hệ thống xenoNews 23 Hình 3.2: Kiến trúc hệ thống xenoNews 24 Hình 3.3: Sơ đồ hoạt động hệ thống 25 Hình 3.4: Quá trình thu thập tin tức 26 Hình 3.5: Quá trình tạo hồ sơ đối tượng tin tức 26 Hình 3.6: Biểu diễn liệu hệ thống gợi ý dạng nhị phân 27 Hình 3.7: Biểu diễn liệu Ds dạng so sánh cặp 28 Danh mục bảng Bảng 4.1: Thử nghiệm hệ thống qua tuần 33 Bảng 4.2: Số lượng tin tức tỉ lệ so với tuần đầu người dùng đọc 34 Bảng 4.3: Số liệu sau tuần huấn luyện (tính trung bình tất người dùng) 34 LỜI NÓI ĐẦU Nhờ vào lực xử lý mạng máy tính ngày cao giá thành Internet giảm xuống mà hệ thống báo điện tử trang thông tin điện tử ngày nở rộ giúp độc giả cập nhật thông tin nhanh với nguồn nội dung phong phú đa dạng Chính phong phú đa dạng khiến tổng số lượng nội dung mà độc giả tiếp cận khoảng thời gian ngắn lớn dẫn đến nội dung bị lặp lặp lại nhiều lần từ nhiều nguồn cung cấp tin khác Ngồi ra, nhiều thơng tin không cần thiết, không hấp dẫn thân người dùng lại đưa nhiều dẫn đến việc dư thừa thơng tin khó kiểm sốt q trình theo dõi nội dung người đọc Để khắc phục vấn đề đó, hệ thống tổng hợp gợi ý nội dung đời với mục tiêu phân loại nội dung, lọc nội dung phù hợp với sở thích cá nhân người dùng Quá trình xây dựng biểu diễn mơ hình nội dung, hồ sơ người dùng, cách lựa chọn nội dung để hiển thị mơ hình người dùng hệ thống khác Việc cập nhật mơ hình người dùng thường xuyên quan trọng hệ thống để biểu diễn nội dung tìm nội dung phù hợp Luận văn thực theo hướng tìm hiểu phương pháp thu thập phản hồi ẩn người dùng để cập nhật vào mơ hình người dùng, từ đưa nội dung phù hợp hệ thống nội dung áp dụng thử nghiệm vào hệ thống gợi ý tin tức tiếng Việt Nội dung luận văn bao gồm phần chính: Chương 1: Mơ tả tốn xây dựng hệ thống gợi ý nội dung sử dụng phản hồi ẩn người dùng bao gồm: mục tiêu, nội dung phương pháp nghiên cứu, kết đạt Chương 2: Trình bày lý thuyết hệ thống gợi ý, hồ sơ đối tượng nội dung, hồ sơ người dùng, mơ hình người dùng giới thiệu phản hồi người dùng Kỹ thuật phân rã ma trận số hệ thống gợi ý nội dung giới thiệu Chương 3: Dựa lý thuyết với số hệ thống giới thiệu tìm hiểu, luận văn trình bày hệ thống gợi ý tin tức sử dụng phản hồi ẩn người dùng Quá trình thiết kế, xây dựng nên hệ thống gợi ý tin tức trình bày cách cụ thể chương Chương 4: Trình bày kết trình thử nghiệm để đánh giá hoạt động module phản hồi ẩn xây dựng chương trình hoạt động chung hệ thống gợi ý tin tức Phần kết luận: Tóm tắt nội dung trình bày luận văn hướng nghiên cứu để cải tiến hệ thống gợi ý tin tức sử dụng phản hồi ẩn Chương 1: Đặt vấn đề 1.1 Bài toán Hiện nay, hệ thống gợi ý phát triển ứng dụng mạnh mẽ [1] Bộ lọc nội dung đóng vai trị trung tâm để đưa gợi ý phù hợp với người dùng Tất hệ thống gợi ý yêu cầu mô hình người dùng [2] Hướng tiếp cận phổ biến để xây dựng mơ hình người dùng thơng qua phản hồi người dùng Chính vậy, phản hồi người dùng hệ thống ngày trở nên quan trọng Hệ thống gợi ý tin tức tiếng Việt xenoNews tác giả Nguyễn Thạc Huy [3] xây dựng dừng lại mức bước đầu việc xây dựng dịch vụ gợi ý Đối với người dùng, hệ thống chủ yếu dựa vào nội dung mà người dùng đọc, việc thu thập thời gian đọc tin “time-code” gần hệ thống khơng có tương tác để thu thập thơng tin cần thiết sở thích người dùng hệ thống tương tác với tin tức mà người dùng đọc Để khắc phục nhược điểm hệ thống xenoNews, đặt toán cải tiến hệ thống xenoNews cách sử dụng hệ thống xenoNews làm tảng xây dựng module thu thập thông tin ẩn người dùng tương tác với hệ thống, đặc biệt tin tức mà người dùng đọc, từ cập nhật lại hồ sơ người dùng hệ thống giúp hệ thống có gợi ý tốt người dùng lần truy cập sau Luận văn đưa lý thuyết mơ hình hóa người dùng, công thức ứng dụng phản hồi ẩn sử dụng kỹ thuật phân rã ma trận cho hệ thống gợi ý nội dung từ nghiên cứu trước Mục tiêu cần đạt tổng hợp kiến thức hệ thống gợi ý nội dung sử dụng phản hồi ẩn, từ cài đặt đánh giá hệ thống gợi ý tin tức tiếng Việt sử dụng phản hồi ẩn 1.2 Nội dung phương pháp nghiên cứu Để đạt mục tiêu đề ra, trước tiên, tơi tìm hiểu hệ thống gợi ý mơ hình người dùng Tiếp theo tơi tiến hành tìm hiểu chế phản hồi hệ thống gợi ý nội dung kỹ thuật phân rã ma trận Từ lý thuyết trên, tơi tìm hiểu thêm số hệ thống gợi ý nội dung sử dụng Việt Nam Sau nghiên cứu kỹ lý thuyết tham khảo vài hệ thống, tiến hành nghiên cứu thuật toán xây dựng module thu thập phản hồi ẩn người dùng 25 trang báo để lấy mã HTML tin tức đẩy vào module tạo hồ sơ đối tượng để tin tức có hồ sơ đối tượng tin tức Hồ sơ đối tượng tin tức đẩy vào module gợi ý Người dùng xem tương tác với hệ thống qua giao diện hiển thị website tổng hợp tin tức, website lấy liệu từ sở liệu Tại giao diện cài đặt công cụ để thu thập thông tin phản hồi ẩn người dùng vào module phản hồi ẩn Module phản hồi ẩn xử lý thông tin để cập nhật hồ sơ người dùng vào module quản lý hồ sơ người dùng Module quản lý hồ sơ người dùng quản lý tồn hồ sơ người dùng thơng qua sở liệu module phản hồi ẩn để đưa hồ sơ người dùng đẩy vào module gợi ý Module gợi ý dựa vào hồ sơ đối tượng tin tức hồ sơ người dùng để đưa kết gợi ý đẩy vào sở liệu từ truyền sang giao diện hiển thị để đưa website có tin tức gợi ý cho người dùng theo sở thích người dùng Giao diện hiển thị Tương tác Thông tin phản hồi ẩn Module phản hồi ẩn Module thu thập tin tức Mã HTML tin tức Module tạo hồ sơ đối tượng Nguồn RSS Cơ sở liệu Hồ sơ đối tượng tin tức Người dùng Cập nhật hồ sơ người dùng Module quản lý hồ sơ người dùng Kết gợi ý Hồ sơ người dùng Module gợi ý Hình 3.3: Sơ đồ hoạt động hệ thống Trong phần sau tơi trình bày việc xây dựng module phản hồi ẩn, coi thành phần bổ sung vào hệ thống xenoNews có sẵn Các thành phần, hệ thống lưu trữ thông tin sử dụng tập trung máy chủ 3.2 Hồ sơ đối tượng tin tức Để xây dựng hệ thống, điều với hệ thống gợi ý tin tức hồ sơ đối tượng tin tức Chính vậy, cần phải có module thu thập tin tức sau tạo hồ sơ đối tượng tin tức 26 Module thu thập tin tức có nhiệm vụ lấy danh sách nguồn RSS từ sở liệu từ kết nối tới trang báo qua liên kết RSS, lấy nội dung tin tức đoạn mã HTML máy chủ trang báo trả Sau đó, module thu thập tin tức gửi đoạn mã HTML tin tức sang module tạo hồ sơ đối tượng Cơ sở liệu Các trang báo Lấy mã HTML Các nguồn RSS URL chứa tin Module thu thập tin tức Hình 3.4: Quá trình thu thập tin tức Như trình bày chương 2, hồ sơ đối tượng tin tức đại diện biểu diễn dạng đếm số lần xuất token: di = {(token1i, count1i), …, (tokenxi, countxi)}, với x số token báo i Quá trình tạo hồ sơ đối tượng tin tức hệ thống xenoNews thực từ trước nên tơi khơng sâu vào q trình Hình 3.5 mơ tả q trình tạo hồ sơ đối tượng tin tức hệ thống Module thu thập tin tức Hồ sơ đối tượng tin tức Đẩy nội dung HTML từ báo Xây dựng hồ sơ đối tượng tin tức Nội dung HTML tin Chuỗi token Loại bỏ tag HTML Loại bỏ từ dừng Nội dung dạng thô Phân đoạn từ Nội dung dạng token Hình 3.5: Quá trình tạo hồ sơ đối tượng tin tức 27 3.3 Module phản hồi ẩn Module phản hồi ẩn thành phần nằm hệ thống Module phản hồi ẩn gồm hai module module thu thập phản hồi ẩn module cập nhật phản hồi ẩn vào mơ hình người dùng Module thu thập phản hồi ẩn nhúng vào giao diện hiển thị, website mà người dùng truy cập Tại trang tin tức chi tiết mà người dùng xem, module thu thập phản hồi ẩn đưa thêm thành phần hệ thống cho phép người dùng bình luận, đánh dấu tin để sau đọc lại, chia sẻ tin đọc qua mạng xã hội, gửi email đính kèm liên kết tin tức cho bạn bè in tin tức giấy Mỗi người dùng sử dụng kiện thành phần trên, module thu thập phản hồi ẩn kích hoạt chuyển liệu phản hồi ẩn người dùng đến module cập nhật phản hồi ẩn vào mơ hình người dùng Module cập nhật phản hồi ẩn vào mơ hình người dùng dựa vào liệu phản hồi ẩn người dùng để tính tốn lại mơ hình người dùng Kết thu mơ hình người dùng cập nhật chuyển đến module quản lý hồ sơ người dùng 3.3.1 Phương pháp biễu diễn liệu ẩn Trong hệ thống gợi ý nội dung sử dụng phản hồi ẩn người dùng, ta gọi phản hồi âm đánh giá khơng thích, phản hồi dương đánh giá thích tin tức tin tức mà người dùng chưa thấy để đọc chưa có tương tác giá trị thiếu hệ thống gợi ý sử dụng phản hồi ẩn thường chứa liệu quan sát dương S ⊆ U x I Các tin tức mà người dùng chưa quan sát, tương tác trộn lẫn giá trị phản hồi âm giá trị thiếu Vì vậy, cách tạo tập liệu huấn luyện thường với cặp (u, i) ∈ S thuộc lớp dương gán giá trị 1, lại tất gán giá trị [15] i1 i2 i3 i4 i5 i1 i2 i3 i4 i5 u1 ? + ? ? + u1 0 u2 + ? ? ? + u2 0 u3 + + ? ? ? u3 1 0 u4 + ? + ? + u4 1 u5 ? ? + + + u5 0 1 Hình 3.6: Biểu diễn liệu hệ thống gợi ý dạng nhị phân 28 Phương pháp có nhược điểm suốt q trình huấn luyện, mơ hình khơng phân biệt đâu phản hồi âm đâu giá trị cần dự đốn giá trị thiếu phản hồi âm gán giá trị Phương pháp so sánh cặp sử dụng hệ thống gợi ý sử dụng phản hồi ẩn thay đưa dự đoán xếp hạng cho tin tức thay giá trị cần xếp hạng giá trị âm Phương pháp trình bày rõ tài liệu Rendle [20] Từ liệu S có, thực xây dựng lại tập liệu huấn luyện Ds dựa vào mối quan hệ thích tin tức cho người dùng u (>u) Giả sử rằng, người dùng u ((u, i) ∈ S) xem tin tức i người dùng u thích i tất tin tức chưa xem khác u1: i > u1 j i1 j1 i2 i3 i4 i5 + ? ? + - - ? ? + i1 i2 i3 i4 i5 j2 - u1 ? + ? ? + j3 ? + u2 + ? ? + j4 ? + ? u3 + + ? ? ? j5 - ? - u4 + ? + ? + … u5 ? ? + + + … + - u5: i > u5 j i1 j1 i2 i3 i4 i5 ? + + + + + + ? ? j2 ? j3 - - j4 - - ? j5 - - ? Hình 3.7: Biểu diễn liệu Ds dạng so sánh cặp ? ? 29 Phía bên trái hình 3.7 biểu diễn quan hệ thích cho tin tức người dùng u1: i2 > u1 i1; i2 > u1 i3; i2 > u1 i4; i5 > u1 i1; i5 > u1 i3; i5 > u1 i4 Đối với tin tức mà người dùng chưa đọc (tin tức i1, i3 i4 hình 3.7), hệ thống khơng sử dụng quan hệ thích chưa có thơng tin Đồng thời, hệ thống không sử dụng so sánh thích tin tức mà người dùng đọc (như hình 3.7, tin tức i2 i5) hệ thống mặc định người dùng có mức độ thích tin tức Trong hình 3.7, bên phải cách biểu diễn liệu dùng hệ thống Dấu ? cặp tin tức cần xếp hạng, dấu + thể người dùng thích tin tức i tin tức j (i j nhau), dấu – thể người dùng thích tin tức j tin tức i Bài toán hệ thống trở thành dự đoán giá trị ? ma trận bên phải hình 3.7, sau có giá trị dự đoán, xếp giá trị từ cao xuống thấp đưa số lượng N tin tức cần gợi ý Ta biểu diễn Ds dạng: Ds  {(u, i, j ) || i  Iu ^ j  I \ Iu } (3.1) Trong hệ thống gợi ý sử dụng phản hồi ẩn, phản hồi ẩn người dùng tự động ghi nhận lại hệ thống thông qua tương tác người dùng hệ thống Người dùng khơng phải đánh giá thích hay khơng thích đánh giá từ đến cho tin tức hệ thống khác Các phương pháp thu thập phản hồi ẩn từ hệ thống là: Đánh dấu tin tức Bình luận tin tức Chia sẻ tin tức qua mạng xã hội In tin tức Gửi thông tin tin tức qua email cho bạn bè Mỗi người dùng sử dụng chức trên, hệ thống ghi nhận cập nhật vào sở liệu Để thuận tiện cho việc tính tốn, tơi coi trọng số chức 1/5 (tức 0,2), tổng trọng số Ban đầu, trọng số tin tức người dùng 1/5, lần người dùng sử dụng chức khác (không tính lặp lại), trọng số tăng lên 1/5 Trọng số thơng tin phản hồi người dùng tin tức Tin tức người dùng sử dụng nhiều chức hơn, tin tức người thích tin tức người sử dụng chức Như vậy, thông tin phản hồi người dùng u cho tin tức i tính theo cơng thức: 30 𝑟𝑢𝑖 = 𝑠ố 𝑙ượ𝑛𝑔 𝑐ℎứ𝑐 𝑛ă𝑛𝑔 𝑝ℎả𝑛 ℎồ𝑖 ẩ𝑛 𝑚à 𝑢 𝑠ử 𝑑ụ𝑛𝑔 𝑡𝑟𝑜𝑛𝑔 𝑚ụ𝑐 𝑡𝑖𝑛 𝑖 tổng số chức phản hồi ẩn hệ thống (3.2) 3.3.2 Giải thuật sử dụng cho hệ thống gợi ý sử dụng phản hồi ẩn Module phản hồi ẩn sử dụng giải thuật xếp hạng cá nhân Bayes (Bayesian Personalize Ranking - BPR), tiêu chuẩn dùng để tối ưu hóa hàm mục tiêu Vì liệu phản hồi người dùng ẩn nên đề xuất sử dụng tiêu chuẩn tối ưu BPR cho kỹ thuật phân rã ma trận Matrix Factorization – MF), gọi giải thuật BPR-MF để cài đặt giải thuật gợi ý tích hợp vào hệ thống Hàm mục tiêu BPR-MF tính theo công thức:  BPR  MR   ( u ,i , j )DS ln  (rûij )   ||  ||2 (3.3) Trong đó: - 1  e x rûij  rûi  rûj rûi , rûj giá trị dự đoán người dùng u cho tin tức i tin tức - j θ đại diện cho tham số W H  ||  ||2 thành phần chuẩn hóa để ngăn chặn vấn đề học vẹt -  ( x)  Chúng ta sử dụng phương pháp xuống đồi (Stochastic Gradient Descent) [21, 22] để triển khai chi tiết giải thuật học [20] Đầu vào siêu tham số tập liệu huấn luyện Trong hệ thống này, tập liệu đầu vào có thơng tin id người dùng, id tin tức trọng số tin tức người dùng) Các siêu tham số phải tìm kiếm để phù hợp với tập liệu không gian giá trị siêu tham số lớn Dựa vào phương pháp GridSearch [23], có siêu tham số cần tìm sau: - K: số nhân tố tiềm ẩn N-Repeat: số lần lặp α: tốc độ học λw: tham số chuẩn hóa nhân tố người dùng λH+: tham số chuẩn hóa nhân tố tin tức xem λH-: tham số chuẩn hóa nhân tố tin tức chưa xem Để thực phương pháp GridSystem, thực theo bước sau: 31 - Tìm giá trị siêu tham số như: K, N-Repeat, α, λw, λH+, λH- thuật tốn heuristic Ví dụ α ϵ [0 1] nên ta tìm giá trị (0.2, 0.4, 0.6 0.8) - Tham số sau tính làm mịn từ ta chọn tham số cho kết tốt Ví dụ với α = 0.4 (như 0.3, 0.35, 0.45, 0.5) Giải thuật mô tả sau: Bayes_MatrixFactor (DS, λw, λH+, λH-, α){ W  N (0,  ) // Khởi tạo tham số W H  N (0,  ) // Khởi tạo tham số H Repeat{ // Cập nhật giá trị tham số đến tối ưu rûij  w uk , huk  h jk  rˆ v e uij  rˆ  e uij wuk  wuk   (v(hik  h jk )  w , wuk ) hik  h jk   (vwuk  H  h jk ) h jk  h jk   (v  wuk )  H  h jk ) } until convergence Return (W,H) }//End procedure W H hai tham số tối ưu trả Thuật tốn mơ tả sau: - W H khởi tạo giá trị ngẫu nhiên theo phân phối chuẩn N (0,  ) - Giá trị W H cập nhật bước lặp Quá trình lặp dừng hàm mục tiêu đạt giá trị tối ưu Trong bước lặp, cặp tin tức i, j chọn (với j  I \ Iu ) để xây dựng quan - hệ thích Sau nhận được hai tham số W H ước tính phản hồi người dùng theo công thức (2.8) 32 Chương 4: Thực nghiệm đánh giá 4.1 Thực nghiệm đánh giá Do hệ thống xây dựng dựa tảng xenoNews nên tất thành phần cài đặt máy chủ với hệ thống xenoNews ban đầu sử dụng 4.1.1 Điều kiện thực nghiệm Dưới thông số kỹ thuật phần cứng phần mềm mà sử dụng để làm thực nghiệm: - - Phần cứng: o Máy chủ: IBM x3650 M4 – 7915D2A o CPU: Intel Xeon CPU cores E5-2630 2.3 Ghz o RAM: 32 GB o Ổ cứng: ổ cứng 300GB chạy RAID Phần mềm: o Hệ điều hành: Windows Server 2012 R2 o Máy chủ web: Apache o Cơ sở liệu: MariaDB 4.1.2 Dữ liệu thực nghiệm Trong trình thực nghiệm, ngồi hệ thống xenoNews ban đầu, tơi có cài đặt thêm module tiếp nhận xử lý phản hồi ẩn người dùng để cập nhật vào hệ thống gợi ý Các liệu mà sử dụng bao gồm: - Hơn 50.000 tin tức từ trang báo Dân Trí, VnExpress, VietNamNet, Tuổi Trẻ, Tiền Phong Thanh Niên, … 25 người dùng tham gia sử dụng hệ thống tháng 4.1.3 Quá trình thực nghiệm Mỗi người dùng cấp tài khoản hệ thống Người dùng sử dụng tài khoản họ để truy cập vào hệ thống hàng ngày vào thời điểm khác (tùy thuộc vào người dùng thu xếp thời gian) Hệ thống thực theo lịch tuần, tuần có đánh giá, thực theo lịch bảng 4.1 (Người dùng khơng biết q trình chuyển đổi hệ thống): 33 Bảng 4.1: Thử nghiệm hệ thống qua tuần Tuần thứ Thực Thu thập thông tin từ người sử dụng (hệ thống xenoNews ban đầu) Tích hợp module phản hồi ẩn, thực tính tốn lại sở thích người dùng Tính tốn lại sở thích người dùng Tính tốn lại sở thích người dùng 4.1.4 Độ đo dùng để đánh giá Trong lĩnh vực thu thập thơng tin, độ xác (precision) độ hồi tưởng (recall) dùng làm thước đo đánh giá hệ thống Tơi sử dụng tiêu chí để sử dụng làm độ đo đánh giá hệ thống Trong trường hợp hệ thống này, độ xác tỉ lệ phần trăm tin hệ thống đánh giá có liên quan, sau người dùng phản hồi gợi ý xác Độ hồi tưởng tỉ lệ phần trăm báo người dùng cho có liên quan, đồng thời hệ thống đưa vào kết gợi ý cho người dùng Độ đo F1 tổng hợp từ độ xác độ hồi tưởng tính công thức: F1  2* precision * recall precision  recall (4.1) Như vậy, sử dụng độ xác, độ hồi tưởng độ đo F1 để đánh giá chất lượng hệ thống 4.1.5 Kết thực nghiệm Sau tháng, hệ thống hoạt động với 25 người dùng khác nhau, thống kê hệ thống cho kết bảng 4.2 34 Bảng 4.2: Số lượng tin tức tỉ lệ so với tuần đầu người dùng đọc Tuần Chuyên mục Số tin đọc tuần Số tin đọc So với tuần đầu Tuần Số tin đọc Tuần So với tuần đầu Số tin So với đọc tuần đầu Thời 476 523 110% 602 126% 711 149% Thị trường 483 557 115% 613 127% 704 146% Thể thao 356 492 138% 535 150% 549 154% Công nghệ 681 801 118% 976 143% 1034 152% Phong cách 389 469 121% 542 139% 585 150% Giáo dục 334 443 133% 437 131% 489 146% Sức khỏe 352 430 122% 443 126% 438 124% Nhà đất 271 368 136% 359 132% 362 134% Theo bảng 4.2 ta thấy số lượng lượt truy cập người dùng từ tuần đến tuần tăng lên từ 10% đến 38%, tỉ lệ tăng trung bình khoảng 24% Từ tuần thứ đến tuần thứ 4, so với tuần trước đó, tỉ lệ tăng gần khơng đáng kể có chuyên mục bị giảm Nhưng so sánh với tuần đầu tuần sau có tỉ lệ tăng dần theo tuần Bảng 4.3: Số liệu sau tuần huấn luyện (tính trung bình tất người dùng) Tuần Precision Recall F1 77.2 62.1 68.8 88.6 63.7 74.1 89.3 63.9 74.5 Điều có nghĩa là, sử dụng thêm module phản hồi ẩn, hệ thống gợi ý cho người dùng tin tức mà họ quan tâm Còn sau hệ thống hoạt động thời gian, sử dụng module này, người dùng có mức quan tâm cao so với trước 35 4.2 Hướng nghiên cứu Các nghiên cứu việc áp dụng phản hồi ẩn vào hệ thống có ảnh hưởng lớn đến hệ thống Cho nên, xác định hướng nghiên cứu thời gian tới là: - Cải tiến thuật toán sử dụng cho phản hồi ẩn người dùng cho tốt Kết hợp nghiên cứu với phản hồi tường minh để tăng độ xác Kết hợp lọc nội dung, lọc cộng tác phản hồi hệ thống Nghiên cứu thêm thu thập thông tin lọc thông tin để áp dụng tốt cho hệ thống gợi ý tương lai 36 Danh mục cơng trình khoa học tác giả liên quan đến luận văn “Implicit feedback mechanism to manage user model applied in Vietnamese news recommender system” xuất tạp chí International Journal of Computer and Communication Engineering Nguyen Thac Huy, Do The Chuan, Viet Anh Nguyen, “Implicit Feedback Mechanism to Manage User Profile Applied in Vietnamese News Recommender System”, IJCCE 2016 Volume Number 4, Jul 2016, pp 276-285, ISSN: 2010-3743, DOI: 10.17706/IJCCE.2016.5.4.276-285) 37 Kết luận Luận văn trình bày việc tìm hiểu thiết kế hệ thống gợi ý nội dung sử dụng chế phản hồi ẩn người dùng để đưa tin tức phù hợp với người dùng Qua thử nghiệm, luận văn rõ hiệu hệ thống nâng cao áp dụng thêm module phản hồi ẩn Luận văn thu kết sau: - - Tìm hiểu lý thuyết hệ thống gợi ý, hồ sơ đối tượng nội dung mơ hình người dùng; nghiên cứu chế phản hồi người dùng hệ thống gợi ý nội dung, kỹ thuật phân rã ma trận số hệ thống gợi ý sử dụng Xây dựng module phản hồi ẩn giúp nhận thông tin phản hồi ẩn người dùng, cập nhật hồ sơ người dùng lồng ghép vào hệ thống gợi ý tin tức tiếng Việt xenoNews Các kết đạt luận văn dù tốt cịn nhiều hướng cải tiến tốt Chính vậy, thời gian tới tơi tìm hiểu thêm số phương pháp để cải tiến thuật toán sử dụng cho phản hồi ẩn người dùng tốt Đồng thời kết hợp nghiên cứu với phản hồi tường minh để tăng độ xác Sau kết hợp lọc nội dung, lọc cộng tác phản hồi hệ thống Nếu có thời gian tơi nghiên cứu thêm thu thập thông tin lọc thông tin để áp dụng tốt cho hệ thống gợi ý tương lai 38 Tài liệu tham khảo [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] L Chen, G Chen, and F Wang, "Recommender systems based on user reviews: the state of the art," User Modeling and User-Adapted Interaction, vol 25, pp 99-154, 2015 G Jawaheer, M Szomszor, and P Kostkova, "Comparison of implicit and explicit feedback from an online music recommendation service," presented at the Proceedings of the 1st International Workshop on Information Heterogeneity and Fusion in Recommender Systems, Barcelona, Spain, 2010 N T Huy, "Chọn lọc thông tin dựa nội dung ứng dụng xây dựng hệ thống gợi ý tin tức theo nhu cầu người dùng,," Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2013 D Goldberg, D Nichols, B M Oki, and D Terry, "Using collaborative filtering to weave an information tapestry," Commun ACM, vol 35, pp 61-70, 1992 F Ricci, L Rokach, B Shapira, and P B Kantor, Recommender Systems Handbook: Springer-Verlag New York, Inc., 2010 R A Baeza-Yates and B Ribeiro-Neto, Modern Information Retrieval: Addison-Wesley Longman Publishing Co., Inc., 1999 N J Belkin and W B Croft, "Information filtering and information retrieval: two sides of the same coin?," Commun ACM, vol 35, pp 29-38, 1992 A S Das, M Datar, A Garg, and S Rajaram, "Google news personalization: scalable online collaborative filtering," presented at the Proceedings of the 16th international conference on World Wide Web, Banff, Alberta, Canada, 2007 J S Breese, D Heckerman, and C Kadie, "Empirical analysis of predictive algorithms for collaborative filtering," presented at the Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence, Madison, Wisconsin, 1998 M Claypool, A Gokhale, T Miranda, P Murnikov, D Netes, and M Sartin, "Combining content-based and collaborative filters in an online newspaper," presented at the Proceedings of the ACM SIGIR '99 Workshop on Recommender Systems: Algorithms and Evaluation, Berkeley, California, 1999 M J Pazzani, "A Framework for Collaborative, Content-Based and Demographic Filtering," Artif Intell Rev., vol 13, pp 393-408, 1999 D Jannach, M Zanker, A Felfernig, and G Friedrich, Recommender Systems: An Introduction: Cambridge University Press, 2010 K Goldberg, T Roeder, D Gupta, and C Perkins, "Eigentaste: A Constant Time Collaborative Filtering Algorithm," Inf Retr., vol 4, pp 133-151, 2001 D Kluver, T T Nguyen, M Ekstrand, S Sen, and J Riedl, "How many bits per rating?," presented at the Proceedings of the sixth ACM conference on Recommender systems, Dublin, Ireland, 2012 Y Hu, Y Koren, and C Volinsky, "Collaborative Filtering for Implicit Feedback Datasets," presented at the Proceedings of the 2008 Eighth IEEE International Conference on Data Mining, 2008 G Adomavicius and Y Kwon, "Overcoming Accuracy-Diversity Tradeoff in Recommender Systems: A Variance-Based Approach," in Proceedings of the 18th Workshop on Information Technology and Systems (WITS’08), Paris, France, 2008 39 [17] [18] [19] [20] [21] [22] [23] D M Nichols, "Implicit rating and filtering," Proceedings of the 5th DELOS Workshop on Filtering and Collaborative Filtering, 1997 D W Oard, "Implicit feedback for recommender systems," Proceedings of the AAAI Workshop on Recommender Systems, 1998 D W O a J Kim, "Modeling information content using observable behavior," Proceedings of the 64th Annual Conference of the American Society for Information Science and Technology, 2001 S Rendle, C Freudenthaler, Z Gantner, and L Schmidt-Thieme, "BPR: Bayesian personalized ranking from implicit feedback," presented at the Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence, Montreal, Quebec, Canada, 2009 L Bottou, "Stochastic learning," ed O Bousquet, and von U Luxburg: Advanced Lectures on Machine Learning, Lecture Notes in Artificial Intelligence, Springer Verlag, Berlin, 2004, pp 146-168 N T Nghe and N T Phong, "Xây dựng hệ thống gợi ý hát dựa phản hồi tiềm ẩn," Tạp chí Khoa học Trường Đại học Cần Thơ vol 34, pp 81-91, 2014 N Thai-Nghe, Z Gantner, and L Schmidt-Thieme, "Cost-sensitive learning methods for imbalanced data," in Neural Networks (IJCNN), The 2010 International Joint Conference on, 2010, pp 1-8 ... giả định 17 2.5 Phản hồi người dùng hệ thống gợi ý nội dung Có hai loại phản hồi người dùng hệ thống gợi ý nội dung phản hồi tường minh phản hồi ẩn 2.5.1 Phản hồi tường minh Phản hồi tường minh... thêm module phản hồi ẩn Luận văn thu kết sau: - - Tìm hiểu lý thuyết hệ thống gợi ý, hồ sơ đối tượng nội dung mơ hình người dùng; nghiên cứu chế phản hồi người dùng hệ thống gợi ý nội dung, kỹ thuật... chế phản hồi hệ thống gợi ý nội dung kỹ thuật phân rã ma trận Từ lý thuyết trên, tơi tìm hiểu thêm số hệ thống gợi ý nội dung sử dụng Việt Nam Sau nghiên cứu kỹ lý thuyết tham khảo vài hệ thống,