Chọn lọc thông tin dựa trên nội dung ứng dụng xây dựng hệ thống gợi ý tin tức theo nhu cầu người dùng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THẠC HUY CHỌN LỌC THÔNG TIN DỰA TRÊN NỘI DUNG ỨNG DỤNG XÂY DỰNG HỆ THỐNG GỢI Ý TIN TỨC THEO NHU CẦU NGƯỜI DÙNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2013 i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THẠC HUY CHỌN LỌC THÔNG TIN DỰA TRÊN NỘI DUNG ỨNG DỤNG XÂY DỰNG HỆ THỐNG GỢI Ý TIN TỨC THEO NHU CẦU NGƯỜI DÙNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Việt Anh HÀ NỘI - 2013 ii Mục lục Lời cảm ơn Lời cam đoan Lời mở đầu Danh mục hình minh hoạ Danh mục Bảng biểu Đồ thị Chương 1: Đặt vấn đề 1.1 Bài toán 1.2 Bố cục luận văn 10 1.3 Phương pháp nghiên cứu 11 1.4 Kết thu 12 Chương 2: Các nghiên cứu có liên quan 13 2.1 Báo điện tử 13 2.2 Gợi ý tin tức 14 2.2.1 Thu thập thông tin (Information Retrieval) 14 2.2.2 Lọc thông tin (Information Filtering) 15 2.2.3 Phân loại hệ thống gợi ý 15 2.2.3.1 Các hệ thống dựa nội dung 18 2.2.3.2 Các hệ thống lọc có hợp tác 22 2.2.3.3 Các hệ thống lai 25 2.2.4 Các đặc trưng riêng tin tức 28 Chương 3: Hệ thống gợi ý tin tức tiếng Việt xenoNews 30 3.1 Hướng tiếp cận Kiến trúc hệ thống 30 3.1.1 Hướng tiếp cận 30 3.1.2 Kiến trúc hệ thống 31 3.2 Yêu cầu hệ thống 32 3.2.1 Các yêu cầu chức 33 3.2.2 Các yêu cầu phi chức 35 3.3 Thiết kế cài đặt chi tiết thành phần hệ thống 36 3.3.1 Hồ sơ đối tượng tin tức (News Item Profile) 36 3.3.2 Hồ sơ người dùng (User profile) 37 3.3.2.1 Mô hình hố Sở thích ngắn hạn với thuật tốn Láng giềng gần 39 3.3.2.2 Mơ hình hố Sở thích dài hạn với Bộ phân lớp Nạve Bayes 40 3.3.2.3 Thông tin tự mô tả người dùng 43 3.3.2.4 Kết hợp mơ hình vào quy trình định 45 3.3.3 Lõi xử lý - Back-end 46 3.3.4 Tầng giao tiếp trung gian – Middle-level 48 3.3.5 Ứng dựng Web – Front-end 49 3.3.5.1 Công nghệ Web sử dụng để xây dựng Front-end 49 3.3.5.2 Thiết kế giao diện Thiết kế tương tác Web – người yếu tố trung tâm 52 Chương 4: Các thử nghiệm kết 56 4.1 Các độ đo Quá trình chuẩn bị thử nghiệm 56 4.1.1 Các độ đo dùng để đánh giá 56 4.1.2 Quá trình chuẩn bị thử nghiệm 57 4.2 Hiệu gợi ý Hồ sơ người dùng kết hợp 58 4.3 Cơ chế phản hồi ẩn time-coded 61 Kết luận 63 Phụ lục 64 Tài liệu tham khảo 66 Danh mục hình minh hoạ Minh hoạ 1.1: Ví dụ giao diện chuyên mục cá nhân hoá BáoMới.com 10 Minh hoạ 3.1: Kiến trúc 3-tầng hệ thống xenoNews 32 Minh hoạ 3.2: Quy trình thiết kế lặp sử dụng để xây dựng xenoNews 33 Minh hoạ 3.3: Các Module Back-end 46 Minh hoạ 3.4: Chi tiết tương tác Module Back-end 48 Minh hoạ 3.5: Kiến trúc Web theo kiểu Server-based 50 Minh hoạ 3.6: Kiến trúc Web theo kiểu Client-based 51 Minh hoạ 3.7: Cách Youtube giúp người dùng phân biệt video họ xem 54 Minh hoạ 3.8: Chức Watch Later Youtube 55 Minh hoạ PL.1: Giao diện hiển thị tin dạng List 64 Minh hoạ PL.2: Giao diện hiển thị tin dạng Grid 64 Minh hoạ PL.3: Màn hình đọc tin chi tiết 65 Danh mục Bảng biểu Đồ thị Bảng biểu: Bảng 2.1: Ví dụ phần ma trận đánh giá cho hệ thống gợi ý phim 17 Bảng 2.2: Phân loại hệ thống gợi ý 27 Bảng 3.1: Các mục tin tức hệ thống 36 Bảng 3.2: Ma trận vector thuộc tính Boolean dùng để xây dựng mơ hình dài hạn 41 Bảng 4.1: Bảng số liệu trung bình tất người dùng, sau phiên huấn luyện 59 Bảng 4.2: Kết đánh giá tự động chế phản hồi ẩn Time-coded 61 Đồ thị: Đồ thị 4.1: Sự biến đổi độ đo Precision, Recall, F1 sau phiên huấn luyện 60 Đồ thị 4.2: Hiệu hoạt động hệ thống, thể qua độ đo F1 60 Chương 1: Đặt vấn đề Chương việc giải thích lý do, động lực thực đề tài luận văn Nội dung chương xoay quanh trình bày bối cảnh cần thiết Hệ thống gợi ý tin tức tiếng Việt, mô tả nội dung nghiên cứu luận văn, với sơ lược kết đạt 1.1 Bài toán Kể từ đời nay, Internet liên tục phát triển với tốc độ đáng kinh ngạc, song hành đóng vai trò to lớn vào tiến nhân loại, đặc biệt lĩnh vực khoa học, cơng nghệ, giao lưu văn hố, Quan trọng Internet tạo nên “thế giới phẳng”, cho phép cá nhân, tổ chức dễ dàng kết nối với bất chấp thời gian hay khoảng cách địa lý Tuy vậy, trở thành công dân Internet thường đồng nghĩa với yêu cầu (hoặc nhu cầu) tiếp nhận, xử lý lượng lớn thông tin ngày, từ nhiều nguồn khác Điển hình loại thơng tin phải kể đến tin tức cập nhật từ báo điện tử, vốn xuất ngày nhiều năm gần Báo điện tử có nhiều ưu điểm so với báo in truyền thống, sinh động với hình ảnh, video, hay liên kết tới viết khác, mà cho phép người dùng chủ động việc nắm bắt thông tin lúc nơi, miễn có Internet Các trang báo điện tử thường xuyên cập nhật nhanh chóng tin tức mới, người sử dụng nhận thơng báo có tin thông qua RSS, đọc trực tiếp website Vài năm gần đây, nhiều tờ báo/tạp chí lâu đời buộc phải thay đổi phát triển vũ bão công nghệ số thay đổi nhu cầu đọc độc giả Hầu hết báo giấy lớn điện tử hố phiên giấy Sự tương tác độc giả báo điện tử dễ dàng hơn, độc giả để lại phản hồi bài, hay chia sẻ cho nhiều người khác đọc, … Đó vài số nhiều ưu điểm khiến cho báo điện tử ngày phát triển mạnh Hệ tất yếu là, gần nhiều tờ báo giấy phải ngừng hoạt động phá sản thua lỗ, hay chuyển hồn tồn sang báo điện tử Một ví dụ điển hình tạp chí Newsweek danh tiếng Mỹ, kết thúc năm 2012 thức đóng cửa báo in để tập trung phát triển phiên điện tử Điều phản ảnh xu báo chí giới kỷ nguyên công nghệ số, không thay đổi bị đào thải Với khối lượng tin tức cần xử lý ngày tăng lên với tốc độ chóng mặt, thời gian người lại có hạn, điều tạo thách thức với khả xử lý người Những cỗ máy tìm kiếm Google, Yahoo đáp ứng nhu cầu thông tin cần giải đáp thắc mắc Nhưng nhiều khi, người dùng chí khơng biết họ tìm kiếm gì, trường hợp tin tức Kết người thường phải truy cập nhiều nguồn báo khác VienamNet, Dân trí, Tinh tế, … để tìm kiếm thơng tin khiến họ quan tâm Nhưng người có sở thích, nhu cầu quan tâm đến lĩnh vực khác nhau, nên hiệu trình tìm kiếm, tiếp nhận xử lý tin bị ảnh hưởng nhiều “nhiễu” – nhằm tin tức khơng còn/khơng có, gần khơng có giá trị họ Chính ngun dẫn tới cần thiết phải cho đời Hệ thống gợi ý tin tức Bởi cá nhân hố (personalization) ưu điểm lớn báo điện tử so với báo giấy Trong năm qua, có nhiều nghiên cứu liên quan tới gợi ý tin tức cho người dùng, nhằm tối ưu hoá khoảng thời gian họ dùng để đọc tin ngày Và giới, nhiều Hệ thống gợi ý tin tức đời, iCurrent, Pulse, … không nhắc đến Google News Google Thế nhưng, hệ thống hay dịch vụ tương tự cho báo điện tử tiếng Việt ít, khả nắm bắt nhu cầu người dùng nhiều mặt hạn chế Theo tơi biết, Việt Nam, có trang web BáoMới.com (Minh hoạ 1.1) có đặc điểm tương tự với hệ thống mà mong muốn xây dựng thông qua nghiên cứu luận văn BáoMới.com cho phép người dùng tự tạo chuyên mục theo nhu cầu cá nhân, cách khai báo số từ khố, sau gợi ý cho người dùng tin tức liên quan từ nhiều trang báo điện tử khác Trang web có khả tự động phân tích thói quen độc giả đưa gợi ý tin tức Tuy nhiên qua q trình sử dụng, tơi cảm thấy khơng thực hài lòng với hệ thống gợi ý tin tức số lý sau: - Qua thời gian sử dụng dài, trang web gợi ý nhiều tin tức mà không quan tâm - Chức gợi ý tin tức từ từ khoá khai báo nhiều khơng xác, từ khố xuất nhiều ngữ cảnh khác nhau, tin tức thuộc chuyên mục khác - Giao diện hiển thị tin chưa sinh động, chưa thu hút độc giả - Khả gợi ý tin tức chưa bắt kịp với thay đổi nhanh chóng thị hiếu độc giả 10 Minh hoạ 1.1: Ví dụ giao diện chuyên mục cá nhân hố BáoMới.com Chính lý trên, nhận thấy cần thiết xây dựng Hệ thống gợi ý tin tức tiếng Việt Nội dung trình nghiên cứu nhằm thực hố Hệ thống trình bày phần 1.2 Bố cục luận văn Nội dung nghiên cứu luận văn gồm: Chương 2: thảo luận nghiên cứu liên quan Thu thập thông tin (Information Retrieval), Lọc thông tin (Information Filtering), tìm hiểu Hệ thống gợi ý (Recommendation Systems) đặc tính riêng, cần biết tin tức so với dạng thông tin khác 11 Chương 3: mơ tả q trình tơi ứng dụng hướng tiếp cận chọn lọc thông tin dựa nội dung vào thực tế, thông qua hệ thống gợi ý tin tức tiếng Việt xenoNews Nội dung chương bao gồm: o Các yêu cầu với hệ thống cần xây dựng o Mô tả hồ sơ đối tượng thông tin – trường hợp cụ thể tin tức o Trình bày việc mơ hình hố thơng tin ngắn hạn, dài hạn riêng rẽ; đồng thời, có sử dụng thêm luật người dùng tự mơ tả Từ đó, đề xuất xây dựng Hồ sơ người dùng dạng kết hợp, thống nhất, trung tâm việc gợi ý (chọn lọc) thông tin dựa nội dung o Mô tả thiết kế hệ thống gợi ý tin tức tiếng Việt, dựa nội dung, bao gồm ba phần chính: Lõi xử lý Back-end, Tầng giao tiếp trung gian Middle-level, giao diện người dùng ứng dụng Web Front-end Chương 4: Chương trình bày thử nghiệm nhằm đánh giá hiệu hoạt động tổng thể hệ thống gợi ý dựa nội dung, với thành phần then chốt Hồ sơ người dùng kết hợp nêu Chương Do đó, thử nghiệm xem xét đóng góp thành phần hồ sơ người dùng kết hợp (gồm mô hình ngắn hạn, mơ hình dài hạn, luật tự mơ tả) Thêm vào đó, thử nghiệm để đánh giá tính hiệu chế thu thập phản hồi time-coded Front-end (website) đưa xem xét Chương 5: Tổng kết nội dung đánh giá lại kết nghiên cứu luận văn, đề xuất hướng nghiên cứu để hoàn thiện hệ thống tương lai 1.3 Phương pháp nghiên cứu Để hoàn thành nội dung nghiên cứu đề ra, đầu tiên, tiến hành tìm hiểu kiến thức mơ hình hệ thống gợi ý nói chung Sau đó, dựa đặc điểm riêng tin tức điều kiện thực tế mà chọn hướng tiếp cận phù hợp Khi xác định hướng tiếp cận, tiến hành nghiên cứu thuật toán xây dựng hệ thống Song song với đó, thói quen đọc tin tức, báo chí trực tuyến người điều tra, thơng qua hình thức hỏi đáp trực tiếp Các thơng tin giúp ích nhiều cho q trình xây dựng hệ thống thử nghiệm, đặc biệt giao diện tương tác website Cuối cùng, số thử nghiệm khác tiến hành, nhằm đánh giá khả hệ thống, từ đó, đề xuất hướng nghiên cứu tương lai 53 o Người dùng không cần đọc nội dung (do họ cho tiêu đề báo chứa toàn nội dung cần biết; họ biết tin qua nguồn tin khác: TV, radio, …) - Loại khơng liên quan đến sở thích người dùng, lại tin tức cần biết hay nên biết Ví dụ: tin có tiêu đề: “Xăng tăng lên mức giá cao từ trước đến nay: 30.000đ/lít” Để thu thập hiệu quả, xác phản hồi, đồng thời đáp ứng yêu cầu chức năng, phi chức khác (đã mô tả Mục 3.2 – trang 32), cần kết hợp hiểu biết đặc trưng tin tức (Mục 2.2.4 – trang 28) thói quen đọc độc giả Do vậy, phần này, tơi mơ tả q trình đưa kết có từ khảo sát (trên người tham gia thử nghiệm chương 4) hành vi đọc người dùng, vào thiết kế Front-end (web): - Cho phép phản hồi nơi, lúc: độc giả muốn đánh giá báo họ đọc chi tiết, đọc tiêu đề danh sách tin gợi ý - Tự định phản hồi (dựa hành vi người dùng, tin tức cụ thể): đa phần người đọc “lười” đưa phản hồi, kể tin tức thuộc mối quan tâm họ Vì vậy, hệ thống cần có chế hỗ trợ phản hồi tự động Tôi sử dụng chế đếm ngược với báo người dùng đọc Nếu thời gian hoạt động họ trang tin trì đủ lâu, hệ thống tự xác định tin “có liên quan” đến sở thích người dùng, đồng thời thông báo để họ biết Nếu giả định đưa sai, người dùng chỉnh sửa lại phản hồi cho tin tức Cơ chế gọi time-coded – dùng để xác định phản hồi ẩn (implicit feedbacks) - Tránh làm người dùng phân tán tin họ không quan tâm: ẩn tin người dùng phản hồi họ không quan tâm khỏi giao diện - Tránh làm người dùng phân tán thông tin họ biết: với độc giả đọc báo điện tử, có thể, hầu hết người mong muốn dễ dàng phân biệt tin họ đọc chưa đọc danh sách tin Giao diện Web xenoNews đáp ứng nhu cầu độc giả cách mô theo Youtube - trang chia sẻ video lớn giới, đồng thời có chức gợi ý Việc Làm mờ tin đọc (Minh hoạ 3.7) giúp người dùng tập trung vào họ chưa xem, chưa đọc 54 Minh hoạ 3.7: Cách Youtube giúp người dùng phân biệt video họ xem - Khi cần duyệt danh sách nhiều thông tin nói chung, hay duyệt báo điện tử nói riêng, nhiều người (trong có thân tơi) thường lướt nhanh qua tiêu đề để chọn tin muốn đọc chi tiết Sau tiến hành duyệt mục tin chọn Thói quen duyệt tin kiểu người dùng không muốn sau đọc xong tin, lại phải quay trang chủ tìm tin Hai ví dụ cho trường hợp này, mô tả ngắn sau: o Người dùng A, vào báo VietnamNet, duyệt từ xuống dưới, đọc tiêu đề (có thể mơ tả ngắn, có) tin tức, cảm thấy quan tâm đến chi tiết tin, người dùng mở báo sang Tab trình duyệt Web, lại tiếp tục duyệt lặp lại quy trình tin muốn đọc Sau 55 trình “lướt” tin này, người A bắt đầu đọc tin mở sang Tab mới, tắt Tab đọc xong, chuyển sang Tab o Người dùng B, sau đăng nhập vào Youtube, duyệt danh sách video Youtube gợi ý, tìm video muốn xem chọn biểu tượng “Watch Later” bên cạnh đường link xem video Sau vào mục “Watch Later”, Youtube trình chiếu tự động video danh sách, người dùng tự chọn, hay điều hướng (tin tiếp theo, tin trước danh sách) - Minh hoạ 3.8 Minh hoạ 3.8: Chức Watch Later Youtube Tính gọi “Đọc sau” (Read later) xenoNews: o Giúp cho trình duyệt tin người dùng hiệu tiết kiệm thời gian o Các tin hệ thống ngầm xác định người dùng “có quan tâm”, dù họ chưa thực đánh giá, cập nhật vào CSDL Qua đó, thu thập thêm nhiều tin tức thuộc sở thích người dùng Tóm lại, giao diện chức phần front-end hệ thống gợi ý tin tức xenoNews lấy người dùng làm trung tâm, với mong muốn thu thập nhiều phản hồi từ người dùng, tăng hiệu gợi ý hệ thống 56 Chương 4: Các thử nghiệm kết Trong chương này, báo cáo thử nghiệm thiết kế nhằm đánh giá hiệu gợi ý tin tức (cụ thể khả mơ hình hố độc giả sử dụng Hồ sơ người dùng lai – Hybrid User Profile), thu thập phản hồi người dùng (bao gồm phản hồi trực tiếp từ người dùng phản hồi ẩn dựa thời gian đọc tin) Đầu tiên, trình bày độ đo dùng thử nghiệm Tiếp theo, sử dụng độ đo để đánh giá hiệu hệ thống phân tích đóng góp phần Kết thử nghiệm Hồ sơ người dùng lai hoạt động hiệu so với mơ hình ngắn hạn, dài hạn riêng biệt Ngoài ra, khả chế phản hồi time-coded đánh giá 4.1 Các độ đo Quá trình chuẩn bị thử nghiệm 4.1.1 Các độ đo dùng để đánh giá Đối với hệ thống mà hiệu hoạt động phụ thuộc vào phản hồi, đồng thời có tương tác thường xuyên Đánh giá hiệu toàn hệ thống xây dựng khó trường hợp hệ thống gợi ý tin tức tiếng Việt xenoNews, lý sau: - Khơng có liệu chuẩn để tính tốn hiệu năng, so sánh thuật tốn - Hồ sơ người dùng cố gắng mơ hình hố sở thích độc giả Thế “sở thích” mang tính tương đối Sở thích người bất biến, thống Do đó, người duyệt danh sách tin, vào thời điểm khác nhau, cho kết đánh giá khác - Các phương pháp đánh giá chuẩn học máy, đánh giá chéo (n-fold crossvalidation) không áp dụng cho ngữ cảnh hệ thống Ngun nhân chủ yếu đặc tính có thứ tự thời gian tin tức Do vậy, với liệu dạng này, sử dụng độ đo gây biến dạng lớn tới kết - Phân phối tin tức khơng đều, ví du: ngày, lượng tin cho chuyên mục khác khác 57 Trong tốn phân loại, có độ đo thông dụng Accuracy (tạm dịch „Độ đắn’, để phân biệt với „Độ xác‟ - Precision), ví dụ: Accuracy tính tỉ lệ tin phân lớp Tuy nhiên, không sử dụng độ đo này, khơng phản ảnh hiệu hệ thống xét Có thể hình dung vấn đề độ đo Accuracy sau Do tỉ lệ tin “không liên quan” (đến sở thích đọc người dùng) cao nhiều so với tỉ lệ tin “có liên quan”, phân lớp coi tất tin tức “không liên quan”, dễ dàng đạt Độ đắn cao phân lớp xác định vài viết “có liên quan” đến người dùng Do vậy, Precision (Độ xác) Recall (Độ hồi tưởng) Thu thập thông tin (IR) dùng làm thước đo đánh giá hệ thống Cụ thể trường hợp xenoNews, độ xác phần trăm tin hệ thống đánh giá “có liên quan” (gợi ý cho người dùng), sau người dùng phản hồi gợi ý xác Còn độ hồi tưởng phần trăm báo người dùng cho “có liên quan” (đến sở thích, đặc điểm đọc họ), đồng thời hệ thống đưa vào kết gợi ý cho người dùng Cần phải đánh giá Độ xác Độ hồi tưởng song song với nhau, việc nâng cao độ đo riêng biệt dễ Một phân lớp hữu ích cho mục đích gợi ý cần phải đưa nhiều đối tượng thông tin thực phù hợp cho người dùng (tối ưu độ hồi tưởng), với độ xác cao (tối ưu độ xác) Để hợp hai giá trị này, Lewis cộng Gale đề xuất độ đo F-measure, giá trị kết hợp có trọng số Precision Recall, khoảng giá trị từ đến Các kết báo cáo luận văn coi Độ xác Độ hồi tưởng có tầm quan trọng Từ đó, ta có cơng thức F1 định nghĩa sau: F1   precision  recall precision  recall 4.1.2 Quá trình chuẩn bị thử nghiệm - Dữ liệu: Thu thập tin tức module (nằm Back-end) xây dựng hệ thống Và suốt thời gian trước thử nghiệm tiến hành (q trình nghiên cứu khố luận, lập trình hệ thống), module thu thập 40.000 báo thuộc chuyên mục lớn (xem Bảng 3.1), từ nhiều báo điện tử khác nhau: VietnamNet, Dân trí, Tinh tế, Genk, Người Lao Động, Tiền phong, Zing News, iOne, … 58 - Chuẩn bị Bộ phân loại (Module gợi ý Back-end): tin tức thu thập kể dùng làm liệu hiệu chỉnh trình lập trình hệ thống; để xác định tham số mơ hình ngắn hạn, dài hạn hồ sơ người dùng Cần lưu ý rằng, liệu dùng thử nghiệm sau không nằm tập liệu hiệu chỉnh 4.2 Hiệu gợi ý Hồ sơ người dùng kết hợp Để đánh giá kết gợi ý phân tích đóng góp phần, thử nghiệm tiến hành sau Có 10 người mời tham gia thử nghiệm thời gian ngày Hằng ngày, người có quyền xem tất tin tức hệ thống thu thập đánh giá tin họ xem (có thể sau đọc chi tiết, qua tiêu đề, ảnh, mô tả ngắn danh sách tin) Sau trình huấn luyện hệ thống này, thu khoảng 4000 đánh giá, tức trung bình người đánh giá khoảng 50 tin ngày Mặc dù lượng liệu khơng ước lượng xác hiệu tổng thể hệ thống có nhiều người dùng hơn, phân phối tin tức ngày lại thay đổi Nhưng cho phép biết Hồ sơ người dùng kết hợp có hoạt động hiệu mong muốn không, phân tích tỉ lệ đóng góp mơ hình ngắn hạn, dài hạn vào hiệu tổng thể Trong thử nghiệm này, ta khơng có luật người dùng tự mơ tả Bởi vì, số lượng luật thông tin tuỳ chọn, khai báo khác với người, số lượng tính hiệu luật (vì phụ thuộc vào từ khoá chọn, cách thức người sử dụng kết hợp chúng) Hoặc hiểu đơn giản thời gian đầu sử dụng, người dùng chưa có nhu cầu khai báo luật tự mơ tả Tiến hành q trình đánh giá: liệu đánh giá người chia thành phiên huấn luyện, phiên tương ứng với ngày Ban đầu, hệ thống huấn luyện tất ví dụ đánh giá phiên đầu tiên, kết gợi ý so sánh với nhãn lớp đánh giá người dùng phiên đánh giá thứ hai Sau đó, liệu huấn luyện tăng lên theo phiên, lại tiến hành đánh giá hiệu hệ thống phiên Cuối cùng, tơi sử dụng giá trị trung bình tất 10 người dùng Phương pháp thử nghiệm mô tả cách thức hệ thống hoạt động thực tế Kết thu từ thử nghiệm thể Bảng 4.1 59 Bảng 4.1: Bảng số liệu trung bình tất người dùng, sau phiên huấn luyện Precision Recall F1 S-T L-T Hybrid S-T L-T Hybrid S-T L-T Hybrid 72.6 28.8 51.9 26.2 17.0 32.1 38.5 21.4 39.7 70.1 32.7 72.1 41.5 36.7 48.8 52.1 34.6 58.2 74.6 41.2 75.5 53.0 58.3 57.7 62.0 48.3 65.4 80.2 40.6 83.0 59.6 66.9 61.1 68.4 50.5 70.4 76.9 38.2 78.1 58.6 71.4 61.3 66.5 49.8 68.7 83.1 66.8 86.8 56.3 63.9 61.4 67.1 65.3 71.9 85.8 67.7 87.7 54.8 72.0 61.5 66.9 69.8 72.3 Đồ thị 4.1: Sự biến đổi độ đo Precision, Recall, F1 sau phiên huấn luyện – xây dựng từ liệu ô kẻ nét đứt Bảng 4.1 Qua Đồ thị 4.1, ta nhận thấy thay đổi tích cực Precision Recall sau phiên huấn luyện, vậy, giá trị đo F1 cải thiện Trong Đồ thị 4.2, sử dụng độ đo F1 để biểu diễn hiệu hoạt động hệ thống dạng hàm phiên huấn luyện (sử dụng phần liệu tô xám Bảng 4.1) Đồ thị thể tăng nhanh chóng hiệu phân loại từ phiên đầu tiên, sau dao động, ảnh hưởng phân phối tin tức khác ngày Đồ thị thể tương quan khả hai mơ hình thành phần Hồ sơ người dùng Như dự đoán từ trước, hướng tiếp cận sử dụng Hồ sơ dạng kết hợp mơ hình ngắn hạn dài hạn hiệu hướng riêng lẻ, dựa kết độ đo F1 Nghiên cứu kỹ kết thu được, tơi nhận thấy mơ hình ngắn hạn có xu hướng đạt độ xác Precision cao hơn, độ hồi tưởng Recall nhỏ Ngược lại, mô hình dài hạn lại có độ hồi tưởng cao mơ hình ngắn hạn, độ xác nhỏ Việc sử dụng hai mơ hình cho phép tận dụng ưu hai, kết giúp cho F1 đạt giá trị cao 60 Đồ thị 4.1: Sự biến đổi độ đo Precision, Recall, F1 sau phiên huấn luyện Đồ thị 4.2: Hiệu hoạt động hệ thống, thể qua độ đo F1 61 Do thời gian thử nghiệm ngắn, nên hai mơ hình ngắn hạn, dài hạn chưa đạt đến hiệu tốt Ví dụ, lịch sử mơ hình ngắn hạn chưa đạt số lượng tối đa báo người dùng đọc gần đây; mơ hình dài hạn chưa có đủ nhiều ví dụ huấn luyện để mơ hình hố sở thích dài hạn người dùng (vì thử nghiệm diễn ngày, nên ngày cuối thử nghiệm, hệ thống có liệu phản hồi ngày độc giả) 4.3 Cơ chế phản hồi ẩn time-coded Time-coded chế thu thập phản hồi ẩn (implicit feedbacks) có vai trò quan trọng xenoNews Bởi cho phép hệ thống thu thập thêm nhiều đánh giá người đọc, cách tự động Trong xenoNews, có ngưỡng thời gian chọn sử dụng, vượt qua ngưỡng này, hệ thống tự xác định người dùng có quan tâm đến nội dung viết: - Các viết ngắn 700 ký tự: giá trị ngưỡng time-coded 22 giây - Các viết lại: 35 giây Để đánh giá hiệu chế này, thử nghiệm nhỏ tiến hành Hệ thống hiển thị từ báo họ đánh giá thử nghiệm trước Hệ thống thông báo cho người dùng biết: trước họ phản hồi với viết (quan tâm, khơng quan tâm): - Nếu trước kết đánh giá “không quan tâm”, họ yêu cầu bấm nút “Chuyển tới tiếp” - Nếu phản hồi trước “quan tâm”, họ yêu cầu đọc viết bình thường Nhưng họ chưa đọc xong đọc mà chế time-coded đạt giá trị ngưỡng, hệ thống tự động nhảy sang báo Người dùng có quyền chuyển sang tiếp họ đọc xong trước chế time-coded đạt điều kiện cần Kết thử nghiệm thể Bảng 4.2 Bảng 4.2: Kết đánh giá tự động chế phản hồi ẩn Time-coded Predicted Negative Negative Cases TN: user:“not interesting”+xenoNew:”Irrelevant” Predicted Positive FP: user:“not interesting”+xenoNew:”Relevant” 62 2245 FN: user:“interesting”+xenoNew:”Irrelevant” Positive Cases 19 TP: user:“interesting”+xenoNew:”Relevant” 2089 Từ bảng trên, ta tính được: Precision  TP 2089 TP 2089   99.8% ; Recall    99.1% TP  FP 2089  TP  FN 2089  19 Kết cao dễ hiểu, số lượng tin “siêu ngắn” (dưới 700 ký tự, tương đương 4-5 câu tiếng Việt) ít, người dùng đọc xong thời gian đọc chưa đủ để time-coded định viết có nên đưa vào lớp “Relevant” hay không Hơn nữa, xảy trường hợp: viết không quan tâm hệ thống lại coi “Relevant” – có liên quan đến sở thích người dùng, ví dụ: họ bị xao nhãng duyệt tin không tắt viết, hay chuyển sang 63 Kết luận Trong luận văn này, tơi trình bày chức năng, thiết kế thuật toán hệ thống thích nghi - xenoNews, có khả “học” sở thích người dùng thơng qua việc họ đọc tin tức ngày, từ gợi ý tin phù hợp ngày xenoNews sử dụng hướng tiếp cận dựa nội dung, đa-chiếnlược để mô hình hố thơng tin ngắn hạn, dài hạn độc giả cách riêng biệt, kết hợp với luật tự mô tả họ, tạo nên Hồ sơ người dùng lai Qua thử nghiệm, mơ hình thể rõ vai trò việc nâng cao hiệu tổng thể hệ thống Ngoài ra, tơi nghiên cứu sử dụng thói quen tương tác người dùng để thiết kế website đọc tin – front-end hệ thống Một chế thu thập phản hồi ẩn, tự động time-coded cài đặt chứng tỏ hữu ích mình, dựa kết thử nghiệm Nghiên cứu luận văn bước đầu để xây dựng dịch vụ gợi ý tin tức, nhiều vấn đề cần giải Phản hồi người dùng, qua thời gian sử dụng dài tiếp tục thu thập, nhằm đánh giá xác hiệu hệ thống Bên cạnh đó, tơi mong muốn nghiên cứu sâu vấn đề thuật toán xử lý, giao diện chức website, nâng cao trải nghiệm cho người sử dụng Mặc dù mẫu hệ thống chọn lọc tin tức dựa nội dung hoạt động hiệu Nhưng tin việc nghiên cứu vấn đề sau, tích hợp thêm vào xenoNews giúp hệ thống hoạt động tốt nữa: - Sử dụng thêm thông tin hợp tác: hướng tiếp cận gợi ý dựa hợp tác tỏ hứa hẹn, có khả kết hợp với hệ thống tại, tạo nên hệ thống lai Tuy nhiên để nghiên cứu thử nghiệm cần thêm thời gian lượng người sử dụng - Cơ chế thu thập phản hồi: nói, phản hồi người dùng đóng vai trò đặc biệt quan trọng hệ thống Việc nghiên cứu thêm chế thu thập phản hồi ẩn (implicit feedbacks), đặc biệt dạng phản hồi “không quan tâm” người dùng nghiên cứu kỹ tương lai 64 Phụ lục Một số ảnh minh hoạ giao diện Website Minh hoạ PL.1: Giao diện hiển thị tin dạng List Minh hoạ PL.2: Giao diện hiển thị tin dạng Grid 65 Minh hoạ PL.3: Màn hình đọc tin chi tiết 66 Tài liệu tham khảo [1] M Pazzani and D Billsus, “Learning and Revising User Profiles : The Identification of Interesting Web Sites,” Machine Learning 27, pp 313–331, 1997 [2] W Hill, L Stead, M Rosenstein, and G Furnas, “Recommending and Evaluating choices in a Virtual Community of use,” Proceedings of CHI’95 [3] M Balabanovic and Y Shoham, “Fab: Content-based, Collaborative Recommendation,” Communications of the ACM, vol 40, no 3, pp 66–72, 1997 [4] K Lang, “NewsWeeder: Learning to filter news,” Proceedings of the Twelfth International Conference on Machine Learning, pp 331–339, 1995 [5] J S Breese, D Heckerman, and C Kadie, “Empirical analysis of predictive algorithms for collaborative filtering,” Proceedings of 14th Conference on Uncertainty in Artificial Intelligence, 1998 [6] J Delgado and N Ishii, “Memory-Based Weighted-Majority Prediction for Recommender Systems,” ACM SIGIR’99 Workshop on Recommender Systems: Algorithms and Evaluation, 1999 [7] L H Ungar and D P Foster, “Clustering Methods for Collaborative Filtering,” Papers from 1998 Workshop Technical Report WS-98-08 AAAI Press, 1998 [8] G Shani, D Heckerman, and R I Brafman, “An MDP-Based Recommender System,” Proceedings of 18th Conference on Uncertainty in Artificial Intelligence, vol 6, pp 1265–1295, 2002 [9] D M Pennock, S Lawrence, and C L Giles, “Collaborative Filtering by Personality Diagnosis: A Hybrid Memory- and Model-Based Approach,” IJCAI’99 Workshop: Machine Learning for Information Filtering, 1999 [10] K Yu, A Schwaighofer, V Tresp, X Xu, and H Kriegel, “Probabilistic Memorybased Collaborative Filtering,” IEEE Transactions on Knowledge and Data Engineering, vol 16, no 1, pp 56–69, 2004 [11] M Claypool, A Gokhale, T Miranda, P Murnikov, D Netes, and M Sartin, “Combining content-based and collaborative filters in an online newspaper,” ACM SIGIR’99 Workshop on Recommender Systems: Algorithms and Evaluation, 1999 67 [12] M J Pazzani, “A Framework for Collaborative, Content-Based and Demographic Filtering,” Artificial Intelligence Review, pp 393–408, 1999 [13] P Melville, R J Mooney, and R Nagarajan, “Content-Boosted Collaborative Filtering for Improved Recommendations,” Proceedings of the 18th National Conference on Artificial Intelligence, Edmonton, Canada, 2002 [14] I Soboroff and C Nicholas, “Combining content and collaboration in text filtering,” IJCAI’99 Workshop: Machine Learning for Information Filtering, 1999 [15] C Basu, H Hirsh, and W Cohen, “Recommendation as classification: Using social and content-based information in recommendation,” Recommender Systems Papers from 1998 Workshop Technical Report WS-98-08 AAAI Press, 1998 [16] A I Schein, A Popescul, L H Ungar, and D M Pennock, “Methods and Metrics for Cold-Start Recommendations,” Proceedings of the 25th Annual International ACM SIGIR Conference, 2002 [17] N Belkin, “User Modeling in Information Retrieval,” Sixth International Conference on User Modeling, 1997 [18] N Belkin, J Kay, and C Tasso, “Special Issue on User Modeing and Information Filtering,” User Modeling and User Adapted Interaction, 1997 [19] G Webb, “Special issue on Machine Learning for User Modeling,” User Modeling and User Adapted Interaction, vol 8, no 1–2, 1998 [20] D Billsus and M J Pazzani, “User Modeling for Adaptive News Access,” User Modeling and User-Adapted Interaction, vol 10, no 2–3, pp 147–180, 2000 ... HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THẠC HUY CHỌN LỌC THÔNG TIN DỰA TRÊN NỘI DUNG ỨNG DỤNG XÂY DỰNG HỆ THỐNG GỢI Ý TIN TỨC THEO NHU CẦU NGƯỜI DÙNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ. .. tơi ứng dụng hướng tiếp cận chọn lọc thông tin dựa nội dung vào thực tế, thông qua hệ thống gợi ý tin tức tiếng Việt xenoNews Nội dung chương bao gồm: o Các yêu cầu với hệ thống cần xây dựng. .. người dùng dạng kết hợp, thống nhất, trung tâm việc gợi ý (chọn lọc) thông tin dựa nội dung o Mô tả thiết kế hệ thống gợi ý tin tức tiếng Việt, dựa nội dung, bao gồm ba phần chính: Lõi xử lý Back-end,

Định dạng
Số trang	66
Dung lượng	1,85 MB