Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,34 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ng Huy Long GIẢI PHÁP MỞ RỘNG THƠNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trước tiên, xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Uông Huy Long Hà Quang Thụy Thạc sĩ Trần Mai Vũ, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tơi chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu trường Đại Học Cơng Nghệ GIẢI PHÁP MỞ RỘNG THƠNG TIN NGỮ CẢNH Tôi PHIÊN xin gửiDUYỆT lời cảm ơn WEB tới anh chị DÙNG bạn sinh viên nhóm “Khai phá NGƯỜI NHẰM NÂNG liệu” giúp nhiều việc hỗ trợ kiến thức chuyên mơn để hồn thành tốt CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ khoá luận VẤN TIN TỨC Cuối cùng, muốn gửi lời cảm vô hạn tới gia đình bạn bè, người thân u ln bên cạnh động viên tơi suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn! KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Sinh viên Uông Huy Long Cán hướng dẫn: Th.S Trần Mai Vũ HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sĩ Trần Mai Vũ, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tôi chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu trường Đại Học Công Nghệ Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên nhóm “Khai phá liệu” giúp nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt khố luận Cuối cùng, tơi muốn gửi lời cảm vơ hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn! Sinh viên Uông Huy Long i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt Với phát triển Internet, người ngày khơng có nhiều hội tiếp xúc với nguồn cung cấp tin tức mà cịn có lúc Các tờ báo điện tử Việt Nam cung cấp ngày hàng chục hàng trăm tin thuộc nhiều lĩnh vực khác sẵn sàng đáp ứng yêu cầu lúc, nơi người đọc Tuy nhiên, bên cạnh tiện ích, tồn vấn đề cần giải gia tăng số lượng, tính đa dạng nội dung tin tức nguồn khác nhau, phù hợp cá nhân, Trong bối cảnh đó, giúp đỡ hệ thống tư vấn tin tức cần thiết, cách duyệt qua khơng gian lựa chọn, dự đốn tin tức hữu ích tiềm với người dùng cá nhân Xây dựng hồ sơ sở thích người dùng thành phần hệ thống tư vấn Tuy nhiên, mơ hình (như khảo sát Gauch cộng [14] ) sử dụng tồn nhiều vấn đề chưa giải quyết, ví dụ như: tính nhập nhằng ngữ nghĩa hồ sơ dựa từ khóa, địi hịi thơng tin suy diễn từ WordNet để xác định ngữ nghĩa hồ sơ dựa mạng ngữ nghĩa, Thêm vào đó, giải pháp cịn thiếu khả tính hợp mềm dẻo nhân tố ngữ cảnh Khóa luận trình bày mơ hình hệ thống tư vấn tin tức sử dụng mơ hình sở thích dùng Dựa khai phá liệu từ ngữ cảnh duyệt web người dùng, hệ thống coi sở thích người sử dụng kết hợp tập chủ đề ẩn xuất phổ biến tập thực thể tin tức người dùng quan tâm ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Mở đầu Chương Khái quát hệ thống tư vấn 1.1 Bài toán tư vấn 1.2 Các kĩ thuật tư vấn 1.2.1 Kĩ thuật tư vấn dựa nội dung 1.2.2 Kĩ thuật tư vấn cộng tác 1.2.3 Kĩ thuật tư vấn lai 11 1.3 Sơ lược hệ thống tư vấn tin tức khóa luận 13 1.3.1 Đặc trưng tư vấn tin tức 13 1.3.2 Hướng tiếp cận khóa luận 14 Chương Mơ hình hóa sở thích người dùng cho hệ tư vấn dựa nội dung 16 2.1 Tiến trình mơ hình sở thích người dùng 16 2.2 Thu thập thông tin người dùng 17 2.2.1 Phương pháp định danh người dùng 17 2.2.2 Các phương pháp thu thập thông tin 18 2.3 Xây dựng mô hình sở thích người dùng 21 2.3.1 Phương pháp dựa từ khóa có trọng số 21 2.3.2 Phương pháp dựa mạng ngữ nghĩa 22 2.3.3 Phương pháp dựa phân cấp khái niệm 23 Chương Mơ hình 24 3.1 Cơ sở lý thuyết 25 3.1.1 Phân tích thơng tin chủ đề dựa mơ hình chủ đề LDA 25 3.1.2 Nhận dạng thực thể tài liệu dựa từ điển 27 3.2 Phân tích sở thích người dùng 28 3.2.1 Thông tin phiên duyệt web người dùng 28 3.2.2 Mơ hình sở thích người dùng 29 3.3 Áp dụng mơ hình mơi quan tâm người dùng vào tư vấn tin tức 30 3.3.1 Pha phân tích liệu tư vấn 30 3.3.2 Pha tư vấn trực tuyến 33 3.4 Đánh giá kết tư vấn 36 Chương 4: Thực nghiệm đánh giá 37 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.1 Môi trường thực nghiệm 37 4.2 Dữ liệu công cụ 37 4.2.1 Dữ liệu 37 4.2.2 Công cụ 38 4.3 Thực nghiệm 39 4.3.1 Ví dụ phân tích tin tức 39 4.3.2 Ví dụ phân tích sở thích người dùng 40 4.3.3 Tư vấn tin tức 42 4.4 Kết thực nghiệm đánh giá 43 Kết luận 46 Tài liệu tham khảo 48 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình Hình Các thành phần hệ thống tư vấn Hình Tiến trình mơ hình hóa sở thích người dùng 16 Hình Các hệ thống tư vấn dựa thông tin phản hồi 19 Hình Mơ hình mối quan tâm người dùng dựa từ khóa 22 Hình Mơ hình mối quan tâm người dùng dựa mạng ngữ nghĩa 22 Hình Mơ hình mối quan tâm người dùng dựa mạng khái niệm 23 Hình Tài liệu với K chủ đề ẩn 25 Hình Biểu diễn đồ họa LDA 26 Hình Ước lượng tham số tập liệu văn 26 Hình 10 Suy diễn chủ đề sử dụng tập liệu VnExpress 27 Hình 11 Mơ hình sở thích người dùng dựa chủ đề ẩn thực thể 29 Hình 12 Mơ hình pha phân tích liệu tư vấn 31 Hình 13 Mơ hình pha tư vấn trực tuyến 33 Hình 14 Biểu diễn tin tức theo chủ đề thực thể 39 Hình 15 Kết phân tích cho thấy thông tin liên quan đến chủ đề 19 42 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng Bảng Đánh giá theo thang điểm số phim xem Bảng Các kĩ thuật thu thập thông tin ẩn 20 Bảng Ví dụ hồ sơ sở thích người dùng 24 Bảng Thông tin phiên duyệt web 28 Bảng Môi trường thực nghiệm 37 Bảng Công cụ 38 Bảng Một số chủ đề ẩn 39 Bảng Ví dụ phân tích sở thích người dùng 40 Bảng Đánh giá mơ hình phân tích sở thích 44 Bảng 10 Độ xác mơ hình dựa vào đánh giá người sử dụng 44 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở đầu Từ báo lọc công tác công bố từ năm 90 kỉ trước, hệ tư vấn chứng tỏ vai trò quan trọng hai khía cạnh nghiên cứu ứng dụng Chúng ta dễ dàng tiếp cận với báo khoa học liên quan đến từ khóa “Recommender System” 8600 kết trả từ máy tìm kiếm GoogleScholar với 1100 kết cho riêng năm 2009 sử dụng ứng dụng tư vấn tiếng sách Amazon2, phim NetFlix3 Các hệ tư vấn hoạt động lọc thông tin [8], nhằm cố gắng đưa thông tin nội dung thông tin sản phẩm (như phim, sách, website, tin tức,…) có nhiều khả thuộc người dùng quan tâm Thông thường, hệ tư vấn so sánh mối quan tâm người dùng (trong khóa luận, hai khái niệm mối quan tâm người dùng hay sở thích người dùng sử dụng thay cho nhau) với vài đặc trưng tham chiếu để đưa ước lượng đánh giá cho sản phẩm Các đặc trưng đến từ thơng tin sản phẩm (hướng tiếp cận lọc dựa nội dung) từ môi trường xã hội người dùng (hướng tiếp cận lọc cộng tác) Mặc dù hệ thống tư vấn nghiên cứu từ lâu, có nhiều ứng dụng chứng minh tính hiệu hệ thống tư vấn giới, nghiên cứu lĩnh vực Việt Nam hạn chế Mong muốn phát triển hệ thống tư vấn, khóa luận tập trung vào xây dựng hệ thống tư vấn tin tức tiếng Việt Ngày nay, khái niệm “báo điện tử” việc đọc tin tức điện tử khơng cịn xa lạ với đa số người dân Việt Nam Những thống kê gần BaoMoi4 số lượt người sử dụng internet để xem tin tức điện tử cho thấy nhu cầu ngày tăng xã hội lĩnh vực truyền thông Tuy nhiên, vấn đề cịn tồn có nhiều tin tức ngày cập nhật, người dùng giường bị chìm ngập biển thơng tin mà khơng tìm thơng tin phù hợp, mơi trường cho lĩnh vực liên quan đến tư vấn tin tức phát triển Nắm bắt nhu cầu này, khóa luận đề xuất giải pháp tư vấn nội dung thông tin liên quan đến ngữ cảnh tiếp nhận thông tin người sử dụng, qua mong http://www.scholar.google.com http://www.amazon.com http://www.netflix.com http://www.baomoi.com/Statistics/Report.aspx LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com muốn cung cấp dẫn đúng, nhanh chóng, khơng có phiền tối từ việc phải đăng kí hay cung cấp thơng tin cá nhân Nội dung khóa luận chia làm phần: Chương Các hệ thống tư vấn: Trình bày khái niệm, thuật ngữ, kĩ thuật liên quan đến hệ thống tư vấn Các ưu nhược điểm kĩ thuật trình bày chi tiết mục 1.2 1.3 Chương Mơ hình hóa sở thích người dùng cho hệ tư vấn dựa nội dung: Giới thiệu toán xây dựng sở thích người dùng, thơng tin sử dụng để phân tích số kĩ thuật mơ hình sở thích người dùng Chương Mơ hình: Trình bày đề xuất xây dựng sở thích người dùng dựa phân tích chủ đề ẩn phổ biến thực thể, áp dụng mơ hình vào hệ thống tư vấn tin tức Chương Thực nghiệm đánh giá: Trình bày số kết đánh giá ban đầu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực nghiệm đánh giá 4.1 Môi trường thực nghiệm Bảng Môi trường thực nghiệm 4.2 Thành phần Thông số CPU Core Duo 2.0 GHz RAM GB HDD 320 GB OS Windows Ultimate Dữ liệu công cụ 4.2.1 Dữ liệu Dữ liệu tư vấn Để xây dựng liệu tư vấn hệ thống, thu thập liệu từ trang web là: Dantri, Vnexpress, 24h Sau trình tiến hành tiền xử lý bóc tách lấy nội dung tin tức, chúng tơi thu 4333 tin : 2060 tin website Dantri.com.vn 1291 tin website Vnexpress.net 982 tin website 24h.com.vn Dữ liệu phiên duyệt web người sử dụng Chúng tiến hành thu thập 30 phiên duyệt web 30 người sử dụng website Dantri Vnexpress thơng qua việc phân tích history Dữ liệu lịch sử trình duyệt người sử dụng Thu thập 30 liệu lịch sử trình duyệt (history browser) người sử dụng có thời gian khoảng 15 phút trước sau 30 phiên duyệt web lấy 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2.2 Công cụ Bảng Công cụ Công cụ Mô tả SessionRecommendation Tác giả: Uông Huy Long Mơ tả: Bộ cơng cụ phân tích sở thích duyệt web người sử dụng thông qua Session tư vấn tin tức dựa sở thích phân tích JGibbLDA Tác giả: Nguyễn Cẩm Tú Phan Xuân Hiếu Mơ tả: Cơng cụ phân tích chủ đề ẩn cho tài liệu viết Java Website: http://jgibblda.sourceforge.net VutmDic Tác giả: Trần Mai Vũ Mô tả: Bộ từ điển thực thể gồm 6479 thực thể thuộc loại thực thể: địa danh nước, địa danh nước ngoài, tên người, tên tổ chức Vnexpress 100topics Tác giả: Nguyễn Cẩm Tú Phan Xuân Hiếu Mô tả: Bộ liệu 100 chủ đề ẩn phân tích từ Vnexpress dùng để phân tích chủ đề ẩn Website: http://jgibblda.sourceforge.net/vnexpress- 100topics.txt Crawler4j Tác giả: Yasser Ganjisaffar Mô tả: Công cụ thu thập liệu từ website báo điện tử Website: http://code.google.com/p/crawler4j/ 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3 Thực nghiệm 4.3.1 Ví dụ phân tích tin tức Du lịch Bắc Kinh dịp Olympic cực khó 28/07/2008 08:17 Theo hãng lữ hành Hà Nội, nhu cầu khách du lịch Bắc Kinh vào thời điểm diễn Olympic 2008 tăng cao song công ty đáp ứng Vào thời điểm này, giá phòng khách sạn Bắc Kinh tăng gấp lần so với trước kia, lượng xe vận chuyển khách du lịch đặt được huy động phục vụ Olympic Mặt khác, vào thời điểm này, thủ tục xin cấp visa vào Trung Quốc gặp nhiều khó khăn Do vậy, khơng giá tour đến Bắc Kinh tăng đột biến mà hãng lữ hành Trung Quốc cịn từ chối phía Việt Nam đề nghị đưa khách sang… Danh sách chủ đề: - Topic 86 - Topic 23 - Topic 94 Danh sách thực thể: - Bắc kinh - Hà Nội - Olympic - Trung Quốc - Việt Nam Hình 14 Biểu diễn tin tức theo chủ đề thực thể Bảng Một số chủ đề ẩn Topic 86 Topic 23 Topic 94 du_lịch tour thái_lan du_khách đẹp khách singapore phố cổ điểm_đến bãi_biển sinh_thái de_france việt_nam vàng thể_thao hc chạy thế_giới sea_games điền_kinh vđv giành nội_dung asiad học_sinh quốc_tế em thi tốt_nghiệp giáo_viên quốc_gia lớp thpt tổ_chức giỏi kỳ_thi olympic 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3.2 Ví dụ phân tích sở thích người dùng Các tin tức phiên duyệt web lưu trữ dùng để phân tích sở thích người dùng thời điểm Q trình phân tích tiến hành mơ hình đề xuất chương với bước phân tích chủ đề ẩn nhận dạng thực thể có tin tức Ví dụ, url nêu bảng dưới, hệ thống phân tích chủ đề ẩn trội tin tức thực thể tồn tin tức (thực thể từ tơ màu) Bảng Ví dụ phân tích sở thích người dùng STT Tin tức Chủ Chủ Chủ đề đề đề Url: http://dantri.com.vn/c26/s26-393724/quy-do-mu-uu-tien- 19 chi-20-trieu-bang-mua-benzema.htm 70 72 78 14 “Quỷ đỏ” MU ưu tiên chi 20 triệu bảng mua Benzema (Dân trí) - Lo ngại hàng công phụ thuộc nhiều vào phong độ Wayne Rooney nay, Manchester United có kế hoạch chi 20 triệu bảng để mua chân sút Karim Benzema mùa Hè Do sa sút phong độ thảm hại tiền đạo Berbatov, hàng công Manchester United dựa nhiều vào phong độ Wayne Rooney Trước nguy chân sút bị tải mùa tới phải thi đấu liên miên từ World Cup chuyến du đấu, MU có kế hoạch lên phương án dự phòng … Url: http://dantri.com.vn/c25/s20-393779/bo-hoi-tai-di-sieu- 86 thi-ngay-nghi-le.htm “Bở tai” siêu thị ngày nghỉ lễ (Dân trí) - Chen mua hàng, ngạt thở chờ tính tiền, chí nhiều người phải bỏ hàng “thốt thân”… Đó tình cảnh nhiều người gặp phải siêu thị ngày nghỉ lễ vừa qua Thay du lịch, phận không nhỏ người dân 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TPHCM lại vung tiền cho mua sắm dịp nghỉ lễ dài ngày 30/4 - 1/5 vừa qua Đáp lại, siêu thị có nhiều chương trình khuyến hấp dẫn để tạo sức hút với người dân… Url: http://dantri.com.vn/c26/s26-394037/wayne-rooney-tiep- 19 tuc-boi-thu-danh-hieu-ca-nhan.htm 70 39 37 Wayne Rooney tiếp tục bội thu danh hiệu cá nhân (Dân trí) - Với phong độ chói sáng mùa giải năm nay, Wayne Rooney lần lại ẵm danh hiệu cá nhân cao quý Mới anh đoạt thêm giải thưởng Cầu thủ xuất sắc CĐV MU đồng đội bình chọn Với tỷ lệ phiếu bầu áp đảo 83% Rooney vượt qua đồng đội Patrice Evra Antonio Valencia để trở thành Cầu thủ xuất sắc năm 2010 MU (Sir Matt Busby Player of the Year) Giải thưởng CĐV Quỷ đỏ khắp nơi giới bình chọn thơng qua website ManUtd.com Đây lần thứ hai chân sút người Anh có vinh dự sau thành công lần đầu vào năm 2006 Url: http://dantri.com.vn/c26/s26-381415/owen-rooney-giup- 19 mu-bao-ve-thanh-cong-carling-cup.htm Owen, Rooney giúp MU bảo vệ thành cơng Carling Cup (Dân trí) - Dù để Aston Villa vượt lên dẫn trước đầu trận với lĩnh mình, “Quỷ đỏ” lội ngược dịng để giành chiến thắng 2-1 nhờ hai pha lập công Owen Rooney, qua lần thứ hai liên tiếp vô địch Carling Cup Trận chung kết Wembley tối nay, 28/2, diễn cởi mở hấp dẫn sau tiếng còi khai Aston Villa bất ngờ mở tỷ số phút sau cú sút penalty thành công James Milner Bị dội “gáo nước lạnh” từ sớm MU khơng nao núng nhanh chóng qn bình tỷ số sau phút, với pha chớp thời Owen Dù sau cựu tiền đạo Newcastle phải rời sân cuối hiệp bị đau người vào thay anh, Wayne Rooney tiếp tục hoàn thành xuất sắc nhiệm vụ Tiền đạo có phong độ ghi bàn “cực khủng” tác giả bàn thắng ấn định tỷ số 2-1 phút 74, giúp MU đăng quang chức vô địch Carling Cup lần thứ hai liên tiếp 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hệ thống nhận điểm tương đồng chủ đề tin tức đọc Như ví dụ, chủ đề phổ biến : 19 (3 lần), 70 (2 lần) (ví dụ số từ khóa có trọng số cao chủ đề 19 70 nêu bảng dưới) thực thể trội như: MU, Wayne Rooney, Newcastle, Carling Cup, Owen, Phân phối từ chủ đề 19 giải vô_địch cầu_thủ đội mùa bóng vịng trận hạng bóng_đá đấu thi_đấu 0.06996495208178817 0.028954524962552533 0.025173421752977616 0.021828599682969036 0.01935633989209313 0.014993528496429764 0.014266393263819203 0.011503279379899072 0.011212425286854849 0.011212425286854849 0.010921571193810624 0.010485290054244287 Phân phối từ chủ đề 70 đồng hàng tiền triệu tỷ chiếm lừa trăm chục giả chiếm_đoạt nghìn … 0.07584530113531 0.03834504357859601 0.03463622689716275 0.03133950095811097 0.02227350462571858 0.011765190694991037 0.008674510127129994 0.008262419384748521 0.006614056415222632 0.006408011044031896 0.00620196567284116 0.0053777841880782145 … 4.3.3 Tư vấn tin tức Các tin tức xem liên quan thuộc vào chủ đề phổ biến tin tức người dùng quan tâm, ví dụ với tin tức liệt kê bảng Các tin tức liên quan tin tức có chủ đề thuộc vào 19 70 Hình 15 Kết phân tích cho thấy thông tin liên quan đến chủ đề 19 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tuy nhiên, tư vấn tin tức thuộc chủ đề có q nhiều tin tức lựa chọn, cần có giải pháp để xếp lại tin tức này, khóa luận sử dụng thực thể nằm tin tức xem thuộc chủ đề quan tâm phổ biến (như MU, Wayne Rooney, Newcastle, Carling Cup, Owen, ) để xếp hạng lại kết thu Top N tin tức thu sử dụng để đưa tư vấn với người dùng Ví dụ, tin tức tư vấn Garry Neville 10 kiện đáng nhớ nghiệp MU - Bóng đá - Tin bên lề Score: Gary Neville, tên đầy đủ Gary Alexander Neville, người đứng thứ danh sách cầu thủ khoác áo nhiều MU với 597 trận đấu tất đấu trường Xếp anh Paul Scholes với 641 lần sân Ryan Giggs người dẫn đầu danh sách với 836 lần Neville cầu thủ top 500 lần xuất màu áo đỏ MU Neville sản phẩm lò đào tạo trẻ MU năm 90 có vinh dự đeo băng đội trưởng đội hình Manchester United đoạt cúp vô địch FA dành cho đội trẻ năm 1992 Mùa bóng chứng kiến đời lứa cầu thủ tài David Beckham, Ryan 4.4 Kết thực nghiệm đánh giá Chúng tơi tiến hành đánh giá độ xác mơ hình dựa vào phương pháp đánh giá nêu mục 3.4: Đánh giá mơ hình phân tích sở thích dựa vào tính tương đồng chủ đề mối quan tâm người dùng nhận từ lịch sử duyệt web lưu máy khách mối quan tâm người dùng nhận từ phiên duyệt web lưu máy chủ Đánh giá độ xác mơ hình dựa vào đánh giá người sử dụng: thống kê đánh giá trực tiếp người dùng qua việc kiểm tra thông tin tư vấn phù hợp hay khơng phù hợp Kết đo độ xác độ xác trung bình tính 30 người sử dụng 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Đánh giá mơ hình phân tích sở thích Độ xác chủ đề với mối quan tâm người dùng 85% 79% 72% 66% 57% Chủ đề Chủ đề đứng đầu Chủ đề đứng thứ hai Chủ đề đứng thứ ba Chủ đề đứng thứ tư Chủ đề đứng thứ năm Kết so sánh độ tương đồng chủ đề phiên duyệt web trang web người dùng truy cập trước sau phiên duyệt web cho thấy phân tích mối quan tâm người dùng sử dụng để tổng hợp mối quan tâm dự đoán tin tức người dùng ưa thích tương lai Bảng 10 Độ xác mơ hình dựa vào đánh giá người sử dụng Số lượng tin tức người dùng duyệt qua Độ xác kết tư vấn Độ xác kết tư vấn Độ xác kết tư vấn tin tức 70% 68.3% 65.2% tin tức 76.7% 64.3% 66.4% tin tức 83.3% 79.4% 76.5% tin tức 56.7% 43.7% 42% Từ số liệu bảng 10, đưa kết luận sau: Kết tư vấn đạt tốt trường hợp phiên duyệt web lưu trữ tin tức Các trường hợp phiên duyệt web lưu trữ tin tức hiệu thấp đơi người dùng quan tâm đến tin tức thuộc lĩnh vực hoàn toàn độc lập, chưa xuất tính phổ biến chủ đề phân tích Ở trường hợp cịn lại số tin tức lưu phiên 7, nhiễu số chủ đề quan tâm tin tức cũ tăng lên Vì hệ thống xác định chủ đề phổ biến mà chưa quan tâm tới trọng số chủ đề, số 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com trường hợp, chủ đề quan tâm trở thành phổ biến, làm giảm độ xác mơ hình Nhìn chung, độ xác mơ hình tư vấn giảm dần theo số lượng tin tức tư vấn Tuy nhiên việc đưa nhiều tư vấn cung cấp cho người dùng nhiều lựa chọn 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Các hệ thống tư vấn nhận nhiều quan tâm từ cộng đồng nghiên cứu tổ chức kinh tế đóng góp giải vấn đề tràn ngập thông tin cung cấp dịch vụ hướng cá nhân Tuy nhiên, lĩnh vực tư vấn tin tức, hướng tiếp cận nhiều vấn đề cần giải Nắm bắt nhu cầu đó, khóa luận tiến hành nghiên cứu, khảo sát số hướng tiếp cận giải tốn tư vấn có Sau đó, dựa khảo sát này, khóa luận đề xuất giải pháp tư vấn cho hệ thống cung cấp tin tức Các kết đạt Khóa luận tìm hiểu khái niệm, thuật ngữ, kĩ thuật liên quan đến hệ thống tư vấn Dựa vào khảo sát đặc trưng tư vấn tin tức, phân tích ưu nhược điểm phương pháp xây dựng hai thành phần hệ tư vấn mơ hình sở thích người dùng thuật tốn tư vấn, khóa luận đề xuất giải pháp tư vấn tin tức dựa khai phá ngữ cảnh sử dụng người dùng Trong đó, hệ thống thực thi thuật tốn tư vấn dựa phân tích chủ đề ẩn thực thể nội dung tin tức người dùng vừa truy cập (hướng tiếp cận dựa nội dung) Hướng tiếp cận có nhiều tiềm chứng minh thông qua số số liệu thống kê kết ban đầu Một số vấn đề cần tiếp tục giải Tuy mơ hình bước đầu đạt số kết khả quan, tồn nhiều vấn đề cần giải Đầu tiên, chưa có độ đo ngữ nghĩa cho hệ thống tư vấn tương tự, đánh giá chủ yếu dựa nhận định chủ quan tính phù hợp hay khơng phù hợp kết tư vấn Thêm vào đó, hạn chế số lượng chất lượng kho liệu tin tức ảnh hưởng xấu đến chất lượng tư vấn Cuối cùng, hệ thống sử dụng liệu từ phiên duyệt web người dùng, kết tư vấn người dùng truy cập vài tin tức đầu chưa cao 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hướng nghiên cứu Trong thời gian tới, việc tiếp tục giải vấn đề cịn tồn tại, chúng tơi định hướng số nghiên cứu tiếp theo: - Nghiên cứu thêm yếu tố ngữ cảnh ảnh hưởng chúng đến định người dùng - Nghiên cứu hướng áp dụng giải pháp mở rộng thông tin ngữ cảnh người dùng cung cấp thông tin quảng cáo phù hợp với ngữ cảnh sử dụng 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Tiếng Việt [1] Uông Huy Long, Nguyễn Đạo Thái, Trần Xn Tứ Mơ hình tư vấn dựa việc phân tích chủ đề ẩn quan tâm người dùng, Cơng trình sinh viên nghiên cứu khoa học, Đại học Công Nghệ, ĐHQGHN, 2009 Tiếng Anh [2] G.Adomavicius, A.Tuzhilin Towards the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Extensions, IEEE Transactions on Knowledge and Data Engineering, 2005 [3] Aho, Alfred V.; Margaret J Corasick "Efficient string matching: An aid to bibliographic search" Communications of the ACM 18 (6): 333–340, June 1975 [4] Ansari, A., S Essegaier, and R Kohli Internet recommendations systems Journal of Marketing Research, pages 363-375, 2000 [5] Basu, C., H Hirsh, and W Cohen Recommendation as classification: Using social and content-based information in recommendation In Recommender Systems Papers from 1998 Workshop Technical Report WS-98-08 AAAI Press, 1998 [6] Balabanovic, M and Y Shoham Fab: Content-based, collaborative recommendation Communications of the ACM, 40(3):66-72, 1997 [7] Bamshad Mobasher: Data Mining for Web Personalization The Adaptive Web 2007:90-135 [8] Belkin, N.J., Croft, W.B.: Information filtering and information retrieval: two sides of the same coin? Communications of the ACM 35(12), 29–38 (1992) [9] Billsus, D and M Pazzani Learning collaborative information filters In International Conference on Machine Learning, Morgan Kaufmann Publishers, 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1998 [10] Breese, J S., D Heckerman, and C Kadie Empirical analysis of predictive algorithms for collaborative filtering In Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence, Madison, WI, 1998 [11] Burke, R Hybrid Recommender Systems: Survey and Experiments User Modeling and User-Adapted Interaction 12, (Nov 2002), 331-370 [12] Chen, L., Sycara, K.: A Personal Agent for Browsing and Searching In: Proceedings of the 2nd International Conference on Autonomous Agents, Minneapolis/St Paul, May 9-13, (1998) 132-139 [13] David M Blei, Andrew Y Ng, Michael I Jordan: Latent Dirichlet Allocation Journal of Machine Learning Research (JMLR) 3:993-1022 (2003) [14] Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A User profiles for personalized information access, In: Brusilovsky, P., Kobsa, A., and Neidl, W., Eds The Adaptive Web: Methods and Strategies of Web Personalization Springer- Verlag, Berlin Heidelberg New York, 2007, 54-89 [15] Gentili, G., Micarelli, A., Sciarrone, F.: Infoweb: An Adaptive Information Filtering System for the Cultural Heritage Domain Applied Artificial Intelligence 17(8-9) (2003) 715-744 [16] Guarino, N., Masolo, C., Vetere, G.: OntoSeek: Content-Based Access to the Web IEEE Intelligent Systems, May 14(3) (1999) 70-80 [17] Heinrich, G., “Parameter Estimation for Text Analysis”, Technical Report [18] Herlocker, L., Konstan, J.A., Terveen, L.G., Riedl, J.T.: Evaluating Collaborative Filtering Recommender Systems ACM Transactionson Information Systems 22(1), 5–53(2004) [19] Thomas Hofmann Probabilistic latent semantic indexing In Proceedings of 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com SIGIR-99, (1999) 35–44 [20] Kelly, D., Teevan, J.: Implicit feedback for inferring user preference: a bibliography ACM SIGIR Forum 37(2) (2003) 18-28 [21] Le Dieu Thu Online context advertising, Undergraduate Thesis, College of Technology, Vietnam National University, Hanoi, 2008 [22] Nguyen Cam Tu Hidden Topic Discovery toward Classification and Clustering in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam National University, Hanoi, 2008 [23] Pazzani, M., Muramatsu, J., Billsus, D.: Syskill & Webert: Identifying Interesting Web Sites In: Proceedings of the 13th National Conference On Artificial Intelligence Portland, Oregon, August 4–8 (1996) 54-61 [24] Pretschner, A.: Ontology Based Personalized Search Master’s thesis University of Kan- sas, June (1999) [25] Popescul, A., L H Ungar, D M Pennock, and S Lawrence Probabilistic Models for Unified Collaborative and Content-Based Recommendation in SparseData Environments In Proc of the 17th Conf on Uncertainty in Artificial Intelligence, Seattle, WA, 2001 [26] R.Baeza, F.Silvestri Web Query Log Mining, ACM SIGIR Conference tutorial, 2009 [27] G Salton, A Wong, C.S Yang A Vector Space Model for Automatic Indexing, Communication of the ACM, 18 (11), 1975 [28] Sieg, A., Mobasher, B., Burke, R.: Inferring users information context: Integrating user profiles and concept hierarchies In: 2004 Meeting of the International Federation of Classification Societies, IFCS, Chicago, July (2004) [29] Soboroff, I and C Nicholas Combining content and collaboration in 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com text filtering In 43 IJCAI'99 Workshop: Machine Learning for Information Filtering, 1999 [30] The Open Directory Project (ODP), http://dmoz.org [31] Widyantoro, D.H., Yin, J., El Nasr, M., Yang, L., Zacchi, A., Yen, J.: Alipes: A Swift Messenger In Cyberspace In: Proc 1999 AAAI Spring Symposium Workshop on Intelli- gent Agents in Cyberspace, Stanford, March 22-24 (1999) 62-67 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... vào hệ thống cung cấp tin tức Với việc phân tích đặc trưng đối tư? ??ng tư vấn này, khóa luận đề xuất ý tư? ??ng ban đầu cho giải pháp tư vấn triển khai 1.3.1 Đặc trưng tư vấn tin tức Tư vấn tin tức. .. thích người dùng 3.2.1 Thông tin phiên duyệt web người dùng Một phiên duyệt web chuỗi pageview người dùng đơn lần duyệt đơn [7] Trong đó, pageview tập hợp đối tư? ??ng web hiển thị tới người dùng. .. biến Tư vấn tin tức Giai đoạn cuối tiến trình tư vấn tìm tin tức phù hợp với sở thích người dùng Vì vậy, tư vấn đạt theo hai bước sau: Bước 1: Xác định tin tức ứng viên từ tập tin tức tin vấn Hệ