GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Uông Huy Long GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2010 Lời cảm ơn Trước tiên, tơi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tơi trong suốt q trình thực hiện khố luận tốt nghiệp. Tơi chân thành cảm ơn các thầy, cơ đã tạo những điều kiện thuận lợi cho tơi học tập và nghiên cứu tại trường Đại Học Cơng Nghệ. Tơi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tơi rất nhiều trong việc hỗ trợ kiến thức chun mơn để hồn thành tốt khố luận. Cuối cùng, tơi muốn gửi lời cảm vơ hạn tới gia đình và bạn bè, những người thân u ln bên cạnh và động viên tơi trong suốt q trình thực hiện khóa luận tốt nghiệp. Tơi xin chân thành cảm ơn! Sinh viên ng Huy Long ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ ng Huy Long GIẢI PHÁP MỞ RỘNG THƠNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán bộ hướng dẫn: Th.S Trần Mai Vũ HÀ NỘI - 2010 i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại Học Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Uông Huy Long ii Tóm tắt Với sự phát triển của Internet, con người ngày nay không chỉ có nhiều hơn cơ hội tiếp xúc với các nguồn cung cấp tin tức mà còn có thể có được nó đúng lúc hơn. Các tờ báo điện tử ở Việt Nam cung cấp mỗi ngày hàng chục cho tới hàng trăm tin mới thuộc nhiều lĩnh vực khác nhau sẵn sàng đáp ứng các yêu cầu mọi lúc, mọi nơi của người đọc. Tuy nhiên, bên cạnh những tiện ích, tồn tại những vấn đề cần được giải quyết như sự gia tăng về số lượng, tính đa dạng về nội dung của tin tức ở các nguồn khác nhau, sự phù hợp cá nhân, .Trong bối cảnh đó, sự giúp đỡ của một hệ thống tư vấn tin tức là cần thiết, bằng cách duyệt qua không gian các lựa chọn, nó dự đoán các tin tức hữu ích tiềm năng với từng người dùng cá nhân. Xây dựng hồ sơ sở thích người dùng là một trong các thành phần cơ bản nhất của hệ thống tư vấn. Tuy nhiên, những mô hình (như trong khảo sát của Gauch và cộng sự [14] ) đang được sử dụng hiện nay vẫn tồn tại nhiều vấn đề chưa được giải quyết, ví dụ như: tính nhập nhằng ngữ nghĩa trong các hồ sơ dựa trên từ khóa, hoặc đòi hòi thông tin suy diễn từ WordNet để xác định ngữ nghĩa trong các hồ sơ dựa trên mạng ngữ nghĩa, .Thêm vào đó, các giải pháp này còn thiếu khả năng tính hợp mềm dẻo các nhân tố ngữ cảnh. Khóa luận này trình bày một mô hình hệ thống tư vấn tin tức sử dụng một mô hình sở thích ngươi dùng mới. Dựa trên khai phá dữ liệu từ ngữ cảnh duyệt web của người dùng, hệ thống coi sở thích của người sử dụng là một kết hợp của tập các chủ đề ẩn xuất hiện phổ biến và tập các thực thể trong các tin tức người dùng từng quan tâm. iii Mục lục Mở đầu 1 Chương 1. Khái quát về các hệ thống tư vấn 3 1.1. Bài toán tư vấn . 3 1.2. Các kĩ thuật tư vấn 5 1.2.1. Kĩ thuật tư vấn dựa trên nội dung . 5 1.2.2. Kĩ thuật tư vấn cộng tác . 8 1.2.3. Kĩ thuật tư vấn lai . 11 1.3. Sơ lược về hệ thống tư vấn tin tức của khóa luận 13 1.3.1. Đặc trưng của tư vấn tin tức. 13 1.3.2. Hướng tiếp cận của khóa luận 14 Chương 2. Mô hình hóa sở thích người dùng cho các hệ tư vấn dựa trên nội dung. 16 2.1. Tiến trình mô hình sở thích người dùng 16 2.2. Thu thập thông tin về người dùng . 17 2.2.1. Phương pháp định danh người dùng . 17 2.2.2. Các phương pháp thu thập thông tin . 18 2.3. Xây dựng mô hình sở thích người dùng 21 2.3.1. Phương pháp dựa trên từ khóa có trọng số 21 2.3.2. Phương pháp dựa trên mạng ngữ nghĩa 22 2.3.3. Phương pháp dựa trên cây phân cấp khái niệm . 23 Chương 3. Mô hình 24 3.1. Cơ sở lý thuyết . 25 3.1.1. Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA. 25 3.1.2. Nhận dạng các thực thể trong tài liệu dựa trên từ điển 27 3.2. Phân tích sở thích người dùng . 28 3.2.1. Thông tin trong phiên duyệt web người dùng . 28 3.2.2. Mô hình sở thích người dùng . 29 3.3. Áp dụng mô hình môi quan tâm người dùng vào tư vấn tin tức . 30 3.3.1. Pha phân tích dữ liệu tư vấn . 30 3.3.2. Pha tư vấn trực tuyến . 33 3.4. Đánh giá kết quả tư vấn. . 36 Chương 4: Thực nghiệm và đánh giá . 37 iv 4.1. Môi trường thực nghiệm . 37 4.2. Dữ liệu và công cụ 37 4.2.1. Dữ liệu . 37 4.2.2. Công cụ 38 4.3. Thực nghiệm 39 4.3.1. Ví dụ về phân tích tin tức . 39 4.3.2. Ví dụ phân tích sở thích người dùng . 40 4.3.3. Tư vấn tin tức . 42 4.4. Kết quả thực nghiệm và đánh giá 43 Kết luận . 46 Tài liệu tham khảo . 48 v Danh sách hình Hình 1. Các thành phần chính của hệ thống tư vấn. 4 Hình 2. Tiến trình mô hình hóa sở thích người dùng. . 16 Hình 3. Các hệ thống tư vấn dựa trên thông tin phản hồi hiện. . 19 Hình 4. Mô hình mối quan tâm người dùng dựa trên từ khóa. 22 Hình 5. Mô hình mối quan tâm người dùng dựa trên mạng ngữ nghĩa 22 Hình 6. Mô hình mối quan tâm người dùng dựa trên mạng khái niệm 23 Hình 7. Tài liệu với K chủ đề ẩn. . 25 Hình 8. Biểu diễn đồ họa LDA . 26 Hình 9. Ước lượng tham số tập dữ liệu văn bản. 26 Hình 10. Suy diễn chủ đề sử dụng tập dữ liệu VnExpress 27 Hình 11. Mô hình sở thích người dùng dựa trên chủ đề ẩn và thực thể. 29 Hình 12. Mô hình pha phân tích dữ liệu tư vấn 31 Hình 13. Mô hình pha tư vấn trực tuyến. 33 Hình 14. Biểu diễn tin tức theo chủ đề và thực thể. 39 Hình 15. Kết quả phân tích cho thấy các thông tin liên quan đến chủ đề 19. . 42 vi Danh sách các bảng Bảng 1. Đánh giá theo thang điểm về một số bộ phim đã xem. 5 Bảng 2. Các kĩ thuật thu thập thông tin ẩn. . 20 Bảng 3. Ví dụ về một hồ sơ sở thích người dùng. . 24 Bảng 4. Thông tin trong phiên duyệt web. 28 Bảng 5. Môi trường thực nghiệm. 37 Bảng 6. Công cụ. . 38 Bảng 7. Một số chủ đề ẩn . 39 Bảng 8. Ví dụ về phân tích sở thích người dùng. 40 Bảng 9. Đánh giá mô hình phân tích sở thích. 44 Bảng 10. Độ chính xác của mô hình dựa vào đánh giá của người sử dụng. . 44 1 Mở đầu Từ khi những bài báo đầu tiên về lọc công tác được công bố từ những năm 90 của thế kỉ trước, hệ tư vấn đã chứng tỏ được vai trò quan trọng của mình trong cả hai khía cạnh nghiên cứu và ứng dụng. Chúng ta có thể dễ dàng tiếp cận với các bài báo khoa học liên quan đến từ khóa “Recommender System” trong hơn 8600 kết quả trả về từ máy tìm kiếm GoogleScholar 1 với hơn 1100 kết quả cho riêng năm 2009 hoặc sử dụng các ứng dụng tư vấn nổi tiếng như sách trên Amazon 2 , phim trên NetFlix 3 . Các hệ tư vấn hoạt động như một bộ lọc thông tin [8], nhằm cố gắng đưa ra các thông tin về nội dung hoặc thông tin về sản phẩm (như phim, sách, website, tin tức,…) có nhiều khả năng thuộc được người dùng quan tâm. Thông thường, một hệ tư vấn so sánh mối quan tâm của người dùng (trong khóa luận, hai khái niệm mối quan tâm người dùng hay sở thích người dùng có thể được sử dụng thay thế cho nhau) với một vài đặc trưng tham chiếu để đưa ra các ước lượng đánh giá cho các sản phẩm. Các đặc trưng này có thể đến từ các thông tin của sản phẩm (hướng tiếp cận lọc dựa trên nội dung) hoặc từ môi trường xã hội người dùng (hướng tiếp cận lọc cộng tác). Mặc dù các hệ thống tư vấn đã được nghiên cứu từ khá lâu, và đã có nhiều ứng dụng chứng minh được tính hiệu quả của các hệ thống tư vấn trên thế giới, các nghiên cứu về lĩnh vực này ở Việt Nam còn hạn chế. Mong muốn phát triển một hệ thống tư vấn, khóa luận tập trung vào xây dựng một hệ thống tư vấn các tin tức tiếng Việt. Ngày nay, khái niệm “báo điện tử” cũng như việc đọc tin tức điện tử đã không còn xa lạ với đa số người dân Việt Nam. Những thống kê trong gần đây trên BaoMoi 4 về số lượt người sử dụng internet để xem các tin tức điện tử hiện nay đang cho thấy nhu cầu ngày một tăng của xã hội trong lĩnh vực truyền thông này. Tuy nhiên, một vấn đề còn tồn tại hiện nay đó là trong khi có quá nhiều tin tức mỗi ngày được cập nhật, người dùng giường như bị chìm ngập trong biển thông tin mà vẫn không tìm ra được các thông tin phù hợp, đó chính là môi trường cho các lĩnh vực liên quan đến tư vấn tin tức phát triển. Nắm bắt được nhu cầu này, khóa luận đề xuất một giải pháp tư vấn các nội dung thông tin liên quan đến ngữ cảnh tiếp nhận thông tin hiện tại của người sử dụng, qua đó mong 1 http://www.scholar.google.com 2 http://www.amazon.com 3 http://www.netflix.com 4 http://www.baomoi.com/Statistics/Report.aspx 2 muốn cung cấp được những chỉ dẫn đúng, nhanh chóng, và không có các phiền toái từ việc phải đăng kí hay cung cấp các thông tin cá nhân. Nội dung chính của khóa luận được chia làm 4 phần: Chương 1. Các hệ thống tư vấn: Trình bày các khái niệm, các thuật ngữ, các kĩ thuật liên quan đến hệ thống tư vấn. Các ưu và nhược điểm của các kĩ thuật này cũng được trình bày chi tiết hơn trong các mục 1.2 và 1.3. Chương 2. Mô hình hóa sở thích người dùng cho các hệ tư vấn dựa trên nội dung: Giới thiệu về bài toán xây dựng sở thích người dùng, các thông tin được sử dụng để phân tích và một số kĩ thuật mô hình sở thích người dùng. Chương 3. Mô hình: Trình bày đề xuất xây dựng sở thích người dùng dựa trên phân tích chủ đề ẩn phổ biến và các thực thể, và áp dụng của mô hình này vào hệ thống tư vấn tin tức. Chương 4. Thực nghiệm và đánh giá: Trình bày một số kết quả đánh giá ban đầu. [...]... giải pháp tư vấn được triển khai 1.3.1 Đặc trưng của tư vấn tin tức Tư vấn tin tức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số lượng người dùng và số lượt sử dụng cao hơn nhiều so với các đối tư ng tư vấn khác Tuy nhiên, đi kèm theo đó là các thử thách về các đặc trưng riêng có của miền đối tư ng tin tức cũng như các đặc trưng chung của người sử dụng tư vấn Tin tức là một đối tư ng... về người dùng) và cũng không yêu cầu bật cookie ở trình duyệt 2.2.2 Các phương pháp thu thập thông tin Thông thường, các kĩ thuật thu thập thông tin được phân theo tính chất của dữ liệu thu thập được Theo đó, tư ng ứng với hai kiểu thông tin người dùng ẩn và hiện, có hai phương pháp thu thập thông tin người dùng 2.2.2.1 Phương pháp thu thập thông tin người dùng hiện Phương pháp thu thập thông tin người. .. tâm người dùng dựa trên mạng khái niệm [24] 23 Chương 3 Mô hình Đối với người dùng trong các hệ thống tư vấn, các yếu tố thuộc về ngữ cảnh sử dụng hiện tại của người dùng ảnh hưởng lớn tới các lựa chọn trong tư ng lai của họ Các tin tức trong phiên duyệt web hiện phản ánh chính xác hơn những chủ đề hay các thực thể người dùng muốn tìm hiểu thêm thông tin Do vậy, phân tích thông tin từ các tin tức này... thu thập thông tin được sử dụng để thu thập các dữ liệu từ người dùng, có thể chia các dữ liệu này thành hai loại cơ bản: các thông tin người dùng hiện (hay thông tin người dùng rõ) và các thông tin người dùng ẩn Những thông tin này sau đó được tổng hợp để xây dựng mô hình sở thích người dùng trong pha còn lại, pha xây dựng hồ sơ người dùng 16 2.2 Thu thập thông tin về người dùng Bước đầu tiên trong kĩ... lớn những tư vấn được tạo ra lại chỉ tập trung vào những sản phẩm phổ biến nhất Ví dụ điển hình cho những cản trở của vấn đề này là ở các hệ thống tư vấn tin tức, trong khi những tin tức mới hơn có thể mang nhiều giá trị hơn, những tin tức được nhiều người đọc trước đây lại thường xuyên được tư vấn 1.2.3 Kĩ thuật tư vấn lai Một vài hệ tư vấn kết hợp cả phương pháp cộng tác và dựa trên nội dung nhằm tránh... người dùng khác nhau Hơn nữa, giải pháp này cũng gặp vấn đề khi có nhiều hơn một người dùng cho một máy, hoặc trường hợp người dùng xóa, hay tắt cookie Đối với phiên duyệt web, trở ngại cũng tư ng tự khi có nhiều hơn một người dùng cho một máy hay có sử dụng nhiều hơn một máy, một trình duyệt, nhưng nó không lưu trữ userid giữa những lần duyệt Một người dùng bắt đầu với một phiên duyệt web mới, thông tin. .. & Webert sẽ tư vấn các trang liên kết khác Thêm vào đó, hệ thống còn có thể tạo một truy vấn tới máy tìm kiếm Lycos1 để trích xuất các trang web có thể người dùng sẽ ưa thích Một vấn đề với các thông tin phản hồi hiện đó là nó đặt gánh nặng cung cấp thông tin về phía người dùng Vì vậy, nếu người dùng không muốn phải cung cấp các thông tin riêng tư, họ sẽ không tham gia hoặc không cung cấp thông tin. .. thông tin trong phiên duyệt web lưu lại vết các hành vi người dùng tư ng tác với hệ thống trong một lần duyệt web của họ ví dụ danh sách các pageview, thời gian giành cho mỗi pageview, địa chỉ IP,… Ưu điểm quan trọng của giải pháp định danh dựa trên phiên duyệt web là nó không đặt bất cứ gánh nặng nào về phía người dùng, không gặp những nghi ngại về tính riêng tư (tức là không lưu lại bất cứ thông tin nào... tức tư vấn được đánh giá cao hơn nếu nó không phải là một bản trích dẫn hoặc có nội dung thông tin trùng lặp 7 Vấn đề người dùng mới (new user problem): Người dùng cần đánh giá một lượng sản phẩm đủ lớn trước khi hệ thống tư vấn có thể thực sự hiểu sở thích của họ, và đưa ra những tư vấn đáng tin cậy 1.2.2 Kĩ thuật tư vấn cộng tác Theo Adomavicius và cộng sự [2], không giống như phương pháp tư vấn dựa... là một đối tư ng tư vấn đặc biệt, các đặc trưng sau của tin tức giúp đưa ra các giải pháp hữu hiệu hơn trong xây dựng giải pháp tư vấn: Tính không đồng nhất giá trị: Giá trị của tin tức chỉ có thể được xác định bằng cách kết hợp các yếu tố: nội dung thông tin của bản tin, nguồn tin, thời điểm xuất bản, nhà xuất bản, tác giả, người nhận tin, … Tính dễ sinh ra: một số lượng lớn tin tức có thể nảy sinh