Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Uông Huy Long GIẢIPHÁPMỞRỘNGTHÔNGTINNGỮCẢNHPHIÊNDUYỆTWEBNGƯỜIDÙNGNHẰMNÂNGCAOCHẤTLƯỢNGTƯVẤNTRONGHỆTHỐNGTƯVẤNTINTỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thôngtin HÀ NỘI - 2010 Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại Học Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Uông Huy Long ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Uông Huy Long GIẢIPHÁPMỞRỘNGTHÔNGTINNGỮCẢNHPHIÊNDUYỆTWEBNGƯỜIDÙNGNHẰMNÂNGCAOCHẤTLƯỢNGTƯVẤNTRONGHỆTHỐNGTƯVẤNTINTỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thôngtin Cán bộ hướng dẫn: Th.S Trần Mai Vũ HÀ NỘI - 2010 i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại Học Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Uông Huy Long ii Tóm tắt Với sự phát triển của Internet, con người ngày nay không chỉ có nhiều hơn cơ hội tiếp xúc với các nguồn cung cấp tintức mà còn có thể có được nó đúng lúc hơn. Các tờ báo điện tử ở Việt Nam cung cấp mỗi ngày hàng chục cho tới hàng trăm tin mới thuộc nhiều lĩnh vực khác nhau sẵn sàng đáp ứng các yêu cầu mọi lúc, mọi nơi của người đọc. Tuy nhiên, bên cạnh những tiện ích, tồn tại những vấnđề cần được giải quyết như sự gia tăng về số lượng, tính đa dạng về nội dung của tintức ở các nguồn khác nhau, sự phù hợp cá nhân, Trong bối cảnh đó, sự giúp đỡ của một hệthốngtưvấntintức là cần thiết, bằng cách duyệt qua không gian các lựa chọn, nó dự đoán các tintức hữu ích tiềm năng với từng ngườidùng cá nhân. Xây dựng hồ sơ sở thích ngườidùng là một trong các thành phần cơ bản nhất của hệthốngtư vấn. Tuy nhiên, những mô hình (như trong khảo sát của Gauch và cộng sự [14] ) đang được sử dụng hiện nay vẫn tồn tại nhiều vấnđề chưa được giải quyết, ví dụ như: tính nhập nhằng ngữ nghĩa trong các hồ sơ dựa trên từ khóa, hoặc đòi hòi thôngtin suy diễn từ WordNet để xác định ngữ nghĩa trong các hồ sơ dựa trên mạng ngữ nghĩa, Thêm vào đó, các giảipháp này còn thiếu khả năng tính hợp mềm dẻo các nhân tố ngữ cảnh. Khóa luận này trình bày một mô hình hệthốngtưvấntintức sử dụng một mô hình sở thích ngươidùng mới. Dựa trên khai phá dữ liệu từngữcảnhduyệtweb của người dùng, hệthống coi sở thích của người sử dụng là một kết hợp của tập các chủ đề ẩn xuất hiện phổ biến và tập các thực thể trong các tintứcngườidùng từng quan tâm. iii Mục lục Mở đầu 1 Chương 1. Khái quát về các hệthốngtưvấn 3 1.1. Bài toán tưvấn 3 1.2. Các kĩ thuật tưvấn 5 1.2.1. Kĩ thuật tưvấn dựa trên nội dung 5 1.2.2. Kĩ thuật tưvấn cộng tác 8 1.2.3. Kĩ thuật tưvấn lai 11 1.3. Sơ lược về hệthốngtưvấntintức của khóa luận 13 1.3.1. Đặc trưng của tưvấntin tức. 13 1.3.2. Hướng tiếp cận của khóa luận 14 Chương 2. Mô hình hóa sở thích ngườidùng cho các hệtưvấn dựa trên nội dung. 16 2.1. Tiến trình mô hình sở thích ngườidùng 16 2.2. Thu thập thôngtin về ngườidùng 17 2.2.1. Phương pháp định danh ngườidùng 17 2.2.2. Các phương pháp thu thập thôngtin 18 2.3. Xây dựngmô hình sở thích ngườidùng 21 2.3.1. Phương pháp dựa trên từ khóa có trọng số 21 2.3.2. Phương pháp dựa trên mạng ngữ nghĩa 22 2.3.3. Phương pháp dựa trên cây phân cấp khái niệm 23 Chương 3. Mô hình 24 3.1. Cơ sở lý thuyết 25 3.1.1. Phân tích thôngtin chủ đề dựa trên mô hình chủ đề LDA. 25 3.1.2. Nhận dạng các thực thể trongtài liệu dựa trên từ điển 27 3.2. Phân tích sở thích ngườidùng 28 3.2.1. Thôngtintrongphiênduyệtwebngườidùng 28 3.2.2. Mô hình sở thích ngườidùng 29 3.3. Áp dụngmô hình môi quan tâm ngườidùng vào tưvấntintức 30 3.3.1. Pha phân tích dữ liệu tưvấn 30 3.3.2. Pha tưvấn trực tuyến 33 3.4. Đánh giá kết quả tư vấn. 36 Chương 4: Thực nghiệm và đánh giá 37 iv 4.1. Môi trường thực nghiệm 37 4.2. Dữ liệu và công cụ 37 4.2.1. Dữ liệu 37 4.2.2. Công cụ 38 4.3. Thực nghiệm 39 4.3.1. Ví dụ về phân tích tintức 39 4.3.2. Ví dụ phân tích sở thích ngườidùng 40 4.3.3. Tưvấntintức 42 4.4. Kết quả thực nghiệm và đánh giá 43 Kết luận 46 Tài liệu tham khảo 48 v Danh sách hình Hình 1. Các thành phần chính của hệthốngtư vấn. 4 Hình 2. Tiến trình mô hình hóa sở thích người dùng. 16 Hình 3. Các hệthốngtưvấn dựa trên thôngtin phản hồi hiện. 19 Hình 4. Mô hình mối quan tâm ngườidùng dựa trên từ khóa. 22 Hình 5. Mô hình mối quan tâm ngườidùng dựa trên mạng ngữ nghĩa 22 Hình 6. Mô hình mối quan tâm ngườidùng dựa trên mạng khái niệm 23 Hình 7. Tài liệu với K chủ đề ẩn. 25 Hình 8. Biểu diễn đồ họa LDA 26 Hình 9. Ước lượng tham số tập dữ liệu văn bản. 26 Hình 10. Suy diễn chủ đề sử dụng tập dữ liệu VnExpress 27 Hình 11. Mô hình sở thích ngườidùng dựa trên chủ đề ẩn và thực thể. 29 Hình 12. Mô hình pha phân tích dữ liệu tưvấn 31 Hình 13. Mô hình pha tưvấn trực tuyến. 33 Hình 14. Biểu diễn tintức theo chủ đề và thực thể. 39 Hình 15. Kết quả phân tích cho thấy các thôngtin liên quan đến chủ đề 19. 42 vi Danh sách các bảng Bảng 1. Đánh giá theo thang điểm về một số bộ phim đã xem. 5 Bảng 2. Các kĩ thuật thu thập thôngtin ẩn. 20 Bảng 3. Ví dụ về một hồ sơ sở thích người dùng. 24 Bảng 4. Thôngtintrongphiênduyệt web. 28 Bảng 5. Môi trường thực nghiệm. 37 Bảng 6. Công cụ. 38 Bảng 7. Một số chủ đề ẩn 39 Bảng 8. Ví dụ về phân tích sở thích người dùng. 40 Bảng 9. Đánh giá mô hình phân tích sở thích. 44 Bảng 10. Độ chính xác của mô hình dựa vào đánh giá của người sử dụng. 44 1 Mở đầu Từ khi những bài báo đầu tiên về lọc công tác được công bố từ những năm 90 của thế kỉ trước, hệtưvấn đã chứng tỏ được vai trò quan trọng của mình trong cả hai khía cạnh nghiên cứu và ứng dụng. Chúng ta có thể dễ dàng tiếp cận với các bài báo khoa học liên quan đến từ khóa “Recommender System” trong hơn 8600 kết quả trả về từ máy tìm kiếm GoogleScholar 1 với hơn 1100 kết quả cho riêng năm 2009 hoặc sử dụng các ứng dụngtưvấn nổi tiếng như sách trên Amazon 2 , phim trên NetFlix 3 . Các hệtưvấn hoạt động như một bộ lọc thôngtin [8], nhằm cố gắng đưa ra các thôngtin về nội dung hoặc thôngtin về sản phẩm (như phim, sách, website, tin tức,…) có nhiều khả năng thuộc được ngườidùng quan tâm. Thông thường, một hệtưvấn so sánh mối quan tâm của ngườidùng (trong khóa luận, hai khái niệm mối quan tâm ngườidùng hay sở thích ngườidùng có thể được sử dụng thay thế cho nhau) với một vài đặc trưng tham chiếu để đưa ra các ước lượng đánh giá cho các sản phẩm. Các đặc trưng này có thể đến từ các thôngtin của sản phẩm (hướng tiếp cận lọc dựa trên nội dung) hoặc từ môi trường xã hội ngườidùng (hướng tiếp cận lọc cộng tác). Mặc dù các hệthốngtưvấn đã được nghiên cứu từ khá lâu, và đã có nhiều ứng dụng chứng minh được tính hiệu quả của các hệthốngtưvấn trên thế giới, các nghiên cứu về lĩnh vực này ở Việt Nam còn hạn chế. Mong muốn phát triển một hệthốngtư vấn, khóa luận tập trung vào xây dựng một hệthốngtưvấn các tintức tiếng Việt. Ngày nay, khái niệm “báo điện tử” cũng như việc đọc tintức điện tử đã không còn xa lạ với đa số người dân Việt Nam. Những thống kê trong gần đây trên BaoMoi 4 về số lượt người sử dụng internet để xem các tintức điện tử hiện nay đang cho thấy nhu cầu ngày một tăng của xã hội trong lĩnh vực truyền thông này. Tuy nhiên, một vấnđề còn tồn tại hiện nay đó là trong khi có quá nhiều tintức mỗi ngày được cập nhật, ngườidùng giường như bị chìm ngập trong biển thôngtin mà vẫn không tìm ra được các thôngtin phù hợp, đó chính là môi trường cho các lĩnh vực liên quan đến tưvấntintức phát triển. Nắm bắt được nhu cầu này, khóa luận đề xuất một giảipháptưvấn các nội dungthôngtin liên quan đến ngữcảnh tiếp nhận thôngtin hiện tại của người sử dụng, qua đó mong 1 http://www.scholar.google.com 2 http://www.amazon.com 3 http://www.netflix.com 4 http://www.baomoi.com/Statistics/Report.aspx 2 muốn cung cấp được những chỉ dẫn đúng, nhanh chóng, và không có các phiền toái từ việc phải đăng kí hay cung cấp các thôngtin cá nhân. Nội dung chính của khóa luận được chia làm 4 phần: Chương 1. Các hệthốngtư vấn: Trình bày các khái niệm, các thuật ngữ, các kĩ thuật liên quan đến hệthốngtư vấn. Các ưu và nhược điểm của các kĩ thuật này cũng được trình bày chi tiết hơn trong các mục 1.2 và 1.3. Chương 2. Mô hình hóa sở thích ngườidùng cho các hệtưvấn dựa trên nội dung: Giới thiệu về bài toán xây dựng sở thích người dùng, các thôngtin được sử dụngđể phân tích và một số kĩ thuật mô hình sở thích người dùng. Chương 3. Mô hình: Trình bày đề xuất xây dựng sở thích ngườidùng dựa trên phân tích chủ đề ẩn phổ biến và các thực thể, và áp dụng của mô hình này vào hệthốngtưvấntin tức. Chương 4. Thực nghiệm và đánh giá: Trình bày một số kết quả đánh giá ban đầu. [...]... thích ngườidùng 3.2.1 Thôngtintrongphiênduyệtwebngườidùng Một phiênduyệtweb là một chuỗi các pageview của một ngườidùng đơn trong một lần duyệt đơn [7] Trong đó, các pageview là tập hợp các đối tư ng web hiển thị tới ngườidùng Mỗi pageview có thể được xem như một tập hợp các đối tư ng web hay các tài nguyên biểu diễn cho một hành vi ngườidùng cụ thể như đọc một trang tin tức, xem thông tin. .. tâm ngườidùng dựa trên mạng khái niệm [24] 23 Chương 3 Mô hình Đối với ngườidùngtrong các hệthốngtư vấn, các yếu tố thuộc về ngữcảnh sử dụng hiện tại của ngườidùng ảnh hưởng lớn tới các lựa chọn trongtư ng lai của họ Các tintứctrongphiênduyệtweb hiện phản ánh chính xác hơn những chủ đề hay các thực thể ngườidùng muốn tìm hiểu thêm thôngtin Do vậy, phân tích thôngtintừ các tintức này... giảipháptưvấn được triển khai 1.3.1 Đặc trưng của tưvấntintứcTưvấntintức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số lượngngườidùng và số lượt sử dụngcao hơn nhiều so với các đối tư ng tưvấn khác Tuy nhiên, đi kèm theo đó là các thử thách về các đặc trưng riêng có của miền đối tư ng tintức cũng như các đặc trưng chung của người sử dụngtưvấnTintức là một đối tư ng... về người dùng) và cũng không yêu cầu bật cookie ở trình duyệt 2.2.2 Các phương pháp thu thập thôngtinThông thường, các kĩ thuật thu thập thôngtin được phân theo tính chất của dữ liệu thu thập được Theo đó, tư ng ứng với hai kiểu thôngtinngườidùng ẩn và hiện, có hai phương pháp thu thập thôngtinngườidùng 2.2.2.1 Phương pháp thu thập thôngtinngườidùng hiện Phương pháp thu thập thôngtin người. .. thu thập thôngtin được sử dụngđể thu thập các dữ liệu từngười dùng, có thể chia các dữ liệu này thành hai loại cơ bản: các thôngtinngườidùng hiện (hay thôngtinngườidùng rõ) và các thôngtinngườidùng ẩn Những thôngtin này sau đó được tổng hợp để xây dựngmô hình sở thích ngườidùngtrong pha còn lại, pha xây dựng hồ sơ ngườidùng 16 2.2 Thu thập thôngtin về ngườidùng Bước đầu tiên trong kĩ... quan tâm 14 Theo đó, hệthốngđề xuất giải quyết hai vấn đề cơ bản của tiến trình tư vấn: Đầu tiên là dựa trên khảo sát về các phương pháp xây dựngmô hình hóa sở thích ngườidùng dựa trên các dữ liệu văn bản thường được áp dụng cho hướng tiếp cận lọc nội dung, đề xuất giảiphápmô hình sở thích ngườidùng dựa trên phân tích chủ đề ẩn phiênduyệtwebngườidùng (ngữ cảnh đọc tin tức) Sau đó, dựa... lớn những tưvấn được tạo ra lại chỉ tập trung vào những sản phẩm phổ biến nhất Ví dụ điển hình cho những cản trở của vấn đề này là ở các hệthốngtưvấntin tức, trong khi những tintức mới hơn có thể mang nhiều giá trị hơn, những tintức được nhiều người đọc trước đây lại thường xuyên được tưvấn 1.2.3 Kĩ thuật tưvấn lai Một vài hệtưvấn kết hợp cả phương pháp cộng tác và dựa trên nội dungnhằm tránh... hệthống Quickstep và Foxtrot sử dụng ontology về chủ đề của các bài báo khoa học để gợi ý những bài báo phù hợp cho ngườidùng 1.3 Sơ lược về hệthốngtưvấntintức của khóa luận Mô hình hệtưvấn do khóa luận đề xuất không được triển khai một cách độc lập mà tích hợp vào hệthống cung cấp tintức Với việc phân tích những đặc trưng của đối tư ng tưvấn này, khóa luận đề xuất ý tư ng ban đầu cho giải. .. ngườidùng khác nhau Hơn nữa, giải pháp này cũng gặp vấn đề khi có nhiều hơn một ngườidùng cho một máy, hoặc trường hợp ngườidùng xóa, hay tắt cookie Đối với phiênduyệt web, trở ngại cũng tư ng tự khi có nhiều hơn một ngườidùng cho một máy hay có sử dụng nhiều hơn một máy, một trình duyệt, nhưng nó không lưu trữ userid giữa những lần duyệt Một ngườidùng bắt đầu với một phiênduyệtweb mới, thông tin. .. & Webert sẽ tưvấn các trang liên kết khác Thêm vào đó, hệthống còn có thể tạo một truy vấn tới máy tìm kiếm Lycos1 để trích xuất các trang web có thể ngườidùng sẽ ưa thích Một vấnđề với các thôngtin phản hồi hiện đó là nó đặt gánh nặng cung cấp thôngtin về phía ngườidùng Vì vậy, nếu ngườidùng không muốn phải cung cấp các thôngtin riêng tư, họ sẽ không tham gia hoặc không cung cấp thôngtin . TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Uông Huy Long GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC KHOÁ. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Uông Huy Long GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC KHOÁ. hình là trong các hệ thống tư vấn tin tức, những tin tức tư vấn được đánh giá cao hơn nếu nó không phải là một bản trích dẫn hoặc có nội dung thông tin trùng lặp. 8 Vấn đề người dùng mới