Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
2,4 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN HỮU TIẾN NÂNG CAO HIỆU QUẢ TÌM KIẾM WEB SỬ DỤNG SOCIAL ANNOTATION LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN ĐỒNG NAI – Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN HỮU TIẾN NÂNG CAO HIỆU QUẢ TÌM KIẾM WEB SỬ DỤNG SOCIAL ANNOTATION Luận văn thạc sĩ chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60.48.02.01 Người hướng dẫn khoa học PGS.TS VŨ THANH NGUYÊN ĐỒNG NAI – Năm 2017 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn đến tất thầy cô giáo trường Đại học Lạc Hồng nói chung thầy khoa sau đại học nói riêng quan tâm tổ chức đạo trực tiếp giảng dạy khoá cao học Cảm ơn thầy cô, bạn bè, đồng nghiệp người thân gia đình, người dạy bảo ủng hộ tơi suốt q trình học tập Đặc biệt, xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn PGS.TS Vũ Thanh Nguyên,người tận tình bảo góp ý mặt chun mơn cho tơi suốt q trình làm luận văn Trong suốt q trình làm luận văn, thân tơi cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm tài liệu liên quan Tuy nhiên, thân bắt đầu đường nghiên cứu khoa học nên luận văn tồn nhiều thiếu sót Tơi mong nhận bảo q Thầy Cơ giáo góp ý bạn bè, đồng nghiệp để luận văn hoàn thiện Cuối cùng, xin chúc sức khỏe thầy (cô) bạn bè, đồng nghiệp ủng hộ, động viên để yên tâm nghiên cứu hoàn thành luận văn Đồng Nai, tháng năm 2017 Nguyễn Hữu Tiến LỜI CAM ĐOAN Tôi xin cam đoan đề tài: “NÂNG CAO HIỆU QUẢ TÌM KIẾM WEB SỬ DỤNG SOCIAL ANNOTATION” kết trình thân tơi tự tìm hiểu Các tài liệu tham khảo trích dẫn đầy đủ Tơi xin chịu trách nhiệm luận văn Tác giả luận văn ký ghi rõ họ tên Nguyễn Hữu Tiến TÓM TẮT LUẬN VĂN Đề tài: NÂNG CAO HIỆU QUẢ TÌM KIẾM WEB SỬ DỤNG SOCIAL ANNOTATION Ngành: Công nghệ thông tin Mã số: 60.48.02.01 Học viên: Nguyễn Hữu Tiến Người hướng dẫn: PGS.TS Vũ Thanh Nguyên NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn Luận văn tập trung vào nghiên cứu vấn đề sau: - Tìm hiểu tìm kiếm cục trang web - Tìm hiểu social annotations để cải tiến chất lượng web search - Tìm hiểu nghiên cứu số thuật tốn: Giải thuật PageRank Giải thuật SocialSimRank (SSR) Giải thuật SocialPageRank (SPR) - Cài đặt ứng dụng thực nghiệm để đánh giá, so sánh ưu khuyết điểm số giải thuật Cách thức giải vấn đề - Phân tích đánh giá tình hình phát triển chung phương pháp nâng cao web search động nay: Dựa vào nguồn thông tin từ internet, báo khoa học, tài liệu…để đánh giá tình hình phát triển chung phương pháp nâng cao web search nay, từ phân tích ưu, khuyết điểm - Tìm hiểu social annotations để cải tiến chất lượng web search: thông qua tài liệu tham khảo - Tìm hiểu nghiên cứu số thuật tốn: Giải thuật PageRank Giải thuật SocialSimRank (SSR) Giải thuật SocialPageRank (SPR) - Sử dụng tài liệu tham khảo, cơng trình nghiên cứu trước để nghiên cứu giải thuật - Cài đặt ứng dụng thực nghiệm để đánh giá, so sánh ưu khuyết điểm số giải thuật: Xây dựng ứng dụng thực nghiệm để đánh giá, so sánh ưu, khuyết điểm giải thuật, dự kiến ứng dụng viết chương trình Visual Studio 2012, MS SQL Server 2014, Đánh giá mặt khoa học kết Đề tài có ý nghĩa khoa học đặc biệt lĩnh vực tìm kiếm cục bộ, nâng cao hiệu tìm kiếm web sử dụng thích cộng đồng, đưa lại kết dựa vào mối quan tâm người dùng vào vấn đề cần tìm kiếm Những vấn đề tồn so với nội dung giao (nếu có) Ngày 12 tháng 11 năm 2017 NGƯỜI HƯỚNG DẪN HỌC VIÊN MỤC LỤC CHƯƠNG 1: GIỚI THIỆU 1.1 Giới thiệu 1.2 Đặt vấn đề 1.3 Giải vấn đề .3 1.4 Các nghiên cứu liên quan 1.5 Cấu trúc luận văn .4 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Cơng cụ tìm kiếm thơng tin .5 2.2 Các thành phần cơng cụ tìm kiếm .7 2.3 Các vấn đề thường gặp phải cơng cụ tìm kiếm 2.4 Giải thuật PageRank 2.4.1 Giới thiệu giải thuật PageRank 2.4.2 Mơ hình PageRank 10 2.5 Giải thuật LPageRank 12 2.5.1 Giới thiệu giải thuật LPageRank .12 2.5.2 Mơ hình LPageRank cụ thể .13 2.5.3 Giải thuật HITS 14 2.6 Chú thích cộng đồng ( Social Annotation) 16 2.6.1 Ý nghĩa mục đích thích cộng đồng 16 2.6.2 Một số hệ thống thích phổ biến 19 2.6.2.1 Hệ thống Flickr .19 2.6.2.2 Hệ thống PhotoFinder 20 2.6.2.3 Hệ thống Ont-O-Mat 22 2.6.2.4 Hệ thống Delicious 23 2.7 Xếp hạng tương đồng truy vấn thích cộng đồng 26 2.7.1 Xếp hạng tương đồng dựa Term-Matching 26 2.7.2 Độ đo Social Similarity Ranking (SSR) 26 2.7.3 Xếp hạng web với độ đo SocialPageRank (SPR) 29 CHƯƠNG 3: XÂY DỰNG HỆ THỐNG 32 3.1 Mơ hình hệ thống tìm kiếm thơng tin 32 3.2 Công cụ khai thác liệu (Annotation Miner) .33 3.3 Bộ máy tìm kiếm ( Search Engine) 36 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ .38 4.1 Dữ liệu thực nghiệm 38 4.2 Chức khai thác liệu (Module Annotation Miner) 39 4.3 Công cụ Search Engine 41 CHƯƠNG 5: KẾT LUẬN 43 5.1 Kết luận 43 5.2 Khó khăn hạn chế .44 5.3 Hướng phát triển 46 TÀI LIỆU THAM KHẢO DANH MỤC HÌNH ẢNH Hình 2.1 Mơ hình máy tìm kiếm Hình 2.2 Mơ tả liên kết vào liên kết giải thuật PageRank 10 Hình 2.3 Một trang web gọi quan trọng có nhiều liên kết vào liên kết (theo thuật toán HITS) 15 Hình 2.4 Các mẫu thích trực tiếp giấy 16 Hình 2.5 Các mẫu thích trực tiếp giấy 17 Hình 2.6 Hệ thống chia sẻ thích ảnh Flickr 19 Hình 2.7 Hệ thống thích PhotoFinder 20 Hình 2.8 Các bước thích hình ảnh 21 Hình 2.9 Kiến trúc CREAM 22 Hình 2.10 Hệ thống chia sẻ bookmark delicious 23 Hình 2.11 Mối liên hệ đối tượng mơ hình web search 24 Hình 2.12 Minh hoạ giải thuật SSR 26 Hình 2.13 Minh hoạ q trình tính tốn SPR 30 Hình 3.1 Mơ tả hệ thống tìm kiếm 31 Hình 3.2 Cấu trúc module Annotation Miner 33 Hình 3.3 Quá trình thực truy xuất thích từ trang delicious.com 35 Hình 3.4 Q trình xử lý 36 Hình 3.5 Nhận câu truy vấn người dùng 36 Hình 3.6 Thành phần hiển thị kết truy vấn người dùng 37 Hình 4.1 File liệu XML 38 Hình 4.2 Dữ liệu thích cộng đồng ( thơng tin URL) 39 Hình 4.3 Dữ liệu thích cộng đồng ( thơng tin user tag) 40 Hình 4.4 Cơng cụ tìm kiếm web 41 Hình 4.5 Kết tìm kiếm cho từ khoá “web” 42 DANH MỤC BẢNG Bảng 4.1 Số liệu liệu chi tiết 38 Bảng 4.2 Số lượng url chương trình tìm ứng với từ khố 41 DANH MỤC VIẾT TẮT Agent Back Propagation Network Tác tử thăm dò trang web Mạng lan truyền ngược Back link Liên kết vào Bookmark Dấu trang Caching server Máy chủ lưu trữ tạm thời phục vụ truy cập Client Máy trạm File log Tập tin nhật ký truy cập web Forward link Liên kết Hyperlink Siêu liên kết Index Kho mục Internet Hệ thống mạng thơng tin tồn cầu Link Liên kết Nơron Tế bào thần kinh Offline Không trực tuyến Online Trực tuyến Protocol Giao thức Proxy Máy chủ chia sẻ truy cập Search engine Cỗ máy tìm kiếm Server Máy chủ Session Phiên truy cập Spider Một dạng tác tử thăm dị trang web Tagging Dán nhãn từ khố Term Thuật ngữ Web log Nhật ký truy cập web Web mining Khai thác liệu web Web site Tập hợp trang web nằm tên miền Web structure mining Khai thác cấu trúc trang web Web usage mining Khai thác liệu sử dụng web 34 trang delicious.com, tiến hành xây dựng cấu trúc đồ thị để lưu trữ liệu thơng tin thích, thực tính độ đo để phục vụ cho cơng cụ tìm kiếm Sơ đồ cấu trúc Annotation Miner sau: Annotation Save data AnnotationGraph Page Database Annotation User XML Miner Load & Show data SocialSimRank Form Get data SocialPageRank Hình 3.2 Cấu trúc module Annotation Miner - Annotation: Lớp chứa danh sách thích cộng đồng, thích chứa tên, danh sách người dùng sử dụng thích đó, danh sách trang chứa thích - User: Thể thông tin người dùng, người dùng chứa danh sách trang thích mà họ sử dụng - Page: Thể trang web thích, trang chứa title URL trang đó, danh sách người dùng thích trang thích mà người dùng thích cho trang - AnnotationGraph: Thể cấu trúc đồ thịhiện thực ma trận người dùng, thích trang - SocialSimRank: Lớp dùng để tính tốn độ đo SSR nêu mục 2.7.2 35 - SocialPageRank: Lớp dùng để tính tốn độ đo SPR nêu mục 2.8 Quá trình thực truy xuất thích từ website delicous.com sau: - Thực lấy liệu từ trang web delilious.com(file data.xml) - Ứng với trang bookmark: - Thêm trang vào đồ thị AnnotationGraph - Lấy danh sách người dùng trang tương ứng - Thêm người dùng vào đồ thị AnnotationGraph - Ứng với người dùng, lấy danh sách bookmark mà người dùng sử dụng - Thêm danh sách tag vào đồ thị AnnotationGraph - Xây dựng cạnh cho người dùng, trang tag - Nếu số lượng trang đủ lớn lưu vào file data.xml 36 Bắt đầu xử lý Khởi tạo AnnotationGraph Nạp bookmark từ delicous No Thêm User vào AnnotationGraph Bookmark tồn tại? Yes Thêm Page vào AnnotationGraph No Tag tồn tại? Yes Lấy bookmark User tồn tại? Yes Thêm Tag vào AnnotationGraph Thêm AnnotationEdge: page-user-tag No Kết thúc Hình 3.3 Quá trình thực truy xuất thích từ trang delicious.com 3.3 Bộ máy tìm kiếm ( Search Engine) Đây thành phần giao tiếp trực tiếp với người sử dụng hệ thống, module thực việc tìm kiếm xếp trang tìm kiếm dựa vào tất liệu chuẩn bị sẵn bước Mơ hình hoạt động Search Engine sau: 37 Bắt đầu xử lý Nhận truy vấn từ người dùng Tìm trang phù hợp Hiển thị thơng báo khơng có trang phù hợp No Tìm thấy ? Yes Ranking trang Hiển thị kết Kết thúc Hình 3.4 Quá trình xử lý Quá trình thực tìm kiếm gồm ba bước chính: - Nhận câu truy vấn người dùng vào hệ thống (hình 3.5) Hình 3.5 Nhận câu truy vấn người dùng - Tìm kiếm trang phù hợp với câu truy vấn: Chương trình thực tính tốn độ đo tìm trang phù hợp với truy vấn Kết bước danh sách trang web có kết chứa từ khóa (chú thích) cần tìm 38 - Sắp xếp tập trang tìm theo độ đo SocialPageRank hiển thị kết Bên cạnh đó, chương trình hiển thị liên kết (link) trang kết tương ứng Hình 3.6 Thành phần hiển thị kết truy vấn người dùng Kết luận: Chương trình bày quy trình cách thức hoạt động Module cơng cụ tìm kiếm Chương trình bày kết thực nghiệm đánh giá kết hoạt động cơng cụ tìm kiếm thơng tin CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương mô tả kết sau thực nghiệm đánh giá hiệu module hệ thống 4.1 Dữ liệu thực nghiệm Để xây dựng ứng dụng thực nghiệm, luận văn sử dụng tập tin bookmark download từ website delicious.com Dữ liệu cồm có 125000 trang web, 353683 thích 878729 người dùng Loại Số lượng Trang web 125000 Chú thích 353683 Người dùng 878729 39 Bảng 4.1 Số liệu liệu chi tiết Các thơng tin thích biến động thường xun nên công cụ cần phải làm thường xuyên để cập nhật liệu File liệu bookmark có dạng sau: Hình 4.1 File liệu XML File chứa thông tin trang web người dùng quan tâm, thông tin ID người dùng, danh sách từ khóa 4.2 Chức khai thác liệu (Module Annotation Miner) Module có nhiệm vụ đọc file liệu, hiển thị cho người dùng thơng tin sau q trình tiền xử lý file liệu Các thông tin bao gồm trang web, người dùng thẻ tag 40 Hình 4.2 Dữ liệu thích cộng đồng ( thơng tin URL) 41 Hình 4.3 Dữ liệu thích cộng đồng ( thơng tin user tag) 4.3 Cơng cụ Search Engine Cơng cụ tìm kiếm xây dựng thực phân tích tính độ tương tự truy vấn tài liệu lưu trữ kết công cụ khai thác thích cộng đồng (Annotation Miner) Sau đó, kết xếp theo mức độ quan trọng tài liệu (SPR) kết tìm kiếm xuất trang web Hình 4.4 Cơng cụ tìm kiếm web Để đánh giá kết cơng cụ tìm kiếm, luận văn chọn thực tìm kiếm số từ khóa sau: STT Từ khóa Số lượng URL trả teaching 12 java 13 apple 13 school 12 dev 14 education 42 web 23 support 11 21 10 mac 12 Bảng 4.2 Số lượng url chương trình tìm ứng với từ khố Hình kết tìm kiếm cho từ khố “web” Hình 4.5 Kết tìm kiếm cho từ khố “web” Kết luận: Thơng qua thực nghiệm, tơi nhận thấy việc tìm kiếm dựa thích cộng đồng đạt kết khả quan Với phương pháp sử dụng cơng cụ tìm kiếm, để nắm bắt nội dung trang web phải thực số phương pháp tốn nhiều chi phí: phân tích chủ đề, rút trích nội dung,… Tuy nhiên, thân thích mà người dùng tạo phần mang nội dung tóm 43 lược trang web tương ứng Chính việc thực tìm kiếm dựa thích cộng đồng thơng qua khai thác độ đo SocialSimRank SocialPageRank mang lại lợi ích đáng kể cho cơng cụ tìm kiếm Chương cuối tóm gọn lại kết thực nghiệm, nêu khó khăn thuận lợi việc giải vấn đề trình bày hướng phát triển mơ hình tiềm kiếm thơng tin cục CHƯƠNG 5: KẾT LUẬN Chương tóm gọn lại kết sau thực nghiệm, đưa khó khăn thuận lợi giải vấn đề nêu Từ đề xuất hướng phát triển hệ thống 5.1 Kết luận Luận văn tiến hành tìm hiểu tổng quan cơng cụ cụ tìm kiếm, phân tích số giải thuật xếp hạng sử dụng giải thuật PageRank LpageRank,SocialSimRank, SocialPageRank áp dụng thuật tốn vào cơng cụ tìm kiếm Nghiên cứu ý nghĩa thích cộng đồng vấn đề sử dụng chúng vào công cụ tìm kiếm Việc sử dụng social annotion để cải tiến cơng cụ tìm kiếm web đặc biệt thuật tốn SocialSimRank, SocialPageRank phiên cụm Mơ hình cho kết khả quan mơ hình thấp chưa cung chấp độ xác tốt Mặc dù kết không tốt, lợi ích mơ hình cơng cụ tìm kiếm web phát hiện, ví dụ giảm chi phí việc xây dựng đồ thị kết cấu phản ánh thực tế mối quan tâm sở thích người sử dụng để cung cấp kết tìm kiếm xác mối quan tâm Kết tìm kiếm khắc phục cứng nhắc việc tìm kiếm xác từ khóa câu truy vấn, mơ hình phản ánh quan tâm người dùng lên kết tìm kiếm, trang xếp hạng cao thường trang có nhiều người dùng truy cập Phản ánh thơng tin trang web quan trọng hướng gần đến người dùng Đồng thời trang web có thơng tin quan trọng độ sâu trang web làm cho người dùng khó tiếp cận xếp hạng cao để đến gần với người dùng Tỉ lệ trang web tìm với từ khóa tìm kiếm hệ thống lọc trang có từ khóa 44 số lượng truy cập thấp không truy cập làm tăng độ xác tìm kiếm.Nghiên cứu tận dụng ưu điểm quan tâm sở thích người dùng web để hỗ trợ người dùng tìm kiếm cách nhanh chóng thơng tin mà họ cần Kết tìm kiếm cho thấy mơ hình ứng dụng thích cơng đồng vào cơng cụ tìm kiếm hướng nghiên cứu khả thi có tiềm ứng dụng cao cơng cụ tìm kiếm Song với thời gian xây dựng ứng dụng có hạn nên nhiều hạn chế cần phải hồn thiện Có thể thấy thích xuất nhanh cung cấp khơng tóm tắt nhiều mặt nội dung trang mà phản ánh chất lượng trang web Cụ thể, thích mạng xã hội mang lại lợi ích cho việc tìm kiếm web bảng xếp hạng tương tự bảng xếp hạng tĩnh Hai thuật toán lặp lặp lại đề xuất để nắm bắt khả thích bảng xếp hạng tương tự thứ hạng tĩnh Kết thực nghiệm cho thấy SSR thành cơng việc tìm mối quan hệ ngữ nghĩa tiềm ẩn thích SPR cung cấp bảng xếp hạng tĩnh từ quan điểm trình ghi web Thử nghiệm hai truy vấn cho thấy SPR SSR có lợi cho việc tìm kiếm web đáng kể 5.2 Khó khăn hạn chế Mặc dù thích cộng đồng chứa đựng nhiều thơng tin hữu ích Tuy nhiên, thực tế gặp phải số khó khăn sau hạn chế sau: - Thứ mức độ bao phủ: Thứ nhất, gười dùng gửi truy vấn khơng khớp với thích mạng xã hội Trong trường hợp này, SSR không áp dụng SPR tiếp tục cung cấp trang web phổ biến cho người dùng Thứ hai, nhiều trang web khơng có thích Các trang web có lợi từ SSR SPR Các trang khơng thích chia thành ba loại: 1- trang web xuất hiện: trang để thích; 2- trang web liên kết trang chính: trang khơng thích chúng truy cập dễ dàng qua trang trang chủ người dùng thích trang chính; 3- trang web không hấp dẫn: trang khơng thu hút người dùng Sự 45 lên trang web thường không ảnh hưởng đến việc tìm kiếm xã hội nhiều kể từ hệ thống thích xã hội nhạy cảm với điều Với trợ giúp độ nhạy hệ thống thuật toán SSR, nhanh chóng khám phá trang web có giá trị với số thích nhỏ Đối với trang liên quan đến khóa, giải pháp khả thi truyền bá thích từ trang cho họ Đối với trang không hấp dẫn, người ta tin việc thiếu thích khơng ảnh hưởng đến việc tìm kiếm xã hội toàn - Thứ hai mơ hồ thích: Sự mơ hồ thích vấn đề khác liên quan đến SSR, tức SSR tìm thấy cụm từ tương tự với thuật ngữ truy vấn khơng tìm thấy cụm từ có nhiều nghĩa Ví dụ, “music” “rock music” “classical music”, thuật ngữ có hai ý nghĩa khác bị xáo trộn Trong [25], Wu et al nghiên cứu vấn đề mơ hồ thích cách sử dụng mơ hình hỗn hợp, nhiên, khơng thích hợp cho web search độ phức tạp tính tốn cao Một số phương pháp hiệu yêu cầu để cải thiện hiệu suất SSR Tuy nhiên, vấn đề mơ hồ khơng ảnh hưởng nhiều đến việc tìm kiếm vấn đề cải thiện cách xếp thứ tự từ câu truy vấn phân phối đối xứng nghĩa từ - Thứ ba vấn đề spam: Ban đầu, có quảng cáo spam thích mạng xã hội Tuy nhiên, thích mạng xã hội trở nên phổ biến hơn, lượng spam tăng đáng kể tương lai gần spam trở thành mối quan tâm thực việc tìm kiếm mạng xã hội [14] Cả SSR SPR đề xuất báo giả định thích mạng xã hội tóm tắt tốt trang web, thích nguy hiểm có hội tốt để làm hại chất lượng tìm kiếm Có hai cách để ngăn chặn thích spam 1Tự động bán tự động xố thích spam phạt người dùng lạm dụng hệ thống thích mạng xã hội Cơng việc thường dành 46 cho nhà cung cấp dịch vụ; 2- Lọc thích spam cách sử dụng phân tích thống kê ngơn ngữ trước sử dụng SSR SPR Bên cạnh ưu điểm hệ thống mang lại, tồn vấn đề chưa phân tích truy vấn người dùng để biết người dùng quan tâm đến chủ đề để hướng kết cho người dùng xác Đây vấn đề cần phải hồn thiện để phát triển hồn chỉnh mơ hình tìm kiếm sử dụng thích cộng đồng tương lai 5.3 Hướng phát triển Cơng cụ tìm kiếm luôn cần phải cải tiến để ngày đáp ứng nhu cầu người dùng nhiều Đối với khóa luận đáp ứng mục tiêu đề việc cải tiến cho cơng cụ tìm kiếm khóa luận ln điều cần thiết Một số hướng phát triển sau: - Xây dựng thêm chế tách từ khóa xử lý từ khóa thành kho liệu cung cấp cho cơng cụ tìm kiếm Xây dựng kho liệu từ khóa cho trang web để tăng độ xác, độ bao phủ tốc độ xử lý chương trình, giúp cho việc đồng tập tin log web log động để chương trình ln có kết đánh giá tốt khả truy cập người dùng lên trang web - Phát triển thành cơng cụ tìm kiếm tồn cục cho trang web tiếng Việt, điều cung cấp thông tin cần thiết nhanh cho người dùng yêu cầu trang web có liên quan - Cải tiến q trình xử lý ngơn ngữ tự nhiên để nhận dạng nhiều mẫu câu hỏi hơn, từ đáp ứng nhu cầu truy vấn tìm kiếm đa dạng người sử dụng - Phát triển hệ thống tìm kiếm thơng minh trả lời câu hỏi tốn học, hóa học, vật lý phục vụ cho nhu cầu tìm kiếm, học tập tầng lớp tri thức giáo viên, học sinh, sinh viên TÀI LIỆU THAM KHẢO [1] Andreas Hotho, Robert Jäschke, Christoph Schmitz, and Gerd Stumme (2006), Information Retrieval in Folksonomies: Search and Ranking, In: Proc of ESWC 2006 [2] http://delicious.com [3] Ding Zhou, Jiang Bian, Shuyi Zheng, Hongyuan Zha, and C Lee Giles (2008), Exploring social annotations for information retrieval, In WWW ’08: Proceeding of the 17th international conference on World Wide Web, pages 715–724, New York, NY, USA, 2008 ACM [4] E Agichtein, E Brill, and S Dumais (2006),Improving Web Search Ranking by Incorporating User Behavior Information, In Proc of SIGIR 2006 [5] Frank McSherry (2005), A uniform approach to accelerated PageRank computation, In: Proc of WWW 2005 [6] Freyne J., Farzan R., Brusilovsky P., Smyth B., and Coyle M, Collecting Community Wisdom: Integrating Social Search & Social Navigation In Proceedings of International Conference on Intelligent User Interfaces, January 28-31, 2007, Honolulu, Hawaii, United States [7] Gui-Rong Xue, Hua-Jun Zeng, Zheng Chen, Yong Yu, Wei-Ying Ma, WenSi Xi, and WeiGuo Fan (2005), Optimizing Web Search Using Web Clickthrough Data [8] http://del.icio.us/ [9] Brush, B Annotating digital documents: anchoring, educational use, and notification, In CHI '02 Extended Abstracts on Human Factors in Computing Systems April 20- 25, 2002, Minneapolis, Minnesota, United States http://www.marketingpilgrim.com/2006/01/winks-michaeltannediscussesfuture.html [10] Ian Rogers, The Google PageRank Algorithm and How It Work, Article http://www.iprcom.com/papers/pagerank/index.html [11] Lawrence Page, Serget Brin, Rajeev Motwani, Terry Winograd (1998), The PageRank Article citation ranking: bringing order to web [12] http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.31.1768 M Richardson, and A Prakash, and E Brill (2006),Beyond PageRank:Machine Learning for Static Ranking, In: Proc Of WWW2006 [13] M Sanderson (2000), Retrieval with good sense Information Retrieval (2), pp.47-67 [14] Pavel A Dmitriev, Nadav Eiron, Marcus Fontoura, and Eugene Shekita (2006),Using annotations in enterprise search, In WWW ’06: Proceedings of the 15th international conference on World Wide Web, pages 811–817, New York, NY, USA, 2006 ACM [15] Qing Cui, Alex Dekhtyar (2005) On Improving Local Website Search Using Web Server Traffic Logs: A Preliminary Report [16] Shenghua Bao, Xiaoyuan Wu, Ben Fei, Guirong Xue, Zhong Su, and Yong Yu (2007), Optimizing Web Search Using Social Annotations, World Wide Web Conference Committee, Canada [17] Siegfried Handschuh, Steffen Staab, Authoring and Annotation of Web Pages in CREAM, Institute AIFB, University of Karlsruhe, 76128 Karlsruhe, Germany [18] Taher H Haveliwala, Efficient Computation of PageRank, Technical report, Stanford University, 1999 [19] Vu Thanh Nguyen (2009), Using social annotation and web log to enhance local search engine, IJCSI International Journal of Computer Science Issues, Vol 6, No 2, 2009 [20] Vu Thanh Nguyen, Pham Chuan, The effect of local website search, 2010 [21] Vu Thanh Nguyen, Pham Chuan, Using Web Log For Evaluating Web Pages, 2010 [22] Kleinberg, Jon (December 1999) "Hubs, Authorities, and Communities" Cornell University Retrieved 2008-11-09 ... đề tài: “NÂNG CAO HIỆU QUẢ TÌM KIẾM WEB SỬ DỤNG SOCIAL ANNOTATION” kết trình thân tơi tự tìm hiểu Các tài liệu tham khảo trích dẫn đầy đủ Tơi xin chịu trách nhiệm luận văn Tác giả luận văn ký ghi... GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN HỮU TIẾN NÂNG CAO HIỆU QUẢ TÌM KIẾM WEB SỬ DỤNG SOCIAL ANNOTATION Luận văn thạc sĩ chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60.48.02.01 Người... hợp sử dụng thích cộng đồng với weblog để cải thiện chất lượng tìm kiếm trang web Tuy nhiên, ứng dụng việc tìm kiếm cục 1.5 Cấu trúc luận văn Luận văn trình bày theo bố cục: - Chương 1: Giới thiệu