Tìm kiếm thông tin dựa trên hồ sơ người dùng

70 8 0
Tìm kiếm thông tin dựa trên hồ sơ người dùng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THANH THỦY TÌM KIẾM THÔNG TIN DỰA TRÊN HỒ SƠ NGƯỜI DÙNG LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội, 2010 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THANH THỦY TÌM KIẾM THÔNG TIN DỰA TRÊN HỒ SƠ NGƯỜI DÙNG LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN: TS VŨ TUYẾT TRINH Hà Nội, 2010 MỤC LỤC MỤC LỤC LỜI CAM ĐOAN DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ ĐẶT VẤN ĐỀ CHƯƠNG I HỆ THỐNG TÌM KIẾM THƠNG TIN 1.1 Kiến trúc hệ thống tìm kiếm thơng tin 1.1.1 Biểu diễn lưu trữ thông tin tài liệu 10 1.1.2 Biểu diễn truy vấn 12 1.1.3 Đối sánh 13 1.2 Vai trị thơng tin cá nhân tìm kiếm thơng tin 14 1.3 Hướng tới hệ tìm kiếm dựa thơng tin người dùng 16 CHƯƠNG II HỒ SƠ NGƯỜI DÙNG TRONG TÌM KIẾM THƠNG TIN 19 2.1 Yêu cầu hồ sơ người dùng 19 2.2 Biểu diễn thông tin hồ sơ người dùng 21 2.1.1 Biểu diễn từ khóa 21 2.1.2 Biểu diễn mạng ngữ nghĩa 24 2.1.3 Biểu diễn phân cấp khái niệm 29 2.1.4 Phân tích đánh giá 32 2.3 Khởi tạo hồ sơ người dùng 34 2.3.1 Khởi tạo người dùng 34 2.3.2 Khởi tạo tự động hệ thống 35 2.3.3 Kết hợp hệ thống người dùng 38 2.3.4 Phân tích đánh giá 40 2.4 Cập nhật hồ sơ người dùng 42 CHƯƠNG III SỬ DỤNG HỒ SƠ NGƯỜI DÙNG TRONG HỆ THỐNG TÌM KIẾM THƠNG TIN 50 3.1 Viết lại truy vấn 50 3.2 Lọc, xếp kết 53 3.3 Gợi ý 55 CHƯƠNG IV GIẢI PHÁP XÂY DỰNG HỆ THỐNG TÌM KIẾM THƠNG TIN CÁ NHÂN HĨA TRONG LĨNH VỰC CƠNG NGHỆ THƠNG TIN 59 4.1 Mơ hình hệ thống 59 4.2 Mô đun xây dựng hồ sơ người dùng 61 4.2 Mơ đun cá nhân hóa 62 KẾT LUẬN 64 TÀI LIỆU THAM KHẢO 66 LỜI CAM ĐOAN Luận văn tốt nghiệp Thạc sĩ cơng trình nghiên cứu thân hướng dẫn T.S Vũ Tuyết Trinh Các kết luận văn tốt nghiệp trung thực, khơng phải chép tồn văn cơng trình khác DANH MỤC CÁC BẢNG Bảng Các loại cạnh mạng ngữ nghĩa thay .26 Bảng Bảng so sánh phương pháp biểu diễn hồ sơ người dùng 33 Bảng Bảng đánh giá phương pháp khởi tạo hồ sơ người dùng 41 DANH MỤC HÌNH VẼ Hình Kiến trúc hệ thống tìm kiếm thơng tin Hình Ví dụ trình đánh mục cho tài liệu 11 Hình Kết tìm kiếm Google với từ khóa “virus” 15 Hình Hệ thống tìm kiếm thông tin hướng người dùng 17 Hình Mơ hình hồ sơ người dùng theo cấu trúc phân cấp 21 Hình Cấu trúc hồ sơ người dùng với nhiều vector từ khóa 24 Hình Hồ sơ mạng ngữ nghĩa 25 Hình Mạng ngữ nghĩa gồm nút hành tinh vệ tinh hệ thống InfoWeb 27 Hình Ví dụ hồ sơ người dùng WIFS .28 Hình 10 Mơ hình khái niệm phân cấp 29 Hình 11 Ví dụ cụ thể khái niệm phân cấp 31 Hình 12 Biểu diễn khái niệm theo category Misearch 32 Hình 13 Các bước xây dựng hồ sơ người dùng OBIWAN .39 Hình 14 Minh họa công thức khoảng cách cosin hai vector 46 Hình 15 Ví dụ mạng ngữ nghĩa hồ sơ người dùng 51 Hình 16 Các bước thực xếp, lọc 54 Hình 17 Kiến trúc hệ thống tìm kiếm thơng tin hướng người dùng 60 ĐẶT VẤN ĐỀ Cùng với phát triển công nghệ thơng tin mạng lưới Internet tồn cầu, lượng thông tin đến với người dùng ngày đa dạng phong phú Việc khai thác thông tin trở thành vấn đề mà hầu hết hệ thống thơng tin quan tâm Tìm kiếm cách khai thác thông tin nhiều người sử dụng Theo thống kê năm gần đây, tỉ lệ người dùng sử dụng hệ thống tìm kiếm ngày tăng Các thơng tin tìm kiếm tồn dạng có cấu trúc (ví dụ: sở liệu quan hệ) phi cấu trúc (text, âm thanh, hình ảnh, ca nhạc, báo, trang web…) Với liệu có cấu trúc sở liệu, việc truy vấn thường dựa cấu trúc liệu (ví dụ: tìm kiếm theo bảng, cột liệu bảng,…) Đối với liệu phi cấu trúc, việc tìm kiếm thường dựa thân nội dung thông tin, yêu cầu tìm kiếm phát biểu dạng tập hợp từ khóa tìm kiếm Trong luận văn này, em chủ yếu thực nghiên cứu tìm hiểu hệ thống tìm kiếm thơng tin dựa nội dung với thông tin văn loại tài liệu, trang web Tìm kiếm dựa từ khóa cách tìm kiếm đề cập từ lâu với mục đích phục vụ nhu cầu tìm kiếm người dùng nhiều lĩnh vực khác Trong tìm kiếm từ khóa, tài liệu, văn thu thập theo nhiều cách từ nguồn thơng tin (ví dụ internet) Hệ thống thực phân tích đánh mục cho thơng tin thu thập Trong hệ thống này, từ khóa xem cốt lõi Từ khóa đưa người dùng cơng cụ tìm kiếm phải ‘đọc’, ‘hiểu’ đưa kết phù hợp cho người dùng Khi người dùng nhập vào truy vấn (được phát triển dạng tập từ khóa phép tốn), hệ thống sử dụng tệp dẫn để thực đối sánh, tìm kiếm trả kết theo tiêu chí hệ thống [25] Hầu hết máy tìm kiếm thực tìm kiếm mục từ cụm từ giống với từ/cụm từ câu truy vấn mà người dùng đưa vào Kết tìm kiếm trả dựa so sánh gây nhiều khó khăn cho người sử dụng Do xét đến xuất từ khóa tìm kiếm mục biểu diễn tài liệu nên số lượng kết trả từ máy tìm kiếm lớn, việc tìm kiếm trở nên khó khăn người dùng phải lựa chọn kết từ tập kết lớn Hơn nữa, yêu cầu tìm kiếm người dùng biểu diễn dạng từ khóa người dùng tự lựa chọn Các từ khóa khơng xác, nhập nhằng, mang nhiều nghĩa, thuộc nhiều lĩnh vực khác Do đó, kết trả khơng phù hợp với mong muốn, mối quan tâm người sử dụng Từ hạn chế việc tìm kiếm dựa từ khóa, vấn đề nghiên cứu phát triển phương pháp nhằm nâng cao hiệu tìm kiếm người sử dụng khác đặt Một phương pháp giải vấn đề này, đáp ứng tốt nhu cầu tìm kiếm thơng tin, thỏa mãn mong muốn người dùng sử dụng thông tin cá nhân thông tin quan tâm người dùng nguồn thông tin hỗ trợ, nâng cao hiệu tìm kiếm hệ thống Để tìm kiếm dựa thơng tin người dùng, hệ thống thường xây dựng cho người dùng hồ sơ người dùng Hồ sơ người dùng lưu trữ thông tin cá nhân thơng tin quan tâm sở thích người dùng riêng biệt, xây dựng ban đầu hệ thống hoặc/và người dùng Do nhu cầu tìm kiếm người dùng khơng phải cố định mà luôn biến đổi theo thời gian nên hồ sơ người dùng phải cập nhật thường xuyên cho phản ánh yêu cầu quan tâm người dùng Mục đích luận văn nghiên cứu phương pháp thu thập, biểu diễn xây dựng hồ sơ người dùng; kỹ thuật sử dụng hồ sơ người dùng để thực cá nhân hóa kết tìm kiếm Với mục đích trên, luận văn tập trung vào vấn đề: - Tìm hiểu sở lí thuyết hệ thống tìm kiếm thơng tin nói chung: mơ hình, thành phần hoạt động hệ thống tìm kiếm tài liệu; phân tích vai trị người dùng hệ thống tìm kiếm thơng tin - Tìm hiểu mơ hình người dùng hệ thống tìm kiếm thơng tin, cách thức quản lý biểu diễn hồ sơ người dùng - Tìm hiểu kỹ thuật thu thập thông tin người dùng, kỹ thuật xây dựng cập nhật hồ sơ người dùng - Tìm hiểu kỹ thuật sử dụng hồ sơ người dùng hệ thống tìm kiếm cá nhân hóa - Xây dựng ứng dụng minh họa cho hệ thống tìm kiếm thơng tin cá nhân hóa: đề xuất giải pháp cho việc thu thập thông tin, khởi tạo, trì sử dụng hồ sơ người dùng hệ thống tìm kiếm thơng tin Các nghiên cứu tìm kiếm thơng tin dựa hồ sơ người dùng quan tâm Nhiều hệ thống xây dựng để phục vụ mục đích (Webmate [4], ifWeb [2], Persona [27],…) Luận văn tiếp cận theo hướng tìm hiểu, nghiên cứu phương pháp mà hệ thống sử dụng để thực tìm kiếm thơng tin hướng người dùng, đưa số phân tích, đánh giá so sánh phương pháp, kỹ thuật sử dụng hệ thống khác Từ mục tiêu phương pháp tiếp cận đưa ra, phần luận văn tổ chức sau: Chương I: trình bày lí thuyết hệ thống tìm kiếm thơng tin, mơ hình hệ thống tìm kiếm thơng tin nói chung hệ thống tìm kiếm thơng tin cá nhân hóa Trong chương chúng tơi phân tích vai trị thơng tin cá nhân người dùng hệ thống tìm kiếm thơng tin ảnh hưởng cấu trúc thành phần hệ tìm kiếm Chương II: trình bày cách thức quản lý mơ hình hóa để biểu diễn thơng tin cá nhân hệ thống Các kỹ thuật sử dụng trình thu thập, xây dựng hồ sơ người dùng hệ thống tìm kiếm thơng tin trình bày chương Chương III: trình bày số phương pháp sử dụng hồ sơ người dùng để thực cá nhân hóa hệ thống tìm kiếm Các phương pháp trình bày gồm (i) viết lại câu truy vấn, (ii) lọc xếp tập kết trả về, (iii) đưa gợi ý hỗ trợ người dùng trình tìm kiếm thông tin Chương IV: đưa số giải pháp để thực xây dựng hồ sơ sử dụng hồ sơ với mục đích tìm kiếm cá nhân hóa xây dựng ứng dụng minh họa cho giải pháp đưa Hình 16 Các bước thực xếp, lọc Quá trình lọc bao gồm bước sau: (i) Người dùng thực tìm kiếm cách đưa câu truy vấn (ii) Máy tìm kiếm thực tìm kiếm trả tập kết (iii) Trước kết chuyển đến người dùng, kết biểu diễn dạng tương tự với dạng biểu diễn hồ sơ người dùng để thực so sánh (thường dạng vector từ khóa) (iv) So sánh độ tương đồng biểu diễn quan tâm người dùng hồ sơ người dùng với kết máy tìm kiếm trả để đánh giá độ quan tâm người dùng tới tài liệu trả (v) Để thực lọc kết có độ tương đồng cao ngưỡng chuyển đến người dùng Các kết cịn lại khơng chuyển tới người dùng Số lượng kết chuyển tới người dùng giới hạn 54 (vi) Để thực xếp sử dụng giá trị độ tương đồng tính để thứ hạng cho kết trả Việc xếp thực tập kết sau lọc tập kết ban đầu Danh sách kết xếp theo thứ tự giảm dần độ tương đồng Việc xếp dựa thứ tự xếp theo hồ sơ người dùng dựa vào thứ tự xếp ban đầu Hàm dùng để đánh giá thứ tự xếp hạng tài liệu tập kết thường hàm đánh giá độ tương đồng hồ sơ người dùng hồ sơ tài liệu tính theo cơng thức khoảng cách ơ-cơ-lít độ tương đồng Cosin Ngồi tính theo số cơng thức khác Ví dụ hồ sơ biểu diễn vector từ khóa: 𝑁𝑁 sim(useri, docj) = �𝑘𝑘=1�𝑤𝑤𝑤𝑤𝑖𝑖𝑖𝑖 ∗ 𝑤𝑤𝑤𝑤𝑗𝑗𝑗𝑗 � Trong đó: [22] - wtik trọng số khái niệm (term) k hồ sơ người dùng i - wtjk trọng số khái niệm (term) k tài liệu j Đối với hồ sơ khái niệm, giả sử ɤ(d, ci) độ tương đồng tài liệu d khái niệm ci; π(c1),…, π(c4) biểu diễn quan tâm người dùng khái niệm quan tâm (trọng số khái niệm), dj tài liệu trả máy tìm kiếm (1

Ngày đăng: 27/02/2021, 09:45

Tài liệu cùng người dùng

Tài liệu liên quan