Tổng quan về truy vấn trong CSDL và tỡm kiếm thụng tin24T24T24T.... Kết hợp cỏc kỹ thuật tỡm kiếm thụng tin và truy vấn trong CSDL24T24T24T .... để tỡm ra những ăn bản v cú liờn quan nhi
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC TRUY VẤN DỮ LIỆU HƯỚNG NGƯỜI DÙNG NGÀNH: CÔNG NGHỆ THƠNG TIN Mà SỐ: LÊ DỖN PHƯỚC Người hướng dẫn khoa học: TS VŨ TUYẾT TRINH HÀ NỘI 2006 Tai ngay!!! Ban co the xoa dong chu nay!!! 17061131500631000000 Luận văn thạc sỹ khoa học: Truy vấn liu hng ngi dựng Lời cảm ơn Em xin gửi tíi TS Vị Tut Trinh – Bé m«n HƯ thèng thông tin - Khoa CNTT - Đại học Bách Khoa Hà Nội lời cảm ơn chân thành sâu sắc hớng dẫn tận tình mặt định hớng cho luận văn nh giúp đỡ cụ thể mặt chuyên môn Em cảm ơn thầy cô giáo thuộc khoa CNTT đà tạo điều kiện cho em đợc học tập nghiên cứu suốt trình học cao học Cuối cùng, xin gửi lời càm ơn tới gia đình bạn bè, ngời đà giúp đỡ động viên trình học tập thực luận văn nµy Lê Dỗn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng MỤC LỤC MỤC LỤC DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƯƠNG I: TỔNG QUAN 1.1 Khái niệm truy vấn liệu hướng người dùng 1.2 Tổng quan truy vấn CSDL tìm kiếm thông tin 1.3 Kết hợp kỹ thuật tìm kiếm thơng tin truy vấn CSDL 10 CHƯƠNG II: 12 TÌM KIẾM THƠNG TIN 12 2.1 Giới thiệu chung 12 2.2 Các mơ hình xử lý tìm kiếm 14 2.2.1 Mơ hình khơng gian vectơ 14 2.2.2 Mơ hình xác suất 18 2.3 Tiếp cận hướng người dùng kỹ thuật biểu diễn xử lý user profile 24 2.4 Kết luận đánh giá 31 CHƯƠNG III: 33 TRUY VẤN TRONG CÁC HỆ CƠ SỞ DỮ LIỆU 33 3.1 Quy trình xử lý câu truy vấn sở liệu 33 3.2 Câu truy vấn lựa chọn k ghi (top-k query) 35 3.2.1 Hàm tính điểm 36 3.2.2 Đại số quan hệ có xét đến thứ tự 38 3.2.3 Mơ hình thực thi truy vấn top-k 42 3.2.4 Tối ưu hóa thực thi top-k query 44 3.3 Preference SQL 47 3.3.1 Cú pháp 47 3.3.2 Đánh giá kiểm soát chất lượng kết 51 3.3.3 Cài đặt thực thi 53 CHƯƠNG IV 56 KẾT HỢP KỸ THUẬT USER PROFILE VÀO CÁ THỂ HOÁ TRUY VẤN TRONG CÁC HỆ CƠ SỞ DỮ LIỆU 56 4.1 Mơ hình biểu diễn Preference 57 4.1.1 Preference sở (Atomic Preference) 59 4.1.2 Preference ẩn (Implicit Preference) 64 4.1.3 Kết hợp preference 66 4.1.4 Xếp thứ tự preference 68 4.2 Lựa chọn Preferences 69 4.3 Sinh kết truy vấn hướng người dùng 73 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 80 TÀI LIỆU THAM KHẢO 82 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24 T 24 T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 4T 24T 24 T 24T 24T 24T 24T 24T 24T 24T 24T 24 T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24 T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24 T 24T 24 T 24T 24T 24T 24 T 24T Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng DANH MỤC CÁC HÌNH VẼ Hình 2.1: Quy trình xử lý chung hệ thống IR 12 Hình 2.2: Tính điểm số văn theo mơ hình vectơ 16 Hình 2.3: Chuẩn hóa vectơ hình cầu đơn vị 17 Hình 2.4: Mơ hình khái niệm 18 Hình 2.5: Khơng gian kiện 20 Hình 2.6: Tiếp cận học tham số 22 Hình 2.7: Tìm kiếm hướng người dùng user profile 25 Hình 2.8 : Ví dụ loại cạnh biểu thị quan hệ từ 28 Hình 2.9: Đồ thị biểu diễn user profile 28 Hình 3.1: Quy trình xử lý truy vấn sở liệu 34 Hình 3.2: Mơ hình tìm kiếm plan thực thi tối ưu cho câu truy vấn 35 Hình 3.3: Mơ hình thực thi truy vấn Top-K 44 Hình 3.4: Tích hợp Preference SQL 53 Hình 4.1: Cấu trúc sở liệu phim dùng để minh họa chương 58 Hình 4.2: Các dạng hàm e (d) (u) 61 Hình 4.3: Một phần profile John biểu diễn dạng đồ thị 64 Hình 4.4: Ví dụ minh họa preference ẩn biểu diễn đồ thị 65 Hình 4.5: Biểu diễn truy vấn đồ thị 70 Hình 4.6: Minh họa đường personalization graph 71 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU U24T 24TU 24TU U24T URU URU U24T 24TU U24T 24TU 24TU 24TU U24T U24T U24T Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng MỞ ĐẦU Ngày nay, công nghệ thông tin (CNTT) ngày sâu vào hầu hết lĩnh vực đời sống xã hội Thơng tin số hóa - gọi chung thông tin điện tử ngày trở nên phong phú đồ sộ, thực tế đặt yêu cầu khai thác kho thông tin điện tử cách có hiệu để phục vụ người Tuy nhiên, yêu cầu khai thác thông tin lại đa dạng với (nhóm) người dùng khác nên đặt vấn đề cách khai thác thông tin cho phù hợp với yêu cầu đặc thù (nhóm) người sử dụng Hiện nay, tồn hai cách tiếp cận phổ biến lưu trữ khai thác thơng tin Đó tìm kiếm thông tin (Information Retrieval - IR) sở liệu (Database – DB) Theo cách tiếp cận DB, thông tin lưu trữ có cấu trúc Người dùng truy xuất liệu thông qua câu hỏi truy vấn có định dạng hệ quản trị sở liệu (Database Management System – DBMS) quy định với điều kiện lựa chọn phát biểu rõ ràng Kết trả thường ghi tìm thấy DB Trái lại, đối tượng IR lại văn (document) với thơng tin cần tìm kiếm hầu hết dạng text Các yêu cầu truy xuất người dùng thực nội dung văn không cấu trúc chặt chẽ truy xuất DBMS Điều kiện để văn có mặt kết khơng rõ ràng ghi DB Một văn đưa kết có mối “liên hệ” với yêu cầu truy xuất Trong tập kết trả lời cho câu truy vấn, người ta tìm thấy văn liên hệ “chặt chẽ” với yêu cầu truy vấn văn “ít” liên quan Đây đặc trưng cách tiếp cận tìm kiếm thông tin nhờ kỹ thuật phân loại xếp hạng văn Trong cách tiếp cận (DB IR), kỹ thuật truy vấn thông tin tập trung khai thác đặc trưng thông tin cần khai thác, cấu trúc liệu cách tiếp cận DB nội dung, ngữ nghĩa văn cách tiếp cận IR Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Kết hợp kỹ thuật hướng phát triển tốt cho phép khai thác khối lượng thông tin đồ sộ dựa cấu trúc nội dung Truy vấn thơng tin thích nghi cho (nhóm) người dùng gọi chung truy vấn hướng người dùng Luận văn tập trung vào tìm hiểu cách “tiếp cận lại” DB IR cho phép tăng độ mềm dẻo trình biểu diễn xử lý truy vấn nhằm mục đích xử lý tốt yêu cầu truy vấn (nhóm) người dùng Nội dung luận văn (khơng kể phần mở đầu) gồm có chương phần kết luận Chương 1: Tổng quan truy vấn liệu hướng người dùng Truy vấn liệu tìm kiếm thơng tin (IR) sở liệu (Database) hướng tiếp cận hướng người sử dụng So sánh truy vấn IR Database Chương 2: Trình bày mơ hình kỹ thuật tìm kiếm thơng tin (Information Retrieval) Mơ hình xây dựng khai thác user profile tìm kiếm thơng tin Internet Chương 3: Trình bày truy vấn hệ CSDL Biểu diễn truy vấn hướng người dùng theo hướng nghiên cứu Preference SQL Trình bày thực thi truy vấn (query processing) thực thi truy vấn Top-K Chương 4: Trình bày ý tưởng phát triển cho thực thi truy vấn Database, kết hợp kỹ thuật biểu diễn xử lý user profile vào xử lý truy vấn hướng người dùng Database Kết luận hướng phát triển đề tài Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng CHƯƠNG I: TỔNG QUAN 1.1 Khái niệm truy vấn liệu hướng người dùng Trong thực tế, có nhiều ứng dụng phục vụ cho nhiều người sử dụng sống nhiều mơi trường văn hóa với nhiều tính cách thói quen khác Cơ sở liệu ứng dụng lớn đa dạng, có nhiều định dạng khác text, multimedia, markup language,…Ví dụ hệ thống hỗ trợ khách hàng công ty phần mềm, nhà sản xuất điện tử, nhà cung cấp dịch vụ Internet (ISP) Hệ thống nhận yêu cầu trợ giúp khiếu nại thông qua email hệ thống tổng đài điện thoại (call-center) Những câu hỏi khách hàng có dạng như: “Máy tính xách tay tơi model …, có vấn đề với driver card Wave-LAN Tôi cố gắng thử khắc phục cách sau:… không thành công nhận thông báo lỗi sau …” Một số thơng tin câu hỏi chuyển thành trường có cấu trúc như NotebookModel, cịn lại số liệu dạng text khơng có cấu trúc Một ví dụ khác ứng dụng lưu trữ tin tức (news archive): Các hãng phát hành báo chí hàng ngày sản xuất phát hành thị trường số lượng lớn tin tức với ảnh âm thu âm kèm theo Thách thức nằm việc quản lý việc dư thừa thơng tin, ví dụ nhiều báo chép từ báo khác với sửa chữa không đáng kể Tất nhiên, báo mang liệu thông tin chi tiết báo lúc ban đầu (ví dụ tin tức trang nhất) Các liệu dùng nhà báo chuyên nghiệp (không giống người dùng bình thường tìm kiếm thơng tin Internet) Vì vậy, nhà báo thực tìm kiếm nhiều ngơn ngữ, bao gồm phản hồi có liên quan, cụm từ đồng nghĩa ontology (ví dụ kết hợp với điều kiện không gian thời gian “mùa hè 1998 Paris” tựa báo liên quan “Mùng tháng năm 1998 London”) Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Như vậy, cần có ứng dụng nhận yêu cầu cung cấp thông tin cho người sử dụng cách mềm dẻo có tính tới thói quen, tính cách, sở thích người khác nhóm người khác Những ứng dụng gọi hệ truy vấn liệu hướng người dùng Cụ thể hệ truy vấn liệu hướng người dùng mà ta cần hướng tới cần có khả biểu diễn yêu cầu người dùng cách uyển chuyển nhằm cá thể hóa yêu cầu người dùng; cần phải có kỹ thuật thực thi truy vấn thích hợp để trả kết phù hợp với sở thích, thói quen người sử dụng Truy vấn liệu hướng người dùng việc tìm kiếm thơng tin thực truy vấn sở liệu nhằm đưa kết phù hợp với sở thích, thói quen người nhóm người sử dụng Để tiếp cận tới tính “hướng người dùng”, ta phải quan tâm tới phía tương tác với người dùng (front-end) lẫn phía bên hệ thống (back-end) Người dùng tương tác với hệ thống truy vấn liệu thông qua câu hỏi truy vấn, để hỗ trợ cho tính “hướng người dùng” phía front-end, ta cần quan tâm tới khả hỗ trợ cho người dùng việc biểu diễn u cầu Cịn phía back-end, ta cần quan tâm tới khả xử lý yêu cầu truy vấn người dùng để trả cho người dùng thông tin sát với sở thích mối quan tâm người dùng (kết hướng người dùng hay kết cá thể hóa – personalized answers) 1.2 Tổng quan truy vấn CSDL tìm kiếm thơng tin Hiện nay, tồn hai kiểu lưu trữ khai thác thơng tin phổ biến Đó sử dụng hệ thống tìm kiếm thơng tin (Information Retrieval System - IR) dùng hệ quản trị sở liệu (Database Management System - DBMS) Để xây dựng hệ truy vấn liệu hướng người dùng, ta cần xem xét đặc trưng riêng hai lĩnh vực Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Hệ thống tìm kiếm thơng tin (Information Retrieval System) hệ thống làm việc nguồn thông tin dạng văn (document) để tìm văn có liên quan tới yêu cầu người dùng Quá trình quan trọng hệ thống tìm kiếm thơng tin bước xếp theo mức độ liên quan văn với yêu cầu người dùng Quá trình xếp gọi ranking, hàm số dùng để đánh giá mức độ liên quan văn so với yêu cầu người dùng gọi ranking function Trong tìm kiếm thơng tin (Information Retrieval – IR), ta gọi yêu cầu người dùng truy vấn Ví dụ phổ biến IR hệ thống tìm kiếm thông tin Internet Yahoo Search, Google, MSN Search Người dùng đưa vào truy vấn dạng đoạn văn ngắn nhập vào giao diện Web, hệ thống tìm Website file văn (dạng plain text dạng định kiểu HTML, XML, PDF, ) để tìm văn có liên quan nhiều với truy vấn kết xuất kết tìm kiếm cho người dùng giao diện Web (có link kèm theo để người dùng chuyển tiếp tới văn gốc) Trái với IR System, tìm kiếm sở liệu có điểm khác Thông tin sở liệu thơng tin có tính tổ chức có cấu trúc Chẳng hạn sở liệu quan hệ Oracle, IBM DB2, MS SQL Server,…, liệu tổ chức thành bảng (table) quan hệ, người dùng tìm kiếm thơng tin CSDL thơng qua câu truy vấn Khác với truy vấn IR, truy vấn Database dựa điều kiện Boolean, ghi có trạng thái thỏa mãn không thỏa mãn điều kiện truy vấn; ghi kết xuất kết truy vấn ghi thỏa mãn điều kiện truy vấn Ngoài ra, truy vấn Database hỗ trợ tốt IR liệu multimedia (image, audio, ), hỗ trợ tốt tìm kiếm Full-text search với nhiều định dạng: rich text, XML, Word, … Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 10 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng 1.3 Kết hợp kỹ thuật tìm kiếm thơng tin truy vấn CSDL Trước đây, database tìm kiếm thơng tin IR hai lĩnh vực phát triển tách biệt với Cách ba thập kỷ, chương trình ứng dụng phát triển dựa yêu cầu tiêu chí khác nhau; số ứng dụng thương mại cổ điển tính bảng lương (payroll) hay quản lý tồn kho (inventory management) phát triển dựa Database, số ứng dụng khác chương trình tóm tắt tác phẩm xuất sáng chế phát triển dựa IR Ngày tình hình thay đổi nhiều, ứng dụng cần liệu có cấu trúc liệu dạng text Tích hợp liệu có cấu trúc liệu text mong muốn nhiều sản phẩm ứng dụng thương mại Các ứng dụng tiêu biểu cần tích hợp là: - Hệ thống hỗ trợ khách hàng: theo dõi luồng khiếu nại khách hàng phản hồi từ nhà cung cấp; trường hợp lý tưởng phải tự động xác định phản hồi trùng với phản hồi trước - Hệ thống chăm sóc sức khoẻ: truy cập vào hệ thống thông tin điện tử với nguồn thơng tin cung cấp bệnh viện, phịng thí nghiệm dược phẩm, bác sĩ,…; hệ thống có khả giám sát tình hình sức khoẻ chung khu vực dân cư dự báo sớm khả xuất dịch bệnh cộng đồng - Tìm kiếm thơng tin mạng intranet có nhiều liệu có cấu trúc liệu dạng text Các ứng dụng loại cần khả hệ quản trị sở liệu khả hệ tìm kiếm thông tin (IR) Trong nhiều trường hợp, câu truy vấn viết theo chuẩn truyền thống SQL hay XQuery không đủ mềm dẻo để thể yêu cầu đặc thù ứng dụng việc cho điểm (scoring) xếp thứ tự (ranking) kết tìm Ngược lại, hệ thống tìm kiếm thơng tin (IR) lại thiếu hỗ trợ có hiệu cho việc xử lý liệu có cấu trúc siêu liệu (metadata), IR không cho phép người phát Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội