Truy vấn dữ liệu hướng người dùng Truy vấn dữ liệu hướng người dùng Truy vấn dữ liệu hướng người dùng luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC TRUY VẤN DỮ LIỆU HƯỚNG NGƯỜI DÙNG NGÀNH: CÔNG NGHỆ THƠNG TIN Mà SỐ: LÊ DỖN PHƯỚC Người hướng dẫn khoa học: TS VŨ TUYẾT TRINH HÀ NỘI 2006 Luận văn thạc sỹ khoa học: Truy vấn liu hng ngi dựng Lời cảm ơn Em xin gửi tíi TS Vị Tut Trinh – Bé m«n HƯ thèng thông tin - Khoa CNTT - Đại học Bách Khoa Hà Nội lời cảm ơn chân thành sâu sắc hướng dẫn tận tình mặt định hướng cho luận văn giúp đỡ cụ thể mặt chuyên môn Em cảm ơn thầy cô giáo thuộc khoa CNTT đà tạo điều kiện cho em học tập nghiên cứu suốt trình học cao học Cuối cùng, xin gửi lời càm ơn tới gia đình bạn bè, người đà giúp đỡ động viên trình học tập thực luận văn nµy Lê Dỗn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng MỤC LỤC MỤC LỤC DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƯƠNG I: TỔNG QUAN 1.1 Khái niệm truy vấn liệu hướng người dùng 1.2 Tổng quan truy vấn CSDL tìm kiếm thông tin 1.3 Kết hợp kỹ thuật tìm kiếm thơng tin truy vấn CSDL 10 CHƯƠNG II: 12 TÌM KIẾM THƠNG TIN 12 2.1 Giới thiệu chung 12 2.2 Các mơ hình xử lý tìm kiếm 14 2.2.1 Mơ hình khơng gian vectơ 14 2.2.2 Mơ hình xác suất 18 2.3 Tiếp cận hướng người dùng kỹ thuật biểu diễn xử lý user profile 24 2.4 Kết luận đánh giá 31 CHƯƠNG III: 33 TRUY VẤN TRONG CÁC HỆ CƠ SỞ DỮ LIỆU 33 3.1 Quy trình xử lý câu truy vấn sở liệu 33 3.2 Câu truy vấn lựa chọn k ghi (top-k query) 35 3.2.1 Hàm tính điểm 36 3.2.2 Đại số quan hệ có xét đến thứ tự 38 3.2.3 Mơ hình thực thi truy vấn top-k 42 3.2.4 Tối ưu hóa thực thi top-k query 44 3.3 Preference SQL 47 3.3.1 Cú pháp 47 3.3.2 Đánh giá kiểm soát chất lượng kết 51 3.3.3 Cài đặt thực thi 53 CHƯƠNG IV 56 KẾT HỢP KỸ THUẬT USER PROFILE VÀO CÁ THỂ HOÁ TRUY VẤN TRONG CÁC HỆ CƠ SỞ DỮ LIỆU 56 4.1 Mơ hình biểu diễn Preference 57 4.1.1 Preference sở (Atomic Preference) 59 4.1.2 Preference ẩn (Implicit Preference) 64 4.1.3 Kết hợp preference 66 4.1.4 Xếp thứ tự preference 68 4.2 Lựa chọn Preferences 69 4.3 Sinh kết truy vấn hướng người dùng 73 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 80 TÀI LIỆU THAM KHẢO 82 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24 T 24 T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24 T 24 T 24T 24T 24T 24T 24T 24T 24 T 4T 24T 24 T 24T 24T 24T 24T 24T 24T 24T 24T 24 T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 4T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24 T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24T 24 T 4T 24 T 24T 24T 24T 24 T 24T Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng DANH MỤC CÁC HÌNH VẼ 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU 24TU Hình 2.1: Quy trình xử lý chung hệ thống IR 12 Hình 2.2: Tính điểm số văn theo mơ hình vectơ 16 Hình 2.3: Chuẩn hóa vectơ hình cầu đơn vị 17 Hình 2.4: Mơ hình khái niệm 18 Hình 2.5: Khơng gian kiện 20 Hình 2.6: Tiếp cận học tham số 22 Hình 2.7: Tìm kiếm hướng người dùng user profile 25 Hình 2.8 : Ví dụ loại cạnh biểu thị quan hệ từ 28 Hình 2.9: Đồ thị biểu diễn user profile 28 Hình 3.1: Quy trình xử lý truy vấn sở liệu 34 Hình 3.2: Mơ hình tìm kiếm plan thực thi tối ưu cho câu truy vấn 35 Hình 3.3: Mơ hình thực thi truy vấn Top-K 44 Hình 3.4: Tích hợp Preference SQL 53 Hình 4.1: Cấu trúc sở liệu phim dùng để minh họa chương 58 Hình 4.2: Các dạng hàm e (d) (u) 61 Hình 4.3: Một phần profile John biểu diễn dạng đồ thị 64 Hình 4.4: Ví dụ minh họa preference ẩn biểu diễn đồ thị 65 Hình 4.5: Biểu diễn truy vấn đồ thị 70 Hình 4.6: Minh họa đường personalization graph 71 U24T U24T U24T U24T U24T U24T U24T U24T U24T U24T U24T U24T U24T U24T URU URU U24T U24T U24T U24T U24T Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng MỞ ĐẦU Ngày nay, công nghệ thông tin (CNTT) ngày sâu vào hầu hết lĩnh vực đời sống xã hội Thông tin số hóa - gọi chung thơng tin điện tử ngày trở nên phong phú đồ sộ, thực tế đặt yêu cầu khai thác kho thơng tin điện tử cách có hiệu để phục vụ người Tuy nhiên, yêu cầu khai thác thơng tin lại đa dạng với (nhóm) người dùng khác nên đặt vấn đề cách khai thác thông tin cho phù hợp với yêu cầu đặc thù (nhóm) người sử dụng Hiện nay, tồn hai cách tiếp cận phổ biến lưu trữ khai thác thông tin Đó tìm kiếm thơng tin (Information Retrieval - IR) sở liệu (Database – DB) Theo cách tiếp cận DB, thơng tin lưu trữ có cấu trúc Người dùng truy xuất liệu thông qua câu hỏi truy vấn có định dạng hệ quản trị sở liệu (Database Management System – DBMS) quy định với điều kiện lựa chọn phát biểu rõ ràng Kết trả thường ghi tìm thấy DB Trái lại, đối tượng IR lại văn (document) với thơng tin cần tìm kiếm hầu hết dạng text Các yêu cầu truy xuất người dùng thực nội dung văn không cấu trúc chặt chẽ truy xuất DBMS Điều kiện để văn có mặt kết khơng rõ ràng ghi DB Một văn đưa kết có mối “liên hệ” với yêu cầu truy xuất Trong tập kết trả lời cho câu truy vấn, người ta tìm thấy văn liên hệ “chặt chẽ” với yêu cầu truy vấn văn “ít” liên quan Đây đặc trưng cách tiếp cận tìm kiếm thơng tin nhờ kỹ thuật phân loại xếp hạng văn Trong cách tiếp cận (DB IR), kỹ thuật truy vấn thông tin tập trung khai thác đặc trưng thông tin cần khai thác, cấu trúc liệu cách tiếp cận DB nội dung, ngữ nghĩa văn cách tiếp cận IR Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Kết hợp kỹ thuật hướng phát triển tốt cho phép khai thác khối lượng thông tin đồ sộ dựa cấu trúc nội dung Truy vấn thơng tin thích nghi cho (nhóm) người dùng gọi chung truy vấn hướng người dùng Luận văn tập trung vào tìm hiểu cách “tiếp cận lại” DB IR cho phép tăng độ mềm dẻo trình biểu diễn xử lý truy vấn nhằm mục đích xử lý tốt yêu cầu truy vấn (nhóm) người dùng Nội dung luận văn (không kể phần mở đầu) gồm có chương phần kết luận Chương 1: Tổng quan truy vấn liệu hướng người dùng Truy vấn liệu tìm kiếm thơng tin (IR) sở liệu (Database) hướng tiếp cận hướng người sử dụng So sánh truy vấn IR Database Chương 2: Trình bày mơ hình kỹ thuật tìm kiếm thơng tin (Information Retrieval) Mơ hình xây dựng khai thác user profile tìm kiếm thơng tin Internet Chương 3: Trình bày truy vấn hệ CSDL Biểu diễn truy vấn hướng người dùng theo hướng nghiên cứu Preference SQL Trình bày thực thi truy vấn (query processing) thực thi truy vấn Top-K Chương 4: Trình bày ý tưởng phát triển cho thực thi truy vấn Database, kết hợp kỹ thuật biểu diễn xử lý user profile vào xử lý truy vấn hướng người dùng Database Kết luận hướng phát triển đề tài Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng CHƯƠNG I: TỔNG QUAN 1.1 Khái niệm truy vấn liệu hướng người dùng Trong thực tế, có nhiều ứng dụng phục vụ cho nhiều người sử dụng sống nhiều mơi trường văn hóa với nhiều tính cách thói quen khác Cơ sở liệu ứng dụng lớn đa dạng, có nhiều định dạng khác text, multimedia, markup language,…Ví dụ hệ thống hỗ trợ khách hàng công ty phần mềm, nhà sản xuất điện tử, nhà cung cấp dịch vụ Internet (ISP) Hệ thống nhận yêu cầu trợ giúp khiếu nại thông qua email hệ thống tổng đài điện thoại (call-center) Những câu hỏi khách hàng có dạng như: “Máy tính xách tay tơi model …, có vấn đề với driver card Wave-LAN Tơi cố gắng thử khắc phục cách sau:… không thành công nhận thông báo lỗi sau …” Một số thông tin câu hỏi chuyển thành trường có cấu trúc như NotebookModel, lại số liệu dạng text khơng có cấu trúc Một ví dụ khác ứng dụng lưu trữ tin tức (news archive): Các hãng phát hành báo chí hàng ngày sản xuất phát hành thị trường số lượng lớn tin tức với ảnh âm thu âm kèm theo Thách thức nằm việc quản lý việc dư thừa thơng tin, ví dụ nhiều báo chép từ báo khác với sửa chữa không đáng kể Tất nhiên, báo mang liệu thông tin chi tiết báo lúc ban đầu (ví dụ tin tức trang nhất) Các liệu dùng nhà báo chuyên nghiệp (không giống người dùng bình thường tìm kiếm thơng tin Internet) Vì vậy, nhà báo thực tìm kiếm nhiều ngơn ngữ, bao gồm phản hồi có liên quan, cụm từ đồng nghĩa ontology (ví dụ kết hợp với điều kiện không gian thời gian “mùa hè 1998 Paris” tựa báo liên quan “Mùng tháng năm 1998 London”) Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Như vậy, cần có ứng dụng nhận yêu cầu cung cấp thông tin cho người sử dụng cách mềm dẻo có tính tới thói quen, tính cách, sở thích người khác nhóm người khác Những ứng dụng gọi hệ truy vấn liệu hướng người dùng Cụ thể hệ truy vấn liệu hướng người dùng mà ta cần hướng tới cần có khả biểu diễn yêu cầu người dùng cách uyển chuyển nhằm cá thể hóa yêu cầu người dùng; cần phải có kỹ thuật thực thi truy vấn thích hợp để trả kết phù hợp với sở thích, thói quen người sử dụng Truy vấn liệu hướng người dùng việc tìm kiếm thông tin thực truy vấn sở liệu nhằm đưa kết phù hợp với sở thích, thói quen người nhóm người sử dụng Để tiếp cận tới tính “hướng người dùng”, ta phải quan tâm tới phía tương tác với người dùng (front-end) lẫn phía bên hệ thống (back-end) Người dùng tương tác với hệ thống truy vấn liệu thông qua câu hỏi truy vấn, để hỗ trợ cho tính “hướng người dùng” phía front-end, ta cần quan tâm tới khả hỗ trợ cho người dùng việc biểu diễn u cầu Cịn phía back-end, ta cần quan tâm tới khả xử lý yêu cầu truy vấn người dùng để trả cho người dùng thơng tin sát với sở thích mối quan tâm người dùng (kết hướng người dùng hay kết cá thể hóa – personalized answers) 1.2 Tổng quan truy vấn CSDL tìm kiếm thơng tin Hiện nay, tồn hai kiểu lưu trữ khai thác thơng tin phổ biến Đó sử dụng hệ thống tìm kiếm thơng tin (Information Retrieval System - IR) dùng hệ quản trị sở liệu (Database Management System - DBMS) Để xây dựng hệ truy vấn liệu hướng người dùng, ta cần xem xét đặc trưng riêng hai lĩnh vực Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Hệ thống tìm kiếm thơng tin (Information Retrieval System) hệ thống làm việc nguồn thông tin dạng văn (document) để tìm văn có liên quan tới yêu cầu người dùng Quá trình quan trọng hệ thống tìm kiếm thơng tin bước xếp theo mức độ liên quan văn với yêu cầu người dùng Quá trình xếp gọi ranking, hàm số dùng để đánh giá mức độ liên quan văn so với yêu cầu người dùng gọi ranking function Trong tìm kiếm thơng tin (Information Retrieval – IR), ta gọi yêu cầu người dùng truy vấn Ví dụ phổ biến IR hệ thống tìm kiếm thơng tin Internet Yahoo Search, Google, MSN Search Người dùng đưa vào truy vấn dạng đoạn văn ngắn nhập vào giao diện Web, hệ thống tìm Website file văn (dạng plain text dạng định kiểu HTML, XML, PDF, ) để tìm văn có liên quan nhiều với truy vấn kết xuất kết tìm kiếm cho người dùng giao diện Web (có link kèm theo để người dùng chuyển tiếp tới văn gốc) Trái với IR System, tìm kiếm sở liệu có điểm khác Thông tin sở liệu thông tin có tính tổ chức có cấu trúc Chẳng hạn sở liệu quan hệ Oracle, IBM DB2, MS SQL Server,…, liệu tổ chức thành bảng (table) quan hệ, người dùng tìm kiếm thông tin CSDL thông qua câu truy vấn Khác với truy vấn IR, truy vấn Database dựa điều kiện Boolean, ghi có trạng thái thỏa mãn khơng thỏa mãn điều kiện truy vấn; ghi kết xuất kết truy vấn ghi thỏa mãn điều kiện truy vấn Ngồi ra, truy vấn Database hỗ trợ tốt IR liệu multimedia (image, audio, ), hỗ trợ tốt tìm kiếm Full-text search với nhiều định dạng: rich text, XML, Word, … Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 10 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng 1.3 Kết hợp kỹ thuật tìm kiếm thơng tin truy vấn CSDL Trước đây, database tìm kiếm thông tin IR hai lĩnh vực phát triển tách biệt với Cách ba thập kỷ, chương trình ứng dụng phát triển dựa yêu cầu tiêu chí khác nhau; số ứng dụng thương mại cổ điển tính bảng lương (payroll) hay quản lý tồn kho (inventory management) phát triển dựa Database, số ứng dụng khác chương trình tóm tắt tác phẩm xuất sáng chế phát triển dựa IR Ngày tình hình thay đổi nhiều, ứng dụng cần liệu có cấu trúc liệu dạng text Tích hợp liệu có cấu trúc liệu text mong muốn nhiều sản phẩm ứng dụng thương mại Các ứng dụng tiêu biểu cần tích hợp là: - Hệ thống hỗ trợ khách hàng: theo dõi luồng khiếu nại khách hàng phản hồi từ nhà cung cấp; trường hợp lý tưởng phải tự động xác định phản hồi trùng với phản hồi trước - Hệ thống chăm sóc sức khoẻ: truy cập vào hệ thống thông tin điện tử với nguồn thông tin cung cấp bệnh viện, phịng thí nghiệm dược phẩm, bác sĩ,…; hệ thống có khả giám sát tình hình sức khoẻ chung khu vực dân cư dự báo sớm khả xuất dịch bệnh cộng đồng - Tìm kiếm thơng tin mạng intranet có nhiều liệu có cấu trúc liệu dạng text Các ứng dụng loại cần khả hệ quản trị sở liệu khả hệ tìm kiếm thơng tin (IR) Trong nhiều trường hợp, câu truy vấn viết theo chuẩn truyền thống SQL hay XQuery không đủ mềm dẻo để thể yêu cầu đặc thù ứng dụng việc cho điểm (scoring) xếp thứ tự (ranking) kết tìm Ngược lại, hệ thống tìm kiếm thơng tin (IR) lại thiếu hỗ trợ có hiệu cho việc xử lý liệu có cấu trúc siêu liệu (metadata), IR khơng cho phép người phát Lê Dỗn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 69 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Xét ba preference sau John: p1: < DIRECTOR.name=‘W Allen’, 0.8, > p4: < MOVIE.duration=”2h”, e(0.7), e(-0.5)> p5: < GENRE.genre=”musical”, -0.9, 0.7 > Ba preference xếp giảm dần theo mức độ quan trọng sau: p5(c5=1.6), p4(c4=1.2), p1(c1=0.8) Khái niệm mức độ quan trọng mở rộng để tính cho preference kết nối thuộc tính-thuộc tính cách đặt giá trị cho mức độ quan tâm kết nối không thỏa mãn Với preference kết nối thuộc tính-thuộc tính, mức độ quan tâm giảm độ dài đường chuyển qua mức độ quan trọng tăng Tuy nhiên, điều không với preference lựa chọn ẩn: Xét preference lựa chọn ẩn có mức độ quan trọng cs Với kết nối ẩn với mức độ quan trọng cj, ta có giới hạn sau: cs ≤ * cj (4.11) 4.2 Lựa chọn Preferences Bước q trình cá thể hóa truy vấn bước tìm K preferences quan trọng có liên quan với truy vấn Một preference có liên quan với truy vấn mức cú pháp mức ngữ nghĩa Ta nói preference có quan hệ với truy vấn mức ngữ pháp ánh xạ tới đường thuộc đồ thị truy vấn Đường đồ thị bao gồm tất đỉnh tương ứng với quan hệ có mặt truy vấn, tất cạnh lựa chọn cạnh kết nối tương ứng với điều kiện sở truy vấn Ví dụ: Trong hình 4.4 truy vấn: select title from MOVIE M, PLAY P where M.mid=P.mid and P.date=‘28/07/2004’ Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 70 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng thể đồ thị tô màu xám đồ thị tương ứng với profile John Hình 4.5: Biểu diễn truy vấn đồ thị Một preference ẩn có quan hệ với truy vấn là: MOVIE.mid=GENRE.mid and GENRE.genre=‘comedy’ Tham số K xác định theo số tiêu chuẩn Ví dụ, tiêu chuẩn dựa mức độ quan trọng preference, theo ta xác định xác số lượng preferences xác định preference với mức độ quan trọng lớn ngưỡng c0 chọn Cho đồ thị G tương ứng với user profile đồ thị biểu diễn truy vấn Q Đồ thị thuộc đồ thị G Tập hợp PN tất đường pi G mà có liên quan tới Q theo thứ tự mức độ quan trọng ci giảm dần, tức là: pN = {pi | i ∈ [1, N], ci-1 ≥ci} Tập preference ảnh hưởng tới truy vấn dựa số tiêu chuẩn C(.) tính mức độ quan trọng tập có thứ tự PK = {pi|i ∈ [1, K], ci-1≥ci} PN với: K=max({t|t ∈ [1, N]: tiêu chuẩn C(Pt)được thỏa mãn}) Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 71 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Thuật toán lựa chọn preference Thuật toán chọn preference có ý tưởng chủ đạo xây dựng đường có hướng đồ thị G biểu diễn profile người dùng, đường có hướng xếp theo thứ tự giảm mức độ quan trọng Mỗi cạnh gắn nhãn mức độ quan trọng preference sở tương ứng Các join ẩn có thuộc tính với mức độ quan trọng giảm dần độ dài đường tương ứng tăng dần Do dùng thuật tốn tìm đường ngắn đồ thị personalization graph G Trong hình 4.5 AB quan trọng AE, ABD quan trọng AEF Hình 4.6: Minh họa đường personalization graph Tuy nhiên, tính đơn điệu tính mức độ quan trọng selection preference ẩn Theo đó, đường ngắn đồ thị không đảm bảo phép chọn ẩn tạo theo thứ tự Thực vậy: ABDs1 không quan trọng AEFs2 Một preference lựa chọn ẩn chắn xuất mức độ quan trọng preference lớn mức độ quan trọng lớn preference lựa chọn ẩn chưa xét đến (most critical selection preference unseen - mcsu) Theo công thức (4.8), liên kết cuối số liên kết ẩn có độ quan trọng lớn xét kèm theo lựa chọn sở với mức độ quan trọng Vì vậy, preference lựa chọn ẩn chắn xuất preference có mức độ quan trọng phải với mức độ quan trọng Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 72 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng liên kết nói nhân với Mặt khác, thuật tốn mở rộng liên kết kiểm tra đường dài xuất phát từ Giả sử liên kết ẩn có mức độ quan trọng cao biết kèm theo lựa chọn sở với mức độ quan trọng (đánh giá cho trường hợp xấu mcsu) Những thuật tốn cần mức độ quan trọng lớn preference lựa chọn kèm theo liên kết Để thực mục tiêu này, bước tiền xử lý cần thiết cho cạnh liên kết, tất đường viếng thăm để tìm mức độ quan trọng lớn Sau đó, trị số mức độ gán nhãn cho cạnh kết nối Nếu mức độ quan trọng số cạnh thay đổi, cạnh thêm vào, tất cạnh kết nối nằm đường chứa cạnh thay đổi phải cập nhật Ta định nghĩa đại lượng mức độ quan trọng giả (fake criticality) fC sau: Với cạnh lựa chọn, fc đặt Với cạnh kết nối, fc đặt mức độ quan trọng lớn tất cạnh kèm cạnh kết nối Nếu số chúng kết nối độ quan trọng nhân đơi Cả bước tạo bước trì fc có chi phí thấp, thuật tốn chọn preference gắn đường với mức độ quan trọng c độ quan trọng giả fc, thể có preference lựa chọn ẩn với độ quan trọng c*fc Từ ta tìm đường ngắn đồ thị dựa tích số c*fc Bất kỳ preference lựa chọn tạo ra, kết xuất Dùng thuật toán tên FakeCrit để sinh tập hợp PK chứa Top-K preference dựa tiêu chuẩn C(.) Hàng đợi QP preference lưu để làm giảm c*fc Ban đầu, hàng đợi bao gồm preference sở có quan hệ với truy vấn Ở bước, thuật toán lấy preference từ hàng đợi QP Nếu p lựa chọn thỏa mãn tiêu chuẩn C(PK * {p}) kết xuất Nếu p liên kết thỏa mãn tiêu chuẩn C(PK * {p}) p mở rộng thành đường dài để thêm vào QP Một đường p ^ AC1 tạo từ preference sở AC1 Những preference sở xem xét để làm giảm Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 73 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng c*fc Một đường không chèn vào QP trường hợp sau: (a) mở rộng tới quan hệ bao gồm p Q, chu trình có chu trình (b) tích số mức độ quan trọng mức độ quan trọng giả (cPA* fcPA) có giá trị nhỏ c0 cung cấp tiêu chuẩn C: Top-K preference phải có mức độ quan trọng lớn C0>0 Thuật toán dừng nhận đủ K preference 4.3 Sinh kết truy vấn hướng người dùng Top-K preference tích hợp vào truy vấn tạo kết truy vấn hướng người dùng Kết phải thỏa mãn điều kiện sau đây: - Có ích người dùng: tức ghi kết hướng người dùng phải thỏa mãn L preference số top K preference - Các ghi kết xếp theo mức độ quan tâm người dùng - (Tính chất tự giải thích – self explanation) Với ghi trả về, preference người dùng thỏa mãn không thỏa mãn xét đến để làm sở cho việc lựa chọn xếp ghi kết Có hướng tiếp cận phổ biến việc sinh kết truy vấn hướng người dùng Preference với trị số tương đối biên dịch thành điều kiện giới hạn khoảng giá trị phù hợp trước chèn vào câu truy vấn Quá trình biên dịch sử dụng tập hợp luật Thuật toán sinh kết đơn giản ( Simply Personalize Answer – SPA ) Hướng tiếp cận tích hợp Top-K preference vào câu truy vấn ban đầu tạo truy vấn – truy vấn thực thi Ta cấu trúc personalized query liên kết tập hợp sub-query, sub-query ánh xạ tới nhiều preference số K preference chọn sub-query xây dựng cách mở rộng truy vấn ban đầu Sub-query trả mức độ thỏa Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 74 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng mãn lớn preference tương ứng Nếu bao gồm preference với trị số tương đối, hàm trị số tương đối tương ứng cung cấp mức độ thỏa mãn ghi Hướng tiếp cận xử lý preference có trị số tương đối preference loại “vắng mặt” (sở thích khơng muốn có mặt số ghi người dùng) Ví dụ: Giả sử John dùng câu truy vấn sau: select title from movies Xét preference sau John, kết trả cần thỏa mãn L=2 preference p1: MOVIE.mid=DIRECTED.mid and DIRECTED.did=DIRECTOR.did and DIRECTOR.name=‘W Allen’ (preference loại “có mặt”) p2: MOVIE.year=1980 - Đối với preference “vắng mặt” liên kết 1-n Q3: ánh xạ tới p3 select title, 0.7 degree from MOVIE M where M.mid not in (select M.mid from MOVIES M, GENRE G where M.mid=G.mid and G.genre=‘musical’) Kết dựa preference tạo cách liên kết (UNION) kết sub-query, phân nhóm (GROUP BY) kết thuộc tính cần đưa truy vấn ban đầu, loại trừ tất nhóm L dịng (điều kiện HAVING) Các ghi kết xếp dựa kết hợp preference thỏa mãn: select title,r(degree) from Q1 Union All Q2 Union All Q3 group by title having count(*) = order by r(degree) Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 76 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng r hàm đánh giá sub-query thay Qi cho mục đích biểu diễn Hướng giải có số nhược điểm định Nó khơng sinh kết truy vấn thỏa mãn tính chất self-explanatory (khơng thể xếp dựa preference thỏa mãn không thỏa mãn từ K preference chọn) Hướng tiếp cận trở nên hiệu có preference “vắng mặt” 1n Nó khơng cho phép lấy luỹ tiến (progressive) ghi Các ghi trả thỏa mãn được: lựa chọn, trộn, nhóm (group), xếp thứ tự Thuật toán sinh kết lũy tiến (Progressive Personalized Answer - PPA) Thuật tốn PPA thuật tốn có khả sinh kết luỹ tiến, hướng người dùng, self-explanation, xếp ghi kết xử lý preference “vắng mặt” 1-n hiệu Ý tưởng thuật tốn trình bày Các preference tích hợp sub-query mơ tả phương pháp luận thuật toán Preference “vắng mặt” 1-n tích hợp preference “có mặt” Từ đó, hai tập hợp sub-query tạo ra: tập hợp Qs gồm sub-query bao hàm preference “vắng mặt” 1-1 tập hợp Qa gồm sub-query bao hàm preference “vắng mặt” 1-n Thuật toán xem xét hai tập hợp xếp thứ tự chọn lựa tăng dần, ta dùng lược đồ histogram để lấy thông tin Thuật tốn PPA mơ tả sơ sau: sub-query thực thi liên tiếp truy vấn thuộc tập hợp Qs Một id ghi trả sub-query thỏa mãn nhiều preference, dựa tần suất kết Với id ghi, ta kiểm tra xem liệu có trả sub-query khác hay khơng, thỏa mãn nhiều preference Ta thu thập tất kiện id ghi lưu lại preference thỏa mãn, số lượng chúng, mức độ thỏa mãn ghi Một ghi thỏa mãn tiêu chuẩn L, xuất dựa dấu hiệu khơng có ghi có mức độ thỏa mãn lớn mức độ chuẩn Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 77 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Đầu vào thuật toán là: truy vấn ban đầu Q, tập hợp preference chọn từ bước chọn từ bước cá thể hóa truy vấn trước, mô tả mô tả ẩn cho L Kết Q thỏa mãn L preference tích luỹ danh sách R xếp theo thứ tự giảm dần mức độ thỏa mãn Từ đó, ghi xuất theo luỹ tiến mức độ thỏa mãn lớn mức độ thỏa mãn ghi tương lai Ta có tập hợp sub-query sau: - Sub-query qi ∈ Qs xác định ghi thỏa mãn preference “có mặt” preference “vắng mặt” 1-1, trả id ghi t, thuộc tính quan hệ giá trị thỏa mãn preference tương ứng mức độ quan tâm - Sub-query qj ∈ Qa xác định ghi không thỏa mãn preference “vắng mặt” 1-n, trả id ghi t, thuộc tính quan hệ giá trị thỏa mãn preference tương ứng mức độ quan tâm Cụ thể thuật toán: PPA (In: Q, preferences PK, tiêu chuẩn L, Out: kết hướng người dùng) Begin R := {}; Pactive := PK; MEDI := r + (Pactive); Xây dựng QS , Xây dựng Qa P P Foreach qi ∈ QS If preference khác QS, Qa không thỏa mãn tiêu chuẩn L then Đưa ghi từ quan hệ R dừng vòng lặp end if Thực thi qi Foreach t trả qi, t ∉ R thực thi Qi s (t) P P Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 78 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng PSatisfied:={các preference thỏa mãn t kết qi Qi s } P P thực thi Q1 a (t) P P ASatisfied :={các preference thỏa mãn t kết Q1 a } P P PrefsSatisfied:=PSatisfied ∗ ASatisfied; PrefsNotSatisfied := PK - PrefsSatisfied If t thỏa mãn tiêu chuẩn L then tính dt; R := add(R, t, PrefsSatisfied, PrefsNotSatisfied, dt) end if end for Xuất tất ghi t ∈ R chưa xuất với dt ≥ MEDI Pactive := Pactive − {preferences qi }; MEDI := r + (Pactive) P P End for Foreach qi ∈ Qa If phần lại preferences Qa không thỏa mãn tiêu chuẩn L then xuất tất ghi thuộc R dừng vòng lặp end if Thực thi qi Foreach t trả qi, t ∉ R thực thi Qi a (t); IdsA:= add(IdsA, t) P P PrefsSatisfied :={preferences thỏa mãn t kết tạo Qi a } P P PrefsNotSatisfied := PK - PrefsSatisfied If t thỏa mãn tiêu chuẩn L then tính dt; R := add(R, t, PrefsSatisfied, PrefsNotSatisfied, dt) end if end for xuất tất t ∈ R chưa xuất với dt ≥ MEDI Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 79 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Pactive := Pactive − {preferences qi}; MEDI := r + (Pactive) P P end for If preferences truy vấn thuộc Qa thỏa mãn tiêu chuẩn L then thực thi Q Foreach t trả Q, t ∉ R, t ∉ IdsA PrefsSatisfied := {tất truy vấn “vắng mặt” 1-n } If t thỏa mãn tiêu chuẩn L then tính dt; R := add(R, t, PrefsSatisfied, PrefsNotSatisfied, dt) end if end for xuất ghi cịn lại từ R End Lê Dỗn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 80 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận văn trình bày tổng quan truy vấn liệu hướng người dùng sâu vào lĩnh vực tìm kiếm thơng tin sở liệu Trong chương tìm kiếm thơng tin, sau trình bày mơ hình xử lý truy vấn, luận văn tiếp tục nghiên cứu cách tiếp cận User Profile để cá thể hóa kết truy vấn User Profile tổ chức dựa mối liên hệ mặt ngữ nghĩa từ khoá Ở chương 3, luận văn trình bày vấn đề quan trọng truy vấn hướng người dùng, truy vấn hạn chế số lượng kết Một hướng tiếp cận khác tới truy vấn hướng người dùng trình bày chương Preference SQL dùng để mở rộng việc biểu diễn yêu cầu truy vấn DB Ở chương luận văn trình bày cách tiếp cận User Profile để cá thể hóa truy vấn DB với khái niệm preference mô hình biểu diễn preference, thuật tốn hiệu để cá thể hóa truy vấn, hàm đánh giá Tuy nhiên, đánh giá mức độ quan tâm người dùng lưu profile chương dạng điều kiện xác định thuộc tính bảng quan hệ, nghĩa điều kiện khơng liên quan đến ngữ nghĩa Ngồi ra, mức độ thỏa mãn preference trình bày chương số nằm miền giá trị Do đó, để việc xử lý truy vấn DB trở nên mềm dẻo cho kết phù hợp với sở thích người dùng, luận văn đề xuất hướng mới, nghiên cứu để kết hợp biểu diễn ngữ nghĩa từ khóa biểu diễn profile tìm kiếm thơng tin vào mơ hình biểu diễn preference Khi đó, liên kết ngữ nghĩa làm tăng thêm số lượng từ khoá preference, làm biểu diễn preference người dùng ngày phong phú Ngoài ra, mối liên kết ngữ nghĩa từ khóa có giá trị trọng số tương ứng nên mơ hình biểu diễn preference cần phải thay đổi cho phù hợp Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 81 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng Do trình độ thân thời gian nghiên cứu cịn hạn chế, đề tài lại có phạm vi nghiên cứu rộng nên luận văn không tránh khỏi có thiếu sót, tác giả mong nhận ý kiến phê bình đóng góp thầy bạn Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 82 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng TÀI LIỆU THAM KHẢO Tiếng Anh [TL1] Goetz Graefe, Query Evaluation Techniques for Large Databases, In ACM Computing Surveys, 1993, pp 1-12 [TL2] Yannis E Ioannidis, Query Optimization, In ACM Computing Surveys, 1996 [TL3] Chengkai Li Kevin, ChenChuan Chang, Ihab F Ilyas, Sumin Song, RankSQL: Query Algebra and Optimization for Relational Topk Queries, In Proceedings of the ACM SIGMOD Conference on Management of Data, 2005 [TL4] Surajit Chaudhuri, Luis Gravano, Evaluating Top-k Selection Queries, In Proceedings of the 25th International Conference on Very Large Data Bases, 1999 [TL5] Georgia Koutrika, Yannis Ioannidis, A Unified User Profile Framework for Query Disambiguation and Personalization, In Workshop on New Technologies for Personalized Information Access (PIA), 2005 [TL6] Werner Kießling, Gerhard Köstler; Preference SQL - Design, Implementation, Experiences, In Proceedings of Very Large Database Systems, 2001 [TL7] Ihab F Ilyas, Rank-aware query processing and optimization, Thesis Doctor of Philosophy, 2004 [TL8] Norbert Fuhr, Probabilistic Models in Information Retrieval, The Computer Journal, 1991 [TL9] Language models for information retrieval, Cambridge University Press (2006) Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội 83 Luận văn thạc sỹ khoa học: Truy vấn liệu hướng người dùng [TL10] Surajit Chaudhuri, Raghu Ramakrishnan, Gerhard Weikum (2005), Integrating DB and IR Technologies: What is the Sound of One Hand Clapping? , CIDR Conference 2005 [TL11] Georgia Koutrika , Yannis Ioannidis, Personalization of Queries Based on User Preferences, In Dagstuhl Seminar Proceedings: Preferences, 2004 [TL12] Mariam John, Ranking in Information Retrieval Systems, 2006 Lê Doãn Phước - Lớp Cao học CNTT 2004 - Đại học Bách Khoa Hà Nội ... gọi hệ truy vấn liệu hướng người dùng Cụ thể hệ truy vấn liệu hướng người dùng mà ta cần hướng tới cần có khả biểu diễn yêu cầu người dùng cách uyển chuyển nhằm cá thể hóa yêu cầu người dùng; ... lý truy vấn Top-K - hướng tiếp cận truy vấn hướng người dùng Luận văn sâu vào Preference SQL - hướng tiếp cận để biểu diễn câu truy vấn hướng người dùng 3.1 Quy trình xử lý câu truy vấn sở liệu. .. khoa học: Truy vấn liệu hướng người dùng Hình 3.1: Quy trình xử lý truy vấn sở liệu Trong quy trình xử lý truy vấn hình 3.1, yêu cầu truy vấn thường biểu diễn ngôn ngữ SQL hệ quản trị sở liệu quan