BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN TRUY VẤN DỮ LIỆU HƯỚNG NGƯỜI DÙNG HOÀNG NGUYÊN HÙNG HÀ NỘI 2006 MỤC LỤC LỜI GIỚI THIỆU .Error! Bookmark not defined Chương I TỔNG QUAN VỀ HỆ THỐNG CƠ SỞ DỮ LIỆU HƯỚNG NGƯỜI DÙNG Error! Bookmark not defined 1.1 Giới thiệu .Error! Bookmark not defined 1.2 Biểu diễn ưa thích hệ thống sở liệu .Error! Bookmark not defined 1.3 Kỹ nghệ ưa thích Error! Bookmark not defined 1.3.1 Cấu trúc quy nạp ưa thích Error! Bookmark not defined 1.3.2 Các cấu trúc ưa thích sở Error! Bookmark not defined 1.3.2.1 Ưa thích sở phi số Error! Bookmark not defined 1.3.2.2 Ưa thích sở kiểu số Error! Bookmark not defined 1.3.3 Cấu trúc ưa thích phức tạp Error! Bookmark not defined 1.3.3.1 Cấu trúc ưa thích tích lũy .Error! Bookmark not defined 1.3.3.2 Cấu trúc ưa thích kết tập Error! Bookmark not defined 1.3.4 Phân cấp ưa thích Error! Bookmark not defined 1.4 Đại số ưa thích Error! Bookmark not defined 1.4.1 Tập luật đại số Error! Bookmark not defined 1.4.2 Phân tích ưa thích ưu tiên ưa thích Pareto Error! Bookmark not defined 1.5 Tổng kết chương Error! Bookmark not defined Chương II XỬ LÝ VÀ TỐI ƯU TRUY VẤN ƯA THÍCH QUAN HỆ .Error! Bookmark not defined 2.1 Giới thiệu .Error! Bookmark not defined 2.2 Đánh giá cho truy vấn ưa thích Error! Bookmark not defined 2.2.1 Truy vấn ưu thích mơ hình truy vấn BMO Error! Bookmark not defined 2.2.2 Phân tích truy vấn hợp rời giao Error! Bookmark not defined 2.2.3 Phân tích tích lũy ưu tiên Error! Bookmark not defined 2.2.4 Phân tích truy vấn tích lũy Pareto Error! Bookmark not defined 2.2.5 Hiệu phép lọc truy vấn Pareto Error! Bookmark not defined 2.3 Tối ưu truy vấn ưa thích quan hệ Error! Bookmark not defined 2.3.1 Đại số quan hệ ưa thích Error! Bookmark not defined 2.3.2 Ngữ nghĩa toán tử truy vấn ưa thích Error! Bookmark not defined 2.3.3 Vấn đề thiết kế kiến trúc .Error! Bookmark not defined 2.4 Các luật đại số quan hệ ưa thích Error! Bookmark not defined 2.4.1 Các luật chuyển đổi Error! Bookmark not defined 2.4.2 Tích hợp với tối ưu hóa truy vấn quan hệ .Error! Bookmark not defined 2.4.3 Các vấn đề cần nghiên cứu Error! Bookmark not defined 2.4.4 Tối ưu thứ tự phép kết nối Error! Bookmark not defined 2.5 Ứng dụng thực tế Error! Bookmark not defined 2.5.1 Tích hợp vào SQL XML Error! Bookmark not defined 2.5.2 Mơ hình truy vấn ranking Error! Bookmark not defined 2.6 Tổng kết chương Error! Bookmark not defined Chương III SQL HƯỚNG NGƯỜI DÙNG Error! Bookmark not defined 3.1 Thiết kế ngôn ngữ SQL hướng người dùng .Error! Bookmark not defined 3.1.1 Một mơ hình cho ưa thích Error! Bookmark not defined 3.1.2 Tổng quan ngôn ngữ SQL ưa thích Error! Bookmark not defined 3.1.2.1 Xây dựng loại ưa thích Error! Bookmark not defined 3.1.2.2 Tập hợp ưa thích phức hợp Error! Bookmark not defined 3.1.2.3 Giải thích câu trả lời Error! Bookmark not defined 3.1.2.4 Điều khiển đặc trưng Error! Bookmark not defined 3.1.2.5 Khối truy vấn SQL ưa thích Error! Bookmark not defined 3.2 Môi trường thực thi SQL ưa thích Error! Bookmark not defined 3.2.1 Tích hợp vào ứng dụng sẵn có Error! Bookmark not defined 3.2.2 Tối ưu SQL ưa thích Error! Bookmark not defined 3.3 Tổng kết chương Error! Bookmark not defined KẾT LUẬN VÀ ĐỊNH HƯỚNG TƯƠNG LAI Error! Bookmark not defined TÀI LIỆU THAM KHẢO .Error! Bookmark not defined PHỤ LỤC .Error! Bookmark not defined 1 LỜI GIỚI THIỆU Công nghệ thông tin trở nên quan trọng đời sống phần thiếu sống đại Thông tin điện tử ngày trở nên phong phú trải rộng hầu hết lính vực từ khoa học thương mại Do liệu trở nên đồ sộ việc khai thác nguồn thơng tin đứng trước tình trạng có nguy khó khăn Từ đặt thách thức cho cơng nghệ sở liệu, địi hỏi hệ sở liệu mạnh mẽ mơ hình công nghệ mềm dẻo cho phù hợp với yêu cầu người dùng Người dùng luôn mong ước có thơng tin cần thiết, thỏa mãn ước muốn họ đưa ra, điều đòi hỏi phải có mơ hình liệu gần gũi với người dùng, cụ thể hơn, yêu cầu có mơ hình liệu ưa thích mềm dẻo Các truy vấn ưa thích phải thoả mãn hợp tác ưa thích nghiên cứu ràng buộc khơng bắt buộc, cố gắng có phù hợp tốt thực yêu cầu Chúng ta đề xuất ngữ nghĩa thứ tự phận nghiêm ngặt cho ưa thích, có phù hợp gần gũi với trực quan người Sự đa dạng tự nhiên ưa thích phức tạp bao trùm mô hinh Chúng đưa cấu trúc quy nạp cho ưa thích phức hợp ý nghĩa cấu trúc ưa thích khác Mơ hình chìa khóa cho hướng nghiên cứu gọi kỹ nghệ ưa thích đại số ưa thích Mơ hình truy vấn phù hợp cho, thấy truy vấn phức tạp biến đổi truy vấn đơn giản Chúng tơi tin mơ hình thích hợp với cơng nghệ sở liệu mở rộng theo hướng hỗ trợ hiệu cho cá nhân hóa thơng tin Các cơng cụ tìm kiếm khơng phù hợp với sở thích phức tạp Vấn đề lớn máy tìm kiếm thực với SQL chuẩn SQL khơng có khả hiểu khái niệm ưa thích SQL ưa thích mở rộng SQL chuẩn mơ hình ưa thích dựa ràng buộc khơng bắt buộc, lúc truy vấn ưa thích xử ràng buộc lựa chọn mềm Lợi ích cơng nghệ SQL ưa thích bao gồm trả lời truy vấn đưa lời khuyên thông minh cho khách hàng, đầu thoả mãn yêu cầu từ người dùng mua bán trực tuyết mức cao thời gian phát triển ngắn máy tìm kiếm hướng người dùng cho người cung cấp dịch vụ điện tử Từ nhận định trên, tơi muốn trình bày cách rõ ràng vấn đề truy vấn ưa thích Để thực điều này, nghiên cứu tài liệu liên quan tổng kết lại hiều biết truy vấn hướng người dùng tập trung vào truy vấn ưa thích Tồn luận văn trình bày sau: Chương I: Trình bày tổng quan hệ sở liệu hướng người dùng, bao gồm giới thiệu ưa thích, biểu diễn mơ hình ưa thích chìa khóa kỹ nghệ ưa thích, phát triển đại số ưa thích trình bày số thuật tốn xử lý cho truy vấn ưa thích Chương II Nghiên cứu tối ưu hóa truy vấn ưa thích sở liệu quan hệ, bao gồm giới thiệu đại số quan hệ ưa thích thiết kế kiến trúc cho tối ưu truy vấn ưa thích, chương trình bày tối ưu đại số cho truy vấn ưa thích ứng dụng thực tế Chương III Trình bày SQL ưa thích: Bao gồm vấn đề thiết kế ngơn ngữ SQL ưa thích mơi trường thực thi SQL ưa thích Kết quả, Đây hướng cho công nghệ sở liệu hướng người dùng, nghiên cứu phần trợ giúp đắc lực cho nhà phát triển ứng dụng, hỗ trợ họ cho vấn đề định, cấu hình áp dụng ứng dụng sở liệu vào thực tiễn tốt hơn, làm cho ứng dụng ngày thân thiện với người dùng 3 Chương I TỔNG QUAN VỀ HỆ THỐNG CƠ SỞ DỮ LIỆU HƯỚNG NGƯỜI DÙNG 1.1 Giới thiệu Sự ưa thích diễn nơi sống hàng ngày Và gần đây, chúng ý nhiều đến kỹ nghệ phát triển phần mềm, điển hình ứng dụng nhiều ứng dụng dịch vụ điện tử hướng người dùng Do trở thành thách thức cho cơng nghệ sở liệu nhằm tương xứng với nhiều diện mạo phức tạp ưa thích Cá nhân hóa có nhiều khía cạnh khác nhau: Có giới thực, nơi người sử dụng mong muốn thỏa mãn không với tất Trong trường hợp người sử dụng lựa chọn bị hạn chế tới tập giới hạn trước lựa chọn phức tạp, ví dụ: cấu hình phần mềm tùy thuộc vào tiểu sử người dùng Cơ sở liệu truy vấn ngữ cảnh cá nhân hóa ràng buộc chặt chẽ, thực xác đối tượng mơ ước chúng có trường hợp khác từ chối yêu cầu người dùng Nhưng giới thực, nơi mà ưa thích cá nhân có khác Như ưa thích hiểu ước muốn: ước tự do, tất chúng thỏa mãn Trong trường hợp khơng có thoản mãn đầy đủ mong muốn người, thường xuyên chuẩn bị chấp nhận thay đổi tồi tệ vượt qua thỏa hiệp Do ưa thích giới thực u cầu thay đổi mơ hình từ yêu cầu phải xác phù hợp nhất, ví dụ: ưa thích xem ràng buộc không bắt buộc Xa nữa, ưa thích giới thực khơng thề bị xem khơng đáng mong đợi Thay có nhiều tình giải cho mong đợi khác phức tạp, ví dụ: e-shopping, nơi mà khách hàng người bán hàng có sở hữu riêng họ, ưa thích bị xung đột Vai trị tỏa khắp cá nhân hóa xem xét đến ngơn ngữ truy vấn sở liệu hai giới Nhưng ngược lại để có phù hợp nghiên cứu sở liệu ngữ cảnh Web vấn đề lớn, vấn đề đầu nghiên cứu cơng nghệ (ví dụ: SQL, E/R- modeling, XML), mơ hình xu ưa thích lựa chọn giới thực ẩn chứa bên Chúng ta khảo sát trạng thái không thoả mãn mưu mẹo nhìn vào máy tìm kiếm sở dựa SQL e-shop, thấy khơng thể có tương thích với mong ước người dùng giới thực: Tất thường khơng có trả lời đáng trả lại từ tìm kiếm cho phù hợp với mong muốn tốt người dùng Phổ biến, có bắt gặp câu trả lời trước nghe câu giống “khơng có khách sạn, xe, chuyến bay, v v tìm thấy câu trả lời phù hợp hơn; xin vui lòng thử lại với lựa chọn khác” Trong trường hợp nhận kết trả lời rỗng gây nên thất vọng cho người dùng, làm thiệt hại nhiều cho người bán hàng Lệnh cho người dùng rời bỏ số điều kiện yêu cầu không mong đợi thường gây nên thất vọng: Một lượng tải với nhiều thông tin vào Sẽ có đến gần với nhiều thiếu hụt, đáng ý ngữ cảnh hệ thống sở liệu hoạt động Có cơng nghệ truy vấn linh động nghiên cứu nhằm giải vấn đề trả kết rỗng, Đã trải qua nhiều thập kỷ sử dụng ưa thích nhằm giải vấn đề lớn khoa học kinh tế xã hội, điển hình tính định thao tác tìm kiếm, học máy khai phá tri thức vấn đề tương lai nơi mà ưa thích lựa chọn để giải Mỗi tiếp cận nghiên cứu khám phá số thách thức đặt ưa thích Tuy nhiên, giải pháp tổng quát mà làm tảng dẫn đường cho ổn thỏa tích hợp hiệu ưa thích với cơng nghệ sở liệu mà không nêu Tôi nghĩ mô hình ưa thích làm cho hệ thống sở liệu nên đạt mong muốn đây: (1) Ngữ nghĩa trực quan: Sự ưa thích phải trở thành quan tâm xử lý mơ hình Điều địi hỏi cách trực quan giải thích rõ ràng ưa thích Mơ hình ưa thích nên bao gồm biểu diễn phi số phương pháp phân hạng (2) Nền tảng toán học ngắn gọn: Yêu cầu đưa tất yếu, tảng toán học phải cân ngữ nghĩa trực quan (3) Xây dựng mở rộng mơ hình ưa thích: ưa thích đầy đủ nên xây dựng quy nạp từ vấn đề đơn giản sử dụng thông tin mở rộng cấu trúc ưa thích (4) Các xung đột ưa thích phải khơng ngun nhân làm cho hệ thống bị lỗi: kết cấu động ưa thích phức tạp phải hỗ trợ có mặt xung đột Mơ hình ưa thích thực nên tồn với xung đột, không ngăn chặn chúng gây lỗi chúng xẩy (5) Xây dựng ngôn ngữ truy vấn ưa thích: Sự phù hợp giới thực làm cầu nối mong muốn tin cậy Sự thể cần thiết cho mơ hình truy vấn khác phù hợp với mơ hình ngơn ngữ truy vấn sở liệu có trước 1.2 Biểu diễn ưa thích hệ thống sở liệu Sự ưa thích giới thực thể nhiều dạng khác người có thơng tin đối tượng Chúng ta làm kiểm tra biểu lộ tự nhiên người ước muốn vấn đề Hãy thử khám phá sống hàng ngày với phong phú ưa thích đến từ cảm nhận ảnh hưởng khác Trong giới thực này, trả lại cách nhanh chóng mong muốn thường xun xẩy ra, “tơi thích A B” Loại ưa thích phổ biến trực quan cho người Sự thật là, đứa trẻ học điều từ chúng nhỏ Nghĩ đến ưa thích có nghĩa mong muốn “tốt hơn”, điều có chút liên quan đến tốn học: Tốn học ánh xạ chúng vào thành thứ tự phận chặt Con người thường xuyên đề cấp đến vấn đề ưa thích, thơng thường với khơng diễn tả phạm vi số cụ thể Nhưng có phần khác sống giới thực với ngun thủy có dính líu với tiết kiệm chi phí công nghệ đưa ra, nơi mà số quan trọng Một cách dễ hiểu xếp hạng số được xem phần ưa thích Do mơ hình ưa thích ràng buộc khơng trọn vẹn có lời hứa, điều chứng tỏ nhiều ngành khoa học khác nhau, đặc biệt khoa học máy tính mơn học Sự ưa thích trình bày rõ ràng cụ thể dựa tập thuộc tính định danh với miền quan hệ giá trị, theo cách nói ẩn dụ “thuộc ước muốn” Khi kết hợp ưa thích P1 P2, nói P1 P2 chồng chéo lên thuộc tính chúng, cho phép nhiều ưa thích tồn dựa thuộc tính Sự phổ biến nên quan tâm đến thiết kế hệ thống, xẩy xung đột ưa thích phải cho phép thử nghiệm xem lỗi Cho tập không rỗng A = ({A1, A2, , Ak}) tên thuộc tính Ai có quan hệ với miền giá trị dom(Ai) Xem xét theo thứ tự thành phần tích Đề khơng quan trọng, có: Dom(A) = dom({A1, A2, , Ak}) := dom(A1) x dom(A2) x x dom(Ak) Chú ý định nghĩa bao gồm điều kiện sau đây: Nếu B = {A1, A2} C = {A2, A3}, dom(B ∪ C) = dom({A1, A2} ∪ {A2, A3}) = dom(A1) × dom(A2) × dom(A3) Định nghĩa Sự ưa thích P = (A,