Vận dụng khả năng tìm kiếm của hệ thống truy vấn mở để xây dựng môdun tích hợp vào SQL server nhằm hỗ trợ cho hệ thống trả lời truy vấn luận văn thạc sĩ
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 84 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
84
Dung lượng
1,65 MB
Nội dung
LỜI CẢM ƠN Trước tiên, tôi thể hiện sự biết ơn sâu sắc đến cha mẹ tôi, những người đã nuôi nấng tôi nên người, là chỗ dựa tinh thần vững chắc để tôi tự tin bước vào đời. Kế tiếp, tôi xin gửi lời cảm ơn tới PGS.TS Đặng Trần Khánh, người đã cho tôi những ý tưởng quý báu, mới lạ, hướng dẫn tận tình và đầy lòng nhiệt huyết. Bên cạnh đó, tôi cũng chân thành cảm ơn chồng tôi, người luôn ủng hộ và tạo mọi điều kiện để tôi có thể hoàn thành chương trình học cũng như quá trình thực hiện luận văn. Cuối cùng là lời cảm ơn tới những người đồng nghiệp đã đóng góp cho tôi những ý kiến bổ ích để tôi hòan thiện luậnvăn này. MỤC LỤC LỜI CẢM ƠN 1 DANH MỤC CÁC HÌNH VẼ 6 CHƯƠNG 1: GIỚI THIỆU . 7 1. Lý do chọn đề tài: 1 2. Mục đích nghiên cứu: 3 3. Đối tượng và phạm vi nghiên cứu: 5 4. Phương pháp nghiên cứu: 5 CHƯƠNG 2: TỔNG QUAN VỀ CÁC HỆTHỐNGTRẢLỜITRUYVẤN LINH HOẠT 6 1. Một số nghiên cứu liên quan 6 1.1.Phân loại các mô hình truyvấnmờ . 6 1.2.Các giải pháp dựa trên nền tảng mờ (Fuzzy Based Solutions) . 8 1.3.Phương pháp lân cận gần nhất (Nearest Neighbors) . 8 2. Một số hệthốnghỗtrợkhảnăngtìmkiếm linh hoạt 11 2.1.ARES . 11 2.2.VAGUE . 13 2.3.VQS (Vague Query System) . 15 2.4.QBIC (Query By Image Content) . 15 3. Kết luận chương: 18 CHƯƠNG 3: HỆTHỐNGTRUYVẤNMỜ VQS (Vague Query System) 20 1. Giới thiệu: 20 2. Tìmkiếm tương tự dựa vào ngữ nghĩa: . 21 3. Các khái niệm cơ bản và kiến trúc tổng quan củahệthống VQS: 25 3.1.Các khái niệm cơ bản . 25 3.2.Ngôn ngữ truyvấnmờ VQL (Vague Query Language) . 30 3.3.Kiến trúc tổng quan củahệthống VQS 33 4.Hệ thốngthông tin bất động sản (Property Information System) 35 4.1. Truyvấnmờ và các chức năng cơ bản: 35 4.2. Truyvấnmờ trong hệthốngthông tin bất động sản: 37 4.3. Định nghĩa siêu thông tin ngữ nghĩa 41 4.4. Thực thi các truyvấnmờ 44 4.5. Các điều kiện thêm vào . 49 4.6. Việc thực hiện hệthống VQS: 50 4.7.Nhúng VQS vàohệthốngthông tin bất động sản 51 5. Xử lý kết nối mờ trong VQS: . 52 6. Tíchhợp thêm các điều kiện sắp xếp mờ: . 57 7. Kết luận . 62 CHƯƠNG 4: XÂYDỰNGHỆTHỐNGHỖTRỢTRẢLỜITRUYVẤN LINH HOẠT VÀOSQLSERVER . 63 1. Giới thiệu . 63 2. Một số tập lệnh SQL cơ bản dùngđểxâydựng VQS 63 2.1. Dạng chuẩn củatruyvấnSQL trong SQL Server: 63 2.2. Một số phép toán và hàm có sẵn đểxâydựng ngôn ngữ VQS . 64 2.3. Hàm do người dùng định nghĩa 64 2.4. Chuẩn bị dữ liệu hỗtrợcho việc tìmkiếm gần đúng 67 2.4.1.Các quan hệ và siêu dữ liệu 67 2.4.2.Khung nhìn . 68 2.5. Xâydựng ngôn ngữ truyvấnmờmở rộng 69 3. Thử nghiệm và đánh giá . 71 3.1. Các giao diện modun quản lý . 72 Hình 4.3 Giao diện quản lý siêu dữ liệu dành cho người quản trị . 73 3.2. Các giao diện thực thi ngôn ngữ VQS gốc 73 4. Kết luận chương 75 CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 76 1. Tổng kết . 76 2. Hướng nghiên cứu trong tương lai . 76 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CBIR DBMS ICA ISA FQAS MAM NCR SQL PIS VQL VQS RDBMSs IR FD Content-Based Image Retrieval DataBase Management System Incremental hyper-Cube Approach Incremental hyper-Sphere Approach Flexible Query Answering System Multidimensional Access Method Numeric Coordinate Representation Structured Query Language Property Information Systems Vague Query Language Vague Query System Relation Database Management Syterms Information Retrival Fuzzy Database Truytìm hình ảnh dựa vào nội dungHệ quản trị cơ sở dữ liệu Phương pháp mở rộng siêu khối Phương pháp mở rộng siêu cầu Hệthốngtrảlờitruyvấn linh hoạt Phướng pháp truy xuất đa chiều Biểu diễn tọa độ số Ngôn ngữ truyvấn cấu trúc Hệthốngthông tin bất động sản Ngôn ngữ truyvấnmờHệthốngtruyvấnmờ Cơ sở dữ liệu quan hệTruyvấnthông tin Cơ sở dữ liệu mờ DANH MỤC CÁC HÌNH VẼ Hình 2.1 Các kiểu truyvấn Nearest neighbor 10 Hình 2.2 Quan hệ không tương tự được định nghĩa trên thuộc tính Huong 11 Hình 2.3 Kiến trúc tổng quan của QBIC 17 Hình 3.1 Ví dụ bảng NCR về các tên màu . 27 Hình 3.2 Việc bình thường hóa sử dụng đường kính có ảnh hưởng . 29 Hình 3.3 Mô tả chính thức của ngôn ngữ VQL 31 Hình 3.4 Một ví dụ về sử dụng các bảng NCR . 32 Hình 3.5 Sơ đồ kiến trúc tổng quát củahệthống [4] 34 Hình 3.6 Mẫu dữ liệu bất động sản . 39 Hình 3.7 Khung nhìn được chuẩn bị cho ứng dụng VQS . 40 Hình 3.8 Các bảng NCR trong dữ liệu mẫu về hệthốngthông tin bất động sản 43 Hình 3.9 Minh họa về việc ánh xạ các bảng NCR đến các trường mờ . 44 Hình 3.10 Tập kết quả đã được sắp xếp củatruyvấn mẫu . 47 Hình 3.11 Tập kết quả đã được sắp xếp với độ ưu tiên về vị trí địa lý . 48 Hình 3.12 Tập kết quả được sắp xếp của một truyvấn với các điều kiện cố định. 50 Hình 3.13 PIS-VQL Adapter với các khảnăngtruyvấnmờ 52 Hình 3.14 Mô tả chính thức của ngôn ngữ VQL mở rộng 55 Hình 3.15: Cú pháp mở rộng ngôn ngữ truyvấn mờ. . 58 Hình 3.16 : Bảng 1 - thông tin KHACH_SAN . 60 Hình 3.17 Bảng 2 - Tập kết quả . 61 Hình 4.1 Các quan hệ và các bảng miêu tả tọa độ số . 68 Hình 4.2 Khung nhìn làm nguồn dữ liệu chính 69 Hình 4.4 Giao diện thực thi ngôn ngữ VQL . 73 Hình 4.5 Kết quả củatruyvấnmờ . 74 CHƯƠNG 1: GIỚI THIỆU 1. Lý do chọn đề tài: Trong suốt nhiều thập kỉ qua, mô hình cơ sở dữ liệu quan hệ đã chiếm lĩnh thị trường và rất thành công trong việc thỏa mãn phần lớn các yêu cầu của các ứng dụng. Thành công này có thể là do sự tinh tế, đơn giản củamô hình quan hệ và những ý tưởng phát triển như: các giao dịch, kiểm soát và khôi phục sự đồng bộ, cơ sở dữ liệu phân tán, đặc biệt là ngôn ngữ truyvấn cấu trúc SQL. Mặc dù thành công, nhưng các cơ sở dữ liệu ngày nay đang đối mặt với những thách thức mới trong giai đọan mà khoa học máy tính phát triển một cách nhanh chóng. Một trong những thách thức đang nổi lên trong thế giới thương mại là làm thế nào để việc xử lý những truyvấncủa người dùng không chỉ hiệu quả mà còn phải linh hoạt. Vì thực tế thì trong mô hình xử lý truyvấncủa các hệ quản trị cơ sở dữ liệu truyền thống (Relational Database Management Systems - RDBMSs) thường trả về một kết quả trùng khớp với truyvấncủa người dùng một cách tuyệt đối, điều này không đủ đáp ứng nhu cầu của người dùng và đặc biệt không có tính linh hoạt. Rõ nghĩa hơn là, khi dữ liệu có sẵn trong một cơ sở dữ liệu quan hệ mà không trùng khớp với những truyvấncủa người dùng một cách tuyệt đối thì hệthống quản trị cơ sở dữ liệu quan hệ sẽ trả về cho người dùng tập kết quả rỗng và do đó điều này làm hạn chế khảnăng ứng dụngcủa các hệ quản trị cơ sở dữ liệu truyền thống. Trong nhiều lĩnh vực ứng dụng, người dùng không chỉ mong muốn những kết quả chính xác một cách tuyệt đối theo truyvấn mà họ cũng muốn có những kết quả khác có liên quan hoặc gần đúng với yêu cầu củahọ trong một ý nghĩa nhất định[1] . Những ứng dụng này thường xuất hiện thực tế trên thế giới như xử lý hình ảnh, hệthống CAD/CAM, hệthốngthông tin địa lý, hệthốngthông tin du lịch, hệthốngthông tin thời gian, thư viện số, truyvấnthông tin hiện đại IR (modern Information Retrieval), thương mại điện tử và các ứng dụng khác. Lĩnh vực thương mại bất động sản là một trong những lĩnh vực kinh doanh “nóng bỏng nhất hiện nay ở Việt Nam” với nhu cầu mua, bán, cho thuê bất động sản thu hút sự quan tâm của nhiều người. Mặc dù có nhiều trang web đã cung cấp nhiều thông tin với công cụ hỗtrợtìm kiếm, nhưng đến nay vẫn chưa có một hệthốnghỗtrợtìmkiếm nào đáp ứng tốt được nhu cầu thông tin cho người dùng. Điều đó cho thấy cần phải có một sự đầu tư đúng mức trong việc xâydựng dịch vụ hỗtrợtìmkiếm thực sự hiệu quả, đồng thời thực tế cho nhu cầu hiện tại và tương lai. Bài tóan đặt ra: khi một khách hàng tìmkiếmthông tin của một sản phẩm: ví dụ tìmkiếmthông tin về bất động sản để mua một căn nhà diện tích 100m 2 , kích thước mặt tiền 5m hướng đông với giá 1.000đ thuộc khu vực Quận 2, người khách hàng này sẽ không tìm thấy trong hệthống quản lý cơ sở dữ liệu truyền thống nếu như không có căn nhà nào như vậy. Và khi đó, hệthống sẽ trả về một kết quả rỗng và dĩ nhiên người khách hàng cảm thấy hơi thất vọng. Trên thực tế thì người khách hàng này có lẽ chấp nhận một thông tin rằng có ít nhất một căn nhà có diện tích lớn hơn hoặc nhỏ hơn 100m 2 , hoặc giá bán lớn hơn hoặc nhỏ hơn 1.000đ, thậm chí cũng chấp nhận thông tin rằng căn nhà đó có địa chỉ không thuộc quận 2 mà thuộc quận khác. Để giải quyết bài tóan này, giải pháp là: biểu diễn lại các giá trị không phải là số trong cơ sở dữ liệu bằng các tọa độ số trong không gian đặc trưng và thông tin này được lưu trữ trong các bảng biểu diễn tọa độ số. Từ đó việc xác định độ tương tự về ngữ nghĩa được tính toán trên các bảng biểu diễn tọa độ số được dễ dàng và có độ chính xác cao, nhất là trong không gian dữ liệu nhiều đặc trưng, nhiều chiều. Đồng thời sử dụnghệthốnghỗtrợ trực tiếp khảnăngtruyvấnmờ VRC (Vague Retrieval Capabilities) đểxâydựng một hệthốnghỗtrợtìmkiếm một cách linh hoạt. Khi đó, một cơ sở dữ liệu hay hệthốngthông tin mà hỗtrợcho giải pháp này được gọi là hệthốngtrảlờitruyvấn linh họạt FQAS (Flexible Query Answering System). Từ thực tế, cụ thể là bài tóan đã nêu trên, chúng tôi thấy rằng trong hệthống thương mại điện tử ngày nay, hệthống FQAS trở nên ngày càng quan trọng. Bởi vì, những khách hàng chưa cần tiếp cận thực tế các mặt hàng (chẳng hạn xe hơi, quần áo, bất động sản, điện thoại .) , nhưng họ cần thấy thông tin của những hàng hóa bằng việc sử dụng máy tính trước khi quyết định mua/thuê chúng hay không. Nếu hệthống không hỗtrợ trực tiếp khảnăngtruyvấnmờ VRC thì người dùnghệthống buộc phải thử đi thử lại nhiều lần câu truyvấn cụ thể khác (với sự thay đổi nhỏ) cho đến khi họ có được dữ liệu thỏa đáng và nếu người dùng không có bất kỳ sự điều chỉnh nào về những câu truyvấncủahọ thì giải pháp này trở nên không khả thi [2]. Như vậy, kết quả là việc phát triển các hệthống FQASs sẽ mang đến những giải pháp đối với những vấnđề cần thiết và không thể thiếu được cho sự phát triển của khoa học máy tính. 2. Mục đích nghiên cứu: Dữ liệu được lưu trữ trong hệ quản trị cơ sở dữ liệu khá đa dạng, với dữ liệu đa chiều, nhiều đặc trưng. Việc xử lý thông tin từ nguồn dữ liệu này để đưa ra các kết quả đáp ứng nhu cầu tìmkiếm nhiều chiều của người sử dụng một cách linh hoạt là mục đích cần đặt ra.