Trả lời các truy vấn không tường minh sử dụng các phụ thuộc hàm xấp xỉ và các tương tự khái niệm

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	83
Dung lượng	0,91 MB

Nội dung

Trả lời các truy vấn không tường minh sử dụng các phụ thuộc hàm xấp xỉ và các tương tự khái niệm Trả lời các truy vấn không tường minh sử dụng các phụ thuộc hàm xấp xỉ và các tương tự khái niệm Trả lời các truy vấn không tường minh sử dụng các phụ thuộc hàm xấp xỉ và các tương tự khái niệm luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

LƯƠNG THỊ HỒNG LAN BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC SƯ PHẠM KĨ THUẬT NGÀNH:SU PHẠM KĨ THUẬT TRẢ LỜI CÁC TRUY VẤN KHÔNG TƯỜNG MINH SỬ DỤNG CÁC PHỤ THUỘC HÀM XẤP XỈ VÀ CÁC TƯƠNG TỰ KHÁI NIỆM LƯƠNG THỊ HỒNG LAN 2005 - 2007 Hà Nội 2007 HÀ NỘI 2007 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC TRẢ LỜI CÁC TRUY VẤN KHÔNG TƯỜNG MINH SỬ DỤNG CÁC PHỤ THUỘC HÀM XẤP XỈ VÀ CÁC TƯƠNG TỰ KHÁI NIỆM NGÀNH: SƯ PHẠM KĨ THUẬT LƯƠNG THỊ HỒNG LAN Người hướng dẫn khoa học: TS NGUYỄN KIM ANH HÀ NỘI 2007 Mục lục Mở đầu .5 Chương Tổng quan truy vấn không tường minh 1.1 Truy vấn khơng tường minh gì? 1.2 Bài toán đặt 10 1.3 Các công việc liên quan đến việc hỗ trợ trả lời truy vấn không tường minh .12 1.4 Nới lỏng điều kiện truy vấn 23 1.5 Kết luận .28 Chương Tính toán phụ thuộc hàm xấp xỉ 2.1 Phụ thuộc hàm phụ thuộc hàm xấp xỉ 30 2.2 Tính tốn phân hoạch phụ thuộc 33 2.3 Lược bớt phụ thuộc 40 2.4 Tính tốn phụ thuộc hàm xấp xỉ .43 2.5 Đánh giá 51 2.6 Kết luận 53 Chương Trả lời truy vấn không tường minh 3.1 Nới lỏng truy vấn sử dụng phụ thuộc hàm xấp xỉ 3.2 Nghiên cứu tương tự khái niệm 54 58 3.3 Trả lời truy vấn không tường minh 63 3.4 Đánh giá so sánh 67 3.5 Kết luận .75 Kết luận hướng phát triển Tài liệu tham khảo 76 78 Các thuật ngữ viết tắt luận văn AFD (Approximate functional dependence): Phụ thuộc hàm xấp xỉ EIM (Enterprise Information Management): Trình quản lý thơng tin doanh nghiệp IM (Intelligent Mediator): Bộ điều khiển thông minh IR (Information Retrieval): Tìm kiếm thơng tin PIM (Personal Information Management): Trình quản lý thông tin cá nhân WWW (World Wide Web): Mạng toàn cầu MỞ ĐẦU Trong năm gần đây, sở phát triển ứng dụng công nghệ Internet, khối lượng liệu máy tính tăng trưởng không ngừng theo hai phương diện tạo thu thập Sự mở rộng liệu khoa học địa lý, địa chất, khí tượng vệ tinh thu thập, giới thiệu quảng bá mã vạch hầu hết sản phẩm thương mại, việc tin học hoá sâu rộng thương vụ giao dịch, phát triển việc ứng dụng CNTT quản lý hành nhà nước phát sinh khối lượng liệu khổng lồ Mặt khác, bối cảnh tảng cho xã hội thông tin, nhu cầu nhận thơng tin cách nhanh chóng, xác nhu cầu thu nhận "tri thức" từ khối lượng thơng tin khổng lồ nói trở nên cấp thiết Bối cảnh địi hỏi phương pháp tiếp cận mà điển hình phương pháp thuộc lĩnh vực khai phá liệu khám phá tri thức sở liệu Trong xu tăng trưởng không ngừng nguồn liệu, thông qua phát triển công nghệ Web, dạng liệu phi cấu trúc nửa cấu trúc (điển hình hệ thống trang web Internet) tăng trưởng theo tốc độ nhảy vọt Đây dạng liệu gần với người, mà qua chúng người mong muốn lưu trữ thơng tin, tri thức chuyển tải cho nhiều người khác Trong năm gần WWW trở thành kênh thông tin quan trọng cho việc phân tán thông tin cá nhân, khoa học thương mại Một lý việc WWW phát triển nhanh chóng giá cho việc tạo xuất trang web rẻ So sánh với phương pháp khác sản xuất tờ rơi hay quảng cáo báo tạp chí trang web rẻ nhiều lại cập nhật thường xuyên đến hàng tỷ người sử dụng, mà cơng ty nhỏ có khả đưa sản phẩm dịch vụ họ lên WWW Hơn có nhiều công ty hoạt động bán hàng trực tuyến Internet, mà nhu cầu đưa thơng tin lên WWW hoàn toàn tự nhiên Nhưng với việc tăng khơng ngừng site việc tìm trang hay chí site mà cá nhân cần lại thực vấn đề ngày khó khăn Các mơ hình xử lí truy vấn sở liệu giả thiết người dùng biết muốn cơng thức hóa câu truy vấn cho biểu thị đắn ý muốn cô Nhưng với tốc độ phát triển nhanh chóng mạng WWW, số lượng lớn sở liệu sở liệu khoa học, lịch sử…đang ngày trở nên dễ tiếp cận để làm hài lòng đòi hỏi người dùng Thường người sử dụng khơng biết cách diễn tả xác mà họ cần cơng thức hóa câu truy vấn nên dẫn tới kết trả lời khơng thỏa mãn yêu cầu họ Mặc dù người sử dụng để diễn tả câu hỏi họ câu trả lời tập hỗn loạn kết có mức độ tương đương khác tới câu truy vấn chúng đưa liệu liên quan tới chúng Do đó, mơ hình xử lí câu truy vấn sở liệu phải bao quát khái niệm hệ thống IR cho người dùng cần có ý tưởng mờ thứ cần cơng thức hóa câu truy vấn nói lên thứ cần thích tạo tập hợp xếp hạng câu trả lời Sự dịch chuyển mơ hình cần phải có trợ giúp câu truy vấn không tường minh Điều đề cập tới vài nghiên cứu sở liệu gần Trong luận văn giới thiệu cách tiếp cận qua việc khai thác phụ thuộc hàm xấp xỉ tương tự khái niệm để hỗ trợ trả lời cho truy vấn mờ, truy vấn không tường minh thông qua sở liệu web Chúng tơi sử dụng ví dụ minh hoạ để giới thiệu cách tổng quan hướng tiếp cận Ví dụ: Giả thiết người sử dụng muốn tìm kiếm tơ có giá khoảng 10000$ sở liệu ô tô, CarDB (Make, Model, Year, Price, Location) Dựa lược đồ sở liệu người dùng đưa câu truy vấn sau: Q: - CarDB(Model = Camry, Price < 10000) Dựa việc nhận câu truy vấn, CarDB cung cấp danh sách Camry mà có giá 10000$ Tuy nhiên giới thiệu Accord tơ giống tương tự, người dùng quan tâm xem ln tất Accord có giá 10000$ Người dùng thích Camry giá 10500$ Trong ví dụ trên, mơ hình xử lí câu truy vấn CarDB sử dụng không gợi ý Accord hay Camry có giá cao câu trả lời quan tâm người dùng không đặc biệt hỏi chúng câu truy vấn họ Điều buộc người dùng vào vòng quay chán ngắt việc đưa câu hỏi lặp lặp lại cho tất mơ hình tương tự trước người dùng nhận câu trả lời thỏa mãn Một cách để tự động hóa điều cung cấp cho xử lý câu truy vấn thơng tin mơ hình tương tự ( ví dụ nói Accord có độ tương tự 0.9 với Camry) Trong cách tiếp cận thử nghiệm, nhược điểm họ có thu nhận độ đo tương tự chuyên biệt miền – vấn đề mà gây khó chịu tăng thêm sở liệu truy cập công cộng Đây động lực cho cách tiếp cận tiếp cận chúng tôi: chuyển trọng tâm việc cung cấp giá trị hàm tương tự yêu cầu thuộc tính tới người dùng, đưa hướng tiếp cận chuyên biệt miền để rút tự động xếp hạng hiệu liệu thoả mãn câu truy vấn không tường minh thông qua sở liệu web Đặc biệt, ý tới việc khám phá ngữ nghĩa vốn giới thiệu (như chúng đại diện cho đối tượng giới thực) cấu trúc mối quan hệ dự kiến sở liệu Chúng không tập trung đưa người khỏi vòng quay, để để giảm bớt đáng kể số lượng đầu vào người dùng phải cung cấp câu trả lời thỏa mãn Đặc biệt muốn kiểm tra thỏa mãn yêu cầu người dùng tới mức sử dụng thông tin sở liệu: tạo mơ hình khái niệm tương tự người dùng gần gũi sử dụng thơng tin sẵn có sở liệu? Với mục tiêu khai phá phụ thuộc hàm xấp xỉ khái niệm tương tự để hỗ trợ trả lời cho truy vấn không tường minh, nội dung luận văn định hướng vào vấn đề sau: - Tìm hiểu truy vấn mờ, truy vấn không tường minh - Tìm hiểu phụ thuộc hàm xấp xỉ thuộc tính, nới lỏng điều kiện truy vấn dựa phụ thuộc hàm xấp xỉ - Tìm hiểu khái niệm tương tự, từ đưa cách tiếp cận để đánh giá cách tự động khoảng cách ngữ nghĩa giá trị thuộc tính - Đưa khung xử lý truy vấn có tích hợp kỹ thuật cho phép chiết xuất thông tin nghiên cứu sở liệu, từ xác định cách hiệu câu trả lời cho truy vấn không tường minh Do đó, luận văn có bố cục sau: Chương với tiêu đề Tổng quan truy vấn không tường minh giới thiệu sơ khái niệm truy vấn tường minh, truy vấn không tường minh, cách tiếp cận nới lỏng điều kiện truy vấn Chương với tiêu đề Tính tốn phụ thuộc hàm xấp xỉ Nội dung chương tìm hiểu phụ thuộc hàm, phụ thuộc hàm xấp xỉ phương pháp để tính tốn phụ thuộc hàm xấp xỉ thuộc tính Chương Trả lời truy vấn không tường minh Chương giới thiệu cách tiếp cận để trả lời cho truy vấn không tường minh, sử dụng phụ thuộc hàm xấp xỉ để nới lỏng điều kiện truy vấn, tìm hiểu tương tự khái niệm sử dụng chúng để hỗ trợ trả lời cho truy vấn không tường minh Phần kết luận tổng hợp kết nghiên cứu luận văn, số hạn chế chưa hoàn thiện cài đặt thực Đồng thời luận văn đề xuất số hướng nghiên cứu cụ thể tác giả luận văn Qua đây, xin gửi lời cảm ơn đến cô giáo TS Nguyễn Kim Anh, người giúp đỡ tơi nhiều q trình làm luận văn đồng thời xin cảm ơn gia đình đồng nghiệp động viên, giúp đỡ để tơi hồn thành luận văn Chương Tổng quan truy vấn không tường minh 1.1 Truy vấn khơng tường minh gì? Truy vấn tường minh: truy vấn người dùng yêu cầu liệu thỏa mãn xác ràng buộc truy vấn Ví dụ truy vấn Q:- CarDB(Make = “Ford”) truy vấn tường minh, tất liệu kết phải có thuộc tính “Make” có giá trị “Ford” Truy vấn khơng tường minh: truy vấn người dùng mà yêu cầu phù hợp gần xác khơng thiết phải xác với ràng buộc truy vấn Các câu trả lời cho truy vấn không tường minh phải xếp hạng theo mức độ gần gũi/ tương tự với ràng buộc truy vấn Ví dụ truy vấn Q:- CarDB (Make like “Ford”) truy vấn khơng tường minh, câu trả lời phải có thuộc tính “Make” giới hạn giá trị tương đương với “Ford” Như truy vấn không tường minh truy vấn có ràng buộc truy vấn mềm dẻo so với truy vấn tường minh có u cầu đối sánh tương tự khơng yêu cầu phải xác truy vấn tường minh Cho nên câu truy vấn không tường minh chuyển đổi sang truy vấn tường minh việc siết chặt quan hệ ràng buộc truy vấn Ví dụ như, siết chặt quan hệ “like” thành “equal-to” truy vấn không tường minh cho truy vấn tường minh “Make = Ford” 67 ô tô tương tự có chứa “Accord” cho người dùng có giá trị Price Year tương tự với Abs Như Make = “Honda”, Model = “Accord”, Price = “9,8k”, Year = “2000” xem tương tự với Abs, câu trả lời cho truy vấn Q Chúng ta Camry khác có Price Year khác chút so với Price Year Abs Một cách cụ thể, tất carDB mà có nhiều giá trị gần với số Abss, dưcợ xem câu trả lời tièm cho truy vấn Q Bằng cách trích liệu có độ tương tự ngưỡng cho trước Tsim với Ans, sở liệu thể có tập lớn câu trả lời tiềm gọi tập mở rộng Aes Nhưng để trích thêm vào, yêu cầu truy vấn Chúng ta xác định nữhng truy vấn cách xem xét tập sở Aba truy vấn chọn nới lỏng Tuy nhiên, việc nhặt cách ngẫu nhiên thuộc tính để nới lỏng sinh nhiều với khả thích hợp thấp Trên lý thuyết, gần với tập sở có khác thuộc tính mà ảnh hưởng tới giá trị thuộc tính khác Các phụ thuộc hàm xấp xỉ cho biết mối quan hệ thuộc tính quan hệ sử dụng để xác định mức độ ảnh hưởng thay đổi giá trị thuộc tính đến thuộc tính khác Vì tìm phụ thuộc hàm xấp xỉ thuộc tính quan hệ sử dụng chúng để xác định trình nới lỏng Quá trinh nới lỏng bao gồm việc trích cách xác định thực thi truy vấn nới lỏng thu cách giảm ràng buộc truy vấn có 68 Xác định câu trả lời liên quan chấp nhận giải phần vấn đề, phải xếp hạng liệu theo thứ tự chúng so với gốc Chúng ta giả sử ngưỡng cho độ tương tự Tsim có sẵn câu trả lời nằm ngưỡng Tsim cung cấp cho người dùng Ngưỡng cung cấp người dùng định hệ thống Như phần 3.2 nói, độ tương tự ước lượng tổng trọng số độ tương tự thuộc tính khác quan hệ Đó n Sim(t1 , t ) = ∑ Sim(t1 ( Ai ), t ( Ai )) × Wi i =1 Trong attributes(R)= n ∑Wi = giả sử thuộc tính có giá trị số rời rạc giá trị ràng buộc rõ ràng Chúng giả sử độ đo khoảng cách Euclidean cho biết độ tương tự ngữ nghĩa giá trị số Nhưng khơng có số đo phổ biến có để đo khoảng cách ngữ nghĩa giá trị ràng buộc thuộc tính vơ điều kiện Trong ước lượng độ tương tự giá trị rõ ràng vấn đề quan trọng vấn đề quan trọng tương đương việc gán trọng số cho độ tương tự thuộc tính khác Người dùng trơng đợi để gán trọng số sử dụng cho độ tương tự thuộc tính cụ thể Tuy nhiên người dùng lúc ánh xạ độ quan trọng họ gán tới thuộc tính vào trọng số tốt Vì vậy, sau xác định thứ tự thuộc tính cho việc nới lỏng truy vấn, gán cách tự động trọng số độ quan trọng cho thuộc tính dựa thứ tự chúng, nghĩa thuộc tính nới lỏng trước tiên quan trọng nhận trọng số thấp 69 3.4 Đánh giá so sánh Để đánh giá hiệu cách tiếp cận việc trả lời truy vấn không tường minh, tham chiếu tới demo kiến trúc AIMQ (hình 3.4) nhóm Ullas Nambiar Subbareo Kambhampati trường Đại học bang Arizona, Hoa Kỳ thử nghiệm đưa kết Đây mơ hình hệ thống sở liệu web mở rộng hỗ trợ truy vấn không tường minh Mặc dù chọn sở liệu web để giải thích cho hệ thống, hướng tiếp cận phù hợp với liệu có cấu trúc mà truy cập Internet Chúng ta bắt đầu với sở liệu web có sẵn chấp nhận truy vấn tường minh thông qua giao diện mẫu Mô tả từ giao diện mẫu tới lược đồ sở liệu thực xem xét truy vấn tường minh sở liệu Kiến trúc có thành phần sau: - Data Colector: thăm dò sở liệu để rút tập mẫu sở liệu - Dependency Miner khai phá AFDs khóa xấp xỉ từ liệu thăm dò sử dụng chúng để xác định thứ tự phụ thuộc quan trọng độc lập thuộc tính Thứ tự Query Engine sử dụng hiệu trình làm giảm nhẹ truy vấn Similarity Miner sử dụng để gán trọng số cho độ tương tự trình xếp hạng - Query Engine: chuyển đổi truy vấn không tường minh thành truy vấn tường minh tương đương Nếu sở liệu khơng thấy có truy vấn khơng tường minh xuất workload, SimQuery Engine xác định truy vấn gần với truy vấn tường minh Sau xác định câu truy vấn tường minh liên quan, rút kết đưa danh sách liệu xếp hạng truy vấn không tường minh 70 Tất liệu trả lời truy vấn tường minh thừa kế giống truy vấn Similarity Miner, tính tốn độ tương tự cặp truy vấn log truy vấn Như hình 3.3, máy Content Similarity Estimator bắt đầu việc rút truy vấn xuất rên workload với tần số ngưỡng cho trước Nếu kết truy vấn không cụ thể hóa phần workload, Similarity Estimator thăm dò sở liệu để rút cụ thể hóa kết Sau tập kết phân tích để rút từ khóa xuất thường xun thuộc tính tập kết Đối với truy vấn rút workload tài liệu tương ứng túi từ khóa tạo Độ tương tự hai truy vấn ước lượng độ tương tự liệu tài liệu tương ứng H ì 71 nh 3.4 Kiến trúc AIMQ Demo thực mẫu sử dụng hệ sở liệu tìm kiếm tơ mà chấp nhận truy vấn không tường minh quan hệ CarDB(Make, Model, Year, Price, Mileage, Location, Color) Cơ sở liệu cài đặt sử dụng sở liệu quan hệ mã mở MySQL Họ tạo lập quan hệ CarDB sử dụng 30000 trích từ Yahoo Auto- sở liệu sử dụng truy nhập công cộng Hệ thống đặt Linux Celeron- 2.2 GHz 512 MB RAM Minh họa kiến trúc AIMQ tập trung vào khía cạnh sau: 3.4.1 Ước lượng độ tương tự Các thuộc tính Make, Model, Location, Color sở liệu CarDB xác định thực tế chứa 132, 1181, 325 100 giá trị khác Trong mục 3.2 đưa cách tính tốn độ tương tự khái niệm cho thuộc tính Thời gian để ước lượng độ tương tự khái niệm lớn (xem bảng hình 3.4), phải so sánh khái niệm với khái niệm lại mà gắn với thuộc tính Bước thuật tốn Thời gian Kích thước Sinh siêu 181s 11MB Tính tốn độ tương tự 1.5h 6MB Hình 3.5 Thời gian tính dung lượng sử dụng Chúng ta tính tốn độ tương tự doc-doc cặp khái niệm Ước lượng độ tương tự khái niệm bước tiền xử lí làm 72 cách riêng rẽ, đòi hỏi thời gian xử lí lớn q trình lờ Hình 3.5 cung cấp mơ tả đồ họa độ tương tự ngữ nghĩa ước lượng số giá trị gắn với thuộc tính Make Khái niệm make = “Ford” Make = “Chenolet” cho thấy độ tương tự cao khái niệm Make = “Toyota” Make = “Honda” khái niệm Make = “BMW” không nối với nốt đồ thị Chúng ta tìm kết mà mặt trực quan hợp lí cảm thấy phương pháp xác định cách hiệu khoảng cách ngữ nghĩa khái niệm Những độ tương tự khái niệm đữ ước lượng kiểm chứng nghiên cứu người dùng phương pháp xác nhận có độ xác 75% Hình 3.6 Đồ thị tương tự khái niệm cho thuộc tính Make 3.4.2 Nới lỏng truy vấn hiệu Để xác minh hiệu kĩ thuật nới lỏng truy vấn mà đưa mục 3.1, Ullas Nambiar Subbareo Kambhampati thực 73 kịch kiểm tra sử dụng sở liệu CarDB tập hợp gồm 10 nhặt ngẫu nhiên Với mục tiêu trích 20 từ CarDB mà có độ tương tự số ngưỡng Tsim (0.5 < Tsim < 1) Họ thiết kế hai giải thuật GuidedRelax (nới lỏng định hướng) RandomRelax (Nới lỏng ngẫu nhiên) để tạo truy vấn chọn việc nới lỏng tập khởi tạo Guided sử dụng AFDs khóa xấp xỉ thực phương pháp nới lỏng mô tả giải thuật Giải thuật RandomRelax thiết kế để mức độ bắt chước q trình ngẫu nhiên mà theo người dùng nới lỏng truy vấn Giải thuật nhận dạng cách ngẫu nhiên tập hợp thuộc tính để nới lỏng tạo truy vấn Họ đặt giới hạn 64 cho số lượng truy vấn đưa hai giải thuật để trích 20 kết cho từ tập khởi tạo Để đo hiệu giải thuật sử dụng độ đo gọi làm việc thích hợp (work/relevant tuple) định nghĩa là: Work / RelevantTuple = TExtracted TRelevant Trong TExtracted tổng số trích TRelevant số trích mà xem thích hợp Một cách cụ thể Bộ làm việc/ thích hợp đại lượng (số đo) số lượng trung bình mà người dùng phải tìm kiếm trước tìm thấy thích hợp Các cho độ tương tự mức ngưỡng Tsim xem thích hợp Độ tương tự giữ hai ước lượng tổng trọng số độ tương tự ngữ nghĩa thuộc tính Trọng số gán độ tương tự tất thuộc tính 74 Đồ thị hình 3.7 hình 3.8 số trung bình phải trích giải thuật GuidedRelax RandomRelax tương ứng để xác định thích hợp cho truy vấn Một cách trực quan độ tương tự mong muốn lớn, lượng cơng việc địi hỏi để xác định thích hợp lớn Trong hai giải thuật tuân theo trực quan này, cần lưu ý với ngưỡng cao hon giải thuật RandomRelax kết thúc việc trích hàng trăm trước tìm thấy thích hợp GuidedRelax co giãn 75 Hình 3.7 Bộ làm việc thích hợp sử dụng GuidedRelax Hình 3.8 Bộ làm việc thích hợp sử dụng RandomRelax 76 nhiều với thay đổi ngưỡng nói chúng phải trích khoảng cho thích hợp Như sử dụng giải thuật GuidedRelax người dùng phải tìm nhiều số trước nhận kết thích hợp 3.4.3 So sánh với hướng nghiên cứu khác Các phương pháp trước để nhận kết cho truy vấn không tường minh dựa định lý tập mờ Các hệ thống thông tin mờ [5] lưu thuộc tính với giá trị mờ cho phép lấy lại chúng với ngôn ngữ truy vấn mờ Ngôn ngữ WHIRL [15] cung cấp kết xấp xỉ việc chuyển đổi gía trị thuộc tính sở liệu thành vector văn xếp hạng chúng sử dụng mơ hình khơng gian vector Trong [1], Motro mở rộng hệ thống sở liệu quy ước việc thêm toán tử similarto (tương tự với) mà sử dụng độ đo khoảng cách giá trị thuộc tính để làm sáng tỏ truy vấn mơ hồ Các độ đo khoảng cách yêu cầu toán tử similar-to phải cung cấp người thiết kế sở liệu Binderrberger [7] khám phá phương pháp mở rộng sở liệu để hỗ trợ việc tìm kiếm tương tự tinh chế (làm mịn) truy vấn kiểu liệu trừu tượng Trong [8] tác giả đề nghị đưa kết xếp hạng cho truy vấn sở Web yêu cầu người dùng cung cấp hướng dẫn bổ sung để định độ tương tự Tuy nhiên phương pháp khơng thể áp dụng với sở liệu có chúng địi hỏi số lượng thông tin xác định miền lớn mà phải ước lượng trước đưa người dùng truy vấn Thêm [7] đòi hỏi thay đổi mơ hình liệu toán tử sở liệu [8] địi hỏi sở liệu mơ tả dạng đồ thị Khác với phương pháp trên, giải pháp đề nghị đưa kết xếp hạng mà tổ chức lại sở liệu nằm phía 77 thực dễ dàng với sở liệu Trong phương pháp chúng tôi, giả sử tập sở liên quan đến truy vấn không tường minh tạo truy vấn Kĩ thuật mà sử dụng tương tự kĩ thuật phản hồi giả thích hợp sử dụng hệ thống IR Phản hồi giả thích hợp bao gồm việc sử dụng k tài liệu nhận để tạo truy vấn nhằm trích thêm kết trả lời thích hợp với câu truy vấn 3.5 Kết luận Tại chương trình bày hướng giải toán đặt chương Các kết tính tốn phụ thuộc hàm xấp xỉ chương giúp xác định thứ tự thuộc tính cho việc nới lỏng điều kiện truy vấn Chúng ta gán cách tự động trọng số độ quan trọng cho thuộc tính dựa thứ tự chúng, nghĩa thuộc tính nới lỏng trước tiên quan trọng nhận trọng số thấp Sau ta sử dụng độ tương tự khái niệm để đo tương tự trả lời cho truy vấn Từ lược bớt nằm ngưỡng cho phép trả tập trả lời xếp hạng Cuối để minh hoạ cho cách tiếp cận chúng tôi, tham chiếu tới kiến trúc AIMQ hỗ trợ trả lời truy vấn khơng tường minh do nhóm Ullas Nambiar Subbareo Kambhampati trường Đại học bang Arizona, Hoa Kỳ thử nghiệm đưa kết để khẳng định lại hiệu việc nới lỏng truy vấn việc ước lượng độ tương tự 78 Kết luận hướng phát triển Trong luận văn này, đưa giải pháp để hỗ trợ trả lời truy vấn không tường minh Các cách tiếp cận để trả lời truy vấn với cá ràng buộc không tường minh yêu cầu người sử dụng phải cung cấp độ đo khoảng cách số liệu mức độ quan trọng thuộc tính tham gia vào truy vấn Khác với phương pháp đó, giải pháp chúng tơi đề nghị đưa kết xếp hạng mà tổ chức lại sở liệu nằm phía dễ dàng thực thi sở liệu CHúng tơi đưa khung xử lý truy vấn có tích hợp kỹ thuật cho phép chiết xuất thông tin nghiên cứu sở liệu, từ xác định cách hiệu câu trả lời cho truy vấn không tường minh Chúng khai thác sử dụng phụ thuộc hàm xấp xỉ để làm tiền đề cho định hướng nới lỏng truy vấn, tạo nên truy vấn tường minh mà có kết tương tự với truy vấn tường minh Sau chúng tơi mơ tả độc lập lĩnh vực để xác định độ tương tự khái niệm mà sử dụng để định độ tương tự ngữ nghĩa giá trị gắn với thuộc tính xác định Cả ước lượng độ tương tự khái niệm, AFDs q trình trích khóa mà mô tả phụ thuộc lớn vào kích cỡ tập liệu khởi tạo trích thăm dị Thêm vào đó, kích cỡ tập liệu khởi tạo định số lượng khái niệm mà tìm cho thuộc tính sở liệu Hướng tương lai công việc ước lượng hiệu kĩ thuật thăm dị kích cỡ tập liệu khởi tạo nên chất lượng AFD độ tương tự mà xác định Thêm vào đó, mơ tả liệu thay đổi theo thời gian Nên công việc tương lai cần thêm việc khám phá cách thức để cập nhật gia tăng giá trị độ tương tự 79 khái niệm có phát triển phưng pháp để tính tốn khoảng cách khái niệm có mà khơng phải tính lại toàn đồ thị khái niệm 80 Tài liệu tham khảo [1] A Motro (1998), Vague: A user interface to relational databases that permits vague queries ACM Transactions on Office Information Systems, 6(3):187–214 [2] Francesco Ricci, Nader Mirzadeh, Adriano Venturini Intelligent Query Management in a Mediator Architecture, eCommerce and Tourism Research Laboratory, ITC-irst, via Sommarive 18, 38050 [3] H.Mannila and H Toivonen (1997), Levelwise search and borders of theories in knowledge discovery Data Mining and KnowledgeDiscovery [4] H.Mannila, H Toivonen, and A.I.Verkamo (1997), Discovery ot frequent episodes in event sequences Data Mining and KnowledgeDiscovery, [5] J.M Morrissey (1990), Imprecise information and uncertainty in information systems ACM Transactions on Information Systems, 8:159–180 [6] J.Kivinen and H.mannila (1995), Approximate Dependency Inference from Relations Theoretical Computer Science [7] M Ortega-Binderberger (2003) Integrating Similarity Based Retrieval and Query Refinement in Databases PhD thesis, UIUC [8] R Goldman, N Shivakumar, S Venkatasubramanian, and H GarciaMolina (1998) Proximity search in databases VLDB [9] T Haveliwala, A Gionis, D Klein, and P Indyk (2002) Evaluating strategies for similarity search on the web Proceedings of WWW, Hawai, USA 81 [10] U Nambiar and S Kambhampati (2004), Mining Approximate Functional Dependencies and Concept Similarities to Answer Imprecise Queries, ACM Workshop on Web Information and Data Management [11] U Nambiar and S Kambhampati (2004), Providing ranked relevant results for web database queries To appear in WWW Posters 2004 [12] U Nambiar and S Kambhampati (2003), Answering imprecise database queries: A novel approach ACM Workshop on Web Information and Data Management [13] Xuan Zhou, Julien Gaugaz, WolfTilo Balk,e Wolfgang Nejdl (2007), Query relaxation Using Malleable Schemas, SIGMOD’07 [14] Y Huhtala, J Krkkinen, P Porkka, and H Toivonen (1998) Efficient discovery of functional and approximate dependencies using partitions Proceedings of ICDE [15] W Cohen (1998) Integration of heterogeneous databases without common domains using queries based on textual similarity Proc Of SIGMOD, pages 201–212 ... tính tốn phụ thuộc hàm xấp xỉ thuộc tính Chương Trả lời truy vấn không tường minh Chương giới thiệu cách tiếp cận để trả lời cho truy vấn không tường minh, sử dụng phụ thuộc hàm xấp xỉ để nới... phụ thuộc hàm phụ thuộc xấp xỉ thực chí tới hàng trăm Vai trị phụ thuộc hàm xấp xỉ việc trả lời truy vấn không tường minh Các phụ thuộc hàm xấp xỉ cho biết mối quan hệ thuộc tính quan hệ sử dụng. .. hướng vào vấn đề sau: - Tìm hiểu truy vấn mờ, truy vấn khơng tường minh - Tìm hiểu phụ thuộc hàm xấp xỉ thuộc tính, nới lỏng điều kiện truy vấn dựa phụ thuộc hàm xấp xỉ - Tìm hiểu khái niệm tương

Ngày đăng: 24/02/2021, 10:17