Mặc dù người sử dụng không biết làm sao để diễn tả câu hỏi của họ nhưng khi câu trả ời là lmột tập hỗn loạn các kết quả có các mức độ ương đương khác nhau tới câu ttruy vấn thì chúng có
LƯƠNG THỊ HỒNG LAN BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC SƯ PHẠM KĨ THUẬT NGÀNH:SU PHẠM KĨ THUẬT TRẢ LỜI CÁC TRUY VẤN KHÔNG TƯỜNG MINH SỬ DỤNG CÁC PHỤ THUỘC HÀM XẤP XỈ VÀ CÁC TƯƠNG TỰ KHÁI NIỆM LƯƠNG THỊ HỒNG LAN 2005 - 2007 Hà Nội 2007 HÀ NỘI 2007 Tai ngay!!! Ban co the xoa dong chu nay!!! 17051113912571000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC TRẢ LỜI CÁC TRUY VẤN KHÔNG TƯỜNG MINH SỬ DỤNG CÁC PHỤ THUỘC HÀM XẤP XỈ VÀ CÁC TƯƠNG TỰ KHÁI NIỆM NGÀNH: SƯ PHẠM KĨ THUẬT LƯƠNG THỊ HỒNG LAN Người hướng dẫn khoa học: TS NGUYỄN KIM ANH HÀ NỘI 2007 Mục lục Mở đầu .5 Chương Tổng quan truy vấn không tường minh 1.1 Truy vấn khơng tường minh gì? 1.2 Bài toán đặt 10 1.3 Các công việc liên quan đến việc hỗ trợ trả lời truy vấn không tường minh 12 1.4 Nới lỏng điều kiện truy vấn 23 1.5 Kết luận .28 Chương Tính tốn phụ thuộc hàm xấp xỉ 2.1 Phụ thuộc hàm phụ thuộc hàm xấp xỉ 30 2.2 Tính tốn phân hoạch phụ thuộc 33 2.3 Lược bớt phụ thuộc 40 2.4 Tính toán phụ thuộc hàm xấp xỉ .43 2.5 Đánh giá 51 2.6 Kết luận 53 Chương Trả lời truy vấn không tường minh 3.1 Nới lỏng truy vấn sử dụng phụ thuộc hàm xấp xỉ 3.2 Nghiên cứu tương tự khái niệm 54 58 3.3 Trả lời truy vấn không tường minh 63 3.4 Đánh giá so sánh 67 3.5 Kết luận .75 Kết luận hướng phát triển Tài liệu tham khảo 76 78 Các thuật ngữ viết tắt luận văn AFD (Approximate functional dependence): Phụ thuộc hàm xấp xỉ EIM (Enterprise Information Management): Trình quản lý thơng tin doanh nghiệp IM (Intelligent Mediator): Bộ điều khiển thông minh IR (Information Retrieval): Tìm kiếm thơng tin PIM (Personal Information Management): Trình quản lý thông tin cá nhân WWW (World Wide Web): Mạng toàn cầu MỞ ĐẦU Trong năm gần đây, sở phát triển ứng dụng công nghệ Internet, khối lượng liệu máy tính tăng trưởng không ngừng theo hai phương diện tạo thu thập Sự mở rộng liệu khoa học địa lý, địa chất, khí tượng vệ tinh thu thập, giới thiệu quảng bá mã vạch hầu hết sản phẩm thương mại, việc tin học hoá sâu rộng thương vụ giao dịch, phát triển việc ứng dụng CNTT quản lý hành nhà nước phát sinh khối lượng liệu khổng lồ Mặt khác, bối cảnh tảng cho xã hội thông tin, nhu cầu nhận thông tin cách nhanh chóng, xác nhu cầu thu nhận "tri thức" từ khối lượng thơng tin khổng lồ nói trở nên cấp thiết Bối cảnh đòi hỏi phương pháp tiếp cận mà điển hình phương pháp thuộc lĩnh vực khai phá liệu khám phá tri thức sở liệu Trong xu tăng trưởng không ngừng nguồn liệu, thông qua phát triển công nghệ Web, dạng liệu phi cấu trúc nửa cấu trúc (điển hình hệ thống trang web Internet) tăng trưởng theo tốc độ nhảy vọt Đây dạng liệu gần với người, mà qua chúng người mong muốn lưu trữ thông tin, tri thức chuyển tải cho nhiều người khác Trong năm gần WWW trở thành kênh thông tin quan trọng cho việc phân tán thông tin cá nhân, khoa học thương mại Một lý việc WWW phát triển nhanh chóng giá cho việc tạo xuất trang web rẻ So sánh với phương pháp khác sản xuất tờ rơi hay quảng cáo báo tạp chí trang web rẻ nhiều lại cập nhật thường xuyên đến hàng tỷ người sử dụng, mà cơng ty nhỏ có khả đưa sản phẩm dịch vụ họ lên WWW Hơn có nhiều công ty hoạt động bán hàng trực tuyến Internet, mà nhu cầu đưa thơng tin lên WWW hồn tồn tự nhiên Nhưng với việc tăng khơng ngừng site việc tìm trang hay chí site mà cá nhân cần lại thực vấn đề ngày khó khăn Các mơ hình xử lí truy vấn sở liệu giả thiết người dùng biết muốn cơng thức hóa câu truy vấn cho biểu thị đắn ý muốn cô Nhưng với tốc độ phát triển nhanh chóng mạng WWW, số lượng lớn sở liệu sở liệu khoa học, lịch sử…đang ngày trở nên dễ tiếp cận để làm hài lòng đòi hỏi người dùng Thường người sử dụng khơng biết cách diễn tả xác mà họ cần cơng thức hóa câu truy vấn nên dẫn tới kết trả lời không thỏa mãn yêu cầu họ Mặc dù người sử dụng để diễn tả câu hỏi họ câu trả lời tập hỗn loạn kết có mức độ tương đương khác tới câu truy vấn chúng đưa liệu liên quan tới chúng Do đó, mơ hình xử lí câu truy vấn sở liệu phải bao quát khái niệm hệ thống IR cho người dùng cần có ý tưởng mờ thứ cần cơng thức hóa câu truy vấn nói lên thứ cần thích tạo tập hợp xếp hạng câu trả lời Sự dịch chuyển mơ hình cần phải có trợ giúp câu truy vấn không tường minh Điều đề cập tới vài nghiên cứu sở liệu gần Trong luận văn giới thiệu cách tiếp cận qua việc khai thác phụ thuộc hàm xấp xỉ tương tự khái niệm để hỗ trợ trả lời cho truy vấn mờ, truy vấn không tường minh thông qua sở liệu web Chúng tơi sử dụng ví dụ minh hoạ để giới thiệu cách tổng quan hướng tiếp cận Ví dụ: Giả thiết người sử dụng muốn tìm kiếm tơ có giá khoảng 10000$ sở liệu ô tô, CarDB (Make, Model, Year, Price, Location) Dựa lược đồ sở liệu người dùng đưa câu truy vấn sau: Q: - CarDB(Model = Camry, Price < 10000) Dựa việc nhận câu truy vấn, CarDB cung cấp danh sách Camry mà có giá 10000$ Tuy nhiên giới thiệu Accord ô tô giống tương tự, người dùng quan tâm xem ln tất Accord có giá 10000$ Người dùng thích Camry giá 10500$ Trong ví dụ trên, mơ hình xử lí câu truy vấn CarDB sử dụng không gợi ý Accord hay Camry có giá cao câu trả lời quan tâm người dùng không đặc biệt hỏi chúng câu truy vấn họ Điều buộc người dùng vào vòng quay chán ngắt việc đưa câu hỏi lặp lặp lại cho tất mơ hình tương tự trước người dùng nhận câu trả lời thỏa mãn Một cách để tự động hóa điều cung cấp cho xử lý câu truy vấn thơng tin mơ hình tương tự ( ví dụ nói Accord có độ tương tự 0.9 với Camry) Trong cách tiếp cận thử nghiệm, nhược điểm họ có thu nhận độ đo tương tự chuyên biệt miền – vấn đề mà gây khó chịu tăng thêm sở liệu truy cập công cộng Đây động lực cho cách tiếp cận tiếp cận chúng tôi: chuyển trọng tâm việc cung cấp giá trị hàm tương tự yêu cầu thuộc tính tới người dùng, đưa hướng tiếp cận chuyên biệt miền để rút tự động xếp hạng hiệu liệu thoả mãn câu truy vấn không tường minh thông qua sở liệu web Đặc biệt, ý tới việc khám phá ngữ nghĩa vốn giới thiệu (như chúng đại diện cho đối tượng giới thực) cấu trúc mối quan hệ dự kiến sở liệu Chúng khơng tập trung đưa người khỏi vịng quay, để để giảm bớt đáng kể số lượng đầu vào người dùng phải cung cấp câu trả lời thỏa mãn Đặc biệt muốn kiểm tra thỏa mãn yêu cầu người dùng tới mức sử dụng thông tin sở liệu: tạo mơ hình khái niệm tương tự người dùng gần gũi sử dụng thông tin sẵn có sở liệu? Với mục tiêu khai phá phụ thuộc hàm xấp xỉ khái niệm tương tự để hỗ trợ trả lời cho truy vấn không tường minh, nội dung luận văn định hướng vào vấn đề sau: - Tìm hiểu truy vấn mờ, truy vấn không tường minh - Tìm hiểu phụ thuộc hàm xấp xỉ thuộc tính, nới lỏng điều kiện truy vấn dựa phụ thuộc hàm xấp xỉ - Tìm hiểu khái niệm tương tự, từ đưa cách tiếp cận để đánh giá cách tự động khoảng cách ngữ nghĩa giá trị thuộc tính - Đưa khung xử lý truy vấn có tích hợp kỹ thuật cho phép chiết xuất thông tin nghiên cứu sở liệu, từ xác định cách hiệu câu trả lời cho truy vấn không tường minh Do đó, luận văn có bố cục sau: Chương với tiêu đề Tổng quan truy vấn không tường minh giới thiệu sơ khái niệm truy vấn tường minh, truy vấn không tường minh, cách tiếp cận nới lỏng điều kiện truy vấn Chương với tiêu đề Tính tốn phụ thuộc hàm xấp xỉ Nội dung chương tìm hiểu phụ thuộc hàm, phụ thuộc hàm xấp xỉ phương pháp để tính tốn phụ thuộc hàm xấp xỉ thuộc tính Chương Trả lời truy vấn không tường minh Chương giới thiệu cách tiếp cận để trả lời cho truy vấn không tường minh, sử dụng phụ thuộc hàm xấp xỉ để nới lỏng điều kiện truy vấn, tìm hiểu tương tự khái niệm sử dụng chúng để hỗ trợ trả lời cho truy vấn không tường minh Phần kết luận tổng hợp kết nghiên cứu luận văn, số hạn chế chưa hoàn thiện cài đặt thực Đồng thời luận văn đề xuất số hướng nghiên cứu cụ thể tác giả luận văn Qua đây, xin gửi lời cảm ơn đến cô giáo TS Nguyễn Kim Anh, người giúp đỡ tơi nhiều q trình làm luận văn đồng thời xin cảm ơn gia đình đồng nghiệp động viên, giúp đỡ để tơi hồn thành luận văn Chương Tổng quan truy vấn không tường minh 1.1 Truy vấn khơng tường minh gì? Truy vấn tường minh: truy vấn người dùng yêu cầu liệu thỏa mãn xác ràng buộc truy vấn Ví dụ truy vấn Q:- CarDB(Make = “Ford”) truy vấn tường minh, tất liệu kết phải có thuộc tính “Make” có giá trị “Ford” Truy vấn khơng tường minh: truy vấn người dùng mà yêu cầu phù hợp gần xác khơng thiết phải xác với ràng buộc truy vấn Các câu trả lời cho truy vấn không tường minh phải xếp hạng theo mức độ gần gũi/ tương tự với ràng buộc truy vấn Ví dụ truy vấn Q:- CarDB (Make like “Ford”) truy vấn không tường minh, câu trả lời phải có thuộc tính “Make” giới hạn giá trị tương đương với “Ford” Như truy vấn không tường minh truy vấn có ràng buộc truy vấn mềm dẻo so với truy vấn tường minh có yêu cầu đối sánh tương tự khơng u cầu phải xác truy vấn tường minh Cho nên câu truy vấn không tường minh chuyển đổi sang truy vấn tường minh việc siết chặt quan hệ ràng buộc truy vấn Ví dụ như, siết chặt quan hệ “like” thành “equal-to” truy vấn không tường minh cho truy vấn tường minh “Make = Ford”