Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,72 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… NGUYỄN TẤN THUẬN MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỚI TRÊN CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ Chuyên ngành: Hệ thống thơng tin Mã số: 62 48 01 04 TĨM TẮT LUẬN ÁN TIẾN SỸ NGÀNH MÁY TÍNH Hà Nội – 2021 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: GS.TS Đoàn Văn Ban Người hướng dẫn khoa học 2: TS Trương Ngọc Châu Phản biện 1: … Phản biện 2: … Phản biện 3: … Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 201… Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam DANH MỤC CÁC CƠNG TRÌNH CỦA TÁC GIẢ Nguyễn Tấn Thuận, Đoàn Văn Ban, Trương Ngọc Châu, Trần Thị Thúy Trinh (2015), “Phương pháp xử lý truy vấn đa điều kiện sở liệu hướng đối tượng mờ dựa đại số Gia Tử”, Tạp chí Khoa học Đại học Sư phạm Hà Nội 1, 7, 2015, 157168 Nguyễn Tấn Thuận, Trần Thị Thúy Trinh, Đoàn Văn Ban, Trương Ngọc Châu, “Analysis of fuzzy query processing and optimization in fuzzy object oriented database”, Fair - Hội nghị khoa học Quốc Gia lần thứ IX nghiên cứu ứng dụng CNTT, Trường Đại học Cần Thơ , 2016, pp 24-31 Nguyễn Tấn Thuận, Trần Thị Thúy Trinh, Đoàn Văn Ban, Trương Ngọc Châu, “Statistics-theoretical approach for evaluating the similarity of fuzzy objects in fuzzyobject-oriented databases”, Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Hà Nội, Trường Đại học Sư Phạm Hà Nội 1-2/10/2016, 306-312 Thuan T.Nguyen , Ban D.Van, Chau N.Truong, “Qurey Processing and Optimazation in Fuzzy Object Oriented Database”, LAP LAMBERT Academic Publishing, ISBN 978-620-2-05295-5, 2017, 52 papers Nguyen, T T., Doan, B V., Truong, C N.,& Tran, T T, “A New Approach for Query Processing and Optimization Base on the Fuzzy Object Algebra and Equivalent Transformation Rules” Transactions on Machine Learning and Artificial Intelligence, 2017, 5(2), 18 (scopus) Nguyen, T T., Van Doan, B., Truong, C N., & Tran, T T T “Clustering and Query Optimization in Fuzzy Object-Oriented Database” International Journal of Natural Computing Research (IJNCR), 8(1),2019, 1-17 (DBLP) MỞ ĐẦU Ngày nay, tính khả thi tính hữu ích tốn học mờ lý thuyết xác suất, lý thuyết tập mờ, lý thuyết khả năng, quan hệ tương tự [1] - [6], , minh chứng cho thành công loạt lĩnh vực gồm: kỹ thuật, khoa học máy tính, trí tuệ nhân tạo, xử lý thông tin hệ thống sở liệu (CSDL) [7] - [11] Cùng với phát triển tốn học mờ, mơ hình CSDL hướng đối tượng nghiên cứu áp dụng rộng rãi việc phát triển hệ thống phần mềm, nhiều hệ quản trị CSDL hướng đối tượng có tính thương mại tạo GEMSTONE, ORION, VBASE, OBJECTSTORE, POET,… Thông qua kết nghiên cứu trên, việc áp dụng lĩnh vực toán học mờ vào mơ hình sở liệu truyền thống/hướng đối tượng, nhằm xử lý lưu trữ thông tin không chắn, không đầy đủ cần thiết Một số đề xuất triển khai toán học mờ đẫ áp dụng hiệu hệ thống quản lý sở liệu nói chung [12] - [15] mơ hình sở liệu hướng đối tượng mờ đề xuất sở áp dụng toán học mờ [16] - [21] Một số nghiên cứu liên quan mô hình sở liệu hướng đối tượng mờ đề xuất như: Các mơ hình CSDL HĐT mờ: Mơ hình sở liệu hướng đối tượng mờ đề xuất M.Umano cộng [22] Mơ hình với thơng tin khơng chắn đề xuất Gyseghem Caluwe [23] Mơ hình mở rộng dựa trêsn đồ thị G Bordogna cộng [16], [21] Mơ hình dựa quan hệ tương tự, phạm vi giá trị thuộc tính sử dụng để biểu diễn tập giá trị cho phép thuộc tính lớp trình bày [24] Mơ hình dựa vào lý thuyết khả năng, tính mơ hồ biểu diễn phân cấp lớp [25], [26] Mơ hình dựa lý thuyết xác suất nhóm tác giả Kornatzky Shimony đề xuất năm 1994 [27] Bên cạnh mơ hình xác suất B Ding cộng đề xuất [28] Tiền xử lý liệu (đối sánh gom cụm) cho mô hình CSDL HĐT mờ: Thuật tốn GNP phân cụm sở liệu [29] Việc tối ưu hóa cụm thực để đối tượng có độ tương tự cao đưa vào cụm L Zhu cộng [30] Đề xuất M C Mouna cộng [31] phương pháp tính tốn tính tương tự để so sánh hai đối tượng mờ thơng qua thuộc tính mờ cách sử dụng độ đo khoảng cách Euclide A Mhedhbi S Salihoglu [4] phát triển phép đo độ tương tự dựa mơ hình đối sánh Tversky áp dụng tập mờ cách sử dụng lý thuyết tập mờ phép toán chúng Xử lý tối ưu hóa truy vấn: X Hu cộng phát triển [32] mơ hình liệu hướng đối tượng mờ (F-model) định nghĩa đại số kết hợp mờ mở rộng (FA-algebra) Đề xuất [33] tối ưu hóa truy vấn dựa vào biểu thức đường dẫn cách viết lại câu truy vấn Tuy nhiên, mơ hình đề xuất cịn thiếu định nghĩa thức thiết kế kiến trúc, định nghĩa phép toán đại số đối tượng mờ ngơn ngữ truy vấn Do cần có đề xuất nhằm đảm bảo tính hệ thống cho mơ hình sở liệu hướng đối tượng mờ hoạt động hiệu Mục tiêu luận án đề xuất đại số đối tượng mờ mới, kiến trúc xử lý truy vấn phương pháp tối ưu hóa truy vấn dựa đại số đề xuất kết hợp với giải pháp phép biến đổi tương đương giải thuật Heuristic Các vấn đề liên quan đến mục tiêu nghiên cứu trình bày luận án bao gồm Nhằm tăng tính hiệu cho q trình xử lý truy vấn liệu có đại diện thông tin mờ, luận án đề xuất phương pháp gom cụm so sánh tính tương tự hai đối tượng cách tổng quát nhất, cụ thể để so sánh tính tương tự hai đối tượng luận án sử dụng kỹ thuật khác là: tính độ đo ngữ nghĩa, độ đo Euclidean Bên cạnh đó, luận án đề xuất thuật toán gom cụm EMC cải tiến dựa thuật toán Expectation Maximization (EM) Để đảm bảo cho hệ thống thực câu truy vấn linh động tự nhiên hơn, luận án đề xuất phương pháp phân khoảng mờ dựa kết thuật toán gom cụm EMC Thông qua đề xuất đối sánh gom cụm liệu, luận án đề xuất thuật toán xử lý truy vấn mờ như: Thuật toán xử lý truy vấn đơn, đa điều kiện mờ FQSIMSC (Fuzzy Query Sim Single Condition) FQSIMMC (Fuzzy Query Sim Multi-Condition) Hơn nữa, luận án đề xuất thuật toán xử lý truy vấn khoảng mờ FQINTERVAL (Fuzzy Query Interval), nhằm giúp người dùng thực trích lọc liệu tự nhiên Đề xuất đại số kết hợp mờ Trong luận án định nghĩa phép toán kết hợp mờ (Phép chọn mờ, phép nối mờ, phép chiếu mờ, phép chia mờ, phép trừ mờ, phép hợp mờ phép giao mờ làm sở cho việc xây dựng đại số truy vấn mờ cho mơ hình sở liệu hướng đối tượng mờ Luận án đề xuất kiến trúc xử lý tối ưu hóa truy vấn mờ Cụ thể, luận án phát triển thuật tốn heuristic tối ưu hóa đại số đối tượng mờ dựa quy tắc phép biến đổi tương đương Phân tích số thử nghiệm sử dụng thuật toán đề xuất cho thấy hiệu suất xử lý truy vấn tốt hơn, điều chứng tỏ nâng cao hiệu phương pháp đề xuất Để thực mục tiêu trên, luận án tổ chức sau: Luận án chia thành chương, đó: Chương thứ trình bày khái qt sở liệu hướng đối tượng mờ Nội dung chương bao gồm: khái niệm, phép toán lý thuyết tập mờ Trong chương trình bày cụ thể mơ hình sở liệu hướng đối tượng với khái niệm đối tượng mờ, lớp mờ, phân cấp thừa kế mờ mơ hình lớp mờ quan hệ mờ Chương thứ hai giới thiệu bốn thuật toán xử lý truy vấn mờ FQSIMSC (Fuzzy Query Sim Single Condition), FQSIMMC (Fuzzy Query Sim Multi-Condition), FQSEM (Fuzzy Query SEM) FQINTERVAL (Fuzzy Query Interval) nhằm tăng tính hiệu cho q trình xử lý liệu: Trong ba thuật toán (FQSIMSC, FQSIMMC, FQSEM) sử dụng độ đo tương tự dựa vào đại lượng tính tốn (SIM, SEM), thuật toán thứ tư FQINTERVAL xử lý truy vấn trực tiếp khoảng mờ dựa vào thuật toán gom cụm liệu EMC cải tiến từ thuật tốn gom cụm liệu cực đại hóa kỳ vọng (EM) đề xuất chương Chương thứ ba giới thiệu phép toán đại số đối tượng (phép chiếu mờ, giao mờ, hợp mờ, chọn mờ, trừ mờ, tích đề mờ, nối mờ) phép biến đổi tương đương mờ Một chủ đề thiếu hệ quản trị sở liệu tối ưu hóa truy vấn phương pháp Heuristic Chương TỔNG QUAN VỀ BÀI TỐN XỬ LÝ TRUY VẤN TRÊN MƠ HÌNH CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ 1.1 Giới thiệu tốn Trong thực tế, hệ thống thơng tin chủ yếu sử dụng CSDL quan hệ [12], [14], [34] - [38], hoặc CSDL hướng đối tượng [39] - [42] để lưu trữ tập hợp liệu Cả hai mơ hình CSDL quan hệ CSDL hướng đối tượng có khả đủ để xử lý đối tượng phức tạp bị hạn chế đại diện liệu khơng xác hoặc khơng chắn Do đó, việc nghiên cứu ứng dụng sở liệu mờ xử lý truy vấn để giải hạn chế sở liệu quan hệ/hướng đối tượng rõ việc xử lý lưu trữ thông tin không chắn, không đầy đủ trở thành chủ đề nghiên cứu quan trọng nhiều nhà khoa học tập trung nghiên cứu [2], [17], [30], [43] - [68] 1.2 Các nghiên cứu liên quan Trong năm qua có nhiều nghiên cứu liên quan mơ hình sở liệu hướng đối tượng mờ theo cách tiếp cận khác kết đạt mơ hình là: 1.2.1 Mơ hình CSDL HĐT mờ Mơ hình sở liệu hướng đối tượng mờ đề xuất dựa vào: thuộc tính có giá trị mờ M.Umano cộng [22], quan hệ kế thừa lý thuyết tập mờ Gyseghem Caluwe [23], mở rộng mơ hình đối tượng dựa đồ thị G Bordogna cộng [16], [21], quan hệ tương tự [24], lý thuyết khả [25], [26], lý thuyết xác suất Kornatzky Shimony đề xuất năm 1994 [27] 1.2.2 Tiền xử lý liệu (đối sánh gom cụm) cho mơ hình CSDL HĐT mờ Thuật tốn phân cụm sở liệu sử dụng lập trình mạng di truyền (GNP), L Yan Z M Ma [29] Y Bashon cộng [31], so sánh hai đối tượng mờ thơng qua thuộc tính mờ cách sử dụng độ đo khoảng cách Euclide Y Bashon cộng [4] 1.2.3 Xử lý tối ưu hóa truy vấn mờ S Na S Park [32] đề xuất mơ hình liệu hướng đối tượng mờ (F-model) định nghĩa đại số kết hợp mờ mở rộng (FA-algebra) P K Panigrahi A Goswami [19] 1.3 Các vấn đề nghiên cứu giải pháp 1.3.1 Biểu diễn thơng tin khơng hồn hảo mơ hình khái niệm liệu mờ 1.3.2 Mơ hình hóa UML liệu mờ Phần mở rộng biểu đồ lớp UML để biểu diễn thơng tin mờ [3] Vì cấu trúc UML chứa lớp mối quan hệ, nên việc mở rộng cấu trúc tiến hành dựa tập mờ 1.3.3 Lớp mờ Về mặt lý thuyết, lớp xem xét từ hai quan điểm khác nhau: Một lớp mở rộng (kế thừa), lớp xác định danh sách cá thể đối tượng, lớp nguyên [3], lớp xác định tập thuộc tính giá trị chấp nhận Theo Zvieli Chen ̃ = (𝐶̃ , 𝐴̃, 𝑅̃ , 𝑂̃): Mức lớp, mức đối tượng, mức giá trị thuộc tính [6], lớp có ba mức độ mờ 𝐷 Hình 1.1 mơ tả lớp nhân viên trẻ mờ Hình 1.1 Lớp mờ 1.3.4 Tổng quát hóa mờ Kế thừa chế quan trọng mơ hình liệu hướng đối tượng cho phép lớp gọi lớp kế thừa thuộc tính phương thức từ lớp khác gọi lớp cha Hình 1.2 mơ tả quan hệ tổng qt hóa mờ Hình 1.2 Quan hệ tổng qt mờ 1.3.5 Kết tập mờ Là dạng đặc biệt liên kết mơ hình hóa mối quan hệ tồn thể-bộ phận (whole - part) đối tượng toàn thể phận Hình 1.3 mơ tả quan hệ kết tập mờ Hình 1.3.Mối quan hệ kết tập mờ 1.3.6 Mối kết hợp mờ Mối quan hệ kết hợp định nghĩa mối quan hệ cấu trúc nhị phân hai lớp liên kết chúng, định đối tượng lớp kết nối với đối tượng lớp khác Hình 1.4 mơ tả quan hệ kết hợp mờ Hình 1.4.Mối quan hệ kết hợp mờ 1.3.7 Phụ thuộc mờ Sự phụ thuộc biểu thị mối quan hệ nhà cung cấp / khách hàng phần tử mơ hình, việc chỉnh sửa thơng tin nhà cung cấp ảnh hưởng đến phần tử mơ hình khách hàng Mối quan hệ phụ thuộc khác với mối quan hệ kết hợp chỗ mang tính đơn hướng Hình 1.5 mơ tả quan hệ phụ thuộc mờ Nhân viên Dependent WITH 0.85 DEGREE Nhân viên WITH 0.85 DEGREE Hình 1.5 Mối quan hệ phụ thuộc mờ 1.4 Ánh xạ mơ hình liệu UML mờ vào mơ hình sở liệu hướng đối tượng mờ 1.4.1 Mơ hình sở liệu hướng đối tượng mờ (FOODB) Ma cộng [73] phát triển mơ hình sở liệu hướng đối tượng mờ (FOODB) lớp mờ 1.4.2 Chuyển đổi biểu đồ lớp UML mờ 1.4.2.1 Chuyển đổi lớp Các lớp mơ hình liệu UML thường tương ứng với lớp lược đồ sở liệu hướng đối tượng thuộc tính lớp mơ hình liệu UML tương ứng với thuộc tính lớp lược đồ sở liệu hướng đối tượng Hình 1.6 biểu diễn chuyển đổi lớp mờ Hình 1.6.Chuyển đổi lớp UML mờ sang lược đồ sở liệu hướng đối tượng mờ Hình 1.7 cho thấy chuyển đổi lớp mơ hình liệu UML mờ sang lược đồ sở liệu hướng đối tượng mờ Hình 1.7.Chuyển đổi lớp UML mờ sang lược đồ sở liệu hướng đối tượng mờ 1.4.2.2 Chuyển đổi quan hệ kết tập Tập hợp xác định mối quan hệ toàn phận cấu thành tổng thể lớp đại diện cho tổng thể Trong mơ hình liệu UML mờ, tập hợp (mờ) chuyển đổi thành lớp lược đồ sở liệu hướng đối tượng mờ, gọi lớp tổng hợp, theo biến đổi lớp cho Hình 1.8 cho thấy chuyển đổi tập hợp mơ hình liệu UML mờ sang lược đồ sở liệu hướng đối tượng mờ Hình 1.8.Chuyển đổi tập hợp UML mờ sang lược đồ sở liệu hướng đối tượng mờ 1.4.2.3 Chuyển đổi quan hệ kết hợp Quan hệ kết hợp mơ hình liệu UML chuyển đổi thành quan hệ kết hợp lược đồ đối tượng, mơ tả thuộc tính lớp kết hợp tham chiếu tường minh đến lớp khác Trong mơ hình liệu UML mờ, phân biệt ba loại kết hợp bản, sau: Các kết hợp khơng có độ mờ nào, Các kết hợp có độ mờ cấp độ thứ hai, Các kết hợp có độ mờ cấp độ Hình 1.9 biểu diễn chuyển đổi quan hệ kết hợp mờ đổi liên kết UML mờ sang lược đồ sở liệu hướng đối tượng mờ 1.4.2.4 Chuyển đổi quan hệ phụ thuộc Trong mối quan hệ phụ thuộc mờ, lớp khách hàng phụ thuộc mờ vào lớp nhà cung cấp Có số kỹ thuật chung để biến đổi mối quan hệ phụ thuộc (mờ) Kỹ thuật thứ bàn lớp độc lập Kỹ thuật thứ hai bàn mối quan hệ kết Kỹ thuật cuối bàn kết hợp 1.4.3 Truy vấn mờ FOQL Hình 1.9: Chuyển 1.5 Giải pháp cho toán Luận án đề xuất ba giải pháp sau: - Tiền xử lý liệu: Luận án đề xuất phương pháp gom cụm so sánh tính tương tự hai đối tượng - Xử lý truy vấn mờ: Luận án đề xuất số phương pháp xử lý truy vấn mới dựa vào độ đo tương tự gom cụm liệu - Đề xuất đại số kết hợp mờ Trong luận án định nghĩa phép toán kết hợp mờ làm sở cho việc xây dựng đại số truy vấn mờ mô hình sở liệu hướng đối tượng mờ Luận án đề xuất phương pháp xử lý tối ưu hóa truy vấn mờ 1.6 Kết luận chương Các mơ hình dựa vào mơ hình liệu đối tượng chuẩn ODMG, đồng thời kết hợp ngôn ngữ mơ hình hóa UML để biểu diễn trực quan hóa cho khái niệm mờ như: Mức lược đồ mờ, mức thể lớp mờ, mức thuộc tính mờ Bên cạnh khái niệm mờ áp dụng vào mối quan hệ như: Tổng quát hóa mờ, kết tập mờ, kết hợp mờ phụ thuộc mờ Các biểu diễn nhằm mục đích mơ hình hóa góc nhìn mơ hình hóa logic vật lý để từ luận án đề xuất phép toán đại số đối tượng mờ cho câu truy vấn phương pháp xử lý truy vấn dựa vào khả thuộc tính biểu diễn giá trị mờ nhằm thực việc xử lý trích rút liệu/thơng tin khơng chắn, khơng đầy đủ FOODB trình bày cụ thể chương Chương CÁC PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỜ DỰA VÀO ĐỘ ĐO TƯƠNG TỰ VÀ GOM CỤM DỮ LIỆU Mơ hình sở liệu hướng đối tượng mờ phức tạp đối tượng lưu trữ xử lý mờ rõ phụ thuộc vào kiểu thuộc tính giá trị thuộc tính khơng chắn, khơng xác, mơ hồ, có mối quan hệ đối tượng mờ [21], [74] - [77] Chính phức tạp mơ hình mà cần phải có hướng tiếp cận riêng cho tập hợp trình tiền xử lý liệu cho truy vấn mờ Chương này, giới thiệu phương pháp truy vấn liệu dựa vào độ đo tương tự (SIM, SEM DIS ) nhằm trích rút thơng tin thỏa mãn điều kiện mức độ tương tự đối tượng có giá trị thuộc tính mờ rõ Đề xuất thuật toán xử lý truy vấn dựa vào thuật toán gom cụm liệu cải tiến EMC phân vùng mờ Các kết trình bày chương liên quan đến so sánh tính tương tự, gum cụm liệu xây dựng vùng mờ công bố [CT3], [CT6] 2.1 Xử lý truy vấn mờ dựa vào độ đo tương tự 2.1.1 So sánh tính tương tự hai đối tượng mờ 2.1.1.1 So sánh hai đối tượng dựa vào độ đo tương tự mờ Khi so sánh hai đối tượng mờ, ta cần xem xét trường hợp sau: Trường hợp I: so sánh hai thuộc tính mờ Trường hợp II: so sánh thuộc tính rõ với thuộc tính mờ ngược lại Trường hợp III: so sánh hai đối tượng có thể lớp Trường hợp IV: so sánh hai đối tượng thể hai lớp khác A So sánh hai thuộc mờ Định nghĩa 2.1: Cho hai đối tượng 𝑜1 𝑣à 𝑜2 tập tập thuộc tính tương ứng sau 𝑎𝑡𝑂1 = {𝑎1 , 𝑎1 , … , 𝑎𝑛 } 𝑎𝑡𝑂2 = {𝑏1 , 𝑏1 , … , 𝑏𝑛 } Tính tương tự 𝑆: 𝑎𝑡𝑂1 × 𝑎𝑡𝑂2 → [0; 1] hai thuộc tính tương ứng với 𝑎𝑗 , 𝑏𝑗 định nghĩa sau: 𝑆(𝑎𝑗 , 𝑏𝑗 ) = − 𝑑(𝑎𝑗 , 𝑏𝑗 ) + 𝑘𝑗 𝑑(𝑎𝑗 , 𝑏𝑗 ) ; 𝑣ớ𝑖 𝑘𝑗 ≥ (2.1) Trong 𝑎𝑗 𝑣à 𝑏𝑗 thuộc tính thứ j với j=1, 2,…, n, n số thuộc tính độ đo khoảng cách metric d biểu diễn ánh xạ ⊕𝑗 : [0; 1]𝑚𝑗 → [0; 1] sau: 𝑑(𝑎𝑗 , 𝑏𝑗 ) =⊕𝑗 (𝑑𝑖𝑠(𝐴1𝑗 , 𝐵1𝑗 ), 𝑑𝑖𝑠(𝐴2𝑗 , 𝐵2𝑗 ), … , 𝑑𝑖𝑠 (𝐴𝑚𝑗 𝑗 , 𝐵𝑚𝑗 𝑗 )) (2.2) 𝐴𝑚𝑗𝑗 , 𝐵𝑚𝑗𝑗 giá trị thuộc tính tương ứng 𝑎𝑗 𝑣à 𝑏𝑗 , với 𝑚𝑗 số lượng tập mờ đại diện cho giá trị thuộc tính thứ j miền 𝑈𝑗 ⊕𝑗 xác định cách tổng cho tất bình phương khoảng cách Euclide tập mờ chia cho số tập mờ 𝑚𝑗 : 𝑚 1⁄ 𝑗 ∑𝑖=1 𝑑𝑖𝑠(𝐴𝑖𝑗 , 𝐵𝑖𝑗 ) 𝑑(𝑎𝑗 , 𝑏𝑗 ) = [ ] 𝑚𝑗 (2.3) Khoảng cách 𝑑𝑖𝑠: 𝐹(𝑈𝑗 ) × 𝐹(𝑈𝑗 ) → [0; 1] mô tả khác biệt tập mờ xác định hai trường hợp sau: a) Nếu thuộc tính 𝑎𝑗 𝑏𝑗 giá trị ngôn ngữ ngữ nghĩa chúng xác định cách sử dụng tập mờ thể hàm thành viên (ví dụ: 𝜇𝐴𝑖𝑗 (𝑥) = 𝜇𝐵𝑖𝑗 (𝑥) với 𝑥 ∈ 𝑈𝑗 , ví dụ so sánh hai phịng học (xem Hình 2.1 ví dụ 2.1), sau đó: 𝑑𝑖𝑠(𝐴𝑖𝑗 , 𝐵𝑖𝑗 ) = |𝜇𝐴𝑖𝑗 (𝑥) − 𝜇𝐴𝑖𝑗 (𝑦)| ; với 𝑥, 𝑦 ∈ 𝑈𝑗 (2.4) b) Nếu thuộc tính 𝑎𝑗 , 𝑏𝑗 giá trị ngôn ngữ biểu diễn hàm thành viên khác tương ứng với 𝜇𝐴𝑖𝑗 (𝑥), 𝜇𝐵𝑖𝑗 (𝑥) , ví dụ: so sánh hai phịng học (Hình 2.4), ta có: 10 2) Tối thiểu điểm tương tự thuộc tính: 𝑘1 = 𝑘2 = ta nhận được:𝑆𝑖𝑚(𝑜1 , 𝑜2 ) ≅ 0.2566, 𝑘1 = 𝑘2 = ta nhận được:𝑆𝑖𝑚(𝑜1 , 𝑜2 ) ≅ 0.1871 Hình 2.4: Trường hợp I (b) Đại diện mờ chất lượng giá hai (Sử dụng hàm thành viên khác nhau) Do đó, độ tương tự tập mờ xác định cách sử dụng hàm thuộc lớn độ tương tự tập mờ giống xác định cách sử dụng hàm thành viên khác Điều có nghĩa việc đánh giá mức độ tương tự có liên quan đến việc xác định hàm thuộc biểu diễn giá trị ngơn ngữ B So sánh thuộc tính rõ với thuộc tính mờ ngược lại Trong phần ta giải trường hợp thứ hai: so sánh giá trị thuộc tính rõ (số) đối tượng mờ (có nghĩa đối tượng có hoặc nhiều thuộc tính mờ) với thuộc tính mờ tương ứng đối tượng mờ khác Đầu tiên, ta làm mờ giá trị rõ thành mờ hoặc ngôn ngữ [68], sau so sánh tương tự trường hợp I Vì mục đích qn, ta sử dụng (xem Hình 2.4 trên) hàm thành viên Gaussian nhằm đảm bảo tính tổng quát đề xuất Điều minh họa ví dụ sau Ví dụ 2.3: Trường hợp II: Ta xem xét hai phịng giống Ví dụ 2.2, giá trị thuộc tính Chất lượng Phịng giá trị thuộc tính Giá th Phịng rõ (xem Hình 2.5) Sau làm mờ hóa cho hai giá trị rõ giả định hàm thành viên giống ví dụ 2.2, ta nhận sau: Hình 2.5: Trường hợp II Các phịng mơ tả thuộc tính rõ mờ 𝑄(𝑃ℎị𝑛𝑔 1) = 0.8 ≡ {0.0⁄𝑇ℎấ𝑝 , 0.1979⁄𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ , 0.3753⁄𝐶𝑎𝑜} 𝑄(𝑃ℎò𝑛𝑔 2) = 420 ≡ {0.0⁄𝑅ẽ , 0.2353⁄𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ , 0.4868⁄Đắ𝑡} Sử dụng phương pháp trên, ta nhận kết tương tự Ví dụ 2.2 C So sánh tính tương tự hai đối tượng có lớp Để so sánh hai đối tượng mờ 𝑜1 𝑣à 𝑜2 tính 𝜇(𝑜1 , 𝑜2 ), trước tiên so sánh thuộc tính tương ứng chúng Đối với cặp giá trị thuộc tính (𝑔𝑖ả 𝑠ử 𝐴𝑖 (1 ≤ 𝑖 ≤ 𝑛)) ta cần tính mức độ tương đương chúng, biểu diễn 𝜇𝐴𝑖 (𝑜1 , 𝑜2 )(0 ≤ 𝜇𝐴𝑖 (𝑜1 , 𝑜2 ) ≤ 1) Ở đây, 𝜇𝐴𝑖 (𝑜1 , 𝑜2 ) = 𝑆𝐸(𝑜1 (𝐴𝑖 ), 𝑜2 (𝐴𝑖 )) (2.11) Nhận xét thuộc tính khác đóng vai trị khác việc so sánh đối tượng số chiếm ưu số khơng Trọng số 𝑤𝑖 gán cho thuộc tính C dựa tầm quan trọng cho ≤ 𝑤𝑖 ≤ 𝑣à ∑ 𝑤𝑖 = (𝑖 = 1, 2, … , 𝑛) (2.12) Về mặt hình thức, mức độ tương tự 𝑜1 𝑣à 𝑜2, tính 𝜇(𝑜1 , 𝑜2 ), biểu diễn sau 𝜇(𝑜1 , 𝑜2 ) = ∑(𝜇𝐴𝑖 (𝑜1 , 𝑜2 )) × 𝑤𝑖 ) (𝑖 = 1, 2, … , 𝑛) - Nếu 𝜇(𝑜1 , 𝑜2 ) = 0, 𝑜1 𝑣à 𝑜2 không tham chiếu đến đối tượng; Nếu 𝜇𝐴𝑖 (𝑜1 , 𝑜2 ) = 1, 𝑜1 𝑣à 𝑜2 tham chiếu đến đối tượng thực (2.13) 11 - Nếu < 𝜇(𝑜1 , 𝑜2 ) < 1, 𝑜1 𝑣à 𝑜2 tham chiếu đến đối tượng thực mức độ D So sánh tính tương tự hai đối tượng thuộc lớp khác Kết hợp mức độ tương tự giá trị thuộc tính với việc xem xét trọng số thuộc tính, ta có 𝜇(𝑜1 , 𝑜2 ) = ∑(𝜇𝐴𝑖 (𝑜1 , 𝑜2 ) × 𝑤𝑖 ) + ∑(𝜇𝐴𝑗 (𝑜1 , 𝑜2 ) × 𝑤𝑗 )(𝑖 = 1, 2, … , 𝑘; 𝑗 = 𝑘 + 1, 𝑘 + 1, … , 𝑚) (2.14) 2.1.2 Thuật toán xử lý truy vấn dựa vào độ đo tương tự Trường hợp 1: Xử lý truy vấn đối tượng có giá trị thuộc tính rõ mờ Trong trường hợp ta dựa vào cách tính tốn độ đo khoảng cách DIS tính tốn tương tự SIM Trường hợp đơn điều kiện Câu truy vấn cho trường hợp đơn điều kiện có dạng sau: SELECT … FROM C WHERE Aattr fvalue THOLD fthreshold Điều kiện Aattr fvalue, với fvalue giá trị mờ Aattr thuộc tính mờ lớp mờ C, {=, ≠, }, ngưỡng ≤ 𝑓𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 ≤ Sử dụng hàm thành viên 2.6 2.4 chuyển fvalue giá trị thuộc Thuật toán 2.1: FQSIMSC (Fuzzy Query Sim Single Condition) Thực truy vấn FOQL mờ trường hợp đơn điều kiện Đầu vào: Lớp C với thuộc tính {A1, A2,…, An}, tập đối tượng thuộc lớp C: {Oi, i = 1,…,m}, tham số fthreshold 𝛼 ∈ [0; 1], K số nguyên dương giá trị ngần định K=1 Đầu ra: Tập đối tượng Oresult thỏa mãn với t O ta có t[Aattr] fvalue với ngưỡng cho trước fthreshold 1: 2: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: { Oresult = ; fvalue[m] = 𝑓𝑢𝑧𝑧𝑦 gaussmf(𝑓𝑣𝑎𝑙𝑢𝑒) ; 𝛼 = 0.5; for t O { // t đối tượng trích rút từ tập O 𝐀𝐫𝐚𝐲[m] = 𝑓𝑢𝑧𝑧𝑦 gaussmf(𝒕[𝐴𝑎𝑡𝑡𝑟]) ; Attvalue[m]= 𝐀𝐫𝐚𝐲[m]; For i = to m { // m số tập mờ d += | fvalue[i] - Attvalue [i] |^2 ; } D = (d/m)^ ½; 1−𝑑 𝑆 = 1+𝐾∗𝑑; 𝑆𝑖𝑚 = if phép = then { if 𝐒𝐢𝐦(fvalue, Attvalue) == fthreshold then 14: 15: 16: 17: 18: 19: 10: 21: 𝛼∗𝑆 ; 𝛼 Oresult = Oresult t; } Else { Case of { ≠ :if 𝐒𝐢𝐦(fvalue, Attvalue) ≠ fthreshold then Oresult = Oresult t; :if 𝐒𝐢𝐦(fvalue, Attvalue) > fthreshold then Oresult = Oresult t; 24: } 25: 26: 27: 28: } } return Oresult; } Trường hợp đa điều kiện Câu truy vấn cho trường hợp đa điều kiện có dạng sau: SELECT … FROM O WHERE Aattr1 1 fvalue1 ξ Aattr2 2 fvalue2 THOLD fthreshold Điều kiện Aattr1 1 fvalue1, Aattr2 2 fvalue2 với fvalue1 , fvalue2 giá trị mờ Aattr1, Aattr2 thuộc tính mờ lớp mờ C, 1 2 {=, ≠, }, ngưỡng ≤ 𝑓𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑, ≤ ξ phép toán and hoặc or Sử dụng hàm thành viên 2.6 2.4 chuyển fvalue1, fvalue2 giá trị thuộc Thuật toán 2.2: FQSIMMC (Fuzzy Query Sim Multi-Condition) Thực truy vấn FOQL mờ trường hợp đa điều kiện Đầu vào: Lớp C với thuộc tính {A1, A2,…, An}, tập đối tượng thuộc lớp C: {Oi, i = 1,…,m}, tham số fthreshold 𝛼 ∈ [0; 1], K số nguyên dương giá trị ngần định K=1 Đầu ra: Tập đối tượng Oresult thỏa mãn với t O ta có t[Aattr1] 1 fvalue1 t[Aattr2] 2 fvalue2 với ngưỡng cho trước fthreshold 1: 2: 3: 4: 5: 6: 7: 8: 9: { Oresult = ; fvalue1 [m] = 𝑓𝑢𝑧𝑧𝑦 gaussmf(fvalue1 ) ; fvalue2 [m] = 𝑓𝑢𝑧𝑧𝑦 gaussmf(fvalue2 ); 𝛼 = 0.5; for t O {// t đối tượng trích rút từ tập O Attvalue1 [m] = 𝑓𝑢𝑧𝑧𝑦 gaussmf(𝑡[𝐴𝑎𝑡𝑡𝑟1 ] ) ; Attvalue2 [m] = 𝑓𝑢𝑧𝑧𝑦 gaussmf(𝑡[𝐴𝑎𝑡𝑡𝑟2 ] ); For i = to m {// m tập mờ 10: D1 +=(| fvalue1 [i] - Attvalue1 [i] |^2 ); 11: 12: 13: 14: 15: D2 +=(| fvalue2 [i] - Attvalue2 [i] |^2 ); } D1=( D1 /m)^ ½ ; D2=( D2 /m)^ ½ ; 16: 17: 18: 19: 20: 𝑆1 = 𝑆2 = 1−𝐷1 1+𝐾∗𝐷1 1−𝐷2 1+𝐾∗𝐷2 ; ; 𝛼 ∗ 𝑆1 ; 𝛼 𝛼 ∗ 𝑆2 𝑆𝑖𝑚2 = ; 𝛼 if ( 𝑆𝑖𝑚1 (fvalue1 , Attvalue1 ) 1 fthreshold) and (𝑆𝑖𝑚2 (fvalue2 , Attvalue2 ) 2 fthreshold) then { Oresult = Oresult t; 𝑆𝑖𝑚1 = 13 21: 22: } if {𝑆𝑖𝑚1 (fvalue1 , Attvalue1 ) 1 fthreshold} or {𝑆𝑖𝑚𝑗 (fvalue2 , Attvalue2 ) 2 fthreshold} then { Oresult = Oresult t; 23: 24: 25: 26: 27: } } return Oresult ; } Trường hợp 2: Xử lý truy vấn đối tượng có giá trị thuộc tính ước lượng đối tượng thuộc lớp khác Trong trường hợp ta dựa vào phân bố khả tính tốn mức độ tương tự ngữ nghĩa SID SEM Câu truy vấn cho trường hợp có dạng sau: SELECT … FROM C1, C2 WHERE Aattr1 1 fvalue1 ξ Aattr2 2 fvalue2 THOLD w Điều kiện Aattr1 1 fvalue1, Aattr2 2 fvalue2 với fvalue1 , fvalue2 giá trị mờ Aattr1, Aattr2 thuộc tính mờ lớp mờ C1 C2, 1 2 {=, ≠, }, w gán cho thuộc tính lớp mờ C1 C2 dựa tầm quan trọng cho ngưỡng ≤ w ≤ ξ phép toán and hoặc or Thuật toán 2.3: FQSEM (Fuzzy Query SEM) Thực truy vấn FOQL mờ Đầu vào: Cho C1 lớp có thuộc tính {𝑎1 , 𝑎2 , … , 𝑎𝑘 , 𝑎𝑘+1 , … , 𝑎𝑚 } C2 lớp có thuộc , , tính {𝑎1 , 𝑎2 , … , 𝑎𝑘 , 𝑎𝑘+1 , … , 𝑎𝑚 , 𝑎𝑚+1 , … , 𝑎𝑛 } tập đối tượng thuộc lớp C1 C2: {Oi, i=1,…,m} Đầu ra: Tập đối tượng Oresult thỏa mãn với t Oresult với < 𝑆𝐸 ≤ 1, ngưỡng cho trước w 1: 2: 3: 4: { Oresult = 𝑓𝑣𝑎𝑙𝑢𝑒1 [𝑚] = 𝑠𝑡𝑎𝑡𝑠 𝑛𝑜𝑟𝑚(𝑓𝑣𝑎𝑙𝑢𝑒1 ) ; 𝑓𝑣𝑎𝑙𝑢𝑒2 [𝑚] = 𝑠𝑡𝑎𝑡𝑠 𝑛𝑜𝑟𝑚(𝑓𝑣𝑎𝑙𝑢𝑒2 ) ; for t O { 5: 6: Attvalue1 [m] = 𝑠𝑡𝑎𝑡𝑠 𝑛𝑜𝑟𝑚(𝑡[𝐴𝑎𝑡𝑡𝑟1 ] ) ; 7: 8: 9: 10: 11: Attvalue2 [m] = 𝑠𝑡𝑎𝑡𝑠 𝑛𝑜𝑟𝑚(𝑡[𝐴𝑎𝑡𝑡𝑟2 ] ); 12: SID2 = SID /sum(fvalue2[k]); 13: SE(SID1, SID2)=min(SID1, SID2) ; 14: 15: 𝜇(Attvalue1 , fvalue2 ) += SE(SID1 , SID1 ) ∗ 𝑤; For k=0 to m{ SID +=min (Attvalue2 [k], fvalue2[k]); SID1 = SID /sum(fvalue2[k]); } 16: If (0 < 𝜇(Attvalue1 , fvalue1 ) ≤ 𝒂𝒏𝒅 < 𝜇(Attvalue2 , fvalue2 ) ≤ 1) then Oresult = Oresult t; If (0 < 𝜇(Attvalue1 , fvalue1 ) ≤ 𝒐𝒓 < 𝜇(Attvalue2 , fvalue2 ) ≤ 1) then Oresult = Oresult t; 17: 18: 19: 20: 21: 22: } return Oresult ; } 14 2.2 Xử lý truy vấn mờ dựa vào kỹ thuật gom cụm liệu phân khoản mờ 2.2.1 Thuật toán gom cụm cải tiến EMC sử dụng mơ hình thống kê hỗn hợp GMM Thuật tốn EMC kỹ thuật tối ưu hóa lặp lại vận hành linh hoạt (Thuật toán cải thiện để tăng tính linh hoạt cho phân cụm đồng thời giảm tối ưu hóa cục tăng tối ưu hóa tồn cục) Bước E: giá trị tham số cho trước, tính tốn giá trị kỳ vọng biến tiềm ẩn (Dựa tham số cho mô hình, tính tốn xác suất cho giá trị kỳ vọng biến tiềm ghi nhãn cho điểm liệu vào nhóm) Bước M: Các tham số mơ hình cập nhật thơng qua biến tiềm ẩn tính tốn phương pháp khả ước lượng cực đại Bước C: Cập nhật tham số mơ hình dựa biến tiềm ẩn tính theo phương pháp khả ước lượng cực đại tỷ lệ tương tự đối tượng cụm đánh giá hệ số biến thiên phần tử cụm Thuật toán EMC bắt đầu tham số cho mơ hình dự đốn Sau thực vịng lặp tiến trình thể Thuật tốn 2.4 Thuật tốn 2.4: EMC (Expectation Maximization Coefficient) Đầu vào: Khởi tạo giá trị hệ số biến thiên 𝐶𝑣𝑣𝑎𝑙𝑢𝑒 Đầu ra: Số cụm tối ưu 1: Khởi tạo kỳ vọng 𝑥̅𝑗 , hiệp phương sai 𝛴𝑗 , hệ số pha trộn 𝜋𝑗 , hệ số biến thiên 𝐶𝑣 đánh giá cho giá trị ban đầu log likelihood 2: Bước E: Dựa tham số mơ hình, tính tốn xác suất gán nhãn điểm liệu vào nhóm πk 𝒩(X|x̅k , Σk ) γj (X) = K (2.15) ∑j=1 πj 𝒩 (X|x̅j , Σj ) 3: Bước M: Cập nhật tham số mơ hình dựa nhóm gom từ bước E ∑N n=1 γj (Xn )Xn ̅xj = ∑N n=1 γj (Xn ) N ∑n=1 γj (Xn )(Xn − x̅j )Xn − x̅j T Σj = ∑N n=1 γj (Xn ) Đánh giá log likelihood N N N 1K (X ) π = ∑ γ(X ln p(X|x̅, Σ, π) = ∑ ln = ∑j ln {∑ N πk j nn|x̅k , Σk )} 4: n−1 n=1 k=1 (2.16) (2.17) (2.38) (2.18) 5: Bước C: Cập nhật thông tin hệ số biến thiên cụm đánh giá khả biến động phần tử cho cụm, cụ thể ta đánh giá hệ số biến thiên cụm thứ i với Cvi có thảo mãn giá trị biến thiên Cvvalue cho hay không ∑N n=1 γj (Xn )Xn Cvi = (2.19) n ∑k=1 xk n Cvi ≤ Cvvalue (2.20) 6: Nếu không hội tụ thảo mãn giá trị biến thiên Cvvalue cho, quay trở lại bước Nếu likelihood khơng có nhiều thay đổi thuật tốn kết thúc 2.2.2 Đánh giá thuật toán EMC phương pháp phân tích khác biệt nhóm Để đánh giá tính hiệu thuật tốn EMC phương pháp thống kế đề xuất thông qua cơng trình cơng bố [CT3] 2.2.3 Phân khoảng mờ 2.2.3.1 Xác định tâm Trong sở liệu hướng đối tượng mờ, miền giá trị thuộc tính định lượng đối tượng mờ mà (các thuộc tính chứa giá trị rõ hoặc mờ) chia thành hai hoặc nhiều 15 khoảng mờ Trong khoảng mờ, phần tử thuộc nhiều khoảng với mức độ khác Trong phần mục này, giả sử thuộc tính định lượng chia thành ba khoảng mờ phương pháp tiếp cận thống kê sử dụng kỳ vọng 𝑥̅ (mean) độ lệch chuẩn (Sd) minh họa hình 2.6 Hình 2.6: Các khoảng mờ Định nghĩa 2.13 Mức độ chồng lấp đối tượng liệu mờ thuộc hai hoặc nhiều cụm định nghĩa sau: 𝑂𝑣𝑒𝑟𝑙𝑎𝑝 = ∑𝐶𝑛 𝑗=1|𝐶𝑗 | |⋃𝐶𝑛 𝑗 𝐶𝑗 | × 100 (2.21) Trong 𝐶𝑗 cụm thứ j, với j=1, 2, , n 2.2.3.2 Xác định khoảng Khoảng thứ (𝟏𝒔𝒕 interval) Biên (𝑑 − ) khoảng thứ giá trị nhỏ miền thuộc tính định lượng Biên (𝑑+ ) tính kỳ vọng 𝑥̅ độ lệch chuẩn (Sd) giá trị thuộc tính định lượng Biểu thức tốn học (𝑑− ) (𝑑+ ) trình bày sau: 𝑑 − = 𝑀𝐼𝑁(𝑋1𝐶𝑗 , 𝑋2𝐶𝑗 , … , 𝑋𝑁𝐶𝑗 ) } 𝑆𝑑 𝑑 + = 𝑥̅ − + 𝑥̅ × 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 (2.22) Trong 𝑋𝑁 giá trị cụm 𝐶𝑗 với 𝑁 = 1,2, , 𝑛 𝑗 = 1,2, 𝑛 Trong khoảng thứ (1𝑠𝑡 interval)hàm thành viên Z-membership sử dụng để tính mức độ thành viên, là: 𝑓(𝑥)𝒵 = 𝒔𝒕 − 1 𝑥 − 𝑑− + 𝑐𝑜𝑠 ( + )Π 2 𝑑 − 𝑑− (2.23) + Khoảng thứ hai (𝟐 interval) Biên (𝑑 ) biên (𝑑 ) khoảng thứ hai tính sau: 𝑆𝑑 − 𝑥̅ × 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 } 𝑆𝑑 𝑑 + = 𝑥̅ + + 𝑥̅ × 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 (2.24) 1 𝑥̅ − 𝑥 + 𝑐𝑜𝑠 ( ) Π 𝑑 − ≤ 𝑥 ≤ 𝑥̅ 2 𝑥̅ − 𝑑 − } 1 𝑥 − 𝑥̅ 𝑓(𝑥)𝒵 = + 𝑐𝑜𝑠 ( + ) Π 𝑥̅ ≤ 𝑥 ≤ 𝑑 + 2 𝑑 − 𝑥̅ (2.25) 𝑆𝑑 − 𝑥̅ × 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 } 𝑑 + = 𝑀𝐴𝑋(𝑋1𝐶𝑗 , 𝑋2𝐶𝑗 , … , 𝑋𝑁𝐶𝑗 ) (2.26) 𝑑 − = 𝑥̅ − Khoảng sử dụng hàm thành viên S-membership Z-membership, biểu diễn sau: 𝑓(𝑥)𝑆 = Khoảng thứ ba (𝟑𝒔𝒕 interval) Biên (𝑑− ) biên (𝑑+ ) khoảng thứ ba tính sau: 𝑑 − = 𝑥̅ − Khoảng sử dụng hàm thành viên S-Membership có dạng sau 𝑓(𝑥)𝑆 = 1 𝑑+ − 𝑥 + 𝑐𝑜𝑠 ( + )Π 2 𝑑 − 𝑑− (2.27) Ví dụ 2.4: Dựa vào kết phân cụm thuật toán EMC cho thuộc tính “Điểm mơn tốn” , ta phân loại giá trị định lượng thuộc tính thành ba khoảng, Bảng 2.1, giá trị khoảng xác định từ 22 đến 99 16 Bảng 2.1: Xác định khoảng mờ thuộc tính định lượng "Điểm toán" Khoản mờ Khoản Giá trị tối thiểu Giá trị tối đa Điểm_toán.Thấp 22 đến 48 0.0 0.44 Điểm_toán.Trung bình 53 đến 64 0.44 0.55 Điểm_tốn.Cao 67 đến 99 0.55 1.0 2.2.4 Thuật toán xử lý truy vấn cụm Mơ tả thuật tốn xử lý truy vấn khoảng mờ Thuật toán 2.5: FQINTERVAL (Fuzzy Query Interval) Thực truy vấn FOQL mờ dựa vào khoản mờ Đầu vào: Cho C lớp có thuộc tính {𝑎1 , 𝑎2 , … , 𝑎𝑘 , 𝑎𝑘+1 , … , 𝑎𝑚 } tập đối tượng thuộc lớp C: {Oi, i = 1,…,m} Câu truy vấn dạng SELECT … FROM C WHERE Aattr = fvalue THOLD 1.0 Đầu ra: Tập đối tượng Ointerval thỏa mãn với 𝐴𝑖 𝜃(𝐴𝑖) ∈ fvalue 1: { 2: Thực thuật toán phân cụm EMC 3: Thực thuật toán phân vùng mờ 4: interval[k] chứa khoảng mờ sau thực thuật toán EMC phân khoảng mờ, k số khoản mờ 5: 𝑶𝒊𝒏𝒕𝒆𝒓𝒗𝒂𝒍 = ∅; // chứa tập đối tượng thuộc khoản 6: For i = to k { 7: If (interval[i].value == fvalue) then 8: 𝑂𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 = interval[i] ; 9: } 10: Return 𝑂𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 ; 11: } 2.3 Xử lý truy vấn dựa vào đại số gia tử Trong phần mục đề xuất phương pháp xử lý truy vấn mờ dựa hướng tiếp cận ĐSGT Bằng phương pháp xử lý khác xác định giá trị chân lý đơn đa điều kiện, dựa sở xây dựng truy vấn cho trường hợp xử lý đơn đa điều kiện, kết kiểm chứng thông qua lược đồ sở liệu hướng đối tượng mờ [CT1] 2.4 Đánh giá thực nghiệm Hình 2.7: Thời gian thực thi thuật tốn 17 Thời gian thực FQINTERVAL RoomBooking so với FQSIMMC FQSEM Thời gian thực thi liệu RoomBooking, ProjectManagement CourseScoresManagement cho FQINTERVAL 3503, 14012 14712 (xem Bảng 2.2) So với FQSIMMC FQSEM cho RoomBooking, ProjectManagement ManageCourseScores 2045: 2024, 6135: 6072 6544: 6555 (xem Hình 2.7) Bảng 2.2: Thời gian thực thi thuật toán Fuzzy Dataset RoomBooking ProjectManagement CourseScoresManagement Thời gian thực thi thuật toán FQSIMMC FQSEM FQINTERVAL 4045 4001 3503 16810 16004 14012 17393 17204 14712 Hình 2.8: Đánh giá việc sử dụng nhớ cho liệu khác Theo Bảng 2.3, mức sử dụng nhớ hai thuật toán FQSIMMC FQSEM lớn so với thuật toán FQINTERVAL Việc sử dụng nhớ thuật toán cho RoomBooking, ProjectManagement CourseScoresManagement 896, 2688 2867 (xem Hình 2.8) Hai thuật toán FQSIMMC FQSEM sử dụng nhớ lớn hai nập tất liệu lên vùng nhớ để xử lý Tuy nhiên, thuật tốn FQINTERVAL sử dụng nhớ việc xử lý truy vấn thực trực tiếp vùng mờ xác định Bảng 2.3: Sử dụng nhớ thuật toán Fuzzy Dataset RoomBooking ProjectManagement CourseScoresManagement Sử dụng nhớ thuật toán FQSIMMC FQSEM FQINTERVAL 2045 2024 896 6135 6072 2688 6544 6555 2867 2.5 Kết luận chương So sánh gom cụm đối tượng sở liệu hướng đối tượng mờ đề xuất phần mục này, kết đề xuất sở cho chuỗi giai đoạn tiền xử lý truy vấn mơ hình sở liệu hướng đối tượng mờ Các đề xuất là: - Thứ nhất, đề xuất phương pháp so sánh tính tương tự đối tượng mờ dựa vào kỹ thuật độ đo ngữ nghĩa liệu mờ khoảng cách Euclidean - Thứ hai, đề xuất thuật toán gom cụm liệu EMC cải tiến từ thuật toán EM thuật toán xây dựng khoảng mờ dựa vào kết thuật toán phân cụm EMC phương pháp đánh giá thuật toán EMC - Thứ ba, đề xuất thuật toán xử lý truy vấn dựa vào độ đo tương tự gom cụm Các đề xuất phần mục tảng sở lý thuyết ứng dụng cho q trình xử lý, tối ưu hóa truy vấn trình bày chương 18 Chương XỬ LÝ VÀ TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ Ngôn ngữ truy vấn thành phần quan trọng hệ thống sở liệu (có sở liệu quan hệ, hướng đối tượng rõ hay mờ) Trong mơ hình liệu hướng đối tượng mờ, mặc dù đề xuất gần phương pháp thao tác xử lý truy vấn liệu cho mô hìn này, cần có ngơn ngữ truy vấn để đối phó hiệu với tình phức tạp việc truy lục xử lý liệu phức tạp không chắn, nơi liệu phức tạp lưu trữ dạng đối tượng kèm theo kỹ thuật xử lý mờ áp dụng để đối phó với thiếu xác khơng chắn Do đó, để đảm bảo cho mơ hình CSDLHĐT mờ hồn thiện hơn, nội dung chương đề xuất hướng tiếp cận như: giới thiệu phép toán đại số kết hợp mờ [CT2], trình bày phương pháp xử lý truy vấn mờ, phương pháp xử lý bước tiền xử lý cho trình thực tối ưu hóa hệ thống nhằm tăng tính hiệu cho trình thực thao tác liệu mờ [CT4], trình bày phương pháp tối ưu hóa truy vấn dựa vào phép biến đổi tương đương, phép biến đổi giúp cho giải thuật Heuristic giảm thời gian xử lý đại số đối tượng mờ [CT5] 3.1 Các phép toán đại số sở liệu hướng đối tượng mờ 3.1.1 Đại số kết hợp mờ Đại số kết hợp mờ nghiên cứu để tìm kiếm sở liệu theo định hướng đối tượng mờ, dựa phân bố khả độ đo ngữ nghĩa liệu mờ độ đo tương tự hai đối tượng Một cách tổng quát để xác định giá trị chân lý mơ hình kết hợp mờ đề xuất với ví dụ minh họa [13], [41], [98] 3.1.2 Mơ hình đại số kết hợp đối tượng mờ Đại số kết hợp mờ cho mơ hình liệu hướng đối tượng mờ đề xuất [CT4], [CT5] ký hiệu đại số FA (Fuzzy Association) Đại số FA làm đại số truy vấn cho mơ hình liệu hướng đối tượng mờ (F-Model) sử dụng để biểu diễn đồng đối tượng mờ liên kết mờ mẫu liên kết mờ Các toán tử định nghĩa đại số FA thực phép toán kết trả mẫu liên kết mờ chứa giá trị chân lý, giá trị chân lý có nghĩa mức độ phù hợp mẫu câu trả lời cho truy vấn [CT2] Đại số kết hợp mờ nghiên cứu để truy vấn sở liệu hướng đối tượng mờ, dựa phân phối khả phép đo ngữ nghĩa liệu mờ mức độ tương đương hai đối tượng [99] 3.1.3 Các phép toán đại số kết hợp mờ Trong phép tốn hai ngơi, lớp tạo kết hợp hai lớp tồn tại, để tạo lớp Nó phụ thuộc vào mối quan hệ kết hợp hai lớp kết hợp tập thuộc tính lớp Có sáu loại phép tốn kết hợp mờ hai định nghĩa như: phép hợp ̃ ), phép giao mờ fuzzy intersection (∩ ̃ ), phép nối mờ fuzzy join (⋈ ̃ ),phép tích đề mờ fuzzy union (∪ ̃ mờ fuzzy cross product (×), phép hiệu mờ fuzzy difference (≃) phép chia mờ fuzzy division ̃ 𝐹𝐶 ̃ tập thuộc tính tương ứng hai lớp 𝐴𝑡𝑡𝑟(𝐹𝐶 ̃ ) (÷ ̃ ) Cho trước hai lớp mờ 𝐹𝐶 ̃ ) Giả sử lớp 𝐹𝐶 ̃ tạo kết hợp hai lớp 𝐹𝐶 ̃ , 𝐹𝐶 ̃ Khi đó: 𝐴𝑡𝑡𝑟(𝐹𝐶 ̃ = 𝐹𝐶 ̃1 × ̃ , 𝑛ế𝑢 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃ ) ∩ 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃2 ) = ∅ ̃ ): 𝐹𝐶 ̃ 𝐹𝐶 Phép tích đề mờ (× ′ ′ ̃ = 𝐹𝐶 ̃1 ⋈ ̃ , 𝑛ế𝑢 𝐴𝑡𝑡𝑟 (𝐹𝐶 ̃ ) ∩ 𝐴𝑡𝑡𝑟 (𝐹𝐶 ̃2 ) ≠ ̃ ) :𝐹𝐶 ̃ 𝐹𝐶 Phép nối mờ (⋈ ′ ̃ ′ ̃ ∅ 𝑣à 𝐴𝑡𝑡𝑟 (𝐹𝐶1 ) ≠ 𝐴𝑡𝑡𝑟 (𝐹𝐶2 ) ̃ = 𝐹𝐶 ̃1 ∪ ̃ , 𝑛ế𝑢 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃ ) = 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃2 ) ̃ ) : 𝐹𝐶 ̃ 𝐹𝐶 Phép hợp mờ (∪ ̃ = 𝐹𝐶 ̃1 ∩ ̃ , 𝑛ế𝑢 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃ ) = 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃2 ) ̃ ) : 𝐹𝐶 ̃ 𝐹𝐶 Phép giao mờ (∩ ̃ = 𝐹𝐶 ̃ ≃ 𝐹𝐶 ̃ , 𝑛ế𝑢 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃ ) = 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃2 ) Phép trừ mờ (≃) : 𝐹𝐶 19 ̃ = 𝐹𝐶 ̃1 ÷ ̃ , 𝑛ế𝑢 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃ ) = 𝐴𝑡𝑡𝑟 ′ (𝐹𝐶 ̃2 ) ̃ ) : 𝐹𝐶 ̃ 𝐹𝐶 Phép chia mờ (÷ ′ ̃ ′ ̃ ̃ ) 𝐴𝑡𝑡𝑟(𝐹𝐶 ̃ ) thơng qua việc xóa độ Trong đó, 𝐴𝑡𝑡𝑟 (𝐹𝐶1 ) 𝐴𝑡𝑡𝑟 (𝐹𝐶2 ) có từ 𝐴𝑡𝑡𝑟(𝐹𝐶 ̃ ) 𝐴𝑡𝑡𝑟(𝐹𝐶 ̃ ) tương ứng 𝜇𝐹𝐶 thuộc thuộc tính từ 𝐴𝑡𝑡𝑟(𝐹𝐶 ̃ sử dụng để biểu diễn độ thuộc ̃ Các phép tốn mở rộng thuộc tính 𝐹𝐶 ̃) 3.1.3.1 Phép chiếu mờ (𝜫 ̃ S xác định sau: Phép chiếu 𝐹𝐶 ′ ′ ̃ =Π ̃ ) = {𝜇𝐹𝐶 ̃𝑆 (𝐹𝐶 𝐹𝐶 ̃ (𝑜)|(∀𝜇𝐹𝐶 ̃ (𝑜 ) ∧ 𝜇𝐹𝐶 ̃ (𝑜)[𝑆] = 𝜇𝐹𝐶 ̃ (𝑜 )[𝑆] ∧ 𝜇𝐹𝐶 ̃ (𝑜) = 𝑚𝑒𝑟𝑔𝑒∪ (𝜇𝐹𝐶 ̃ (𝑜)[𝑆]))} 3.1.3.2 Phép chọn mờ ̃ tập thuộc tính S lớp 𝐹𝐶 ̃ ′ mới, cấu thành với thuộc tính Phép chọn mờ 𝐹𝐶 ̃ ′ tạo bởi: S thuộc tính có mức độ thuộc Các đối tượng 𝐹𝐶 ̃ ′ = 𝜎̃𝑠𝑢𝑏 (𝐹𝐶 ̃ ) = {𝜇𝐹𝐶 ̃ ), 𝜑(𝜇𝐹𝐶 𝐹𝐶 ̃ (𝑜)|𝜇𝐹𝐶 ̃ (𝑜) ∈ (𝐹𝐶 ̃ (𝑜))} Trong đó, phép tính 𝜑(𝜇𝐹𝐶 ̃ (𝑜)) dùng để loại bỏ đối tượng tập hợp 𝜇𝐹𝐶 ̃ (𝑜) 3.2 Ngôn ngữ truy vấn mờ FOQL 3.2.1 Truy vấn mờ FOQL Một truy vấn linh hoạt sở liệu chứa thông tin khơng xác khơng chắn, điều kiện truy vấn khơng xác khơng chắn Đối với sở liệu hướng đối tượng mờ, thể đối tượng thuộc lớp đưa với mức độ thành viên [0; 1] Ngoài ra, đối tượng đáp ứng điều kiện truy vấn định có mức độ thành viên [0; 1] thơng tin mờ xảy điều kiện truy vấn / hoặc đối tượng Vì vậy, việc xử lý truy vấn dựa đề xuất mơ hình sở liệu hướng đối tượng mờ đề cập đến phương pháp mà đối tượng đáp ứng ngưỡng định điều kiện quy định ngưỡng cho đồng thời lựa chọn từ lớp 3.2.2 Phương pháp xử lý truy vấn mờ Phương pháp xử lý truy vấn đối tượng mờ sở liệu HĐT mờ tương tự sở liệu hướng đối tượng, chúng định nghĩa lại cho phù hợp thảo luận phần Hình 3.1 đề xuất phương pháp xử lý truy vấn đối tượng mờ sau: Hình 3.1: Phương pháp xử lý truy vấn hướng đối tượng mờ 3.2.2.1 Các bước phương pháp Các truy vấn thể ngôn ngữ khai báo tựa ngôn ngữ truy vấn (SQL92) khơng địi hỏi người dùng phải có kiến thức việc triển khai đối tượng, đường dẫn truy cập hoặc chiến lược xử lý Biểu thức tính tốn tối giản dạng chuẩn hóa cách loại bỏ biến vị ngữ trùng lặp, áp dụng định danh viết lại Biểu thức chuẩn hóa sau chuyển đổi thành biểu thức đại số đối tượng mờ tương đương Dạng truy vấn biểu thức lồng xem có nút tốn tử đại số đại diện cho lớp sở liệu Biểu thức đại số kiểm tra tính quán kiểu để đảm bảo vị từ phương thức không áp dụng cho đối tượng không hỗ trợ chức yêu cầu Điều không đơn giản kiểm tra kiểu ngơn ngữ lập trình chung kết trung gian, tập hợp đối tượng, bao gồm kiểu không đồng 20 Bước xử lý truy vấn áp dụng quy tắc viết lại bảo toàn tương đương cho biểu thức đại số với quán kiểu Cuối cùng, kế hoạch thực có tính đến việc triển khai đối tượng tạo từ biểu thức đại số tối ưu hóa Việc tách bước tối ưu hóa đại số khỏi bước tạo kế hoạch thực tuân theo phân biệt thực truy vấn viết lại tối ưu hóa kế hoạch 3.2.2.2 Quy trình xử lý truy vấn mờ 3.2.2.3 Cây truy vấn đồ thị truy vấn Hầu hết truy vấn trình lên FOODMS dạng ngơn ngữ truy vấn bậc cao FOQL Trong giai đoạn phân tích cú pháp dịch chuyển, hình thức câu truy vấn người dùng định nghĩa chuyển đổi sang dạng mẫu có cú pháp FOODMS Các mẫu biểu thức đại số truy vấn biểu diễn dạng đồ thị truy vấn hay đại số Ví dụ 3.1: Hình 3.2 biểu diễn cấu trúc kế thừa: Hình 3.2: Đồ thị lược đồ phân cấp lớp mờ Cấu trúc lớp mờ quan hệ kê thừa: CLASS DUAN WITH DEGREE OF 1.0 INHERITS DUANQUANTRONG WITH DEGREE OF 1.0 INHERITS DUANTHEODOI WITH DEGREE OF 1.0 ATTRIBUTES ID: TYPE OF string WITH DEGREE OF 1.0 Tenduan: TYPE OF string WITH DEGREE OF 1.0 Ngansach: TYPE OF character WITH DEGREE OF 1.0 Ngaygiao: FUZZY DOMAIN {Ngay, Thang, Nam}: TYPE OF string WITH DEGREE OF 1.0 Mucdocuaduan: FUZZY DOMAIN {Cao, Trung binh, Thap}: TYPE OF string WITH DEGREE OF 1.0 Hoten: TYPE OF string WITH DEGREE OF 1.0 Tuoi: FUZZY DOMAIN {rất trẻ, trẻ, già, trung niên, già}: TYPE OF integer WITH DEGREE OF 1.0 Gioitinh: FUZZY DOMAIN {Nam, Nu}: TYPE OF integer WITH DEGREE OF 1.0 Membership Attribute name WEIGHT w (ID) = 0.1w (Hoten) = 0.1w (tuoi) = 0.9w (Sex) = 0.1w (Ngaygiao) = 0.6 METHODS END (𝜎Tuoi=’trẻ’ (𝐷𝑈𝐴𝑁)) ( ) 𝜋D.foid,D.Tenduan,T.Hoten,T.Capdo,T.Ngaygiao ( ⋈D.Foid=Q.Foid (DUANQUANTRONG ) ) ⋈Q.Foid=T.Foid (DUANTHEODOI ) 21 Từ biểu thức đại số đối tượng mờ ta có câu truy vấn FOQL tương ứng sau: FQ2: SELECT D.foid, D.Tenduan, T.Hoten, T Capdo, T.Ngaygiao FROM DUAN AS D, DUANQUANTRONG AS Q, DUANTHEODOI AS T WITH 0.5 WHERE D.Foid=Q.Foid AND Q.Foid=T.Foid AND D.Tuoi=’trẻ’ WITH 0.8 3.3 Tối ưu hóa truy vấn mờ Với câu truy vấn, tồn nhiều phương án mà hệ thống CSDL HĐT mờ cho phép xử lý đưa kết cuối tương đương nhau, việc tối ưu hóa câu truy vấn cho lựa chọn phương án có tổng thời gian thực truy vấn hiệu hơn, tức chọn phương án có chi phí ước lượng nhỏ [52], [53], [54] 3.3.1 Các phép biến đổi tương đương Ký hiệu 𝜇𝐹𝐶 ̃ (𝑜), 𝜇𝐹𝐶 ̃ (𝑜), 𝜇𝐹𝐶 ̃ (𝑜), 𝜇𝐹𝐶 ̃ (𝑜) tập đối tượng mờ; e, f, g, h biểu thức đại số, phép toán 𝑜𝑝 ∈ {𝑢𝑛𝑖𝑜𝑛, 𝑑𝑖𝑓𝑓} Những luật áp dụng phép toán đối tượng mờ, phép toán bộ, phép toán tập hợp phép toán đa tập (bag) Về ký hiệu, sử dụng ký hiệu phép tốn cách hình thức [98], phép tốn cài đặt với số thay đổi mơ hình khác 𝑅1 : Hoán vị phép chọn: 𝜎𝜆𝑡.𝑔 (𝜎𝜆𝑠.𝑓 (𝜇𝐹𝐶 ̃ (𝑜))) = 𝜎𝜆𝑠.𝑓 (𝜎𝜆𝑠.𝑔 (𝜇𝐹𝐶 ̃ (𝑜))) 𝑅2 : Tổ hợp phép chọn: 𝜎𝜆𝑠.(𝑓∧𝑔 ∧…ℎ) (𝜇𝐹𝐶 ̃ (𝑜)) = 𝜎𝜆𝑠.𝑓 (𝜎𝜆𝑡.𝑔 (… (𝜎𝜆𝑢.ℎ (𝜇𝐹𝐶 ̃ (𝑜))) … )) 𝑅3 : Thu gọn dãy phép chiếu: Π(𝑎1 ,… 𝑎𝑛 ) (Π(𝑏1 … 𝑏𝑛 ) (𝜇𝐹𝐶 ̃ (𝑜))) = Π(𝑎1 … 𝑎𝑛 ) (𝜇𝐹𝐶 ̃ (𝑜)) |{𝑎1 , … , 𝑎𝑛 } ⊂ {𝑏1 , … , 𝑏𝑛 } 𝑅4 : Hoán vị phép chọn phép chiếu: 𝜎𝜆𝑠.𝑒 (Π(𝑎1 ,…,𝑎𝑛 ) (𝜇𝐹𝐶 ̃ (𝑜))) = Π(𝑎1 ,…,𝑎𝑛 ) (𝜎𝜆𝑠.𝑒 (𝜇𝐹𝐶 ̃ (𝑜))) 𝑅5 :Hoán vị phép chiếu với phép hợp, hiệu tập/đa tập Π(𝑎1 ,…,𝑎𝑛 ) (𝜇𝐹𝐶 ̃ (𝑜)𝑜𝑝 𝜇𝐹𝐶2 ̃ (𝑜)) = Π(𝑎1 ,…,𝑎𝑛 ) 𝜇𝐹𝐶1 ̃ (𝑜) 𝑜𝑝 Π(𝑎1 ,…,𝑎𝑛 ) 𝜇𝐹𝐶2 ̃ (𝑜) 𝑅6 : Phân phối phép chọn với phép hợp phép hiệu tập/đa tập 𝜎𝜆𝑠.𝑓 (𝜇𝐹𝐶 ̃ (𝑜)𝑜𝑝 𝜇𝐹𝐶2 ̃ (𝑜)) = 𝜎𝜆𝑠.𝑓 (𝜇𝐹𝐶 ̃ (𝑜) ) 𝑜𝑝 𝜇𝐹𝐶 ̃ (𝑜), 𝑖𝑓 𝑓 𝑖𝑠 𝑟𝑒𝑙𝑎𝑡𝑒𝑑 𝑡𝑜 𝜇𝐹𝐶 ̃ (𝑜) f liên quan với 𝜇𝐹𝐶 ̃ (𝑜) Tổng quát: 𝜎𝜆𝑠.(𝑓∧𝑔∧ℎ (𝜇𝐹𝐶 ̃ (𝑜)𝑜𝑝 𝜇𝐹𝐶2 ̃ (𝑜)) = 𝜎𝜆𝑢.ℎ (𝜎𝜆𝑠.𝑓 (𝜇𝐹𝐶 ̃ (𝑜)) 𝑜𝑝 𝜎𝜆𝑡.𝑔 (𝜇𝐹𝐶 ̃ (𝑜))) f liên quan 𝜇𝐹𝐶 ̃ (𝑜), g liên quan 𝜇𝐹𝐶 ̃ (𝑜) h liên quan đến 𝜇𝐹𝐶 ̃ (𝑜) 𝜇𝐹𝐶 ̃ (𝑜) 𝑅7 : Hoán vị phép Apply phép chọn: điều kiện chọn chứa thuộc tính phép tốn apply trả thì: 𝑎𝑝𝑝𝑙𝑦𝑠𝜆𝜇𝑠.𝑒 (𝜎𝜆𝑡.𝑓 (𝜇𝐹𝐶 ̃ (𝑜))) = 𝜎𝜆𝑡.𝑓 (𝑎𝑝𝑝𝑙𝑦𝑠𝜆𝜇𝑠.𝑒 (𝜇𝐹𝐶 ̃ (𝑜))) 𝑅8 : Hoán vị phép làm phẳng (flat) phép apply tập đa tập: giả sử 𝜇𝐹𝐶 ̃ (𝑜) ̃ thể lớp X tập thuộc tính phức lớp 𝐹𝐶 : 𝑓𝑙𝑎𝑡𝑠 𝑎𝑝𝑝𝑙𝑦𝑠 𝜆𝑠.(𝑎𝑝𝑝𝑙𝑦𝑠𝜆𝑡.𝑒 (Π(𝑋) (Π𝑉 (𝜇𝐹𝐶 ̃ (𝑜))))) ( (𝜇𝐹𝐶 ̃ (𝑜)) ) = 𝑎𝑝𝑝𝑙𝑦𝑠𝜆𝑡.𝑒 (𝑓𝑙𝑎𝑡𝑠 (𝑎𝑝𝑝𝑙𝑦𝑠𝜆𝑠.Π(𝑋) (Π𝑉(𝜇𝐹𝐶 ̃ (𝑜))) (𝜇𝐹𝐶 ̃ (𝑜)))) Biểu thức vế trái, có biểu thức e tác động trước tập tập (thu Π(𝑋) ) sau làm phẳng thành tập; biểu thức vế phải có phép tốn làm phẳng ta cs động trước (kết thu tập), sau thực phép tốn apply 22 𝑅9 : Tính kết hợp phép hợp: 𝜇𝐹𝐶 ̃ (𝑜) ) 𝑢𝑛𝑖𝑜𝑛 𝜇𝐹𝐶 ̃ (𝑜) ̃ lớp 𝐹𝐶 ̃1 , 𝑅10 : Các luật kế thừa phép chọn phép apply: 𝐹𝐶 thể 𝜇𝐹𝐶 ̃ (𝑜) tập thể 𝜇𝐹𝐶 ̃ (𝑜): 𝜎𝜆𝑠.𝑓 (𝜇𝐹𝐶 ̃ (𝑜)) 𝑢𝑛𝑖𝑜𝑛 𝜎𝜆𝑠.𝑓 (𝜇𝐹𝐶 ̃ (𝑜)) ( 𝜇𝐹𝐶 ̃ (𝑜) 𝑢𝑛𝑖𝑜𝑛 𝜇𝐹𝐶 ̃ (𝑜)) 𝑢𝑛𝑖𝑜𝑛 𝜇𝐹𝐶 ̃ (𝑜) 𝜇𝐹𝐶 ̃ (𝑜) 𝑢𝑛𝑖𝑜𝑛 ( = 𝜎𝜆𝑠.𝑓 (𝜇𝐹𝐶 ̃ (𝑜))𝑎𝑝𝑝𝑙𝑦𝑠𝜆𝑠.𝑒 (𝜇𝐹𝐶 ̃ (𝑜))𝑢𝑛𝑖𝑜𝑛 𝑎𝑝𝑝𝑙𝑦𝑠𝜆𝑠.𝑒 (𝜇𝐹𝐶 ̃ (𝑜)) = 𝑎𝑝𝑝𝑙𝑦𝑠𝜆𝑠.𝑒 (𝜇𝐹𝐶 ̃ (𝑜)) 3.3.1.1 Tḥt tốn tối ưu hóa truy vấn mờ Các bước thuật tốn sau: Mơ tả phương pháp: HEURISTIC Đầu vào: Khởi tạo phân tích cú pháp từ biểu thức đại số đối tượng mờ Đầu ra: Kế hoạch đánh giá tốt 1: Áp dụng luật (𝑅1 ), (𝑅2 ) biến đổi dãy phép chọn tương đương: tách phép chọn thành phép chọn 2: Sử dụng luật kế thừa phép chiếu (𝑅3 ), phép chọn phép Apply (𝑅10 ) tổ hợp dãy phép chiếu, chọn thành phép chiếu phép chọn 3: Đối với phép chọn, sử dụng luật (𝑅4 ), (𝑅6 ), (𝑅7 ), (𝑅10 ), "đẩy" phép chọn xuống lớp thành phần hoặc "qua" nút kết nối phép tạo nhóm 4: Đối với phép chiếu (đối tượng, tập, bộ), sử dụng luật (𝑅3 ), (𝑅4 ), (𝑅5 ) nhằm đẩy phép chiếu xuống sâu tốt Nếu tập thuộc tính chiếu bao gồm tất thuộc tính biểu thức loại bỏ phép chiếu (vì phép chiếu vơ ích) 5: Sử dụng luật (𝑅8 ), (𝑅9 ), (𝑅10 ) lớp đối tượng mờ, để loại bỏ phần tử trùng lặp lớp đối tượng mờ đó;di chuyển phép làm phẳng (flat), phép loại bỏ trùng lặp đa tập (fuzzybagtoset) lên trước phép tốn nhóm hoặc kết nối 6: Xác định đại diện cho nhóm phép tốn thực thi thuật tốn Ví dụ 3.2: Về chuyển đổi truy vấn Ta xét truy vấn FOQL3: Tìm họ nhân viên quản lý dự có cấp độ “Cao” ngày giao “mùa thu” Truy vấn định FOQL sau: FOQL3: SELECT Hoten FROM DUAN, DUANQUANTRONG, DUANTHEODOI WHERE DUAN.Capdo = ‘Cao’ AND DUAN.Foid =DUANQUANTRONG.Foid AND DUANQUANTRONG.Foid = DUANTHEODOI.Foid AND NGAYGIAO = ’’Mua thu”; Cây truy vấn ban đầu thể hình 3.3(a) Việc thực thi trực tiếp trước tiên tạo tệp lớn chứa tích đề cát tồn tệp DUAN, DUANQUANTRONG DUANTHEODOI Đó lý truy vấn ban đầu không thực thi, chuyển đổi thành tương đương khác có hiệu để thực thi hình 3.3(e) Các bước chuyển đổi truy vấn trình tối ưu hóa phương pháp heuristic a) Thực thi kế hoạch đơn giản: Trình xử lý truy vấn tạo biểu thức đại số quan hệ tương đương cho truy vấn đầu vào chuyển tới trình tối ưu hóa truy vấn b) Loại bỏ Tích đề các: Các phép tích đề kết hợp với phép chọn(và với phép chiếu) sử dụng liệu từ hai mối quan hệ để tạo thành liên kết Sau thay phép tích đề phép nối, biểu thức đại số quan hệ cho câu truy vấn sau loại bỏ phép tích đề 23 c) Đẩy phép chọn: Phép chọn đẩy xuống biểu thức, xa Bằng cách đẩy phép chọn xuống sớm tốt Biểu thức đại số quan hệ cho câu truy vấn sau đẩy phép chọn Hình 3.3: Cây đại số đối tượng tối ưu hóa truy vấn mờ 3.3.1.2 Đánh giá thực nghiệm 3.4 Kết luận chương Nhằm tăng tính hiệu trình xử lý truy vấn, hệ quản trị sở liệu thực bước tiền xử lý câu truy vấn, gọi tối ưu hóa truy vấn thực trước thực thi trả kết cho người dùng Trong sở liệu hướng đối tượng mờ mô hình phải thực bước tiền xử lý Trong phần mục này, đề xuất số tiếp cận sau: Đề xuất đại số kết hợp mờ Trong chúng tơi định nghĩa phép tốn kết hợp mờ (Phép chọn mờ, phép nối mờ, phép chiếu mờ, phép chia mờ, phép trừ mờ, phép hợp mờ phép giao mờ làm sở cho việc xây dựng đại số truy vấn mờ cho mơ hình sở liệu hướng đối tượng mờ [CT4] Đề xuất phương pháp tiền xử lý truy vấn nhằm đảm bảo hệ thống hoạt động hiệu cho trình phân tích, kiểm tra, chuyển đổi câu truy vấn sang biểu thức đại số đối tượng mờ viết lại câu truy vấn [CT5], [CT6] Phát triển thuật toán heuristic nhằm tối ưu hóa truy vấn đại số đối tượng mờ dựa quy tắc phép biến đổi tương đương Phân tích số thử nghiệm sử dụng thuật toán đề xuất cho thấy hiệu suất xử lý truy vấn tốt hơn, điều chứng tỏ nâng cao hiệu phương pháp đề xuất [CT1], [CT2] 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các kết luận án đạt là: 1- Đề xuất bốn thuật toán xử lý truy vấn FQSIMSC (Fuzzy Query Sim Single Condition), FQSIMMC (Fuzzy Query Sim Multi-Condition), FQSEM (Fuzzy Query SEM) FQINTERVAL (Fuzzy Query Interval) nhằm tăng tính hiệu cho trình xử lý liệu: Trong ba thuật tốn (FQSIMSC, FQSIMMC, FQSEM) sử dụng độ đo tương tự dựa vào đại lượng tính tốn (SIM, SEM), thuật toán thứ tư FQINTERVAL xử lý truy vấn trực tiếp khoảng mờ đề xuất 2- Đề xuất thuật toán phân cụm EMC cải tiến dựa thuật toán Expectation Maximization (EM) cách bổ sung bước (C) vào thuật toán để tăng độ mềm dẻo giảm tối ưu hóa cục tăng tối ưu hóa tồn cục q trình phân cụm Đề xuất phương pháp đánh giá tính hiệu thuật tốn EMC dựa vào đánh giá khác biệt nhóm Đề xuất phương pháp phân khoảng mờ dựa vào kết phân cụm thuật toán EMC 3- Đề xuất đại số kết hợp mờ (Phép chọn mờ, phép nối mờ, phép chiếu mờ, phép chia mờ, phép trừ mờ, phép hợp mờ phép giao mờ) làm sở cho việc xây dựng đại số truy vấn cho mơ hình sở liệu hướng đối tượng mờ Đề xuất thuật toán xử lý tối ưu hóa truy vấn mờ phương pháp heuristic dựa quy tắc phép biến đổi tương đương Những vấn đề đặt từ kết nghiên cứu luận án: Nghiên cứu mơ hình liên kết khối mờ (Link Data Fuzzy Cube) nhằm tăng cường khả truy vấn hỗ trợ báo cáo thống kê mơ hình sở liệu mờ Nghiên cứu phương pháp xử lý truy vấn mờ dựa lý thuyết dàn dao Nghiên cứu thuật toán xứ lý song song cho truy vấn mờ Nghiên cứu mơ hình xử lý truy vấn mờ mức cao có khả tương tác mơ hình sở liệu mờ đề xuất ... 3.2.2 Phương pháp xử lý truy vấn mờ Phương pháp xử lý truy vấn đối tượng mờ sở liệu HĐT mờ tương tự sở liệu hướng đối tượng, chúng định nghĩa lại cho phù hợp thảo luận phần Hình 3.1 đề xuất phương. .. phương pháp xử lý truy vấn đối tượng mờ sau: Hình 3.1: Phương pháp xử lý truy vấn hướng đối tượng mờ 3.2.2.1 Các bước phương pháp Các truy vấn thể ngôn ngữ khai báo tựa ngơn ngữ truy vấn (SQL92)... trình xử lý, tối ưu hóa truy vấn trình bày chương 18 Chương XỬ LÝ VÀ TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ Ngôn ngữ truy vấn thành phần quan trọng hệ thống sở liệu (có sở liệu