So sánh và gom cụm các đối tượng trong cơ sở dữ liệu hướng đối tượng mờ đã được đề xuất trong phần mục này, các kết quả đề xuất là cơ sở cho một chuỗi của các giai đoạn tiền xử lý truy vấn trong mô hình cơ sở dữ liệu hướng đối tượng mờ.
1. Đề xuất các phương pháp so sánh tính tương tự giữa các đối tượng mờ dựa vào các kỹ thuật của độ đo ngữ nghĩa của dữ liệu mờ và khoảng cách Euclidean. Các đề xuất này là sự đóng góp đáng kể cho hệ thống cơ sở cho
97
CSDL hướng đối tượng mờ nhằm làm gia tăng tính hiệu quả cho sự hoạt động của hệ thống khi mà có nhiều lựa chọn cho việc phân loại đối tượng theo nhóm dựa vào các tiêu chí quan hệ tương tự giữa các đối tượng mờ hay rõ. Sự phân loại này là một trong các bước tiền xử lý của các hệ thống cơ sở dữ liệu hướng đối tượng hay CSDL hướng đối tượng mờ để thực hiện các bước tiếp theo đó là gom cụm, lưu trữ và xử lý truy vấn.
2. Đề xuất thuật toán gom cụm dữ liệu EMC được cải tiến từ thuật toán EM từ mô hình GMM. Thông qua đề xuất này nhằm giúp cho hệ thống cơ sở cho CSDL hướng đối tượng mờ hoạt động hiệu quả hơn khi thực hiện các quy trình trình lưu trữ dữ liệu trên bộ nhớ chính, nhớ phụ hay ngay cả trên các dữ liệu đám mây và các thao tác trích rút dữ liệu trên các cụm. Đánh giá thuật toán EMC dựa vào các tính toán như: tỷ lệ biến thiên, sự sai khác, độ lệnh chuẩn, và phương sai để kiểm chứng hiệu quả của thuật toán.
3. Phát triển phương pháp xây dựng các khoảng mờ dựa vào kết quả của thuật toán phân cụm EMC. Từ kết quả đạt được của phân cụm, phương pháp xây dựng các khoảng mờ là chuyển các giá trị thuộc tính định lượng của các cụm về dạng ngôn ngữ hay giá trị thuộc nhằm giúp cho câu truy vấn tự nhiên hơn trong thế giới thực.
4. Thông qua các đề xuất đối sánh và gom cụm dữ liệu, luận án đã đề xuất các thuật toán xử lý truy vấn mờ mới như: Thuật toán xử lý truy vấn đơn, đa điều kiện mờ FQSIMSC (Fuzzy Query Sim Single Condition), FQSIMMC (Fuzzy
Query Sim Multi-Condition) và FQSEM (Fuzzy Query SEM). Các thuật toán này xử lý câu truy vấn với mệnh đề điều kiện là các giá trị như: giá trị ngôn ngữ (“Tuổi=Trẻ”) hay giá trị có tính ước lượng (“Tuổi=khoảng 21 tuổi”). Hơn nữa, luận án cũng đã đề xuất thuật toán xử lý truy vấn trên các khoảng mờ
FQINTERVAL (Fuzzy Query Interval), nhằm giúp người dùng thực hiện
trích lọc dữ liệu tự nhiên hơn thông qua mệnh đề điều kiện có giá trị được biểu diễn bằng ngôn ngữ (Tuổi = ”Trung niên”)
Các kết quả này sẽ là nền tảng cơ sở lý thuyết và ứng dụng cho quá trình xử lý truy vấn sẽ được trình bày trong chương 3.
98
Chương 3XỬ LÝ VÀ TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ
LIỆU HƯỚNG ĐỐI TƯỢNG MỜ
Ngôn ngữ truy vấn là một thành phần quan trọng của bất kỳ hệ thống cơ sở dữ liệu nào (cơ sở dữ liệu quan hệ, cơ sở dữ liệu hướng đối tượng rõ hoặc mờ). Trong các mô hình cơ sở dữ liệu hướng đối tượng mờ, mặc dù đã có các đề xuất gần đây về phương pháp thao tác xử lý truy vấn dữ liệu. Tuy nhiên, để đối phó hiệu quả với các tình huống phức tạp nơi mà dữ liệu được lưu trữ dưới dạng các đối tượng có chứa thông tin không chắc chắn. Do đó, cần phải có ngôn ngữ truy vấn để xử lý cho các tình huống như vậy và kèm theo đó là các kỹ thuật xử lý mờ được áp dụng để đối phó với sự thiếu chính xác và không chắc chắn. Vì vậy, để đảm bảo cho mô hình cơ sở dữ liệu hướng đối tượng mờ được hoàn thiện hơn, nội dung chương này đề xuất một số tiếp cận mới như sau:
Giới thiệu các phép toán đại số đối tượng mờ cụ thể như: phép hợp mờ fuzzy union (∪̃), phép giao mờ fuzzy intersection (∩̃), phép nối mờ fuzzy join
(⋈̃ ),phép tích đề các mờ fuzzy cross product (×̃), phép hiệu mờ fuzzy difference (≃) và phép chia mờ fuzzy division (÷̃). đây là cơ sở cho việc xây dựng biểu thức đại số truy vấn mờ [CT2].
Trình bày về phương pháp xử lý truy vấn mờ, những phương pháp xử lý này là các bước tiền xử lý cho quá trình thực hiện tối ưu hóa của hệ thống nhằm tăng tính hiệu quả cho quá trình thực hiện thao tác trên dữ liệu mờ [CT4]. Trình bày phương pháp tối ưu hóa truy vấn dựa vào các phép biến đổi tương
đương, các phép biến đổi này giúp cho giải thuật Heuristic giảm thời gian xử lý trên cây đại số đối tượng mờ [CT5].
99