Thông qua toán học mờ một số mô hình cơ sở dữ liệu hướng đối tượng mờ đã được đề xuất như: Mô hình theo cách tiếp cận lý thuyết xác suất, mô hình theo cách tiếp cận lý thuyết tập mờ, mô hình theo cách tiếp cận lý thuyết khả năng, mô hình theo cách tiếp cận quan hệ tương tự, và mô hình theo cách tiếp cận đại số gia tử. Do đặc thù sự phân bố của dữ liệu mà mỗi mô hình có những ưu điểm khác nhau. Tuy nhiên, các mô hình này đều cùng chung mục đích đó là xử lý và lưu trữ các thông tin không chắc chắn, không đầy đủ mà các hệ quản trị cơ sở dữ liệu truyền thống quan hệ/hướng đối tượng không thực hiện được. Trong mục này, tập trung nghiên cứu các điểm tương đồng của các mô hình này chẳng hạn như chúng cùng thực hiện việc lưu trữ và khai thác dữ liệu mờ theo hai hướng, đó là: mở rộng ngữ nghĩa của dữ liệu để khai thác dữ liệu rõ với yếu tố mờ và mở rộng miền trị thuộc tính để biểu diễn được dữ liệu mờ.
Hướng mở rộng ngữ nghĩa, dữ liệu vẫn được lưu trữ như mô hình hướng đối tượng, dữ liệu tại các thuộc tính của các đối tượng vẫn là dữ liệu rõ nhưng cho phép khai thác dữ liệu với ngữ nghĩa rộng hơn (có yếu tố mờ).
52
Hướng mở rộng miền trị thuộc tính là cách mở rộng tổng quát hơn, phản ánh đúng bản chất của vấn đề, nó cho phép bổ sung thêm các cú pháp trong biểu diễn dữ liệu nhằm biểu diễn được dữ liệu mờ. Với cách mở rộng này, ngoài việc đưa vào hệ thống ký hiệu còn phải xây dựng được cơ sở logic cho việc lập luận trên các ký hiệu để xử lý, khai thác được dữ liệu.
Các mô hình trên đều dựa vào mô hình dữ liệu đối tượng chuẩn ODMG, đồng thời kết hợp ngôn ngữ mô hình hóa UML để biểu diễn trực quan hóa cho các khái niệm mờ như: Mức lược đồ mờ, mức thể hiện lớp mờ, mức thuộc tính mờ. Bên cạnh đó các khái niệm mờ cũng đã được áp dụng vào các mối quan hệ như: Tổng quát hóa mờ, kết tập mờ, kết hợp mờ và phụ thuộc mờ. Các biểu diễn này nhằm mục đích mô hình hóa dưới các góc nhìn về mô hình hóa logic và vật lý để từ đó luận án đề xuất các phép toán đại số đối tượng mờ cho câu truy vấn và các phương pháp xử lý truy vấn dựa vào các khả năng của thuộc tính có thể biểu diễn các giá trị mờ nhằm thực hiện việc xử lý và trích rút dữ liệu/thông tin không chắc chắn, không đầy đủ trên FOODB sẽ được trình bày cụ thể trong chương 2 và 3.
53
Chương 2 CÁC PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỜ DỰA VÀO
ĐỘ ĐO TƯƠNG TỰ VÀ GOM CỤM DỮ LIỆU
Các chức năng cơ bản của các hệ cơ sở dữ liệu (CSDL) truyền thống và hướng đối tượng là: tạo lập cơ sở dữ liệu, cập nhật dữ liệu, tìm kiếm và kết xuất thông tin, kiểm soát, điều khiển và truy cập vào CSDL. Các hệ CSDL này còn có các bước tiền xử lý nhằm tăng tính hiệu quả trong quá trình thao tác và trích rút dữ liệu như: so sánh tính tương tự, gom cụm, tối ưu hóa. Do đó, mô hình cơ sở dữ liệu hướng đối tượng mờ cũng cần phải thực hiện các bước tiền xử lý như vậy. Mô hình cơ sở dữ liệu hướng đối tượng mờ rất phức tạp vì các đối tượng lưu trữ và xử lý có thể là mờ hoặc rõ phụ thuộc vào kiểu thuộc tính và giá trị của thuộc tính đó là không chắc chắn, không chính xác, mơ hồ, và có các mối quan hệ giữa các đối tượng là mờ [21], [74] - [77]. Chính vì sự phức tạp của mô hình này mà cần phải có các hướng tiếp cận riêng cho một tập hợp của quá trình tiền xử lý dữ liệu cho truy vấn mờ. Chương này, giới thiệu phương pháp truy vấn dữ liệu mới dựa vào độ đo tương tự (SIM, SEM và DIS ) nhằm trích rút thông tin thỏa mãn các điều kiện về mức độ tương tự giữa các đối tượng có giá trị thuộc tính mờ hoặc rõ. Đề xuất thuật toán xử lý truy vấn dựa vào thuật toán gom cụm dữ liệu cải tiến EMC và phân vùng mờ. Thuật toán xử lý câu truy vấn thông qua việc thực hiện trích chọn dữ liệu trực tiếp trên một số phân vùng mờ được gom cụm sẽ cho kết quả nhanh hơn và hiệu quả hơn.
Các kết quả chính được trình bày trong chương này liên quan đến so sánh tính tương tự, gum cụm dữ liệu và xây dựng vùng mờ được công bố trong các bài báo [CT1], [CT3], [CT6].