So sánh hai đối tượng dựa vào độ đo tương tự mờ

Một phần của tài liệu (Luận án tiến sĩ) Một số phương pháp xử lý truy vấn mới trên cơ sở dữ liệu hướng đối tượng mờ (Trang 58)

Theo định nghĩa trên, các khái niệm về mức độ tương đương có thể được rút ra như sau.

Định nghĩa 2.2: Cho 𝜋𝐴 và 𝜋𝐵 là hai dữ liệu mờ và 𝑆𝐼𝐷(𝜋𝐴, 𝜋𝐵) là mức độ 𝜋𝐴 bao hàm ngữ nghĩa của 𝜋𝐵. SE(𝜋𝐴, 𝜋𝐵) được xác định như sau.

𝑆𝐸(𝜋𝐴, 𝜋𝐵) = min(𝑆𝐼𝐷(𝜋𝐴, 𝜋𝐵), 𝑆𝐼𝐷(𝜋𝐵, 𝜋𝐴)) (2.2)

Mức độ bao gồm ngữ nghĩa của hai dữ liệu mờ được đưa ra dựa trên phân bố khả năng [26].

Bằng cách sử dụng các định nghĩa ở trên, ta có thể đánh giá mức độ tương tự ngữ nghĩa của các thuộc tính có giá trị mờ.

2.1.1.3 So sánh hai đối tượng dựa vào độ đo tương tự mờ

Độ đo tương tự được biết đến rộng rãi [31] và thường được sử dụng để so sánh các đối tượng rõ (có các thuộc tính chính xác), nhưng nó vẫn còn khó khăn để đánh giá và định lượng đối với các loại dữ liệu biểu diễn thông tin không chắc chắn, không rõ ràng, mờ. Đánh giá mức độ hai đối tượng trong một câu lệnh truy vấn là tương tự hoặc tương thích là một yếu tố thiết yếu. Do đó, việc đánh giá sự giống nhau đã trở nên quan trọng trong việc phát triển hệ thống phân loại, truy xuất thông tin và quyết định.

Để so sánh các đối tượng, có ba loại dữ liệu sau đây có thể được xem xét: số (cao 175 cm), phân loại (màu: trắng, đen) và các thuộc tính có giá trị mờ (tuổi: trẻ, trung niên, già). Trong mục này, loại thuộc tính thứ ba được giải quyết theo chiều sâu. Vì vậy, các thuộc tính của một đối tượng bất kỳ có thể được phân loại như sau: Thuộc tính với các giá trị rõ (hoặc số). Mỗi thuộc tính có một miền cơ bản được xác định 𝑈 ⊆ ℝ thường là một tập hợp có giới hạn.

Thuộc tính phân loại: chuyển các giá trị trong một tập hợp rời rạc về dạng ngôn ngữ. Thuộc tính mờ (hoặc thuộc tính có giá trị mờ). Mỗi giá trị thuộc tính là một tập hợp các nhãn ngôn ngữ, được mô tả bởi một tập hợp 𝐹(𝑈) = {𝐴|𝐴 ⊆ 𝑈} được xác định trên miền cơ bản U. Mỗi tập con mờ 𝐴 ∈ 𝐹(𝑈) được đặc trưng bởi hàm thành viên

57

Hầu hết các phép đo khoảng cách và tương tự được định nghĩa cho dữ liệu số và có một số phần mở rộng cho dữ liệu phân loại [81], [82]. Tuy nhiên, đôi khi có thể có thêm thông tin ngữ nghĩa về miền. Tính toán với các từ (xử lý cả thuộc tính số và ký hiệu) đối với các miền phức tạp thông thường được xử lý bằng cách thêm một khía cạnh tự nhiên hơn vào dữ liệu của miền này [83].

Các đối tượng không giống nhau trong các ví dụ dưới đây được biểu diễn dưới dạng các điểm tọa độ trong không gian và khoảng cách theo hệ mét giữa các điểm tương ứng. Thông thường khoảng cách Euclide được sử dụng để xác định sự không giống nhau giữa hai khái niệm hoặc đối tượng. Tuy nhiên, tác giả đề xuất sử dụng khoảng cách Euclide áp dụng cho các tập mờ, thay vì chỉ cho các điểm trong một không gian. Động lực để nghiên cứu tính tương tự giữa các đối tượng mờ được xuất phát từ ví dụ sau.

Ví dụ 2.1: Một sinh viên đang tìm cách đặt phòng và muốn so sánh các phòng hiện

có để chọn phòng phù hợp nhất. Mỗi phòng đều được mô tả bởi chất lượng, giá cả, và khoảng cách đến Viện hàn lâm khoa học Việt Nam (VAST). Giả sử rằng, đã tìm thấy hai phòng như mô tả trong hình 2.1, và "Làm thế nào có thể so sánh hai phòng này?".

Hình 2.1: Nghiên cứu điển hình về so sánh các đối tượng mờ

Như trong hình 2.1, việc mô tả hai phòng là mơ hồ, vì các thuộc tính của chúng được biểu diễn bằng cách sử dụng các giá trị ngôn ngữ [84] và các giá trị số. Nói cách khác, Phòng 1 và Phòng 2 là các đối tượng mờ của lớp Phòng (có nghĩa là, ít nhất một thuộc tính của chúng có giá trị mờ). Cần phải nhất quán trong việc định dạng hay biểu diễn giá trị mờ. Khi các tập mờ mô tả các giá trị ngôn ngữ của một miền cụ thể và các hàm thành viên của chúng được xác định, các đối tượng được so sánh một cách chính xác hơn.

Trước khi giới thiệu phép đo tương tự để so sánh hai đối tượng mờ (hai phòng như mô tả trong hình 2.1), chúng ta có thể:

1. Xác định tên miền cơ bản cho mỗi thuộc tính mờ. Phòng 1 Chất lượng: Cao; Giá: 75000vnd VAST: Xa Phòng 2 Chất lượng: Trung bình; Giá: Đắt VAST: 1km ?

58

2. Xác định ngữ nghĩa của các nhãn ngôn ngữ bằng cách sử dụng các tập mờ (hoặc các thuật ngữ mờ được đặc trưng bởi các hàm thành viên) được xây dựng trên các tên miền cơ bản.

3. Tính toán sự tương đồng giữa các thuộc tính tương ứng.

4. Tổng hợp hoặc tính toán mức trung bình trên tất cả các điểm tương đồng để đưa ra quyết định cuối cùng về mức độ tương tự của hai đối tượng (phòng).

Khi so sánh hai đối tượng mờ, ta cần xem xét các trường hợp sau:  Trường hợp I: so sánh hai thuộc tính mờ.

 Trường hợp II: so sánh một thuộc tính rõ với một thuộc tính mờ và ngược lại.  Trường hợp III: so sánh hai đối tượng có cùng thể hiện của một lớp.

 Trường hợp IV: so sánh hai đối tượng là thể hiện của hai lớp khác nhau.

A. So sánh hai thuộc tính mờ

Trong phần này, để giải quyết cho trường hợp I chúng ta so sánh các đối tượng có các thuộc tính mờ. Ban đầu, xác định sự tương tự của hai đối tượng mờ thông qua thuộc tính mờ và sau đó tính toán sự giống nhau tổng thể giữa hai đối tượng mờ bằng cách sử dụng hai công thức (2.9) và (2.10). Hình 2.2 minh họa cách tính tương tự giữa hai đối tượng mờ.

Định nghĩa 2.4: Cho hai đối tượng 𝑜1 𝑣à 𝑜2 các tập các tập thuộc tính tương ứng như sau 𝑎𝑡𝑂1 = {𝑎1, 𝑎1, … , 𝑎𝑛} và 𝑎𝑡𝑂2 = {𝑏1, 𝑏1, … , 𝑏𝑛}. Tính tương tự 𝑆: 𝑎𝑡𝑂1× 𝑎𝑡𝑂2 → [0; 1] giữa hai thuộc tính tương ứng với 𝑎𝑗, 𝑏𝑗 được định nghĩa như sau:

𝑆(𝑎𝑗, 𝑏𝑗) = 1 − 𝑑(𝑎𝑗, 𝑏𝑗)

1 + 𝑘𝑗𝑑(𝑎𝑗, 𝑏𝑗); 𝑣ớ𝑖 𝑘𝑗 ≥ 0 (2.3)

Trong đó k là mức độ thuộc của thuộc tính thứ j, 𝑎𝑗 𝑣à 𝑏𝑗 là thuộc tính thứ j với j=1, 2,…, n, n là số thuộc tính và độ đo khoảng cách metric d được biểu diễn bằng ánh xạ ⊕𝑗: [0; 1]𝑚𝑗 → [0; 1] như sau:

𝑑(𝑎𝑗, 𝑏𝑗) =⊕𝑗 (𝑑𝑖𝑠(𝐴1𝑗, 𝐵1𝑗), 𝑑𝑖𝑠(𝐴2𝑗, 𝐵2𝑗), … , 𝑑𝑖𝑠 (𝐴𝑚𝑗𝑗, 𝐵𝑚𝑗𝑗)) (2.4)

trong đó 𝐴𝑚𝑗𝑗, 𝐵𝑚𝑗𝑗 giá trị thuộc tính tương ứng của 𝑎𝑗 𝑣à 𝑏𝑗, với 𝑚𝑗 là số lượng các tập mờ đại diện cho giá trị của thuộc tính thứ j trên miền cơ bản 𝑈𝑗. ⊕𝑗 có thể được

59

xác định bằng cách tổng cho tất cả bình phương khoảng cách Euclide của tập con mờ chia cho số tập mờ 𝑚𝑗: 𝑑(𝑎𝑗, 𝑏𝑗) = [∑ 𝑑𝑖𝑠(𝐴𝑖𝑗, 𝐵𝑖𝑗) 2 𝑚𝑗 𝑖=1 𝑚𝑗 ] 1 2 ⁄ (2.5)

Khoảng cách 𝑑𝑖𝑠: 𝐹(𝑈𝑗) × 𝐹(𝑈𝑗) → [0; 1] mô tả sự khác biệt giữa các tập mờ và nó có thể được xác định trong hai trường hợp sau:

a) Nếu thuộc tính 𝑎𝑗 và 𝑏𝑗 là các giá trị ngôn ngữ và ngữ nghĩa của chúng được xác định bằng cách sử dụng các tập mờ được thể hiện bởi cùng một hàm thành viên (𝜇𝐴𝑖𝑗(𝑥) = 𝜇𝐵𝑖𝑗(𝑥) với mọi 𝑥 ∈ 𝑈𝑗, ví dụ so sánh hai phòng học (xem Hình 2.4 trong ví dụ 2.1), sau đó:

𝑑𝑖𝑠(𝐴𝑖𝑗, 𝐵𝑖𝑗) = |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐴𝑖𝑗(𝑦)| ; với mọi 𝑥, 𝑦 ∈ 𝑈𝑗 (2.6)

b) Nếu các thuộc tính 𝑎𝑗, và 𝑏𝑗 là các giá trị ngôn ngữ được biểu diễn bằng các hàm thành viên khác nhau tương ứng với 𝜇𝐴𝑖𝑗(𝑥), 𝜇𝐵𝑖𝑗(𝑥) , xem ví dụ 2.2 so sánh hai phòng học (Hình 2.6), ta có:

𝑑𝑖𝑠(𝐴𝑖𝑗, 𝐵𝑖𝑗) = |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐵𝑖𝑗(𝑦)| ; với mọi 𝑥, 𝑦 ∈ 𝑈𝑗 (2.7)

Định nghĩa độ tương tự được đề xuất trong phương trình (2.3) cho phép ta xác định mức độ của các thuộc tính của hai đối tượng là tương tự nhau. Tham số 𝑘𝑗 trong phương trình (2.3) được sử dụng để điều chỉnh độ tương tự bằng cách điều chỉnh sự đóng góp của khoảng cách d trong phép đo tương tự. Kết quả là, 𝑘𝑗 có thể được tính theo khoảng cách d thông qua ứng dụng của người dùng hoặc có thể được ước tính.

60

Hình 2.2: Tính toán sự giống nhau giữa hai đối tượng mờ 𝑜1𝑜2

Độ đo tương tự 𝑆𝑖𝑚(𝑜1, 𝑜2) giữa hai đối tượng mờ 𝑜1 và 𝑜2là:

𝑆𝑖𝑚(𝑜1, 𝑜2) =⊕ (𝑆(𝑎1, 𝑏1), 𝑆(𝑎2, 𝑏2), … , 𝑆(𝑎𝑛, 𝑏𝑛) ) (2.8)

trong đó ánh xạ ⊕𝑗: [0,1]𝑛 → [0,1] là toán tử gộp, chẳng hạn như bình quân trọng số hoặc hàm tối thiểu:

1) Trọng số trung bình các điểm tương tự của các thuộc tính

⊕ (𝑆(𝑎1, 𝑏1), 𝑆(𝑎2, 𝑏2), … , 𝑆(𝑎𝑛, 𝑏𝑛) ) = ∑ 𝛼𝑗𝑆(𝑎𝑗, 𝑏𝑗)

𝑛𝑗

𝑗=1

∑𝑛𝑗=1𝛼𝑗 ; 𝛼𝑗 ∈ [0,1] (2.9)

2) Tối thiểu các điểm tương đồng của các thuộc tính là

⊕ (𝑆(𝑎1, 𝑏1), 𝑆(𝑎2, 𝑏2), … , 𝑆(𝑎𝑛, 𝑏𝑛))

= 𝑚𝑖𝑛[𝑆(𝑎1, 𝑏1), 𝑆(𝑎2, 𝑏2), … , 𝑆(𝑎𝑛, 𝑏𝑛)] (2.10)

Mệnh đề 2.1: Độ tương tự 𝑆𝑖𝑚(𝑜1, 𝑜2) của hai đối tượng mờ 𝑜1 và 𝑜2 (như trong phương trình 2.9, 2.10) thỏa mãn các tính chất sau:

a) Tính phản xạ: 𝑆𝑖𝑚(𝑜1, 𝑜1) = 1, với mọi đối tượng 𝑜1

b) Tính tương tự: Sự giống nhau giữa hai đối tượng khác nhau 𝑜1 và 𝑜2 phải nhỏ hơn mức tương tự giữa đối tượng 𝑜1và chính nó: 𝑆𝑖𝑚(𝑜1, 𝑜2) ≤ 𝑆𝑖𝑚(𝑜1, 𝑜1)

c) Tính đối xứng: 𝑆𝑖𝑚(𝑜1, 𝑜2) = 𝑆𝑖𝑚(𝑜2, 𝑜1), với mọi hai đối tượng mờ 𝑜1 và

𝑜2

61

Chứng minh 2.1: Vì 𝑑𝑖𝑠(𝐴𝑖𝑗, 𝐴𝑖𝑗) = |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐴𝑖𝑗(𝑥)| ; với mọi 𝑥 ∈ 𝑈𝑗, 𝑖 = 1, 2, … , 𝑚𝑗, 𝑡ℎì: 𝑑(𝑎𝑗, 𝑎𝑗) = [∑ 𝑑𝑖𝑠(𝐴𝑖𝑗,𝐵𝑖𝑗) 2 𝑚𝑗 𝑖=1 𝑚𝑗 ] 1 2 ⁄ = 0. Như vậy, 𝑆(𝑎𝑗, 𝑎𝑗) = 1−𝑑(𝑎𝑗,𝑎𝑗) 1+𝑘𝑗𝑑(𝑎𝑗,𝑎𝑗)= 1−0

1+𝑘𝑗(0)= 1. Vì vậy, ta nhận được a). Từ a) vì 𝑎𝑗 ≠ 𝑏𝑗, 𝑑(𝑎𝑗, 𝑏𝑗) > 0

kéo theo 𝑆(𝑎𝑗, 𝑏𝑗) < 1. Do đó b) là đúng. Vì 𝑑𝑖𝑠(𝐴𝑖𝑗, 𝐵𝑖𝑗) = |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐵𝑖𝑗(𝑦)| = |𝜇𝐵𝑖𝑗(𝑦) − 𝜇𝐴𝑖𝑗(𝑥)| = 𝑑𝑖𝑠(𝐵𝑖𝑗, 𝐴𝑖𝑗) cho 𝑥, 𝑦 ∈ 𝑈𝑗, thì 𝑑(𝑎𝑗, 𝑏𝑗) = 𝑑(𝑏𝑗, 𝑎𝑗) và như vậy 𝑆(𝑎𝑗, 𝑏𝑗) = 𝑆(𝑏𝑗, 𝑎𝑗). Kết quả là 𝑆𝑖𝑚(𝑜1, 𝑜2) = 𝑆𝑖𝑚(𝑜2, 𝑜1).  Hai trường hợp nêu trên có thể được minh họa bằng các ví dụ sau:

Ví dụ 2.2: Trường hợp I (a): Ta xem xét hai phòng. Mỗi phòng được mô tả bởi chất

lượng và giá thuê phòng của như trong hình 2.3. Để biết hai phòng so sánh với nhau như thế nào, trước tiên ta sẽ xác định độ tương tự giữa chất lượng và giá thuê của cả hai phòng. Xác định miền đặc trưng cơ bản 𝐷𝑄 = [0; 1] của mỗi phòng thuộc trong đoạn [0; 1]. Ta có thể xác định miền mờ của chất lượng phòng bằng cách xác định các tập con mờ 𝐹𝐷𝑄 = {𝑇ℎấ𝑝, 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ, 𝐶𝑎𝑜}, trên miền cơ bản 𝐷𝑄. Ở đây ta giả định chỉ có ba tập con mờ (𝑚𝑗 = 3)

Hình 2.3: Trường hợp I (a) so sánh hai phòng

Khi đó, chất lượng Phòng 1 và chất lượng của Phòng 2 được xác định như sau:

𝑄(𝑃ℎò𝑛𝑔 1) = {0.0 𝑇ℎấ𝑝⁄ , 0.198 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ, 0.375 𝐶𝑎𝑜⁄ ⁄ } 𝑄(𝑃ℎò𝑛𝑔 2) = {0.0497 𝑇ℎấ𝑝⁄ , 0.667 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ, 0.0 𝐶𝑎𝑜⁄ ⁄ }

Sử dụng hàm thành viên được trình bày trong hình 2.4. Tính toán độ đo tương tự giữa các thuộc tính này có thể được đo bằng:

𝑑(𝑎𝑗, 𝑏𝑗) = [ ∑𝑚𝑖=1𝑗 |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐴𝑖𝑗(𝑦)|2 𝑚𝑗 ] 1 2 ⁄ ; 𝑥, 𝑦 ∈ 𝐷𝑄 (2.11)

Cho hai thuộc tính 𝑎1 𝑣à 𝑏1 đại diện cho hai phòng 𝑄(𝑃ℎò𝑛𝑔 1) và 𝑄(𝑃ℎò𝑛𝑔 2), và cho 𝐴11, 𝐴21 và 𝐴31 tương ứng với Rẻ, Trung bình và Đắt. Vậy ta có:

Phòng 1 Chất lượng: (0.3753) Cao; Giá: (0.2357) Trung bình; Phòng 2 Chất lượng: (0.667) Trung bình; Giá: (0.4868) Đắt;

62 𝑑(𝑎1, 𝑏1) = [|𝜇𝐴11(𝑥) − 𝜇𝐴11(𝑦)|2+ |𝜇𝐴21(𝑥) − 𝜇𝐴21(𝑦)|2+ |𝜇𝐴31(𝑥) − 𝜇𝐴31(𝑦)|2 3 ] 1 2⁄ = [|0.0 − 0.0497|2+ |0.1979 − 0.667|2+ |0.3753 − 0.0000|2 3 ] 1 2⁄ ≅ 0.35 Do đó, độ tương tự giữa 𝑎1 và 𝑏1: 𝑆(𝑎1, 𝑏1) = 1−0.35 1+𝑘1(0.35); đối vớ 𝑘1 ≥ 0. Ta có thể nhận được các phép đo tương tự khác nhau giữa các thuộc tính, bằng cách giả định cho các giá trị khác nhau của 𝑘1, ví dụ, khi 𝑘1 = 1, ta nhận được: 𝑆(𝑎1, 𝑏1) ≅ 0.4836

và khi 𝑘1 = 2, ta nhận được: 𝑆(𝑎1, 𝑏1) ≅ 0.4844. Tương tự, ta có thể đo tính tương tự giữa giá thuê của hai phòng. Cho 𝐷𝑃 = [0,600]. Miền mờ 𝐹𝐷𝑃 = {𝑅ẻ, 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ, Đắ𝑡}. Giá cho Phòng 1 và Phòng 2 tương ứng:

𝑃(𝑃ℎò𝑛𝑔1) = {0.2353 𝑅ẻ⁄ , 0.726 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ⁄ , 0.0169 Đắ𝑡⁄ } 𝑃(𝑃ℎò𝑛𝑔2) = {0.0 𝑅ẻ⁄ , 0.2353 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ⁄ , 0.4868 Đắ𝑡⁄ }

Hình 2.4: Trường hợp I (a) Đại diện mờ về chất lượng và giá cả của hai phòng (Sử dụng các hàm thành viên khác nhau)

Cho P(Phòng 1) và P(Phòng 2) được biểu diễn bởi các thuộc tính tương ứng 𝑎2 và

𝑏2. Ta có 𝐴12, 𝐴22, và 𝐴32 tương ứng với Rẽ, Trung bình, và Đắt (Hình 2.4 cho thấy một đại diện mờ của chất lượng và giá cả cho hai phòng). Khoảng cách 𝑑(𝑎2, 𝑏2) ≅ 0.4151. Đối với 𝑘2 = 1, ta nhận được: 𝑆(𝑎2, 𝑏2) ≅ 0.4133, và khi 𝑘2 = 2, ta nhận được: 𝑆(𝑎2, 𝑏2) ≅ 0.3196. Do đó, Cách tính tương tự tổng quát: 𝑆𝑖𝑚(𝑜1, 𝑜2) = 𝑆𝑖𝑚(𝑝ℎò𝑛𝑔1, 𝑝ℎò𝑛𝑔2) = ⊕ (𝑆(𝑎1, 𝑏1), 𝑆(𝑎2, 𝑏2)) được tính như sau:

1) Trọng số trung bình các điểm tương tự của các thuộc tính: Giả sử rằng 𝛼1 = 0.5 và 𝛼2 = 0.8 . Khi 𝑘1 = 𝑘2 = 1 ta nhận được:

63 𝑆𝑖𝑚(𝑜1, 𝑜2) =∑ 𝛼𝑗𝑆(𝑎𝑗, 𝑏𝑗) 2 𝑗=1 ∑2𝑗=1𝛼𝑗 = 0.5 ∗ 𝑆(𝑎1, 𝑏1) + 0.8 ∗ 𝑆(𝑎2, 𝑏2) 0.5 + 0.8 ≅ 0.4403 Và khi 𝑘1 = 𝑘2 = 1 ta có: 𝑆𝑖𝑚(𝑜1, 𝑜2) ≅ 0.3445; hoặc

2) Tối thiểu các điểm tương tự của các thuộc tính: Khi 𝑘1 = 𝑘2 = 1 ta có:

𝑆𝑖𝑚(𝑜1, 𝑜2) = 𝑚𝑖𝑛𝑛=2[0.4836,0.4133] = 0.4133

Và khi 𝑘1 = 𝑘2 = 2 ta có: 𝑆𝑖𝑚(𝑜1, 𝑜2) = 0.3196

Ví dụ 2.3: Trường hợp I (b): Trong trường hợp so sánh hai phòng ở được mô tả

trong Hình 2.5, ví dụ: khi các hàm thành viên của các tập mờ là khác nhau, ta có:

Hình 2.5: Trường hợp I (b) So sánh phòng 𝑑(𝑎𝑗, 𝑏𝑗) = [ ∑𝑚𝑖=1𝑗 |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐵𝑖𝑗(𝑦)|2 𝑚𝑗 ] 1 2 ⁄ ; 𝑥, 𝑦 ∈ 𝐷 (2.12)

Gọi 𝐴11, 𝐵11 đại diện cho Thấp, 𝐴21, 𝐵21 đại diện cho bình thường, và 𝐴31, 𝐵31 đại diện cho Cao. Như vậy 𝑑(𝑎1, 𝑏1) ≅ 0.2469. Do đó, sự giống nhau giữa 𝑎1 và 𝑏1 khi

𝑘1 = 1, thì: 𝑆(𝑎1, 𝑏1) ≅ 0.6039, và ta nhận được: 𝑆(𝑎1, 𝑏1) ≅ 0.5041 khi 𝑘1 = 2. Ta cũng có thể so sánh giá cả 𝑎2 và 𝑏2 theo cùng một cách, trong đó 𝐴12, 𝐵12 đại diện cho Rẽ, 𝐴22, 𝐵22 đại diện cho Trung bình, và 𝐴32, 𝐵32 đại diện cho Đắt (tương ứng với chất lượng và giá cả cho cả hai phòng trong Hình 2.6). Như vậy ta có:

𝑑(𝑎2, 𝑏2) ≅ 0.5979 và khi 𝑘2 = 1, ta nhận được 𝑆(𝑎2, 𝑏2) ≅ 0.2566 và khi 𝑘2 = 2, ta nhận được: 𝑆(𝑎2, 𝑏2) ≅ 0.1871.

Điểm tương đồng 𝑆𝑖𝑚(𝑜1, 𝑜2) giữa hai phòng được tính như sau:

1) Điểm tương tự trung bình của các thuộc tính giống nhau: cho 𝛼1 = 0.5 và

𝛼2 = 0.8. Sau đó, khi 𝑘1 = 𝑘2 = 1 ta nhận được: 𝑆𝑖𝑚(𝑜1, 𝑜2) ≅ 0.3902, và khi 𝑘1 = 𝑘2 = 2 ta nhận được: 𝑆𝑖𝑚(𝑜1, 𝑜2) ≅ 0.3090.

2) Tối thiểu các điểm tương tự của các thuộc tính: khi 𝑘1 = 𝑘2 = 1 ta nhận được:𝑆𝑖𝑚(𝑜1, 𝑜2) ≅ 0.2566, và khi 𝑘1 = 𝑘2 = 2 ta nhận được:𝑆𝑖𝑚(𝑜1, 𝑜2) ≅ 0.1871. Phòng 1 Chất lượng: (0.3753) Cao; Giá: (0.2357) Trung bình Phòng 2 Chất lượng: (0.402) Trung bình ; Giá: (0.70) Đắt

64

Hình 2.6: Trường hợp I (b) Đại diện mờ về chất lượng và giá cả của hai (Sử dụng các hàm thành viên khác nhau)

Do đó, độ tương tự giữa các tập mờ được xác định bằng cách sử dụng cùng một hàm thuộc lớn hơn độ tương tự giữa các tập mờ giống nhau được xác định bằng cách sử dụng các hàm thành viên khác nhau. Điều này có nghĩa là việc đánh giá mức độ tương tự có liên quan đến việc xác định các hàm thuộc và biểu diễn các giá trị ngôn ngữ.

B. So sánh một thuộc tính rõ với một thuộc tính mờ và ngược lại

Trong phần này ta giải quyết trường hợp thứ hai: so sánh một giá trị thuộc tính rõ (số) của một đối tượng mờ (có nghĩa là một đối tượng có một hoặc nhiều thuộc tính mờ) với một thuộc tính mờ tương ứng của một đối tượng mờ khác. Đầu tiên, ta làm mờ giá trị rõ thành mờ hoặc ngôn ngữ [69], sau đó so sánh tương tự như trong trường hợp I. Vì mục đích nhất quán, ta sử dụng (xem Hình 2.6 ở trên) hàm thành viên Gaussian nhằm đảm bảo tính tổng quát của đề xuất trên. Điều này được minh họa bằng các ví dụ sau đây.

Ví dụ 2.4: Trường hợp II: Ta xem xét hai phòng giống nhau trong ví dụ 2.2, nhưng

bây giờ giá trị của thuộc tính Chất lượng của Phòng 1 và giá trị của thuộc tính Giá thuê Phòng 2 là rõ (xem Hình 2.7). Sau khi làm mờ hóa cho cả hai giá trị rõ giả định các hàm thành viên giống như trong ví dụ 2.2, ta nhận được như sau:

Hình 2.7: Trường hợp II Các phòng được mô tả bởi các thuộc tính rõ và mờ

𝑄(𝑃ℎò𝑛𝑔 1) = 0.8 ≡ {0.0 𝑇ℎấ𝑝⁄ , 0.1979 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ⁄ , 0.3753 𝐶𝑎𝑜⁄ } Phòng 1 Chất lượng: 0.8; Giá: (0.2357) Trung bình; Phòng 2 Chất lường: (0.667)Trung bình; Giá: 420vnd;

85

2.2.1.4 Đánh giá thuật toán EMC dựa trên Log Likelihood

Hình 2.9: Tính tổng Log Likelihood đối với số lần lặp lại của thuật toán EMC

Thông qua kết quả thực nghiệm trong Hình 2.9, trong vùng giá trị (Total Log

Likelihood (TLL)> -3150) của TLL, ta có thể tìm thấy kết quả tốt nhất từ tham số cho mô hình GMM. Các giá trị tính toán của Cv khác nhau tương ứng với từng cụm ảnh hưởng đến số lần lặp EMC rất nhiều. Giá trị của một Cv có thể thay đổi linh hoạt, điều

Một phần của tài liệu (Luận án tiến sĩ) Một số phương pháp xử lý truy vấn mới trên cơ sở dữ liệu hướng đối tượng mờ (Trang 58)

Tải bản đầy đủ (PDF)

(138 trang)