Biểu diễn dữ liệu mờ bằng phân bố khả năng

Một phần của tài liệu Cơ sở dữ liệu mờ và ứng dụng (Trang 55)

Giá trị của bộ t tại thuộc tính A đƣợc biểu diễn bởi phân bố khả năng chuẩn

A(t) trên miền trị mở rộng De. Trong đó e là phần tử bổ sung vào mỗi miền trị, đƣợc sử dụng trong trƣờng hợp thuộc tính A không áp dụng đƣợc cho bộ t. Phân bố khả năng A(t) là hạn chế mờ của khả năng thuộc tính A tại bộ t và ánh xạ từ miền trị

De vào [0,1]. [6]

Ví dụ, thông tin “John có nhiều kinh nghiệm” đƣợc biểu diễn bởi (d D) :

Experience(John)(e) = 0, và Experience(John)(d) = Considerable(d).

Hàm Considerable là một hàm quan hệ biểu diễn giá trị mơ hồ “nhiều”, ví dụ nhƣ số năm kinh nghiệm có thể đo bằng số năm đƣợc đào tạo.

Phân bố khả năng đƣợc sử dụng để biểu diễn các giá trị mờ, [6] ví dụ biểu diễn lƣơng của John sẽ có các khả năng sau

Hình 3-1: Biểu diễn các tình huống bằng phân bố khả năng trong trường hợp thông thường

Một trong các điểm quan trọng cần chú ý là các giá trị biểu diễn bằng phân bố khả năng thuộc diện loại trừ lẫn nhau. Cấp độ A(t) (d) đánh giá khả năng d D là giá trị chính xác của thuộc tính A trên bộ t. A(t) (d) = 1 có nghĩa d là khả năng hoàn toàn về giá trị A(t), nhƣng không có nghĩa là chắc chắn d là giá trị của A trong bộ t (d là cần của A trong t).

d’ ≠ d, A(t) (d’) = 0

Phân bố khả năng A(t) cần đƣợc chuẩn hóa trên miền trị D  e. Ví dụ :

d D : A(t) (d) = 1 hoặc A(t) (e) = 1 có nghĩa là miền trị thuộc tính chứa ít nhất một giá trị có khả năng hoàn toàn. Giá trị null thông thƣờng đƣợc biểu diễn nhƣ sau:

1. Tồn tại nhƣng không biết giá trị thuộc tính A trong bộ t: Lƣơng

(e) = 0 n

1

0

a) Biết chính xác lƣơng John = 100.000$

100.000 Lƣơng

(e) = 1 1

0

b) John không có lƣơng

Lƣơng

(e) = 0 1

0

c) Chỉ biết John có lƣơng

Lƣơng

(e) = 1 1

0

 d D , A(t) (d) = 1, A(t) (e) = 0 2. Thuộc tính A không áp dụng đƣợc với bộ t

 d D , A(t) (d) = 0, A(t) (e) = 1

3. Không có thông tin về giá trị A (no – information null) (adsbygoogle = window.adsbygoogle || []).push({});

 d D , A(t) (d) = 1, A(t) (e) = 1

Hình 3-2: Biểu diễn các tình huống bằng phân bố khả năng trong trường hợp xấu

Hình 3-1 và 3-2 biểu diễn các hiểu biết khác nhau về lƣơng của John, cụ thể trong các trƣờng hợp: giá trị rõ, giá trị null, cũng nhƣ giá trị mơ hồ bằng tập mờ.

Lƣơng

(e) = 0 1

0

a) Thông thƣờng lƣơng nằm trong khoảng 100.000 60.000 Lƣơng (e) = 0 1 0

b) Các thông tin rời rạc

Lƣơng

(e) = 0 1

0

c) Lƣơng đƣợc biểu diễn bởi một tập mờ high Lƣơng (e) = 1 1 0

d) Lƣơng của John khoảng 80.000 với hệ số khả năng α

1-a

Trong cách tiếp cận này, các thuộc tính đa trị có thể đƣợc biểu diễn trong cùng một cách thức đơn trị bằng việc sử dụng phân bố khả năng trên miền trị thuộc tính, sự loại trừ cũng đƣợc biểu diễn bởi các tập các giá trị con.

Ví dụ: Biểu diễn khả năng sử dụng ngoại ngữ (Anh, Pháp, Tây Ban Nha, Italia) của các nhân viên. Một cách hình thức, Gọi tập các ngoại ngữ A = (Anh, Pháp, Tây Ban Nha, Italia), mức độ thành thạo tƣơng ứng với hệ số  0,1 trong đó α = 1 tƣơng ứng với khả năng chắc chắn, hoàn toàn thành thạo. Biểu diễn khả năng sử dụng ngoại ngữ  /(a1, a2, …, an) trong đó aiA.

Để biểu diễn thông tin về khả năng sử dụng ngoại ngữ của nhân viên Bill: Hoàn thành thành thạo tiếng Anh, Đức; chắc chắn sử dụng tốt tiếng Anh, Đức, Tây Ban Nha; Thành thạo tiếng Anh, Tây Ban Nha; khả năng sử dụng tiếng Anh, Đức, Italia thấp = 0.3; thành thạo tiếng Anh; khả năng sử dụng tiếng Anh, Italia = 0.3. Có thể biểu diễn thông tin về khả năng sử dụng ngoại ngữ của nhân viên Bill nhƣ sau:

{1/(Tiếng Anh, Tiếng Đức), 1/(Tiếng Anh, Tiếng Đức, Tiếng Tây Ban Nha), 1/(Tiếng Anh, Tiếng Tây Ban Nha), 0.3/(Tiếng Anh, Tiếng Đức, Tiếng Italia), 1/(Tiếng Anh), 0.3/(Tiếng Anh, Tiếng Italia)}

Mối quan hệ với dạng chuẩn 1 (1NF)

Đối với cơ sở dữ liệu quan hệ kinh điển, mọi quan hệ đều thỏa mãn dạng chuẩn 1 (1NF), điều đó có nghĩa mọi giá trị của mỗi thuộc tính đều ở dạng không thể phân tách đƣợc nữa (dạng nguyên tử). Mỗi thuộc tính đƣợc lƣu giữ ở dạng “cột” có kích cỡ dữ liệu cố định xác định trƣớc. Tập hợp đƣợc sử dụng để biểu diễn dữ liệu không chắc chắn (mờ) nhƣ đã đề cập ở trên. Chính vì vậy, cần phân biệt giữa biểu diễn bằng một tập các giá trị và khái niệm phân tách các giá trị rõ cho trƣớc thành các giá trị có liên quan về ngữ nghĩa. Nói một cách khác, khi các giá trị của một thuộc tính cần biểu diễn là mơ hồ (không biết chắc chắn ) thì cần biểu diễn qua một tập tất cả các giá trị thể hiện khả năng ít hơn, nhiều hơn ... và các giá trị này là dạng nguyên tử.

Một phần của tài liệu Cơ sở dữ liệu mờ và ứng dụng (Trang 55)