Tính độ tương tự hoặc bất tương tự cho các biến đị- 123docz.net

lượng

Giả sử chúng ta cần ký một số tự động cho công ty hậu cần (logistic company), mà gửi một số gỏi từ một thành phố tới thành phố khác. Chúng ta hãy sử đụng bốn biến định lượng để phân biệt một đối tượng với đoi tượng khác. Bổn đặc trưng là giá trị (cost), thời gian (time), trọng lượng (weight) và thường/phạt (incentive).

Tính đ ộ ¡ương tự và ứng dụng trong CBR 1/1/2006

Đặc trưng k

Giá trị Thời gian Trọng Thưcmg/phạt lượng

Đổi tượng A O 3 4 5

Đối tượng B 7 6 3 -1

Chúng ta có thể biểu diễn 2 đổi tượng như là các điểm trong không gian 4 chiều. Điểm A có tạo độ (0, 3, 4, 5) và B có tọa độ (7, 6, 3, -1). Độ bất tương tự (hoặc tương tự) giữa hai đối tượng được dựa trên những tạo độ này.

2.7.1 Khoảng cách Euclidean

Khoảng cảch Euclidean là khoảng cách sử dụng thong đụng nhất. Trong nhiều tinh huống khi ta nói về khoảng cách, thi sẽ ngầm hiểu là khoảng cách Euclidean. Khoảng cách Euclidean hoặc đom giản là 'khoảng cách' được tính như sau:

2.7.2 Khoảng cách City block

Được biết như là khoảng cách Manhattan, khoảng cách boxcar,

khoảng cách absoỉute value. Nỏ biểu diễn khoảng cách giữa các điểm trong mạng lưới đường phố. Nó là trị tuyệt đối sai khác giữa các cặp tọa độ của đoi tượng.

Công thức tính: d>) = \xik - Jfỉt| (2.12) *=1

Tinh độ lương tự vờ ứng dụng trong CBR 1/1/2006

2.7.3 Khoảng cách Chebyshev

Khoảng cách Chebyshev cũng được gọi là khoảng cách giá trị lớn nhất. Nó ỉà absolute magnitude o f the differences giữa các cặp tọa độ của đối tượng. Khoảng cách này có thể được sử dụng cho cả hai loại biến ordinal và quantitative.

Công thức tinh như sau [23]: dtJ =maxỊjr(i -*,¿1 (2.13)

2.7.4 Khoảng cách Minkowski

Đây là khoảng cách metric được tổng quát hóa. Khi X =1 nó trờ thành khoảng cách city block và khi X =2, nó trờ thành Khoảng cách Eucỉidean. Khoảng cách Chebyshev là một trường hợp đặc biệt của khoảng cách Minkowski với Ả = co. Khoảng cách này có thể được sừ dụng cho cà hai loại biến ordinaỉ và quantitative.

2.7.5 Khoảng cách Canberra

Khoảng cách Canbeưa là tồng của chuỗi các phần số sai khác giữa các tọa độ của đối tượng. Mỗi term của phân sổ sai khác cỏ giá trị giữa 0 và 1. Nếu một tọa độ là 0, term ưở thảnh unity bất chấp các giá trị khác. Chú ý rằng

nêu cả hai tọa độ là 0, chúng ta có định nghĩa - = 0. Khoảng cách này rât nhạv càm với thay đồi nhỏ khi cà hai tọa độ tiến gần tới 0.

Tinh độ tương tự và icng dụng trong CBR 1'ỉ '2006

Công thức tinh [23]: d,j ~ x ì' '*1 ' Jk'\ (2.15)

k*\ \xik Ị + xjtị

2.7.6 Khoảng cách Bray Curtis (khoảng cách Sorensen)

Khoàng cách Bray Curtis, đôi khi cũng được gọi là khoảng cách

Sorensen, là một phưcmg pháp chuẩn hóa được sử dụng trong các lĩnh vực

khoa học môi trường, thực vật học (botany) và sinh tái học (ecology). Nó xem không gian như là lưới tương tự như khoảng cách city block . Khoàng cách Bray curtis cỏ tính chất là giá trị của nó nàng trong khoảng 0 và 1. 0 biểu diễn chính xác tọa độ tương tụ. Nếu cả hai đối tượng có tọa độ là 0, khoảng cách Bray curtis không được định nghĩa. Sự chuẩn hóa được thực hiện sử dụng sai khác tuyệt đối được chia cho tổng.

[23]: 5 hoặc tương đương

*=1

(2.16)

2.7.7 Phân cách góc (Angular separation)

Nó biểu diễn cosin góc giữa hai vec tơ. Nó đo độ tương tự hơn là khoảng cách hoặc độ bất tương tự. Vì thế, giá trị cao hơn của phân cách góc chi ra hai đối tượng là giống nhau hơn. Giá trị của angular separation là [-1,

1].

Công thức tính

d. = - * = *

U'J ỉ t l L .

Tinh độ tương tự và img dụng trong CBR ỉ / ỉ /‘2006

X - W

Công thức tinh như sau [23]: S,J - —— —---rjTT (2.17)

[ P l P ' * Y

\.t=i

2.7.8 H ệ số tưong liên (Corrélation coefficient)

Hệ số tương liên là phân cách góc được chuẩn hỏa bời tập trung tọa độ tới các giá trị thực. Giá trị giữa -1 và +1. Nó đo độ tương tự chứ không phải là khoảng cách hoặc bất tương tự [23].

Công thức tinh: Sy =---—---7 J (2.18)

V *=i Jr=i y

— _ 1 sh — 1 'V' với x i x ik và XJ - ~ Z j x jk

¿=1 n Jt-1

2.8 Tính độ bất tương tự giữa hai nhóm

Nó được gọi là khoáng cách quadratic. Nó đo sự phân biệt của hai nhóm các đối tượng. Giả sử chúng ta có hai nhóm với means X, và Xj. Lẩy 0

là ma trận hiệp phương sai mẫu chung (pooleđ sample covariance matrix) của hai nhỏm, chúng ta có khoảng cách Mahalanobis [23],

Công thức dí} = (*; - X jY Q SF , - Xj) (2.19)

2.9 Chuẩn hóa độ tưoug tự hoặc bất tương tự

Trong phần này, ta sẽ xem xét việc đặt khoảng cách hoặc độ tương tự như là một chì mục Thực hiện (Performance index) vào trong một phạm vi 0

Tinh độ tương tự vờ img dụng trong CBR 1/1/2006

và 1 hoặc [0, 1], Quả trình chuyên đổi chi mục cùa chúng ta từ giả trị của nỏ vào khoàiig 0 và 1 được gọi là chuẩn hóa. Ta sẽ đưa ra một số ý ngấn gọn về chuẩn hóa tính trong phần này [23],

Giả sừ chi mục bất tương tự là trona khoảng [ đ nm, ( f uvr\ và không nằm trong khoảng [0, 1], Chủng ta muốn chuyền nó vào Ưong khoảng [0, 1]. Ta đặt ký hiệu d vào độ bất tương tự gổc và ô vào độ bất tương tự được chuẩn hóa.

Có một số cách để chuẩn hóa một chi mục. Nhìn chung, để tích hợp một chuỗi số vào trong khoảng [0, 1] chúng ta cần tạo chúng đương và chia cho một sổ thứ mà là lớn hơn số chi định. Sử dụng nguyên lý này, chúng ta có thể tạo việc sừ dụng bất kỳ bất phương trình nào để chuẩn hóa chỉ mục. Các phần sau đây là các chuyển đoi đơn giản mà có thể được sử dụng cho phạm vi lớn các ứng dụng.

1. Một cách để chuẩn hóa một chi mục là sừ dụng phương trình sau:

Giá trị của 5’ sẽ nằm trong khoảng -1 tới +1 với a ;> 0. Phương trình (1) có thổ là dễ dàng chuyển đồi thành khoảng [0, 1] bàng phép chuyển sau

(2) 2

NÓ đưa ra

Tinh độ tương tự và im g dụng tro n g CBR 1/1/2006

Hỉnh 2.4 - Đồ thị hàm § trường hợp 1.

Thiết lập giá trị lớn hơn cùa a sẽ tạo cho đồ thị giữa d - ô trơn hơn như hình trên. Nhìn chung, khi d < 0 sinh ra ô > 0.5 và nếu d >0 , thi ô < 0.5. Với a=0, nó sinh ra giá trị nhị phân 0 và +1 với sự không liên tục khi d=0 , vì thế a=0 sẽ không được sử dụng. Giả trị của tham số trơn a phụ thuộc độ trơn thế nào chúng ta muốn thiết lập và giá trị lớn của d. Với a>0, giá tri của ô trong phương trình (3) có thể chi tiệm cận tới 0 hoặc 1.

Ví dụ, d = -4 và a = 1 0 0 thì ¿ = - f l — r~—-— I = O-685

2^ >/16 + 100 J

2. Nếu chúng ta biết giá trị tối đa và tối thiểu của chi mục của chủng ta, sau đó việc chuyển đồi là

(4) _(ịnun

Nó sẽ thay đổi chuyển đổi vảo trong khoảng [0, 1], Nếu d = dmin, thi ô = 0. Nếu d = d,na\ thi ô = 1. Một quan tâm đặc biệt phải được đưa ra để tránh chia cho 0 khi dmax =0. Neu giá trị chi mục luôn bằng 0 hoặc dương, và chúng

Tính độ tương tự và ímg dụng trong CBR 1/1/2006

ta biết giá trị lớn nhất cúa chì mục, thi chứng ta cỏ thể thiết lập dmm và phương trinh (4) có thể đơn giàn là

ỗ = — (5)

Đồ thị của d - <51à tuyến tính và phụ thuộc vào <f11

Hình 2.5 - Đồ thị biểu diễn hàm ô với trường họrp 2.

3. Trong trường hợp chúng ta biết giá trị của chi mục luôn bằng 0 hoặc dương, nhưng chúng ta không biết giá trị cực đại của chi mục. Giả thiết rằng

số các indices là cố định là n, thì chúng ta có thể sử dụng tổng của indices để thay thế giá trị cực đại để trở thành

/=1

Giá trị chuẩn hóa của (6) nhỏ hơn (5) bởi vì Một quan tâm M

Tinh độ lương tự và ừng dụng trong CBR 1/1/2006

4. Nếu chi mục có giá trị âm, chủng ta có thề chuẩn hóa mỗi chi mục (indices) bời lẩy 2Íá trị tuyệt đổi hoặc binh phuơng giá trị cho tồng:

5. Bray Curtis Normalization. Nếu chúng ta có một cặp indices mà luôn bàng 0 hoặc dương và cả hai không đồng thời bàng 0, chúng ta cỏ thể

chuẩn hóa chúng bàng cách sử dụng trịtuyệt đổi sai số chia cho tổng của chúng.

Bò dấu trị tuyệt đối sẽ đưa ra phạm vi cùa ỗ là [-1, I]. Nếu di - d2, thì 5 - 0. Nếu một trong 2 indices là 0, thì 5 =1. Ví dụ, di =5 và dì = 7, chúng ta có

5 + 7 6

6. Đề giá trị thứ tự của chuẩn hóa cùa chỉ mục so sánh, thực hiện các bước sau:

Chuyển giá trị thứ tự thành hạng (r = 1 tới R )

Chuẩn hóa hạng vào giá trị được chuẩn hóa [0,1] bởi

7 Chúng ta biết từ toán học rằng đối với bất kỳ giá trị dương nào, cách thức số học là luôn lớn hơn hoặc bằng cách thức hình học. Chúng ta có thể sử

(8)

Tính độ lương lự vồ ứng dụng trong CBR 1/1/2006

dựns tri thức này để chuẩn hóa chi mục của chúng ta. Giả thiết có dị > 0,

chúnơ ta có . V O rf' < " ) Í L Ỏ' Ví á ụ d ị - 5 và d2 - 7, chúng ta có ỗ = - = 0.986

8. Bất phương trình khác từ lý thuyết tóan nói rằng trị tuyệt đối của cách hức số học nhỏ hcm hoặc bàng cách thức binh phươngg. Chúng ta có thể

sử dụng t r i thức này để chuẩn hỏa đối với giá trị thực của dị.

Ĩ 4 I

(12)

f ¥ :V Ml

Ví dụ d/ - 5 và d2 = 7, chúng ta có ô = 1-5+71-1- = 0.04 ự2*((-5)! +7! )

Chuẩn thống kê (Statistical Normalization)

Cuối cùng, ta sẽ muốn đưa ra một chú ý về kiểu khác của chuẩn hỏa. Mục đích cùa chuẩn thống kê là chuyển một dữ liệu phân tán bất kỳ vào phân tán chuẩn VỚI means 0 và variance = 1.

Công thức của chuẩn thống kê là [23]

Tính độ tương lự và ím g dụng trong CBR 1/1/2006

Chúng ta có dữ liệu như là vec tơ X thi ta trừ với means của dữ liệu, u, và chia cho lệch chuẩn ( Standard deviation), ta sẽ lấy vec tơ z mà có phân bố chuẩn với zero mean và unit variance (nó thường được gọi là phân bố chuẩn tấc chuẩn -Standard Normal distribution, N(0,1) ). Tuy nhiên, khoảng của phân bố này là không nằm giữa [0,1]. K.hỏane của phân bố chuẩn tắc là -3 tới +3 (thậm chi vô cực tới vô cực nhưng sử đụng -3 tới +3 ta đã bắt được 99.9% dừ liệu của mình).

Thật ra, chứng ta có rất ít mức độ kiểu đom, hầu hết các trường hợp trong thực tế đo đạc có thể bao gồm các mức đo đạc pha trộn các kiểu định đanh, trật tự, và định lượng. Vậy chúng ta giải quyết vấn đề này như thế nào?

1. Sử dụng chi khoảng cách được chuẩn hóa hoặc độ tương tự (mà có giá trị trong khaỏng [0,1]) cho tất cả các biến.

2. Quyết định trọng số cùa mỗi thuộc tính Wịjk (thường giữa 0 và 1) 3. Sau đó, độ tương tự được tích hợp tổng quát và chi mục bất

tươn2 tự là đơn giàn là trung bình có trọng sổ của khoảng cách metrice cùa các thuộc tính

Chi mục k biểu diễn thuộc tính. Sịjk và ỗịịk là độ tương tự và bất tương tự của đối tượng / và j đối với đặc trưng k. Ta gọi đây là phép đo có trọng số [21 23]. Các trọn2 số được quyết định một cách độc đoán, dựa trên đơn vị

2.10 K ế t hợp kiểu hỗn hợp của các biến

Tính độ tirơng tự và ứng dụng trong CBR ỉ/ỉ/2 0 0 6

hoặc trèn dữ liệu. V i dụ nếu một biến cỏ đơn v ị do là ton/cubic và các biến khác là ks-cubic. thi trọn o số 1/1000 dược mona đợi được đua ra các đơn vị bản° nhau. Các trọns sổ bans nhau (\vl|k= 1) dõi vói tất cá các bien cỏ thê lã naầm định nếu khòne có các thôna tin khác được đưa ra.

2.11 Kết luận•

Nhừna phần trên đã trình bày kiến thức rất cơ bàn nhưng khá rộna vê cách tính khoàna oách aiừa các đối tượng với các kiểu đừ liệu khác nhau, các vấn đề vè tổne hợp cách tinh cho các cẩu trúc đừ liệu phức tạp. Các cách tinh đà phần nào cho ihấy rằna tinh toán độ tương tự là khôrm dề dàns, tùy thuộc vào mục đích, yêu cầu cùa bài toán mà lựa chọn cách tính thích hợp. Nhữna vấn dè nàv dặc biệt có ý nshĩa troné CBR. nó hỗ trợ đắc lực cho các nhà thiết kế hệ thốn« có cơ sớ đé xây dựns hàm tươne tự cho mình một cách phù hợp nhất, tốt nhất.

Tính độ tương tự vờ ímg dụng trong CBR 1/1/2006

Chưong 3. Tối ưu trọng số cho hàm tính độ tưoìig tự giữa các ca lập luận trong CBR

Tính độ tương tự giữa các ca lập luận (cases) có vai trò rất quan trọng trong phương pháp CBR (Case-Based Reasoning). Trong thời gian qua, đã có một số phương pháp tính độ tương tự giừa các ca lập luận được đề xuất (chương 2). Nhìn chung, các phương pháp này tính độ tương tự giừa các ca lập luận thông qua độ tương tự giữa các thuộc tính và bộ trọng sổ thề hiện tầm quan trọng của các thuộc tính. Trong các phương pháp này, bộ trọng số có vai trò rất quan trọng quyết định độ chính xác của hàm tính độ tương tự. Tuy nhiên, trong thực tế bộ trọng số này thường được xác định bằng ý kiến chủ quan cùa các chuyên gia nên hàm tính độ tương tự giữa các ca lập luận thiếu chính xác. Điều này ảnh hưởng không nhò tới độ chính xác của các hệ thống CBR.

Chương nàv đề xuất một số phương pháp tối ưu bộ trọng số cho hàm tính độ tưcmg tự eiừa các ca lập luận trong các hệ CBR nhằm khẳc phục nhược điểm trên. Tư tường cơ bản của các phương pháp này là xây dựng một hàm mục tiêu trên tập các ca lập luận huấn luyện và tối ưu hàm mục tiêu này bằng các phương pháp dốc Gradient và giải thuật di truyền. Một số kết quả thực nghiệm sẽ được mô tà trong chương 4.

3,1 G iớ i thiệu b ài toán tối ưu

Như đă giới thiệu trong chương 1, CBR là phương pháp giải quyết vấn đề dựa trên việc áp dụng lời giải cùa bài toán cũ vào bài toán mới có dữ kiện tương tự. Trong quá trình áp dụng, lời giải cũ có thể được hiệu chình để phù hợp với bài toán mới. CBR đang thu hút mổi quan tâm ngày càng lớn do có nhiều điềm tươne đồng với cách giải quyết vấn đề cùa con người. Phương

Tính độ tương lự và irtĩg dụng trong CBR 1/1/2006

pháp này tò ra ưu việt so với các phương pháp lập luận truyền thống dựa trên luật (rule-based reasoning) trong những bài toán có miền tri thức rộng, các bài toán không có những quy luật tổng quát hoặc có quá nhiều luật.

Một trong những vấn đề khó khăn nhất ưong CBR là tính độ tương tự giừa các ca lập luận (cases) phục vụ cho giai đoạn tìm kiếm lại. Hàm tính độ tương tự có ành hường rất lớn đến hiệu quả và độ chinh xác của các hệ thống CBR. Hiện nay, các phương pháp tính độ tương tự là dựa trên các độ đo khoảng cách như khoảng cách Hamming, khoảng cách ơclit, khoảng cách Mahatta, các khoảng cách mờ [21]... Theo các phương pháp này, độ tương tự giữa các ca lập luận được tính là tổng có trọng số độ tương tự giữa các cặp thuộc tính bời một hàm số gọi là hàm tương tự. Mỗi trọng số tương ứng với mỗi thuộc tính trong hàm tương tự thể hiện tầm quan trọng của mồi thuộc tính trong đặc tả ca lập luận, thông thường, thuộc tính có giá trị trọng số lớn sẽ có tầm quan trọng lớn. Do đó, các trọng số có ảnh hường rất lớn tới độ chính xác

Tính độ tương tự hoặc bất tương tự cho các biến định lượng

Giới thiệu bài toán tối ưu

Xây dựng hàm mục tiêu đánh giá