Luận văn được xây dựng dựa trên nền một sổ nghiên cửu chính trong lĩnh vực tính toán độ tương tự, đưa ra các phương pháp tính độ tương tự có được thể áp dựng Ưong CBR, đồng thời, với mụ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯ ỜNG ĐẠI H Ọ C CÔ N G NGHỆ * • •
Trang 2T ín h đ ộ t ư ơ n g t ự v à í m g d ụ n g t r o n g C B R 1 '1 / 2 0 0 6
Danh m ục hình v ẽ 5
Danh m ục bảng b iể u 6
K ý h i ệ u v à t ừ v i ế t t á t 7
M ở đ ầ u v 8
Chương 1 : T ổ n g quan v ề lập luận theo tìn h h u ố n g 11
1.1 G iới t h i ệ u 11
1.2 C ác k h á i n iệ m c ơ b ả n 12
1.2.1 K h ái n iệ m C B R 12
1.2.2 C h u trìn h lập lu ậ n th e o tìn h h u ố n g 13
1.2.3 B iể u d iễ n c a lậ p l u ậ n 15
1.2.4 T ìm k iế m c a lậ p lu ậ n tư ơ n g t ự 15
1.2.4.1 T ìm k iế m g ầ n n h ấ t 16
1.2.4.2 T im k iế m q u i n ạ p 17
1.2.5 H iệ ụ c h in h lời g i ả i 18
1.3 Ư u đ iể m c ủ a C B R 19
1.4 M ộ t số ứ n g d ụ n g đ iể n h ìn h c ủ a C B R . 21
1.5 V ấ n đ ề tín h đ ộ tư ơ n g tự g iữ a c á c c a lậ p lu ậ n tro n g h ệ th ố n g C B R 2 2 1.6 K ế t l u ậ n 23
Chương 2: C á c phương pháp tín h toán độ đo tương t ự 24
2.1 Đ ộ tư ơ n g t ự 24
2.1.1 K h o ả n g c á c h 25
2 1 2 M ố i q u a n h ệ g iữ a tư ơ n g tự v à b ấ t tư ơ n g t ự 26
2.2 T ại sao c h ú n g ta c ầ n đ o tư ơ n g tự 26
2.3 Đ o độ tư ơ n g tự h o ặ c b ấ t tư ơ n g t ự 27
2.4 T ín h đ ộ tưcm g tự h o ặ c b ấ t tư ơ n g tự c h o c á c b iế n n h ị p h â n 28
2.4.1 H ệ sổ đ ố i s á n h đ ơ n g i ả n 29
2 4.2 H ệ sổ J a c c a r d 30
2 4.3 K h o ả n g cách H a m m i n g 30
2.5 T ín h đ ộ tưcm g t ự h o ặ c b ấ t tư ơ n g tự c h o c á c b iế n đ ịn h d a n h /p h ạ m trù ! T 31
2.5.1 G á n m ỗ i g iá trị c ủ a p h ạ m trù n h ư là m ộ t b iế n g iả n h ị p h â n 33
2 5 2 G á n m ồ i g iá trị c ủ a p h ạ m trù v à o tro n g m ộ t số b iế n g ià n h ị p h â n 35
2.6 T ín h đ ộ tưcm g tự h o ặ c b ấ t tư ơ n g tự c h o c á c b iế n có th ứ t ự 37
2.6.1 S ự c h u y ể n đ ổ i h ạ n g đ ư ợ c c h u ẩ n h ó a 4 0 2 6 2 K h o ả n g c ác h S p e a r m a n 41
2.6.3 K h o ả n g c á c h F o o tr u le 41
2.6 4 K h o ả n g c ác h K e n d a ll 42
Trang 3T ín h đ ộ t ư ơ n g tự v à ícn g d ụ n g t r o n g C B R 1 /1 /2 0 0 6
2.6.5 K h o ả n g cách C a y le y 42
2 6 6 K h o ả n g cách H a m m in g cho b iế n th ứ t ự 43
2.6.7 K h o ả n g cách UI a m 44
2.7 T ín h đ ộ tư ơ n g tự h o ặ c b ấ t tư ơ n g tự cho các b iế n đ ịn h lư ợ n g 44
2.7.1 K h o ả n g cách E u c lid e a n 45
2.7.2 K h o ả n g c ác h C ity b l o c k 45
2 7 3 K h o ả n g cách C h e b y s h e v 46
2.7.4 K h o ả n g cách M in k o w s k i 46
2.7 5 K h o ả n g cách C a n b e rra 46
2.7.6 K h o ả n g cách B ray C u rtis (k h o ả n g cách S o r e n s e n ) 47
2 7 7 P h â n c ác h g ó c (A n g u la r s e p a ra tio n ) 47
2 7 8 H ệ số tư ơ n g liê n (C o rre la tio n c o e f f ic ie n t) 48
2.8 T ín h đ ộ bất tưcm g tự g iữ a hai n h ó m 48
2.9 C h u ẩ n h ó a độ tư ơ n g tự h o ặ c b ấ t tư ơ n g t ự 48
2.10 K ế t h ợ p k iểu h ỗ n h ợ p c ủ a c ác b i ế n 54
2.11 K ế t lu ậ n 55
Chương 3 T ố i ưu trọng số cho hàm tính độ tương tự giữa các ca lập luận trong C B R 56
3.1 G iớ i th iệ u bài to á n tối ư u 56
3.2 C ác p h ư ơ n g p h á p tín h đ ộ tư ơ n g tự g iữ a các ca lập lu ận tro n g C B R 60
3.3 T ố i ư u trọ n g số cho hàm tín h đ ộ tư ơ n g tự g iữ a các ca lập lu ậ n ừ o n g C B R 61
3.3.1 X ây d ự n g hàm m ụ c tiê u đ á n h g iả d ự a trê n các đ á n h g iá d ạ n g sổ của c h u y ên g ia 62
3.3.2 X â y đ ự n g h àm m ụ c tiê u đ á n h g iá d ự a trê n c ác đ ả n h g iá m ờ c ủ a c h u y ên g ia 63
3 3 2 1 S ổ h ó a đ án h £ iá c ủ a các c h u y ên g ia v ê đ ộ tư ơ n g tự g iữ a c á c ca lập lu ậ n Ư ong tập h u ấ n l u y ệ n 63
3 3 2 2 X ây d ự n g h àm m ụ c tiê u đ á n h g i á 64
3.4 C á c p h ư ơ n g p h á p tố i th iể u h à m m ụ c tiê u 66
3.4.1 S ử d ụ n g p h ư ơ n g p h á p g iả m G ra d ie n t tối th iể u h à m m ụ c t i ê u 66
3.4.2 S ử d ụ n g giải th u ậ t di tru y ê n tô i th iê u h à m m ụ c t i ê u 68
3.5 K ết lu ậ n 70
Chương 4 T h ự c nghiệm 71
4.1 T hự c n g h iệm trê n h ệ th ố n g ư ớ c lư ợ n g chi ph í p h ầ n m ề m 71
4.1.1 H ệ th ố n g ư ớ c lư ợ n g chi phí p h ầ n m ề m 71
4.1.1.1 B iể u diễn d ự á n 71
4.1 1 2 T ìm kiếm dự án tư ơ n g t ự 73
4.1.2 K ết q u à th ự c n g h iệ m v 74
4.2 T h ự c n g h iệm trên hệ th ổ n g g iả l ậ p 76
Trang 4T ín h đ ộ t ư ơ n g t ự và ứ n g d ụ n g t r o n g C B R 1 / 1 /2 0 0 6
4.2.1 H ệ th ổ n g g iả l ậ p 77
4 2 2 K ế t q u ả th ự c n g h iệ m 78
4.3 K ết lu ậ n 79
K ế t lu ậ n 80
T à i liệu tham k h ả o 82
Trang 5T ín h đ ộ t ư ơ n g t ự v à ứ n g d ụ n g t r o n g C B R 1 / 1 /2 0 0 6
D a n h m u c h ì n h v ẽ
H ìn h 1.1 - C h u trìn h “ 4 lạ i” c ủ a C B R .14
H ìn h 1.1 - S ự tư ơ n g tự g iữ a c á c n g ô i s a o - 24
H ỉn h 2 2 - M ộ t v í dụ g á n g iá trị b iế n p h ạ m trù 34
H ìn h 2.3 - V í d ụ p h é p g á n g iả b iế n n h ị p h â n 36
H ìn h 2.4 - Đ ồ th ị h à m ỏ trư ờ n g h ợ p 1, .50
H ìn h 2.5 - Đ ồ thị b iể u d iễ n h à m ỗ v ớ i trư ờ n g h ợ p 2 51
H ìn h 3.1 - Đ ặ c tả các c a lậ p lu ậ n v ề h ỏ n g x e (C A S E 1 v à C A S E 2) -58
H ỉn h 3.2 - Đ ặ c tả bài to á n m ớ i - 58
H ìn h 3.3 - Q u á trình tín h đ ộ tưom g tự g iữ a các c a lậ p l u ậ n 59
H ìn h 4 1 - T ín h độ tư ơ n g tự g iữ a h ai c a lậ p lu ậ n 2 4 v à 25 74
Trang 6T ín h đ ộ t ư ơ n g t ự r à ứ n g d ụ n g t r o n g C B R Ị / ỉ / 2 0 0 6
D a n h m ụ c b ả n g b i ể u
B ản g 4 1 - C á c th u ộ c tín h v à m iề n g iá trị c ủ a c h ú n g 72
B àn g 4.2 - T ậ p các ca lập lu ậ n h u â n lu y ệ n 755
B ản g 4 3 - C ác đánh g iá củ a c h u y ê n g i a 755
B ản g 4 4 - K ế t q u ả th ự c h iệ n g ià i th u ậ t di t m y ề n 766
B ản g 4 5 - C ơ sở d ừ liệ u các c a lậ p lu ận giả l ậ p 777
B ản g 4 6 - M ộ t số k ết q u ả sau 100 thế h ệ 788
B ản g 4 7 - G iá trị đánh g iá g iả l ậ p 788
Trang 7Tính độ tương tự xà ứng dụng trong CBR i /1/2006
Ký hiệu và từ viết tắt
Bàng từ viết tắt
Từ hoăc cum từ • • T ừ viêt tăt Từ tiếng Anh
Từ khóa
Lập luận theo tinh huống, chuyên gia, hàm đánh giá, hàm tương tự, biến mờ, tối ưu trọng sổ.
Trang 8Tính độ tương lự vờ img dụng trong CBR 1/1/2006
Mỏ’ đàu
Trong vài thập niên trở lại đây, khi công nghệ thông tin đã được ứng dụng trong hầu hết các lĩnh vực cùa cuộc sống, hệ chuyên gia đã trờ thành huớng nghiên cứu được quan tâm rất nhiều trong khoa học máy tính và công nghệ tri thức tại các viện nghiên cứu, các trường đại học và các trung tâm côns nghệ thông tin trong nước cũng như ngoài nước Trong quá trình phát triển đó, hàng loạt các nghiên cửu, các đề xuất được thử nghiệm vả ứng dụng thành công trong đời sống như hệ chuyên gia chẩn đoán bệnh rvíYCIN[3], hệ
ừợ giúp khách hàDg SMART[2] đã cho thấy việc nghiên cứu và xây dựng các hệ chuyên gia là vấn đề cấp thiết và có tính thực tế cao.
Xây dựng các hệ chuyên gia cho tới ngày nay đã có nhiều hướng tiếp cận dựa theo nền tảng công nghệ tri thức, trong đó có hai hướng tiếp cận là lập luận dựa trên luật (Rule-based Reasoning), như hệ chuyên gia DENDRAL[6] phục vụ nghiên cứu vôi trụ, PROPECTOR[5,19] trợ giúp tìm khoáng sản, và lập luận dựa trên tình huống (Case-based Reasoning - CBR), như hệ trợ giúp khách hàng SMART[2] của Compaq, được lựa chọn sừ dụng nhiều nhất.
Trong dó, hướng tiếp cận dựa trên luật đã được phát triển rất sớm, nó
đà có đầy đủ nền tảng toán học cho việc nghiên cứu và xây đựng các hệ chuyên gia, và nó cũng đã thành công trong việc đưa ra một số ứng dụng vào trong thực tế Các hệ chuyên gia như MYCIN[3,7], DENDRAL[6], là một minh chứng cho điều này.
Bên cạnh đó, hướng tiếp cận theo tình huống tuy ra đời không lâu nhưng cũng đã khẳng định được sức mạnh của mình, rất nhiều các ứng dụng
đã được đưa ra và thực tế đã chỉ ra ràng hướng tiếp cận này là đúng đẳn, khắc
Trang 9Tính độ tương tự và ieng dụng trong CBR 1/1/2006
phục được các nhược điểm của tiếp cận dựa trên luật Đó là, phải xây đựng các luật suy diễn trong khi miền tri thức rất khó thành lập quy tẳc luật, khó tìm lời giải nhanh khi số lượng cảc luật rất lớn, đòi hỏi sự cộng tác chặt chè giữa chuyên gia và nhà tin học Khi giải một bài toán, CBR tìm kiếm bài toán tương tự nhất với nó trong cơ sờ trí thức Sau đó, CBR tiến hành hiệu chinh lời giải vừa tim được sao cho thực sự phù hợp với bài toán cần giải Lời giải mới được tạo ra có thể được cập nhật vào cơ sở tri thức để sử dụng trong tương lai Có bốn vấn đề chính cần được giải quyết trong CBR là tìm kiếm lại (Retrieve), sử dụng lại (Reuse), xem xét lại (Revise) và lưu lại (Retain) lời giải.
Một trong nhừng vấn đề khó khăn nhất và sẽ ảnh hường trực tiếp tới chất lượng cùa hệ thống lả vấn đề tính độ tương tự trong giai đoạn tìm kiếm lại bởi đây là giai đoạn đầu tiên trong chuỗi hoạt động cùa hệ thống CBR Ý thức được vấn đề này có tầm quan trọng rất lớn không chi trong thực tế xây dựng mà còn trong nghiên cứu lâu dài, chúng tôi đã chọn hướng nghiên cứu
tính toán độ tương tự và tối ư u bộ trọng số cho hàm tỉnh độ tương tự trong
CBR cho đề tài luận văn của minh Luận văn được xây dựng dựa trên nền một
sổ nghiên cửu chính trong lĩnh vực tính toán độ tương tự, đưa ra các phương pháp tính độ tương tự có được thể áp dựng Ưong CBR, đồng thời, với mục đích nâng cao chất lượng hệ thổng, chúng tôi đưa ra hướng tiếp cận cho tối ưu
bộ trọng số trong hàm tính độ tương tự Việc tối ưu được thực hiện dựa trên các đảnh giá của chuyên gia về độ tương tự giữa các ca lập luận, đưa ra một hàm đánh giá thể hiện sai số giữa các đánh giá này và hàm tính độ tương tự,
từ đỏ tìm ra được bộ trọng số sao cho hàm đánh giá có giá trị nhỏ nhất (tức là sai sổ ít nhất).
Trang 10Tính độ tương tự và ứng dụng trong CBR 1/1/2006
Các kết quả thực nghiệm kiểm chứng phươne pháp cũng được đưa ra
để chứng minh tính đúng đắn của hướng tiếp cận.
Luận văn được tổ chức thành 4 chương như sau:
Chương I trình bày về tổng quan hệ thống CBR từ các khái niệm cơ
bản tới cách thức xây dựng một hệ thống dựa trên kinh nghiệm Chương này cũng đưa ra sự so sánh giữa hai hướng tiếp cận là dựa fren luật và dựa trên tình huống, những ưu nhược điểm của cả hai hướng tiếp cận này.
Chương 2 trình bày về tổng quan tính độ tương tự, đưa ra các cách tính
độ tương tự đã được nghiên cứu và cách sử dụng chúng trong các trường hợp khác nhau, ứ ng dụng các cách tính trên ứong tính độ tương tự trong các hệ thống CBR,
Chương 3 trình bày về phương pháp tối ưu tính độ tương tự cho các ca
lập luận trong CBR Chương này đưa ra cách thức xây dựng hàm đánh giá để
từ đó tỉm ra bộ trọng sổ tốt nhất thông qua các giải thuật tối ưu Hai giải thuật tối ưu thông dụng !à giải thuật đi truyền và dốc Gradient cũng được trinh bày nhàm đưa ra một cái nhìn toàn diện về phương pháp này.
Chương 4 đưa ra hệ thống thực nghiệm chứng minh tính đúng đắn cùa
phương pháp tối ưu Chương này đưa ra ứng dụng cho hệ thống ước lượng chi phí phần mềm để tối ưu bộ trọng số và một hệ thống già lập để khẳng định lại tính đúng của phương pháp Các kết quả cuối chương sẽ chi rõ tính đúng đắn này.
Phần kết luận đưa ra tổng kểt các kết quả luận văn đã đạt được đồng thòi cũng đưa ra những hạn chế và hướng nghiên cứu tiếp theo của luận văn
này
Trang 11• Phải xây dựng được các luật suy diễn từ các quy tắc thực tế hoặc tổng quát hóa từ các trường hợp cụ thể Cồng việc này rất khó khi miền bài toán không rõ ràng hay thường xuyên thay đổi.
• Việc chuyển hóa các luật thuộc miền bài toán thành các luật của hệ thống đòi hòi sự cộng tác chặt chẽ giữa các nhà chuyên môn và người xâv đựng hệ thống (kỳ sư ưi thức).
• Hệ thống lập luận dựa trên luật áp dụng một dãy các luật để tim lời giải
Khi số lượng luật của hệ thống rất lớn hay bài toán phức tạp, chúng ta khó có thể tìm được lời giải trong khoảng thời gian cho phép.
thêm, bớt hoặc sửa luật là hết sức khó khăn.
Vi nhừng nhược điểm trên mà các hệ thong dựa trên luật khỏ đáp ứng được cho các bài toán có miền tri thức rộng, tri thức chưa rõ ràng hay có khà năng thay đổi.
Trang 12Tính độ tương tự và ícng dụng trong CBR 1/1/2006
Trong thực tế, con người khi đứng truớc mồi bài toán cụ thể họ thường không dùng các quy tắc (luật) để suy diễn ra lời giãi Nếu trong quá khứ họ đã gặp tình huổng tương tự thì họ sẽ tìm cách dùng lại lời giải trong quá khứ [1,8,17].
Trên cơ sở đó, Roger Schank đã đề xuất phương pháp lập luận theo tình huống (Case-Based Reasoning - CBR'), phương pháp giải quyết vấn đề
bầng cách áp dụng lời giải của các bài toán cũ để giải một bài toán mới tương
tự với nó [13] Năm 1983, Janet Kolodner đă phát triền hệ thổng CBR đầu tiên có tên là CYRUS [17] tại trưcmg đại học Yale CYRUS chửa dữ kiện về các chuyến công du và các cuộc họp của bộ trường ngoại giao Hoa Kỳ Cyrus Vance, nó cho phép người dùng hỏi các câu hòi về các sự kiện này Từ đó đến nay, phương pháp này đã có những bước tiến đáng kể và được úng dụng rộng rãi trong nhiều sàn phẩm thực tế [13,14,15],
Chương này trình bày những kiến thức tổng quan về CBR và chi ra một
sổ lĩnh vực mà CBR có thể ứng dụng hiệu quả.
1.2 C á c kh ái niệm cơ bản
1.2.1 Khái niệm C B R
Riesbeck và Schank định nghĩa CBR như sau [20]:
Lập luận theo tình huống (Case-Based Reasoning - CBR) là phương pháp giải quyết vấn đề dựa trên việc áp dụng lời giài của bài toán cũ vào bài toán mới có dữ kiện tương tự.
Khi giài một bài toán, CBR tìm kiếm bài toán tương tự nhất với nó trong cơ sở tri thức Sau đó, CBR tiến hành hiệu chỉnh lòri giâi vừa tìm được sao cho thực sự phù hợp với bài toán cần giải Lời giải mới được tạo ra có thể
Trang 13Tính độ tương tự và img dụng trong CBR 1/1/2006
được cập nhật vào cơ sờ tri thức để sử dụng trong tương lai Ngoài ra trong CBR, bên cạnh các ca lập luận còn có thể có các luật tạo nên tri thức nền (general knowledge) hỗ trợ cho tim kiếm và hiệu chinh lời giải.
Đcm vị tri thức của một hệ thổng CBR là các bài toán đã được giải
description) và lời giải (solution) Ta gọi mỗi đơn vị tri thức là một c a lập luận (case).
1.2.2 Chu trình ỉập luận theo tình huống
Một cách tổng quát, CBR hoạt động theo chu trình “4 lại”1 với 4 pha ( hình 1.1) [1,15]:
• Tìm kiếm lại (Retrieve) một hoặc nhiều ca lập luận tương tự.
• Sử dụng lại (Reuse) lời giải của các ca lập luận cũ cho ca lập luận mới.
• Xem xét lại (Revise) lời giài.
• Liru lại (Retain) ca lập luận mới.
Trước một bài toán mới, hệ thống sẽ tìm kiểm lại một hoặc một vài ca
lập luận íucmg tự với bài toán từ tập các ca lập luận đã có Nếu lời giải của ca
lập luận tim được phù hợp với bài toán mới thi sẽ được sử dụng lại ngay Ngược lại, hệ thống sẽ tim cách hiệu chinh lòi giài cũ để đưa ra một lời giải
mới Việc hiệu chinh phụ thuộc nhiều vào miền ứng đụng và mỗi hệ thống
CBR sẽ có một cơ chế hiệu chinh riêng Quá trình xem xét lại lời giải sẽ xác
minh xem lời giải có thực sự phù hợp khi áp dụng vào thực tế hay không Việc xác minh thường được thực hiện thông qua một hệ thống giả lập môi
1 Nguyên gồc tiếng Anh: “4 REs”.
Trang 14Tỉnh độ tương tự và ứng dụng trong CBR ì/ì/2006
trường đế kiểm chứng lcri giải hoặc do naười dùng trực tiếp kiểm tra và hiệu
chỉnh Cuối củng nếu cẩn thiết hệ thống sẽ lưu lại ca lập luận mới để phục vụ
cho việc giài cảc bài toán tương tự trong tương lai Đe hoạt động có hiệu quà,
cà bốn quá trình trẽn đều cẩn sừ dụng tri thức nền về miền bài toán.
DỤNG LẠI
Sựthlch nghi
Lirl glảl đ ư ợ c
thÀm tV nh Sự thẳm
ơịnh Lời glảl đề xuất
Hình 1.1 - Chu trình “4 lai” của CBR.
Bài toán mói
tế MEDIATOR [22], tư vấn luật HYPO [4], CBR cũng đã được ứng dụng hiệu quả trong công nghiệp và kinh doanh như hệ trợ giúp khách hàng SMART [2] của Compaq, hệ trợ giúp thiết kế CLAVIER [12] cùa Lockheed,
hệ hỗ trợ quản lý chất lượng phần mềm SQƯAD [16] của NEC.
Trang 15Tỉnh độ tương tự và úng dụng (rong CBR ỉ / ỉ /2 0 0 6
1.2.3 Biểu diễn ca lập luận
Đơn vị tri thức của một hệ thống CBR là các ca lập luận (case) Các ca
lập luận được biểu diễn như thế nào sẽ quyết định hiệu quà tìm kiếm, hiệu chinh và mờ rộn2 cơ sở tri thức sau này Biểu diễn các ca lập luận bao gồm lựa chọn cấu trúc, nội dung và cách thức tích hợp từng ca lập luận riêng vào
cơ sờ tri thức Nói chung, vì CBR được sử dụng cho từng bài toán đặc thù nên cách biểu diễn các ca lập luận ờ các hệ thống khác nhau thường không giổng nhau Tuy nhiên, một cách tổng quát bao giờ một ca lập luận cũng được mô tả
là một bộ gồm: đặc tà bài toán và lời giải.
* Đặc tả bài toán (problem description'): Mô tả các điều kiện, trạng thái
làm xuẩt hiện ca lập luận Trạng thái ờ đây có thể bao gồm cả mô tả ngữ cảnh bài toán.
• Lời giải (solution)' Lời giải của bài toán được mô tả trong đặc tả bài
toán.
Cũng có thể nhìn nhận cơ sờ tri thức theo hai không gian: không gian
đặc tà bài toán và không gian lời giải Tồn tại một ánh xạ liên kết các phần tử
của hai miền này với nhau Thông thường thì ánh xạ đó sẽ là 1-1 nhưng điều này không phải là bắt buộc vì một bài toán có thể có nhiều lòi giải và ngược lại.
1.2.4 Tìm kiếm ca lập luận tương tự
Độ tương tự giữa các ca lập luận là một khái niệm quan trọng trong CBR Nó là một khái niệm trừu tượng, dùng để chỉ mức độ giống nhau giữa các ca lập luận Chúng ta hy vọng là nếu hai ca lập luận có đặc tả bài toán tươne tự nhau thi lời giải cùa chúng cũng tương tự nhau Tùy thuộc vào từng
Trang 16Tính đ ộ tương tự và ímg dụng trong C B R 1 /1 /2 0 0 6
ứna dụng cụ thể ta mới có cách hiểu chinh xác về khái niệm này Chúng ta có thê tính độ tươna tụ theo các từ khóa, theo các thuộc tính, của các ca lập luận Tuy nhiên, các thuộc tính khác nhau thường có tầm quan trọng khác nhau.
Một cách hình thức ta tính độ tương tự bằng hàm tính độ tương tụ (sim) được mô tả như sau:
sim: CASE X CASE — [0 1]
Chúng ta qiú ước là nếu hàm sim trả lại giá trị 0 thi hai ca lập luận hoàn toàn khác nhau, hàm sim trả lại 1 thi hai ca lập luận hoàn toàn giống nhau.
Quá trình tim kiếm sỗ ưả về một hoặc một vài ca lập luận có đặc tả bài toán tương tự với bài toán đã cho Các phương pháp tim kiếm có vai trò rất quan trọng bời vi một hệ thống CBR chi có thể mờ rộng được nếu các thuật toán tìm kiếm cho phép xử lý đối với một tập lớn các ca lập luận Hiện nay,
có nhiều phương pháp tìm kiếm mỗi phương pháp thích hợp với một dạng bài toán riêng Có hai phương pháp được sừ dụng phổ biến là:
• Tìm kiếm gần nhất (Nearest Neighbour Retrieval).
• Tìm kiếm quy nạp (Inductive Retrieval).
1.2.4.1 Tim kiếm gần nhất
Tim kiểm gần nhất (Nearest Neighbour Retrieval) là phương pháp trực quan nhất và cũne được dùng nhiều nhất trong các hệ CBR Phương pháp này
tìm kiểm ca lập luận thông qua đánh giá độ tương tự (similarity) giữa các ca
lập luận Trước tiên, hệ thống tính độ tương tự cục bộ giữa từng thuộc tính của các ca lập luân Kết quả thu được sẽ được nhân với một trọng sổ tùy
Trang 17Tính độ tương lự và ứng dụng trong CBR 1 /1 /2 0 0 6
thuộc vào mức độ ưu tiên của các thuộc tính Cuối cùng tính độ tương tự chung cho toàn bộ ca lập luận Một cách tổng quát, độ tưomg tự được tính theo công thức sau [15]:
ca lập luận tương tự Phương pháp này có ưu điềm là không phải duyệt toàn
bộ ca sờ tri thức khi tim kiếm ca lập luận tương tự nhưng có nhược điểm là mồi lần thêm mới một ca lập luận thi phài xây đựng lại cây quyết định.
ĐA« HỌC QUỐC GIA HÁ NỘI
■ RUNG TĂM THÒNG UN THƯ VIỂN
Trang 18Tinh độ tương tự và ứng dụng trong CBR 1/1/2006
1.2.5 Hiệu chỉnh lòi giải
Sau khi ca lập luận tương tự đã được tim kiếm, hệ thống sẽ tim cách áp dụng lời eiài của ca lập luận cũ cho ca lập luận mới Tuy nhiên, các ca lập luận tìm kiếm đuợc chi là các ca lập luận tương tự nên việc quá trình hiệu chinh lời giải là tối cần thiết để có được một lời giải đủng và phù hợp với ngữ cảnh của bài toán mới Việc hiệu chinh lời giải như thế nào là vấn để khó nhẩt
và đòi hòi hệ thống CBR phải là hệ thổng “thông minh” Hệ thống sẽ tìm và đảnh giá lời giải cũ để áp dụng cho ca lập luận mới Trên cơ sở áp dụng một
số quy tắc, hệ thống sẽ đưa ra lời giải mới thích hợp Thông thường có bốn cách hiệu chinh sau:
• Hiệu chình thế: Đây đơn giản chì là phép thế một vài điểm cùa lời giải
cũ để tạo ra lời giài mới Phép thế đơn giản nhất và được sử dụng tương đối phồ biến là thế theo từ khóa Khi đó, sự sai khác về từ khóa của đặc
tả bài toán sẽ được hiệu chỉnh ở phần lời giải.
• Hiệu chình biến đổi: Biến đồi lời giải cũ dựa ừên một số các công thức
và quy tắc để sinh ra lời giải mới Phép biến đồi này có thể là thêm, xóa thuộc tính hoặc kết hợp các lời giải để tạo ra một lời giải hợp lý nhất.
• Hiệu chinh theo miền bài toán: Sử dụng các quy tắc riêng cùa miền bài
toán để hiệu chỉnh Các quy tắc hiệu chinh này không thuộc loại hiệu chỉnh thế hay hiệu chỉnh biến đồi mà có thể làm thay đổi toàn bộ cấu trúc của lời giài cũ Phưomg pháp này đôi khi đòi hòi có sự tác động từ phía người đủng.
• Hiệu chinh ỉặp lại luật suy diễn: Lặp lại các quy tấc suy diễn sinh ra lời
giài cũ (hoặc một phần lời giài cũ) để suy ra lời giải cho ca lập luận mới.
Trang 19Tỉnh độ tương tự và irng dụng trong C-BR 1/1/2006
Mặc đủ hiệu chinh lài giải là bước tối cần thiết trong CBR nhưng lại rất khỏ thực hiện Việc hiệu chinh đòi hòi phải có một sự hiểu biết sâu sắc về miền tri thức (các luật) trong khi CBR lại thường sừ dụng cho các bài toán có đặc tả không tường minh Vì vậy, ữong thực tế, rất nhiều hệ thống CBR bỏ qua việc hiệu chinh ca lập luận hoặc chỉ dừng lại ờ mức hỗ trợ hiệu chình bán
tự động thông qua tương tác với người sử dụng [9].
1.3 Ưu điểm của C B R
Như đã trình bày ở trên, trong thực tế con người thường giải quyết vấn
đê bầng một cơ chế có nhiều điểm tương đồng với CBR CBR có các ưu điểm
cơ bản sau:
Khả năng thu thập tri thức: Phương pháp CBR lập luận theo các ca lập luận cụ thể nên không cần phải hình thức và tổng quát hóa tri thức thành các luật như phương pháp lập luận dựa trên luật Do đó việc thu thập tri thức
Khả năng biểu diễn trỉ thức: Khác với lập luận theo luật chi giới hận cho một dạng tri thức tổng quát có cấu trúc xác định, do chỉ giải quyết vói
từng trường hợp cụ thề nên CBR có thể mô tả tri thức ở nhiều dạng khác
nhau Trong hệ thống ngoài tri thức mô tả các ca lập luận còn có hệ thống chi
sổ (schema index, vocabulary index), cách tỉnh độ tương tự, các chiển lược hiệu chinh Vì thế, người phát triển có thể linh hoạt chọn cách biểu diễn tri thức phù hợp nhất.
Khả năng duy trì tri thức: Trong thực tế, các bài toán không phải bao giờ cũng bất biến dẫn tới cơ sờ tri thức luôn phải biến đồi Trong các hệ lập luận theo luật truyền thống, các luật thường tổng quát và phụ thuộc chặt chẽ ỉẫn nhau nên việc thêm hay sửa các luật thường gặp khó khăn Ngược lại,
Trang 20Tính độ lương tự và img dụng trong CBR 1/1/2006
CBR chi lưu các ca lập luận cụ thê độc lập với nhau nên việc mở rộng và
hiệu chinh cơ sờ tri thức sẽ dễ dàng hơn Ngoài ra, do tri thức được biểu diễn trực quan nên neười dùng có thể tự duy trì hệ thống mà không cần tới các kỹ
sư tri thức.
Tăng hiệu quả giâi quyết bài toán: Tái sử dụng lời giải đã có sẽ hiệu quả hơn nhiều so với việc giài lại một bài toán mà trước đó đã được ai đó đã giải Ngoài ra, trong CBR, chúng ta cũng dễ dàng lưu lại các ca lập luận thất bại (không có lời giải hay không giải được bằng vốn tri thức hiện có) nên tránh được các tình huống đi vào ngõ cụt trong tìm kiếm lời giải.
Tăng chất lượng lòi giải: Lời giải cho các bài toán với các khái niệm không rõ ràng được biểu diễn bằng các ca lập luận cụ thể sẽ dễ hiểu và chính xác hơn so với việc biểu diễn bằng một chuỗi các luật suy diễn trừu tượng Trong CBR, lời giải phàn ánh rô ràng, trực quan điểu gì sẽ xảy ra (hoặc không thể xảy ra) trong một ca lập luận.
Được người dùng chấp nhận: vấn đề quan trọng nhất đổi với một hệ chuyên gia là phải được người dùng chấp nhận, tức là người đùng phải có cách nào đó để tin vào tính đúng đẳn của lời giải Mạng nơ-ron cùng đưa ra quyết định nhưng người dùng thường không thể hiểu được quá trình này Người dùng thông thường cững rất khỏ lý giải một chuỗi các luật được áp dụng trong các hệ lập luận theo luật Với CBR lời giải được đưa ra dựa vào thực tế các ca lập luận đã có nên lời giải được mô tà rõ ràng và lý do mà hệ thống đưa ra lòi giài cùng dễ hiểu.
Trang 21Tính độ íưcmg tự và ứng dụng trong CBR l/ỉ/2006
1.4 M ột số ứng dụng điển hình của C B R
CBR đang được nghiẻn cứu và ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là với nhữn2 hệ chuyên gia cần tới các tri thức dạng kinh nghiệm Dưới đây, chúng tôi giới thiệu một sổ ứne dụng điển hình.
Hệ ượ giúp thiết kế CLAVIER [12] của công ty Lockheed: CLAVIER được phát triển từ năm 1987 và được đưa vào sừ dụng tại công ty Lockheed nãm 1990 CLAVIER chứa hơn 150 ca lập luận về các cách sắp xếp thành công các chi tiết máy trong lò hấp Mỗi ca lập luận chứa các thông tin về cách sắp xếp bao gồm: tên cùa các thành phần, các bảng mà các thành phần được gắn trên nó, vị trí của các thành phẩn, mối quan hệ về vị trí giữa các thành phần, các thông tin về trạng thái của nồi hấp như: thời gian bất đầu và kết thúc, áp xuất và nhiệt độ cùa nồi hấp Trước một đanh sách các thành phần cần lắp ráp thành một sàn phẩm, CLAVIER tim kiếm ca lập luận cỏ chứa đầy
đù các thành phần có độ ưu tiên cao, có thể chứa các thành phần có độ ưu tiên vừa và độ ưu tiên thấp Trong ca lập luận tương tự nhất, nếu có thành phần không tồn tại trong các thành phần cần lắp ráp thi thay thế nó bàng một thành phẩn tương tự với nó nhất Cuối cùng, CLAVIER đưa ra các bản thiết kế về sản phẩm cần lắp ráp cho các kỹ sư thẩm định.
Hệ trợ giúp khách hàng SMART [2] của công ty Compaq: SMART được Compaq phát triển để cung cấp địch vụ trợ giúp khách hàng SMART tích hợp với hệ thống đăng nhập và hệ thống dẫn đường cuộc gọi của Compaq Mồi ca lập luận của SMART mô tả một cuộc gọi của khách hàng và trả lời của các kỹ sư về vấn đề khách hàng hòi Khi nhận được một cuộc gọi
từ khách hàng, nhân viên phục vụ cập nhật các thông tin về cuộc gọi vào hệ thong, SMART sẽ tim cuộc gọi tương tự nhất với cuộc gọi hiện tại trong tất
cà các cuộc gọi mà nó đã xử lý trong quá khứ Tiếp theo SMART hiệu chinh
Trang 22Tính độ tươìĩg tự và ímg dụng trong CBR l/ì/2006
cuộc gọi cho phủ hợp với ngữ cảnh mới và đưa ra lời giải đáp cho cuộc gọi Căn cứ vào lời giải mà SMART đưa ra, nhân viên phục vụ trả lời cho khách hàng Sau khi được triền khai, SMART xử ỉý thành công khoảng 85-95% các cuộc gọi Thời gian SMART xử lý một cuộc gọi không quá hai phút.
Hệ chuyên gia chẩn đoán bệnh PROTOS [5, 19]: PROTOS được phát triển bời Ray Bareiss and Bruce Porter trong lĩnh vực chần đoán các bệnh khiếm thính PROTOS chứa 200 ca lập luận về bệnh án (các triệu chứng lâm sàng, tiểu sử bệnh, kết quả xét nghiệm, kết luận bệnh và phác đồ điều trị) của các bệnh nhân Các ca lập luận thuộc 24 loại khác nhau từ một chuyên khoa nghe nói Trước các thông tin về bệnh nhân như: các triệu chứng lâm sàng, tiểu sử bệnh, các kết quả xét nghiệm), PROTOS tìm kiếm các ca lập luận tương tự nhất và sừ đụng chẩn đoán trong các ca lập luận này để chẩn đoán cho bệnh nhân Sau khi PROTOS được huấn luyện bời 200 ca lập luận trên,
nó chẩn đoán với độ chính xác rất cao (gần 100%).
1.5 V ấn đề tính độ tương tự giữa các ca lập luận trong hệ thống C B R
Bên cạnh các ưu điểm nói trên, thì khi triển khai các hệ thống CBR cũng còn gặp một số vấn đề rẩt khó giải quyết Một trong sổ các vấn đề đó là tính độ tương tự giữa các ca lập luận Ta đã biết rằng giai đoạn tìm kiếm lại là giai đoạn đầu tiên trong chu trình lập luận theo tình huống Trong chu trinh này, phần quan trọng và chù yéu nhất là tính độ tương tự của ca lập luận mới với các ca lập luận trong cơ sở dừ liệu đề tìm ra các ca lập luận có độ tương tự với nó nhất để phục vụ cho các giai đoẹn tiếp theo Do đó, chi cần một sai sót nhỏ trong công việc này cũng kéo theo cả hệ thống mất tính chính xác, vì thế công việc này luôn được cân nhẳc và thực hiện bời các chuyên gia cỏ kiến thức chuyên môn sâu về lĩnh vực đó.
Trang 23Tính độ tươnọ, tự và ứng dụng trong CBR ỉ / ì /2006
Việc tinh độ tương tự không chì ứng dụng trong CBR mà còn ứng dụng trons rất nhiều lĩnh vực khoa học khác nhau Nhàm giúp các nhà phát triển hệ
đẻ cập chi tiết về các cách tính này.
1.6 K ết luận•
Trong chương này, chúng tôi đã trình bày một cách khái quát về phương pháp lập luận theo tình huống (CBR) cũng như các ưu điểm của nỏ trong phát triển hệ thống so với cách tiếp cận dựa trên luật CBR đưa ra lời giải cho bài toán mới bàng cách tìm cách tái sử dụng lời giải của bài toán cũ tương tự C'BR thích hợp với các bàí toán có miền tri thức rộng hay tri thức chưa ổn định Tuy nhiên, phương pháp này không phải là một công cụ vạn năns thay thế cho các phương pháp dựa trên luật truyền thống Khi bài toán
đã tồn tại các luật chặt chẽ hay đồi hỏi lời giải phải đúng đắn về logic thì các phương pháp dựa trên luật vẫn là một lựa chọn tốt Một hướng nghiên cứu hiện nay là xây dựng các hệ thống lai phổi hợp CBR với lập luận dựa trên luật.
Trang 24dữ liệu khác nhau như kiểu định danh, thứ tự và định lượng, và tiến xa hơn
là từ dữ liệu 2 chiều tới N chiều Các tri thức này về độ tương tự và bất tương
tự là rất cần thiết cho các lĩnh vực như: khai phá tri thức, nhận dạng mẫu, trí tuệ máy, trí tuệ nhân tạo và các hệ thống đa tác tử Tuy nhiên, ứng dụng không chi giới hạn trong lĩnh vự khoa học mảy tính Các lĩnh vực khác về khoa học tự nhiên và xã hội cũng như cơ khí máy và thống kê đã được áp dụng dựa trên các tri thức đơn giản về tính độ tương tự này.
2.1 Đ ộ tương tự
Giả thiết rằng chúng ta có bốn ngôi sao như trong hình dưới đây Những cái nào trong chúng là tương tự nhau? cái nào là khác nhau?
Hlnh 2.1 - Sự tương tự giữa các ngôi sao.
Chúng ta có thể nói, A là tương tự với c A, B và c có cùng kích cỡ, trong khi A, c và D có cùng màu Kích cỡ và màu sắc là các ví dụ của các đặc tnmg có thể đo đạc.
Trang 25Tinh độ tương lự và img dụng trong CBR 1/1/2006
Độ tương tự (Similarity) là rất khó đo lường Độ tương tự là một số
phan ảnh cường độ quan hệ giừa hai đối tượng hoặc hai đặc trưng, s ố này
thường lấy trons khoảng từ -1 tới +1 hoặc được chuẩn hóa là từ 0 tới 1 [23] Nếu độ tương tự giừa đặc trưng i và j được biểu diễn bời s,j, chúng ta có thể
đo sổ tương tự trong một sổ cách phụ thuộc độ đo (hoặc kiểu dữ liệu) mà chúng ta có.
Khoảng cách đo độ bất tương tự (độ khác biệt) Độ khác biệt đo sự
khác nhau giữa hai đổi tượng dựa trên một vài đặc trưng Độ khác biệt có thể
cũng được xem như là độ đo của sự hỗn ỉoạn (disorder•) gíừa hai đối tượng
Nhừng đặc trưng này có thể được biểu diễn như tọa độ cùa đối tượng trong không gian các đặc trưng Có nhiều kiểu khoảng cách và độ tương tự Mỗi độ tương tự hoặc bất tương tự có các đặc tính riêng của nó.
2.1.1 Khoảng cách
Khoảng cách là một biến định lượng thòa mãn ít nhất ba điều kiện đầu trong các điều kiện sau [23]:
d,j>0 khoảng cách luôn lớn hom 0
dij =0 khoàng cách bầng 0 khi và chi nó đo khoàng cách tới chinh nó dịj = dji khoảng cách là đôiư xứng
d,j < dlk + dkj khoáng cách thỏa mãn bất đẳng thức tam giác
Khoảng cách cũng được gọi là độ đo metric nếu ứiỏa mãn tất cả bốn
điểu kiện trên Vì thế, bời vỉ bất đẳng thức tam giác (điều kiện 4), không phải tất cả khoảng cách là metric, nhưng tất cả metric đều là khoảng cách.
Trang 26Tính độ lương tự xà im ẹ dụng trong CBR 1/1/2006
2.1.2 Mối quan hệ giữa tưoìig tự và bất tưoug tự
Lấy chuẩn hóa bất tương tự giữa đối tượng i và j là ôij Quan hệ giừa độ tircmg tự và bất tưcmg tự được cho bời
S i j = l - ô i j (2.1)
đổi với độ tương tự trong khoảng 0 và 1 Khi độ tương tự là một (tức là hoàn toàn eiống nhau), độ bẩt tương tự là không và khi độ tương tự là không thì độ bất tương tự là một.
Nếu giá trị của độ tương tự trong khoảng từ -1 tới +1, và độ bất tương
tự với khoảng tử 0 tới 1 thì
2.2 T ạ i sao chúng ta cần đo tương tự
Có nhiều nhu cầu liên quan tới tính độ tương tự, dưới dây là một số lợi ich về tính toán độ tương tự Nếu chúng ta có thể đo độ tirơng tự hoặc bất tương tự, thi:
1 Chủng ta có thề phân biệt một đối tượng với đối tượng khác,
Trang 27Tính độ tương tự và img dụng trong CBR m /2 0 0 6
2 Chúng ta có thể nhóm chúng dựa trên độ tương tự hoặc bất tưcma tự (ví dự sử dụng phân cụm k-means).
3 Bời chúng ta có thể nhóm các đối tượng vào trong các nhóm, chúng ta có thề hiểu các đặc tính của mỗi nhóm.
4 Chúng ta có thể giãi thi ch cách cư xử của các cụm.
5 Tạo nhóm cũng có thể đưa ra cách tổ chức hiệu quả và tim kiếm lại thông tin.
6 Chúng ta có thể phán lớp một đối tượng mới vào ưong nhóm.
7 Chúng ta có thế dự đoán cách cư xử của một đối tượng mới.
8 Chúng ta có thể cũng đơn giản dừ liệu mà chúng ta cỏ vào trong các quan hệ có lý hơn (đata mining)
9 Chúng ta có thể khám phá cấu trúc trong tập dừ liệu.
10.Chúng ta có thể đưa ra các hành động, kế hoạch và quyết định dựa ừẻn cấu trúc và sự đự báo cùa dữ liệu.
2.3 Đo độ tương tự hoặc bất tương tự
Tương tự và bất tương tự có thề được đo cho hai đối tượng dựa trên một vàì biến đặc tnmg, Phụ thuộc vào ti lệ đo của các biến đặc trưng, độ tương tự hoặc bẩt tương tự (khoảng cách) có thể được quyết định Sau đó khoảng cách hoặc độ tương tự của mỗi biến được xác định, chúng ta có thể kết hợp tất cả các biến đặc trưng cùng nhau vào trong một độ tưcmg tự (hoặc bất tương tự) giừa hai đối tượng Ta có thể đưa ra một số độ đo như sau:
Khoảnp cách cho các biến nhị phân
Trang 28Tinh độ tương tự xà ícng dụng trong CBR ỉ/Ị /2006
Khoảng cách cho các biến định danh (nominal)
Khoảng cách cho các biển có thứ tự (orđinal)
Khoảng cách cho các biến đinh lượng (quantitative)
Độ bất tưcmg tự giữa hai nhóm
Chuẩn hóa độ tương tự hoặc bất tưcmg tự
Chúng ta thường đối mặt với các biến mà chi có giá trị nhị phân như
Có và Không, hoặc Đồng ỷ và Không đồng ỷ, Đúng và Sai, 0 và 1, V V Đối với những biến như vậy, chúng chỉ có hai giá trị mà có thể được biểu điễn như là dương (positive) và âm (negative) Độ tương tự của bất tương tự (khoảng cách) của hai đổi tượng mà được biểu diễn bời các biến nhị phân có thể được đo là số sự kiên (tần suất) của cường độ dương và âm mỗi đối tượng.
Đặt:
p = số các biến mà dương cho cả hai đối tượng
q = số các biến mà dương cho đối tượng thứ i và âm cho đối tượng thứ j
r = số các biến mà âm cho đổi tượng thứ i và dương cho đôi tượng thứ j
Trang 29Tính độ tương tự xà im g dụng trong CBR 1/1/2006
s = sổ các biến mà âm cho cà hai đối tượng
t = p+q+r-i-s = tồng số các biến
Đổi tượng J
Các khoảng cách tính cho các biến nhị phân hay dùng nhất là:
1 Khoảng cách đối sánh đem giản
2 Khoảng cách Jaccard
3 Khoảng cách Hamming
2.4.1 Hệ số đổi sánh đơn giản
Hệ số đối sánh đơn giản và khoảng cách đối sánh đcm giàn là rẩt hữu ích khi cà hai giá trị dương và âm được mang thông tin đối xứng (symmetry)
Ví dụ, giới tinh (nam và nữ) có thuộc tính đoi xứng bời số nam và nừ đưa ra thông tin bàng nhau.
p + s
Để đo khoảng cách dựa trên hệ số đổi sánh đơn giàn, chúng ta có
Ị - ■ 1 - £ Ị £ £ ± i ± £ l £ - £ ì £ ■ i ± £ (2.4)
Trang 30Khoảng cách H am m ing cho các biến n h ị phân
Chuỗi hữu hạn 0 và 1 đôi khi được gọi là một từ (word) trong lý thuyết
mã Nếu hai từ có cùng độ dài, chúng ta có thể đếm số các con số trong các vị trí nơi chúng có các sổ khác nhau Chiều đài của các con số khác nhau được gọi là khoảng cách Hamming Nếu q = số các biến với giá trị 1 cho đối tượng
Trang 31Tính độ tương tự và img dụng (rong CBR 1/1/2006
thứ i và 0 cho đối tượng thứ j và r = sổ các biến VỚI giá trị 0 cho đối tượng thứ
Khoảng cách H am m ing cho dừ liệu cỏ th ứ tự (Ordinal)
giữa hai vec tơ Khoảng cách Hamming có thể cũng được sử dụng cho các biến ordinal để đo sự rối loạn (disorder) của véc tơ từ một véc tơ mẫu.
Giải thuật tính khoảng cách Hamming cho biến ordinal liên quan hoạt
động “để lại” (“Putting back?') các sổ không khớp vào đúng vị trí, sau khi loại
bỏ chúng trong bước đầu tiên, gồm hai bước sau [23]:
1 Lấy/Xóa tất cả các số không khớp trên véc tơ hỗn loạn mà không khớp với các số tương ứng trong vec tơ mẫu.
2 Đặt các sổ bị xóa vào đúng chỗ.
Khoảng cách Hamming là đếm hoạt động “Putting back" Giài tìiuât
này cừng làm việc cho biến nhị phân Tất nhiên, khoảng cách Hamming là bằng với số không khớp.
2.5 T ín h độ tương tự hoặc bất tương tự cho các biến định danh/phạm trù
Trong nhiều trường hợp, chúng ta không thể đo đạc về số lượng, nhưng
có thể đo về khía cạnh phạm trù (category) Một biến định danh hoặc phạm trù được sử đụng khi số là một biểu tượng để diễn tả một số thứ Ví dụ, hoa quả mà tôi thích là
1 = Táo,
Trang 32Để tính khoảng cách giữa hai đối tượng được biểu diễn bời các biến định danh, chúng ta cần xem xét số các phạm trù trong mỗi biển Nếu số c x
Trang 33Tính độ lương tự và im g dụng trong CBR 1/1/2006
phạm trù chi lả 2 chúng ta cỏ thể sử dụng khoảng cách cho các biến nhị phân như đổi sánh đơn giàn, khoáng cách Jaccard hoặc Hamming Neu số các phạm trù nhiều hơn hai, chúng ta cần chuyển những phạm trù này vảo trong một tập các biến giả mà có giá trị nhị phân Có hai phương pháp để chuyền một biến phạm trù định danh (vơi số các phạm trù lớn hơn 2) vào trong các biến già [23]:
• Phương pháp 1 : Gán mỗi giá trị của phạm trù như là một biến giả nhị phản
• Phương pháp 2: Gán mồi giá trị của phạm trù vào trong một số giả các biến nhị phân
Hai phưcmg pháp sản sinh các khoảng cách khác nhau Trong cả hai phưcmg pháp, chứng ta nên tránh sự thiên vị cho các số các phạm trù lớn hơn Khoảng cách được tính toán dựa trên các biến gốc (original) Các biến giả mà biểu diễn các giá trị cùa một biến gốc phải được tính đẩu tiên trước khi kết hợp những giá trị này với các biến khác, Khoảng cách giữa hai đổi tượng là ti
sổ của các biến không khớp và tổng biến giả Nếu q = số các biến mà dương đối với các đối tượng thử i và âm đổi với đối tượng thứ j và r = số các biến màt âm đổi với các đổi tượng thứ i và dương đối với đối tượng thứ j, chúng ta
ço d.=-î—-
iJ dv
2.5.1 Gán mỗi giá trị của phạm trù như là một biến giả nhị phân
Chúng ta gán mỗi giá trị của Phưcmg tiên như lả một biến già nhị phân Khoàng cách giữa hai đối tượng là ti sổ ỡừa số biến không khớp và tổng các biến già.
Trang 34Tính độ lương tự và img dụng í rong C-BR 1/1/2006
1
t
0 1 0
Hình 2.2 - Một ví đụ gán giả trị biến phạm trù.
Ví dụ, chúna ta có hai biến: Giới tính và Phương tiện Giới tính có hai giá trị: 0 = Nam và 1 = Nữ Phương tiện có ba lựa chọn về giao thông công cộng tới trường: Xe buýt, Tầu và Xe tải Giả sừ chúng ta có ba đổi tượng: An (Nam) sử đựng Xe buýt, Bỉnh (Nam) sừ dụng xe tải và Hoa (Nữ) sừ dụng xe buýt.
Chúng ta gán mồi giá trị của Phương tiên như là một biến giả nhị phân Thiết lập trục tọa độ đầu tiên là Giới tính, trục thứ hai là Phương tiên (Buýt, Tầu, Xe tải) Chúng ta có:
Trang 35Tinh độ tương tự vò im g dụng trong CBR ì / Ị /2006
Giả sừ chúng ta sử dụng Khoảng cách Hamming (chính là độ dài các số khác nhau).
• KJhoảng cách (An, Bình) là (0, 2 ) , bao gồm khoảng cách cho hai biến là 0+2 = 2
• Khoàng cách (An, Hoa) là (1, 0 ) , bao gồm khoảng cách cho hai biến lả 1+0 = 1
• Khoảng cách (Bình, Hoa) là (1, 2) , bao gồm khoảng cách cho hai biến là 1+2 = 3
• Khoảng cách (An, Bỉnh) là (0, 2/3), trung binh khoảng cách cho hai biến là (0+2/3)72 = 1/3
• Khoảng cách (An, Hoa) là (ỉ, 0) , trung bình khoảng cách cho hai biến là (l+0)/2 = 1/2
• Khoảng cách (Bình, Hoa) là (1, 2/3) , trung binh khoảng cách cho hai biến là (l+2/3)/2 = 5/6
2.5.2 Gán mỗi giá trị của phạm trù vào trong một số biến giả nhị phân
Nếu số các phạm trù là c, thi chúng ta có thể gán mỗi giá trị của phạm
trù vào trong dv số các biến giả với giá trị nhị phân, số các biến giả phải thỏa mãn điều kiện c <2dv, vi vậy nó có thể được tính như là
log2 trần là số nguyên luôn lớn hơn 0.
Trang 36Tính độ tương tự và ứng dụng trong CBR 1/1/2006
Vi dụ, phương tiên cùa vận chuyển giao thông tới trường là Buýt, Tầu
và Xe tải Chúng ta có 3 phạm trù, và chúng ta cần 2 biến giả bời vì log3
♦
^ ổ
Hình 2.3 - Ví dụ phép gán già biến nhị phân.
Ví đụ, chúng ta có hai biến: Giới tính và Phương tiên Giới tính có hai giá trị: 0 = Nam và 1 = Nữ như trên.
Chúng ta gán mỗi giá trị của Phưomg tiên vào trong hai biến giả nhị
phân.
An = (0, (1,1))
Bình = (0, (0,1))
Trang 37Tỉnh độ tương tự và img dụng í rong CBR ỉ / Ị /2006
Hoa = (1 ,(1 , 1))
Tính khoànơ cách giữa đối tượng, chúng ta cần tính cho mỗi biến gốc (original).
Giả thiết chúng ta sử dụng Khoảng cách Hamming.
Trang 38Tính độ tương tự và ứng dụng trong CBR 1/1/2006
lệ định danh (nominal scale), chủng ta không chú ỷ các đặc trưng này của số Khi chúng ta có dữ liệu phạm trù và chúng ta gắn (gán) mồi tập các phạni trù vào các số khôns tùy ý trong một trật tự nào đó, chúng ta gọi phép đo này là mức độ trật tự Mức độ ưật tự có vai trò rất quan trọng trong cư xừ chung bởi
vì nó dễ thiết kế, dề trà lời bời bên bị.
Sau đây là một sổ ví dụ của mức độ trật tự
• Chi sổ so sánh: -2 = rất không đồng ỷ, - 1 = không đồng ý, 0 = không quan tâm, 1 = đồng ý, 2 - rất đồng ý
• Ti lệ thỏa màn (1 = rất không thỏa mãn, 100 = rất thòa mãn)
• Hạng ưu tiên ( 1 = tốt, giá trị lớn hơn có mức độ quan trọng thấp hom)
• Trật tự (chuỗi các nhăn dựa ưên hạng)
Một chú ý được đưa ra đề phân biệt biến trật tự, hạng và định danh Cà hai biến trật tự và hạng đều là biến thứ tự mặc dù nhân của chúng là phạm trù Biến định danh được biểu diễn tốt nhất như là sự tồn tại của sự lựa chọn mà không trật tự Biến thứ tự nhấn mạnh chuồi hoặc trật tự của sự lựa chọn.
Tính bất tương tự hoặc khoảng cách giữa hai hạng hoặc trật tự hoặc hai vec tơ ti lệ, các phương pháp chung là [23]:
• Sự chuyển đổi hạng được chuẩn hóa
• Khoảng cách Spearman
• Khoảng cách Footmle
Trang 39Tinh độ lương tự và ứng dụng (rong CBR 1/1/2006
d sp u rm a n — dKendall + KtndaU ^ ( 2 8 )
Chấp nhận phương pháp đầu tiên (tức là sự chuyển đổi hạng được chuẩn hóa) noi chúng ta cho ràng hạng như là biến định lượng, các phương pháp khác được (lủng đặc biệt cho bién ừật tự Khoảng cách cho các biến trật
tự là một độ đo sự hỗn loạn không gian giữa hai vec tơ hạng/trật tự Chúng ta
sẽ đặt tên hai vec tơ hạng/trật tự như là vec tơ mẫu và vec tơ hỗn loạn (Pattem-vec tơ và disorder-vec tơ) Vec tơ mẫu có trật tự hoặc chuỗi mà vec
tơ hỗn loạn muốn đạt được Pattem-vec tơ phục vụ như là một ví dự, định hướng hoặc đích mà disorder-vec tơ sẽ vươn tới sau một số chuyển đổi hoặc
Trang 40Tinh độ tương tự và ícng dụng í rong CBR 1/1/2006
hoạt động Khoảng cách cho các biến trật tự đo số nhỏ nhất các bước hoạt động để làm cho disorder-vec tơ thành pattem-vec tơ Sự khác nhau giữa một vài khoảng cách cùa các biến trật tự dựa trên kiểu của các hành động.
Ví dụ:
Chứng ta hòi ba người là An, Bình và Hoa sự lựa chọn các hạng cho các giao thông công cộng tới trường là Buýt, Tầu và Xe tài K.ết quả như sau:
Khoảng cách ý thích giữa An và Hoa là không bởi vì họ có cùng ý thích Vậy khoảng cách giữa giừa An và Bình là bao nhiêu?
Một cách túy ý, chúng ta có thể đặt A = [Buýt, Xe tải, Tầu] như là pattem-vec tơ và B“ [Xe tải, Buýt, Tầu] như là disorder-vec tơ, hoặc chúng ta
có thể cũng đặt B=[Xe tải, Buýt, Tầu] như là pattem-vec tơ và A=[Buýt, Xe tải, Tầu] như ỉà disorder-vec tơ Các cách khác sẽ đưa ra cùng kết quà bởi vì khoảng cách là đổi xứng: d(A,B) = d(B, A).
2.6.1 Sự chuyển đổi hạng được chuẩn hóa
Tỉ lệ và hạng là các biến trật tự mà có thể được chuyển đổi vào trong các biến định lượng thông qua sự chuẩn hỏa Bởi các hạng được chuẩn hóạ, khoảng cách có thể được tính như là các biến định lượng.