Tối ưu trọng số cho hàm tính độ tương tự giữa các- 123docz.net

Trong phẩn này, chúng tôi đề xuất phương pháp tổi ưu bộ ưọng số của hàm tính độ tương tự trong CBR. Tư tường của phương pháp là dựa trên các ca lập luận và ý kicn đánh giá của các chuyên gia, xây dựng một hàm mục tiêu đánh giá có các đặc trưng như sau:

• Biến của hàm là các trọng số cần tìm

• Giá trị hàm phải thể hiện được độ sai lệch trung bình giữa các giá trị hàm tương tự và đánh giá của các chuyên gia.

Tính độ tương tự rồ ứ n g dụ n g tro ng C B R 1/1/2006

• Tối ưu hàm này sẽ cho kết quả nghiệm tốt, tức là hàm đánh aiá cho kết quả cực trị.

Sau đó sử đụng các phưcmg pháp tối ưu hàm mục tiêu này để tìm ra nahiệm. vấn đề cơ bản nhất là xây dựng hàm đảnh giá như thế nào? dùng giải thuật nào để tổi ưu? Các phần còn lại của chương sẽ đưa ra câu trả lời.

3.3.1 Xây dựng hàm mục tiêu đánh giá dựa trên các đánh giá dạng số của chuyên gia.

Trong phần này, già sử các chuyên gia đưa ra các đánh giá về độ tương tự giừa các ca lập luận ỉà một con số thể hiện độ tương tự nẳm trong khoảng từ 0 tới 1. Số 0 thể hiện hai ca lập luận là hoàn toàn khác nhau, sổ 1 thể hiện hai ca lập luận là hoàn toàn giống nhau.

Giả sử ta có p ca lập luận trong tập các ca lập luận huấn luyện và ma trận đánh giá của các chuyên gia là Y=(yjj)p p , yij là đánh giá độ tương tự giữa hai ca lập luận thứ i và j trong tập các ca lập luận huấn luyện.

Ký hiệu Ư = [0,1], E là một ánh xạ từ ư n vào đoạn [0,1]: E: Ư"->[0,1]

w |~> E(w) với

Tỉnh độ tưomg tự và ibig dụng trong CBR 1/1/2006

Ở đây, S I\l°v)(i j ) là độ tương tự giữa hai ca lập luận thứ i và j trong tập huấn luyện.

Hàm E(w) như trên cỏ các tính chất sau: • Nhận Wj, j = 1,2,. . ,n là các biến.

• Khi các S Ĩ M ^ i j ) tiến gần tới y;j, tức là (SlbĂw>(ij)-ytj) tiến tới 0, thi E(w) sẽ tiến tới cực tiểu.

• Khi tối thiểu hàm E, các giá trị Wị thu được sẽ cho kết quả tốt nhất, tức là hàm tương tự sẽ cho kết quả sát với đánh giá chuyên gia nhất.

Như vậy, với cách xảy đựng như công thức (3.1), hàm E thỏa mãn được các yêu cầu đặt ra cho một hàm đánh giá bộ trọng số, nó thể hiện sai số trung bình binh phương giữa các giá trị độ tưcmg tự tính được nhờ công thức (1.1) với các giá trị đánh giá tương ứng của các chuyên gia.

3.3.2 Xây dựng hàm mục tiêu đánh giá dựa trên các đánh giá mờ của chuyên gia.

Trong phần này, các đánh giá của các chuyên gia đều cho dưới dạng các khái niệm “mờ” như ‘hơi giống”, “rất giống”,... Đề xây dựng được hàm mục tiêu đánh giá, ta phải làm sao có thể “khừ” được các khái niệm mờ này, tức là phài chuyển các khái niệm này tương ứng với một con số ừong khoảng từ 0 tới 1.

3.3.2.1. Số hóa đánh giá của các chuyên gia về độ tương tự giữa các ca lập luận trong tập huấn luyện

Tính độ tương lự vờ ứng dụng trong CBR ỉ/ỉ/2006

Gọi c là tập cảc ca lập luận được dùng làm tập huấn luyện. X ỉà tập các biến mờ được chuyên gia sử đụng để đánh giá về độ tương tự giừa các cases. Trong phưomg pháp này, chúng tôi định nghĩa tập X như sau: X = { “rất giổng”, “khá giống”, “giống”, “hon giống”, “ít giống”, “khác”}.

Ta ký hiệu F là một hàm đánh giá của các chuyên gia về dộ tương tự giữa các ca lập luận trong C:

F: c * c - > x

( x , y ) - + F ( x , y ) e X

Ký hiệu G là hàm số hóa biển mỗi giá trị z thuộc X vào một giá trị G(z) thuộc đoạn [0,1], tức là:

G : x ~ > [0.]]

z |—» G(z)

Già sử |C| = p, khi đó, với hai ca lập luận a, b trong c , ta có giá trị sổ hóa được từ đánh á ả cùa các chuyên gia về độ tương tự là G(F(a,b)). Từ đây, ta rút ra một quan hệ mờ về độ tương tự (quan hệ giống nhau) giừa các ca lập luận trong c. Kỷ hiệu quan hệ này là R, ta có R-(r,j)pp, với Tịị là giá trị số hóa đánh giả độ tương tự giữa hai ca lập luận thứ i và j trong c và đề đcm giản, chúng tôi gọi R là ma trận số hóa.

3.3.2.2 Xây dựng hàm mục tiêu đánh giá

Trong phần này, chúng tôi sẽ đi xây dựng một hàm E thể hiện được sai số giữa hàm tính độ tương tự với bộ trọng số tìm được và đánh giá của chuyên gia. Một cách đơn giàn, chúng tôi chọn hàm E là hàm sai số trung (adsbygoogle = window.adsbygoogle || []).push({});

Tinh độ tương tự và ứng dụng trong CBR 1/1/2006

binh binh phươns giữa giá trị của hàm tương tự và đánh giá của chuyên gia tương ứng.

Giả sử ta có |C| = p, ma trận sổ hóa đánh giá của các chuyên gia là

K ý hiệu Ư = [0,1], E là một ánh xạ từ u n vào đoạn [0,1]: E: U" -► ư

w ị~» E(w) với

ở đây, SỈMiw)( i, j)là độ tương tự giữa hai ca lập luận thứ i và j trong tập huấn luyện.

Hàm E(w) như trên có các tính chất sau: • Nhận Wj, j = 1,2 ,.. ,n là các biến.

• Khi các tiến gần tới rtj thi E(w) sẽ tiến tới cực tiểu. Với cách xây dựng như công thức (3.2), hàm E thỏa mãn được các yêu cầu đặt ra cho một hàm đánh giá bộ trọng sổ, nó thể hiện sai số trung binh bình phương giữa các giá trị độ tương tự tính được nhờ công thức (1.1) vói các giá trị đánh giá tương ứng của các chuyên gia

Việc tối thiểu hàm E có thể có nhiều phương pháp khác nhau, giảm gradient là phưcme pháp được đề cập sớm nhất và được áp dụng rộng rãi nhất

Tính độ tưcmg lự và ítĩỉg dụng trong CBR 1/1/2006

cho giải các bài toán dạng này do tính đơn giàn và khả năng hội tụ nhanh chỏng của nó. Bèn cạnh đó, chúng tôi cũng sừ dụng thêm một phương pháp giải khác là đủng giải thuật di truyền, đây là giải thuật dựa trên mô hình ngẫu nhiên được sử dụng để tối ưu các hàm số khi không gian các lời giải là rất lớn. Các kết quả thực nghiệm trong trường hợp cụ thể cho hai phương pháp này sẽ được chi ra trong chương 4.

3.4. C á c phương pháp tối ỉhiểu hàm m ục tiêu

Phần này sẽ trinh bày một số phương pháp tối thiểu hàm mục tiêu để tìm ra bộ trọng số tốt nhất. Có nhiểu phương pháp toán học cố thể áp dụng cho vấn đề này. Trong mục này, chúng tôi trình bày hai phương pháp cơ bản và được sử dụng nhiều nhất là đổc gradient và giải thuât di truyền.

3.4.1 Sử dụng phương pháp giảm Gradient tối thiểu hàm mụctiêu tiêu

Giảm gradient là phương pháp tim lời giải tối ưu cục bộ dựa trẽn các thông tin đạo hàm hàm mục tiêu. Giả sử ta có hàm mục tiêu E với n tham so đầu vào, khi đó E là một siêu phẳng trong không gian n chiều. Một cách hình ảnh thù siêu phẳng E có những vùng “lồi-lõm” tương ứng với các giá trị “lớn- nhò” cùa hàm E, mục tiêu của ta là tim được giá trị các tham số đầu vào tại vị trí “lõm" nhất, tức là E có giả trị nhò nhất. Phương pháp giảm građient bao gồm các bước sau [21]:

1. Chọn ngẫu nhiên một điểm Xo trong không gian nghiệm. 2. Tính độ dốc của mặt E tại điểm X o -

Tỉnh độ tương (ự vờ ứng dụng í rong CBR ỉ / ỉ /2006

4. Xem điểm này như điểm Xo mới.

Áp dụng cho bài tóan cùa chứng ta với E là hàm đánh giá với các tham

s ổ đầu vào là w = ( W |, W 2, .. . ,wn). Giả sử có 2 ca lập luận a, b khi đó độ tưcmg tự giữa a và b được tính theo công thức (1.1). Sử dụng kỷ thuật giảm gradient trên cho bài tỏan cùa chúng ta, khi đó độ dốc mặt lồi tại w được tính như sau:

õw

trong đó X là tốc độ học

Cập nhật w = w + Aw, tức là với mỗi l<j<n, Wj = Wj +AWj

với

A™ - - X - = —Ầ____M - ÔSIM {w)(a,b) (3 4) ; ôWj ÔSIM (w)(a, b) ôw

Đe giành được bộ trọng số tối ưu, chúng ta cần tối thiều hàm E, sừ dụng kỳ thuật gradient, thuật toán thực hiện được mô tả như sau:

Bước 1. Chọn X.

Bước 2. Khởi tạo ngẫu nhiên Wj trong đoạn [0,1]. Bước 3. Tính Awj với mỗi jtheo công thức (3.4). Bước 4. Tính lại Wj = W j +Awj với mỗi j.

Bước 5. Lặp lại bước 3 và 4 tới khi hội tụ, đó là cho tới khi giá trị của E nhò hơn hoặc bằng một ngưỡng cho trước, hoặc tới khi số các bước lặp tới một giới hạn định tnrớc.

Tính độ nrơng tự và ứng dụng trong CBR 1/1/2006 (adsbygoogle = window.adsbygoogle || []).push({});

3.4.2 Sử dụng giải thuật di truyền tối thiểu hàm mục tiêu

Bài tỏan tối ưu cỏ thể được xem như bài toán tim ra lời giải (tốt nhất) trong không gian (rất lớn) các giải pháp. Khi không gian các giải pháp là nhỏ, ta có thể dùng các phương pháp cổ điển để tim lời giải, nhưng khi không gian lớn, cẩn phải dùna các kỹ thuật trí tuệ nhân tạo đặc biệt. Giải thuật di truyền (Genetic Algorithm-GA) là một trong các kỹ thuật đó [9]. GA ỉà một thuật giải mô phòng các hiện tượng tự nhiên: kế thừa và đấu tranh sinh tồn để cải tiến lời giải và khảo sát không gian lời giải. GA được dùng dựa trên quan điếm: quá trình tiến hóa tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự nó mang tinh tối ưu, thế hệ sau bao giờ cũng tốt hem thế hệ tnrớc.

Trong tiến hóa tự nhiên có hai quá trình cơ bản là sinh sản và chọn lọc tự nhiên. Các cá thể luôn được sinh ra để bổ xung thay thế các cá thể cũ. Cá thể nào phát triển hcm, thích ứng với môi trường sẽ tồn tại và môi trường và sự tiến hóa luôn luôn thúc đẩy nhau. Hai quá trình này có thể được chia làm bốn quá trình con là lai ghép, sinh sản, đột biến và chọn lọc tự nhiên.

Áp dụng tư tường trên vào bài toán tối ưu, khi đó mồi giá trị trong không gian nghiệm sỗ được coi là một cá thể và thường được biểu diễn bằng một (hoặc một tập) chuỗi bit mà ta gọi là các gen. Để tìm nghiệm tổi ưu của bài toán, GA sẽ thực hiện các bước như sau:

• Bước 1: Khởi tạo ngẫu nhiên một quan thể ban đầu gồm một số các cá thề.

• Bước 2: Thực hiện các phép di truyền là lai ghép, đột biến và tái sinh

Tính độ tưcmg tự và ứng dụng í rong CBR 1/1/2006

• Bước 4: Lặp lại bước 2 và 3 cho tới khi tìm ra một cá thể tốt nhất hoặc tới khi số thế hệ vượt qua một ngưỡng nào đó cho trước.

Đe thực hiện giải thuật di truyền, chúng ta phài quan tám tới các vấn đề sau:

• Một cấu trúc dữ liệu I biểu diễn không gian lời giải của bài toán.

• Phươn® p h á p k h ở i tạo quần th ể ban đầu.

• Hàm định nghĩa độ thích nghi.

• Các phép toán di truyền (lai ghép, đột biến, chọn lọc, tái sinh).

• Các tham số giải thuật di truyền(cỡ quần thể, xác suất lai ghép, xác xuất đột biển,...)

Áp dụng GA trong bài toán của chúng ta, biểu diễn mỗi cá thể là một nghiệm bời một vector s có n thành phần (tương ứng n thuộc tính trong ca lập luận) và cá thể thứ k được biểu diễn bời vec-tơ Svr={Si, S2, . . Sn), mỗi Si là một đãy m bit tưcmg ứng với trọng số W j . Nếu độ chính xác cần đạt là 3 số lè trong khi các giá trị của Si chi thuộc đoạn [0,1] thì ta cần phải chia đoạn [0,1] thành 1.103 khoảng và độ dài m =10 bit. Hàm định nghĩa độ thích nghi (hay hàm đánh giá) là hàm E tính trung binh lỗi binh phương (độ lệch) sinh ra bởi mỗi cá thể 5*:

Ờ đây S Ih ỉk(i,j) là độ tưcmg tự giữa hai ca lập luận thứ i và j ưong tập ca lập luận với vec-tơ trọng số Sỵ.

ỉ

X ỉ {St)V , j ) ~ y,j) ì (3.5)

Tính độ tương tự và ứng dụng Irong CBR 1/1/2006

Đe tính được SIMSk(i,j), ta cần phài ánh xạ mỗi s¡ trong Sk thành một sổ thực Wj trong đoạn [0,1], cách tính như sau: Với mồi chi số j trong sk:

• Biển đổi chuỗi bít Sj từ cơ sổ 2 sang cơ sổ 10, già sử bằng Wj’

• Tìm so thực Wj tircmg ứng với Wj’

Các tham số khác cho giải quyết bài toán này là tùy chọn, chương 4 của luận văn sẽ đưa ra chi tiết các tham số này.

3.5 K ết luận•

Chương này đã đề xuất phương pháp cho tối ưu bộ trọng số cho hàm tính độ tương tự ưong CBR ừên tập các ca lập luận. Tư tường của phương pháp là xây dựng hàm mục tiêu đánh giả trọng số từ những thông túi đánh giá của các chuyên gia và hàm tính độ tương tự giữa các ca lập luận trong tập huấn luyện. Sau đó, sừ đụng một số phưcmg pháp tối iru hàm đánh giá để thu được bộ trọng sổ tốt nhất. Tư tưởng và nguyên lý cơ bàn của hai giải thuật tối ưu thông dụng nhất là giải thuật di truyền và dốc Gradient cùng được đưa ra nhằm làm cơ sờ cho thực nghiệm trong chương 4.

Tinh độ tương lự và img dụng trong CBR 1/1/2006

C h ư c r n g 4 . T h ự c n g h i ệ m

C h ư ơ n g náy đ ư a ra h ệ th ố n g thực n g h iệ m ch o ph ư ơ n g pháp tối ưu tro n g c h ư ơ n g 3 trên hai hệ th ố n g k h á c nhau, m ộ t hệ th ố n g thực ước lư ợ ng chi phi p h ầ n m ề m và m ộ t h ệ th ố n g g iả lập, đây là hệ th ố n g được c h ú ng tôi đ u a ra với c ác đ ữ liệu sinh già. M ụ c đ íc h c ủ a h ệ th ố n g g iả lập này n h ằ m làm sáng tò h ơ n các k ế t q u ả thu đ ư ợ c tro n g p h ư ơ n g p h áp tổi ưu. C ác m ô tả cơ bả n về các hệ th ố n g đ ư ợ c ím s d ụ n g th ừ n g h iệ m v à k ết q u ả sẽ đ ư ợ c đư a ra trong c á c phần dưới đày.

4.1 T h ự c nghiệm trên hệ thống ư ớc lượng chi phí phầnm ềm m ềm

T h ự c nghiệm n à y đư ợ c thự c hiệ n trên m ộ t h ệ th ố n g ước lư ợ n g chi phí p h ầ n m ề m s ử dụng C B R [25]. H ệ th ố n g này đ a n g tro ng giai đ o ạn thử n g h iệ m k ết q u ả v à n â n g cấp, v à đ ượ c th ự c hiệ n bởi các cán bộ g iảng viên k h o a công n g h ệ th ô n g từi Đại h ọ c C ô n g n g h ệ , Đại h ọ c Q u ổ c g ia H à Nội. D ưới đây là các m ô tả c ơ b ả n về hệ th ố n g th ự c n à y v à c ác kết q u ả th ự c n g h iệ m trên đó. (adsbygoogle = window.adsbygoogle || []).push({});

4 .1 .1 H ệ th ố n g ư ớ c lư ợ n g c h i p h í p h ầ n m ề m

Ư ớ c lư ợ n g là m ộ t tro n g n h ừ n g cô n g việc k h ó n h ấ t trong ph á t triển p hần m ề m đ ặ c biệt là tro n g giai đ o ạ n x á c định. Vì h iể u b iế t c ủ a chúng ta v ề hệ th ố n g tro n g giai đoạn này c ò n h ạ n chế v à c h ư a chi tiết nên sai số c ủ a ước lượ ng th ư ờ n g rất lớn. T r o n g n h ữ n g n ă m qua, rất n h iề u p h ư ơ n g pháp đ ư ợ c đề xuất n h ằ m tà n g độ c h ín h x á c c ủ a việc ư ớ c lượng. H ệ thố ng này d ù n g cách tiếp c ậ n c h o uớ c lư ợ n g d ự á n p h ầ n m ề m sử d ụ n g p h ư ơ n g pháp lập lu ậ n theo tìn h h u ổ n g (Case-Based Reasoning).

Tinh độ tương tự \'à ứng dụng trong CBR 1/1/2006

B iể u d iễ n các d ự á n b a o g ồ m lự a c h ọ n c ấ u trú c, nội đ u n g v à c á c h thức tích h ợ p từ n g d ự án riê n g v à o c ơ s ở t n thức. T r o n g b ư ớ c này, v iệ c lự a ch ọ n n h ừ n g th ô n g tin nào c ủ a d ự á n đ ể m ô tà là h ế t sứ c q u a n trọng. N h ừ n g th ô n g tin đư ợ c lự a chọn p h ả i là n h ữ n g th ô n g tin đ ặ c trư n g c ủ a d ự á n v à p h ả i xác đ ịn h đ ư ợ c n g a y trong giai đ o ạ n x á c định. T r o n g m ô h ìn h n à y , m ỗ i d ự án đư ợ c m ô tà g ồ m hai phần: đặc tà dự ân v à chi phi, thời gian th ự c tế. B ả n g 4.1 m ô tà c á c th u ộ c tính của m ộ t d ự á n v à m iề n g iá trị c ủ a c h ú n g .

Bảng 4 .1 - C ác thuộc tính và m iền giá trị của chúng

Thuộc tính ■ Miền giá trị

Tối ưu trọng số cho hàm tính độ tương tự giữa các ca lập luận ừong

Mục lục