Phần này sẽ trinh bày một số phương pháp tối thiểu hàm mục tiêu để tìm ra bộ trọng số tốt nhất. Có nhiểu phương pháp toán học cố thể áp dụng cho vấn đề này. Trong mục này, chúng tôi trình bày hai phương pháp cơ bản và được sử dụng nhiều nhất là đổc gradient và giải thuât di truyền.
3.4.1 Sử dụng phương pháp giảm Gradient tối thiểu hàm mụctiêu tiêu
Giảm gradient là phương pháp tim lời giải tối ưu cục bộ dựa trẽn các thông tin đạo hàm hàm mục tiêu. Giả sử ta có hàm mục tiêu E với n tham so đầu vào, khi đó E là một siêu phẳng trong không gian n chiều. Một cách hình ảnh thù siêu phẳng E có những vùng “lồi-lõm” tương ứng với các giá trị “lớn- nhò” cùa hàm E, mục tiêu của ta là tim được giá trị các tham số đầu vào tại vị trí “lõm" nhất, tức là E có giả trị nhò nhất. Phương pháp giảm građient bao gồm các bước sau [21]:
1. Chọn ngẫu nhiên một điểm Xo trong không gian nghiệm. 2. Tính độ dốc của mặt E tại điểm X o -
Tỉnh độ tương (ự vờ ứng dụng í rong CBR ỉ / ỉ /2006
4. Xem điểm này như điểm Xo mới.
Áp dụng cho bài tóan cùa chứng ta với E là hàm đánh giá với các tham
s ổ đầu vào là w = ( W |, W 2, .. . ,wn). Giả sử có 2 ca lập luận a, b khi đó độ tưcmg tự giữa a và b được tính theo công thức (1.1). Sử dụng kỷ thuật giảm gradient trên cho bài tỏan cùa chúng ta, khi đó độ dốc mặt lồi tại w được tính như sau:
õw
trong đó X là tốc độ học
Cập nhật w = w + Aw, tức là với mỗi l<j<n, Wj = Wj +AWj
với
A™ - - X - = —Ầ____M - ÔSIM {w)(a,b) (3 4) ; ôWj ÔSIM (w)(a, b) ôw
Đe giành được bộ trọng số tối ưu, chúng ta cần tối thiều hàm E, sừ dụng kỳ thuật gradient, thuật toán thực hiện được mô tả như sau:
Bước 1. Chọn X.
Bước 2. Khởi tạo ngẫu nhiên Wj trong đoạn [0,1]. Bước 3. Tính Awj với mỗi jtheo công thức (3.4). Bước 4. Tính lại Wj = W j +Awj với mỗi j.
Bước 5. Lặp lại bước 3 và 4 tới khi hội tụ, đó là cho tới khi giá trị của E nhò hơn hoặc bằng một ngưỡng cho trước, hoặc tới khi số các bước lặp tới một giới hạn định tnrớc.
Tính độ nrơng tự và ứng dụng trong CBR 1/1/2006
3.4.2 Sử dụng giải thuật di truyền tối thiểu hàm mục tiêu
Bài tỏan tối ưu cỏ thể được xem như bài toán tim ra lời giải (tốt nhất) trong không gian (rất lớn) các giải pháp. Khi không gian các giải pháp là nhỏ, ta có thể dùng các phương pháp cổ điển để tim lời giải, nhưng khi không gian lớn, cẩn phải dùna các kỹ thuật trí tuệ nhân tạo đặc biệt. Giải thuật di truyền (Genetic Algorithm-GA) là một trong các kỹ thuật đó [9]. GA ỉà một thuật giải mô phòng các hiện tượng tự nhiên: kế thừa và đấu tranh sinh tồn để cải tiến lời giải và khảo sát không gian lời giải. GA được dùng dựa trên quan điếm: quá trình tiến hóa tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự nó mang tinh tối ưu, thế hệ sau bao giờ cũng tốt hem thế hệ tnrớc.
Trong tiến hóa tự nhiên có hai quá trình cơ bản là sinh sản và chọn lọc tự nhiên. Các cá thể luôn được sinh ra để bổ xung thay thế các cá thể cũ. Cá thể nào phát triển hcm, thích ứng với môi trường sẽ tồn tại và môi trường và sự tiến hóa luôn luôn thúc đẩy nhau. Hai quá trình này có thể được chia làm bốn quá trình con là lai ghép, sinh sản, đột biến và chọn lọc tự nhiên.
Áp dụng tư tường trên vào bài toán tối ưu, khi đó mồi giá trị trong không gian nghiệm sỗ được coi là một cá thể và thường được biểu diễn bằng một (hoặc một tập) chuỗi bit mà ta gọi là các gen. Để tìm nghiệm tổi ưu của bài toán, GA sẽ thực hiện các bước như sau:
• Bước 1: Khởi tạo ngẫu nhiên một quan thể ban đầu gồm một số các cá thề.
• Bước 2: Thực hiện các phép di truyền là lai ghép, đột biến và tái sinh
Tính độ tưcmg tự và ứng dụng í rong CBR 1/1/2006
• Bước 4: Lặp lại bước 2 và 3 cho tới khi tìm ra một cá thể tốt nhất hoặc tới khi số thế hệ vượt qua một ngưỡng nào đó cho trước.
Đe thực hiện giải thuật di truyền, chúng ta phài quan tám tới các vấn đề sau:
• Một cấu trúc dữ liệu I biểu diễn không gian lời giải của bài toán.
• Phươn® p h á p k h ở i tạo quần th ể ban đầu.
• Hàm định nghĩa độ thích nghi.
• Các phép toán di truyền (lai ghép, đột biến, chọn lọc, tái sinh).
• Các tham số giải thuật di truyền(cỡ quần thể, xác suất lai ghép, xác xuất đột biển,...)
Áp dụng GA trong bài toán của chúng ta, biểu diễn mỗi cá thể là một nghiệm bời một vector s có n thành phần (tương ứng n thuộc tính trong ca lập luận) và cá thể thứ k được biểu diễn bời vec-tơ Svr={Si, S2, . . Sn), mỗi Si là một đãy m bit tưcmg ứng với trọng số W j . Nếu độ chính xác cần đạt là 3 số lè trong khi các giá trị của Si chi thuộc đoạn [0,1] thì ta cần phải chia đoạn [0,1] thành 1.103 khoảng và độ dài m =10 bit. Hàm định nghĩa độ thích nghi (hay hàm đánh giá) là hàm E tính trung binh lỗi binh phương (độ lệch) sinh ra bởi mỗi cá thể 5*:
Ờ đây S Ih ỉk(i,j) là độ tưcmg tự giữa hai ca lập luận thứ i và j ưong tập ca lập luận với vec-tơ trọng số Sỵ.
ỉ
X ỉ {St)V , j ) ~ y,j) ì (3.5)
Tính độ tương tự và ứng dụng Irong CBR 1/1/2006
Đe tính được SIMSk(i,j), ta cần phài ánh xạ mỗi s¡ trong Sk thành một sổ thực Wj trong đoạn [0,1], cách tính như sau: Với mồi chi số j trong sk:
• Biển đổi chuỗi bít Sj từ cơ sổ 2 sang cơ sổ 10, già sử bằng Wj’
• Tìm so thực Wj tircmg ứng với Wj’
Các tham số khác cho giải quyết bài toán này là tùy chọn, chương 4 của luận văn sẽ đưa ra chi tiết các tham số này.
3.5 K ết luận•
Chương này đã đề xuất phương pháp cho tối ưu bộ trọng số cho hàm tính độ tương tự ưong CBR ừên tập các ca lập luận. Tư tường của phương pháp là xây dựng hàm mục tiêu đánh giả trọng số từ những thông túi đánh giá của các chuyên gia và hàm tính độ tương tự giữa các ca lập luận trong tập huấn luyện. Sau đó, sừ đụng một số phưcmg pháp tối iru hàm đánh giá để thu được bộ trọng sổ tốt nhất. Tư tưởng và nguyên lý cơ bàn của hai giải thuật tối ưu thông dụng nhất là giải thuật di truyền và dốc Gradient cùng được đưa ra nhằm làm cơ sờ cho thực nghiệm trong chương 4.
Tinh độ tương lự và img dụng trong CBR 1/1/2006
C h ư c r n g 4 . T h ự c n g h i ệ m
C h ư ơ n g náy đ ư a ra h ệ th ố n g thực n g h iệ m ch o ph ư ơ n g pháp tối ưu tro n g c h ư ơ n g 3 trên hai hệ th ố n g k h á c nhau, m ộ t hệ th ố n g thực ước lư ợ ng chi