Cụng cụ mụ phỏng hệ ANFIS gồm cỏc hàm được viết bằng MATLAB. Sử dụng cụng cụ này để xõy dựng và kiểm tra hệ thống được làm theo cỏc bước như sau:
•Đọc tập dữ liệu cần huấn luyện ( Training)
•Định nghĩa số hàm thuộc, loại hàm thuộc ( generate FIS) - Phõn chia theo lưới (Grid partition)
- Sử dụng phương phỏp phõn cụm để tỡm số hàm thành viờn ( Sub.clustering)
•Định nghĩa phương phỏp dựng để huấn luyện (Optim. Method), khả năng chịu lỗi ( Error Tolerance), số lần lặp (Epochs)
•Huấn luyện
•Kiểm tra quỏ trỡnh phõn lớp •Mụ phỏng kết quả
•Phõn tớch kết quả
Để cú thể mụ phỏng được hệ ANFIS trong bài toỏn phõn lớp dữ liệu, chỳng ta đi phõn lớp cho hai tập dữ liệu đú là tập dữ liệu IRIS và tập dữ liệu dựng để chuẩn đoỏn hai bệnh : bệnh Thương hàn và bờnh Sốt mũ. Để hệ thống cú thể hoạt động được, trước hết chỳng ta cần một tập dữ liệu, tập dữ liệu này
được biểu diễn dưới dạng là một ma trận cú số cột là tổng số đầu vào và đầu ra, số dũng chớnh là số mẫu dữ liệu cần huấn luyện.
a) Định nghĩa biến đầu vào
Trước khi đi vào phõn lớp dữ liệu,chỳng ta cần phải đưa số biến đầu vào tương ứng với số biến trong tập dữ liệu đó cho. Sau đú mở hộp thoại để mụ tả hệ ANFIS và thực hiện quỏ trỡnh phõn lớp.
Hỡnh 3.1. Biểu diễn cỏc tập mờ của biến đầu vào Mụ tả hệ ANFIS
Sau khi đó định nghĩa số biến đầu vào tương ứng, chỳng ta mở hệ ANFIS để mụ tả tham số cho quỏ trỡnh huấn luyện. Để cú thể phõn lớp được thỡ chỳng ta cần cú một tập dữ liệu để huấn luyện và một tập dữ liệu khỏc để kiểm tra. Sau khi đó cú cỏc tập dữ liệu đú, chương trỡnh cho phộp ta nạp và xem cỏc mẫu dữ liệu huấn luyện, lựa chọn số cỏc hàm thuộc và dạng hàm thuộc…Chương trỡnh cũng cho phộp ta xem cỏc mẫu dữ liệu kiểm tra và cú thể kiểm tra khả năng phõn lớp của hệ đối với cỏc mẫu dữ liệu dựa trờn quan sỏt trực quan. Sauk hi huấn luyện xong ta nạp dữ liệu kiểm tra (data testing), trong dữ liệu kiểm tra cú chứa luụn dữ liệu đầu ra cuối cựng của hệ và màn hỡnh sẽ hiển thị tất cả cỏc đầu ra của dữ liệu kiểm tra vào cỏc lớp tương ứng cú trong tập dữ liệu mẫu.
Hỡnh 3.2. Hộp thoại cho phộp mụ tả hệ ANFIS
Đầu ra của dữ liệu kiểm tra sẽ được phõn bố vào cỏc lớp tương ứng bằng một màu đặc trưng ( ở đõy là màu xanh) ký hiệu là ( . ). Sau khi cú được đầu ra đớch mà hệ ANFIS cần đạt được ta cho hệ kiểm tra khả năng phõn lớp của mỡnh với dữ liệu kiểm tra, kết quả là cỏc đầu ra thực tế phõn bố xung quanh cỏc lớp bằng một màu khỏc ( ở đõy là ký hiệu * màu đỏ). Bằng quan sỏt trực quan, ta cú thể biết được hệ phõn lớp cỏc mẫu vào lớp nào, đỳng hay sai và sai số là bao nhiờu.
Trong phần mềm mụ tả hệ ANFIS này cũn cho phộp chỳng ta tự lựa chọn số hàm thuộc, loại hàm thuộc cho cỏc biến trong hộp thoại sau đõy:
Hỡnh 3.3. Hộp thoại lựa chọn số hàm thuộc, loại hàm thuộc cho cỏc biến
Bờn cạnh những hộp thoại cho phộp ta tự động nhập vào những dữ kiện của bài toỏn, phần mềm này cũn cho phộp ta cú thể quan sỏt được lỗi của quỏ trỡnh huấn luyện, cấu trỳc của hệ ANFIS, dạng đồ thị cỏc hàm thuộc của cỏc biến đầu vào, cỏc luật và thuộc tớnh của hệ.
Hỡnh 3.4. Cấu trỳc hệ ANFIS
Hỡnh 3.5. Cấu trỳc cỏc luật của một hệ ANFIS
Trờn đõy là một số giao diện chớnh của phần mềm MATLAB mà chỳng ta dựng để mụ phỏng hệ ANFIS. Bõy giờ, để cú thể đỏnh giỏ được hiệu quả của
hệ ANFIS, chỳng tụi đó tiến hành thử nghiệm trờn hai bộ dữ liệu đó cho như đó đề cập ở trờn. Sau đõy là những thụng tin chớnh và kết quả phõn lớp với hai tập dữ liệu trờn.
Xõy dựng hệ thống
Chỳng ta đều biết rằng bài toỏn phõn lớp hiện nay đang là một xu hướng ỏp dụng mới trong nhiều lĩnh vực, đặc biệt là lĩnh vực chuẩn đoỏn bệnh trong Y tế. Việc xỏc định ra một cỏch chớnh xỏc hoặc cú thể gần đỳng kết quả của bệnh nhõn dựa trờn những triệu trứng đó cú sẽ giỳp cho cỏc bệnh viện giảm được rất nhiều những chi phớ khụng cần thiết đồng thời giỳp cho bỏc sĩ cú hướng để điều trị bệnh nhõn. Chớnh vỡ vậy, trong phần ứng dụng này, em đưa ra hai tập dữ liệu để phõn lớp. Tập dữ liệu thứ nhất là tập dữ liệu để chuẩn đoỏn 2 bệnh dị ứng do thức ăn và ngộ độc thức ăn. Tập dữ liệu thứ hai là tập dữ liệu về chuẩn đoỏn hai bệnh : sởi và rubella. Đõy là cỏc bệnh thường gặp. Cỏc bệnh này tuy khỏc nhau nhưng cú cựng cỏc triệu trứng như nhau song mức độ của cỏc triệu chứng đú thỡ khỏc nhau.
•Đối với tập dữ liệu IRIS
Đõy là một tập dữ liệu mụ tả thụng tin về hoa của cỏc cõy IRIS thụng qua bốn đặc điểm chớnh như sau: chiều dài và chiều rộng đài hoa, chiều dài và chiều rộng cỏnh hoa. Dựa vào từng đặc điểm của đài hoa và cỏnh hoa, người ta chia cõy IRIS thành ba loại khỏc nhau. Trong phần ứng dụng này, đối với tập dữ liệu IRIS, em sử dụng bộ số liệu cú 150 mẫu chia đều cho ba loại.
Đầu vào: đối với tập dữ liệu này thỡ đầu vào của hệ thống gồm 4 nỳt, số hàm thành viờn cho mỗi nỳt cú thể tựy chọn bằng cỏch nhập từ bàn phớm vào form cho phộp nhập số hàm thành viờn hoặc nếu khụng, chỳng ta cú thể dựng phương phỏp phõn cụm để xỏc định số hàm thành viờn. Ưu điểm của phương phỏp phõn cụm này là giữ số luật ở mức thấp nờn yờu cầu tớnh toỏn sẽ nhỏ, 4 đầu vào này bao gồm
- Chiều dài đài hoa - Chiều rộng đài hoa - Chiều dài cỏnh hoa - Chiều rộng cỏnh hoa
Đầu ra: Giỏ trị của nỳt ra sẽ cho biết mẫu thuộc về lớp nào
Sau đõy là một bảng thụng tin về hoa IRIS được trớch trong tập dữ liệu IRIS. Tập dữ liệu IRIS này đó được lọc và chỉ lấy những thuộc tớnh đó được xột như sau:
Bảng thụng tin về hoa IRIS ( dữ liệu gồm 30 mẫu được trớch từ tập dữ liệu ban đầu)
Chiều dài
đài hoa rộng cỏnh hoaChiều cỏnh hoaChiều dài rộng cỏnh hoaChiều Lớp
5.0 3.5 1.3 0.3 1 4.5 2.3 1.3 0.3 1 4.4 3.2 1.3 0.2 1 5.0 3.5 1.6 0.6 1 5.1 3.8 1.9 0.4 1 4.8 3.0 1.4 0.3 1 5.1 3.8 1.6 0.2 1 4.6 3.2 1.4 0.2 1 5.3 3.7 1.5 0.2 1 5.0 3.3 1.4 0.2 1 7.0 3.2 4.7 1.4 2 6.4 3.2 4.5 1.5 2 6.9 3.1 4.9 1.5 2 5.5 2.3 4.0 1.3 2 6.5 2.8 4.6 1.5 2 5.7 2.8 4.5 1.3 2 6.3 3.3 4.7 1.6 2 4.9 2.4 3.3 1.0 2 6.6 2.9 4.6 1.3 2 5.2 2.7 3.9 1.4 2 5.1 3.5 1.4 0.2 3 4.9 3.0 1.4 0.2 3 4.7 3.2 1.3 0.2 3 4.6 3.1 1.5 0.2 3 5.0 3.6 1.4 0.2 3 5.4 3.9 1.7 0.4 3 4.6 3.4 1.4 0.2 3 5.0 3.4 1.5 0.2 3 4.4 2.9 1.4 0.2 3 4.9 3.1 1.5 0.1 3
Để cú thể biết số luật mà mụ hỡnh ANFIS sử dụng trong hệ thống được thử nghiệm với tập dữ liệu vào là IRIS sẽ bao gồm bao nhiờu luật thỡ chỳng ta sẽ sử dụng theo cụng thức: 1 n In i i Mf = ∏
Như vậy, nếu ta chọn số hàm thành viờn cho mỗi nỳt vào là 3, cỏc tập mờ được gỏn nhón ngụn ngữ với mỗi biến đầu vào là “Small”, “Medium”, “Large”, thỡ tổng số luật sẽ là:
3*3*3*3 81
n
Rule = =
Ngược lại, nếu ta khụng tự động chọn số hàm thành viờn mà ta sử dụng phương phỏp phõn cụm với cỏc tham số tương ứng như sau: Range of influence( phạm vi ảnh hưởng): 0.5, Squash( hệ số nộn): 1.25, Accept ratio (tỉ lệ chấp nhận): 0.5, Refect ratio (tỉ lệ loại bỏ): 0.15, khi đú, ta sẽ thu được 4 hàm thành viờn cho mỗi biến đầu vào và cú 4 luật được tạo thành. Như vậy với phương phỏp phõn cụm thỡ số luật trờn thực tế được giảm đi đỏng kể.
Bộ dữ liệu test về hoa IRIS:
Chiều dài
đài hoa rộng cỏnh hoaChiều cỏnh hoaChiều dài rộng cỏnh hoaChiều Lớp
5.1 3.4 1.2 0.4 1 4.4 2.5 1.3 0.2 1 4.5 3.3 1.6 0.2 1 5.5 3.4 1.5 0.6 1 5.2 3.9 1.3 0.5 1 4.7 3.1 1.4 0.1 1 5.2 3.9 1.3 0.2 1 4.7 3.1 1.4 0.2 1 5.2 3.9 1.6 0.1 1 5.3 3.3 1.5 0.3 1 7.1 3.3 4.6 1.5 2 6.3 3.2 4.3 1.7 2 6.8 3.2 4.6 1.6 2 5.6 2.4 4.1 1.6 2 6.7 2.8 4.5 1.6 2 5.5 2.7 4.5 1.4 2 6.2 3.3 4.7 1.6 2 4.9 2.5 3.3 1.3 2 6.5 2.6 4.7 1.3 2 5.4 2.7 3.4 1.5 2 5.2 3.3 1.3 0.3 3 4.7 3.1 1.5 0.1 3 4.8 3.4 1.3 0.1 3 4.5 3.2 1.4 0.1 3 5.1 3.5 1.6 0.1 3
5.5 3.6 1.6 0.5 3
4.5 3.6 1.6 0.2 3
5.2 3.4 1.5 0.1 3
4.5 2.9 1.5 0.3 3
4.8 3.2 1.5 0.2 3
•Bộ dữ liệu 1 dựng để chuẩn đoỏn hai bệnh:sởi và rubella
Sởi và Rubella, sở dĩ chọn hai bệnh này để phõn lớp vỡ hai bệnh này cú triệu chứng lõm sàng tương tự nhau, và chuẩn đoỏn hai bệnh này là việc phải tiến hành thường xuyờn trong thực hành lõm sàng
- Đầu vào: đầu vào của bộ dữ liệu này gồm 9 nỳt vào, tương ứng với cỏc triệu trứng lõm sang của cả hai loại bệnh, đầu vào bao gồm:
+ Sốt
+ Mắt ướt
+ Ho
+ Chảy nước mũi
+ Mệt mỏi
+ Phỏt ban
+ Xung huyết mắt
+ Nổi hạch
+ Tiờu chảy
Khi cú cỏc triệu trứng lõm sàng, dựa vào mức độ của cỏc triệu trứng mà người ta cú thể phõn biệt được bệnh nhõn đú bị sởi hay rubella.
- Đầu ra: Giỏ trị của nỳt ra sẽ cho biết mẫu thuộc về lớp nào
Với 9 đầu vào như vậy, nếu ta chọn số hàm thành viờn là 3 cho mỗi đầu vào thỡ tổng số chỳng ta sẽ cú 19.683 luật. Đõy là số luật khỏ lớn do vậy sẽ mất rất nhiều thời gian để tớnh. Ngược lại, cũng với 9 đầu vào và 90 mẫu dữ liệu như vậy nhưng chỳng ta sử dụng phương phỏp phõn cụm với cỏc tham số như trờn thỡ số hàm thành viờn sẽ là 54 và số luật sẽ là 54. Như vậy một lần nữa chỳng ta thấy rằng nếu sử dụng phương phỏp phõn cụm để đưa ra số thành viờn thỡ số luật sẽ giảm đi rất nhiều lần.
3.3. Kết quả thử nghiệm
Sau khi tiến hành kiểm tra khả năng phõn lớp của hệ nhờ vào bộ dữ liệu kiểm tra. Kết quả thu được như sau:
Đối với bộ dữ liệu hoa IRIS, sau 300 lần lặp, khả năng chịu lỗi là 0, số hàm thành viờn lựa chọn cho cỏc đầu vào cú được nhờ phương phỏp phõn cụm. Sauk hi tiến hành huấn luyện xong, chỳng ta đi tiến hành kiểm tra khả
năng phõn lớp của hệ nhờ vào bộ dữ liệu kiểm tra. Kết quả thu được như sau:
Hỡnh 3.6. Kết quả phõn lớp với bộ dữ liệu hoa IRIS
Theo kết quả trong hỡnh chỳng ta nhận thấy cú tổng số 3 mẫu số liệu bị phõn loại sai, chiếm 4%. Đõy là một kết quả chấp nhận được tuy nhiờn để cú thể đưa tới sự thành cụng trong cỏc bài toỏn phõn lớp sử dụng phần mềm này cũng phải đũi hỏi cú thờm nhiều sự biến đổi và cỏi tiến
•Đối với bộ dữ liệu dựng để chuẩn đoỏn Sởi và Rubella: trong 80 mẫu dữ liệu chỳng tụi thu thập được chỉa làm hai phần bằng nhau, một phần dựng để huấn luyện phần cũn lại dựng để kiểm tra. Mỗi phần cú 40 mẫu dữ liệu được chia đều cho 2 loại bệnh : Sởi và Rubella.
Để kiểm tra được hệ thống em đi tiến hành huấn luyện mạng với bộ dữ liệu thứ nhất, số lần lặp là 200, khả năng chịu lỗi là 0.0, số hàm thành viờn được đưa vào hệ thống nhờ phương phỏp phõn cụm. Sau khi tiến hành huấn luyện xong em đó sử dụng tập dữ liệu cũn lại để kiểm tra hệ thống. Kết quả thu được như sau:
Hỡnh 3.7. Kết quả phõn lớp đối với bộ dữ liệu dựng để chuẩn đoỏn 2 bệnh sởi và rubella
Nhỡn vào kết quả, chỳng ta thấy sự phõn lớp là khỏ chớnh xỏc.