BỘ GIÁO DỤC VÀ ĐÀO TẠO DAI HOC HUE
TRUONG DAI HOC KHOA HOC
TRAN THI THU HUYEN
TIM HIEU PHUONG PHAP LAP LUAN MO VA UNG DUNG DE XAY DUNG HE DU
DOAN BENH DAI THAO DUONG
LUAN VAN THAC SI KHOA HOC
CONG NGHE THONG TIN
Thừa Thiên Huế, 2018
Trang 2đường cao nhất thé giới Thống kê của Liên đoàn Đái tháo đường quốc tế (IDF) cho
thấy, trên 50% bệnh nhân đái tháo đường ở Việt Nam chết vì căn bệnh này trước
năm 60 tuôi
Biện pháp hữu hiệu để làm giảm tiến triển và biến chứng của bệnh, chỉ phí
chữa bệnh ít tốn kém nhất là phải phát hiện sớm và điều trị cho bệnh nhân kịp thời Tuy nhiên, công tác phát hiện sớm, chăm sóc và điều trị bệnh đái tháo đường còn
gặp rất nhiều khó khăn do kết quả chân đoán phụ thuộc rất nhiều vào kinh nghiệm của bác sỹ cũng như suy luận tại thời điểm chân đốn, chứ khơng dựa trên quy tắc tiêu chuẩn nảo
Một hệ thống chân đoán bệnh, sẽ hỗ trợ cho bác sỹ rất nhiều trong việc đưa ra
kết quả chân đoán cuối cùng Với việc áp dụng CNTT, ngành y tế hiện nay đã đạt
được nhiều thành tựu to lớn trong việc vận hành hệ thống khám chữa bệnh Đặc biệt là việc ứng dụng các kỹ thuật như hệ hỗ trợ quyết định, khai phá dữ liệu, hệ chuyên
gia, logic mờ để xây dựng các hệ thống chẩn đoán bệnh đã giúp các bác sỹ chuyên
khoa có thể tiếp cận và đưa ra chân đoán bệnh một cách nhanh chóng, chính xác Từ
đó, có thể đưa ra phương pháp điều trị bệnh hiệu quả, đồng thời tiết giảm chỉ phí
điều trị
Trong lĩnh vực y tế tri thức chuyên gia là rất quan trọng và những tri thức này phần lớn được phát biêu bằng ngôn ngữ với các thông tin mờ và không chắc chắn, chuyên gia càng làm việc lâu năm thì càng tích luỹ nhiều kinh nghiệm, nhưng kinh nghiệm này không tổn tại mãi mãi với thời gian, vì vòng đời của con người là có giới hạn Vì vậy, nghiên cứu phát triển phương pháp luận nhằm thu thập, duy trì và khai thác để phát huy được các tri thức chuyên gia này là một nhu cầu rất cần thiết
Trang 3Pháp lấy phần bù của một tập mờ:
Cho 44 là tập mờ xác định trên tập vũ trụ X, có hàm thuộc /„ Phép lay bù của tap A la mot tap mo, ký hiệu ~⁄4, với hàm thuộc được định nghĩa như sau: tia = 1- ua Vx EX a tuc(xì Hình 1.9 Bù của một tập mờ
Tích đại số của hai tập mờ
Cho 41, Z là hai tập mờ xác định trên tập vũ trụ X và có các hàm thuộc lần lượt
là g(x), up (x) Tich đại số của hai tập mờ 44 và Ö là một tập mờ, ký hiéu A.B, voi
hàm thuộc được định nghĩa như sau:
HABG) = MAG):Mn(), VXCX
Tổng đại số của hai tập mờ
Cho A, B la hai tap mo xác định trên tập vũ trụ X và có các hàm thuộc lần lượt
là grạ, tg Tong dai số của hai tập mờ 44 và Ö là một tập mờ, ký hiệu 4 ® B, voi ham
thuộc được định nghĩa như sau:
HẠ $ p(X) = Hạ(X) + Ug (X) — Hạ(%) ng(x), vx EX
Tích Descartes của hai tập mờ
Trang 4\ 0 đ<3 H,()=1x/5-0.6 3<=x<=8 mm» x>8
Ta thu duoc biéu dién mo cua tap mẫu như bảng dưới đây (Ký hiệu: MF-
Membership Function la ham thuéc, N: Khong, Y: Co):
Bang 1.3 Biéu diễn mờ của tập mẫu
Day | Tem | MF (h) | MF (m) MF(c) | Wind | ME (w) | ME (st) | Traffic | MF (1) | MF (sh) |cp DI | 32 |0.7 0.6 0 3 1 0 T5 0.25) | 0.25 D2 |33 |0§ 04 0 45 0.13 03 68 018 | 0.37 N D3 | 30 «| 05 1 0 35 1 0 83 0633 | 0.12 TY D+ | 24 |0 1 0 1.5 l 0 9 04 0 Y DS |ä 0 0 1 25 1 0 38 0 0.87 Y D6 |1 0 0 1 5 0 04 45 0 08 N D |§ |0 02 1 4 0.5 02 37 |0 1 Y D |12 |0 047 1 3 l 0 67 017 0.38 N pe |-5 |0 0 1 2 1 0 3$ |0 092 |Y Did [13 |0 0.47 1 2.5 1 0 4i Ũ 0.82 Y bu {is |0 0.67 0 6 0 0.3 23 Jo 1 Y DỊ) |22 |0 1 a 5 0 04 73 |03 | 0.28 Y DI3 | 32) |07 0.6 0 2.5 l ũ 16 0 1 Y D4 |25 |0 1 0 4 0.25 03 103 [053 |0 N Sum 3 Tal 6 9 11 109 [T81
Như ví dụ ở trên, ta đã phân vùng tập mẫu thành những khoảng khác nhau Sự phân vùng này là đầy đủ (mỗi giá trị trong miễn là thuộc vào ít nhất một tập con) vả là không nhất quán (một giá trị trong miền có thê tìm thấy trong nhiều hơn một tập con)
thuộc Đài (MF()) là 0, còn giá trị của hàm thuộc Ngắn (MF(sh)) là 1
Trang 5MỤC LỤC IUNv e.- I Lời cảm ơn Mục lỤc L0 1222011112111 1121111511111 111 11111111 kEngkk kg k KT k kg kg x k1 1xx u P101 0 Danh mục các hỉnh - 2112221111221 111511 1115211111011 1 1101111111111 11k kg x kg kg yn Danh mục các chữ viết tắt
1.1 LY THUYET TAP MO "
1.1.1 Tập kinh điển 55 S5 S2 2212222222222 rea 1: 12: DìmlrngiiTa TẬP TH toaisnttbitlotiGDIGIEDIUERONISHENGSEXSHBNHESENNIEELVSEEHDNSESHĐRSSEE 6 1.1.3 Các thông số đặc trưng cho tập mờ 1.1.4 Biển ngôn ngĩt 55 5S S2 2221222222222 ea 9 1.1.5 Cac phép 056 16 10124.0 Il 1.1.6 Quan hé mo
1.2 CAY QUYET DINH
1.2.1 Định nghĩa cây quyết định 55 52 5221122112212
1.2.2 Ưu điểm của cây quyết định
1.2.3 ấn đề xây dựng cây quyết định 55 52 5221122112121 1.2.4 Rút ra các luật từ cây qHyẾt định 55 55 5221122121222 1.2.5 Thuật toán xây dựng cây quyết định C4.5
1.3 CÂY QUYÉT ĐỊNH MỜ - 5 2T E221 1 21tr rau
1.3.1 Định nghĩa cây quyết định mờ -2- 52 222 5122112112112
13.2 Dữ liệu mẫu với biểu điỄn Hờ - 5 SE 1 111111121 1121112 xa 1.4 TIỀU KÉT CHƯƠNG L 2-©22222222212221221221211211221221.2.2 te CHUONG 2 LOGIC MO VA LẬP LUẬN MỜ . 55ccccsecrersee 2.1 LOGIC MỜ 2 22 222221122212211211121112211212122222222122222re 2.1 1 Mệnh đề mờ 55 S55 221 22222221222221 22221 sa 21:2: TẠI THÍ THỪ osasttiiogtititiegBlititGRSHISSGRNHIXGGERHIDRGSERIIRGRGIREIISSSHISSSRGIrixgtm 25
2.13 Phép toán kéo theO HHỜI St SE SE tre 26
2.2 PHƯƠNG PHÁP LẬP LUẬN XÁP XỈ DỰA TRÊN TẬP MỜ 26 2.3 PHÉP SUY DIẾN MỜ 2 22222221121111112111221222112222222222e 29 2.4 HỆ MỜ 522 222221221122112111211211211211112111122212222212 re 30
2.4.1 Cấu trúc và hoạt động của hệ mờ tổng quát -2 ccscscccscsce 30
V0 nã ng 6n n6 A313 32
Trang 62.4.3 Bộ suy điỄN HHời, 0 55 5S 21 222221211221121121212122121121 ra 32
bốn In nh cố 34
bến n1 nan nh < 36
2.5 TIỀU KẾT CHƯƠNG 2 -2- 22 22222112111211121111121112111211121212 xe 37 CHƯƠNG3 XÂY DỰNG HỆ DỰ ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG 38 3 1 TÔNG QUAN VẺ BỆNH ĐÁI THÁO ĐƯỜNG 222225 222c22zcsze2 38 3.1.1 Thực trạng bệnh đái tháo đhường cc eee ete eens eneeneeeneens 38
3.1.2 Định nghĩa bénh dai thao AUONG 2 ccc cece eect eee tsetse neenetteeeneens 39 3.1.3 Nguyên nhân, các yếu tố nguy cơ của bệnh đái tháo đường 39 3.1.4 Triệu chứng đặc trưng của bệnh đái thảo đường 40 3.1.4.1 Triệu chứng lâm sàng c c 2: 2S Street 40 3; 1;4:2› Triệu:chững cẩn lẫm sẵn :z:ssszssssirssnsosngetesaiogtiotosasiasssewsserad 41 3.1.5 Chẩn đoán và phân loại bệnh đái thao AUONg o.oo c2 42
3.1.5.1 Chẩn đoán đái tháo đường -222 2222122122121 ee 42 3.1.5.2 Chẩn đoán tiền đái tháo đường ©2222 2222212221222 e6 43
3.1.5.3 Tiêu chuẩn để làm xét nghiệm chẩn đoán 22222222 43
3.1.5.4 Phân loại đái tháo đường :¿-©22-2222 2221222122112 22c 44
3.2 QUY TRINH CHAN ĐOÁN BỆNH 222 222222122212211221221.2 2 xe 47
3.2.1 Lập luận chẩn đoán bệnh: -.- 5S SE 2111111212111 112122 47
3.2.2 Các kiểu triệu chứg, s55 2S 212211221122122222222 xe 48
3.2.3 Quy trình chẩn đoán bệnh -2- 5s 2222122112212212212222 xe 48 3.2.4 Các quy luật chẩn đoám 52-552 22 2212211221122122121.222 xe 49
3.3 QUY TRÌNH ỨNG DỰNG LOGIC MỜ VÀO CHÂN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG -2- 22 2212221211121121112112112121121122222222 2e 49
E178 7i nn 49
3.3.2 Mô hình kiến trúc hệ thống 52-552 2522221222122 ee 40
h1 na 30
3.3.4 Xây dựng và biếu diễn tri thứ Hờ 55552255 22S2221221221122122 e6 52 3.3.4.1 Phân tích các bước xây đựng hệ thống chân đoán 52 3.3.4.2 Minh họa xây dựng hệ dự đoán bệnh đái tháo đường 53 3.4 THIẾT KÉ HỆ THÓNG 222 S22 2222221222122112112112211222222.2 re 63 3.5 THỬ NGHIỆM VÀ ĐÁNH GIIÁ 222222 222222122212221221221.2 2 xe 66 3.6 TIEU KET CHUONG 3 -22©22221222122122112112112211222222 ae 67 KET LUAN VÀ HƯỚNG PHÁT TRIỂN - 5© ©25c©cscccsecxeerreerreee 68
TẤT LIỆU THẤM KHẢO susnsgnngngrssabidirdsdtdrgtuiBangiRttöiSGEnitStitditASi8nnd ung 70
Trang 7DANH MỤC CÁC BẢNG
Bang 1.1 Bảng dữ liệu phân lớp mức lương ó5: St St SstErsrxerrerrrrerres 16
Bảng 1.2 Dữ liệu mẫu về việc tự lái xe đi làm (Car Driving) ò.- 20
Trang 8DANH MỤC CÁC HÌNH
Hình 1.1 Hàm thuộc /„(x) của tập kinh điển 4 22 22 22222222252223122312122222-e2 6
Hình 1.2 Hàm thuộc /;(x) của tập mờ Ö Sc 2S nhe 7
Hình 1.3 Ba tập mờ Cold (lạnh), Warm (ấm) và Hot (nóng) dạng hình thang 8
Hình 1.4 Dé thị hàm thuộc của tập mo A voi các số tự nhiên nhỏ hơn 5 § Hình 1.5 Độ cao, miễn xác định, miễn tin cậy của tập mờ
Hình 1.6 Biến ngôn ngữ 22222 222122122212112211211211222222222 2e Tình 1.7: Hợp của bai TẬP HờszssesirsensirbsetiitidgilgERORSSSERGRHSVESHRNHGSGIABN(IRO8itHGa 11 Hinh:1:8 Giao ciiashai tap: MG crcessven essences vere meeers meen wenn remem ammo meeneeees 11
Hinh 1.9 Bu ctia mOt tap MO ec cece eee eee eseeenreneeneetienieserenreneee 12
Hình 1.10 Cây quyết dinh phan lop mite Wrong oo cee cece cece cece ceee cesses teteeeteees 16
Hình 1.11 Hình biểu diễn hàm thuộc của thuộc tính Tắc đường (ME) 21
Hình 1.12 Quá trình phát triển cây của thuật toán Fuzzy ID3 - 23
Hình 2.1 Cấu trúc của mô hình mờ -5¿c2: 222222 treo 30 Hình 2.2 Mô hình hệ mờ nhiều đầu vào - một đầu ra : -c: 32
Hình 2.3 Các dạng hàm thuộc thường được sử dụng trong hệ mờ 35
Hình 2.4 Phương pháp giải mờ cực địạiI cc t S2 Snhnhnnh nhe rerret 36 Hình 2.5 Phương pháp giải mờ trọng {Âm .- - 32: t2 32x Errsrrrrrrrrrek 37
Hình 3.1 Mô hình kiến trúc hệ thống chẩn đoán bệnh - 222222222222 50 Hình 3.2 Các hàm thuộc của mức độ tiểu .- 222221 1251211112111121111211x51 1x6 55 Hình 3.3 Các hàm thuộc của mức độ uống THƯỚC .Ặ2.2 2 222201122221 22 2xx 56 Hình 3:4: Gác hàm thuộc của mức độ ăN:::ccaossecygrniointrraratigtddttigttotxgphonayeaaa 57
Hình 3.5 Các hàm thuộc của mức độ giảm cÂn :- ccc cScSnnnieireree 58
Hình 3.6 Các hàm thuộc biểu diễn nông độ Glucose máu lúc đói 59 Hình 3.8 Form chan doan bénh dai tháo đường . - 22222 221222122212222 e6 64 Hình 3.9 Form chấn đoán bệnh đái tháo đường với bộ dữ liệu cụ thể 64
Hình 3.10 Form chỉ dẫn cách phòng bệnh đái tháo đường . -55¿ 65
Trang 9PHỤ LỤC PHỤ LỤC 1
PHIẾU ĐIÊU TRA NGHIÊN CỨU CÁC TRIEU CHUNG LÂM SÀNG CỦA BỆNH ĐÁI THÁO ĐƯỜNG Tại tỉnh Quảng Trị L Hành chính 1.0/08 .ĂăĂăĂăĂăĂaaIiI - Tuổi: - Dân tỘC: 222cc - GIỚI: 1.Nam 2.Nữ - Nghề nghiệp: - - 2 121 S22212212121111212111222212221212 ra - Địa chỉ: 022211 ng II Lam sang: 1 Tiền sử: 1.1 Bản thân đã bị bệnh đái tháo đường: Có Không
1.2 Gia đình có người thân bị đái tháo đường Có Không
1.3 Sinh con >4 kg Có Không 2 Thời gian mắc bệnh:
Dưới l nắm Từ l- 5 năm Trên 5 năm
Trang 10MỞ ĐẦU
1 Lý do chọn đề tài
Chuẩn đoán bệnh trong y học là một lĩnh vực tương đối phức tạp, lĩnh vực này
có những đặc điểm khác biệt đó là mối quan hệ tương hỗ giữa lý thuyết và thực
hành Đối tượng của lĩnh vực này là những bệnh nhân, những con người thực sự
Kiến thức y học cũng khá phức tạp Dé tìm ra những kiến thức mới, phương pháp truyền thống là dựa trên sự mô tả của các hồ sơ bệnh án, nhật ký y khoa, cơ sở dữ liệu dé tài nghiên cứu, Chính vì thế, người bác sỹ thường bị tràn ngập trong
núi đữ liệu không lồ Và đặc biệt là những đữ liệu đó ở mỗi bệnh nhân lại có sự mơ
hồ khác nhau, gắn với cảm xúc của mỗi người Người bác sỹ luôn phải làm việc trong trạng thái căng thắng trong khi yêu cầu phải đưa ra được những quyết định
đúng đắn hiệu quả nhất
Hiện nay, Đái tháo đường là bệnh nhận được sự quan tâm đặc biệt trong giới y
khoa Bệnh này nằm trong số 10 nguyên nhân gây tử vong và tàn phế hàng đầu ở cả hai giới, gây ra các biến chứng nặng nề về tim mạch, tổn thương thần kinh, mù mắt, suy thận, nhiễm trùng và gây tốn thương bàn chân có thể dẫn đến phải cắt cut chi Bệnh đã và đang trở thành vấn đề mang tính xã hội cao ở nhiều quốc gia bởi sự bùng phát nhanh chóng, mức độ nguy hại đến sức khoẻ ĐTĐ còn trở thành lực cản của sự phát triển, gánh nặng cho toàn xã hội khi mà mỗi năm thế giới phải chi số tiền không lỗ từ 232 tỷ đến 430 tỷ USD cho việc phòng chống và điều trị
Theo Tổ chức y tế thế giới (WHO), năm 1985 có khoảng 30 triệu người mắc đái tháo đường trên toàn cầu, năm 2004 có khoảng 98,9 triệu người mac, đến năm 2009 có khoảng 180 triệu người và con số đó có thể tăng gấp đôi lên tới 366 triệu
người vào năm 2030
Hiện Việt Nam có trên Š triệu người mặc bệnh đái tháo đường Theo Bộ y tế,
con số này được dự báo tiếp tục gia tăng trong thời gian tới Theo thống kê trong 10
năm qua, số lượng bệnh nhân mắc bệnh đái tháo đường ở nước ta tăng 211%, và với
Trang 11đường cao nhất thé giới Thống kê của Liên đoàn Đái tháo đường quốc tế (IDF) cho
thấy, trên 50% bệnh nhân đái tháo đường ở Việt Nam chết vì căn bệnh này trước
năm 60 tuôi
Biện pháp hữu hiệu để làm giảm tiến triển và biến chứng của bệnh, chỉ phí
chữa bệnh ít tốn kém nhất là phải phát hiện sớm và điều trị cho bệnh nhân kịp thời Tuy nhiên, công tác phát hiện sớm, chăm sóc và điều trị bệnh đái tháo đường còn
gặp rất nhiều khó khăn do kết quả chân đoán phụ thuộc rất nhiều vào kinh nghiệm của bác sỹ cũng như suy luận tại thời điểm chân đốn, chứ khơng dựa trên quy tắc tiêu chuẩn nảo
Một hệ thống chân đoán bệnh, sẽ hỗ trợ cho bác sỹ rất nhiều trong việc đưa ra
kết quả chân đoán cuối cùng Với việc áp dụng CNTT, ngành y tế hiện nay đã đạt
được nhiều thành tựu to lớn trong việc vận hành hệ thống khám chữa bệnh Đặc biệt là việc ứng dụng các kỹ thuật như hệ hỗ trợ quyết định, khai phá dữ liệu, hệ chuyên
gia, logic mờ để xây dựng các hệ thống chẩn đoán bệnh đã giúp các bác sỹ chuyên
khoa có thể tiếp cận và đưa ra chân đoán bệnh một cách nhanh chóng, chính xác Từ
đó, có thể đưa ra phương pháp điều trị bệnh hiệu quả, đồng thời tiết giảm chỉ phí
điều trị
Trong lĩnh vực y tế tri thức chuyên gia là rất quan trọng và những tri thức này phần lớn được phát biêu bằng ngôn ngữ với các thông tin mờ và không chắc chắn, chuyên gia càng làm việc lâu năm thì càng tích luỹ nhiều kinh nghiệm, nhưng kinh nghiệm này không tổn tại mãi mãi với thời gian, vì vòng đời của con người là có giới hạn Vì vậy, nghiên cứu phát triển phương pháp luận nhằm thu thập, duy trì và khai thác để phát huy được các tri thức chuyên gia này là một nhu cầu rất cần thiết
Trang 122 Mục tiêu nghiên cứu
- Mục tiêu chung: Tìm hiểu Logie mờ, phương pháp lập luận mờ và ứng đụng
một số kỹ thuật tổng hợp trong hệ hỗ trợ quyết định để xây dựng hệ dự đoán bệnh
đái tháo đường
- Các mục tiêu cụ thể: Ứng dụng cấu trúc của hệ hỗ trợ ra quyết định, logic
mờ, các phương pháp xây dựng cơ sở dữ liệu; Kết hợp thu thập ý kiến chuyên gia, khai phá hồ sơ bệnh án và các nguôn dữ liệu khác đề xây dưng tập luật, đánh giá tập
luật nhằm phục vụ cho việc xây dựng hệ dự đoán bệnh
3 Đối tượng và phạm vi nghiên cứu
- Về lý thuyết: Nghiên cứu về Logic mờ, phương pháp mờ hóa, hệ hỗ trợ quyết định (hệ mò), phân lớp dữ liệu bằng cây quyết định đề xây dựng hệ chân đoán bệnh đái thảo đường
- Về thực hành: Địa bản tỉnh Quảng Trị, khảo sát các bệnh nhân tuổi từ 30 đến 65 nhập viện điều trị bệnh đái tháo đường tại bệnh viện đa khoa tỉnh Quảng Trị, thời
gian khảo sát một năm từ tháng 12/2016 - 12/2017 4 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lÿ thuyết: Tổng hợp, phân tích các công trình nghiên cứu liên quan đến logie mờ, hệ hỗ trợ quyết định; hồ sơ bệnh án, hướng dẫn
chân đoán và điều trị bệnh đái tháo đường của Bộ y tế Lựa chọn các kỹ thuật ứng dụng cho bài toán thực tế
- Phương pháp kế thừa: các thông tin và các số liệu thống kê đã được thu thập; - Phương pháp chuyên gia: Hỏi ý kiến chuyên gia về các lĩnh vực chuyên
môn: Y tế, giáo dục, khoa học môi trường,
- Phương pháp nghiên cứu thực tiễn: tìm hiểu kết quả khám và chữa bệnh của
Trang 13- Phương pháp tổng hợp thu thập thông tin, phân tích thông tin: xác định cấu trúc và tính chất của thông tin, để tìm ra phương pháp thu thập, xử lý số liệu thích hợp
5 Ý nghĩa khoa học và thục tiễn của luận văn
- Biết các yếu tố cơ bản của logic mo va tng dung
- Hiểu được phương pháp chẩn đoán bệnh đái tháo đường
- Ứng dụng được lý thuyết logic mờ trong CNTT vào hệ hỗ trợ chẩn đoán bệnh đái thảo đường
- Luận văn mang tính nhân văn và xã hội
6 Bố cục luận văn
Nội dung chính của luận văn gồm 3 chương:
Chương 1 Cơ sở lý thuyết về tập mờ và cây quyết định
Nội dung của Chương này chủ yếu giới thiệu cơ sở lý thuyết vẻ tập mờ, biến ngôn ngữ, quan hệ mờ, cây quyết định và cây quyết định mờ
Chương 2 Logic mờ và lập luận mờ
Nội dung của Chương 2 trình bảy tổng quan về Logie mờ, các phương pháp
lập luận xấp xỉ, lập luận mờ và hệ mờ tổng quát
Chương 3 Xây dựng hệ dự đoán bệnh đái tháo đường
Trang 14CHƯƠNG 1 CƠ SỞ LÝ THUYÉT VẺ TẬP MỜ VÀ CÂY QUYÉT ĐỊNH
Logie mờ được giáo sư L ⁄4.Zadeh công bố lần đầu tiên tại Mỹ vào năm 1965 Ứng dụng đầu tiên của logic mờ vào công nghiệp được thực hiện ở Châu Âu, khoảng sau năm 1970 Tại trường Queen Mary ở Luân Đôn — Anh, Ebrahim Mamdani dùng logie mờ để điều khiển một máy hơi nước mà trước đây ông ấy không thể điều khiến được bằng các kỹ thuật cổ điển Ở Đức, Hans Zimmermann dùng logie mờ cho các hệ ra quyết định và liên tiếp sau đó, logic mờ được áp dụng
vào các lĩnh vực khác nhau Kể từ năm 1980, logic mo dat duoc nhiéu thanh công
trong các ứng dụng ra quyết định và phân tích đữ liệu ở Châu Âu Nhiều kỹ thuật logic mờ cao cấp được nghiên cứu và phát triển trong lĩnh vực này
Các công ty của Nhật bắt đầu dùng logic mờ vào kỹ thuật điều khiển từ năm 1980 Nó được ứng dụng trong nhà máy xử lý nước cua Fuji Electric vào năm 1983, hệ thống xe điện ngầm của Hitachi vào năm 1987 Những thành công đầu tiên đã tao ra nhiều quan tâm ở Nhật Có nhiều lý đo để giải thích tại sao logic mờ được ưa chuộng Thứ nhất, logie mờ cho phép tạo nhanh các bản mẫu rồi tiến đến việc tối ưu Thứ hai, các hệ dùng logie mờ đơn giản và dễ hiểu Logie mờ cung cấp cho họ
một phương tiện rất minh bạch để thiết kế hệ thống Do đó, logie mờ được dùng
nhiều trong các ứng dụng thuộc lĩnh vực điều khiển thông minh hay xử lý dữ liệu Ngoài ra, logic mờ cũng được dùng để tối ưu nhiều quá trình hóa học và sinh học
Từ những thành công tại Nhật Bản, Mỹ và các nước Châu Âu đã bắt đầu quan tâm đến logic mờ và ứng đụng chúng trong các lĩnh vực điều khiển tự động, công nghiệp dân dụng và cũng từ đó logie mờ đã trở thành một kỹ thuật thiết kế “chuẩn” và được chấp nhận rộng rãi trong cộng đồng
1.1 LY THUYET TAP MO
Y tưởng nổi bật của khái niệm tập mờ của Zadeh là từ những khái niệm trou
tượng về ngữ nghĩa của thông tin mờ, không chắc chắn như ứrẻ, nhanh, cao-thấp,
Trang 151.1.1 Tập kinh điển
Khái niệm tập hợp được hình thành trên nên tảng lôgic và được định nghĩa
như là sự sắp xếp chung các đối tượng có cùng tính chất, được gọi là phần tử của tập hợp đó
Cho một tập hợp 41, một phần tử x thuộc A duoc ký hiệu: x € 44 Thông thường ta dùng hai cách để biểu diễn tập hợp kinh điển, đó là: Liệt kê các phần tử của tập hợp, chăng han: tap AJ = {Trang, den, xanh, do, tim, vang}
Biểu diễn tập hợp thông qua tính chất tổng quát của các phần tử, chẳng hạn:
tập các số thực (R), Tập các số tự nhiên (N)
Để biểu diễn một tập hợp 4 trên tập nên X, ta dùng hàm thuộc /„(*), voi:
isi {; khixEA La(x) chinhdén mét trong 2 gid trj"1"
a Okhix€A — hodc"0"
Ký hiệu A = {x € X |x thảo măn một số tinh chdt ndo do} Ta noi: tap A
duoc dinh nghia trén nén tập X Vi du 1.1 Tập A = {x6 X|-5<x<5} A ta(X) We -5 5
Hình 1.1 Ham thuéc j4(x) cia tập kinh điền 4
1.1.2 Dinh nghia tap mo
Các đập mờ hay tập hợp mờ (Ƒuzzy se?) là một mở rộng của lý thuyết tập hợp cồ điển và được dùng trong iôgie mờ Trong lý thuyết tập hợp cô điển, quan hệ thành viên của các phần tử trong một tập hợp được đánh giá theo kiêu nhị phân theo
một điều kiện rõ ràng - một phan tử hoặc thuộc hoặc không thuộc về tập hợp
Trang 16Tap hop mo la tập hợp mà mỗi thành phan là một bộ số (x.¿Œ)) Như vậy, ta
nói 44 là tập mờ nếu 4 có biểu điễn: 4 = {(, (3) | x € X}
A là tập mờ trên không gian nền X nếu 44 được xác định bởi hàm:
nạ:X — [0,1]
Trong đó:
X:là tập nên hay được gọi là tập vũ trụ của tập mờ 4;
La là hàm thuộc (membership function);
Hứa(#) là độ thuộc của x vào tập mờ 4
Các tập mờ được coi là một mở rộng của lý thuyết tập hợp cô điển là vì, với một universe (Không gian tham chiếu hay không gian nền) nhất định, một hàm
thuộc có thể giữ vai trò của một hàm đặc trưng (indicator function) anh xa mỗi phan tử tới một giá trị 0 hoặc 1 như trong khái niệm cổ điển
Trong khái niệm tập hợp kinh điển hàm thuộc u(*) của tập 41, chỉ có một
trong hai giá trị là "1" nếu x €4 hoặc "0" néu x € A
Ví đụ 1.2 Cách biêu diễn hàm thuộc như trên sẽ không phù hợp với những tập được mô tả "mờ" như tập B gồm các số thực gần bằng 5:
B={x€CR|x5}
Khi đó ta không thể khẳng định chắc chắn số 4 có thuộc B hay không? mà chỉ có thể nói nó thuộc B bao nhiêu phần trăm Để trả lời được câu hỏi này, ta phải coi
hàm thuộc /ig() có giá trị trong khoảng từ 0 đến 1 tức là: 0 < g(x) <1
` ra + = ˆ * =
¥
Trang 17Như vậy về phương diện giải tích mỗi tập mờ ứng với một hàm số và hàm số có đồ thị của nó Những tập mờ thường gặp đồ thị của hàm thuộc (membership function) có hình dạng là hình tam giác hoặc hình thang mà người ta thường gọi vắn tắt là “tập mờ hình thang” hoặc “tập mờ hình tam giác” như hình vẽ dưới đây: hot †amperatuira ——>=- cold warm 1 ũ hy Hình 1.3 Ba tập mờ Cold (lạnh), Warm (ấm) và Hot (nóng) dạng hình thang
Theo hình vẽ này tại điểm b ¡ trên trục nhiệt độ (temperature) chiếu lên đầu
tiên ta thấy cắt tập mờ warm tại điểm mà ta có thể thấy được là “hơi Ấm”, đồng
thời cắt tập mờ cold tại điểm mà ta thấy là “tương đối lạnh” Tóm lại ở nhiệt độ È; có thể xem là “hơi ấm” hoặc “tương đối lạnh”
Ví đụ 1.3 Một tập mờ 4 với các số tự nhiên nhỏ hơn 5 được mô tả bằng hàm thuộc /#x có đồ thị như sau: + Hal) Hình 1.4 Đồ thị hàm thuộc của tập mờ 4 với các số tự nhiên nhỏ hơn 5 Ta có tập mờ 4 = {(1,1), (2,1), (3,0.95), (4,0.17)} e_ Số tự nhiên 1 va 2 có độ phụ thuộc là l;
Trang 181.1.3 Các thông số đặc trưng cho tập mờ
Các thông số đặc trưng cho tập mờ là độ cao, miễn xác định và miễn tin cậy 1 1 1 t Miểntincậy | ' 1 i ' Miễn xác định :
Hình 1.5 Độ cao, miền xác định, miền tin cậy của tập mờ
- Độ cao của một tập mờ Ö (Định nghĩa trên co so M), ky hiéu 1a H(B), la can
trên đúng (giá trị lớn nhất) của hàm thuộc /„ trên Ä⁄, có nghĩa:
H(B) = sup {ug(x)| x €M}
Một tập mờ ÖB được gọi là tập mờ chuẩn nếu (PB) = 1 Ngược lại, tập mờ được gọi là đưới chuẩn (H(B) < 1)
- Miền xác định (Giá) của tập mờ Ö (Định nghĩa trên cơ sở Ä⁄), ký hiệu là S(B), la tap con cua M có giá trị hàm thuộc khác không, có nghĩa:
SŒ)= {x€A|nus(3) > 0}
- Miễn tin cậy của tập mờ ? (định nghĩa trên cơ sở Ä⁄), ký hiệu là 7(Đ), là tập
con của Ä⁄ có giá trị hàm thuộc bằng 1:
T(B) = tx€Mms(®) = l)
1.1.4 Biến ngôn ngữ
Biến ngôn ngữ là phần chủ đạo trong các hệ thống đùng logic mờ Các biến ngôn ngữ được xác định thông qua các tập giá trị mờ của nó
Ví dụ các tập mờ mô tả biến nhiệt độ là “rất nóng”, “hơi nóng”, “trung bình”,
Trang 19Trung, - Độ s7 Rất lanh Hơi lanh bình Hơi Rất nông nắng Hình 1.6 Biến ngôn ngữ
Các luật trong hệ logie mờ mô tả tri thức của hệ Chúng dùng các biến ngôn ngữ như là từ vựng để mô tả các tầng điều khiên trong hệ Việc giải thích các luật mờ cũng là việc trình bày cách tính các khái niệm ngôn ngữ
Khái niệm biến ngôn ngữ [4] [ 1]:
Một biến ngôn ngữ được xác định bởi bộ năm (X, 7(X), U, R, Mí), trong do:
- X 1a tên biến
- TŒ) là tập các giá trị ngôn ngữ của biến X
- U là không gian tham chiếu của biến cơ sở ø, mỗi giá trị ngôn ngữ xem như
là một biến mờ trên L7 kết hợp với biến cơ sở 0 (các giá trị mà biến X có thể nhận)
- R la tập luật cú pháp sinh các giá trị ngôn ngữ của 7Œ)
- Ä⁄Z là tập các luật ngữ nghĩa gán mỗi giá trị ngôn ngữ trong 7(Y) với một tập mờ trên Ù
Ví đụ 1.4 Biến ngôn ngữ: “tốc độ”
T\ (tốc độ)={rất chậm, hơi chậm, trung bình, hơi nhanh, rất nhanh}
U= [0, 150] (km/h)
Ñ phát sinh tên các phần tử trong 7(tốc độ) là hoàn toàn trực giác Luật ngữ ngĩa M⁄ được định nghĩa là :
M (rat cham) = tap mo đối với tốc độ là 0 km/h và có hàm thuộc là lanh M (hoi cham) = tập mờ đối với tốc độ là 20 km/h và có hàm thudc 1a fo; chan
Trang 20AM (hơi nhanh) = tập mờ đối với tốc độ là 60 km/h và có hàm thuộc là W hoi nhanh’
M (rat nhanh) = tap mo đối với tốc độ là 80 km/h và có hàm thuộc là ˆưất nhanh:
Từ định nghĩa trên chúng ta có thê nói rằng biến ngôn ngữ là biến có thể nhận
giá trị là các tập mờ trên một vũ trụ nào đó Để biểu diễn sự nhấn mạnh một biến
ngôn ngữ, người ta hay dùng các từ như rất, hơi, ít, nhiều, gọi là các gia tử 1.1.5 Các phép tính trên tập mờ
Trên tập mờ thường sử dụng các phép tính sau [4], [12] : Phép hợp mờ (Umion)
Cho A, Z là hai tập mờ xác định trên tập vũ trụ X và có các hàm thuộc lần lượt là “4, Mg Hop của hai tập mờ A va B là một tập mờ, ký hiệu 1U, với hàm thuộc up được định nghĩa như sau:
Mạ ¿s(x) = max{ #¿(x),ta(x)},Vx €X: HACK) flysCX)
Hinh 1.7 Hop cua hai tap mo
Phép giao mo (Intersection)
Cho 41, Z là hai tập mờ xác định trên tập vũ trụ Y và có các hàm thuộc lần luợt là „, ; GIao của hai tap mo A va B là một tập mờ, ký hiéu ANB, voi ham thuộc
Hạn g được định nghĩa như sau: #!aa e(x) = min{ wạ(x),wp(x)},Vx €X-
Last}
¿Aa(*} Hal x)
Trang 21Pháp lấy phần bù của một tập mờ:
Cho 44 là tập mờ xác định trên tập vũ trụ X, có hàm thuộc /„ Phép lay bù của tap A la mot tap mo, ký hiệu ~⁄4, với hàm thuộc được định nghĩa như sau: tia = 1- ua Vx EX a tuc(xì Hình 1.9 Bù của một tập mờ
Tích đại số của hai tập mờ
Cho 41, Z là hai tập mờ xác định trên tập vũ trụ X và có các hàm thuộc lần lượt
là g(x), up (x) Tich đại số của hai tập mờ 44 và Ö là một tập mờ, ký hiéu A.B, voi
hàm thuộc được định nghĩa như sau:
HABG) = MAG):Mn(), VXCX
Tổng đại số của hai tập mờ
Cho A, B la hai tap mo xác định trên tập vũ trụ X và có các hàm thuộc lần lượt
là grạ, tg Tong dai số của hai tập mờ 44 và Ö là một tập mờ, ký hiệu 4 ® B, voi ham
thuộc được định nghĩa như sau:
HẠ $ p(X) = Hạ(X) + Ug (X) — Hạ(%) ng(x), vx EX
Tích Descartes của hai tập mờ
Trang 22Phép T-norm
Định nghĩa : Một hàm 2 biến 7: [0,1]x[0,1] > [0,1] duoc goi la phép t-norm
nếu thỏa mãn các tính chất sau voi Vx, ¥, y, z € [0,1]:
1) Tinh chất điều kiện biên : 7(z, 1) = x (Tén tai phan tử đơn vi); 2) Tính chất giao hoán : T(x, y) = Tv, x);
3) Tính chất đơn điệu :x < x' = 7(,y) < T(x’, y);
4) Tinh chat két hop : T(T(x, y),z) = T(x, Ty 2)
Dé dàng kiểm chứng phép min và phép tích đại số là các phép t-norm, chúng
được ký hiệu là 7„ và 7; Phép t-norm 7, được gọi là phép giao mờ chuẩn
Một số phép 1-norm hay được sử dụng :
- Phép giao mờ chuẩn: T„= min {x, y} ; - Phép tích đại số: x.y ; - Phép hiệu giới nội: T(x, y) = max{0, x+y- 1} ; xnếu y= 1, - Phép giao chặt T(x, y)= 4 ynêu x= 1, 0 nếu x# 1 và y# l Phép T-conorm
Một phép tính ““đối ngẫu'' với phép t-norm được gọi là phép t-conorm và
được định nghĩa như sau :
Định nghĩa: Một hàm 2 bién S: [0,1]x[0,1] [0.1] được gọi là phép t-conorm,
hay còn gọi là Š-norm nếu thỏa mãn các tính chất sau với Vx, x, ÿ, z € [0,1]: 1) Tính chất giới nội : Š(x, 0) = x (Tổn tại phan tử đơn vị) ;
2) Tính chất giao hoán : S(x, y) = S(y, x);
3) Tính chất đơn điệu :x < x` => S(x,y) < S(x’, y);
Trang 23Như vậy, chỉ có tính chất 1) làm nên sự khác biệt giữa hai họ phép tính T-norm va S-norm Một số phép 1-norm hay được sử dụng : - Si y) — min{X, }} ; - 9Œ, y) = min{l, x + y} ; - Sp(X, ÿ)=x+y- X.Vy; xnếu y= 0, -Ÿ@œ.y)= 4 ynếux=0, 1 nếu x # 0 và y # 0
Về mặt ý nghĩa logic, phép 7-norm được sử dụng để mở rộng ngữ nghĩa của phép AND, còn phép S-norm để mở rộng ngữ nghĩa của phép OR
1.1.6 Quan hệ mờ
Khái niệm về quan hệ mờ:
Cho X và Ƒ là hai không gian nên, # được gọi là một quan hệ mờ trên Xx Ƒ nếu # là một tập mờ trên X x Ÿ, tức là có một hàm thuộc :
Mr: Xx Y > [0, 1], 6 day, up(x, y) = RŒ, y) là độ thuộc của cặp (x, y) vào Ä Trong trường hợp # là quan hệ rời rac thì nó có thể biểu thị bằng một bảng với tên hàng là tên các phần tử trong X, còn tên cột là tên các phân tử trong Y Nói cách
khác, R được biểu diễn bởi ma trận với các giá trị chỉ mức độ quan hệ của các cặp
@ y)
Các phép tính trên quan hệ mờ :
Vì quan hệ mờ cũng là tập mờ nên các phép tính trên tập mờ cũng là phép tính trên quan hệ mờ Tuy nhiên, trên quan hệ mờ có những phép tính đặc thù riêng mà trên tập mờ nói chung không có, chẳng hạn :
e Phép đảo của quan hệ mờ R(X,Y) la R''(Y, X) cho bởi: R'(y, x) = RO, y);
Trang 24Cho R; là quan hệ mờ trên X x Y và R; là quan hệ mờ trên Y x Z, thi phép hop
thành R¡ „Ra là một quan hệ mờ trên X x Z
Có 3 phép hợp thành thông dụng :
1 - Hgp thanh max — min (max-min composition) :
/4gtog2(X.Z) = maxy( mìn (/œ¡ (X,Y), /¿ (Y.Z)} V(X.z) 6 XxZ
2 - Hợp thành max — prod (max-product composition) :
/1giog2(X.Z) —= maxy{ Cig, (X.Y) © Mes (y.Z)} V(X.Z) 6 XxZ
2
3 - Hợp thành max — * được xác định bởi toán tử *: [0,1] > [0,1] /1mi°g3(X.2Z) = maxy{ (gì (X,Y) * gà (V,Z)} V(X,Z) 6 XxZ
1.2 CÂY QUYẾT ĐỊNH
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp
và dự báo Các đối tượng đữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với
người sử dụng
1.2.1 Định nghĩa cây quyết định
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật, hiện tượng tới các kết luận về giá trị mục tiêu của sự vật, hiện tượng Mỗi nút trong (internal
nođe) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị
cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho
trước các giá trị dự đoán của các biến được biểu điễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định [6] [7] [8] [14]
Vi đụ 1.5 Để xác định mức lương cao hay thấp ứng với một độ tuổi nảo đó,
Trang 25Bang 1.1 Bảng dữ liệu phân lớp mức lương Lương ` <30 triệu >30 triệu | <50 triệu | > 50 triệu Tuôi <35 Thấp Cao >35 Thấp Cao Từ đó ta xây dựng cây quyết định phân lớp mức lương như sau: Tuổi? aa 35 x^ ™ Luong Luong / 30 N Z \
Thap Cao Thap Cao
Hình 1.10 Cây quyết định phân lớp mức lương
1.2.2 Ưu điểm của cây quyết định
So với các phương pháp khai phá dữ liệu khác, cây quyết định có một số ưu điểm sau:
- Cây quyết định tương đối dễ hiểu;
- Đòi hỏi mức tiền xử lý dữ liệu đơn giản;
- Có thể xử lý với cả các dữ liệu rời rạc và liên tục;
Trang 261.2.3 Vấn đề xây dựng cây quyết định
Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, EC4.5, C5.0, Nhưng nói chung quá trình xây dựng cây quyết định đều được chia ra làm 3 giai đoạn cơ bản:
- Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp;
- Cat tỉa cây: Là việc làm dùng đề tối ưu hoá cây Cắt tỉa cây chính là việc trộn
một cây con vào trong một nút lá;
- Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào
1.2.4 Rút ra các luật từ cây quyết định
Có thê chuyển đổi qua lại giữa mô hình cây quyết định và mô hình dạng luật (IF THEN ) Hai m6 hình này là tương đương nhau
Vidu 1.6 Tu cay quyét định ở Hình 1.10 ta có thể rút ra được các luật sau: IF (Tuổi <= 35) AND (Lương <= 30) THEN mức lương = Thấp;
IF (Tuổi <= 35) AND (Luong > 30) THEN mitc luong = Cao;
IF (Tuổi > 35) AND (Luong <= 50 ) THEN mức lương = Thấp:
IF (Tuéi > 35) AND (Luong > 50) THEN mức lương = Cao
1.2.5 Thuật toán xây dựng cây quyết định C4.5
Thuật toán C4.5 (thuật toán cải tiến của ID3) la một thuật toán phân lớp tạo ra
cây quyết định được phát triển bởi J Ross Quinlan vào năm 1996 Cây quyết định
được tạo ra bởi thuật toán C4.5 có đặc điểm đơn giản, dễ sử dụng, dễ hiểu bởi các luật tạo ra ở nút lá của cây có thể biểu diễn dưới dang câu lệnh If- then Chinh vi
thé, trong luận văn này dùng thuật toán C4.5 để xây dựng cây quyết định phân lớp
Trang 27Thuật toán xây dựng cây quyết định C4.5
Input: Tập dữ liệu huấn luyện (tập các thuộc tính);
Output: Cay quyét dinh phân lớp dữ liệu
Mô tả thuật toán dưới dạng giả mã như sau: Function C45 builder(tập 4, tập thuộc tính)
{ if (moi record trong tập A đều nằm trong cùng một lớp)
{ refurn một nút lá được gan nhãn bởi lớp đó;} else {ÿ đập thuộc tính là rỗng ) { return nút lá được gán nhãn bởi tuyển của tat cả các lớp trong tập 1: } else
{ Chon một thuộc fính P, lấy nó làm gốc cho cây hiện tại;
Xóa P ra khỏi tập thuộc tính, For each (gia tri V cua P)
{Tạo một nhánh của cây gan nhan V; Đặt vào phân vùng V cac vi du trong tap_A co
giá trị V tại thuộc tính P;
Gọi C45_builder (phân vùng V, tập thuộc tính), gắn kết quả vào nhánh V; }
Trang 281.3 CÂY QUYÉT ĐỊNH MỜ
Điểm không thuận lợi của cây quyết định là tính không ổn định của nó Cây quyết định được thừa nhận như một cách phân lớp dễ thay đổi nhất về khía cạnh phụ thuộc vào đữ liệu huấn luyện Cấu trúc của cây quyết định có thể khác hoàn toàn nếu có thay đổi nào đó trong tập đữ liệu huấn luyện Đề khắc phục vấn để này một số nhà nghiên cứu đã đưa ra cây quyết định mờ bằng cách sử dụng lý thuyết tập
mờ để diễn tả mức độ quan hệ của các giá trị thuộc tính, điều này có thể phân biệt
chính xác sự phù hợp của các quan hệ phụ thuộc giữa các ví dụ huấn luyện khác
nhau và mọi giá trị của thuộc tính
1.3.1 Định nghĩa cây quyết định mờ
Cây quyết định mờ là sự mở rộng của cây quyết định cổ điển và là một phương pháp hiệu quả để rút ra tri thức trong các bài tốn phân loại khơng chắc chăn Nó áp dụng lý thuyết tập mờ đề biêu diễn tập dữ liệu và kết hợp trong phát triển cây và tỉa cành để xác định cấu trúc của cây [6]
1.3.2 Dữ liệu mẫu với biểu diễn mờ
Nhìn chung, dữ liệu tổn tại hai loại thuộc tính khác nhau là rời rạc và liên tục
Nhiều thuật toán đòi hỏi đữ liệu với các giá trị rời rạc Không đễ dàng gì để thay
thế một miễn liên tục với một miễn rời rạc Điều này đòi hỏi sự phân vùng và
gộp nhóm Và cũng rất khó để định nghĩa ranh giới của các thuộc tính liên tục Ví dụ, làm thế nào để định nghĩa đoạn tắc đường là dài hay ngắn? Có thể cho rằng đoạn tắc đường 3km là đài và 2,9 km là ngắn? Có thê nói rằng trời lạnh với
nhiệt độ là 9C, trời ấm áp với nhiệt độ là 102C? Do vậy, một số nhà nghiên cứu đã đưa khái niệm mờ vảo thuật toán ID3, thay thế dữ liệu mẫu với biểu diễn
mờ và hình thành nên thuật toán Fuzzy ID3
Ví đụ 1.6 việc một người quyết định tự lái xe ôtô (Car Driving) hay dùng
phương tiện công cộng khác để đi làm phụ thuộc vào thời tiết như nhiệt độ
Trang 29Bảng 1.2 Dữ liệu mẫu về việc tự lái xe đi làm (Car Driving)
Ngày Nhiệt độ Gió Tắc đường Tự lái xe
(Day) (Tem) (Wmd) (Traffic) (CD)
DI Nóng Yếu Dài Không D2 Nóng Mạnh Dài Không D3 Nóng Yếu Dài Có D4 Am áp Yếu Dài Có DS Mat mé Yếu Ngắn Có D6 Mat mé Manh Ngắn Không D7 Mat mé Manh Ngắn Có D8 Am áp Yếu Dài Không D9 Mat mé Yếu Ngắn Có D10 Am ap Yếu Ngắn Có DII Am áp Mạnh Ngắn Có D12 Am áp Mạnh Dài Có D13 Nóng Yếu Ngắn Có D14 Am áp Mạnh Dài Không
Trang 30ụ 2 Mn ũ 0 1 2 3 4 5 6 FT 8 9 1011 12 15 14 15 16 17 18 18 20 KM
Hình 1.11 Hình biểu diễn hàm thuộc của thuộc tính Tắc đường (MF)
Với thuộc tính N?hiệt độ là Mát mẻ, Am áp hay Nóng, ta có thể định nghĩa các
hàm thuộc tương ứng (,, „hay „) như sau: - | 1 x<0 /I„(xJ)=41—x/15 0<=x<=lŠ l0 x>15 0 x<5 x/15-1/3 $<=—x<20 Hy (X) = 4 1 20 <= x < 30 —x/5+7 30 <=x<3S | 0 x»3 | 0 x<25 My (x) =) x/10—2.5 25<=x<=35 | 1 x>35
Với thuộc tính G/ó là Yếu hay Manh ta co thé dinh nghĩa các hàm thuộc tương
ứng („hay „) như sau:
1 x<3
(8) = 25-12 3«<=x«<=ðŠ
Trang 31\ 0 đ<3 H,()=1x/5-0.6 3<=x<=8 mm» x>8
Ta thu duoc biéu dién mo cua tap mẫu như bảng dưới đây (Ký hiệu: MF-
Membership Function la ham thuéc, N: Khong, Y: Co):
Bang 1.3 Biéu diễn mờ của tập mẫu
Day | Tem | MF (h) | MF (m) MF(c) | Wind | ME (w) | ME (st) | Traffic | MF (1) | MF (sh) |cp DI | 32 |0.7 0.6 0 3 1 0 T5 0.25) | 0.25 D2 |33 |0§ 04 0 45 0.13 03 68 018 | 0.37 N D3 | 30 «| 05 1 0 35 1 0 83 0633 | 0.12 TY D+ | 24 |0 1 0 1.5 l 0 9 04 0 Y DS |ä 0 0 1 25 1 0 38 0 0.87 Y D6 |1 0 0 1 5 0 04 45 0 08 N D |§ |0 02 1 4 0.5 02 37 |0 1 Y D |12 |0 047 1 3 l 0 67 017 0.38 N pe |-5 |0 0 1 2 1 0 3$ |0 092 |Y Did [13 |0 0.47 1 2.5 1 0 4i Ũ 0.82 Y bu {is |0 0.67 0 6 0 0.3 23 Jo 1 Y DỊ) |22 |0 1 a 5 0 04 73 |03 | 0.28 Y DI3 | 32) |07 0.6 0 2.5 l ũ 16 0 1 Y D4 |25 |0 1 0 4 0.25 03 103 [053 |0 N Sum 3 Tal 6 9 11 109 [T81
Như ví dụ ở trên, ta đã phân vùng tập mẫu thành những khoảng khác nhau Sự phân vùng này là đầy đủ (mỗi giá trị trong miễn là thuộc vào ít nhất một tập con) vả là không nhất quán (một giá trị trong miền có thê tìm thấy trong nhiều hơn một tập con)
thuộc Đài (MF()) là 0, còn giá trị của hàm thuộc Ngắn (MF(sh)) là 1
Trang 32Áp dụng thuật toán thuật toán Fuzzy ID3 với Entropy mờ và độ đo thông
tin mo, ta thu được cây như sau: Tắc đường (T - 1) va Ngắn ME | TEM | wixn |T-1 |CD ve | Tex | WIND |T-1J CD 3ã 33 3 7.5 N 33 3 7 x 18 33 45 6.8 N 45 | 68 | 8 0.33 20 2.5 8.3 35 | 83 |T 0 4 24 15 3 25 | 3.8 |Ÿ 0.17 12 3 6.7 N 3 4.2 | 0.23 35 7 \ a7 | ¥ 053 | 25 1 10.8 | N 3 6.7 | X 3 3.5 | ¥ 3.5 hi | ¥ 1 lỗ 6 3ã | Ý 0.38 | 22 3 7.3 | ¥ 1 2 5 2.6 | ¥
Hình 1.12 Quá trình phát triển cây của thuật toan Fuzzy ID3
1.4 TIEU KET CHUONG 1
Chuong 1 da trinh bày các nội đung chính về tập mờ, biến ngôn ngữ, quan hệ mờ làm cơ sở cho lập luận mờ ở chương 2 và trình bày thêm lý thuyết về cây quyết định, cây quyết định mờ và thuật toán xây dựng cây quyết định C4.5 để làm cơ sở cho việc xây dựng các tập luật mờ từ đữ liệu huấn luyện trong chương 3
Chương tiếp theo sẽ trình bày tổng quan về logie mờ, phương pháp lập luận xấp xi trên tập mờ và phép suy diễn mờ, đó là cơ sở để áp dụng vào bài toán chẩn
đoán bệnh đái tháo đường trong chương 3
Trang 33CHƯƠNG 2 LOGIC MỜ VÀ LẬP LUẬN MỜ
Logic mé (Fuzzy logic) duoc phat triển từ lý thuyết tập mờ để thực hiện lập luận một cách xấp xi thay vì lập luận chính xác theo logic vị từ cổ điển Người ta hay nhằm lẫn mức độ đúng với xác suất Tuy nhiên, hai khái niệm này khác hẳn
nhau; độ đúng din của logic mo biểu diễn độ thuộc với các tập được định nghĩa
không rõ ràng, chứ không phải khả năng xảy ra một biến cố hay điều kiện nào đó Logie mờ cho phép độ thuộc có giá trị trong khoảng [0, 1], va ở hình thức ngôn từ,
now, A,
các khái niệm không chính xác như “hơi hơi”, ‘gan nh", "kha la" va "rat"
Suy luận xấp xi hay còn gọi là suy diễn mờ là quá trình suy ra những kết luận
dưới dạng các mệnh để mờ trong điều kiện các quy tắc, các luật, các dữ liệu đầu vào
không hoàn toàn xác định
2.1 LOGIC MỜ
2.1 1 Mệnh đề mờ
Trong logic cổ điển (logic vi tir cấp mội), một mệnh đề phan tu P(x) là một
phát biểu có dạng “x là P” trong đó x là mét déi trong trong mét vi tru U nao dé thoả tính chất P Ví du “x la sé chan” thi U la tap cdc sé nguyén va P là tính chất
chia hét cho 2 Nhu vậy, ta có thể đồng nhất một mệnh đề phân tử “x là P” với một
tap (16) A = {xeU | PQ}
Tw do, ta cd: P(x) = A(x);
Trong đó 2 là hàm đặc trưng của tập A (xed & A(x) = 1) Gia tri chan ly
cua P(x) chi nhaén m6t trong hai gia tri 1 va 0 (true va false) trong tng voi su kién x thudc A hoac khéng
Trong trường hợp P là một tính chất mờ chăng hạn như “số lớn” thì ta sẽ có một mệnh để logic mờ phần tử Khi đó tập hợp các phần tử trong vũ trụ Ù thoả P là một tập mờ Ö có hàm thuộc /„ sao cho: P(+) = uw, (x)
Lic nay P(x) c6 thê nhận các giá trị tuỳ ý trong [0,1] Và ta thấy có thể đồng
Trang 34Trong logic mờ, người ta thường dùng các phát biểu dưới dạng mệnh đề có
cấu trúc [4], [12]:
NÉU (mệnh đẻ điều kiện) THÌ (mệnh đề kết luận)
(hay IF (Clause) THEN (clause)) Ta ky hiệu: p—>đ (Từ p suy ra q)
Vi du 2.1 Cho ménh dé mo sau: NEU nhiét d6 cao THI dé am thap
- Các biến ở đây sẽ là: “nhiệt độ”, “độ Âm”;
- Các giá trị hay tập mờ là: “cao”, “thấp”
Mệnh để trên là ví dụ đơn giản về điều khiển mờ, nó cho phép từ một giá trị đầu vào x„ (hoặc độ thuộc „(x„) của x„ trên tập mờ 44) xác định được hệ số thỏa
mãn mệnh đề kết luận q của giá trị đầu ra y
NEU x =A THI y=B tire 1a ADB 1a mot giá trị mờ 2.1.2 Tập luật mờ
Tập luật mờ là sự kết hợp của nhiều mệnh dé mo có dạng NEU - THI nhu da nói ở trên
Cho x\, 2, ., Xp la các biến vào của hệ thống, yla bién ra Cac tập 4lj, Bị (với
¡=1,2, ,m và j = I,2, , n) là các tập mờ trong không gian nền tương ứng của
các biến vào và biến ra, các Rị là các suy diễn mờ thì ta có tập luật mờ [12]: R, : NEU x, 1a.Ay, va va Xp 14 Ay, THI y la By;
Ry: NEU x, la Ay, va va Xp 14 Ayo THI y la Bo; R, : NEU x la Ay, va va Xp 14 Amn THI y 1a By
Bài toán : Cho : NEU x; 1a e;» va va Xm 1d ey« Tinh: Gia trị y là uz
Trang 352.1.3 Phép toán kéo theo mờ
Các phép toán kéo theo có vai trò quan trong trong logic mo Ching tao nên
các luật mờ để thực hiện các phép suy diễn trong tat cả các hệ mờ Do một mệnh đề
mờ tương ứng với một tập mờ nên ta có thể đùng hàm thuộc thay cho các mệnh đề:
u(*) => HY)
Sau đây là một số phép kéo theo quan trọng được sử dụng phổ biến: - Phép kéo theo Dienes — Rescher:
wp(*, y) — max(Ì- #„(X), ;@'))
- Phép kéo theo Lukasiewicz :
Mu, y) — min(1, 1- 2, (%)+ 4, ())
- Phép kéo theo Zadeh:
z(x, y) — max(1- „ (3), min( 4, (x), #,(¥))): (a) hoặc
uađ y) — max(1-„() #,@).;0)).— ()
- Phép kéo theo Goedel:
MA 9)= JL nếu „,@)< “,Ó),
;() nếu /„(X)> ;()
- Kéo theo Mamdani:
Hux, y) = min( 4, (x), H,()); (a) hoặc
HX, Y) = tg) Hs) (b)
2.2 PHUONG PHAP LAP LUAN XAP Xi DUA TREN TAP MO
Trang 36Trong công trình nghiên cứu của mình, Zadeh đưa ra khái niệm sơ đồ lập luận xấp xỉ như sau [4] [12]:
Tiên đề 1: NÊU zvu của quả cà chua nào đó là đở THÌ quả cà chua đó là chín; Tiên đề 2: Màu quả cà chua Q 1a rat do;
Kết luận: Quả cà chua la rat chin
Chúng ta thấy sơ đồ này tương tự như luật Modus ponens trong logic cổ điền : tr A DB
Luật Modus Ponens hay Modus Tollen :
Thong thong, suy dién mo (suy ludn md) hay st dung luat Modus Ponen
hoặc Modus Tollens Trong logie cổ điển, Modus Ponens diễn đạt như sau:
Mệnh đề 1 (Luật hoặc tri thức) : PO;
Ménh dé 2 (sự kiện) : P ching ;
Kết luận : O dung
Tuong tu logic cé điển, trong logic mờ (swy điễn mờ hay suy luận mờ) cũng có
luật Modus Ponens như sau:
Giả thiết 1 (luật mờ) : Néu xlaA thì ylà Ð;
Giả thiết 1 (sự kiện mo) : xià A';
Kết luận : ylà?
Trong đó 4, B, 4', P' là các biến ngôn ngữ (có nghĩa là cdc tap mé) A va A' la các tập mờ trên không gian nền U, còn Ö và #' là các tập mờ trên không gian nên Ƒ”
Vĩ đ„ 2.2 Luật mờ : Nếu quả cà chua đỏ thi quả cà chua đó chín ;
Sự kiện mờ : Quả cà chua khá đỏ ;
Trang 37Trong logic cé điển, Modus Tollens diễn đạt như sau:
Mệnh đề 1 (Uuật hoặc tri thức) : P—Q;
Mệnh đề 2 (sự kiện) : ¬Q đứng ;
Kết luận : ¬P đứng
Tương tự logic cỗ điển, trong logic mờ (suy điễn mờ hay suy luận mờ) luật
được diễn đạt như sau :
Giả thiết 1 (Luật mờ hoặc tri thức mò) : P-O;
Giả thiết 2 (Sự kiện mờ) : ¬Q khá đúng ;
Kết luận : ¬P khá đúng Ví đu 23 Luật mờ: Nếu quả cà chua đỏ thi quả cà chua đó chín ;
Sự kiện mờ : Quả cà chua không chín lắm ;
Kếtluận : Quả cà chua đó không đỏ lắm
Để ứng dụng suy điễn mờ (suy luận mờ) vào trong bài toán thực tế thì vấn để
mấu chốt cần thực hiện là xây dựng cơ chế lập luận xấp xi để có thể đưa ra kết luận
hay quyết định mờ
Công thức tính kết luận của luật Modus Ponens như sau: HV) = SUPT Hay), He) C)
Trong đó 7 là mot ham 7-norm và ® là quan hệ hai ngôi xác định bởi phép kéo theo Cách tính /„(x,y), chính là cách tính giá trị chân lý của phép kéo theo trình bày ở phần trước Như vậy tuỳ theo cách chọn cách tính luật kéo theo khác nhau mà ta có cách tính kết quả của luật Modus Ponens khác nhau
Trang 38Áp suất nhận các gia tri trong V = {50, 55, 60, 65}
“ Ta có các tập mờ xác định bởi biến ngôn ngữ nhiệt độ và áp suất như sau: : 0 03 09 1 4A = “nhiệt độ cao” = —+——+——+— 30 35 40 45 “er #1 0 05 1, 1 B=“ap suat lon” = —+— 50 55 60 65
" Áp dụng luat kéo theo Mamdani tich ta c6 quan hé m6 sau (gid tri dong i, cot
J la gia tri ham thuéc của cặp nhiệt độ ï và áp suất 7 vào quan hệ) 0 0 0 0 30 0 0.15 0.3 0.3} 35 R=|0 0.45 0.9 0.9] 40 0 05 1 1 45 50 55 60 65 " Bây giờ, giả sử ta biết sự kiện “nhiệt độ là trung bình” và 06 1 08 01 —+—+—+— 4I' = “nhiệt độ trung bình” = 30 35 40 45 0 045 08 08 Áp dụng công thức (*) ta suy ra 8'=—+——+—+— pawns 8 © y 50 55 60 65 2.3 PHÉP SUY DIỄN MỜ
Phép suy diễn mờ dùng để kết hợp các luật mờ dạng NỀU - THÌ trong cơ sở
luật mờ thành một phép ánh xạ từ một tập mờ A' trong U đến một tap mo B' trong V C62 cach suy dién: suy diễn dựa trên toàn bộ luật và suy diễn dựa trên từng luật
Các cơ chế suy diễn thông dụng: - Cơ chế suy diễn tích số:
Cơ chế này sử dụng (¡) cách suy diễn dựa trên từng luật với phép hợp mờ, (ii) phép kéo theo tích số Mamdani, (ii) tích đại số cho tat cả toán tử /-orm va max
Trang 39- Cơ chế suy diễn cực tiểu:
Cơ chế này sử dụng (¡) cách suy diễn dựa trên từng luật với phép hợp mờ, (ii) phép kéo theo cực tiểu Mamdani, (iii) mứn cho tất cả toán tt t-norm va max cho tat cả toán tu s-norm
- Cơ chế suy điên LuKasiewicz
Cơ chế này sử dụng () cách suy diễn dựa trên từng luật với phép giao mờ, (ii) phép kéo theo LuKasiewicz, (iii) min cho tất cả toán tử or
- Cơ chế suy diễn Zadeh
Cơ chế này sử dụng () cách suy diễn dựa trên từng luật với phép giao mờ, (ii) phép kéo theo Zadeh, (iii) min cho tất cả toán th t-norm
- Co ché suy dién Dienes Rescher
Cơ chế này sử dụng các phép toán như trong cơ chế suy diễn Zadeh ngoại trừ việc thay thế phép kéo theo Zadeh bằng phép kéo theo Dienes Rescher
2.4 HE MO
2.4.1 Cầu trúc và hoạt động của hệ mờ tông quát Một hệ mờ tiêu biểu có cấu trúc như hình vẽ [3]: Cơ sở tri thức Bộ tham số Cơ sở luật mô hình mờ Tham khảo luật mờ Vv
Trang 40- Thành phân trung tâm của hệ mờ là cơ sở luật mờ (fuzzy rule base) Nó gồm các luật mờ If-Then biểu diễn tri thức của chuyên gia trong lĩnh vực nào đó Trong
trường hợp một hệ hỗ trợ chân đoán mờ cụ thể thì cơ sở luật mờ chính là tri thức và
kinh nghiệm của các chuyên gia trong việc chân đoán khi chưa áp đụng hệ mờ - Bộ tham số mô hình: quy định hình dạng hàm thuộc của giá trị ngôn ngữ
được dùng để biểu diễn biến mờ và các luật mờ Giá trị các tham số có thể được
đánh giá bằng kinh nghiệm của các chuyên gia con người hay là kết quả của quá
trình khai phá trị thức từ thực nghiệm Thông thường, co sở luật mờ và bộ tham số
được gọi chung là cơ sở fri thức
- Thành phần quan trọng kế tiếp là bộ suy diễn mờ (fuzzy inference engine)
Nhiệm vụ của bộ phận này là kết hợp các luật trong cơ sở luật mờ, áp dụng vào tập
mờ đầu vào theo các phương pháp suy diễn mờ đề xác định tập mờ đầu ra
- Dữ liệu đầu vào của hệ điều khiển mờ là các tín hiệu do các bộ phân cảm
biến môi trường cung cấp sau khi đã số hoá nên có tính chất rõ (khái niệm rõ ở đây có nghĩa là các tín hiệu đó không phải là các tập mờ, chứ không có nghĩa là các tín hiệu không có nhiễu) Vì vậy, cần phải có bộ mờ hoá (fuzzier) để chuyền các dữ
liệu số đầu vào thành các tập mờ để bộ suy diễn mờ có thể thao tác được
- Dữ liệu đầu ra của bộ suy diễn mờ ở dạng các tập mờ sẽ được bộ giải mờ
(defuzzier) chuyển thành tín hiệu số trước khi truyền đến các cơ quan chấp hành như tay máy, công tắc, van điều khién,