1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu phương pháp lập luận mờ và ứng dụng để xây dựng hệ dự đoán bệnh đái tháo đường

90 3 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Hiểu Phương Pháp Lập Luận Mờ Và Ứng Dụng Để Xây Dựng Hệ Dự Đoán Bệnh Đái Tháo Đường
Tác giả Trần Thị Thu Huyền
Trường học Đại Học Huế
Chuyên ngành Khoa Học Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2018
Thành phố Thừa Thiên Huế
Định dạng
Số trang 90
Dung lượng 35,34 MB

Nội dung

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO DAI HOC HUE

TRUONG DAI HOC KHOA HOC

TRAN THI THU HUYEN

TIM HIEU PHUONG PHAP LAP LUAN MO VA UNG DUNG DE XAY DUNG HE DU

DOAN BENH DAI THAO DUONG

LUAN VAN THAC SI KHOA HOC

CONG NGHE THONG TIN

Thừa Thiên Huế, 2018

Trang 2

đường cao nhất thé giới Thống kê của Liên đoàn Đái tháo đường quốc tế (IDF) cho

thấy, trên 50% bệnh nhân đái tháo đường ở Việt Nam chết vì căn bệnh này trước

năm 60 tuôi

Biện pháp hữu hiệu để làm giảm tiến triển và biến chứng của bệnh, chỉ phí

chữa bệnh ít tốn kém nhất là phải phát hiện sớm và điều trị cho bệnh nhân kịp thời Tuy nhiên, công tác phát hiện sớm, chăm sóc và điều trị bệnh đái tháo đường còn

gặp rất nhiều khó khăn do kết quả chân đoán phụ thuộc rất nhiều vào kinh nghiệm của bác sỹ cũng như suy luận tại thời điểm chân đốn, chứ khơng dựa trên quy tắc tiêu chuẩn nảo

Một hệ thống chân đoán bệnh, sẽ hỗ trợ cho bác sỹ rất nhiều trong việc đưa ra

kết quả chân đoán cuối cùng Với việc áp dụng CNTT, ngành y tế hiện nay đã đạt

được nhiều thành tựu to lớn trong việc vận hành hệ thống khám chữa bệnh Đặc biệt là việc ứng dụng các kỹ thuật như hệ hỗ trợ quyết định, khai phá dữ liệu, hệ chuyên

gia, logic mờ để xây dựng các hệ thống chẩn đoán bệnh đã giúp các bác sỹ chuyên

khoa có thể tiếp cận và đưa ra chân đoán bệnh một cách nhanh chóng, chính xác Từ

đó, có thể đưa ra phương pháp điều trị bệnh hiệu quả, đồng thời tiết giảm chỉ phí

điều trị

Trong lĩnh vực y tế tri thức chuyên gia là rất quan trọng và những tri thức này phần lớn được phát biêu bằng ngôn ngữ với các thông tin mờ và không chắc chắn, chuyên gia càng làm việc lâu năm thì càng tích luỹ nhiều kinh nghiệm, nhưng kinh nghiệm này không tổn tại mãi mãi với thời gian, vì vòng đời của con người là có giới hạn Vì vậy, nghiên cứu phát triển phương pháp luận nhằm thu thập, duy trì và khai thác để phát huy được các tri thức chuyên gia này là một nhu cầu rất cần thiết

Trang 3

Pháp lấy phần bù của một tập mờ:

Cho 44 là tập mờ xác định trên tập vũ trụ X, có hàm thuộc /„ Phép lay bù của tap A la mot tap mo, ký hiệu ~⁄4, với hàm thuộc được định nghĩa như sau: tia = 1- ua Vx EX a tuc(xì Hình 1.9 Bù của một tập mờ

Tích đại số của hai tập mờ

Cho 41, Z là hai tập mờ xác định trên tập vũ trụ X và có các hàm thuộc lần lượt

là g(x), up (x) Tich đại số của hai tập mờ 44 và Ö là một tập mờ, ký hiéu A.B, voi

hàm thuộc được định nghĩa như sau:

HABG) = MAG):Mn(), VXCX

Tổng đại số của hai tập mờ

Cho A, B la hai tap mo xác định trên tập vũ trụ X và có các hàm thuộc lần lượt

là grạ, tg Tong dai số của hai tập mờ 44 và Ö là một tập mờ, ký hiệu 4 ® B, voi ham

thuộc được định nghĩa như sau:

HẠ $ p(X) = Hạ(X) + Ug (X) — Hạ(%) ng(x), vx EX

Tích Descartes của hai tập mờ

Trang 4

\ 0 đ<3 H,()=1x/5-0.6 3<=x<=8 mm» x>8

Ta thu duoc biéu dién mo cua tap mẫu như bảng dưới đây (Ký hiệu: MF-

Membership Function la ham thuéc, N: Khong, Y: Co):

Bang 1.3 Biéu diễn mờ của tập mẫu

Day | Tem | MF (h) | MF (m) MF(c) | Wind | ME (w) | ME (st) | Traffic | MF (1) | MF (sh) |cp DI | 32 |0.7 0.6 0 3 1 0 T5 0.25) | 0.25 D2 |33 |0§ 04 0 45 0.13 03 68 018 | 0.37 N D3 | 30 «| 05 1 0 35 1 0 83 0633 | 0.12 TY D+ | 24 |0 1 0 1.5 l 0 9 04 0 Y DS |ä 0 0 1 25 1 0 38 0 0.87 Y D6 |1 0 0 1 5 0 04 45 0 08 N D |§ |0 02 1 4 0.5 02 37 |0 1 Y D |12 |0 047 1 3 l 0 67 017 0.38 N pe |-5 |0 0 1 2 1 0 3$ |0 092 |Y Did [13 |0 0.47 1 2.5 1 0 4i Ũ 0.82 Y bu {is |0 0.67 0 6 0 0.3 23 Jo 1 Y DỊ) |22 |0 1 a 5 0 04 73 |03 | 0.28 Y DI3 | 32) |07 0.6 0 2.5 l ũ 16 0 1 Y D4 |25 |0 1 0 4 0.25 03 103 [053 |0 N Sum 3 Tal 6 9 11 109 [T81

Như ví dụ ở trên, ta đã phân vùng tập mẫu thành những khoảng khác nhau Sự phân vùng này là đầy đủ (mỗi giá trị trong miễn là thuộc vào ít nhất một tập con) vả là không nhất quán (một giá trị trong miền có thê tìm thấy trong nhiều hơn một tập con)

thuộc Đài (MF()) là 0, còn giá trị của hàm thuộc Ngắn (MF(sh)) là 1

Trang 5

MỤC LỤC IUNv e.- I Lời cảm ơn Mục lỤc L0 1222011112111 1121111511111 111 11111111 kEngkk kg k KT k kg kg x k1 1xx u P101 0 Danh mục các hỉnh - 2112221111221 111511 1115211111011 1 1101111111111 11k kg x kg kg yn Danh mục các chữ viết tắt

1.1 LY THUYET TAP MO "

1.1.1 Tập kinh điển 55 S5 S2 2212222222222 rea 1: 12: DìmlrngiiTa TẬP TH toaisnttbitlotiGDIGIEDIUERONISHENGSEXSHBNHESENNIEELVSEEHDNSESHĐRSSEE 6 1.1.3 Các thông số đặc trưng cho tập mờ 1.1.4 Biển ngôn ngĩt 55 5S S2 2221222222222 ea 9 1.1.5 Cac phép 056 16 10124.0 Il 1.1.6 Quan hé mo

1.2 CAY QUYET DINH

1.2.1 Định nghĩa cây quyết định 55 52 5221122112212

1.2.2 Ưu điểm của cây quyết định

1.2.3 ấn đề xây dựng cây quyết định 55 52 5221122112121 1.2.4 Rút ra các luật từ cây qHyẾt định 55 55 5221122121222 1.2.5 Thuật toán xây dựng cây quyết định C4.5

1.3 CÂY QUYÉT ĐỊNH MỜ - 5 2T E221 1 21tr rau

1.3.1 Định nghĩa cây quyết định mờ -2- 52 222 5122112112112

13.2 Dữ liệu mẫu với biểu điỄn Hờ - 5 SE 1 111111121 1121112 xa 1.4 TIỀU KÉT CHƯƠNG L 2-©22222222212221221221211211221221.2.2 te CHUONG 2 LOGIC MO VA LẬP LUẬN MỜ . 55ccccsecrersee 2.1 LOGIC MỜ 2 22 222221122212211211121112211212122222222122222re 2.1 1 Mệnh đề mờ 55 S55 221 22222221222221 22221 sa 21:2: TẠI THÍ THỪ osasttiiogtititiegBlititGRSHISSGRNHIXGGERHIDRGSERIIRGRGIREIISSSHISSSRGIrixgtm 25

2.13 Phép toán kéo theO HHỜI St SE SE tre 26

2.2 PHƯƠNG PHÁP LẬP LUẬN XÁP XỈ DỰA TRÊN TẬP MỜ 26 2.3 PHÉP SUY DIẾN MỜ 2 22222221121111112111221222112222222222e 29 2.4 HỆ MỜ 522 222221221122112111211211211211112111122212222212 re 30

2.4.1 Cấu trúc và hoạt động của hệ mờ tổng quát -2 ccscscccscsce 30

V0 nã ng 6n n6 A313 32

Trang 6

2.4.3 Bộ suy điỄN HHời, 0 55 5S 21 222221211221121121212122121121 ra 32

bốn In nh cố 34

bến n1 nan nh < 36

2.5 TIỀU KẾT CHƯƠNG 2 -2- 22 22222112111211121111121112111211121212 xe 37 CHƯƠNG3 XÂY DỰNG HỆ DỰ ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG 38 3 1 TÔNG QUAN VẺ BỆNH ĐÁI THÁO ĐƯỜNG 222225 222c22zcsze2 38 3.1.1 Thực trạng bệnh đái tháo đhường cc eee ete eens eneeneeeneens 38

3.1.2 Định nghĩa bénh dai thao AUONG 2 ccc cece eect eee tsetse neenetteeeneens 39 3.1.3 Nguyên nhân, các yếu tố nguy cơ của bệnh đái tháo đường 39 3.1.4 Triệu chứng đặc trưng của bệnh đái thảo đường 40 3.1.4.1 Triệu chứng lâm sàng c c 2: 2S Street 40 3; 1;4:2› Triệu:chững cẩn lẫm sẵn :z:ssszssssirssnsosngetesaiogtiotosasiasssewsserad 41 3.1.5 Chẩn đoán và phân loại bệnh đái thao AUONg o.oo c2 42

3.1.5.1 Chẩn đoán đái tháo đường -222 2222122122121 ee 42 3.1.5.2 Chẩn đoán tiền đái tháo đường ©2222 2222212221222 e6 43

3.1.5.3 Tiêu chuẩn để làm xét nghiệm chẩn đoán 22222222 43

3.1.5.4 Phân loại đái tháo đường :¿-©22-2222 2221222122112 22c 44

3.2 QUY TRINH CHAN ĐOÁN BỆNH 222 222222122212211221221.2 2 xe 47

3.2.1 Lập luận chẩn đoán bệnh: -.- 5S SE 2111111212111 112122 47

3.2.2 Các kiểu triệu chứg, s55 2S 212211221122122222222 xe 48

3.2.3 Quy trình chẩn đoán bệnh -2- 5s 2222122112212212212222 xe 48 3.2.4 Các quy luật chẩn đoám 52-552 22 2212211221122122121.222 xe 49

3.3 QUY TRÌNH ỨNG DỰNG LOGIC MỜ VÀO CHÂN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG -2- 22 2212221211121121112112112121121122222222 2e 49

E178 7i nn 49

3.3.2 Mô hình kiến trúc hệ thống 52-552 2522221222122 ee 40

h1 na 30

3.3.4 Xây dựng và biếu diễn tri thứ Hờ 55552255 22S2221221221122122 e6 52 3.3.4.1 Phân tích các bước xây đựng hệ thống chân đoán 52 3.3.4.2 Minh họa xây dựng hệ dự đoán bệnh đái tháo đường 53 3.4 THIẾT KÉ HỆ THÓNG 222 S22 2222221222122112112112211222222.2 re 63 3.5 THỬ NGHIỆM VÀ ĐÁNH GIIÁ 222222 222222122212221221221.2 2 xe 66 3.6 TIEU KET CHUONG 3 -22©22221222122122112112112211222222 ae 67 KET LUAN VÀ HƯỚNG PHÁT TRIỂN - 5© ©25c©cscccsecxeerreerreee 68

TẤT LIỆU THẤM KHẢO susnsgnngngrssabidirdsdtdrgtuiBangiRttöiSGEnitStitditASi8nnd ung 70

Trang 7

DANH MỤC CÁC BẢNG

Bang 1.1 Bảng dữ liệu phân lớp mức lương ó5: St St SstErsrxerrerrrrerres 16

Bảng 1.2 Dữ liệu mẫu về việc tự lái xe đi làm (Car Driving) ò.- 20

Trang 8

DANH MỤC CÁC HÌNH

Hình 1.1 Hàm thuộc /„(x) của tập kinh điển 4 22 22 22222222252223122312122222-e2 6

Hình 1.2 Hàm thuộc /;(x) của tập mờ Ö Sc 2S nhe 7

Hình 1.3 Ba tập mờ Cold (lạnh), Warm (ấm) và Hot (nóng) dạng hình thang 8

Hình 1.4 Dé thị hàm thuộc của tập mo A voi các số tự nhiên nhỏ hơn 5 § Hình 1.5 Độ cao, miễn xác định, miễn tin cậy của tập mờ

Hình 1.6 Biến ngôn ngữ 22222 222122122212112211211211222222222 2e Tình 1.7: Hợp của bai TẬP HờszssesirsensirbsetiitidgilgERORSSSERGRHSVESHRNHGSGIABN(IRO8itHGa 11 Hinh:1:8 Giao ciiashai tap: MG crcessven essences vere meeers meen wenn remem ammo meeneeees 11

Hinh 1.9 Bu ctia mOt tap MO ec cece eee eee eseeenreneeneetienieserenreneee 12

Hình 1.10 Cây quyết dinh phan lop mite Wrong oo cee cece cece cece ceee cesses teteeeteees 16

Hình 1.11 Hình biểu diễn hàm thuộc của thuộc tính Tắc đường (ME) 21

Hình 1.12 Quá trình phát triển cây của thuật toán Fuzzy ID3 - 23

Hình 2.1 Cấu trúc của mô hình mờ -5¿c2: 222222 treo 30 Hình 2.2 Mô hình hệ mờ nhiều đầu vào - một đầu ra : -c: 32

Hình 2.3 Các dạng hàm thuộc thường được sử dụng trong hệ mờ 35

Hình 2.4 Phương pháp giải mờ cực địạiI cc t S2 Snhnhnnh nhe rerret 36 Hình 2.5 Phương pháp giải mờ trọng {Âm .- - 32: t2 32x Errsrrrrrrrrrek 37

Hình 3.1 Mô hình kiến trúc hệ thống chẩn đoán bệnh - 222222222222 50 Hình 3.2 Các hàm thuộc của mức độ tiểu .- 222221 1251211112111121111211x51 1x6 55 Hình 3.3 Các hàm thuộc của mức độ uống THƯỚC .Ặ2.2 2 222201122221 22 2xx 56 Hình 3:4: Gác hàm thuộc của mức độ ăN:::ccaossecygrniointrraratigtddttigttotxgphonayeaaa 57

Hình 3.5 Các hàm thuộc của mức độ giảm cÂn :- ccc cScSnnnieireree 58

Hình 3.6 Các hàm thuộc biểu diễn nông độ Glucose máu lúc đói 59 Hình 3.8 Form chan doan bénh dai tháo đường . - 22222 221222122212222 e6 64 Hình 3.9 Form chấn đoán bệnh đái tháo đường với bộ dữ liệu cụ thể 64

Hình 3.10 Form chỉ dẫn cách phòng bệnh đái tháo đường . -55¿ 65

Trang 9

PHỤ LỤC PHỤ LỤC 1

PHIẾU ĐIÊU TRA NGHIÊN CỨU CÁC TRIEU CHUNG LÂM SÀNG CỦA BỆNH ĐÁI THÁO ĐƯỜNG Tại tỉnh Quảng Trị L Hành chính 1.0/08 .ĂăĂăĂăĂăĂaaIiI - Tuổi: - Dân tỘC: 222cc - GIỚI: 1.Nam 2.Nữ - Nghề nghiệp: - - 2 121 S22212212121111212111222212221212 ra - Địa chỉ: 022211 ng II Lam sang: 1 Tiền sử: 1.1 Bản thân đã bị bệnh đái tháo đường: Có Không

1.2 Gia đình có người thân bị đái tháo đường Có Không

1.3 Sinh con >4 kg Có Không 2 Thời gian mắc bệnh:

Dưới l nắm Từ l- 5 năm Trên 5 năm

Trang 10

MỞ ĐẦU

1 Lý do chọn đề tài

Chuẩn đoán bệnh trong y học là một lĩnh vực tương đối phức tạp, lĩnh vực này

có những đặc điểm khác biệt đó là mối quan hệ tương hỗ giữa lý thuyết và thực

hành Đối tượng của lĩnh vực này là những bệnh nhân, những con người thực sự

Kiến thức y học cũng khá phức tạp Dé tìm ra những kiến thức mới, phương pháp truyền thống là dựa trên sự mô tả của các hồ sơ bệnh án, nhật ký y khoa, cơ sở dữ liệu dé tài nghiên cứu, Chính vì thế, người bác sỹ thường bị tràn ngập trong

núi đữ liệu không lồ Và đặc biệt là những đữ liệu đó ở mỗi bệnh nhân lại có sự mơ

hồ khác nhau, gắn với cảm xúc của mỗi người Người bác sỹ luôn phải làm việc trong trạng thái căng thắng trong khi yêu cầu phải đưa ra được những quyết định

đúng đắn hiệu quả nhất

Hiện nay, Đái tháo đường là bệnh nhận được sự quan tâm đặc biệt trong giới y

khoa Bệnh này nằm trong số 10 nguyên nhân gây tử vong và tàn phế hàng đầu ở cả hai giới, gây ra các biến chứng nặng nề về tim mạch, tổn thương thần kinh, mù mắt, suy thận, nhiễm trùng và gây tốn thương bàn chân có thể dẫn đến phải cắt cut chi Bệnh đã và đang trở thành vấn đề mang tính xã hội cao ở nhiều quốc gia bởi sự bùng phát nhanh chóng, mức độ nguy hại đến sức khoẻ ĐTĐ còn trở thành lực cản của sự phát triển, gánh nặng cho toàn xã hội khi mà mỗi năm thế giới phải chi số tiền không lỗ từ 232 tỷ đến 430 tỷ USD cho việc phòng chống và điều trị

Theo Tổ chức y tế thế giới (WHO), năm 1985 có khoảng 30 triệu người mắc đái tháo đường trên toàn cầu, năm 2004 có khoảng 98,9 triệu người mac, đến năm 2009 có khoảng 180 triệu người và con số đó có thể tăng gấp đôi lên tới 366 triệu

người vào năm 2030

Hiện Việt Nam có trên Š triệu người mặc bệnh đái tháo đường Theo Bộ y tế,

con số này được dự báo tiếp tục gia tăng trong thời gian tới Theo thống kê trong 10

năm qua, số lượng bệnh nhân mắc bệnh đái tháo đường ở nước ta tăng 211%, và với

Trang 11

đường cao nhất thé giới Thống kê của Liên đoàn Đái tháo đường quốc tế (IDF) cho

thấy, trên 50% bệnh nhân đái tháo đường ở Việt Nam chết vì căn bệnh này trước

năm 60 tuôi

Biện pháp hữu hiệu để làm giảm tiến triển và biến chứng của bệnh, chỉ phí

chữa bệnh ít tốn kém nhất là phải phát hiện sớm và điều trị cho bệnh nhân kịp thời Tuy nhiên, công tác phát hiện sớm, chăm sóc và điều trị bệnh đái tháo đường còn

gặp rất nhiều khó khăn do kết quả chân đoán phụ thuộc rất nhiều vào kinh nghiệm của bác sỹ cũng như suy luận tại thời điểm chân đốn, chứ khơng dựa trên quy tắc tiêu chuẩn nảo

Một hệ thống chân đoán bệnh, sẽ hỗ trợ cho bác sỹ rất nhiều trong việc đưa ra

kết quả chân đoán cuối cùng Với việc áp dụng CNTT, ngành y tế hiện nay đã đạt

được nhiều thành tựu to lớn trong việc vận hành hệ thống khám chữa bệnh Đặc biệt là việc ứng dụng các kỹ thuật như hệ hỗ trợ quyết định, khai phá dữ liệu, hệ chuyên

gia, logic mờ để xây dựng các hệ thống chẩn đoán bệnh đã giúp các bác sỹ chuyên

khoa có thể tiếp cận và đưa ra chân đoán bệnh một cách nhanh chóng, chính xác Từ

đó, có thể đưa ra phương pháp điều trị bệnh hiệu quả, đồng thời tiết giảm chỉ phí

điều trị

Trong lĩnh vực y tế tri thức chuyên gia là rất quan trọng và những tri thức này phần lớn được phát biêu bằng ngôn ngữ với các thông tin mờ và không chắc chắn, chuyên gia càng làm việc lâu năm thì càng tích luỹ nhiều kinh nghiệm, nhưng kinh nghiệm này không tổn tại mãi mãi với thời gian, vì vòng đời của con người là có giới hạn Vì vậy, nghiên cứu phát triển phương pháp luận nhằm thu thập, duy trì và khai thác để phát huy được các tri thức chuyên gia này là một nhu cầu rất cần thiết

Trang 12

2 Mục tiêu nghiên cứu

- Mục tiêu chung: Tìm hiểu Logie mờ, phương pháp lập luận mờ và ứng đụng

một số kỹ thuật tổng hợp trong hệ hỗ trợ quyết định để xây dựng hệ dự đoán bệnh

đái tháo đường

- Các mục tiêu cụ thể: Ứng dụng cấu trúc của hệ hỗ trợ ra quyết định, logic

mờ, các phương pháp xây dựng cơ sở dữ liệu; Kết hợp thu thập ý kiến chuyên gia, khai phá hồ sơ bệnh án và các nguôn dữ liệu khác đề xây dưng tập luật, đánh giá tập

luật nhằm phục vụ cho việc xây dựng hệ dự đoán bệnh

3 Đối tượng và phạm vi nghiên cứu

- Về lý thuyết: Nghiên cứu về Logic mờ, phương pháp mờ hóa, hệ hỗ trợ quyết định (hệ mò), phân lớp dữ liệu bằng cây quyết định đề xây dựng hệ chân đoán bệnh đái thảo đường

- Về thực hành: Địa bản tỉnh Quảng Trị, khảo sát các bệnh nhân tuổi từ 30 đến 65 nhập viện điều trị bệnh đái tháo đường tại bệnh viện đa khoa tỉnh Quảng Trị, thời

gian khảo sát một năm từ tháng 12/2016 - 12/2017 4 Phương pháp nghiên cứu

- Phương pháp nghiên cứu lÿ thuyết: Tổng hợp, phân tích các công trình nghiên cứu liên quan đến logie mờ, hệ hỗ trợ quyết định; hồ sơ bệnh án, hướng dẫn

chân đoán và điều trị bệnh đái tháo đường của Bộ y tế Lựa chọn các kỹ thuật ứng dụng cho bài toán thực tế

- Phương pháp kế thừa: các thông tin và các số liệu thống kê đã được thu thập; - Phương pháp chuyên gia: Hỏi ý kiến chuyên gia về các lĩnh vực chuyên

môn: Y tế, giáo dục, khoa học môi trường,

- Phương pháp nghiên cứu thực tiễn: tìm hiểu kết quả khám và chữa bệnh của

Trang 13

- Phương pháp tổng hợp thu thập thông tin, phân tích thông tin: xác định cấu trúc và tính chất của thông tin, để tìm ra phương pháp thu thập, xử lý số liệu thích hợp

5 Ý nghĩa khoa học và thục tiễn của luận văn

- Biết các yếu tố cơ bản của logic mo va tng dung

- Hiểu được phương pháp chẩn đoán bệnh đái tháo đường

- Ứng dụng được lý thuyết logic mờ trong CNTT vào hệ hỗ trợ chẩn đoán bệnh đái thảo đường

- Luận văn mang tính nhân văn và xã hội

6 Bố cục luận văn

Nội dung chính của luận văn gồm 3 chương:

Chương 1 Cơ sở lý thuyết về tập mờ và cây quyết định

Nội dung của Chương này chủ yếu giới thiệu cơ sở lý thuyết vẻ tập mờ, biến ngôn ngữ, quan hệ mờ, cây quyết định và cây quyết định mờ

Chương 2 Logic mờ và lập luận mờ

Nội dung của Chương 2 trình bảy tổng quan về Logie mờ, các phương pháp

lập luận xấp xỉ, lập luận mờ và hệ mờ tổng quát

Chương 3 Xây dựng hệ dự đoán bệnh đái tháo đường

Trang 14

CHƯƠNG 1 CƠ SỞ LÝ THUYÉT VẺ TẬP MỜ VÀ CÂY QUYÉT ĐỊNH

Logie mờ được giáo sư L ⁄4.Zadeh công bố lần đầu tiên tại Mỹ vào năm 1965 Ứng dụng đầu tiên của logic mờ vào công nghiệp được thực hiện ở Châu Âu, khoảng sau năm 1970 Tại trường Queen Mary ở Luân Đôn — Anh, Ebrahim Mamdani dùng logie mờ để điều khiển một máy hơi nước mà trước đây ông ấy không thể điều khiến được bằng các kỹ thuật cổ điển Ở Đức, Hans Zimmermann dùng logie mờ cho các hệ ra quyết định và liên tiếp sau đó, logic mờ được áp dụng

vào các lĩnh vực khác nhau Kể từ năm 1980, logic mo dat duoc nhiéu thanh công

trong các ứng dụng ra quyết định và phân tích đữ liệu ở Châu Âu Nhiều kỹ thuật logic mờ cao cấp được nghiên cứu và phát triển trong lĩnh vực này

Các công ty của Nhật bắt đầu dùng logic mờ vào kỹ thuật điều khiển từ năm 1980 Nó được ứng dụng trong nhà máy xử lý nước cua Fuji Electric vào năm 1983, hệ thống xe điện ngầm của Hitachi vào năm 1987 Những thành công đầu tiên đã tao ra nhiều quan tâm ở Nhật Có nhiều lý đo để giải thích tại sao logic mờ được ưa chuộng Thứ nhất, logie mờ cho phép tạo nhanh các bản mẫu rồi tiến đến việc tối ưu Thứ hai, các hệ dùng logie mờ đơn giản và dễ hiểu Logie mờ cung cấp cho họ

một phương tiện rất minh bạch để thiết kế hệ thống Do đó, logie mờ được dùng

nhiều trong các ứng dụng thuộc lĩnh vực điều khiển thông minh hay xử lý dữ liệu Ngoài ra, logic mờ cũng được dùng để tối ưu nhiều quá trình hóa học và sinh học

Từ những thành công tại Nhật Bản, Mỹ và các nước Châu Âu đã bắt đầu quan tâm đến logic mờ và ứng đụng chúng trong các lĩnh vực điều khiển tự động, công nghiệp dân dụng và cũng từ đó logie mờ đã trở thành một kỹ thuật thiết kế “chuẩn” và được chấp nhận rộng rãi trong cộng đồng

1.1 LY THUYET TAP MO

Y tưởng nổi bật của khái niệm tập mờ của Zadeh là từ những khái niệm trou

tượng về ngữ nghĩa của thông tin mờ, không chắc chắn như ứrẻ, nhanh, cao-thấp,

Trang 15

1.1.1 Tập kinh điển

Khái niệm tập hợp được hình thành trên nên tảng lôgic và được định nghĩa

như là sự sắp xếp chung các đối tượng có cùng tính chất, được gọi là phần tử của tập hợp đó

Cho một tập hợp 41, một phần tử x thuộc A duoc ký hiệu: x € 44 Thông thường ta dùng hai cách để biểu diễn tập hợp kinh điển, đó là: Liệt kê các phần tử của tập hợp, chăng han: tap AJ = {Trang, den, xanh, do, tim, vang}

Biểu diễn tập hợp thông qua tính chất tổng quát của các phần tử, chẳng hạn:

tập các số thực (R), Tập các số tự nhiên (N)

Để biểu diễn một tập hợp 4 trên tập nên X, ta dùng hàm thuộc /„(*), voi:

isi {; khixEA La(x) chinhdén mét trong 2 gid trj"1"

a Okhix€A — hodc"0"

Ký hiệu A = {x € X |x thảo măn một số tinh chdt ndo do} Ta noi: tap A

duoc dinh nghia trén nén tập X Vi du 1.1 Tập A = {x6 X|-5<x<5} A ta(X) We -5 5

Hình 1.1 Ham thuéc j4(x) cia tập kinh điền 4

1.1.2 Dinh nghia tap mo

Các đập mờ hay tập hợp mờ (Ƒuzzy se?) là một mở rộng của lý thuyết tập hợp cồ điển và được dùng trong iôgie mờ Trong lý thuyết tập hợp cô điển, quan hệ thành viên của các phần tử trong một tập hợp được đánh giá theo kiêu nhị phân theo

một điều kiện rõ ràng - một phan tử hoặc thuộc hoặc không thuộc về tập hợp

Trang 16

Tap hop mo la tập hợp mà mỗi thành phan là một bộ số (x.¿Œ)) Như vậy, ta

nói 44 là tập mờ nếu 4 có biểu điễn: 4 = {(, (3) | x € X}

A là tập mờ trên không gian nền X nếu 44 được xác định bởi hàm:

nạ:X — [0,1]

Trong đó:

X:là tập nên hay được gọi là tập vũ trụ của tập mờ 4;

La là hàm thuộc (membership function);

Hứa(#) là độ thuộc của x vào tập mờ 4

Các tập mờ được coi là một mở rộng của lý thuyết tập hợp cô điển là vì, với một universe (Không gian tham chiếu hay không gian nền) nhất định, một hàm

thuộc có thể giữ vai trò của một hàm đặc trưng (indicator function) anh xa mỗi phan tử tới một giá trị 0 hoặc 1 như trong khái niệm cổ điển

Trong khái niệm tập hợp kinh điển hàm thuộc u(*) của tập 41, chỉ có một

trong hai giá trị là "1" nếu x €4 hoặc "0" néu x € A

Ví đụ 1.2 Cách biêu diễn hàm thuộc như trên sẽ không phù hợp với những tập được mô tả "mờ" như tập B gồm các số thực gần bằng 5:

B={x€CR|x5}

Khi đó ta không thể khẳng định chắc chắn số 4 có thuộc B hay không? mà chỉ có thể nói nó thuộc B bao nhiêu phần trăm Để trả lời được câu hỏi này, ta phải coi

hàm thuộc /ig() có giá trị trong khoảng từ 0 đến 1 tức là: 0 < g(x) <1

` ra + = ˆ * =

¥

Trang 17

Như vậy về phương diện giải tích mỗi tập mờ ứng với một hàm số và hàm số có đồ thị của nó Những tập mờ thường gặp đồ thị của hàm thuộc (membership function) có hình dạng là hình tam giác hoặc hình thang mà người ta thường gọi vắn tắt là “tập mờ hình thang” hoặc “tập mờ hình tam giác” như hình vẽ dưới đây: hot †amperatuira ——>=- cold warm 1 ũ hy Hình 1.3 Ba tập mờ Cold (lạnh), Warm (ấm) và Hot (nóng) dạng hình thang

Theo hình vẽ này tại điểm b ¡ trên trục nhiệt độ (temperature) chiếu lên đầu

tiên ta thấy cắt tập mờ warm tại điểm mà ta có thể thấy được là “hơi Ấm”, đồng

thời cắt tập mờ cold tại điểm mà ta thấy là “tương đối lạnh” Tóm lại ở nhiệt độ È; có thể xem là “hơi ấm” hoặc “tương đối lạnh”

Ví đụ 1.3 Một tập mờ 4 với các số tự nhiên nhỏ hơn 5 được mô tả bằng hàm thuộc /#x có đồ thị như sau: + Hal) Hình 1.4 Đồ thị hàm thuộc của tập mờ 4 với các số tự nhiên nhỏ hơn 5 Ta có tập mờ 4 = {(1,1), (2,1), (3,0.95), (4,0.17)} e_ Số tự nhiên 1 va 2 có độ phụ thuộc là l;

Trang 18

1.1.3 Các thông số đặc trưng cho tập mờ

Các thông số đặc trưng cho tập mờ là độ cao, miễn xác định và miễn tin cậy 1 1 1 t Miểntincậy | ' 1 i ' Miễn xác định :

Hình 1.5 Độ cao, miền xác định, miền tin cậy của tập mờ

- Độ cao của một tập mờ Ö (Định nghĩa trên co so M), ky hiéu 1a H(B), la can

trên đúng (giá trị lớn nhất) của hàm thuộc /„ trên Ä⁄, có nghĩa:

H(B) = sup {ug(x)| x €M}

Một tập mờ ÖB được gọi là tập mờ chuẩn nếu (PB) = 1 Ngược lại, tập mờ được gọi là đưới chuẩn (H(B) < 1)

- Miền xác định (Giá) của tập mờ Ö (Định nghĩa trên cơ sở Ä⁄), ký hiệu là S(B), la tap con cua M có giá trị hàm thuộc khác không, có nghĩa:

SŒ)= {x€A|nus(3) > 0}

- Miễn tin cậy của tập mờ ? (định nghĩa trên cơ sở Ä⁄), ký hiệu là 7(Đ), là tập

con của Ä⁄ có giá trị hàm thuộc bằng 1:

T(B) = tx€Mms(®) = l)

1.1.4 Biến ngôn ngữ

Biến ngôn ngữ là phần chủ đạo trong các hệ thống đùng logic mờ Các biến ngôn ngữ được xác định thông qua các tập giá trị mờ của nó

Ví dụ các tập mờ mô tả biến nhiệt độ là “rất nóng”, “hơi nóng”, “trung bình”,

Trang 19

Trung, - Độ s7 Rất lanh Hơi lanh bình Hơi Rất nông nắng Hình 1.6 Biến ngôn ngữ

Các luật trong hệ logie mờ mô tả tri thức của hệ Chúng dùng các biến ngôn ngữ như là từ vựng để mô tả các tầng điều khiên trong hệ Việc giải thích các luật mờ cũng là việc trình bày cách tính các khái niệm ngôn ngữ

Khái niệm biến ngôn ngữ [4] [ 1]:

Một biến ngôn ngữ được xác định bởi bộ năm (X, 7(X), U, R, Mí), trong do:

- X 1a tên biến

- TŒ) là tập các giá trị ngôn ngữ của biến X

- U là không gian tham chiếu của biến cơ sở ø, mỗi giá trị ngôn ngữ xem như

là một biến mờ trên L7 kết hợp với biến cơ sở 0 (các giá trị mà biến X có thể nhận)

- R la tập luật cú pháp sinh các giá trị ngôn ngữ của 7Œ)

- Ä⁄Z là tập các luật ngữ nghĩa gán mỗi giá trị ngôn ngữ trong 7(Y) với một tập mờ trên Ù

Ví đụ 1.4 Biến ngôn ngữ: “tốc độ”

T\ (tốc độ)={rất chậm, hơi chậm, trung bình, hơi nhanh, rất nhanh}

U= [0, 150] (km/h)

Ñ phát sinh tên các phần tử trong 7(tốc độ) là hoàn toàn trực giác Luật ngữ ngĩa M⁄ được định nghĩa là :

M (rat cham) = tap mo đối với tốc độ là 0 km/h và có hàm thuộc là lanh M (hoi cham) = tập mờ đối với tốc độ là 20 km/h và có hàm thudc 1a fo; chan

Trang 20

AM (hơi nhanh) = tập mờ đối với tốc độ là 60 km/h và có hàm thuộc là W hoi nhanh’

M (rat nhanh) = tap mo đối với tốc độ là 80 km/h và có hàm thuộc là ˆưất nhanh:

Từ định nghĩa trên chúng ta có thê nói rằng biến ngôn ngữ là biến có thể nhận

giá trị là các tập mờ trên một vũ trụ nào đó Để biểu diễn sự nhấn mạnh một biến

ngôn ngữ, người ta hay dùng các từ như rất, hơi, ít, nhiều, gọi là các gia tử 1.1.5 Các phép tính trên tập mờ

Trên tập mờ thường sử dụng các phép tính sau [4], [12] : Phép hợp mờ (Umion)

Cho A, Z là hai tập mờ xác định trên tập vũ trụ X và có các hàm thuộc lần lượt là “4, Mg Hop của hai tập mờ A va B là một tập mờ, ký hiệu 1U, với hàm thuộc up được định nghĩa như sau:

Mạ ¿s(x) = max{ #¿(x),ta(x)},Vx €X: HACK) flysCX)

Hinh 1.7 Hop cua hai tap mo

Phép giao mo (Intersection)

Cho 41, Z là hai tập mờ xác định trên tập vũ trụ Y và có các hàm thuộc lần luợt là „, ; GIao của hai tap mo A va B là một tập mờ, ký hiéu ANB, voi ham thuộc

Hạn g được định nghĩa như sau: #!aa e(x) = min{ wạ(x),wp(x)},Vx €X-

Last}

¿Aa(*} Hal x)

Trang 21

Pháp lấy phần bù của một tập mờ:

Cho 44 là tập mờ xác định trên tập vũ trụ X, có hàm thuộc /„ Phép lay bù của tap A la mot tap mo, ký hiệu ~⁄4, với hàm thuộc được định nghĩa như sau: tia = 1- ua Vx EX a tuc(xì Hình 1.9 Bù của một tập mờ

Tích đại số của hai tập mờ

Cho 41, Z là hai tập mờ xác định trên tập vũ trụ X và có các hàm thuộc lần lượt

là g(x), up (x) Tich đại số của hai tập mờ 44 và Ö là một tập mờ, ký hiéu A.B, voi

hàm thuộc được định nghĩa như sau:

HABG) = MAG):Mn(), VXCX

Tổng đại số của hai tập mờ

Cho A, B la hai tap mo xác định trên tập vũ trụ X và có các hàm thuộc lần lượt

là grạ, tg Tong dai số của hai tập mờ 44 và Ö là một tập mờ, ký hiệu 4 ® B, voi ham

thuộc được định nghĩa như sau:

HẠ $ p(X) = Hạ(X) + Ug (X) — Hạ(%) ng(x), vx EX

Tích Descartes của hai tập mờ

Trang 22

Phép T-norm

Định nghĩa : Một hàm 2 biến 7: [0,1]x[0,1] > [0,1] duoc goi la phép t-norm

nếu thỏa mãn các tính chất sau voi Vx, ¥, y, z € [0,1]:

1) Tinh chất điều kiện biên : 7(z, 1) = x (Tén tai phan tử đơn vi); 2) Tính chất giao hoán : T(x, y) = Tv, x);

3) Tính chất đơn điệu :x < x' = 7(,y) < T(x’, y);

4) Tinh chat két hop : T(T(x, y),z) = T(x, Ty 2)

Dé dàng kiểm chứng phép min và phép tích đại số là các phép t-norm, chúng

được ký hiệu là 7„ và 7; Phép t-norm 7, được gọi là phép giao mờ chuẩn

Một số phép 1-norm hay được sử dụng :

- Phép giao mờ chuẩn: T„= min {x, y} ; - Phép tích đại số: x.y ; - Phép hiệu giới nội: T(x, y) = max{0, x+y- 1} ; xnếu y= 1, - Phép giao chặt T(x, y)= 4 ynêu x= 1, 0 nếu x# 1 và y# l Phép T-conorm

Một phép tính ““đối ngẫu'' với phép t-norm được gọi là phép t-conorm và

được định nghĩa như sau :

Định nghĩa: Một hàm 2 bién S: [0,1]x[0,1] [0.1] được gọi là phép t-conorm,

hay còn gọi là Š-norm nếu thỏa mãn các tính chất sau với Vx, x, ÿ, z € [0,1]: 1) Tính chất giới nội : Š(x, 0) = x (Tổn tại phan tử đơn vị) ;

2) Tính chất giao hoán : S(x, y) = S(y, x);

3) Tính chất đơn điệu :x < x` => S(x,y) < S(x’, y);

Trang 23

Như vậy, chỉ có tính chất 1) làm nên sự khác biệt giữa hai họ phép tính T-norm va S-norm Một số phép 1-norm hay được sử dụng : - Si y) — min{X, }} ; - 9Œ, y) = min{l, x + y} ; - Sp(X, ÿ)=x+y- X.Vy; xnếu y= 0, -Ÿ@œ.y)= 4 ynếux=0, 1 nếu x # 0 và y # 0

Về mặt ý nghĩa logic, phép 7-norm được sử dụng để mở rộng ngữ nghĩa của phép AND, còn phép S-norm để mở rộng ngữ nghĩa của phép OR

1.1.6 Quan hệ mờ

Khái niệm về quan hệ mờ:

Cho X và Ƒ là hai không gian nên, # được gọi là một quan hệ mờ trên Xx Ƒ nếu # là một tập mờ trên X x Ÿ, tức là có một hàm thuộc :

Mr: Xx Y > [0, 1], 6 day, up(x, y) = RŒ, y) là độ thuộc của cặp (x, y) vào Ä Trong trường hợp # là quan hệ rời rac thì nó có thể biểu thị bằng một bảng với tên hàng là tên các phần tử trong X, còn tên cột là tên các phân tử trong Y Nói cách

khác, R được biểu diễn bởi ma trận với các giá trị chỉ mức độ quan hệ của các cặp

@ y)

Các phép tính trên quan hệ mờ :

Vì quan hệ mờ cũng là tập mờ nên các phép tính trên tập mờ cũng là phép tính trên quan hệ mờ Tuy nhiên, trên quan hệ mờ có những phép tính đặc thù riêng mà trên tập mờ nói chung không có, chẳng hạn :

e Phép đảo của quan hệ mờ R(X,Y) la R''(Y, X) cho bởi: R'(y, x) = RO, y);

Trang 24

Cho R; là quan hệ mờ trên X x Y và R; là quan hệ mờ trên Y x Z, thi phép hop

thành R¡ „Ra là một quan hệ mờ trên X x Z

Có 3 phép hợp thành thông dụng :

1 - Hgp thanh max — min (max-min composition) :

/4gtog2(X.Z) = maxy( mìn (/œ¡ (X,Y), /¿ (Y.Z)} V(X.z) 6 XxZ

2 - Hợp thành max — prod (max-product composition) :

/1giog2(X.Z) —= maxy{ Cig, (X.Y) © Mes (y.Z)} V(X.Z) 6 XxZ

2

3 - Hợp thành max — * được xác định bởi toán tử *: [0,1] > [0,1] /1mi°g3(X.2Z) = maxy{ (gì (X,Y) * gà (V,Z)} V(X,Z) 6 XxZ

1.2 CÂY QUYẾT ĐỊNH

Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp

và dự báo Các đối tượng đữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với

người sử dụng

1.2.1 Định nghĩa cây quyết định

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật, hiện tượng tới các kết luận về giá trị mục tiêu của sự vật, hiện tượng Mỗi nút trong (internal

nođe) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị

cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho

trước các giá trị dự đoán của các biến được biểu điễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định [6] [7] [8] [14]

Vi đụ 1.5 Để xác định mức lương cao hay thấp ứng với một độ tuổi nảo đó,

Trang 25

Bang 1.1 Bảng dữ liệu phân lớp mức lương Lương ` <30 triệu >30 triệu | <50 triệu | > 50 triệu Tuôi <35 Thấp Cao >35 Thấp Cao Từ đó ta xây dựng cây quyết định phân lớp mức lương như sau: Tuổi? aa 35 x^ ™ Luong Luong / 30 N Z \

Thap Cao Thap Cao

Hình 1.10 Cây quyết định phân lớp mức lương

1.2.2 Ưu điểm của cây quyết định

So với các phương pháp khai phá dữ liệu khác, cây quyết định có một số ưu điểm sau:

- Cây quyết định tương đối dễ hiểu;

- Đòi hỏi mức tiền xử lý dữ liệu đơn giản;

- Có thể xử lý với cả các dữ liệu rời rạc và liên tục;

Trang 26

1.2.3 Vấn đề xây dựng cây quyết định

Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, EC4.5, C5.0, Nhưng nói chung quá trình xây dựng cây quyết định đều được chia ra làm 3 giai đoạn cơ bản:

- Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp;

- Cat tỉa cây: Là việc làm dùng đề tối ưu hoá cây Cắt tỉa cây chính là việc trộn

một cây con vào trong một nút lá;

- Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào

1.2.4 Rút ra các luật từ cây quyết định

Có thê chuyển đổi qua lại giữa mô hình cây quyết định và mô hình dạng luật (IF THEN ) Hai m6 hình này là tương đương nhau

Vidu 1.6 Tu cay quyét định ở Hình 1.10 ta có thể rút ra được các luật sau: IF (Tuổi <= 35) AND (Lương <= 30) THEN mức lương = Thấp;

IF (Tuổi <= 35) AND (Luong > 30) THEN mitc luong = Cao;

IF (Tuổi > 35) AND (Luong <= 50 ) THEN mức lương = Thấp:

IF (Tuéi > 35) AND (Luong > 50) THEN mức lương = Cao

1.2.5 Thuật toán xây dựng cây quyết định C4.5

Thuật toán C4.5 (thuật toán cải tiến của ID3) la một thuật toán phân lớp tạo ra

cây quyết định được phát triển bởi J Ross Quinlan vào năm 1996 Cây quyết định

được tạo ra bởi thuật toán C4.5 có đặc điểm đơn giản, dễ sử dụng, dễ hiểu bởi các luật tạo ra ở nút lá của cây có thể biểu diễn dưới dang câu lệnh If- then Chinh vi

thé, trong luận văn này dùng thuật toán C4.5 để xây dựng cây quyết định phân lớp

Trang 27

Thuật toán xây dựng cây quyết định C4.5

Input: Tập dữ liệu huấn luyện (tập các thuộc tính);

Output: Cay quyét dinh phân lớp dữ liệu

Mô tả thuật toán dưới dạng giả mã như sau: Function C45 builder(tập 4, tập thuộc tính)

{ if (moi record trong tập A đều nằm trong cùng một lớp)

{ refurn một nút lá được gan nhãn bởi lớp đó;} else {ÿ đập thuộc tính là rỗng ) { return nút lá được gán nhãn bởi tuyển của tat cả các lớp trong tập 1: } else

{ Chon một thuộc fính P, lấy nó làm gốc cho cây hiện tại;

Xóa P ra khỏi tập thuộc tính, For each (gia tri V cua P)

{Tạo một nhánh của cây gan nhan V; Đặt vào phân vùng V cac vi du trong tap_A co

giá trị V tại thuộc tính P;

Gọi C45_builder (phân vùng V, tập thuộc tính), gắn kết quả vào nhánh V; }

Trang 28

1.3 CÂY QUYÉT ĐỊNH MỜ

Điểm không thuận lợi của cây quyết định là tính không ổn định của nó Cây quyết định được thừa nhận như một cách phân lớp dễ thay đổi nhất về khía cạnh phụ thuộc vào đữ liệu huấn luyện Cấu trúc của cây quyết định có thể khác hoàn toàn nếu có thay đổi nào đó trong tập đữ liệu huấn luyện Đề khắc phục vấn để này một số nhà nghiên cứu đã đưa ra cây quyết định mờ bằng cách sử dụng lý thuyết tập

mờ để diễn tả mức độ quan hệ của các giá trị thuộc tính, điều này có thể phân biệt

chính xác sự phù hợp của các quan hệ phụ thuộc giữa các ví dụ huấn luyện khác

nhau và mọi giá trị của thuộc tính

1.3.1 Định nghĩa cây quyết định mờ

Cây quyết định mờ là sự mở rộng của cây quyết định cổ điển và là một phương pháp hiệu quả để rút ra tri thức trong các bài tốn phân loại khơng chắc chăn Nó áp dụng lý thuyết tập mờ đề biêu diễn tập dữ liệu và kết hợp trong phát triển cây và tỉa cành để xác định cấu trúc của cây [6]

1.3.2 Dữ liệu mẫu với biểu diễn mờ

Nhìn chung, dữ liệu tổn tại hai loại thuộc tính khác nhau là rời rạc và liên tục

Nhiều thuật toán đòi hỏi đữ liệu với các giá trị rời rạc Không đễ dàng gì để thay

thế một miễn liên tục với một miễn rời rạc Điều này đòi hỏi sự phân vùng và

gộp nhóm Và cũng rất khó để định nghĩa ranh giới của các thuộc tính liên tục Ví dụ, làm thế nào để định nghĩa đoạn tắc đường là dài hay ngắn? Có thể cho rằng đoạn tắc đường 3km là đài và 2,9 km là ngắn? Có thê nói rằng trời lạnh với

nhiệt độ là 9C, trời ấm áp với nhiệt độ là 102C? Do vậy, một số nhà nghiên cứu đã đưa khái niệm mờ vảo thuật toán ID3, thay thế dữ liệu mẫu với biểu diễn

mờ và hình thành nên thuật toán Fuzzy ID3

Ví đụ 1.6 việc một người quyết định tự lái xe ôtô (Car Driving) hay dùng

phương tiện công cộng khác để đi làm phụ thuộc vào thời tiết như nhiệt độ

Trang 29

Bảng 1.2 Dữ liệu mẫu về việc tự lái xe đi làm (Car Driving)

Ngày Nhiệt độ Gió Tắc đường Tự lái xe

(Day) (Tem) (Wmd) (Traffic) (CD)

DI Nóng Yếu Dài Không D2 Nóng Mạnh Dài Không D3 Nóng Yếu Dài Có D4 Am áp Yếu Dài Có DS Mat mé Yếu Ngắn Có D6 Mat mé Manh Ngắn Không D7 Mat mé Manh Ngắn Có D8 Am áp Yếu Dài Không D9 Mat mé Yếu Ngắn Có D10 Am ap Yếu Ngắn Có DII Am áp Mạnh Ngắn Có D12 Am áp Mạnh Dài Có D13 Nóng Yếu Ngắn Có D14 Am áp Mạnh Dài Không

Trang 30

ụ 2 Mn ũ 0 1 2 3 4 5 6 FT 8 9 1011 12 15 14 15 16 17 18 18 20 KM

Hình 1.11 Hình biểu diễn hàm thuộc của thuộc tính Tắc đường (MF)

Với thuộc tính N?hiệt độ là Mát mẻ, Am áp hay Nóng, ta có thể định nghĩa các

hàm thuộc tương ứng (,, „hay „) như sau: - | 1 x<0 /I„(xJ)=41—x/15 0<=x<=lŠ l0 x>15 0 x<5 x/15-1/3 $<=—x<20 Hy (X) = 4 1 20 <= x < 30 —x/5+7 30 <=x<3S | 0 x»3 | 0 x<25 My (x) =) x/10—2.5 25<=x<=35 | 1 x>35

Với thuộc tính G/ó là Yếu hay Manh ta co thé dinh nghĩa các hàm thuộc tương

ứng („hay „) như sau:

1 x<3

(8) = 25-12 3«<=x«<=ðŠ

Trang 31

\ 0 đ<3 H,()=1x/5-0.6 3<=x<=8 mm» x>8

Ta thu duoc biéu dién mo cua tap mẫu như bảng dưới đây (Ký hiệu: MF-

Membership Function la ham thuéc, N: Khong, Y: Co):

Bang 1.3 Biéu diễn mờ của tập mẫu

Day | Tem | MF (h) | MF (m) MF(c) | Wind | ME (w) | ME (st) | Traffic | MF (1) | MF (sh) |cp DI | 32 |0.7 0.6 0 3 1 0 T5 0.25) | 0.25 D2 |33 |0§ 04 0 45 0.13 03 68 018 | 0.37 N D3 | 30 «| 05 1 0 35 1 0 83 0633 | 0.12 TY D+ | 24 |0 1 0 1.5 l 0 9 04 0 Y DS |ä 0 0 1 25 1 0 38 0 0.87 Y D6 |1 0 0 1 5 0 04 45 0 08 N D |§ |0 02 1 4 0.5 02 37 |0 1 Y D |12 |0 047 1 3 l 0 67 017 0.38 N pe |-5 |0 0 1 2 1 0 3$ |0 092 |Y Did [13 |0 0.47 1 2.5 1 0 4i Ũ 0.82 Y bu {is |0 0.67 0 6 0 0.3 23 Jo 1 Y DỊ) |22 |0 1 a 5 0 04 73 |03 | 0.28 Y DI3 | 32) |07 0.6 0 2.5 l ũ 16 0 1 Y D4 |25 |0 1 0 4 0.25 03 103 [053 |0 N Sum 3 Tal 6 9 11 109 [T81

Như ví dụ ở trên, ta đã phân vùng tập mẫu thành những khoảng khác nhau Sự phân vùng này là đầy đủ (mỗi giá trị trong miễn là thuộc vào ít nhất một tập con) vả là không nhất quán (một giá trị trong miền có thê tìm thấy trong nhiều hơn một tập con)

thuộc Đài (MF()) là 0, còn giá trị của hàm thuộc Ngắn (MF(sh)) là 1

Trang 32

Áp dụng thuật toán thuật toán Fuzzy ID3 với Entropy mờ và độ đo thông

tin mo, ta thu được cây như sau: Tắc đường (T - 1) va Ngắn ME | TEM | wixn |T-1 |CD ve | Tex | WIND |T-1J CD 3ã 33 3 7.5 N 33 3 7 x 18 33 45 6.8 N 45 | 68 | 8 0.33 20 2.5 8.3 35 | 83 |T 0 4 24 15 3 25 | 3.8 |Ÿ 0.17 12 3 6.7 N 3 4.2 | 0.23 35 7 \ a7 | ¥ 053 | 25 1 10.8 | N 3 6.7 | X 3 3.5 | ¥ 3.5 hi | ¥ 1 lỗ 6 3ã | Ý 0.38 | 22 3 7.3 | ¥ 1 2 5 2.6 | ¥

Hình 1.12 Quá trình phát triển cây của thuật toan Fuzzy ID3

1.4 TIEU KET CHUONG 1

Chuong 1 da trinh bày các nội đung chính về tập mờ, biến ngôn ngữ, quan hệ mờ làm cơ sở cho lập luận mờ ở chương 2 và trình bày thêm lý thuyết về cây quyết định, cây quyết định mờ và thuật toán xây dựng cây quyết định C4.5 để làm cơ sở cho việc xây dựng các tập luật mờ từ đữ liệu huấn luyện trong chương 3

Chương tiếp theo sẽ trình bày tổng quan về logie mờ, phương pháp lập luận xấp xi trên tập mờ và phép suy diễn mờ, đó là cơ sở để áp dụng vào bài toán chẩn

đoán bệnh đái tháo đường trong chương 3

Trang 33

CHƯƠNG 2 LOGIC MỜ VÀ LẬP LUẬN MỜ

Logic mé (Fuzzy logic) duoc phat triển từ lý thuyết tập mờ để thực hiện lập luận một cách xấp xi thay vì lập luận chính xác theo logic vị từ cổ điển Người ta hay nhằm lẫn mức độ đúng với xác suất Tuy nhiên, hai khái niệm này khác hẳn

nhau; độ đúng din của logic mo biểu diễn độ thuộc với các tập được định nghĩa

không rõ ràng, chứ không phải khả năng xảy ra một biến cố hay điều kiện nào đó Logie mờ cho phép độ thuộc có giá trị trong khoảng [0, 1], va ở hình thức ngôn từ,

now, A,

các khái niệm không chính xác như “hơi hơi”, ‘gan nh", "kha la" va "rat"

Suy luận xấp xi hay còn gọi là suy diễn mờ là quá trình suy ra những kết luận

dưới dạng các mệnh để mờ trong điều kiện các quy tắc, các luật, các dữ liệu đầu vào

không hoàn toàn xác định

2.1 LOGIC MỜ

2.1 1 Mệnh đề mờ

Trong logic cổ điển (logic vi tir cấp mội), một mệnh đề phan tu P(x) là một

phát biểu có dạng “x là P” trong đó x là mét déi trong trong mét vi tru U nao dé thoả tính chất P Ví du “x la sé chan” thi U la tap cdc sé nguyén va P là tính chất

chia hét cho 2 Nhu vậy, ta có thể đồng nhất một mệnh đề phân tử “x là P” với một

tap (16) A = {xeU | PQ}

Tw do, ta cd: P(x) = A(x);

Trong đó 2 là hàm đặc trưng của tập A (xed & A(x) = 1) Gia tri chan ly

cua P(x) chi nhaén m6t trong hai gia tri 1 va 0 (true va false) trong tng voi su kién x thudc A hoac khéng

Trong trường hợp P là một tính chất mờ chăng hạn như “số lớn” thì ta sẽ có một mệnh để logic mờ phần tử Khi đó tập hợp các phần tử trong vũ trụ Ù thoả P là một tập mờ Ö có hàm thuộc /„ sao cho: P(+) = uw, (x)

Lic nay P(x) c6 thê nhận các giá trị tuỳ ý trong [0,1] Và ta thấy có thể đồng

Trang 34

Trong logic mờ, người ta thường dùng các phát biểu dưới dạng mệnh đề có

cấu trúc [4], [12]:

NÉU (mệnh đẻ điều kiện) THÌ (mệnh đề kết luận)

(hay IF (Clause) THEN (clause)) Ta ky hiệu: p—>đ (Từ p suy ra q)

Vi du 2.1 Cho ménh dé mo sau: NEU nhiét d6 cao THI dé am thap

- Các biến ở đây sẽ là: “nhiệt độ”, “độ Âm”;

- Các giá trị hay tập mờ là: “cao”, “thấp”

Mệnh để trên là ví dụ đơn giản về điều khiển mờ, nó cho phép từ một giá trị đầu vào x„ (hoặc độ thuộc „(x„) của x„ trên tập mờ 44) xác định được hệ số thỏa

mãn mệnh đề kết luận q của giá trị đầu ra y

NEU x =A THI y=B tire 1a ADB 1a mot giá trị mờ 2.1.2 Tập luật mờ

Tập luật mờ là sự kết hợp của nhiều mệnh dé mo có dạng NEU - THI nhu da nói ở trên

Cho x\, 2, ., Xp la các biến vào của hệ thống, yla bién ra Cac tập 4lj, Bị (với

¡=1,2, ,m và j = I,2, , n) là các tập mờ trong không gian nền tương ứng của

các biến vào và biến ra, các Rị là các suy diễn mờ thì ta có tập luật mờ [12]: R, : NEU x, 1a.Ay, va va Xp 14 Ay, THI y la By;

Ry: NEU x, la Ay, va va Xp 14 Ayo THI y la Bo; R, : NEU x la Ay, va va Xp 14 Amn THI y 1a By

Bài toán : Cho : NEU x; 1a e;» va va Xm 1d ey« Tinh: Gia trị y là uz

Trang 35

2.1.3 Phép toán kéo theo mờ

Các phép toán kéo theo có vai trò quan trong trong logic mo Ching tao nên

các luật mờ để thực hiện các phép suy diễn trong tat cả các hệ mờ Do một mệnh đề

mờ tương ứng với một tập mờ nên ta có thể đùng hàm thuộc thay cho các mệnh đề:

u(*) => HY)

Sau đây là một số phép kéo theo quan trọng được sử dụng phổ biến: - Phép kéo theo Dienes — Rescher:

wp(*, y) — max(Ì- #„(X), ;@'))

- Phép kéo theo Lukasiewicz :

Mu, y) — min(1, 1- 2, (%)+ 4, ())

- Phép kéo theo Zadeh:

z(x, y) — max(1- „ (3), min( 4, (x), #,(¥))): (a) hoặc

uađ y) — max(1-„() #,@).;0)).— ()

- Phép kéo theo Goedel:

MA 9)= JL nếu „,@)< “,Ó),

;() nếu /„(X)> ;()

- Kéo theo Mamdani:

Hux, y) = min( 4, (x), H,()); (a) hoặc

HX, Y) = tg) Hs) (b)

2.2 PHUONG PHAP LAP LUAN XAP Xi DUA TREN TAP MO

Trang 36

Trong công trình nghiên cứu của mình, Zadeh đưa ra khái niệm sơ đồ lập luận xấp xỉ như sau [4] [12]:

Tiên đề 1: NÊU zvu của quả cà chua nào đó là đở THÌ quả cà chua đó là chín; Tiên đề 2: Màu quả cà chua Q 1a rat do;

Kết luận: Quả cà chua la rat chin

Chúng ta thấy sơ đồ này tương tự như luật Modus ponens trong logic cổ điền : tr A DB

Luật Modus Ponens hay Modus Tollen :

Thong thong, suy dién mo (suy ludn md) hay st dung luat Modus Ponen

hoặc Modus Tollens Trong logie cổ điển, Modus Ponens diễn đạt như sau:

Mệnh đề 1 (Luật hoặc tri thức) : PO;

Ménh dé 2 (sự kiện) : P ching ;

Kết luận : O dung

Tuong tu logic cé điển, trong logic mờ (swy điễn mờ hay suy luận mờ) cũng có

luật Modus Ponens như sau:

Giả thiết 1 (luật mờ) : Néu xlaA thì ylà Ð;

Giả thiết 1 (sự kiện mo) : xià A';

Kết luận : ylà?

Trong đó 4, B, 4', P' là các biến ngôn ngữ (có nghĩa là cdc tap mé) A va A' la các tập mờ trên không gian nền U, còn Ö và #' là các tập mờ trên không gian nên Ƒ”

Vĩ đ„ 2.2 Luật mờ : Nếu quả cà chua đỏ thi quả cà chua đó chín ;

Sự kiện mờ : Quả cà chua khá đỏ ;

Trang 37

Trong logic cé điển, Modus Tollens diễn đạt như sau:

Mệnh đề 1 (Uuật hoặc tri thức) : P—Q;

Mệnh đề 2 (sự kiện) : ¬Q đứng ;

Kết luận : ¬P đứng

Tương tự logic cỗ điển, trong logic mờ (suy điễn mờ hay suy luận mờ) luật

được diễn đạt như sau :

Giả thiết 1 (Luật mờ hoặc tri thức mò) : P-O;

Giả thiết 2 (Sự kiện mờ) : ¬Q khá đúng ;

Kết luận : ¬P khá đúng Ví đu 23 Luật mờ: Nếu quả cà chua đỏ thi quả cà chua đó chín ;

Sự kiện mờ : Quả cà chua không chín lắm ;

Kếtluận : Quả cà chua đó không đỏ lắm

Để ứng dụng suy điễn mờ (suy luận mờ) vào trong bài toán thực tế thì vấn để

mấu chốt cần thực hiện là xây dựng cơ chế lập luận xấp xi để có thể đưa ra kết luận

hay quyết định mờ

Công thức tính kết luận của luật Modus Ponens như sau: HV) = SUPT Hay), He) C)

Trong đó 7 là mot ham 7-norm và ® là quan hệ hai ngôi xác định bởi phép kéo theo Cách tính /„(x,y), chính là cách tính giá trị chân lý của phép kéo theo trình bày ở phần trước Như vậy tuỳ theo cách chọn cách tính luật kéo theo khác nhau mà ta có cách tính kết quả của luật Modus Ponens khác nhau

Trang 38

Áp suất nhận các gia tri trong V = {50, 55, 60, 65}

“ Ta có các tập mờ xác định bởi biến ngôn ngữ nhiệt độ và áp suất như sau: : 0 03 09 1 4A = “nhiệt độ cao” = —+——+——+— 30 35 40 45 “er #1 0 05 1, 1 B=“ap suat lon” = —+— 50 55 60 65

" Áp dụng luat kéo theo Mamdani tich ta c6 quan hé m6 sau (gid tri dong i, cot

J la gia tri ham thuéc của cặp nhiệt độ ï và áp suất 7 vào quan hệ) 0 0 0 0 30 0 0.15 0.3 0.3} 35 R=|0 0.45 0.9 0.9] 40 0 05 1 1 45 50 55 60 65 " Bây giờ, giả sử ta biết sự kiện “nhiệt độ là trung bình” và 06 1 08 01 —+—+—+— 4I' = “nhiệt độ trung bình” = 30 35 40 45 0 045 08 08 Áp dụng công thức (*) ta suy ra 8'=—+——+—+— pawns 8 © y 50 55 60 65 2.3 PHÉP SUY DIỄN MỜ

Phép suy diễn mờ dùng để kết hợp các luật mờ dạng NỀU - THÌ trong cơ sở

luật mờ thành một phép ánh xạ từ một tập mờ A' trong U đến một tap mo B' trong V C62 cach suy dién: suy diễn dựa trên toàn bộ luật và suy diễn dựa trên từng luật

Các cơ chế suy diễn thông dụng: - Cơ chế suy diễn tích số:

Cơ chế này sử dụng (¡) cách suy diễn dựa trên từng luật với phép hợp mờ, (ii) phép kéo theo tích số Mamdani, (ii) tích đại số cho tat cả toán tử /-orm va max

Trang 39

- Cơ chế suy diễn cực tiểu:

Cơ chế này sử dụng (¡) cách suy diễn dựa trên từng luật với phép hợp mờ, (ii) phép kéo theo cực tiểu Mamdani, (iii) mứn cho tất cả toán tt t-norm va max cho tat cả toán tu s-norm

- Cơ chế suy điên LuKasiewicz

Cơ chế này sử dụng () cách suy diễn dựa trên từng luật với phép giao mờ, (ii) phép kéo theo LuKasiewicz, (iii) min cho tất cả toán tử or

- Cơ chế suy diễn Zadeh

Cơ chế này sử dụng () cách suy diễn dựa trên từng luật với phép giao mờ, (ii) phép kéo theo Zadeh, (iii) min cho tất cả toán th t-norm

- Co ché suy dién Dienes Rescher

Cơ chế này sử dụng các phép toán như trong cơ chế suy diễn Zadeh ngoại trừ việc thay thế phép kéo theo Zadeh bằng phép kéo theo Dienes Rescher

2.4 HE MO

2.4.1 Cầu trúc và hoạt động của hệ mờ tông quát Một hệ mờ tiêu biểu có cấu trúc như hình vẽ [3]: Cơ sở tri thức Bộ tham số Cơ sở luật mô hình mờ Tham khảo luật mờ Vv

Trang 40

- Thành phân trung tâm của hệ mờ là cơ sở luật mờ (fuzzy rule base) Nó gồm các luật mờ If-Then biểu diễn tri thức của chuyên gia trong lĩnh vực nào đó Trong

trường hợp một hệ hỗ trợ chân đoán mờ cụ thể thì cơ sở luật mờ chính là tri thức và

kinh nghiệm của các chuyên gia trong việc chân đoán khi chưa áp đụng hệ mờ - Bộ tham số mô hình: quy định hình dạng hàm thuộc của giá trị ngôn ngữ

được dùng để biểu diễn biến mờ và các luật mờ Giá trị các tham số có thể được

đánh giá bằng kinh nghiệm của các chuyên gia con người hay là kết quả của quá

trình khai phá trị thức từ thực nghiệm Thông thường, co sở luật mờ và bộ tham số

được gọi chung là cơ sở fri thức

- Thành phần quan trọng kế tiếp là bộ suy diễn mờ (fuzzy inference engine)

Nhiệm vụ của bộ phận này là kết hợp các luật trong cơ sở luật mờ, áp dụng vào tập

mờ đầu vào theo các phương pháp suy diễn mờ đề xác định tập mờ đầu ra

- Dữ liệu đầu vào của hệ điều khiển mờ là các tín hiệu do các bộ phân cảm

biến môi trường cung cấp sau khi đã số hoá nên có tính chất rõ (khái niệm rõ ở đây có nghĩa là các tín hiệu đó không phải là các tập mờ, chứ không có nghĩa là các tín hiệu không có nhiễu) Vì vậy, cần phải có bộ mờ hoá (fuzzier) để chuyền các dữ

liệu số đầu vào thành các tập mờ để bộ suy diễn mờ có thể thao tác được

- Dữ liệu đầu ra của bộ suy diễn mờ ở dạng các tập mờ sẽ được bộ giải mờ

(defuzzier) chuyển thành tín hiệu số trước khi truyền đến các cơ quan chấp hành như tay máy, công tắc, van điều khién,

Ngày đăng: 11/01/2024, 22:46

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w