Ứng dụng khai phá dữ liệu trong xây dựng hệ hỗ trợ quyết định chuẩn đoán gout

> Giả mã của thuật toán ID3 như sau: Dữ liệu vao: Bang quyét dinh DT = U, C U {d} Dữ liệu ra: Mô hình cây quyết định FEunction Create_tree U, C, {d} Begin If tat cả các mẫu thuộc cùng nh

Trang 1

BO GIAO DUC VA DAO TAO DAI HOC HUE

TRUONG DAI HOC KHOA HOC

CHU SĨ THÀNH

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG XÂY DỰNG HỆ HỖ TRỢ QUYET DINH CHAN DOAN GOUT

LUAN VAN THAC SI KHOA HOC

CONG NGHE THONG TIN

Thừa Thiên Huế, 2020

Trang 2

PHAN MO DAU > Ly do chon dé tai

Bénh gout (gout tiéng Anh hay goutte tiếng Pháp) là bệnh nằm trong nhóm bệnh lắng tụ các tinh thể, cụ thê ở đây là lắng tụ tinh thể monosodium urat trong các khớp do tỉnh trạng axit uric tăng cao trong máu gây ra các đợt viêm khớp ngoại biên của chân tay, đặc biệt hay xảy ra ở ngón chân cai Tinh trang viêm này là do các con bạch cầu - được ví như các lính chiến đấu trong cơ thé - gây ra khi di don dep các tinh thé

urat

Bệnh thường mở đầu bằng các cơn gout cấp Cơn gout cấp được định nghĩa là viêm khớp với sự lắng tụ các tinh thé urat trong các khớp, dẫn đến tình trạng viêm cấp và cuối cùng là sự hư hại các mô làm phá hủy khớp gây ra tàn phế Cơn gout cấp có thể bị day lùi bằng các thuốc hiện có và chế độ ăn kiêng nhưng nên nhớ rằng đây là loại bệnh không thê chữa dứt, nghĩa là bệnh nhân phải chấp nhận ăn kiêng và theo dõi bệnh suốt đời Nếu không điều trị hoặc để cơn gout xảy ra nhiều lần sẽ gây ra hủy hoại khớp đưa đến tàn phế Những bệnh nhân bị các cơn gout cấp liên tiếp hay dai dăng, nhiều năm sau sẽ chuyền sang gout man tinh kèm các tophi Tophi thường được coi là biến chứng muộn của gout, đó là những cục thấy ở dưới da tại các khớp, các

túi hoạt dịch, sụn, xương ở nhiễu nơi trong cơ thể, hình thành do sự lắng tụ các tinh

thé urat Tophi có thể vỡ ra ngoài da, có màu trắng hay vàng nhạt - trắng

Sau một thời gian dài tích tụ tỉnh thể muối urat trong các khớp và mô bao quanh khoảng chừng một năm thì gout sẽ khởi phát Các triệu chứng dễ nhận thấy là nóng, đau, sưng, mềm tại các khớp, triệu chứng này được gọi là podagra

Trang 3

LOI CAM DOAN

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát từ yêu cầu phát sinh trong công việc đề hình thành hướng ứng dụng Các số liệu có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn thu thập được là trung thực chưa từng được ai công bố trước đây

Thừa Thiên Huế, tháng 03 năm 2020

Học viên

Trang 4

LOI CAM ON

Trước tiên tôi xin được gửi lời cảm ơn chân thành đến Ban Giám hiệu, Phòng

sau đại học và các giảng viên trong khoa Công nghệ Thông tin Trường Đại học Khoa

học — Đại học Huế đã tạo điều kiện và môi trường học tốt nhất Quý Phó Giáo sư —

Tiến sĩ đã tâm quyết không ngại đường sá xa xôi, đến đề truyền đạt cho chúng tôi những kiến thức vô cùng quý báu, cũng như phương pháp học tập và nghiên cứu Tôi xin chân thành cảm ơn Ban Giám hiệu, các đồng nghiệp trong Trường THPT Nguyễn

Huệ - Gia Lai đã tạo điều kiện, giúp đỡ tôi trong quá trình thực hiện luận văn

Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất tới thầy hướng dẫn PGS-TS

LÊ MẠNH THẠNH Thây đã tận tình hướng dẫn, giúp đỡ đề tôi có thể hoàn thành

luận văn này

Trong quá trình thực hiện luận văn, tôi đã nhận được sự giúp đỡ của các bạn bè,

quý thầy cô trong ngành Công nghệ Thông tin, quý cán bộ y bác sỹ khoa Nội tổng

hợp của bệnh viện Đa khoa tỉnh Gia Lai, bệnh viện Đại học ŸY Dược - Hoàng Anh

Gia Lai và bệnh viện đa khoa thành phố Pleiku Mặt dù rất cố gắng nhưng không thê tránh khỏi những thiếu sót trong lúc thực hiện, tôi rất mong đón nhận những đóng góp ý kiến từ bạn bè, thầy cô và các chuyên gia

Một lần nữa tôi rất chân thành cảm ơn tất cả mọi người đã giúp tơi hồn thành ứng dụng khoa học này

Trang 5

Quá trình phát triển cây sẽ tiếp tục cho tới khi:

Cây quyết định phân loại hoàn toàn (perfectly classifies) các đữ liệu đầu vào

Tất cả các thuộc tính được sử dụng

> Giả mã của thuật toán ID3 như sau:

Dữ liệu vao: Bang quyét dinh DT = (U, C U {d}) Dữ liệu ra: Mô hình cây quyết định

FEunction Create_tree (U, C, {d}) Begin

If tat cả các mẫu thuộc cùng nhãn lớp d; then

refurn một nút lá được gan nhan dj

else if C = null then

return nut lá có nhãn đ; là lớp phổ biến nhất trong DT

else

begin

bestAttribute:= getBestAttribute(U, C);

// Chọn thuộc tính tốt nhất đề chia

C:= C- {bestAttribute}; //xoa bestAttribute khỏi tập thuộc tinh

voi mdi v in bestAttribute Begin

Uy := [U]v; //Uy la phan hoạch của U

ChildNode:=Create_tree(Uvy, C, {d}); //Tao 1 nut con

end end End

Trang 6

Chuong 2 MO HINH PHAN LOP DU LIEU TRONG HE HO TRO

QUYÉT ĐỊNH 52 2222222211211122112111221221121221221222222 re 15

2.1 Giới thiệu vé khai pha dit LGU ceo ccc ccecceceeeseeee tees nese tecettseeeteneeeeeees 15

2d -Khai niém: Khai pha Gt WOU: serpeenccsewccceemnecnuememueemene masmnecemmemnees 15

2.1.2 Các chức năng chính của khai phá dữ liệu - ¿5s s:+s++s+2 17 2.1.3 Ứng dụng của khai phá dữ liệu -2-©2222222222225222512112222222-e 18

2.1.4 Một số kỹ thuật trong khai phá dữ liệu

2;9 Phân lớp dữ HỆU: seseseseonasooaaasarssurdra 20

2.3 Một số kĩ thuật phân lớp dữ liệu

2.3.1 Luật kết hợp 21

2.3.2 Cây quyết định 24

2.3.2.1 Dinh nghia va vi du eee 24

2.3.2.2 Một số thuật toán xây đựng cây quyết định 2e 2/Ƒ 2.3.2.3 Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu

2.3.2.4 Thuật toán xây dựng cây quyết định dựa vào Entropy 2.3.2.5 Thuật toán ID3

2.4 Tiểu kết chương 2 52 222222221222122212221121222222 e6 38

Chuong 3: XAY DUNG UNG DUNG HE CHAN DOAN GOUT 39

8 deat DAL OMI serererse cence reer imnerannseseronierenimnemanasrore arene meriermereer ume 39 3.1.1 Tổng quan về bệnh gout -2- 222 2212221222122122122122121121 22 2e 39

3:1:2- Thực trang bệnh;gouEhiên P8 WosssscssosensieeieioBitstlsDlisosjasseeaoseauel 41

3.1.3 Nguy hại của bệnh gout ảnh hưởng đến sức khỏe cộng đồng 42

3.2 Xây dựng hệ thống -.-222222212211221122112112112112112212222222 se 42

3.2.1 Bài toán đặt ra nh eseeeseecscesececeesisisnenenensseseeseeseeeees 42 3:2.2 Thư thâp dit iu wcscnecnnmemnmneee ener 42 3.2.3 Xây dựng cây quyết định 2-22 221222122212211221122122222 re 45

3.2.4 Giao diện của của hệ thống -©2222222221221222121121121121 22 2e 68

Người dùng cần giao tiếp với hệ thống thông qua giao diện sau đây: 68

3.3 Tiểu kết chương 3 -.- 522222 221122121112112112112112221222222222 ra 68

KÉT LUẬN 2 22 2222211221121112111211121112212212122122122212121222 re 69

TÀI LIỆU THAM KHẢO ©2222222221222122122122121121121222222 xe 70

Trang 7

Bang 2.1 Bang 2.2 Bang 2.3 Bang 2.4 Bang 2.5 Bang 2.6 Bang 2.7 Bang 3.1 Bang 3.2 Bang 3.3 Bang 3.4 Bang 3.5 Bang 3.6 Bang 3.7 Bang 3.8 Bang 3.9 Bang 3.10 Bang 3.11 Bang 3.12 Bang 3.13 Bang 3.14 Bang 3.15 Bang 3.16 Bang 3.17 Bang 3.18 Bảng 3.19 Bảng 3.20 DANH MỤC CÁC BẢNG Trang

Ví dụ về một cơ sở dữ liệu dang giao dịch - D à sec: 22

Các tập phổ biến trong CSDL ở bảng 1 với độ hỗ trợ tối thiểu 50% .23

Bảng dữ liệu huấn luyện - 22222 22122212112211221122122222 xe 33 Tinh giá trị các Entropy va InfOrgain -:- cccccccsssrerrrrsrreres 34 Bảng dữ liệu huấn luyện đã loại bỏ thuộc tính “ độ Âm” c, 35 Tinh giá trị các Entropy và Inforgain sau khi loại thuộc tính “độ âm” 35

Tính giá trị các Entropy và Inforgain cho nhánh “trung bình” 37

Bảng dữ liệu huấn luyện được lấy từ hồ sơ bệnh án và các chuyên gia.44 Bảng huấn luyện ứng với các thuộc tính - 22222222222122122126 46 Tinh giá trị các Entropy và Inforgain của tất cả thuộc tính 48

Bảng dữ liệu huấn luyện đã loại bỏ thuộc tính B + 49

Tính giá trị các Entropy và Inforgain sau khi loại thuộc tính B 50

Tập huấn luyện ứng với giá trị “có” của thuộc tính C - 51

Tinh gia tri cac Entropy va Inforgain sau khi loai thuéc tinh C 51

Tập huấn luyện ứng với giá trị “Không” của thuộc tính E 52

Tinh gia tri cac Entropy va Inforgain sau khi loai thuéc tinh E 52

Tập huấn luyện ứng với giá trị “To” của thuộc tính D - 5 33 Tinh giá trị Entropy và Inforgain của A ứng với nhánh trái của D 53

Tap hudn luyén tng voi gia tri “C6” cla Bao cece eee eeceeeeeeee 54 Tinh gia tri cac Entropy và Inforgain tng voi nhanh trai cia B 55

Tap hudn luyén tng voi gia tri “Thap” cha Aone 56 Tinh gia tri cac Entropy va Inforgain sau khi loại bỏ A - 57

Tap hudn luyén ing voi gia tri “Khong” cla Eos 58 Tinh gia tri cac Entropy va Inforgain sau khi loại bỏ E 58

Trang 8

Bang 3.21 Bang 3.22 Bang 3.23 Bang 3.24 Bang 3.25 Bang 3.26 Bang 3.27 Bang 3.28 Bang 3.29

Tinh giá trị Entropy và Inforgain của D sec ssieirerrreree 60 Tập huấn luyện ứng sau khi loại bỏ A -2-©2222222222222E222222x22e 61 Tính giá trị các Entropy và Inforgain sau khi loại A - 62 Tập huấn luyện ứng sau khi loại bỏ C .-2-©222222222222212222222222e 63 Tinh gia tri cac Entropy va Inforgain sau khi loại C - 64 Tập huấn luyện ứng sau khi loại bỏ TD 2-©22222222222221222222222e2 64 Tinh giá trị Entropy và Inforgain của E c cccccssierernkerree 65 Tập huấn luyện ứng với giá trị “Vừa” của D -22- 222222 szev 65 Tinh giá trị Entropy và Inforgain của E ứng với nhánh trái của D 66

Trang 9

DANH MUC HiNH ANH

Trang

Hinh 1.1 Hệ thống thông tin hiện đại 52-222 2222222221221112111211221212 2e 7

Hình 1.2 Hoạt động của hệ thống thông tin 22-222 22222512251223121112111212 222.2 8 Hinh 1.3 Hệ thống thông tin trong quan ly kinh tẾ -2-©222222222225222522222222-e2 9 Hinh 1.4 Sơ đồ mô tả quá trình ra quyết định . -22-222222222212221221222 e6 12 Hình 1.5 Thành phần của hệ hỗ trợ quyết định -.-5222222212221222122122ee 13 Hinh 2.1 Quá trình khai phá dữ liệu . - 5c 2:32 St EsEEtrrrxerrerrrrrrsree 16 Hình 2.2 Phân lớp dữ liệu - i22: 2112121121111 E1 E11 Hy Hàn tiệt 21 Hinh 2.3 Vi du về cây quyết định 222222 222222122212211221122222222ee 24

Hình 2.4 Cây sau khi chọn thuộc tính Độ âm (3) 2 22c 2 2e 34

Hình 2.5 Cây sau khi chọn thuộc tính Quang cảnh (ID3) :s:+s:5: 36 Hinh 2.6 Cây kết quả (ID3) -©22¿222222221222112231122112211221221211 21 cee 38 Hình 3.1 gout tấn công khớp bàn chân, khớp cổ chân - 2222222222222 39

Hinh 3.2 Cây sau khi chọn được thuộc tính B làm nút gôc :-:+s:5: 48 Hình 3.3 Cây sau khi chọn thuộc tính C - c5: 2: 2 2x2 EEEtrrtrrreksree 50 Hình 3.4 Cây sau khi chọn thuộc tính E, 5c 2:32 S SE rrrrrxtrrerrrrerek 52 Hình 3.5 Cây sau khi chọn thuộc tính Ï - 5c 2:32 S SsEEsEEkrrrxsrrerrrrrreree 53 Hình 3.6 Cây sau khi chọn thuộc tính A - cSc 2c 2S nrhhy re 54

Hình 3.7 Cây sau khi chọn thuộc tinh A lam nhánh trái của cây 56

Hinh 3.8 Cây sau khi chọn thuộc tính E làm nhánh phải của A 37

Hình 3.9 Cây sau khi chọn thuộc tính D làm nút con phải của E - 58

Hình 3.10 Cây sau khi chọn thuộc tính C làm nút con trái của E 60

Hình 3.11 Cây sau khi chọn thuộc tính D làm nhánh phải của C 61

Hình 3.12 Cây sau khi chọn thuộc tính C làm nút con trái của A - 63

Hình 3.13 Cây sau khi chọn thuộc tính D làm nút con phải của C 64

Hình 3.14 Cây sau khi chọn thuộc tính E làm nút con trái của D -: 65

Hình 3.15 Kết quả phân lớp bằng thuật tốn ID3 22©22221222122212212222ee 66

Hình 3.16 Kết quả đạt được theo tập luật 2-222221222122122122221222 e0 68

Trang 10

DANH MUC CAC CHU VIET TAT

KPDL Khai phá dữ liệu

Trang 11

PHAN MO DAU > Ly do chon dé tai

Bénh gout (gout tiéng Anh hay goutte tiếng Pháp) là bệnh nằm trong nhóm bệnh lắng tụ các tinh thể, cụ thê ở đây là lắng tụ tinh thể monosodium urat trong các khớp do tỉnh trạng axit uric tăng cao trong máu gây ra các đợt viêm khớp ngoại biên của chân tay, đặc biệt hay xảy ra ở ngón chân cai Tinh trang viêm này là do các con bạch cầu - được ví như các lính chiến đấu trong cơ thé - gây ra khi di don dep các tinh thé

urat

Bệnh thường mở đầu bằng các cơn gout cấp Cơn gout cấp được định nghĩa là viêm khớp với sự lắng tụ các tinh thé urat trong các khớp, dẫn đến tình trạng viêm cấp và cuối cùng là sự hư hại các mô làm phá hủy khớp gây ra tàn phế Cơn gout cấp có thể bị day lùi bằng các thuốc hiện có và chế độ ăn kiêng nhưng nên nhớ rằng đây là loại bệnh không thê chữa dứt, nghĩa là bệnh nhân phải chấp nhận ăn kiêng và theo dõi bệnh suốt đời Nếu không điều trị hoặc để cơn gout xảy ra nhiều lần sẽ gây ra hủy hoại khớp đưa đến tàn phế Những bệnh nhân bị các cơn gout cấp liên tiếp hay dai dăng, nhiều năm sau sẽ chuyền sang gout man tinh kèm các tophi Tophi thường được coi là biến chứng muộn của gout, đó là những cục thấy ở dưới da tại các khớp, các

túi hoạt dịch, sụn, xương ở nhiễu nơi trong cơ thể, hình thành do sự lắng tụ các tinh

thé urat Tophi có thể vỡ ra ngoài da, có màu trắng hay vàng nhạt - trắng

Sau một thời gian dài tích tụ tỉnh thể muối urat trong các khớp và mô bao quanh khoảng chừng một năm thì gout sẽ khởi phát Các triệu chứng dễ nhận thấy là nóng, đau, sưng, mềm tại các khớp, triệu chứng này được gọi là podagra

Trang 12

Trong cac giai doan cấp tính, bệnh nhân còn có thể bị sốt cao, có một vài dấu

hiệu như cỗ cứng, nôn giống với bệnh màng não Chính bởi lý do bệnh gout xuất hiện theo từng đợt, khi thuyên giảm người bệnh thấy hết đau nên tưởng chừng như khỏi hắn và lơ là trong việc điều trị và bệnh tái phát sau đó không lâu Các triệu chứng

khác dễ thấy của bệnh gout như nổi các hạt tophi, xuất hiện các u cục tại vị trí các khớp Sưng túi dịch đệm ở đầu gối, khuỷu tay khiến sự vận động luôn bị cản trở, bị

hạn chế Ở giai đoạn muộn, gout sẽ tái phát ở nhiều vị trí cùng lúc có thể đối xứng

hoặc bắt đối xứng Bệnh diễn ra liên miên không theo từng đợt, rất dễ bị nhầm với

các loại viêm khớp khác nên rất khó để phòng ngừa và điều trị đúng cách

Theo khảo sát của Viện gout từ tháng 07/2007 đến 7/2012 trên cả nước có hơn 22 ngàn người mắc bệnh gout trong đó số bệnh nhân gout tại Thành phố Hồ Chí Minh là lớn nhất lên tới 8246 người chiếm hơn 1/3 bệnh nhân gout trên cả nước

Theo Bác sĩ chuyên khoa II Nguyễn Thị Lực (nguyên Trưởng khoa Cơ xương

khớp, Bệnh viện E), một người được chân đoán là mắc gout khi có các dấu hiệu như:

nồng độ axit uric trong máu tăng cao trên 420 micromol/lit với nam và 360 micromol/lít với nữ; khớp bơ viêm, sưng, nóng đỏ Tuy nhiên, trong giai đoạn đầu,

biểu hiện của bệnh chưa rõ ràng nên việc chân đoán dễ gặp phải một số khó khăn

Cụ thể, đó là gout có thể bị nhằm với một số bệnh lý khớp khác (thoái hóa khớp,

viêm khớp dạng thấp ) do có triệu chứng lâm sàng tương tự nhau (các khớp sưng

đau) Bên cạnh đó, nhiều trường hợp lạm dụng thuốc, triệu chứng của bệnh không rõ rệt nên việc chân đoán trở nên khó khăn Nếu không được phát hiện, điều trị kip thoi,

gout cé thé gây tốn thương nhiều khớp và dẫn tới một số biến chứng nguy hiểm như:

sỏi thận, suy thận

Một hệ thống chân đoán bệnh, sẽ hỗ trợ cho bác sỹ rất nhiều trong việc đưa ra

kết quả chân đoán cuối cùng Với việc áp dụng Công nghệ thông tin, đặc biệt là việc sử dụng KPDL để xây dựng các hệ thống chẩn đoán bệnh giúp các bác sỹ chuyên

khoa có thể tiếp cận và đưa ra chân đoán bệnh một cách nhanh chóng, chính xác Từ

Trang 13

Ngày nay việc ứng dụng KPDL vào các ngành khoa học đã phát triển mạnh mẽ, riêng trong lĩnh vực y học việc xây dựng một hệ thống chẩn đoán bệnh dùng KPDL

đã được thực hiện ở nước ngoài hoặc ở trong nước như hệ thống chẩn đốn bệnh lao phơi, hệ thống chân đoán bệnh đau đâu, ung thư, Tuy nhiên, việc xây dựng các hệ

chân đoán y học như vậy ở nước ta hiện nay vẫn còn khá khiêm tốn

Chính vì vậy tôi chọn dé tai nghiên cứu: “ng dụng khai phá dữ liệu trong xây dựng hệ hỗ trợ quyết định chấn đoán gout”, nham mục đích giúp các y bác sỹ chuyên khoa có thê đưa ra chẩn đoán chính xác và có cách điều trị phù hợp, đồng thời cung cấp thông tin liên quan đến bệnh gout, hướng dẫn cho bệnh nhân và người nhà biết được nguy cơ để phòng tránh và điều trị bệnh gout, giảm thiểu tỷ lệ mắc bệnh và nguy cơ biến chứng, tử vong cho người bệnh

> Tình hình nghiên cứu

Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tin ngày nay

được áp dụng hầu hết trong mọi lĩnh vực, điều này đã tạo ra một lượng lớn dữ liệu

được lưu trữ với kích thước tăng lên không ngừng Đây chính là điều kiện tốt cho

việc khai thác kho dữ liệu để đem lại tri thức có ích với các công cụ truy vấn, lập

bang biéu va KPDL

Khai phá dữ liệu (KPDL)[2] là một kỹ thuật đựa trên nền tảng của nhiều lý

thuyết như xác xuất, thống kê, máy học nhằm tìm kiếm các tri thức tiềm ân trong các

kho đữ liệu có kích thước lớn mà người dùng khó có thể nhận biết bằng những kỹ

thuật thông thường Nguồn đữ liệu y khoa rất lớn, nếu áp đụng KPDL trong lĩnh vực này sẽ mang lại nhiều ý nghĩa cho nghành y tế Nó sẽ cung cấp những thông tin quý

giá nhằm hỗ trợ trong việc chân đoán và điều trị sớm giúp bệnh nhân thoát được nhiều

căn bệnh hiểm nghèo

Trong lĩnh vực Y khoa ở Việt Nam, hiện nay các tuyến y tế phường, xã, vùng sâu, vùng xa còn thiếu nhân lực y tế có trình độ chuyên môn và thiếu các trang

Trang 14

tế giúp chấn đoán sớm một số bệnh phát hiện sớm được những bệnh nguy hiểm và giảm gánh nặng kinh tế cho gia đình bệnh nhân và cho xã hội Đề minh chứng cho

những lợi ích mà hệ hỗ trợ chẩn đoán mang lại, để tài chọn đữ liệu bệnh gout để

thử nghiệm và đánh giá

Ứng dụng mô hình trong KPDL xây dựng hệ hỗ trợ quyết định chân đoán bệnh gout là một trong những hướng nghiên cứu chính của đề tài

Gout là một trong những bệnh về xương khớp phổ biến nhất, chiếm khoảng 1/3 tổng số lượng người bệnh đến khám các vấn đề về xương khớp Điều đáng quan ngại là người mắc gout ngày càng trẻ hóa Cứ 4 người đến khám tại phòng khám Nội cơ xương khớp của Bệnh viện và được chân đoán mắc gout thì có 1-2 người trong độ tuổi 30-40 Tuy nhiên, đa số người mắc gout thường xem nhẹ tình trạng bệnh, cho rằng bệnh gout không nguy hiểm bằng các bệnh đái tháo đường tim mạch, tăng huyết áp nên không tuân thủ chỉ định điều trị của bác sĩ Nhiều người bệnh chỉ dùng thuốc khi có các triệu chứng sưng đau khớp Sau đó, khi thấy các triệu chứng được cải thiện

thì họ tự ý bỏ thuốc

Sau này, có rất nhiều để tài nghiên cứu về thực trạng, nguyên nhân, triệu chứng và cách điều trị bệnh gout Tuy nhiên, các nghiên cứu này chỉ sử dụng các phương pháp chân đoán truyền thống trong y khoa

Bên cạnh đó, cũng có các công trình nghiên cứu liên quan ứng dụng các kỹ thuật

như hỗ trợ quyết định, KPDL, hệ chuyên gia trong chẩn đoán các bệnh như:

- Bài báo Xây đựng hệ hỗ trợ ra quyết định chẩn đoán bệnh (Văn Thế Thanh,

Tran Minh Bao, nam 2012)

- Luận văn Wghiên cứu và ứng dụng kỹ thuật phân nhóm đề xây dựng hệ thơng

dụ đốn bệnh tự kỷ ở trẻ em (Nguyễn thị Thương, ĐH Đà Nẵng, năm 2017)

- Luận văn ứng đụng KPDL xây dựng hệ hỗ trợ chân đoán Y khoa (Tống Đức

Trang 15

> Mục tiêu nghiên cứu

- Mục tiêu chung: Nghiên cứu các thành phần của hệ hỗ trợ ra quyết định và

một số kỹ thuật KPDL Trên cơ sở đó xây dựng hệ chân đoán bệnh gout - Các mục tiêu cụ thể:

+ Nghiên cứu các thành phần của hệ hỗ trợ ra quyết định

+ Nghiên cứu các kỹ thuật phân lớp dữ liệu để lựa chọn kỹ thuật thích hợp sử

dụng cho mô hình của hệ hỗ trợ chẩn đoán bệnh

+ Xây dựng hệ thống chân đoán bệnh gout > Đối tượng và phạm vi nghiên cứu

- Về lý thuyết: Cấu trúc hệ thống, phương pháp phân lớp đữ liệu (cây quyết

định, luật kết hợp)

- Về thực hành: Địa bàn tỉnh Gia Lai, tuổi từ 30 tháng đến 65, thời gian khảo

sát hai năm 2018-2019

> Phương pháp nghiên cứu

- Phương pháp nghiên cứu lý thuyết: Tổng hợp, phân tích các công trình nghiên cứu liên quan đến hệ thống thông tin, hệ hỗ trợ quyết định, các kỹ thuật phân lớp dữ

liệu Kết hợp với các tài liệu về bệnh gout, lựa chọn kỹ thuật thích hợp cho bài toán

chân đoán bệnh này

- Phương pháp thực nghiệm (xây dựng ứng dụng)

- Sử dụng các dữ liệu đã được lưu trữ trong các hồ sơ bệnh án ở các bệnh viện

- Xây dựng bảng hỏi để thu thập ý kiến các chuyên gia (các bác sỹ, người bệnh) - Thu thập thông tin từ các trang web (Internet)

- Xây dựng khoảng 40 bản ghi ứng với 40 người (có bệnh và không bệnh) 80%

Trang 16

> Cấu trúc của luận văn

Luận văn được chia làm 3 chương:

Trang 17

Chuong 1 TONG QUAN HE THONG THONG TIN VA HE HO TRO QUYET DINH

1.1 HE THONG THONG TIN

1.1.1 Khái niệm của hệ thống thông tin

Hệ thống thông tin, là tập hợp người, thủ tục và các nguồn lực để thu thập, xử

lý, truyền và phát thông tin trong một tô chức

Hệ thống thông tin có thể là thủ công nếu dựa vào các công cụ như giấy, bút

Hệ thống thông tin hiện đại là hệ thống tự động hóa dựa vào máy tính (phần

cứng, phần mềm) và các công nghệ thông tin khác

Dữ liệu Théng tin

Phản hỏi

Hình 1 1 Hệ thống thông tin hiện đại Dữ liệu đầu vào gồm hai loại:

Tự nhiên: giữ nguyên dạng khi nó phát sinh: (tiếng nói, công văn, hình ảnh v.v )

Có cấu trúc: được cấu trúc hoá với khuôn dạng nhất định (số sách, bảng biểu V.V )

Thông tin đầu ra:

Được phân tích, tổng hợp v.v từ đữ liệu vào và tùy thuộc vào từng nhu cầu (quản lý) trong từng trường hợp cụ thể, từng đơn vị cụ thé thuộc tổ chức (báo cáo tổng hợp, thống kê, thông báo v.v )

Xử lý tự động chỉ được thực hiện trên các dữ liệu có cấu trúc

Hoạt động của hệ thống thông tin:

Trang 18

Xu ly: Phan tich, tong hợp, tính toán trên các nhóm chỉ tiêu, tạo thông tin kết quả Cập nhật, sắp xếp, lưu trữ dữ liệu Phân phát: thông tin cho từng đối tượng Thu thập->Xử lý->Phân phát -_ Nguễn bén trang | Nguễn bến ngoài | ———t— XU LY CAC DIF LIEU THO) (os, cau tric hia | xử LÝ NSD Ss PHAN PHAT oS NSE _

Hình 1.2 Hoạt động của hệ thống thông tin 1.1.2 Các đặc trưng của hệ thống thông tin hiện đại

Hệ thống thông tin được xây dựng trên nên tảng công nghệ hiện đại (CNTT) Hệ thống thông tin được cấu thành bởi nhiều hệ thống con Khi các hệ con này

được nối kết và tương tác với nhau, chúng sẽ phục vụ cho việc liên lạc giữa các lĩnh vực hoạt động khác nhau của tổ chức

Hệ thống thông tin hướng tới mục tiêu cung cấp thông tin cho việc ra quyết định và kiểm soát Hệ thống chuyên giao cho từng thành viên trong tổ chức những thông

tin cần thiết dé xác định, chọn lựa các hành động phù hợp với mục tiêu của tổ chức

cũng như các hành động giúp kiểm soát lĩnh vực mà thành viên đó chịu trách nhiệm

Hệ thống thông tin là một kết cầu hệ thống mềm dẻo và có khả năng tiến hóa Một hệ

thông thông tin rất có thể trở nên lỗi thời nhanh chóng nếu không có khả năng thay đổi mềm dẻo và mở rộng được đề phù hợp với sự biến đổi và phát triển của tổ chức 1.1.3 Nhiệm vụ và vai trò của HTTT trong tô chức kinh tế

Trang 19

H6 tro quyét dinh x Quyét dinh Thông tin vào tử môi trường ngoai Vv HT Thong tin Thong tin ra từ môi trường ngoài Thông tin 1 Thông tin điện hành v điền hành

tiền, sức lao động Nguyên vật liệu, Hỗ trợ Menghiép Sản phẩm tiên Hình 1.3 Hệ thống thông tin trong quản lý kinh tế

Nhiệm vụ

Đối ngoại: thu thập thông tin từ mơi trường ngồi, đưa thông tin ra môi trường ngồi

Ví dụ: thơng tin về giá cả, thị trường, sức lao động, nhu cầu hàng hoá

Đối nội: làm cầu nỗi liên lạc giữa các bộ phận của tổ chức, cung cấp thông tin

cho hệ tác nghiệp, hệ quyết định

Ví dụ: - Thông tin phản ánh tính trạng nội bộ của cơ quan tổ chức - Thông tin về tình trạng hoạt động kinh đoanh của tô chức

1.2 HẸ HỖ TRỢ RA QUYẾT ĐỊNH

1.2.1 Tổng quan

Trong cuộc sống hằng ngày, mỗi người trong chúng ta đều phải đưa ra nhiều quyết định liên quan đến các sinh hoạt cá nhân như: ăn gì, uống gì, mặc gì, làm gì,

Trang 20

Trong lĩnh vực kinh doanh, vai trò đặc trưng chung của nha quan lý là trách nhiệm đưa ra các quyết định, từ các quyết định quan trọng như phát triển một loại sản phẩm mới, giải thể công ty đến các quyết định thông thường như tuyên nhân viên, xác định kế hoạch sản xuất hàng tháng, hàng quý Việc ra quyết định thâm nhập vào cả bốn

chức năng của nhà quản lý gồm hoạch định, tổ chức, chỉ đạo và kiểm tra, vì vậy nhà

quản lý đôi khi còn được gọi là người ra quyết định

Quyết định là một lựa chọn về đường lối hành động (Simon 1960; Costello & Zalkind 1963; Churchman 1968), hay chiến lược hành dong (Fishburn 1964) dan dén

một mục tiêu mong mudén (Churchman 1968)

Ra quyết định chính là một quá trình lựa chọn có ý thức giữa hai hay nhiều phương án đề chọn ra một phương án tạo ra được một kết quả mong muốn trong các điều kiện ràng buộc đã biết [1]

Việc ra quyết định luôn luôn cần phải xử lý một lượng kiến thức nhất định nào đó Kiến thức chính là nguyên liệu (đầu vào) và cũng là thành phẩm (đầu ra) của việc ra quyết định Lượng kiến thức này cần được sở hữu hoặc tích lãy bởi người ra quyết định

Tuy nhiên, trí nhớ con người là có giới hạn dẫn đến việc nhận thức cũng có giới

hạn Bên cạnh đó, các yếu tố khác như: giới hạn về thời gian, giới hạn về kinh tế, về

nhân lực, áp lực cạnh tranh cũng là các nguyên nhân trực tiếp dẫn đến nhu cầu hỗ trợ ra quyết định

Bản chất của việc hỗ trợ ra quyết định chính là việc cung cấp các thông tin, tri thức thê hiện qua các tương tác người — máy hoặc thông qua các mô phỏng

Chất lượng của quyết định phụ thuộc vào chất lượng của thông tin cung cấp cho người ra quyết định [1]

1.2.2 Định nghĩa và khái niệm

Hệ hỗ trợ quyết định là các hệ dựa trên máy tính, có tính tương tác, giúp các nhà

ra quyết định dùng dữ liệu và mô hình để giải quyết các bài toán phi cấu trúc Nó kết

Trang 21

hợp trí lực của con người với năng lực của máy tính để cải tiến chất lượng của quyết dinh (Ken & S Morton, 1978) [1]

Hệ hỗ trợ quyết định nhấn mạnh vào khả năng hỗ trợ các nhà ra quyết định quan ly Như vậy, hệ hỗ trợ quyết định có ý nghĩa là một công cụ bồ trợ cho các nhà quản lý nhằm mở rộng năng lực nhưng không có nghĩa là thay thế khả năng phân xử của họ Tình huống ở đây là cần đến các phân xử của người ra quyết định hay các quyết định khơng hồn tồn được giải quyết thông qua các giải thuật chặt chẽ

Thông thường các hệ hỗ trợ quyết định sẽ là các hệ thông tin máy tính hóa, có giao tiếp đồ họa và làm việc ở chế độ tương tác trên các mạng máy tính

Cải thiện tốc độ tính toán

Tăng năng suất của cá nhân liên đới

Cải tiến kỹ thuật trong việc lưu trữ, tìm kiếm, trao đổi dữ liệu trong và ngoài tổ

chức theo hướng nhanh và kinh tế

Nâng cao chất lượng của các quyết định đưa ra Tăng cường năng lực cạnh tranh của tổ chức

Khắc phục khả năng hạn chế của con người trong việc xử lý và lưu trữ thông tin

1.2.3 Quá trình ra quyết định

Quá trình ra quyết định gồm có 3 giai đoạn:

Tim hiéu (intelligence): bài toán dẫn đến quyết định

Thiết kế (design): phân tích và xây dựng các diễn trình hành động

Chọn lựa (choice): chọn một diễn trình trong tập diễn trình + Tiếp theo giai đoạn Chọn lựa là giai đoạn Hiện thực

Trang 22

—<=>| GIAI DOAN TM HIEU Xac ainn myc tiêu tổ chức

tap han dién, phi

Phan loai va phat biếu vần đề ( Phat biểu vấn đề +

=——[ GIA DOAN THIET KE ok ÍThiết lạp mơ hình ` ey

Lập bảng tiêu chuẩn chọn lựa

[TIm kiếm các phương án

[Tiên đoán và đo lường các kết cục „Z7 Phương án

Kiểm thử giải pháp xuất

———| GIA! DOAN LA CHON Ichon (các) phương án tốt nhát |Hoacn định việc thực hiện Hiện thực các giải pháp Hình 1.4 Sơ đồ mô tả quá trình ra quyết định

Giai đoạn Tìm hiểu (Intellegence)

Trong giai đoạn này, các nội đung chính cần phải thực hiện bao gồm:

Nhận diện vấn đề (cơ hội hoặc rủi ro)

Phân loại vấn đẻ

Phân rã vấn đề: chia ra các bài toán nhỏ và đơn giản hơn

Xác định chủ thể vẫn dé: trách nhiệm giải quyết và năng lực giải quyết

Phat biéu van dé chính thức

Giai doan Thiét ké (Design)

Ở giai đoạn Thiết kế, mục tiêu quan trọng là phải xây dựng được mô hình

Trang 23

Bién quyét dinh Bién két qua

Biến khơng kiểm sốt

Ngoài ra, có thể có thêm Thông số

1.3 CAC THANH PHAN CUA HE HO TRO QUYET DINH

Trang 24

1.3.2 Phân hệ quản lý mô hình

Còn được gọi là hệ quản trị cơ sở mô hình (MBMS — ModelBase Management

System) la g6i phần mềm gồm các thành phần về thống kê, tài chính, khoa học quản lý hay các phương pháp định lượng nhằm trang bị cho hệ thống năng lực phân tích; cũng có thể có các ngôn ngữ mô hình hóa ở đây Thành phần này có thê kết nối với các kho chứa mô hình của tô chức hay ở bên ngoài nào khác

1.3.3 Phân hệ giao diện

Giúp người sử đụng giao tiếp và ra lệnh cho hệ thống Các thành phần vừa kế

trên tạo nên hệ hỗ trợ quyết định, có thể kết nối với intranet/extranet của tổ chức hay

kết nối trực tiếp với Internet

1.4 TIỂU KẾT

Trong Chương l tôi trình bày các thành phần cơ bản của hệ hỗ trợ quyết định, nó là cơ sở để xây dựng hệ hỗ trợ quyết định chân đoán bệnh Trong các thành phần của hệ hỗ trợ quyết định thì thành phần cơ bản nhất là mô hình Trong luận văn này thì mô hình được chọn là mô hình cây quyết định trong KPDL và sẽ được trình bày trong Chương 2

Trang 25

Chuong 2 MO HiINH PHAN LOP DU LIEU TRONG HE HO TRO

QUYET DINH 2.1 GIOI THIEU VE KHAI PHA DU LIEU

2.1.1 Khái niệm khai phá dữ liệu

Khai phá dữ liệu (Data Mining) [2]là một khái niệm ra đời vào cuối những năm 1980 Nó là quá trình khám phá thông tin ấn được tìm thấy trong các cơ sở dữ liệu và có thể xem như là một bước trong quá trình khám phá tri thức KPDL là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong các lĩnh vực như: khoa học, giáo

dục, kinh doanh, y tế

Giáo sư Tom Mitchell đã đưa ra định nghĩa của KPDL như sau: “Khai phá dữ

liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những

quyết định trong tương lai” Tiến sĩ Fayyad đã phát biêu: “Khai phá dữ liệu, thường

được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình xuất

những thông tin Ân, trước đây chưa biết và có khả năng hữu ích, đưới dạng các qui

luật, ràng buộc, qui tắc trong cơ sở dữ liệu” Hay nói cách khác “Khai phá dữ liệu-

Data Mining là tiến trình khám phá tri thức tiềm ân trong các cơ sở đữ liệu Cụ thé

hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết

nhưng hữu ích từ cơ sở dữ liệu lớn”

Nói tóm lại, KPDL là một quá trình học trị thức mới từ những dữ liệu đã thu thập được

Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành

các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra

quyết định KPDL là việc trích rút trì thức một cách tự động và hiệu quả từ một khối

dữ liệu rất lớn Tri thức đó thường ở dạng các mẫu tin có tính chất không tầm thường, không tường minh (ấn), chưa được biết đến và có tiềm năng mang lại lợi ích

Để hình dung vấn để này ta có thể sử dụng một ví dụ đơn giản như sau: KPDL được ví như tìm một cây kim trong đống cỏ khô Trong ví dụ này, cây kim là một

Trang 26

mảnh nhỏ tri thức hoặc một thông tin có giá tri va đồng có khô là một kho cơ sở dữ

liệu rộng lớn Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ

được chiết xuất ra và sử dụng một cách hữu ích nhờ KPDL

Chức năng KPDL gồm có gộp nhóm phân loại, đự báo, đự đoán và phân tích các liên kết Năm 1989 Fayyad, Smyth và Piateslsky-Shapiro đã dùng khái niệm Phát hiện tri thức từ cơ sở dữ liệu (Knowledge Discovery 1n Database - KDD)

Trong đó KPDL là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng

các kỹ thuật để tìm ra các mẫu từ dữ liệu Có thể coi KPDL là cốt lỗi của quá trình phát hiện tri thức

Quá trình KPDL sẽ tiến hành qua 6 giai đoạn như hình 2.1

Đánh giá luật

Khai phá dữ liệu

Chuyển đổi dữ liệu `

Í_ Tiên xử lý và chuẩn aa | —————n bị dữ liệu Tri thức Trích lọc dữ liệu Ì \ ( ll a = E=] Mô hình cass Dữ liệu đã - Dữ liệu đã chuyển đổi Dữ liệu đích xử lý

Hinh 2.1 Quá trình khai phá dữ liệu

Quá trình KPDL bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra Về lý thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải

lặp đi lặp lại toàn bộ quá trình,

1 Gom đữ liệu (Gathering): Tập hợp đữ liệu là bước đầu tiên trong quá trình

KPDL Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm

chí các đữ liệu từ các nguồn ứng dung Web

2 Trích lọc dữ liệu (Selection): Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những người có tuổi đời 25-35 và có trình độ đại học

Trang 27

3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleaning, Pre-processing and

Preparation): Gia đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình KPDL Một số lỗi thường mắc phải trong khi

gom dữ liệu là tính không đủ chặt chẽ, logic Vì vậy, dữ liệu thường chứa các giá trị

vô nghĩa và không có khả năng kết nối dữ liệu Ví dụ: tuổi = 273 Giai đoạn này sẽ tiên hành xử lý những dạng đữ liệu không chặt chẽ nói trên Những dữ liệu đạng này được xem như thông tin thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan

trọng vì dữ liệu này nếu không được “làm sạch — tiền xử lý — chuẩn bị trước” thì sẽ

gây nên những kết quả sai lệch nghiêm trọng

4 Chuyên đổi đữ liệu (Transformation): Tiếp theo là giai đoạn chuyển đổi dữ

liệu, dữ liệu đưa ra có thê sử dụng và điều khiển được bởi việc tô chức lại nó Dữ liệu

đã được chuyển đổi phù hợp với mục đích khai thác

5 Phát hiện và trích mẫu đữ liệu (Pattern Extraction and Discovery): Đây là bước mang tính tư duy trong KPDL Ở giai đoạn này nhiêu thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc

phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,

6 Đánh giá kết quả mẫu (Evaluation of Result): Đây là giai đoạn cuối trong quá

trình KPDL Ở giai đoạn này, các mẫu đữ liệu được chiết xuất ra bởi phần mềm

KPDL Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá đề chiết xuất ra các tri thức (Knowledge) Trên đây là 6 giai đoạn trong quá trình KPDL, trong đó Š giai đoạn

được quan tâm nhiều nhất, đó là KPDL

2.1.2 Các chức năng chính của khai phá dữ liệu

Data Mining được chia nhỏ thành một số hướng chính như sau:

+ Mô tả khái niệm (concept description): thiên về mô ta, tong hop va tóm tắt

khái niệm Ví dụ: tóm tắt văn bản

+ Luật kết hop (association rules): la dang luat biểu diễn tri thức ở dạng khá đơn

giản Ví dụ: “60% nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ

Trang 28

mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính & thị trường chứng khoán, V.V

+ Kỹ thuật cây quyết định: là một công cụ mạnh và hiệu quả trong phân lớp

và dự báo Các đối tượng dữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu

đối với người sử dụng

+ Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo đữ liệu thời tiết Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây

quyết dinh (decision tree), mang no ron nhan tao (neural network), v.v Nguoi ta con

gọi phân lớp là học có giám sát (học có thay)

+ Phan cum (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước Người ta còn gọi phân cụm là học không giám sát (học không thầy)

+ Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiễu trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao

2.1.3 Ứng dụng của khai phá dữ liệu

Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó Chúng ta có thể liệt kê ra đây một số ứng dụng điền hình:

- Phân tích đữ liệu và hỗ trợ ra quyết định (data analysis & decision support) - Diéu tri y hoc (medical treatment)

- Text mining & Web mining - Tin-sinh (bio-informatics)

- Tai chinh va thi trường chtrng khoan (finance & stock market)

Trang 29

- Bao hiém (insurance)

- Nhận dạng (pattern recognition) v.v

KPDL cũng được vận đụng hiệu quả đề giải quyết các bài toán phức tạp trong

các ngành đòi hỏi kỹ thuật cao, như tìm kiếm mỏ dầu từ ảnh viễn thám, cảnh báo

hỏng hóc trong các hệ thống sản xuất, Các kỹ thuật KPDL đã được áp dụng thành công trong việc dự đoán tái sử dụng điện năng cho các công ty cung cấp điện, lưu

lượng viễn thông cho các công ty điện thoại, mức độ tiêu thụ sản phẩm cho các nhà

san xuat,

Ngoài ra, KPDL còn được áp dụng cho các vấn đề xã hội như phân tích các kết

quả phòng chống và điều trị một số loại bệnh, phân tích tác hại của ma túy, phát hiện tội phạm hay tăng cường an ninh xã hội, Việc vận dụng thành công đã mang lại

những hiệu quả thiết thực cho các hoạt động diễn ra hàng ngày trong đời sống

2.1.4 Một số kỹ thuật trong khai phá dữ liệu

Các kỹ thuật KPDL thường được chia thành 2 nhóm chính

+ Kỹ thuật KPDL mô tả: Có nhiệm vụ mô tả về các tính chất hoặc các đặc tính

chung của dữ liệu trong cơ sở dữ liệu hiện có Các kỹ thuật này gồm có: Phân cụm (clustering), tóm tắt (summarization), trực quan hóa (visualization), phân tích sự

phát triển và độ lệch (Evolution anh deviation analysis), phát hiện luật kết hợp

(association rules),

+ Kỹ thuật KPDL dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy

diễn trên dữ liệu hiện thời Các kỹ thuật này gồm có: phân lớp (classification), hồi quy (regression),

Tuy nhiên, do khuôn khổ có hạn nên tôi chỉ giới thiệu phương pháp phân lớp dữ liệu trong để tài này

Trang 30

2.2 PHAN LOP DU’ LIEU

> Giới thiệu về phần lớp dữ liệu

Phân lớp (classification): Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp Tập đữ liệu học bao gồm tập đối tượng đã

được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối

tượng trong tập dữ liệu học Các luật phân lớp được sử dụng đề xây dựng các bộ phân lớp dữ liệu Phân lớp đữ liệu có vai trò quan trọng trong tiến trình đự báo các khuynh hướng quy luật phát triển Ap đụng vào tiến trình phân lớp đữ liệu khách hàng trong CSDL có thể xây đựng các luật phân lớp khách hàng Một số kỹ thuật thường được sử dụng trong phân lớp:

+ Cây quyết định (decision tree): Cấu trúc dạng hình cây là biểu thị cho các quyết định Các quyết định này sinh ra các quy tắc để phân lớp và dự đoán (dự báo) tập dữ liệu mới chưa được phân lớp Tri thức được rút ra trong kỹ thuật này thường

được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử

dụng Tuy vậy, nó cũng đòi hỏi một không gian nhất định để mô tả tri thức trong phạm vi mà con người có thể hiểu được

Quá trình phân lớp đữ liệu thường gồm hai bước:

+ Bước I: Xây dựng mô hỉnh dựa trên việc phân tích các mẫu đữ liệu có sẵn Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính

phân lớp Các mẫu dữ liệu này còn gọi là tập đữ liệu huấn luyện (training dataset)

Nhãn lớp của tập dữ liệu huấn luyện phải được xác định trước khi xây dựng mô hình,

vì vậy phương pháp này còn được gọi là học có giám sát (supervised learning) + Bước 2: Sử đụng mô hình để phân lớp dữ liệu Chúng ta phải tính độ chính

xác của mô hình, nếu độ chính xác là chấp nhận được thì mô hình sẽ được sử dụng

đề dự đoán lớp cho các mẫu dữ liệu khác trong tương lai

Trang 31

| Bộ phân lớp | Dữ liệu kiểm tra Kết quả Tén BN HCT PLT NH1 | án doạ

TH |SE5 ms Am tinh | Ovong tinh (Khang, 61.2 , 131.1, “Duong tinh”)

Khai | 593 160.1 Dương tính | Dương tính

Anh |347 2128 Am tinh | Am tinh Két qua

chan doan

Dương tinh

Hinh 2.2 Phan lop dit liéu

2.3 MOT SO KI THUAT PHAN LOP DU LI£U

2.3.1 Luật kết hợp

Định nghĩa luật kết hợp: Cho một tập I = {lh, lo, .,Ín} là tập gồm m khoản mục (item), con được gọi là các thuộc tính (attribute) Các phan tu trong I la phan biét nhau XcI duoc goi la tap muc (itemset) Néu luc luong cua X bang k đức là |X| = k) thì X được gọi là k-itemset

Một giao dich (transaction) T' được định nghĩa như một tập con (subset) của các khoản mục trong I (T CD) Tương tự như khái niệm tập hợp, các giao dịch không được

trùng lặp, nhưng có thê nới rộng tính chất này của tập hợp và trong các thuật toán sau này, người ta đều giả thiết rằng các khoản mục trong một giao dịch và trong tất cả

các tập mục (temset) khác, có thể coi chúng đã được sắp xếp theo thứ tự từ điển của

các item

Gọi D là cơ sở dữ liệu của n giao dịch và mỗi giao dịch được đánh nhãn với một

định danh duy nhất (Unique Transasction IDentifier-TID) Nói rằng, một giao dịch T

e D hỗ trợ (support) cho mét tap XcI nếu nó chứa tất cả các item của X, nghĩa là X

TT, trong một số trường hợp người ta đùng ký hiệu TỢ) đề chỉ tập các giao địch hỗ

Trang 32

tro cho X Ki hiéu support(X) (hode supp(X), s(X)) la ty 16 phan tram cua cde giao dich hỗ tro X trên tổng các giao dịch trong D, nghĩa là: TeD|X cT| — P| Ví dụ về cơ sở đữ liệu D (dạng giao dich): J = {A, B, C, D, E}, T = {1,2, 3, 4, Supp(X)=

5, 6} Thông tin về các giao địch cho ở bảng sau:

Bảng 21 Lĩ dụ về một cơ sở đữ liệu dang giao dich - D Dinh danh giao dich (TID) Tap muc (itemset) 1 ABDE 2 BCE 3 ABDE 4 ABCE 5 ABCDE 6 BCD Ta co: supp({A }) = 4/6 (%)= 66.67%: supp({ABDE}) = 3/6 =50%; supp({ABCDE}) = 1/6 = 16.67%, Tap phé bién (frequent itemset):

Support téi thiéu minsupe e€( 0, 1] (Minimum Support) 1a mét gid trị cho truée béi ngwoi sir dung Néu tap muc X CI cé supp(X)c minsup thi ta ndi X la một tập phổ biến-frequent itemset (hoặc large itemset) Một frequent itemset duoc

sử dụng như một tập đáng quan tâm trong các thuật tốn, ngược lại, những tập

khơng phai frequent itemset là những tập không đáng quan tâm Trong các trình bày sau này, ta sẽ sử dụng những cụm từ khác như “X có support tối thiểu”, hay

Trang 33

“X không có support tối thiêu” cũng để nói lên rằng X thỏa mãn hay không thỏa mãn support(X) minsupp

Ví dụ: Với cơ sở dữ liệu D cho ở bảng 2, và giá trị ngưỡng minsupp = 50% sẽ liệt kê tất cả các tập phổ biến (frequent-itemset) như sau:

Bảng 2.2 Các tập phô biến trong CSDL ở bảng 1 với độ hỗ trợ tối thiểu 50% Các tập mục phê biến Độ hỗ trợ (supp) tương ứng B 100% (6/6) E, BE 83% (5/6) A, C, D, AB, AE, BC, BD, ABE 67% (4/6) AD, CE, DE, ABD, ADE, BCE, BDE 50% (3/6)

Một số tinh chất (TC) liên quan dén cdc frequent itemset:

TC1 support cho tat ca cdc subset: néu A CB, A, B la cdc itemset thi supp(A) > supp(B) vi tat cả các giao dịch của D support B thì cũng support A

TC2 Nếu một item A không có support tối thiêu trên D nghĩa là support(A) < minsupp thì một superset B của A sẽ không phải là một frequent vì support(B) < support(A) < minsup

TC3 Néu item B la frequent trén D, nghia 1a support(B) > minsup thi moi subset A cua B la frequent trén D vi support(A) > support(B) > minsup

Định nghĩa luât kết hợp:

Một luật kết hợp có dạng R: X >Y, trong đó X, Y la cac itemset, X, YCI va X AY = © X duoc goi 1a tién dé va Y duoc gọi là hệ quả của luật

Luật X —Y tổn tại một bộ hỗ trợ support - supp Supp(X SY) duoc định nghĩa là khả năng mà tập giao dịch hỗ trợ cho các thuộc tính có trong cả X lẫn Y, nghĩa là:

Support(X>Y) = support(XUY)

Luật X —>Y tổn tại một độ tin cay c (confidence - conf) Conf c duoc định nghĩa

là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y Nói cách khác c biểu thị số phần trăm giao dịch có chứa luôn A trong số những giao dịch có chứa X

Trang 34

Ta có công thức tính conf ¢ nhu sau:

pry <TAX CT) sup P(XYY) 9,

CS CS ES Sel — Be eign

conf(X => Y) = p(Y cT| XcT)=

p(XcT) sup p(X)

Ta nói rằng, luật X —Y là thoả trên D nếu với một support tối thiéu minsup và một ngưỡng confidence tối thiểu minconf cho trước nào đó mà:

Support(X Y) 3 minsup và confIdence(X> Y) 3 ninconƒ`

Chú ý rằng, nếu luật x— Y mà thoả trên D thì cả X và Y đều phải là các Frequent Itemset trên D và khi xét một luật có thoả hay không, thi ca support va

confidence của nó đều phải quan tâm, vì một luật có thể có confidence = 100% >

minconf nhưng có thể là nó không đạt support tối thiểu minsup

2.3.2 Cây quyết định

2.3.2.1 Dinh nghia va ví dụ

Một cây quyết định là mét m6 hinh logic được biéu dién nhu mot cay, cho biét gia tri cua mot biến mục tiêu có thể được dự đoán bằng cách dùng các giá trị của một

tập các biến dự đoán Trên mô hình cây quyết định, mỗi một nút trong tương ứng với

một biến dự đoán, đường nối giữa nó với nút con của nó thể hiện một gia tri cu thé

cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Nó có thể hiểu như là một cách biểu diễn các

Trang 35

Trong do:

Géc : Nút trên cùng của cây

Nút trong : Biểu diễn một kiểm tra trên một thuộc tính

Nhánh : Biểu diễn các kết quả của kiểm tra trên nút

Nút lá : Biểu diễn lớp

Xây dựng cây quyết định

Quá trình xây dựng cây quyết định gồm hai giai đoạn: Giai đoạn thứ nhất phát triển cây quyết định:

Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp

theo cách thức chia để trị cho tới khi đạt được cây quyết định với tất cả các lá được

gán nhãn lớp

Giai đoạn thứ hai cắt, tỉa bớt các cảnh nhánh trên cây quyết định

Giai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độ

chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ lỗi (noise) của dữ liệu dao tao mang tinh chat théng kê, hay những sự biến đổi mà có thể là đặc

tính riêng biệt của đữ liệu đào tạo Giai đoạn này chỉ truy cập dữ liệu trên cây quyết định đã được phát triển trong giai đoạn trước và quá trình thực nghiệm cho thấy giai đoạn này không tốn nhiều tài nguyên tính toán, như với phần lớn các thuật toán, giai đoạn này chiếm khoảng dưới 1% tổng thời gian xây dựng mô hình phân lớp

Do vậy, ở day chung ta chỉ tập trung vào nghiên cứu giai đoạn phát triển cây quyết định Dưới đây là khung công việc của giai đoạn này:

Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước

Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị của thuộc

tính đã chọn

Sắp xếp, phân chia tập đữ liệu đào tạo tới nođe con

Trang 36

Nếu các ví dụ được phân lớp rõ ràng thì dừng Ngược lại: lặp lại bước 1 tới bước 4 cho từng node con

Giải bài toán phân lớp đựa trên mô hình cây quyết định chính là xây đựng một cây quyết định, ký hiệu S, để phân lớp S đóng vai trò như một ánh xạ từ tập dữ liệu vào tập nhãn: S: D — Ƒ

Cây quyết định biểu diễn cho tri thức về bài toán, nó không chỉ phản ánh đúng với tập dữ liệu mẫu huấn luyện mà còn phải có khả năng dự đoán và cung cấp giúp cho người dùng phán đoán, ra quyết định đối với đối tượng trong tương lai mà nhãn

lớp của nó chưa được xác định từ tập dữ liệu chưa biết Quá trình học cây quyết định

gồm có 3 giai đoạn:

+ Tạo cây : Sử dụng các thuật toán phân lớp đề phân chia tập dữ liệu huấn luyện

một cách đệ quy cho đến khi mọi nút lá đều thuần khiết, tức là nút mà tại đó tập mẫu tương ứng có cùng một giá trị trên thuộc tính quyết định Y Sự lựa chọn các thuộc

tính trong quá trình xây dựng cây được dựa trên việc đánh giá lượng lợi ích thông tin

tại mỗi thuộc tính đang xét

+ Cắt tỉa cây : Sau khi tạo cây, cắt tỉa cây quyết định là việc làm rất cần thiết để khắc phục những khiếm khuyết của cây Cắt tỉa cây là cố gắng loại bỏ những nhánh không phù hợp hay những nhánh gây ra lỗi

+ Kiểm định cây kết quả Đề bảo đảm độ chính xác của cây trước khi đưa vào ứng dụng trong thực tế, ta cần phải đánh giá độ chính xác của cây từ đó đưa ra tiêu

chí đánh giá độ tin cậy theo tỷ lệ phần trăm được dự đoán chính xác

Việc tạo cây là giai đoạn quan trọng nhất, nó chính là quá trình tạo ra mô hình

logic cho cây Đề xây đựng cây quyết định, tại mỗi nút trong cần xác định một thuộc

tính thích hợp để kiểm tra, phân chia dữ liệu thành các tập con

Cho tập mẫu huấn luyện D gồm có 7 thuộc tính, z bộ Mỗi thuộc tính bắt ky A;

€D, ta ký hiệu |4¡| là số các giá trị khác nhau của nó và gọi là lực lượng của 44; Số lần xuất hiện mỗi một giá trị aij trong A; ky hiéu la lai; | Với thuộc tính quyết định Y, số lớp cần phân hoạch trong Y chính là lực lượng của Y và ta viết |Y| Như vậy khi

Trang 37

[Ƒ| = 1 thì tất cả các đối tượng trong tập mẫu thuộc cùng một lớp và ta nói chúng là thuần nhất trên V

Trên mỗi tập mẫu huấn luyện, về cơ bản các thuật toán phân lớp đữ liệu bằng cây quyết định phải thực hiện 2 bước sau:

Bước 1: Chọn thuộc tính A¡ có các gia tri ai}, aig, , din

Bước 2: Với thuộc tinh Aj được chọn, ta tạo một nút của cây và sau đó chia tập mẫu này thành & tập mẫu Di, Do, ., De tương ứng với & nút được tạo và sau đó lại

tiếp tục

Bước 2 là bước phân chia với kết quả nhận được từ ðước 1, điều này có nghĩa là chất lượng của cây kết quả phụ thuộc phần lớn vào cách chọn thuộc tính và cách

phân chia tập mẫu tại mỗi nút Chính vì điều này, các thuật toán đều phải tính lợi ích thông tin nhận được trên các thuộc tính và chọn thuộc tính tương ứng có lợi ích thông

tin tốt nhất dé làm nút phân tách trên cây, nhằm để đạt được cây có ít nút nhưng có khả năng dự đoán cao

2.3.2.2 Một số thuật toán xây dựng cây quyết định

Có nhiều thuật toán khác nhau để xây đựng cây quyết định như CLS, ID3, C4.5 nhưng nhìn chung quá trình xây dựng cây quyết định đều được chia là 3 bước cơ bản:

Bước 1: Xây dựng cây

Thực hiện chia một cách đệ quy tập dữ liệu huấn luyện cho đến khi các mẫu ở

mỗi nút là thuộc cùng một lớp

Bước 2: Cắt tỉa cây tối ưu hóa cây, trộn một cây con vào trong một nút lá Bước 3: Đánh giá cây

Đánh giá độ chính xác của cây kết quả, tiêu chí là tổng số mẫu được phân lớp chính xác trên tông sô mâu đưa vào

Trang 38

Quá trình tạo cây xuất phat từ nút gốc với tất cả các mẫu huấn luyện nằm ở nút

gốc sau đó phân chia một cách đệ qui dựa trên thuộc tính tốt nhất được lựa chọn

Thuật toán tạo cây quyết định có những đặc điểm sau: Cây xây dựng đệ qui từ trên xuống

Ở thời điểm bắt đầu, tất cả các mẫu huấn luyện đều ở nút gốc

Các ví dụ mẫu được phan chia đệ qui dựa trên thuộc tính được lựa chọn

Thuộc tính được lựa chọn được xác định dựa trên nền tảng của một định lượng

thống kê

Điều kiện đề đừng việc phân chia:

Tất cả các mẫu huấn luyện đối với một nút thuộc về cùng một lớp

Không còn thuộc tính còn lại nao dé tiếp tục phân chia Không còn mẫu nào còn lại

Trang 39

2.3.2.3 Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu

Ưu điểm:

+ Quá trình xây dựng cây quyết định không dùng kiến thức về lĩnh vực đữ liệu đang nghiên cứu hoặc thông số đầu vào nào

+ Kết quả của quá trình huấn luyện (học) được biểu diễn đưới dạng cây nên dễ hiểu và gần gũi với con người

+ Nhìn chung, các giải thuật cây quyết định cho kết quả có độ chính xác khá cao

Khuyết điểm:

+ Đối với các tập dữ liệu có nhiều thuộc tính thì cây quyết định sẽ lớn (về chiều sâu cả chiều ngang), vì vậy làm giảm độ dễ hiều

+ Việc xếp hạng các thuộc tính để phân nhánh dựa vào lần phân nhánh trước đó

và bỏ qua sự phụ thuộc lẫn nhau giữa các thuộc tính

+ Khi dùng độ lợi thông tin (Information Gain) để xác định thuộc tính rẽ nhánh, các thuộc tính có nhiều giá trị thường được ưu tiên chọn

2.3.2.4 Thuật toán xây dựng cây quyết định dựa vào Entropy Tiêu chí chọn thuộc tính phân lớp

Tiêu chí để đánh giá tìm điểm chia là rất quan trọng, chúng được xem là một tiêu chuẩn “heuristie” để phân chia dữ liệu Y tưởng chính trong việc đưa ra các tiêu chí trên là làm sao cho các tập con được phân chia càng trở nên “trong suốt” (tất cả

các bộ thuộc về cùng một nhãn) càng tốt Thuật toán dùng độ đo lượng thông tin thu

thêm (Information Gain — IG) đề xác định điểm chia [2] Độ đo này dựa trên cơ sở lý

thuyết thông tin của nhà toán học Claude Shannon, độ đo này được xác như sau:

Xét bảng quyết định D7 = (U, C U {d} ), số giá trị (nhãn lớp) có thể của d là k

Khi đỏ Entropy của tập các đối tượng trong DT được định nghĩa bởi:

k

Emiropy( U=->_ Plog ,p,

i=l

Trang 40

Trong đó p¡ là tỉ lệ các đối tượng trong DT mang nhãn lớp i Y nghĩa của đại luong Entropy trong lĩnh vực lý thuyết công nghệ thông tin: Entropy của tập U chỉ ra số lượng bít cần thiết để mã hóa lớp của một phần tử được lấy ra ngẫu nhiên từ tập U Luong théng tin thu thém Unformation Gain - IG) la luong Entropy còn lại khi

tap cac đối tượng trong DT được phân hoạch theo một thuộc tính điều kiện c nao đó

IG xác định theo công thức sau [6]:

IG(U, ¢) = Entropy(U) — >

# |U|

Entropy(U,, )

Trong đó V là tập các giá trị của thuộc tinh c, Uy là tập các đối tượng trong

DĨ có giá trị thuộc tính c bằng v Gia tri IG(U, c) được sử dụng làm độ đo lựa

chọn thuộc tính phân chia dữ liệu tại mỗi nút trong thuật toán xây dựng cây quyết

định ID3 Thuộc tính được chọn là thuộc tính cho lượng thông tin thu thêm lớn

nhất Ý nghĩa của đại lượng IG trong lĩnh vực lý thuyết công nghệ thông tin: IG của tập S chỉ ra số lượng bít giảm đối với việc mã hóa lớp của một phần tử e được lấy ra ngẫu nhiên từ tập U

2.3.2.5 Thuật toán ID3

> Ý tưởng của thuật toán ID3

Thực hiện giải thuật tìm kiếm tham lam (greedy search) đối với không gian các cây quyết định có thê

Xây dựng nút (node) theo chiến lược Top-Down, bat đầu từ nút gốc

Ở mỗi nút, thuộc tính kiểm tra (test attribute) là thuộc tính có khả năng phân loại tốt nhất

Tạo mới một cây con (sub-tree) của nút hiện tại cho mỗi gia tri co thể của thuộc tính kiểm tra, và tập dữ liệu đầu vào sẽ được tách ra thành các tập con tương ứng với

các cây con vừa tạo

Mỗi thuộc tính chỉ được phép xuất hiện tối đa 1 lần đối với bất kỳ đường đi nào

trong cây

Tiêu đề	Ứng Dụng Khai Phá Dữ Liệu Trong Xây Dựng Hệ Hỗ Trợ Quyết Định Chẩn Đoán Gout
Tác giả	Chu Si Thanh
Người hướng dẫn	PGS-TS. Lê Mạnh Thạnh
Trường học	Trường Đại Học Khoa Học - Đại Học Huế
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2020
Thành phố	Thừa Thiên Huế

Định dạng
Số trang	80
Dung lượng	32,33 MB