BO GIAO DUC VA DAO TAO
DAI HOC HUE
TRUONG DAI HOC KHOA HOC
LE VAN TRUYEN
UNG DUNG MO HINH CAY QUYET DINH DE XAY DUNG HE HO TRO
CHUAN DOAN BENH LAO PHOI
CHUYEN NGANH: KHOA HOC MAY TINH MA SO: 8 48 01 01
LUAN VAN THAC SI KHOA HOC DINH HUONG NGHIEN CUU
NGƯỜI HƯỚNG DÂN KHOA HỌC: PGS TS LE MANH THANH
Thira Thién Hué, 2020
Trang 2LOI CAM DOAN
Tôi cam đoan rằng luận văn này : “Ứng dụng mô hình cây quyết định để xây dựng hệ hỗ trợ chuẩn đoán bệnh lao phổi” là bài nghiên cứu của chính tôi Ngoại trừ những tài liệu tham khảo được trích dân trong luận văn này, tôi cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được công bố hay được sử dụng đề nhận bằng cấp ở những nơi khác
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận văn này mà không được trích dân theo đúng quy định
Luận văn này chưa bao giờ được nộp đề nhận bất kỳ bằng cấp nào tại các
trường đại học hoặc cơ sở đào tạo khác
Thừa Thiên Huế, tháng 05 năm 2020
Học viên
Trang 3LOI CAM ON
thành luận văn này, tôi được sự hỗ trợ giúp đỡ rất nhiều từ thầy cô và
đồng nghiệp: Êm xin gửi lời cảm ơn đầu tiên và chân thành nhất đến thầy Lê Mạnh
Thạnh, PGS.TS Khoa công nghệ Thông tin, Trường Đại học Khoa học - Đại học Hué, đã tận tình giúp đỡ, động viên, định hướng, hướng dẫn em nghiên cứu và hoàn thành
luận văn này Em cũng xin gửi lời cảm ơn sâu sắc đến quý Thầy, Cô giảng viên của
Trường Đại học Khoa học - Đại học Huế, đã tận tình giảng dạy và giúp đỡ trong gần
hai năm học qua cảm ơn sự giúp đỡ nhiệt tình của các bạn đồng ngh ep Mặc dù đã hết sức nỗ lực, song do thời gian va kinh nghiệm ng học còn hạn chế nên không thể tránh khỏi những thiếu sót Rất
Trang 4MUC LUC DANH MỤC CÁC BẢNG 222222 222221221222222222 ae i DANH MỤC CAC CHU VIET TAT o.ooccccccccccccccccecec eset ceteeetnteeteees iii DANH MỤC CÁC HÌNH ẢNH - 2222221221222 zxe iv MỞ ĐẦU 2 22 2122212211211221121122222 2122222121222 re 1 Chương 1 TÖNG QUAN HỆ HỖ TRỢ QUYÉT ĐỊNH 3 1.1.1 Tổng quan
1.1.2 Ứng dụng của Hệ hỗ trợ ra quyết định 2©2222222212212221222ee 6
1.2 CÁC BƯỚC XÂY DỰNG HỆ HỖ TRỢ QUYÉT ĐỊNH 7
1.2.1 Mô hình ra quyết định - 222222 221221112211211121112111211212222 e6 7 1.2.2 Các bước xây đựng hệ hỗ trợ quyết định . -222222222222222222-ee 9
1.2.2.1 Giai đoạn tìm kiếm vấn để hoặc nhận biết vẫn đề - 10
1.2.2.2 Giai đoạn thiết kế - 522 22221221112111211121121212122 xe 12
1.2.2.3 Giai đoạn hoạt động lựa chọn - ccc cc St snisierrreesres 13
1.2.3 Phương án tạo lập quyết định ©22- 222 221122122112211221221 22 xe 14
1.3 CÁC THÀNH PHÀN HỆ HỖ TRỢ QUYÉT ĐỊNH . s¿ 15
1.3.1 Câu trúc của hệ hỗ trợ quyết định c2 11122221122 nh ke 15
1.3.2 Các phân hệ của hệ hỗ trợ quyết định . 2-©22222222122212222 22.2 15 1.4 TÔ CHỨC DỮ LIỆU 222 2222222212212212211121121121121221221 2 te 16 1.5 MÔ HÌNH CO SỞ 222222 2222212211211221222221222 re 17 1.6 XÂY DỰNG GIAO DIỆN NGƯỜI DÙNG ©22-2222222222xcsze2 17 17 TIỀU KẾT CHƯƠNG l ©2222222221222122212112112211221.222 te 18
Chương 2 KỸ THUẬT CÂY QUYẾT ĐỊNH TRONG KHAI PHA DU LIỆU 12222221 2121121112 2210101222111 2211212112211 19
2.1 GIỚI THIỆU VẺ KHAI PHÁ DỮ LIỆU 2 222222222222222222222-e2 19
2.1.1 Khai phá đữ liệu 22-222 2221221212211221122122.222 re 19
2.1.2 Các chức năng chính của khai phá dữ liệu ¿5c s:+s+ss5: 22 2.1.3 Ứng dụng của khai phá dữ liệu -2-©222222222222522231223.212 22-2 22
Trang 52.2 MOT SO KY THUẬT TRONG KHAI PHÁ DỮ LIỆU : 24
2 Dede Bh ain lỐDxexssiseerrtersbiritotrtintdtsptirtTtiptiiSToi801N8t518154 080 E1516150T01071218190871100158 24
2.2.2 Phân cụm - L2 1 22211112211 111211 111221111501 11 111111111 x E111 x xxx kn 25
2.3 PHAN LOP DU LIEU BANG CAY QUYÉT ĐỊNH . s¿ 27
2.3.1 Bài toán phân lớp trong khai phá dữ liệu . . :cccscxscss5: 27
2.3.2 Cây quyết định .- 522 22 22222112211211122112211222222222 re 28
2;3:2:1:/Dinh:nphĩa'và: VỀ Uszsots6sx19xiIESTGS-SS-RDAESEIGNHEELEREUEELEHSISĐSNGSIAĐEnB 28
2.3.2.3 Đánh giá cây quyết định trong lĩnh vực khai phá đữ liệu 32 2.3.3 Thuật toán xây dựng cây quyết định dựa vào Entropy 33 2.3.4 Thuật toán I]D3 c2 221212122222 He 34
2.4 TIỂU KẾT CHƯƠNG 2 : 555522 2222221 112222 42
Chương 3 XÂY DỰNG HỆ HỖ TRỢ CHUAN ĐOÁN BỆNH LAO
090001010 43
3.1 HIỆN TRẠNG BỆNH LAO Ở HUYỆN SÔNG HINH 43
3.1.1 Tình hình bệnh lao trên thế giới và ở Việt Nam .-. .ss: 43
3.1.2 Đặc điểm bệnh lao và triệu chứng thường gặp -c.¿ 44
3.1/2.1:.Bệnh lao lã bệnh nhiềm khUngsssssssssossnsrasrarirdagtarinorninoa 44
3.1.2.2 Dấu hiệu nghi ngờ và phương pháp phát hiện bệnh lao 45
3.1.2.3 Các dấu hiệu nhận biết sớm bệnh lao "
3.1.2.4 Chan đoán lao phối - 22 2222222212221221112211211221212 e6
3.1.2.5 Phân loại chẵn đoán dựa theo xét nghiém soi dom trực tiép tim AFB 3.1.3 Tình hình bệnh lao tại huyện Sông hinh an: na 50 3.2 XÂY DỰNG HỆ THỐNG 222 22222211221211211221122112222 te 51 3.2.1 Xây dựng CSDL ©222-222222222111222112211112111222111222112 2 xe 51 3.2.1.1 Kho chứa dữ liệu bệnh án dién tt Jl 3.2.1.2 Tiền xử lý dữ liệu -©2-2222221221112111211121122121222 xe 52 3.2.2 Mô hình hệ thống - 22 22 222122122212211211211211211222222 ae 54 3.2.2.1 Yêu cầu - 22 222221221112111211121112122112122122222 ra 54 3.2.2.2 Biến đổi cây quyết định thành luật -22222222222222212221222ee 77
3.2.3 Giao diện chương trình -ccc c1 t1 12 11H Hy HH Ha Hee 78
Trang 6KET LUAN VA HUONG PHAT TRIEN ccccccccccccssescsvesesvesesvaeseeveeees TAT LIEU THAM KHAO cceccecessecssesesseseseeeseevereseseseseresteueresvereateees
Trang 7DANH MUC CAC BANG
Bảng I.1 Bảng số liệu kinh doanh 22222 222222122212212221222222221 2 xe 5 Bảng 1.2 Bảng Pay-o L n1 nh TH HH HH Hà ket 5 Bảng 1.3 Bảng lợi nhuận - 32: 212 12 12 E8 HH HH He Hee 6
Bảng 1.4 Phân phối xác xuất 6
Bang 2 I Bảng đữ liệu huấn luyện -2- 222222 22122212221122122212122 22 e6 35 Bang 2 2 Tính giá trị các Entropy và ÏnfOrgain -.:cccccccccccscxscrey 36
Bảng 2 3 Bảng dữ liệu huấn luyện đã loại bỏ thuộc tính “ độ Âm” 38
Bang 2 4 Tính giá trị các Entropy và Inforgain sau khi loại thuộc tính “độ HH” phụng nggphitfltEDNREENGHNIHNGGHDIGEOHGERGGSEHRGBNENDIGHHRRBHESISTUDGNJTHESDNSTNGEDNSftAGiiAoeBNi 39 Bảng 2 5 Tính giá trị các Entropy va Inforgain cho nhánh “trung bình” 40
Bang 3.1 Bang phân loại thể trạng cơ thể theo chỉ số BMI - 52
Bảng 3.2 Bảng dữ liệu các thuộc tính .-c ccS sen hHrereere 52 Bảng 3.3 Bảng dữ liệu huấn luyện được lấy từ hồ sơ bệnh án và các chuyên gia 54
Bảng 3.4 Bảng huấn luyện ứng với các thuộc tính -©22-22222zc2zxce Bảng 3.5 Tính giá trị các Entropy và Inforgain của tất cả thuộc tính Bảng 3.6 Bảng dữ liệu huấn luyện đã loại bỏ thuộc tính B
Bảng 3.7 Tính giá trị các Entropy và Inforgain sau khi loại thuộc tính B 60
Bảng 3.8 Tập huấn luyện ứng với giá trị “có” của thuộc tính € 61
Bang 3.9 Tính giá trị các Entropy và Inforgain sau khi loại thuộc tính C 62
Bảng 3.10 Tập huấn luyện ứng với giá trị “Không” của thuộc tính E 63
Bảng 3.11 Tính giá trị các Entropy và Inforgain sau khi loại thuộc tinh E .63
Bảng 3.12 Tập huấn luyện ứng với giá trị “To” của thuộc tính D 64
Bang 3.13 Tính giá trị Entropy và Inforgain của A ứng với nhánh trái của D 64
Bảng 3.14 Tập huấn luyện ứng với giá trị “Có” của B 2cs2ccce 65 Bảng 3.15 Tính giá trị các Entropy và Inforgain ứng với nhánh trái B 66
Bảng 3.16 Tập huấn luyện ứng với giá trị “Thấp” của A 67
Bảng 3.17 Tính giá trị các Entropy và Inforgain sau khi loại bỏ A 67
Bảng 3.18 Tập huấn luyện ứng với giá trị “Không” của E - 68
Bảng 3.19 Tính giá trị các Entropy và Inforgain sau khi loại bỏ E 69
Trang 8Bang 3.22 Bang 3.23 Bang 3.24 Bang 3.25 Bang 3.26 Bang 3.27 Bang 3.28 Bang 3.29 Bang 3.30 Bang 3.31
Tập huấn luyện ứng với nhánh trái của C
Tinh gia tri Entropy va Inforgain của D ò cà cccsessxsres
Tập huấn luyén tng sau khi loai b6 Aw eee eects
Tính giá trị các Entropy và Inforgain sau khi loại A 73 Tập huấn luyện ứng sau khi loại bỏ C -22222zc22zc2zxcsze 74 Tính giá trị các Entropy va Inforgain sau khi loại C 74 Tập huấn luyện ứng sau khi loại bỏ D
Tinh giá trị Entropy và Inforgain của E -.ccccccccccssexeres 75 Tập huấn luyện ứng với giá trị “Vừa” của D -.sccsce 76 Tính giá trị Entropy và Inforgain của E ứng với nhánh trái của D 76
Trang 9“Có? ‘Khong’ {1,03 {0,-1)
Hình 3.10 Cây sau khi chọn thuộc tính C làm nút con trái của E
Nhánh trái của nút C có Entropy bằng không nên không phát triển tiếp theo hướng này, với nhánh phải ta phải của nút C tìm trong thuộc tính D làm nút con phải
Ứng với nút này ta có bảng dữ liệu:
Bảng 3.22 Tập huấn luyện ứng với nhánh trái của C STT D F 1 Vừa No 2 Vừa Yes 3 Không | No
Tiếp tục tính Entropy ứng với thuộc tính D đề xác định nhánh: Bảng 3.23 Tính giá trị Entropy và Inforgain của D
Có (0 Yes, 0 No) H(Sc)=- 0/0*log(0/0)-0/0*log(0/0)=0 Thuộc tính D | Vừa (1 Yes, I No) H(Svu)=- 1/2*log(1/2)-1/2*log(1/2)E0.3
Khong (0 Yes, 1 No) | H(Sknang)=- 0/1*#log(0/1)-1/1*log(1/1)=0
H(D,S)= 0/3*0+2/3*0.3+1/3*0=0.2
Như vậy D là thuộc tính được chọn cho nút con phai cua C Ứng VỚI giá tri “vừa” của thuộc tính D có thuộc tính quyết dinh F (1 gia tri Yes va 1 giá trị No) Vì
Trang 10DANH MUC CAC HiNH ANH
Hinh 1.1 Quy trinh ra quyt Gin sassessssssosorsnons Rhee REE 10
Hình 1.2 Phương pháp truyền thông trong tạo lập quyết định -. :-: 14
Hình 1.3 Tạo lập quyết định có sử dụng tri thức -©22-22222212221222122 xe 14 Hình 1.4 Các thành phần của hệ hỗ trợ quyết định Hình 1.5 Hệ quản trị dữ liệu -:-: 16
Hình 1.6 Hệ quản trị mô hình - c3 t2 121121121 E1E2351EEEEEEEEtErytrH nà tret 17 Hình 1.7 Hệ giao diện người dùng c2: 211 2n HH HH HH Ha Hee 18 Hình 2.1 Quá trình khai phá dữ liệu 2 1212122121 2t 1t he teg 20 Hình22 Phân,lớp đữ TIỀU sisczzsisersissensirtsetitittdfidgEROSSSERGRHDVESRNfDtSGiABN( Rosznual 25 Hình 2.3 Mô phông sự phân cụm -2-22222122212212211221221211212122 2 e0 26 Hình 2.4 Ví dụ về cây quyết định . -2222222221122122212122222222 xe 29 Hình 2 5 Cây sau khi chọn thuộc tính Độ Âm 85) 38
Hình 2 6 Cây sau khi chọn thuộc tính Quang cảnh (ID3) csccccsccs+s: 40 Hình 2 7 Cây kết quả (ID3) -©222222212212221222121122112112222222 2e 42 Hình 3.1 Mô hình xây đựng giải pháp hỗ trợ chuẩn đoán bệnh - 51
Hình 3.2 Cây sau khi chọn được thuộc tính B làm nút gốc Kin 59 Hình 3.3 Cay sau khi chon thudc tinh Coo ceceeeececeeeeeeeceeeeneeeeesenseneseeeseneenes 61 Hình 3.4 Cay sau khi chon thudc tinh Eo ceceeeececeeeneeceeseneeeeeenseneeteeenreaes 62 Hình 3.5 Cây sau khi chọn thuộc tính DD 2c c 2: 2112211 1tr tet 63 Hình 3.6 Cây sau khi chọn thuộc tính A -. .c2c <2: 64
Hình 3.7 Cây sau khi chọn thuộc tính A làm nhánh trái của cây
Hình 3.8 Cây sau khi chọn thuộc tính E làm nhánh phải của A 68
Hình 3.9 Cây sau khi chọn thuộc tính D làm nút con phải của E 69
Hình 3.10 Cây sau khi chọn thuộc tính C làm nút con trái của E 7]
Hình 3.11 Cây sau khi chọn thuộc tính D làm nhánh phải của C 72
Hình 3.12 Cây sau khi chọn thuộc tính C làm nút con trái của A 73
Hình 3.13 Cây sau khi chọn thuộc tính D làm nút con phải của C 75
Hình 3.14 Cây sau khi chọn thuộc tính E làm nút con trái của D 76
Hình 3.15 Kết quả phân lớp bằng thuật toán ID3 -2-22222222212221221222ee 77
Hinh-3:.16::Giao:dién dain pan ha pecs seven cesses vere mecers meen wenn reser names nmeeneemeet 78
Trang 11MO DAU
Bệnh lao phổi là một bệnh truyền nhiễm nhiều người mắc, tỷ lệ tử vong cao và có tính chat dé lay lan trong cộng đồng Ở Việt Nam bệnh lao được xếp vào nhóm các bệnh nhiễm khuẩn cao và nằm trong 25 bệnh nghề nghiệp được bảo hiểm Những năm gần đây vấn để kiểm soát lây nhiễm đã được Tổ chức Y tế Thế giới ( TCYTTG ) ưu tiên quan tâm như một cầu phần cơ bản trong kiểm soát bệnh lao nhất là lao đa kháng, lao siêu kháng thuốc, trong đó vấn đề kiểm soát và phòng ngừa lây nhiễm lao trong cộng đồng Ngày nay bệnh lao không còn là " 7# cứng nan y " nữa nhưng vẫn tram
trọng ở các nước đang phát triển, cùng với sự bùng nỗ của đại dịch HIV/AIDS, bệnh
lao đang quay trở lại ngay cả những nước phát triển Bệnh lao không những gây tổn
hại cho sức khỏe, thu nhập cá nhân người bệnh mà còn gây tốn hại đến kinh tế và sự
phát triển của mỗi gia đình, cộng đồng và của Quốc gia Tuy nhiên bệnh lao có thé
chữa khỏi mà không để lại di chứng gì nếu được phát hiện sớm, điều trị kịp thời Bệnh
lao có thể hoàn toàn phòng tránh được Công tác giáo dục truyền thông cho người dân về sức khỏe nói chung và bệnh lao nói riêng ngày càng được đây mạnh và tiến hành thường xuyên nhằm mục đích nâng cao kiến thức của nhân dân về bệnh lao, giúp cho
người dân tự phát hiện các dấu hiệu nghi lao để chủ động đi khám, phát hiện sớm và
người bệnh thực hiện tốt các quy trình điều trị có kiểm soát Đồng thời biết cách tuyên truyền cho người khác
Sông Hinh là huyện miễn núi nằm phía tây nam của tỉnh Phú Yên Trên địa bàn
có 20 dân tộc anh em sinh sống, mỗi dân tộc đều có bản sắc văn hóa riêng, trình độ
dân trí còn thấp, phong tục tập quán của mỗi đồng bào dân tộc khác nhau, do thiếu hiểu biết nên trong nhân dân ta còn nhiều suy nghĩ không đúng về bệnh lao Do đó
tình hình nhiễm lao ở địa bàn huyện Sông Hinh còn ở mức độ cao, bệnh lao kháng
thuốc, lao/HIV có xu hướng tăng Điều đó đòi hỏi cần phải tăng cường công tác mạnh mẽ hơn nữa cho công tác phòng chống lao như công tác tuyên truyền phòng chống
lao, đặc biệt công tác phát hiện và điệu trị bệnh lao đạt hiệu quả cao trên địa bản
Trang 12Chính vì vậy, tôi chọn để tài nghiên cứu: “Ứng dụng mô hình cây quyết định để xây dựng hệ hỗ trợ chuẩn đoán bệnh lao phổi”, nhằm hỗ trợ chuân đoán giúp các y bác sỹ chuyên khoa có thể đưa ra chuẩn đoán chính xác và có cách điều trị phù hợp Đồng thời, cung cấp thông tin liên quan đến bệnh lao, hướng dẫn cho bệnh nhân và người nhà biết được nguy cơ đề phòng tránh và điều trị bệnh lao, giảm thiểu tỷ lệ mắc bệnh, nguy cơ biến chứng và tử vong cho người bệnh
Nội dung chính luận văn gồm 3 chương Chương 1 Tổng quan vẻ hệ hỗ trợ quyết định
Trong Chương l tôi trình bày các thành phần cơ bản của hệ hỗ trợ quyết định, nó là cơ sở để xây dựng hệ hỗ trợ quyết định chuẩn đoán bệnh Trong các thành phần của hệ hỗ trợ quyết định thì thành phần cơ bản nhất là mô hình Trong luận văn này thì mô hình được chọn là mô hình cây quyết định trong khai phá dữ liệu
Chương 2 Kỹ thuật cây quyết định trong khai phá dữ liệu
Trong chương 2, luận văn giới thiệu kỹ thuật cây quyết định trong khai phá dữ liệu những thành phần cơ bản nhất của khai phá dữ liệu và ứng dụng của khai phá dữ
liệu, tuy nhiên để giải quyết trọng tâm bài toán mà mục tiêu luận văn cần đạt đến,
luận văn giới thiệu phân lớp dữ liệu bằng cây quyết định và một số thuật toán ID3 và sẽ sử dụng trong xây dựng ứng dụng của Chương 3
Chương 3 Xây dựng hệ hỗ trợ chuẩn đoán bệnh lao phối
Trong chương này, luận văn đã trình bày quá trình thu thập dữ liệu từ nhiều
nguồn khác nhau Trên cơ sở dữ liệu thu thập được tôi đã sử dụng thuật toán [D3 để
Trang 13Chương 1 TỎNG QUAN HỆ HỖ TRỢ QUYÉT ĐỊNH
1.1 HE HO TRO QUYET ĐỊNH
1.1.1 Téng quan
Trong cuộc sống hằng ngày, mỗi người trong chúng ta đều phải đưa ra nhiều quyết định liên quan đến các sinh hoạt cá nhân như: ăn gì, uống gì, mặc gì, làm gì,
khi nao, ở đâu, với al, đó là các quyết định rất bình thường
Trong lĩnh vực kinh doanh, vai trò đặc trưng chung của nhà quản lý là trách nhiệm đưa ra các quyết định, từ các quyết định quan trọng như phát triển một loại sản phẩm mới, giải thể công ty đến các quyết định thông thường như tuyển nhân viên, xác định kế hoạch sản xuất hàng tháng, hàng quý Việc ra quyết định thâm nhập vào
cả bốn chức năng của nhà quản lý gồm hoạch định, tổ chức, chỉ đạo và kiểm tra, vì
vậy nhà quản lý đôi khi còn được gọi là người ra quyết định
Quyết định là một lựa chọn về đường lối hành động (Simon 1960; Costello &
Zalkind 1963; Churchman 1968), hay chiến lược hành động (Fishbumn 1964) dẫn đến một mục tiêu mong muốn (Churchman 1968)
Ra quyết định chính là một quá trình lựa chọn có ý thức giữa hai hay nhiều phương án đề chọn ra một phương án tạo ra được một kết quả mong muốn trong các
điều kiện ràng buộc đã biết
Việc ra quyết định luôn luôn cần phải xử lý một lượng kiến thức nhất định nào đó Kiến thức chính là nguyên liệu (đầu vào) và cũng là thành phẩm (đầu ra) của việc ra quyết định Lượng kiến thức này cần được sở hữu hoặc tích lũy bởi người ra quyết định
Bản chất của việc hỗ trợ ra quyết định chính là việc cung cấp các thông tin, tri thức thể hiện qua các tương tác người — máy hoặc thông qua các mô phỏng
Chất lượng của quyết định phụ thuộc vào chất lượng của thông tin cung cấp cho người ra quyết định
Trang 14Quyết định là quá trình lựa chọn có ý thức giữa hai hay nhiều phương án dé chọn ra một phương án tạo ra được một kết quả mong muốn trong các điều kiện ràng
buộc đã biết
Ra quyết định là quá trình lựa chọn có ý thức giữa hai hay nhiều phương án để chọn ra một phương án tạo ra được một kết quả mong muốn trong các điều kiện ràng
buộc đã biết
Little (1970): HHTQD 1a tap cac thu tục dựa vào các mô hình để xử lý dữ liệu
và phán xét nhằm trợ giúp các nhà ra quyết định
Moore & Chang (1980) cho rằng tính cấu trúc trong các định nghĩa trước đây không thật sự có ý nghĩa vì rằng bài tốn mơ tả là có cấu trúc hay phi cấu trúc chỉ tương ứng theo người ra quyết định/tình huống cụ thể Vì vậy, nên định nghĩa HHTQĐ như là hệ thống hỗ trợ các mô hình quyết định và phân tích dữ liệu tùy biến, được sử dụng ở các khoảng thời gian bất kỳ, không hoạch định trước
Bonezek et al (1980) cho rằng HHTQĐ là một hệ máy tính gồm 3 thành phần tương tác với nhau: hệ thống ngôn ngữ (cơ chế đê giao tiếp giữa người dùng và các
thành phan khac), hé kiến thức (kho lưu chứa các kiến thức của lĩnh vực đang xét
dưới dạng dữ liệu hay thủ tục) và ñệ xử lý vấn đề (liên kết giữa 2 thành phần kia, chứa
một hay nhiều năng lực xử lý vấn đẻ tổng quát cần để ra quyết định)
Keen (1980) áp dụng thuật ngữ HHTQĐ cho các tình huống ở đó hệ thống cuối cùng chỉ có thê được xây dựng bằng một quá trình thích nghi về học tập và tiến hóa Vì vậy, HHTQĐ là sản phẩm của quá trình phát triển ở đó người đùng hệ thống người xây dựng hệ thống và bản thân hệ thống có khả năng ảnh hưởng lên nhau gây ra một tiến hóa và khuôn mẫu sử đụng
HHTỌĐ là hệ thống thông tin hỗ trợ bằng máy tính có thể thích nghỉ linh hoạt và tương tác với nhan đặc biệt được phát triển đề hỗ trợ một vấn đề quản lÿ không có cấu trúc nhằm cải tiễn việc ra quyết định Nó tập hợp đữ liệu cung cấp cho người sử dụng một giao điện thân thiện và cho phép tự ra quyết định một cách sáng suốt
Nó hỗ trợ tất cả các giai đoạn của việc ra quyết định và bao gồm cả một cơ sở tri
Trang 15Ví dụ: Giả sử số liệu kinh doanh một cửa hàng bán cam trong 90 ngày qua thống kê được tổng hợp trong bảng sau:
Bảng 1.1 Bảng số liệu kinh doanh Doanh thu/ngày Số ngày Xác suất (thực nghiệm) 10 hòm 18 0.2 11 hòm 36 0.4 12 hòm 27 0.3 13 hòm 9 0,1
Ngoài ra cũng biết rằng, mỗi hòm cam cho lợi nhuận 5 USD (mua vào 3
USD, bán ra § USD) nếu bán được, nếu không bán được thì bị thất thu 3 USD
Hãy đưa ra quyết định: Mỗi ngày cần đặt mua dự trữ (đặt hàng dự trữ) bao nhiêu
hòm cam để việc kinh doanh là hiệu quả nhất
Trước hết cần xây đựng bảng pay-off như trong bảng sau (với các trạng thái
được liệt kê theo hàng, còn các hành động đặt hàng được liệt kê theo cột) Bảng 1.2 Bảng Pay-off
Nhu cầu thị trường
Giá trị lợi nhuận Q, Ø; Ø; O4
10 hom 11 hom 12 hom 13 hom Hanh ay 10 hom 50 50 50 50 dong a2 10 hom 47 55 55 55 dat a3 10 hom 44 52 60 60 hang a4 10 hòm 41 49 57 65
Giai thich: Néu sé lượng đặt hàng dự trữ là 11 hom, ma nhu câu thị trường lại chỉ là 10 hòm thì giá trị lợi nhuận thu được là 10 x Š5 - 3 = 47 USD Các giá trị lợi nhuận khác được tính tương tự
Trang 16Bảng 1.3 Bảng lợi nhuận Lợi nhuận 50 50 50 50 P 0.2 04 | 03 0.1
Với phương án a› bảng phân phối xác suất của giá trị lợi nhuận khi cửa hàng
dat mua | hom la
Bang 1.4 Phân phối xác xuất Lợi nhuận 47 55 55 55 P 0.2 04 | 03 0.1
Vay kỳ vọng lợi nhuận của phương án nay la EP2 = 47 x 0,2 +55 x0,4+55x
0,3 + 55 x 0,1 = 53,40 USD Tuong tu, có thể tính được với phuong an a3: EP3 = 53,6 và với phương án aa: EP4 = 51,40 So sánh các giá trị kỳ vọng lợi nhuận tính được, chúng ta quyết định chọn phương án aa tức là đặt mua 12 hòm cam Kí hiệu X là giá trị lợi nhuận đạt được hàng ngày của cửa hàng kinh doanh cam, ta co EP; = E(X/ai) = 50, trong do E(X/a1) duoc hiéu la ky vọng lợi nhuận với điều kiện cửa hàng
đặt mua hàng theo phương án ai Tương tự, chúng ta cũng có: EP¿= E(ŒX/a2) = 53,4; EP: = EŒ/a:) = 53,6; EPa = E@X/aa¿) = 51,4
1.1.2 Ứng dụng của Hệ hỗ trợ ra quyết định
Hệ hỗ trợ ra quyết định được ứng dụng vào nhiễu lĩnh vực hiện nay như:
Kinh doanh — thương mại:
Xác định thói quen mua hàng của khách hàng Dự đoán chu kỳ kinh doanh sản phẩm
Liên hệ giữa khách hàng và yếu tố khác Xác định khách hàng tiềm năng khách hàng
-_ Dự đoán hiệu quả của một đợt quảng cáo, tiếp thị Thương mại — điện tử:
-_ Phân tích hoạt động duyệt Web đề phân tích sở thích của khách hàng Ngân hàng:
- Dự đoán các dấu hiệu của một cuộc giao dịch trái luật
Trang 17- Du doan mui do của các khoản cho vay -_ Xác định nhân tế dẫn đến vỡ nợ Vay -_ Liên hệ các chỉ số tài chính đến hoạt động ngân hàng Bảo hiểm : -_ Loại khách hàng có rủi ro cao, gian lận -_ Xác định khách hàng tiềm năng -_ Xác định các đối tượng sẽ trở thành khác hàng Viễn thông :
-_ Nhận biết các dấu hiệu của cuộc gian lận dịch vụ
- Xu thé phát triển khách hàng, đối tượng, khu vực cần pháttriển
Y tế:
-_ Chuẩn đoán bệnh qua các triệu chứng
-_ Liên hệ giữa các loại bệnh
- Dự doán hiệu quả của một cuộc phẫu thuật, điều trị
1.2 CÁC BƯỚC XÂY DỰNG HỆ HỖ TRỢ QUYÉT ĐỊNH 1.2.1 Mô hình ra quyết định
Mô hình ra quyết định
- Xác định vấn đẻ
- Phân tích nguyên nhân
- Đưa ra các phương án / giải pháp - Chọn giải pháp tối ưu
- Thực hiện quyết định
- Đánh giá quyết định
Xác định vấn đề
Giai đoạn đầu tiên khi ra quyết định là phải nhận ra được rằng vấn để đang tồn
tại đòi hỏi một quyết định
Trước khi bạn bắt đầu quá trình ra quyết định, hãy chắc chắn là quyết định mà bạn sắp đưa ra thật sự là quyết định mà bạn phải làm Nếu không như vậy thì bạn hãy
Trang 18Nhận biết vẫn đề
- Tìm xem có những khác biệt nào giữa thực tế đang tổn tại và điều mà bạn cho
là “tiêu biểu”
- Xem xét mối quan hệ nhân - quả
- Hỏi ý kiến những người trong cương vị để đưa ra được những triển vọng khác nhau hoặc đề hiệu biết đúng ban chất của tình huống ra quyết định
- Xem xét tình huống từ những góc độ khác nhau
- Phải cởi mở khi chấp nhận rằng thậm chí bạn có thể là một phần của nguyên nhân gây ra van dé
- Quan tâm theo đõi kết quả công việc nếu như nó không diễn ra như kế hoạch - Chú ý các vấn dé xảy ra có tình chất lặp đi lặp lại Điều này thường cho thấy là chúng ta chưa hiểu vấn đề một cách đầy đủ
Vấn đề có thể được nhận biết sớm hơn nhờ
- Lắng nghe và quan sát nhân viên để biết được những lo ngại của họ đối với công việc và những cảm nghĩ của họ đối với các đồng nghiệp và ban quản lý
- Đề ý đến hành vi không bình thường hoặc không nhất quán điều này phản ánh
một số vấn để còn che đậy bên dưới
- Nếu được, tiếp tục nắm bắt các thông tin về những việc mà đối thủ hoặc người
khác đang làm
Một khi bạn nhận biết được vấn để hoặc tình huống “thực”, và hiểu những
nguyên nhân của nó thì bạn phải đưa ra một trong những quyết định đầu tiên của
bạn
Quyết định xem có phải
- Không làm gi cả hay không (việc quyết định “không đưa ra quyết định gì cả” cũng là một quyết định)
- Chỉ quan sát van dé va trở lại vấn đề vào một ngày khác - Thử kiểm tra vấn dé
- Cứ tiến tới tìm kiếm một giải pháp và đưa ra nhiều quyết định hơn
Trang 19- Thành kiến thiên lệch do nhận thức:
+ Bảo thủ
+ Ảnh hưởng chính trị bởi người khác
+ Mô hình trí năng: mỗi người nhận thức vấn để với một khía cạnh khác nhau
- Kỹ năng phân tích kém:
+ Không rõ những gì đang xây ra hay gán cho nó 1 vấn để gì đó
+ Thiếu thời gian
+ Tình huống phức tạp + Coi giải pháp là vấn đề
Xác định vẫn đề một cách hiệu quả
- Ý thức được những hạn chế về mặt nhận thức
- Xem xét các mối quan hệ nhân quả - Thảo luận tình huống với các đồng sự
- Xem xét van dé dưới nhiều góc độ khác nhau
- Có đầu óc cởi mở, thậm chí chấp nhận rằng đôi khi chính bạn là một phần
nguyên nhân của vấn đề
- Theo dõi kết quả công việc, kịp thời phát hiện những bất thường khi việc không
diễn ra theo như kế hoạch
- Sử dụng công nghệ thông tin
1.2.2 Các bước xây dựng hệ hỗ trợ quyết định
Trang 20GIAL DOAN Tim HEU
xe định mục tiêu tô chức: tap hop do meu „ phsết biéu cho dé bai toan Va phat biéu van dé [#=see+e= ]xẾ, GIAI DOAN THIET KE
Thiết tập mớ hình Lập bồng tiéu chudn chon va Tim kiếm các phương an
lien đoàn va do Weng các kết cục:
Kiém the gigi pháp mun §, đề xuất SIAI DOAN LIA CHON Ke — [iat phap cho Phan tich do nnay c&éc m6 hinh chen (cac: G an tốt nhật Hoach dinh viéc thie hién THiệm thực các giải pháp Hình 1.1 Quy trình ra quyết định
1.22.1 Giai đoạn tìm kiểm vẫn đề hoặc nhận biết vẫn đê
Bước này liên quan đến việc tìm kiếm môi trường cho điều kiện yêu cầu quyết định
Qua trình tìm kiếm có các đặc điểm khác nhau tùy thuộc vao việc nó có thể được cấu trúc và liệu nó là liên tục hay adhoc
Những khác biệt này được tóm tắt trong ba loại tìm kiếm: 1 Tìm kiếm phi cấu trúc
2 Tìm kiếm achoc cấu trúc
3 Cấu trúc tìm kiếm liên tục
¢ Tim kiếm phi cấu trúc
Trong nhiều trường hợp, thuật toán tìm kiếm hoặc thông minh không thể được chỉ định Hệ thống hỗ trợ quyết định phải cho phép người dùng tiếp cận nhiệm vụ theo phương pháp heurist thông qua thử nghiệm và lỗi thay vì thiết lập lại các bước logic cỗ định Hỗ trợ tìm kiếm phi cấu trúc chủ yếu dựa trên quyền truy cập linh hoạt
vào cơ sở dữ liệu
Người dùng cần có khả năng thực hiện các chức năng như truy xuất, quét bản trình bày, phân tích và so sánh trên dữ liệu để khám phá các mối quan hệ mới và kết
Trang 21luận mới chưa được xác định trước đây
Các hệ thống tương tác tăng cường hiệu suất tìm kiếm phi cấu trúc bằng cách cho phép người dùng thay đổi các thông số của vấn dé và nhanh chóng thấy tác dụng của chúng Trong một số trường hợp, hỗ trợ hệ thống có thể bao gồm hệ thống thông tin phân tích và mô hình đại diện trong các trường hợp khác hỗ trợ hệ thống có thể là hệ thống ngăn kéo tệp có quyền truy cập nhanh vào cơ sở dữ liệu
¢ Tim kiếm cấu trúc adhoc
Nhiều vấn đề và cơ hội không xây ra thường xuyên đủ để được xử lý bằng tìm kiếm thông thường Tuy nhiên, quá trình tìm kiếm có thể được cấu trúc Ví dụ: vị trí nhà máy có thể là một vấn dé đối với một công ty mở rộng, nhưng nó có thê không xây ra với tần suất đủ để biện minh cho cơ sở đữ liệu và quét thường xuyên cho các vị trí của nhà máy
Thay vào đó, quy trình thông minh được cấu trúc, nhưng nó chỉ được áp đụng khi các chỉ số khác gợi ý sự cần thiết của nó Hỗ trợ hệ thống cho các hệ thống thông
tin Phân tích có cấu trúc và các mô hình đại diện có thể được sử dụng
* Cấu trúc tìm kiếm liên tục
Một số lĩnh vực có vấn để, chẳng hạn như số dư hàng tồn kho và giá sản phẩm so với đối thủ cạnh tranh, có cấu trúc tương đối và có thê được kiểm tra thường xuyên
Hệ thống báo cáo định kỳ cung cấp dữ liệu điều kiện hỗ trợ loại tìm kiếm này Các
hệ thống hỗ trợ quyết định cho phép mở rộng phạm vi, số lượng và tần suất của thông
tin đầu ra với việc quét tat cả các chỉ số đã biết về các vấn đề hoặc cơ hội tiềm ẩn Đầu ra có thể được sản xuất trên cơ sở định kỳ hoặc bất cứ khi nào phát hiện ra vấn để hoặc cơ hội Hệ thống phân tích dữ liệu và hệ thống goi y co thé hé tro loai
tìm kiếm này Bước thứ hai trong giai đoạn này được gọi là xây dựng vấn để hoặc cấu trúc vấn để, xây ra khi nhiều thông tin được tìm kiếm đề xác định vấn đề rõ ràng hơn
Giai đoạn đầu ra quyết định này có khả năng ảnh hưởng đến hướng của tất cả các giai đoạn thành công Trong bước này, người ra quyết định hình thành một mô
hình tinh thần của vấn đẻ
Trang 22Mô hình tinh thần phản ánh sự hiểu biết của người quản lý về cấu trúc vấn đề Cấu trúc vấn đề đề cập đến các biến xảy ra trong vấn đề và cách chúng tương tác Do
đó, đại diện định tính của vấn để được hình thành mạnh mẽ ảnh hưởng đến lĩnh vực
của các giải pháp có thể Nghiên cứu đã chỉ ra rằng đồ họa máy tính rất hữu ích trong
việc hỗ trợ vẫn đề hữu ích trong việc mô tả và truyền đạt nhận thức của người dùng về cấu trúc của một vấn đẻ
1.2.2.2 Giai đoạn thiết kế
Sau giai đoạn tìm kiếm vẫn để hoặc nhận biết cơ hội, giai đoạn thiết kế bao gồm
phát minh, phát triển và phân tích các khóa hành động có thé Hỗ trợ cho giai đoạn thiết kế nên cung cấp các quy trình lặp trong việc xem xét các lựa chọn thay thế
s* Các bước lặp sau đây là điển hình -_ Hỗ trợ fìm hiểu vấn đề
Một mô hình chính xác của tình huống cần được áp dụng hoặc tạo ra, và các giả định của mô hình được thử nghiệm
» Hỗ trợ tạo giải pháp
Việc tạo ra các khóa học hành động có thể được hỗ trợ bởi:
a Bản thân mô hình Thao tác của mô hình thường xuyên cung cấp cái nhìn sâu sắc dẫn đến việc tạo ra các ý tưởng giải pháp
b Hệ thống truy xuất cơ sở dữ liệu Các khả năng truy xuất mang lại dữ liệu hữu ích trong việc tạo ra các ý tưởng giải pháp
Trong nhiều trường hợp, mô hình thiết kế sẽ cung cấp một giải pháp được để xuất Ví dụ, một mô hình sắp xếp lại hàng tồn kho có thể để xuất một giải pháp cho vấn đề đặt hàng bao nhiêu Số lượng này là một gợi ý có thể được sửa đổi, nhưng nó đại diện cho một giải pháp khả thi (và có lẽ là một giải pháp tối ưu dựa trên các yếu tố trong mô hình)
Thông thường hệ thống hỗ trợ quyết định sẽ dẫn đắt người dùng trong chiến lược tìm kiếm hợp lý cho các giải pháp Ví dụ: quy trình tìm kiếm giải pháp có thé bắt đầu bằng một bộ câu hỏi liên quan đến các giải pháp phô biến Những câu hỏi này
có thể được theo sau bởi một loạt các câu hỏi hỗ trợ người ra quyết định xem xét tất cả các lựa chọn thay thế
Trang 23Ưu điểm của phương pháp tiếp cận có cấu trúc là chúng hỗ trợ khám phá một cách có hệ thống không gian quyết định thông thường; nhược điểm là xu hướng triệt tiêu tìm kiếm bên ngồi khơng gian quyết định thông thường
-_ Hỗ trợ kiểm tra tính khả thi của các giải pháp
Một giải pháp được kiểm tra tính khả thi bằng cách phân tích nó theo các môi
trường mà nó ảnh hưởng đến khu vực có vấn đề, toàn bộ tổ chức, đối thủ cạnh tranh và xã hội Việc phân tích có thể được thực hiện một cách thận trọng đối với các biện
pháp rộng rãi của môi trường của họ Một cách tiếp cận khác là phân tích các giải pháp được đề xuất bằng cách sử đụng các mô hình của môi trường khác nhau Những mô hình này thường sẽ liên quan đến các chương trình máy tính và cơ sở đữ liệu Cơ
sở mô hỉnh trong MIS toàn diện sẽ có một số mô hình như Vậy có thể được sử dụng
trong các giải pháp thử nghiệm
1.2.2.3 Giai đoạn hoạt động lựa chọn
Các nhiệm vụ chính trong giai đoạn lựa chọn là đánh giá các lựa chọn thay thế có thể và chọn một phần mềm hỗ trợ tốt nhất cho các giai đoạn thông minh và thiết kế hỗ trợ trong việc cung cấp các lựa chọn thay thế Giai đoạn lựa chọn yêu cầu áp dụng một quy trinh lựa chọn và thực hiện phương án đã chọn
Một hệ thống hỗ trợ quyết định, theo định nghĩa, không đưa ra lựa chọn Tuy nhiên, các mô hình tối ưu hóa và mô hình để xuất có thể được sử dụng để xếp hạng các lựa chọn thay thế và áp dụng các quy trình lựa chọn quyết định để hỗ trợ sự lựa
chọn của người ra quyết định
Ví dụ quyết định mua máy từ một số lựa chọn thay thế có thể được cấu trúc
theo một hoặc nhiều tiêu chí như, tỷ lệ hoàn vốn, số năm hoàn vốn, chi tiêu tiền mặt tối thiểu, ưu tiên điều hành, ưu tiên nhân viên, rủi ro tối thiểu, v.v được áp dụng bằng cách sử dụng phan mém quyét định Sự lựa chọn sau đó được đưa ra bởi một người
ra quyết định và truyền đạt cho người có thể thực hiện kết quả
Mặc dù quá trình ra quyết định ở đây được mô tả là tuần tự, nhưng thực tế lại không rõ ràng như vậy Các hoạt động của trí thông minh, thiết kế và lựa chọn là đan
xen và lặp đi lặp lại, và chúng diễn ra trong một môi trường ra quyết định năng động Một DSS nên hỗ trợ tất cả các khía cạnh của quy trình này
Trang 241.2.3 Phương án tạo lập quyết định
Trang 251.3 CAC THANH PHAN HE HO TRO QUYET DINH
1.3.1 Cấu trúc của hệ hỗ trợ quyết định Có 3 loại quyết định như sau:
Dữ liệu có cấu trúc (structured database): Có nghĩa là cơ sở dữ liệu được định hình theo một cấu trúc xác định từ trước Chúng ta có thể hình dung như một văn bản đã được xác định tiêu để, có các dòng và cột với tiêu để xác định trước, các thông tin
chỉ tiết được lấp đầy các bảng này và không thay đổi khi cập nhật Một hình dung
khác về cơ sở dữ liệu có cấu trúc là một thư viện với các tủ hồ sơ được đánh nhãn,
trong mỗi tủ được phân ngăn rõ ràng Cơ sở dữ liệu có cấu trúc được xây đựng sẽ dễ dàng quản lý và truy cập thông tin
Dữ liệu phi câu trúc (unstructured database): Là cơ sở dữ liệu không được xác
định cấu trúc thông tin từ trước Thường là tập hợp các đữ liệu thô, hỗn tạp và không đồng nhất Các thành phần của cơ sở dữ liệu không có đặc điểm chung Chúng ta có
thể hình dung cơ sở dữ liệu này là tập hợp các thông tin, dữ liệu bao gồm: Thư điện tử, dữ liệu ảnh, video, âm thanh, các bài viết, Dữ liệu phi cầu trúc có mặt ở khắp mỌI nơi
và được sản sinh ra từ các nguồn khác nhau Đề quản lý, dữ liệu phi cấu trúc cần được chuyên đổi thành dữ liệu có cấu trúc qua quá trình chuẩn hóa
Dữ liệu bán cấu trúc (semi-structured database): Thường là đữ liệu có cấu trúc nhưng không đồng nhất Cấu trúc của dữ liệu phụ thuộc vào chính nội dung của dữ liệu ấy Chúng ta có thể thấy được rằng trong thực tế đữ liệu được lưu dưới dạng
XML tự do (không kèm theo lược đỏ), với định dạng này thông tin mô tả về đối tượn g thé hién trong các thẻ Đây là cơ sở dữ liệu có nhiều ưu điểm do lưu trữ được hầu hết
các loại dữ liệu khác nhau nên cơ sở dữ liệu bán cấu trúc là hướng mới trong nghiên cứu và ứng dụng và được sử dụng thông dụng trên mạng Internet Tuy nhiên cũng cần lưu ý rằng XML cũng có thể được mô tả dữ liệu có cấu trúc bằng cách kèm xây
dựng và lưu trữ dữ liệu tuân thủ lược đồ
1.3.2 Các phân hệ của hệ hỗ trợ quyết định
Hệ hỗ trợ quyết định bao gồm các hệ con quản trị dữ liệu, hệ con quản trị mô hình, hệ con quản trị trí thức và hệ con quản trị hội thoại
Trang 26Dit lieu: trong va ngoai Cac hé thong may tinh khac Internet, intranet va extranet Il I Quan ly L 27 Cơ sơ kien thức tô chức dt lieu Quan ly mo hinh Cac mo hinh ngoai Cac phan he dua trên kiên thức Phân hệ giao điện người dùng 1 Nhà quản lý (người dùng) Hình 1.4 Các thành phần của hệ hỗ trợ quyết định 1.4 TÔ CHỨC DỮ LIỆU
Hệ quản trị dữ liệu gồm một cơ sở dữ liệu (database) chứa các dữ liệu cần thiết của tình huống và được quản lý bởi một hệ quản trị cơ sở dữ liệu (ĐBMS - database
management system) Phân hệ này có thể được kết nối với nhà kho dữ liệu của tổ chức (data warehouse) - là kho chứa dữ liệu của tổ chức có liên đến van dé ra quyết định Các nguằn di
Các nguẫn dữ liệu nội
liệu ngoại v Ec ee cca
Tai chanh Sản xuất Tiếp thị Nghiên cứu
CaaS mane Dữ liệu cá
Trang 271.5 MƠ HÌNH CƠ SỞ
Mô hình cơ sở còn được gọi là hệ quản trị cơ sở mô hình (MBMS - model base
management system) là gói phần mềm gồm các thành phần vẻ thống kê, tài chính, khoa học quân lý hay các phương pháp định lượng nhằm trang bị cho hệ thống năng lực phân tích cũng có thê có các ngôn ngữ mô hình hóa ở đây Thành phần này có thê kết nối với các kho chưa mô hình của tô chức hay bên ngoài nào khác
Các mô hình (cơ sở mô hình)
e Chiến lược, chiến thuật, vận hành Danh mục
s Thống kê, tài chánh, tiếp thị *' mô hình
se Giao diện cơ sở dữ liệu
« Các khối xây dựng mê hình
Quản lý cơ sở mơ hình
¢ Cac lệnh của mô hình: tạo mới s Bảo trì: cập nhật
« Giao diện cơ sở dữ liệu s« Ngơn ngữ mơ hình hóa £ Le _— Bộ xử lý lệnh, tích hợp và thực thi mô hình + Ỷ
Quản lý Quản lý Quản lý dựa dữ liệu giao diện trên kiên thức
Hình 1.6 Hệ quản trị mô hình
1.6 XÂY DỰNG GIAO DIỆN NGƯỜI DÙNG
Giúp người sử dụng giao tiếp với và ra lệnh cho hệ thống Các thành phần kế
trên tạo nên DSS, có thể kết nối với intranet/ extranet của tổ chức hoặc kết nối trực
tiếp với Internet
Trang 28Quản lý dữ liệu Quản lý mỗ hình
và hệ quản trị cơ Phân hệ dựa trên và hệ quản trị cơ sở đữ liệu kiến thức sử mã hình Quan ly giao diện người dùng ‡ Bộ xử lý ngôn ngữ tự nhiên ị i Nhập Xuất Các ngôn ngữ Các ngôn ngữ hãnh động hiện thị Bộ xứ lý ngôn ngữ tự nhiên Người dùng
Hình 1.7 Hệ giao diện người dùng
1.7 TIEU KET CHUONG 1
Trong Chuong 1 t6i trinh bày các thành phần cơ bản của hệ hỗ trợ quyết định, nó là cơ sở để xây dựng hệ hỗ trợ quyết định chuẩn đoán bệnh Trong các thành phần của hệ hỗ trợ quyết định thì thành phần cơ bản nhất là mô hình Trong luận văn này thì mô hình được chọn là mô hình cây quyết định trong khai phá dữ liệu và sẽ được trình bày trong Chương 2
Trang 29Chương 2 KỸ THUẬT CÂY QUYÉT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU
2.1 GIOI THIEU VE KHAI PHA DU LIEU
2.1.1 Khai pha dữ liệu
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào cuối những năm 1980 Nó là quá trình khám phá thông tin ấn được tìm thấy trong các cơ sở đữ liệu và có thê xem như là một bước trong quá trình khám phá tri thức Khai phá đữ liệu là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong các lĩnh vực như: khoa học, giáo
dục, kinh doanh
Giao su Tom Mitchell đã đưa ra định nghĩa của Khai phá dữ liệu như sau: “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những quyết định trong tương lai” Tiến sĩ Fayyad đã phát biểu: “Khai
phá dữ liệu, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là
một quá trình xuất những thông tin ấn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong cơ sở đữ liệu” Hay nói cách khác “Khai phá dữ liệu-Data Mining là tiến trình khám phá tri thức tiềm ẩn trong
các cơ sở dữ liệu Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ cơ sở dữ liệu lớn”
Nói tóm lại, Khai phá dữ liệu là một quá trình học tri thức mới từ những dữ liệu đã thu thập được
Trang 30Đánh giá luật Khai phá dữ liệu
Chuyển đổi dữ liệu
Tiên xử lý và chuẩn diam bị dữ liệu eae = “Tri thức — `, =] il Dữ liệu đã = M6 hinh D f 4 : 53 Dữ liệu đích xử lý Dữ liệu đã chuyền đôi
Hình 2.1 Quá trình khai phá dữ liệu
Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành
các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra
quyết định Khai phá dữ liệu là việc trích rút trị thức một cách tự động và hiệu quả từ một khối dữ liệu rất lớn Tri thức đó thường ở dạng các mẫu tin có tính chất
không tầm thường, không tường minh (ân), chưa được biết đến và có tiềm năng
mang lại lợi ích
Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữ liệu được ví như tìm một cây kim trong đống cỏ khô Trong ví đụ này, cây
kim là một mảnh nhỏ tri thức hoặc một thông tin có giá trị và đống có khô là một
kho cơ sở dữ liệu rộng lớn Như vậy, những thông tin có giá trị tiềm ẩn trong kho
cơ sở dữ liệu sẽ được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu
Chức năng khai phá dữ liệu gồm có gọp nhóm phân loại, dự báo, dự đoán và
phân tích các liên kết Năm 1989 Fayyad, Smyth va Piateslsky-Shapiro da ding khái niệm phát hiện trị thức từ co so di liéu (Knowledge Discovery in Database -
KDD) Trong đó khai phá dữ liệu là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ thuật để tìm ra các mẫu từ dữ liệu Có thể coi khai phá dữ
liệu là cốt lỗi của quá trình phát hiện tri thức
Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 2.1
Quá trình khai phá dữ liệu bắt đầu của quá trình là kho dữ liệu thô và kết thúc
Trang 31với tri thức được chiết xuất ra Về lý thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều vướng mắc như: quản lý các
tập dữ liệu, phải lặp đi lặp lại toàn bộ quá trình,
1 Gom dữ liệu (Gathering): Tập hợp dữ liệu là bước đầu tiên trong quá trình
khai phá dữ liệu Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web
2 Trích lọc dữ liệu (Selection): Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những người có tuổi đời 25-35 và có trình độ đại học
3 Làm sạch, tiền xử lý và chuẩn bị trước đữ liệu (Cleaning, Pre-processing
and Preparation): Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chữ, logic Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối đữ liệu Ví dụ: tuổi = 273 Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chữ nói trên Những dữ liệu dạng này được xem như thông tin thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch ~ tiền xử lý — chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng 4 Chuyển đổi dữ liệu (Transformation): Tiếp theo là giai đoạn chuyền đổi
dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó Dữ liệu đã được chuyên đổi phù hợp với mục đích khai thác
5 Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery): Đây là bước mang tính tư đuy trong khai phá đữ liệu Ở giai đoạn này nhiều thuật toán khác
nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,
6 Đánh giá kết quả mẫu (Evaluation of Result): Đây là giai đoạn cuối trong
quá trình khai phá dữ liệu Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi
phan mềm khai phá dữ liệu Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowledge) Trên đây là 6 giai đoạn trong quá trình khai
Trang 32pha dit liéu, trong do 5 giai đoạn được quan tâm nhiều nhất, đó là khai phá dữ liệu
2.1.2 Các chức năng chính của khai phá dữ liệu
Data Mining duoc chia nhỏ thành một số hướng chính như sau:
+ Mô tả khái niệm (concept description): Thiên về mô tả, tổng hợp và tóm tắt
khái niệm
Ví dụ: Tóm tắt văn bản
+ Luật kết hop (association rules): 1a dang luat biểu diễn tri thứ ở dạng khá đơn
giản Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ
mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính & thị trường chứng khoan, v.v
+ Phân lớp và dự đoán (classification & prediction): Xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cận này thường sử đụng một số kỹ thuật của machine learning nhu cay
quyết định (decIsion tree), mạng nơ ron nhân tạo (neural network), v.v Người ta còn
gọi phân lớp là học có giám sát (học có thầy)
+ Phan cum (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước Người ta con goi phan cum là học không giám sát (học không thầy)
+ Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao
2.1.3 Ứng dụng của khai phá dữ liệu
Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó Chúng ta có thể liệt kê ra đây một số ứng dụng điền hình:
«_ Phân tích đữ liệu và hỗ trợ ra quyết dinh (data analysis & decision support) * Diéu tri y hoc (medical treatment)
¢ Text mining & Web mining ¢ Tin-sinh (bio-informatics)
Trang 33¢ Tai chinh va thi trrong ching khoan (finance & stock market) * Bao hiém (insurance)
¢ Nhan dang (pattern recognition)
2.1.4 Một số khó khăn trong khai phá dữ liệu
+ Cơ sở dữ liệu lớn: Các tập dữ liệu cần xử lý trong khai phá đữ liệu thường có kích thước cực kỳ lớn về cả số lượng các bản ghi và số lượng các thuộc tính Trong thực tế, kích thước của các tập đữ liệu trong khai phá dữ liệu thường ở mức tera-byte (hàng nàn giga-byte) Với kích thước như thế, thời gian xử lý thường cực ky dai Mặc đù kích thước bộ nhớ trong của máy tính đã gia tăng dang ké trong thời gian gần đây, việc gia tăng này cũng không thể đáp ứng kịp thời với việc tăng kích
thước dữ liệu Vì vậy, việc vận dụng các kỹ thuật xác suất, lấy mẫu, đệm, song
song vào các giải thuật dé tạo ra các phiên bản phù hợp với các yêu cầu của khai phá dữ liệu trở nên ngày càng quan trọng
+ Dữ liệu thiếu và nhiễu: Mức độ nhiều cao trong dữ liệu điều này dẫn đến việc dự đoán thiếu chính xác
+ Vấn để “quá phù hợp” (Overfitting): Khi thuật toán khai phá tìm kiếm với
các tham số tốt nhất cho một mô hình đặc biệt và một giới hạn của tập dữ liệu Mô
hình đó có thể “Quá phù hợp” trên tập dữ liệu đó nhưng lại thi hành không chính
xác trên tập dữ liệu kiểm tra
+ Sự thay đổi của dữ liệu và tri thức: Dữ liệu là không tĩnh, đữ liệu thay đổi
nhanh chóng có thể dẫn đến những tri thức đã khai phá trước đây trở nên không còn phù hợp thậm chí là vô giá trị
+ Đánh giá các mẫu đữ liệu tìm được: Nhiều mẫu phát hiện không thực sự
hữu ích với người sử dụng và thách thức với các hệ khai phá dữ liệu
+ Làm việc với các dữ liệu quan hệ phức tạp: Do các hệ cơ sở dữ liệu quan hệ được sử dụng rộng rãi nên vấn để làm tốt với các hệ cơ sở dữ liệu này là vấn
để cần quan tâm đối với các hệ khai phá đữ liệu
+ Khai phá thông tin trong các hệ cơ sở dữ liệu hỗn hợp và hệ thống thơng
tin tồn cầu: Với sự ra đời của mạng máy tính, dữ liệu có thể được thu thập từ
nhiều nguồn khác nhau với định dạng khác nhau với số lượng rất lớn Việc phát
Trang 34hiện tri thức từ các dạng dữ liệu hỗn hợp này là một thách thức đối với khai phá
dữ liệu
2.2 MOT SO KY THUAT TRONG KHAI PHA DU LIEU
Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính
+ Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hoặc
các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có Các kỹ thuật này gồm có: Phân cụm (clustering), tóm tắt (summarization), trực quan hóa (visualization),
phân tích sự phát triển và độ lệch (Evolution anh deviation analysis), phat hién luat
két hop (association rules),
+ Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa
vào các suy diễn trên dữ liệu hiện thời Các kỹ thuật này gồm có: phân lớp (classification), héi quy (regression),
Tuy nhiên, do khuôn khổ có hạn nên tôi chi giới thiệu 2 phương pháp thông
dụng nhất là: phân lớp dữ liệu, và phân cụm dữ liệu
2.2.1 Phân lớp
Phân lớp (classification): Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập đữ liệu đã được xếp lớp Tập dữ liệu học bao gồm tập đối tượng đã
được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối
tượng trong tập đữ liệu học Các luật phân lớp được sử dụng đề xây đựng các bộ phân lớp dữ liệu Phân lớp đữ liệu có vai trò quan trọng trong tiến trình dự báo các khuynh hướng quy luật phát triển Áp dụng vào tiến trình phân lớp đữ liệu khách hàng trong CSDL có thể xây dựng các luật phân lớp khách hàng Một số kỹ thuật thường được sử dụng trong phân lớp:
+ Cây quyết định (decision tree): Cấu trúc dạng hình cây là biểu thị cho các quyết định Các quyết định này sinh ra các quy tắc dé phân lớp và đự đoán (dự báo) tập dữ liệu mới chưa được phân lớp Tri thức được rút ra trong kỹ thuật này thường
được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử
dụng Tuy vậy, nó cũng đòi hỏi một không gian nhất định để mô tả tri thức trong pham vi ma con người có thê hiệu được
Trang 35+ Mang noron (neural network): Day la m6t trong những kỹ thuật được ứng dụng rất phô biến hiện nay vì kỹ thuật này bắt chước khả năng tìm kiếm mẫu của bộ não con người Việc huấn luyện theo phương pháp này được bắt đầu bằng việc cho
vào một tập dữ liệu (gọi là tập dữ liệu huấn luyện) mạng sẽ tự động điều chỉnh (học)
qua từng lớp trong mạng và cho ra kết quả, quá trình huấn luyện được lặp đi lặp lại nhiều lần Sau khi mạng học thành công thì nó được xem là một chuyên gia trong lĩnh
vực đó
«_ Quá trình phân lớp dữ liệu thường gồm hai bước:
+ Bước l1 Xây dựng mô hình dựa trên việc phân tích các mẫu đữ liệu có sẵn Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc
tính phân lớp Các mẫu dữ liệu này còn gọi là tập đữ liệu huấn luyện (training dataset) Nhãn lớp của tập dữ liệu huấn luyện phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học có giám sát (supervised learning)
+ Bước 2 Sử dụng mô hình đề phân lớp dữ liệu Chúng ta phải tính độ chính
xác của mô hình, nếu độ chính xác là chấp nhận được thì mô hình sẽ được sử dụng
để dự đoán lớp cho các mẫu dữ liệu khác trong tương lai Bộ phân lớp Dữ liệu kiểm tra Kết quả
Tên BN HCT PLT NS1 chan Goan
Trang 36Phan cum dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các đối tượng trong một cụm đó “tương tự” với nhau Phân cụm dữ liệu là một kỹ thuật trong KPDL, nhằm tìm kiếm, phát hiện các cụm, các mẫu đữ liệu
tự nhiên, tiềm Ân, quan trọng trong tập dữ liệu lớn từ đó cung cấp thông tin, tri thức
hữu ích cho việc ra quyết định Mục đích chính của phân cụm dữ liệu nhằm khám phá cầu trúc của mẫu dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo
đó nó cho phép người ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám phá và tìm kiếm các thông tin tiềm ân, hữu ích phục vụ cho việc ra quyết
định Ví dụ: “Nhóm khách hàng có khả năng trả nợ cao” Như vậy, phân cụm dữ
liệu xử là một phương pháp lý thông tin quan trọng và phổ biến, nó nhằm khám phá mối liên hệ giữa các mẫu dữ liệu bằng cách tổ chức chúng thành các cụm
Hình 2.3 Mô phông sự phân cum
Trong hình trên sau khi phân cụm thì những phần tử tương tự nhau thì được sắp
xếp vào một cụm và ngược lại, hay là những phan tử có chung một định nghĩa hoạt xấp xỉ về khái niệm cho trước cũng được xếp vào một cụm Một số vấn đề thường
gặp trong phân cụm dữ liệu là dữ liệu “nhiễu” và “phần tử ngoại lai” “Nhiễu” có thê
là các đối tượng dữ liệu không chính xác hoặc các đối tượng dữ liệu khuyết thiếu
thông tin về một số thuộc tính Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng “nhiễu” bằng giá trị thuộc tính trong ứng của đối tượng đữ liệu gần nhất “Phần tử ngoại lai” là những phần tử có sự khác biệt đáng kê đối với những phần tử còn lại Có nhiều cách xác định phần tử ngoại lai, như xác định theo khoảng cách: Sử dụng hàm đo khoảng cách giữa các phần tử trong tap dữ liệu, các phân tử ngoại lai là các phần tử cách khá xa so với các phần tử còn lại Xác định theo thống kê: Xác định các mô hình phân phối thống kê mà các
Trang 37phân tử phải tuân theo, “phần tử ngoại lai” là những phần tử không tuân theo các quy
luật này Xác định theo độ khác biệt: Xác định những đặc trưng cơ bản của các cụm,
“phân tử ngoại lai” sẽ có đặc trưng khác biệt lớn với những phần tử còn lại Một số kỹ thuật thường được sử dụng trong phân cụm:
+ Phân cụm phân hoạch
+ Phân cụm phân cấp
+ Phân cụm dựa trên mật độ + Phân cụm dựa trên lưới
+ Phân cụm dựa trên mô hình phân cụm + Phân cụm có dữ liệu ràng buộc
2.3 PHAN LOP DU LIEU BANG CAY QUYET DINH
2.3.1 Bài toán phân lớp trong khai phá dữ liệu
Mục đích của khai phá dữ liệu nhằm phát hiện các tri thức mà mỗi tri thức được
khai phá đó sẽ được mô tả bằng các mẫu dữ liệu Sự phân lớp là quá trình quan trọng
trong khai phá dữ liệu, nó chính là việc đi tìm những đặc tính của đối tượng, nhằm mô tả một cách rõ ràng phạm trù mà các đối tượng đó thuộc về một lớp nào đó
Quá trình phân lớp gồm có 02 tiến trình:
+ Xây đựng mô hình: với tập các lớp đã được định nghĩa trước, mỗi bộ mẫu
phải được quyết định đề thừa nhận vào một nhãn lớp Tập các bộ dùng cho việc xây
dựng mô hình gọi là tập dữ liệu huấn luyện, tập huấn luyện có thể được lay ngau nhiên từ các cơ sở dữ liệu nghiệp vụ được lưu trữ
+ Sử dụng mô hình: ước lượng độ chính xác của mô hình Dùng một tập dữ liệu kiểm tra có nhãn lớp được xác định hoàn toàn độc lập với tập dữ liệu huấn luyện để đánh giá độ chính xác của mô hình Khi độ chính xác của mô hình được chấp nhận,
ta sẽ dùng mô hình để phân lớp các bộ hoặc các đối tượng trong tương lai mà nhãn
lớp của nó chưa được xác định từ tập dữ liệu chưa biết
Vậy, bài toán phân lớp có thể được phát biểu tổng quát như sau:
Cho U= {Aj, A2, , Am} la tap c6 m thudc tinh, Y = {y1, ., yn} 1a tap các nhãn
của các lớp; với D = 4i x x Ay, 1a tich Dé-cac ctia cdc mién ctia m thuộc tính tương
Trang 38ứng, có ø số lớp và N là số mẫu dữ liệu Mỗi dữ liệu đ,€ Ð thuộc một lớp y € Y trong ứng tạo thành từng cặp (đ:, y;) € (D, 7)
Cách thức xây đựng mô hình quyết định tính hiệu quả của mô hình thu được Nhiều tác giả đã nghiên cứu về lý thuyết nhằm xây dựng mô hình và triển khai ứng dụng như:
¢ Hé luat va hệ luật mờ
» - Hệ luận ngơn ngữ mờ
«_ Giải pháp di truyền truyền học
»_ Phương pháp mạng nơ-ron và mạng nơ-ron mờ
«_ Lý thuyết tập thơ
« Phương pháp phân cụm và luật kết hợp,
Trong các phương pháp đã được nghiên cứu, mô hình cây quyết định là một trong những giải pháp trực quan và hữu hiệu để mô tả quá trình khai phá đữ liệu nên
nó được coi là công cụ mạnh, hữu ích và phổ dụng
2.3.2 Cây quyết định
2.3.2.1 Dinh nghĩa và ví dụ
Một cây quyết định là một mô hình logic được biểu diễn như một cây, cho biết gia tri cua mot biến mục tiêu có thể được dự đoán bằng cách dùng các giá trị của một
tập các biến dự đốn Trên mơ hình cây quyết định, mỗi một nút trong tương ứng với
một biến dự đoán, đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể
cho biến đó Mỗi nút lá đại diện cho giá trị đự đoán của biến mục tiêu, được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Nó có thể hiểu như là một cách biểu diễn các
Trang 39Hình 2.4 Ví du về cây quyết định Trong đó:
Gốc : Nút trên cùng của cây
Nút trong : Biểu diễn một kiểm tra trên một thuộc tính
Nhánh : Biểu điễn các kết quả của kiểm tra trên nút
Nút lá : Bêu diễn lớp
Xây dựng cây quyết định
Quá trình xây dựng cây quyết định gồm hai giai đoạn: Giai đoạn thứ nhất phát triển cây quyết định:
Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp
theo cách thức chia dé trị cho tới khi đạt được cây quyết định với tất cả các lá được
gán nhãn lớp
Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết định
Giai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độ
chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ lỗi (noise) của dữ liệu dao tao mang tinh chat théng kê, hay những sự biến đổi mà có thể là đặc
tính riêng biệt của đữ liệu đào tạo Giai đoạn này chỉ truy cập dữ liệu trên cây quyết định đã được phát triển trong giai đoạn trước và quá trình thực nghiệm cho thấy giai đoạn này không tốn nhiều tài nguyên tính toán, như với phần lớn các thuật toán, giai đoạn này chiếm khoảng dưới 19% tổng thời gian xây dựng mô hình phân lớp
Do vậy, ở đây chúng ta chi tập trung vào nghiên cứu giai đoạn phát triển cây quyết định Dưới đây là khung công việc của giai đoạn này:
Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước
Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị của thuộc
tính đã chọn
Sắp xếp, phân chia tập dữ liệu đào tạo tới nodecon
Nếu các ví dụ được phân lớp rõ ràng thì đừng Ngược lại: lặp lại bước l tới bước 4 cho từng node con
Trang 40Giải bài toán phân lớp đựa trên mô hình cây quyết định chính là xây đựng một cây quyết định, ký hiệu S, dé phân lớp S đóng vai trò như một ánh xạ từ tập dữ liệu vào tập nhãn: Š : D — Ÿ
Cây quyết định biểu diễn cho tri thức về bài tốn, nó khơng chỉ phản ánh đúng với tập dữ liệu mẫu huấn luyện mà còn phải có khả năng dự đoán và cung cấp giúp cho người dùng phán đoán, ra quyết định đối với đối tượng trong tương lai mà nhãn
lớp của nó chưa được xác định từ tập dữ liệu chưa biết Quá trình học cây quyết định
gồm có 3 giai đoạn:
+ Tạo cây Sử dụng các thuật toán phân lớp dé phân chia tập đữ liệu huấn luyện
một cách đệ quy cho đến khi mọi nút lá đều thuần khiết, tức là nút mà tại đó tập mẫu tương ứng có cùng một giá trị trên thuộc tính quyết định Y Sự lựa chọn các thuộc
tính trong quá trình xây dựng cây được dựa trên việc đánh giá lượng lợi ích thông tin
tại mỗi thuộc tính đang xét
+ Cắt tỉa cây Sau khi tạo cây, cắt tỉa cây quyết định là việc làm rất cần thiết dé khắc phục những khiếm khuyết của cây Cắt tia cây là cố gắng loại bỏ những nhánh không phù hợp hay những nhánh gây ra lỗi
+ Kiểm định cây kết quả Đề bảo đảm độ chính xác của cây trước khi đưa vào ứng dụng trong thực tế, ta cần phải đánh giá độ chính xác của cây từ đó đưa ra tiêu
chí đánh giá độ tin cậy theo tỷ lệ phần trăm được dự đoán chính xác
Việc tạo cây là giai đoạn quan trọng nhất, nó chính là quá trình tạo ra mô hình
logic cho cây Đề xây đựng cây quyết định, tại mỗi nút trong cần xác định một thuộc
tính thích hợp để kiểm tra, phân chia dữ liệu thành các tập con
Cho tập mẫu huấn luyện DĐ gồm có íøm thuộc tính, bộ Mỗi thuộc tinh bat ky A;
€ D, ta ky hiéu |Aj la sé cac gia tri khác nhau của nó và gọi là lực lượng của 4; Số lần xuất hiện mỗi một giá trị đ¡ trong 44; ký hiệu là lai; | Với thuộc tính quyết định Y, số J lớp cần phân hoạch trong Y chính là lực lượng của Y và ta viết |Y| Như vậy khi || = ] thì tất cả các đối tượng trong tập mẫu thuộc cùng một lớp và ta nói chúng là thuần nhất trên Ƒ
Trên mỗi tập mẫu huấn luyện, về cơ bản các thuật toán phân lớp đữ liệu bằng cây quyết định phải thực hiện 2 bước sau: