Phương pháp canh tác dữ liệu đánh giá đặc tính- 123docz.net

2.1.7.1 Đặc tính chung của dữ liệu

Những thuộc tính có đặc tính và tiềm năng tốt có thể bị giới hạn khi đứng riêng lẻ, nhưng có giá trị cao khi đứng chung thành nhóm.

2.1.7.2 Chọn lựa đặc tính và đánh giá đặc tính cho khai phá dữ liệu A. Định nghĩa A. Định nghĩa

Chọn lựa thuộc tính có đặc tính tốt là quy trình chọn lựa ra các tập con thuộc tính từ một tập con đặc tính gốc đầy đủ, sao cho mỗi tập con này có thể đánh giá tốt và khả năng dự đoán chính xác[9].

B. Các phương pháp chọn lựa đặc tính

i. Dùng phương pháp vét cạn. ii. Chọn ngẫu nhiên

iii. Chọn theo kinh nghiệm chuyên gia.

Trong luận văn này tác giả chọn phương pháp iii theo kinh nghiêm chuyên gia. Cách chọn theo kinh nghiệm của chuyên gia là tốt nhất bởi những lý do sau đây:

Chọn vét cạn sẽ cho ra dư thừa các tập con Ai rất nhiều vì nó có thể không có liên quan đến giá trị trong chẩn đoán.

Chọn ngẫu nhiên sẽ dẫn đến khả năng thiếu tập con Ai mà những tập con này có khả năng có giá trị trong chẩn đoán.

Chọn theo kinh nghiệm chuyên gia khắc phục được các khuyết điểm trên.

Những thuộc tính do kinh nghiệm chuyên gia đưa ra, đa phần là kết quả đã được nghiệm chứng thực tế do đó điều liên quan đến chẩn đoán, mặc dù chuyên gia khác nhau có thể đưa ra những đặc tính khác nhau.

2.2 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Y KHOA Y KHOA

2.2.1 Vai trò của diều dưỡng, bác sĩ trong canh tác dữ liệu y khoa

Triệu chứng lâm sàng và xét nghiệm là đa dạng. Do đó việc chọn thuộc tính khai phá không đúng hoặc thiếu hoặc dư thừa dẫn đến các luật dư thừa vô nghĩa, sinh ra các mô hình chẩn đoán sai. Do đó để chọn thuộc tính khai phá chính xác có liên quan, việc sử dụng tri thức chuyên gia bác sĩ, điều dưỡng là mục tiêu chính của canh tác dữ liệu y khoa. Tri thức sử dụng của diều dưỡng, bác sĩ là:

- Kiến thức chuyên môn : Các điều dưỡng và bác sĩ đã được đào tạo chuyên sâu về lĩnh vực chuyên môn chẩn đoán và điều trị bệnh cho bệnh nhân, do đó những triệu chứng lâm sàng và xét nghiệm đã theo tiêu chẩn nhất định nào đó. Trong y khoa gọi là xét nghiệm thường quy, triệu chứng lâm sàng điển hình, phát đồ điều trị cơ bản.

- Kinh Nghiêm: Ngoài kiến thức chuyên môn đã được đào tạo. Với thời gian lâu năm điều trị bệnh, giúp cho các bác sĩ, điều dưỡng có kinh nghiệm. Do đó các xét nghiệm, các triệu chứng lâm sàng sẽ được thu hẹp lại.

- Y học chứng cứ và y học thực chứng: Nghiên cứu chẩn đoán bệnh là một trong những đề tài khoa học đã được các y bác sĩ chứng minh qua thực tế lâm sàng chữa bệnh. Tất cả triệu chứng lâm sàng và xét nghiệm có giá trị chẩn đoán điều được chứng minh qua những điều trị cho bệnh nhân cụ thể, những bệnh lý cụ thể.

Các tri thức trên giúp cho chuyên viên khai phá dữ liệu chọn lựa thuộc tính đúng, chính xác,(giảm thuộc tính khai phá cây quyết định đơn giản) giúp cho các thuật toán thực thi nhanh và hiệu quả. Giúp cho việc xây dựng hệ thống đáp ứng được mục tiêu đề ra (chẩn đoán bệnh có độ chính xác cao).

2.2.2 Tập dữ liệu y khoa

Cho một tập dữ liệu y khoa gồm A={ T1,T2,T3…,Tn} là một tập thuộc tính điều kiện (conditional) , và một thuộc tính chẩn đoán D (diagnosis). Trong đó các thuộc tính có thể chuyển đổi, số hóa. D có các giá trị chẩn đoán.

Từ tập dữ liệu trên, cần tri thức trong tập dữ liệu này để chẩn đoán cho bệnh nhân mới. Nếu dùng phương pháp KPDL cổ điển thì tập DL này sẽ cho ra các luật. Theo thời gian, DL có thay đổi, khai phá cũng cho ra các luật. Luật này không tận dụng được tri thức kinh nghiệm của chuyên gia và sau một thời gian ứng dụng, luật đó sẽ không giúp cho chẩn đoán chính xác hơn. Do đó, một phương pháp mới là kết hợp CTDL với KPDL nhằm cải thiện những khuyết điểm đó.

“Canh tác dữ liệu“trong khai phá tập dữ liệu y khoa, cần giải quyết các công việc sau:

Công viêc 1: Chọn ra các tập con Ai. Mỗi chuyên gia bác sĩ có thể có những

tập đặc tính khác nhau. Do đó, để không bỏ sót chẩn đoán bệnh nên kết hợp kinh nghiệm của nhiều chuyên gia càng tốt.

Công việc 2: Kiểm chứng độ chính xác của từng tập con của công việc 1

bằng cách tiến hành thực nghiệm chẩn đoán bệnh cho bệnh nhân mới. Sử dụng các kỹ thuật KPDL tạo ra các mô hình để chẩn đoán bệnh.

Công việc 3: Chuẩn hóa tập thuộc tính có chẩn đoán chính xác cao. 2.2.3 Phương pháp giải quyết

2.2.3.1 Phương pháp giải quyết công việc 1

Việc chọn ra các tập con đặc tính Ai, có thể thực hiện một trong 3 cách sau: - Chọn theo kinh nghiệm của chuyên gia.

- Chọn ngẫu nhiên.

- Chọn theo cách vét cạn hay sử dụng các thuật toán rút gọn thuộc tính. Trong 3 cách trên, cách chọn theo kinh nghiệm của chuyên gia (Y - Bác sĩ) là tốt nhất bởi những lý do sau đây:

-Chọn vét cạn hay sử dụng các thuật toán rút gọn thuộc tính sẽ cho ra dư thừa các tập con Ai rất nhiều vì nó có thể không có liên quan đến giá trị trong chẩn đoán.

-Chọn ngẫu nhiên sẽ dẫn đến khả năng thiếu tập con Ai mà những tập con này có khả năng có khả năng có giá trị trong chẩn đoán.

-Chọn theo kinh nghiệm chuyên gia khắc phục được khuyết điểm trên.

2.2.3.2 Phương pháp giải quyết công việc 2

Sử dụng một số kỹ thuật khái phá dữ liệu (trong luận văn này tác giả đã sử dụng kỹ thuật khai phai dữ liệu bằng cây quyết định) để tiến hành chẩn đoán bệnh nhân mới.

2.2.3.3 Phương pháp giải quyết công việc 3

Phương pháp giải quyết công việc 3 là kết hợp phương pháp giải quyết công việc 1 và công việc 2 để chuẩn hóa tập đặc tính khai phá.

2.3 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU BỆNH SỐT XUẤT HUYẾT BỆNH SỐT XUẤT HUYẾT

Tập dữ liệu y khoa bệnh sốt xuất huyết Dengue sử dụng trong luận văn này, có được từ bệnh viện Nhi Đồng – Đông Nai. Danh sách các thuộc tính và các đặc tính chẩn đoán như sau:

2.3 .1 Tập thuộc tính ban đầu

Khi bệnh nhân đến khám bệnh hoặc nhập viện gồm có những thông tin sau: 2.3 .1.1 Thông tin hành chính - Họ và tên bệnh nhân - Địa chỉ thường trú - Tuổi - Giới tính - Tình trạng gia đình - Tiền sử bệnh

2.3.1.2 Triệu chứng lâm sàng

- Sốt ngày thứ mấy

- Huyết áp

- Có xuất huyết dưới da hay không

- Đau bụng - Ói mửa - Đau đầu, bức rức - …… 2.3 .1.3 Cận lâm sàng Xét nghiệm

- Dung tích hồng cầu (Hematocrit) Hct

- Bạch cầu

- Tiểu cầu

- Công thức máu

- ……

Chẩn đoán hình ảnh X quang- Siêu âm – Nội soi

- Siêu âm

- Chụp x quang - Nội soi dạ dày…..

2.3 .1.4 Tình trạng đến khám và nhập viện

- Tỉnh hay hôn mê.

- Đến khám (nhập viện) ngày thứ mấy của bệnh.

2.3.2 Phương pháp giải quyết

2.3.2.1 Phương pháp giải quyết công việc 1

Chọn ra các tập con đặc tính Ai

- Chọn theo kinh nghiệm của chuyên gia.

Tham khảo ý kiến chuyên gia bác sĩ tại bệnh viện Nhi Đồng – Đồng Nai và các nghiên cứu khoa học (y học chứng cớ và y học thực chứng tại bệnh viên) chọn ra các thuộc tính có đặc tính liên quan chẩn đoán:

Thông tin hành chính

- Chọn thuộc tính tuổi (khoangtuoi) còn thông tin hành chính Họ và tên bệnh nhân, địa chỉ thường trú, giới tính, tình trạng gia đình, tiền sử bệnh không có giá trị trong chẩn đoán bệnh sốt xuất huyết Dengue[2][3].

Triệu chứng lâm sàng

- Chọn thuộc tính Sốt ngày thứ mấy,Huyết áp, Đau bụng,ói mửa còn thuộc tính, có xuất huyết dưới da hay không,đau đầu,bức rức không có giá trị dự đoán đoán SXH-VS[theo kinh nghiệm lâm sàng của chuyên gia bác sĩ bệnh viện Nhi – Đồng Nai],[3]

Cận lâm sàng

Xét nghiệm

- Chọn Hct, tiểu cầu còn xét nghiệm khác (Bạch cầu, công thức máu…) không có giá trị trong chẩn đoán bệnh nhân SXH-VS [theo kinh nghiệm lâm sàng của chuyên gia bác sĩ bệnh viện Nhi – Đồng Nai],[2][3]

Chẩn đoán hình ảnh X quang - Siêu âm - Nội soi

- Chọn siêu âm [3] có giá trị chẩn đoán còn X quang và nội soi không có giá trị

Tình trạng đến khám hoặc nhập viện

- Thuộc tính nhập viện được chọn : bệnh nhân bị sốt xuất huyết Dengue nhập viện càng muộn tỉ lệ vào sốc càng cao[2][3]

2.3.2.2 Phương pháp giải quyết công việc 2

Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán C4.5 để tạo ra các luật và tiến hành chẩn đoán bệnh nhân mới.

2.3.2.3 Phương pháp giải quyết công việc 3

Phương pháp giải quyết cộng việc 3 là kết hợp phương pháp giải quyết công việc 1 và 2 để chuẩn hóa tập thuộc tính có đặc tính có tìm năng có liên quan đến chẩn đoán bệnh tốt nhất.

2.3.3 Tập thuộc tính sau khi canh tác dữ liệu

- Tuổi

- Huyết áp

- Đau bụng

- Ói mửa

- Dung tích hồng cầu (Hematocrit) Hct

- Tiểu cầu

- Tỉnh hay hôn mê, đến khám (nhập viện) ngày thứ mấy của bệnh.

2.4 KẾT CHƯƠNG

Chương II đã trình bày các nội dung chính sau:

- Giới thiệu khái niệm khai phá dữ liệu có canh tác dữ liệu. - Các quy trình và các phương pháp khai phá dữ liệu có canh tác

dữ liệu.

- Ứng dụng canh tác dữ liệu y khoa cụ thể là bệnh nhân sốt xuất huyết.

Kỹ thuật khai phá dữ liệu là công cụ quan trọng trong quá trình KDD và KPDL. KPDL thành công hay không phụ thuộc vào kỹ thuật khai phá, kỹ thuật khai phá ví như đào núi tìm vàng phải nhờ vào công cụ khai phá tinh vi thì mới có thể dễ dàng tìm ra vàng. Chương kế tiếp sẽ trình bày kỹ thuật khai phá dữ liệu bằng cây quyết định. Đây là một trong những kỹ thuật phân lớp dữ liệu đơn giản nhưng mạnh mẽ được ứng dụng thành công trong phân lớp dữ liệu.

Chương III

KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH

3.1 CÂY QUYẾT ĐỊNH

3.1.1 Khái niệm

Cây quyết định là một cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi node trong (internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root).

Hình 3.1 Biễu diễn cây quyết định cơ bản

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định

Root

Internal node Leaf node

Leaf node Leaf node

được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định [10].

Ví dụ 3.1: Một người có chơi tennis hay không?

Hình 3.2 Cây quyết định cho việc chơi Tennis

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (series of rules). Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.

Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượng chưa biết (unseen data).

3.1.2 Biểu diễn cây quyết định

Cây quyết định phân lớp các trường hợp cụ thể [10] bằng cách sắp đặt chúng từ trên xuống và bắt đầu từ nút gốc và đi xuống các nút lá:

Yes false Normal Humidity No Yes High No True Outlook

Sunny overcast rain

Windy

Mỗi nút trong biểu diễn một thuộc tính cần kiểm tra giá trị (an attribute to be tested) đối với các ví dụ kiểm tra giá trị (an attribute to be tested) đối với các ví dụ.

Mỗi nhánh từ một nút sẽ tương ứng với một giá trị có thể của thuộc tính gắn với nút đó trị có thể của thuộc tính gắn với nút đó.

Mỗi nút lá biểu diễn một phân lớp (a classification).

Một cây quyết định học được sẽ phân lớp đối với một ví dụ, bằng cách duyệt cây từ nút gốc đến một nút lá. → Nhãn lớp gắn với nút lá đó sẽ được gán cho ví dụ cần phân lớp.

Một cây quyết định biểu diễn một phép tuyển (disjunction) của các kết hợp (conjunctions) của các ràng buộc đối với của các kết hợp (conjunctions) của các ràng buộc đối với các giá trị thuộc tính của các ví dụ.

Mỗi đường đi (path) từ nút gốc đến một nút lá sẽ tương ứng với một kết hợp (conjunction) của các kiểm tra giá trị thuộc tính (attribute tests).

Cây quyết định (bản thân nó) chính là một phép tuyển (disjunction) của các kết hợp (conjunctions) này.

Ví dụ 3.2:

Trở lại ví dụ 3.1 ở trên, ta hoàn toàn có thể biểu diễn cây quyết định bằng đại số quan hệ như sau để thể hiện quyết định chơi tennis:

[(Outlook=Sunny) ∧∧∧∧ (Humidity=Normal)]

∨(Outlook=Overcast) ∨∨∨∨ (Outlook Overcast)

∨ [(Outlook=Rain) ∧∧∧∧ (Wind=Weak)] 3.1.3 Các bước chính xây dựng cây quyết định

Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, C5.0…Nhưng nói chung quá trình xây dựng cây quyết định đều được chia ra làm 3 giai đoạn cơ bản:

a.Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp

b.Cắt tỉa cây: Là việc làm dùng để tối ưu hoá cây. Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá.

c.Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả. Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào.

Mã giả cho quá trình Xây dựng cây

Make Tree (Training Data T)

{

Partition(T) }

Partition(Data S)

{ if (all points in S are in the same class) then return for each attribute A do

evaluate splits on attribute A;

use best split found to partition S into S1, S2,..., Sk Partition(S1) Partition(S2)

... Partition(Sk) }

3.1.4 Cây quyết định so với kỹ thuật khai phá khác

So với các phương pháp KPDL khác, cây quyết định là một trong những hình thức mô tả dữ liệu tương đối đơn giản, trực quan, dễ hiểu đối với người dùng nhưng lại hiệu quả nên được sử dụng nhiều. Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mô hình thống kê tuyến tính /bậc 2, cây quyết định, mô hình di truyền... Trong số những mô hình đó, cây quyết định được đánh giá là một công cụ mạnh, phổ biến đặt biệt là thích hợp cho DM nói chung cho phân lớp dữ liệu nói riêng.

3.1.4.1 Một số ưu điểm của cây quyết định

Cây quyết định có những ưu điểm sau: [7][10]

Khả năng sinh ra các quy tắc hiểu được

Cây quyết định có khả năng sinh ra các quy tắc dễ dịch (if … then …) hoặc có thể chuyển đổi được sang tiếng Anh hoặc SQL. Đây là ưu điểm nổi bật của kỹ thuật này. Thậm chí với những tập dữ liệu lớn khiến cho hình dáng

cây quyết định lớn và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và rõ ràng. Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự đoán nào đều tương đối minh bạch. Do đó mọi người có thể hiểu mô hình cây quyết định thông qua giải thích ban đầu.

Phương pháp canh tác dữ liệu đánh giá đặc tính

Quy trình canh tác dữ liệu

Tập thuộc tính ban đầu