Đồ Án Nghiên Cứu Kỹ Thuật Khai Phá Dữ Liệu Và Ứng Dụng Trong Hệ Thống Chẩn Đoán Bệnh

I LÝ THUYẾT KHAI PHÁ DỮ LIỆU1 Định nghĩa 2 Tiền xử lý dữ liệu II PHÂN LỚP VÀ DỰ ĐOÁN 1 Phân lớp 2 Dự đoán 3 Cây quyết định 4 Thuật toán ID3 III HỆ THỐNG CHẨN ĐOÁN BỆNH 1 Phân tích hệ th

Trang 2

I) LÝ THUYẾT KHAI PHÁ DỮ LIỆU

1) Định nghĩa 2) Tiền xử lý dữ liệu

II ) PHÂN LỚP VÀ DỰ ĐOÁN

1) Phân lớp 2) Dự đoán 3) Cây quyết định

4) Thuật toán ID3

III) HỆ THỐNG CHẨN ĐOÁN BỆNH

1) Phân tích hệ thống 2) Demo

IV) TÀI LIỆU THAM KHẢO

NỘI DUNG

Trang 3

I) Lý thuyết khai phá dữ liệu

1) Định nghĩa

Định nghĩa khai phá dữ liệu : khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng

để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp.

Quá trình phát hiện tri thức thường tuân theo các bước sau :

B1: Hình thành và định nghĩa bài toán

B2: Thu thập và tiền xử lý dữ liệu

B3: Khai phá dữ liệu và rút ra các tri thức

B4: Sử dụng các tri thức phát hiện được

Trang 4

2) Tiền xử lý dữ liệu

Các Kỹ thuật datamining đều

thực hiện trên các cơ sở dữ

liệu, nguồn dữ liệu lớn Đó là

kết quả của quá trình ghi

chép liên tục thông tin phản

ánh hoạt động của con

người, các quá trình tự

nhiên… Tất nhiên các dữ liệu

lưu trữ hoàn toàn là dưới

dạng thô, chưa sẵn sàng cho

việc phát hiện, khám phá

thông tin ẩn chứa trong đó

Trang 5

1 ) Làm sạch dữ liệu

a.) Thiếu giá trị

 Điền vào các giá trị thiếu bằng tay

 Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu

 Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu

 Sử dụng các giá trị của bộ cùng thể loại để thay thế cho giá trị thiếu

 Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu

b) Dữ liệu nhiễu

Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong quá trình thực hiện,

hoặc sự ghi chép nhầm lẫn ko được kiểm soát…

b.1 Phương pháp làm mịn Binning

Cho Mảng lưu giá sau : 2,5,7,8,8,20,90,92,100

Phân thành các bin phương pháp trung vị làm mịn biên

Bin 1: 2,5,7 Bin 1: 5,5,5 Bin 1: 2,7,7

Bin 2: 8,8,20 Bin 2: 9,9,9 Bin 1: 8,8,20

Bin 3: 90,92,100 Bin 3: 93,93,93 Bin 1: 90,90,100

Trang 6

b.2 Nhóm cụm: Các giá trị tương tự nhau được tổ chức thành các nhóm

hay “cụm" trực quan Các giá trị rơi ra bên ngoài các nhóm này sẽ được xem xét để làm mịn

Trang 7

Độ tuổi Tỉ trọng(BMI) cholesterol

Màu đen : giá trị tiên đoán trung bình

Màu đỏ : giá trị tiên đoán với khoảng tin cậy 95%

Màu xanh : giá trị tiên đoán độ cholesterol mới trong quần thể

b.3 Hồi quy tuyến tính

Trang 8

2) Tích hợp dữ liệu

 Nguồn dữ liệu dùng để phân tích không thông nhất Để có thể phân tích được, các

dữ liệu này cần phải được tích hợp, kết hơp thành một kho dữ liệu thống nhất

 Nguồn dữ liệu có thể được lưu trữ rất đa dạng từ: các cơ sở dữ liệu phổ dụng, các tập tin flat-file, các dữ liệu khối…

 Việc tích hợp cần thông tin diễn tả tính chất của thuộc tính(siêu dữ liệu ) như: tên,ý nghĩa, kiểu dữ liệu …các siêu dữ liệu này sẽ được sử dụng giúp chuyển đổi các dữ liệu

Trang 9

3) Biến đổi dữ liệu

000

4

000

2 0

0 0

1 000

500 000

500

4

000

500 000

500

Trang 10

4) Rút gọn dữ liệu

Tập thuộc tính ban đầu

{A1, A2, A3, A4, A5, A6}

Tập rút gọn ban đầu

{}

=> {A1}

=> {A1, A4}

=> Kết quả {A1, A4, A6}

Tập thuộc tính ban đầu {A1, A2, A3, A4, A5, A6}

=> {A1, A3, A4, A5, A6}

=> {A1, A4, A5, A6}

=> Kết quả {A1, A4, A6}

Tập thuộc tính ban đầu {A1, A2, A3, A4, A5, A6}

=> Kết quả {A1, A4, A6}

Ví dụ kỹ thuật rút gọn

Trang 11

II) Phân lớp và dự đoán

1 Phân lớp Phân lớp dữ liệu là tiến trình có 2 bước

 Huấn luyện:

 Phân lớp:

Trang 12

Ví dụ thay vì phân loại xem một khoản vay có là an toàn hay rủi do thì chúng ta

sẽ dự đoán xem tổng số tiền cho vay của một khoản vay là bao nhiêu thì khoản vay đó là an toàn

Trang 13

3 Cây quyết định

Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm

vụ của khai phá dữ liệu là phân loại và dự báo Mặt khác, cây quyết định còn

có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật nếu - thì (If-Then)

Cây quyết định là cấu trúc biễu diễn dưới dạng cây

•Mỗi nút trong biễu diễn một thuộc tính,

•nhánh biễu diễn giá trị có thể có của thuộc tính,

•Mỗi lá biểu diễn các lớp quyết định

•Gốc là đỉnh trên cùng của cây

Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá Trên cơ sở phân lớp này chúng ta có thể chuyển đổi về các luật quyết định

Trang 14

4 Thuật toán ID3 : Giải thuật quy nạp cây ID3 (gọi tắt là ID3)

ID3 biểu diễn các khái niệm ở dạng các cây quyết định Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó

Trang 15

4 Thuật toán ID3(tt)

Entropy đo tính thuần nhất của tập ví dụ

Entropy(S) = -p + log 2 p + - p - log 2 p

-Tập S là tập dữ liệu rèn luyện, p + , p- là phần các ví dụ dương, âm trong tập S

 nếu các ví dụ của tập S thuộc nhiều hơn hai loại, giả sử là có c giá trị phân loại thì công thức entropy tổng quát là:

 Entropy có giá trị nằm trong khoảng [0 1]

 Entropy(S) = 0  tập ví dụ S chỉ toàn ví dụ thuộc cùng một loại, hay S là thuần nhất

 Entropy(S) = 1  tập ví dụ S có các ví dụ thuộc các loại khác nhau với độ pha trộn là cao nhất

 0 < Entropy(S) < 1  tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau là không bằng nhau

Trang 16

4 Thuật toán ID3(tt)

Lượng thông tin thu được đo mức độ giảm entropy mong đợi

Trong đó Gain(S,A) của thuộc tính A, trên tập S

Values(A) là tập hợp có thể có các giá trị của thuộc tính A, và SV là tập con của S chứa các ví dụ có thuộc tính A mang giá trị v

( )

,

(

) (

v A

Values v

v Entropy S S

S S

Entropy A

Trang 17

1) Phân tích hệ thống

Cho một bảng dữ liệu da rám nắng sau :

TT Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết quả

Trang 18

Áp dụng thuật toán ID3 giải quyết.

Chọn thuộc tính phân hoạch dựa vào các vector đặc trưng:

Vchiều cao = (T(tầm thước,rám), T(tầm thước,không rám))= (2/8, 1/8)

Vchiều cao = (T(cao, rám), T(cao,không rám)) = (0/8, 2/8)

Vchiều cao =(T(thấp,rám), T(thấp,không rám))= (1/8, 2/8)

Cân nặng:

Vcân nặng= (T(nhẹ,rám), T(nhẹ,không rám)) = (1/8, 1/8)

Vcân nặng = (T(vừa phải,rám), T(vừa phải, không rám)) = (1/8, 2/8)

Trang 19

Tiếp theo cần phân hoạch tập P1=(1,2,4,8)

TT Chiều cao Cân nặng Dùng thuốc? Kết quả

Màu tóc

(Rám) (Không rám)

Trang 20

Tính các vector đặc trưng:

Vcân nặng= (T(nhẹ, rám), T(nhẹ, không rám)) = (1/4,1/4)

Vcân nặng= (T(vừa phải, rám), T(vừa phải, không rám)) =(1/4,1/4)

Dùng thuốc:

Vdùngthuốc = (T(có, rám), T(không, rám)) = (0/4, 2/4)

Vdùng thuốc = (T(không, rám), T(không, không rám)) =(2/4, 0/4)

Chọn thuộc tính Dùng thuốc làm thuộc tính phân hoạch

Dùng thuốc

Có (2,8) Không(1,4)

(không rám) (Rám)

Trang 21

Kết quả, ta có cây định danh sau:

Màu tóc

Đen(1,2,4,8) Bạc(5) Râm(3,6,7)Dùng thuốc (Rám) (Không rám)

Có( 2, 8) Không(1,4)

Trang 22

IF Tóc bạc THEN Rám

IF Tóc râm THEN không bị rám

IF (Tóc đen, có dùng thuốc) THEN không rám

IF (Tóc đen, không dùng thuốc) THEN Rám

Từ cây định danh trên, ta suy ra các luật:

Trang 23

USE CASE HỆ THỐNG

Trang 24

Đặc tả chức năng

Chức năng tra cứu thuốc : người dùng sẽ nhập vào tên của loại thuốc cần biết thông tin chi tiết

Hệ thống sẽ hiên thị thông tin về loại thuốc đó gồm tên thuốc, quy cách, hàm lượng,cách dùng, chỉ định , chống chỉ định …

Chức năng tra cứu bênh : Người dùng sẽ nhập vào tên bệnh (không viết dấu)

Hệ thống sẽ hiển thị thông tin về bệnh mà người dùng gõ vào gồm các thông tin bệnh đó thuộc nhóm bệnh nào, tên tiếng anh của loại bệnh đó, chi tiết hội chứng bệnh

Tùy thuộc vào nhà thiết kế mà có thể liệt kê thêm các thông tin theo yêu cầu.

Chức năng sổ tay chẩn đoán bệnh : người dùng sẽ trả lời một số cầu hỏi mà phần mềm đưa

ra ,khi trả lời xong hệ thống sẽ chẩn đoán dự vào các thuật toán kết quả là loại bệnh gì.

Điều kiện thực hiện chức năng chẩn đoán là phải có cơ sở dữ liệu dạng chuẩn

Chức năng khai phá dữ liệu: Dựa vào thuật toán (cây quyết định và thuật toán ID3 ) đưa ra tập

luật và cây quyết định.

Trang 25

1 Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005

2 Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.

3 Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann

Publishers, 2002

5 Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,

University of Illinois, Morgan Kaufmann Publishers, 2002

IV) TÀI LIỆUTHAM KHẢO

Định dạng
Số trang	25
Dung lượng	1,49 MB