I LÝ THUYẾT KHAI PHÁ DỮ LIỆU1 Định nghĩa 2 Tiền xử lý dữ liệu II PHÂN LỚP VÀ DỰ ĐOÁN 1 Phân lớp 2 Dự đoán 3 Cây quyết định 4 Thuật toán ID3 III HỆ THỐNG CHẨN ĐOÁN BỆNH 1 Phân tích hệ th
Trang 2I) LÝ THUYẾT KHAI PHÁ DỮ LIỆU
1) Định nghĩa 2) Tiền xử lý dữ liệu
II ) PHÂN LỚP VÀ DỰ ĐOÁN
1) Phân lớp 2) Dự đoán 3) Cây quyết định
4) Thuật toán ID3
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống 2) Demo
IV) TÀI LIỆU THAM KHẢO
NỘI DUNG
Trang 3I) Lý thuyết khai phá dữ liệu
1) Định nghĩa
Định nghĩa khai phá dữ liệu : khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng
để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp.
Quá trình phát hiện tri thức thường tuân theo các bước sau :
B1: Hình thành và định nghĩa bài toán
B2: Thu thập và tiền xử lý dữ liệu
B3: Khai phá dữ liệu và rút ra các tri thức
B4: Sử dụng các tri thức phát hiện được
Trang 4I) Lý thuyết khai phá dữ liệu
2) Tiền xử lý dữ liệu
Các Kỹ thuật datamining đều
thực hiện trên các cơ sở dữ
liệu, nguồn dữ liệu lớn Đó là
kết quả của quá trình ghi
chép liên tục thông tin phản
ánh hoạt động của con
người, các quá trình tự
nhiên… Tất nhiên các dữ liệu
lưu trữ hoàn toàn là dưới
dạng thô, chưa sẵn sàng cho
việc phát hiện, khám phá
thông tin ẩn chứa trong đó
Trang 51 ) Làm sạch dữ liệu
a.) Thiếu giá trị
Điền vào các giá trị thiếu bằng tay
Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu
Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu
Sử dụng các giá trị của bộ cùng thể loại để thay thế cho giá trị thiếu
Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu
b) Dữ liệu nhiễu
Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong quá trình thực hiện,
hoặc sự ghi chép nhầm lẫn ko được kiểm soát…
b.1 Phương pháp làm mịn Binning
Cho Mảng lưu giá sau : 2,5,7,8,8,20,90,92,100
Phân thành các bin phương pháp trung vị làm mịn biên
Bin 1: 2,5,7 Bin 1: 5,5,5 Bin 1: 2,7,7
Bin 2: 8,8,20 Bin 2: 9,9,9 Bin 1: 8,8,20
Bin 3: 90,92,100 Bin 3: 93,93,93 Bin 1: 90,90,100
I) Lý thuyết khai phá dữ liệu
Trang 6b.2 Nhóm cụm: Các giá trị tương tự nhau được tổ chức thành các nhóm
hay “cụm" trực quan Các giá trị rơi ra bên ngoài các nhóm này sẽ được xem xét để làm mịn
I) Lý thuyết khai phá dữ liệu
Trang 7Độ tuổi Tỉ trọng(BMI) cholesterol
Màu đen : giá trị tiên đoán trung bình
Màu đỏ : giá trị tiên đoán với khoảng tin cậy 95%
Màu xanh : giá trị tiên đoán độ cholesterol mới trong quần thể
b.3 Hồi quy tuyến tính
Trang 82) Tích hợp dữ liệu
Nguồn dữ liệu dùng để phân tích không thông nhất Để có thể phân tích được, các
dữ liệu này cần phải được tích hợp, kết hơp thành một kho dữ liệu thống nhất
Nguồn dữ liệu có thể được lưu trữ rất đa dạng từ: các cơ sở dữ liệu phổ dụng, các tập tin flat-file, các dữ liệu khối…
Việc tích hợp cần thông tin diễn tả tính chất của thuộc tính(siêu dữ liệu ) như: tên,ý nghĩa, kiểu dữ liệu …các siêu dữ liệu này sẽ được sử dụng giúp chuyển đổi các dữ liệu
Trang 93) Biến đổi dữ liệu
000
000
4
000
000
2 0
0 0
1 000
500 000
500
4
000
500 000
500
Trang 104) Rút gọn dữ liệu
Tập thuộc tính ban đầu
{A1, A2, A3, A4, A5, A6}
Tập rút gọn ban đầu
{}
=> {A1}
=> {A1, A4}
=> Kết quả {A1, A4, A6}
Tập thuộc tính ban đầu {A1, A2, A3, A4, A5, A6}
=> {A1, A3, A4, A5, A6}
=> {A1, A4, A5, A6}
=> Kết quả {A1, A4, A6}
Tập thuộc tính ban đầu {A1, A2, A3, A4, A5, A6}
=> Kết quả {A1, A4, A6}
Ví dụ kỹ thuật rút gọn
Trang 11II) Phân lớp và dự đoán
1 Phân lớp Phân lớp dữ liệu là tiến trình có 2 bước
Huấn luyện:
Phân lớp:
Trang 12Ví dụ thay vì phân loại xem một khoản vay có là an toàn hay rủi do thì chúng ta
sẽ dự đoán xem tổng số tiền cho vay của một khoản vay là bao nhiêu thì khoản vay đó là an toàn
II) Phân lớp và dự đoán
Trang 13II) Phân lớp và dự đoán
3 Cây quyết định
Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm
vụ của khai phá dữ liệu là phân loại và dự báo Mặt khác, cây quyết định còn
có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật nếu - thì (If-Then)
Cây quyết định là cấu trúc biễu diễn dưới dạng cây
•Mỗi nút trong biễu diễn một thuộc tính,
•nhánh biễu diễn giá trị có thể có của thuộc tính,
•Mỗi lá biểu diễn các lớp quyết định
•Gốc là đỉnh trên cùng của cây
Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá Trên cơ sở phân lớp này chúng ta có thể chuyển đổi về các luật quyết định
Trang 14II) Phân lớp và dự đoán
4 Thuật toán ID3 : Giải thuật quy nạp cây ID3 (gọi tắt là ID3)
ID3 biểu diễn các khái niệm ở dạng các cây quyết định Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó
Trang 154 Thuật toán ID3(tt)
Entropy đo tính thuần nhất của tập ví dụ
Entropy(S) = -p + log 2 p + - p - log 2 p
-Tập S là tập dữ liệu rèn luyện, p + , p- là phần các ví dụ dương, âm trong tập S
nếu các ví dụ của tập S thuộc nhiều hơn hai loại, giả sử là có c giá trị phân loại thì công thức entropy tổng quát là:
Entropy có giá trị nằm trong khoảng [0 1]
Entropy(S) = 0 tập ví dụ S chỉ toàn ví dụ thuộc cùng một loại, hay S là thuần nhất
Entropy(S) = 1 tập ví dụ S có các ví dụ thuộc các loại khác nhau với độ pha trộn là cao nhất
0 < Entropy(S) < 1 tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau là không bằng nhau
Trang 164 Thuật toán ID3(tt)
Lượng thông tin thu được đo mức độ giảm entropy mong đợi
Trong đó Gain(S,A) của thuộc tính A, trên tập S
Values(A) là tập hợp có thể có các giá trị của thuộc tính A, và SV là tập con của S chứa các ví dụ có thuộc tính A mang giá trị v
( )
,
(
) (
v A
Values v
v Entropy S S
S S
Entropy A
Trang 17III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống
Cho một bảng dữ liệu da rám nắng sau :
TT Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết quả
Trang 18Áp dụng thuật toán ID3 giải quyết.
Chọn thuộc tính phân hoạch dựa vào các vector đặc trưng:
Vchiều cao = (T(tầm thước,rám), T(tầm thước,không rám))= (2/8, 1/8)
Vchiều cao = (T(cao, rám), T(cao,không rám)) = (0/8, 2/8)
Vchiều cao =(T(thấp,rám), T(thấp,không rám))= (1/8, 2/8)
Cân nặng:
Vcân nặng= (T(nhẹ,rám), T(nhẹ,không rám)) = (1/8, 1/8)
Vcân nặng = (T(vừa phải,rám), T(vừa phải, không rám)) = (1/8, 2/8)
Trang 19Tiếp theo cần phân hoạch tập P1=(1,2,4,8)
TT Chiều cao Cân nặng Dùng thuốc? Kết quả
Màu tóc
(Rám) (Không rám)
Trang 20Tính các vector đặc trưng:
Vcân nặng= (T(nhẹ, rám), T(nhẹ, không rám)) = (1/4,1/4)
Vcân nặng= (T(vừa phải, rám), T(vừa phải, không rám)) =(1/4,1/4)
Dùng thuốc:
Vdùngthuốc = (T(có, rám), T(không, rám)) = (0/4, 2/4)
Vdùng thuốc = (T(không, rám), T(không, không rám)) =(2/4, 0/4)
Chọn thuộc tính Dùng thuốc làm thuộc tính phân hoạch
Dùng thuốc
Có (2,8) Không(1,4)
(không rám) (Rám)
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Trang 21Kết quả, ta có cây định danh sau:
Màu tóc
Đen(1,2,4,8) Bạc(5) Râm(3,6,7)Dùng thuốc (Rám) (Không rám)
Có( 2, 8) Không(1,4)
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Trang 22IF Tóc bạc THEN Rám
IF Tóc râm THEN không bị rám
IF (Tóc đen, có dùng thuốc) THEN không rám
IF (Tóc đen, không dùng thuốc) THEN Rám
Từ cây định danh trên, ta suy ra các luật:
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Trang 23USE CASE HỆ THỐNG
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Trang 24Đặc tả chức năng
Chức năng tra cứu thuốc : người dùng sẽ nhập vào tên của loại thuốc cần biết thông tin chi tiết
Hệ thống sẽ hiên thị thông tin về loại thuốc đó gồm tên thuốc, quy cách, hàm lượng,cách dùng, chỉ định , chống chỉ định …
Chức năng tra cứu bênh : Người dùng sẽ nhập vào tên bệnh (không viết dấu)
Hệ thống sẽ hiển thị thông tin về bệnh mà người dùng gõ vào gồm các thông tin bệnh đó thuộc nhóm bệnh nào, tên tiếng anh của loại bệnh đó, chi tiết hội chứng bệnh
Tùy thuộc vào nhà thiết kế mà có thể liệt kê thêm các thông tin theo yêu cầu.
Chức năng sổ tay chẩn đoán bệnh : người dùng sẽ trả lời một số cầu hỏi mà phần mềm đưa
ra ,khi trả lời xong hệ thống sẽ chẩn đoán dự vào các thuật toán kết quả là loại bệnh gì.
Điều kiện thực hiện chức năng chẩn đoán là phải có cơ sở dữ liệu dạng chuẩn
Chức năng khai phá dữ liệu: Dựa vào thuật toán (cây quyết định và thuật toán ID3 ) đưa ra tập
luật và cây quyết định.
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Trang 251 Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005
2 Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.
3 Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann
Publishers, 2002
5 Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,
University of Illinois, Morgan Kaufmann Publishers, 2002
IV) TÀI LIỆUTHAM KHẢO