Đồ Án Nghiên Cứu Kỹ Thuật Khai Phá Dữ Liệu Và Ứng Dụng Trong Hệ Thống Chẩn Đoán Bệnh

25 793 0
Đồ Án Nghiên Cứu Kỹ Thuật Khai Phá Dữ Liệu Và Ứng Dụng Trong Hệ Thống Chẩn Đoán Bệnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐỒ ÁN CHUYÊN NGÀNH ĐỀ TÀI NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆUVÀ ỨNG DỤNG TRONG HỆ THỐNG CHẨN ĐOÁN BỆNH GVHD: NCS Lê Thanh Long SV : Nguyễn Huy Mạnh Lớp : K14 TPM1 Khoa : Công nghệ thông tin NỘI DUNG I) LÝ THUYẾT KHAI PHÁ DỮ LIỆU 1) Định nghĩa 2) Tiền xử lý liệu II ) PHÂN LỚP VÀ DỰ ĐOÁN 1) Phân lớp 2) Dự đoán 3) Cây định 4) Thuật toán ID3 III) HỆ THỐNG CHẨN ĐOÁN BỆNH 1) Phân tích hệ thống 2) Demo IV) TÀI LIỆU THAM KHẢO I) Lý thuyết khai phá liệu 1) Định nghĩa Định nghĩa khai phá liệu : khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp Quá trình phát tri thức thường tuân theo bước sau : B1: Hình thành định nghĩa toán B2: Thu thập tiền xử lý liệu B3: Khai phá liệu rút tri thức B4: Sử dụng tri thức phát I) Lý thuyết khai phá liệu 2) Tiền xử lý liệu Các Kỹ thuật datamining thực sở liệu, nguồn liệu lớn Đó kết trình ghi chép liên tục thông tin phản ánh hoạt người, động trình tự nhiên… Tất nhiên liệu lưu trữ hoàn toàn dạng thô, chưa sẵn sàng cho việc phát hiện, khám phá thông tin ẩn chứa I) Lý thuyết khai phá liệu ) Làm liệu a.) Thiếu giá trị  Điền vào giá trị thiếu tay  Sử dụng giá trị quy ước để điền vào cho giá trị thiếu  Sử dụng thuộc tính có nghĩa để điền vào cho giá trị thiếu  Sử dụng giá trị thể loại để thay cho giá trị thiếu  Sử dụng giá trị có tỉ lệ xuất cao để điền vào cho giá trị thiếu b) Dữ liệu nhiễu Nhiễu liệu lỗi ngẫu nhiên hay biến động biến trình thực hiện, ghi chép nhầm lẫn ko kiểm soát… b.1 Phương pháp làm mịn Binning Cho Mảng lưu giá sau : 2,5,7,8,8,20,90,92,100 Phân thành bin phương pháp trung vị làm mịn biên Bin 1: 2,5,7 Bin 1: 5,5,5 Bin 1: 2,7,7 Bin 2: 8,8,20 Bin 2: 9,9,9 Bin 1: 8,8,20 Bin 3: 90,92,100 Bin 3: 93,93,93 Bin 1: 90,90,100 I) Lý thuyết khai phá liệu b.2 Nhóm cụm: Các giá trị tương tự tổ chức thành nhóm hay “cụm" trực quan Các giá trị rơi bên nhóm xem xét để làm mịn b.3 Hồi quy tuyến tính Độ tuổi 46 20 52 30 57 25 28 36 22 43 57 33 22 63 40 48 28 49 Tỉ trọng(BMI) 25.4 20.6 26.2 22.6 25.4 23.1 22.7 24.9 19.8 25.3 23.2 21.8 20.9 26.7 26.4 21.2 21.2 22.8 cholesterol 3.5 1.9 2.6 4.5 2.9 3.8 2.1 3.8 4.1 2.5 4.6 3.2 4.2 2.3 Màu đen : giá trị tiên đoán trung bình Màu đỏ : giá trị tiên đoán với khoảng tin cậy 95% Màu xanh : giá trị tiên đoán độ cholesterol quần thể 2) Tích hợp liệu Nguồn liệu dùng để phân tích không thông Để phân tích được, liệu cần phải tích hợp, kết hơp thành kho liệu thống Nguồn liệu lưu trữ đa dạng từ: sở liệu phổ dụng, tập tin flat-file, liệu khối… Việc tích hợp cần thông tin diễn tả tính chất thuộc tính(siêu liệu ) như: tên,ý nghĩa, kiểu liệu …các siêu liệu sử dụng giúp chuyển đổi liệu 3) Biến đổi liệu Làm mịn Khái quát hóa liệu Tổng hợp Xác định thêm thuộc tính Chuẩn hóa Phương pháp min-max Ví dụ: Giả sử giá trị nhỏ lớn cho thuộc tính “thu nhập bình quân” 500.000 4.500.000 Chúng ta muốn ánh xạ giá trị 2.500.000 khoảng [0.0, 1.0] sử dụng chuẩn hóa min- max Giá trị thu 2.500.000 − 500.000 2.000.000 (1.0 − 0) + = v= = 4.500.000 − 500.000 4.000.000 4) Rút gọn liệu Lựa chọn tăng dần Loại bớt Tập thuộc tính ban đầu Tập thuộc tính ban đầu Tập thuộc tính ban đầu {A1, A2, A3, A4, A5, A6} {A1, A2, A3, A4, A5, A6} {A1, A2, A3, A4, A5, A6} Tập rút gọn ban đầu => {A1, A3, A4, A5, A6} => Kết {A1, A4, A6} {} => {A1, A4, A5, A6} => {A1} => Kết {A1, A4, A6} => {A1, A4} => Kết {A1, A4, A6} Ví dụ kỹ thuật rút gọn Cây định II) Phân lớp dự đoán Phân lớp Phân lớp liệu tiến trình có bước  Huấn luyện:  Phân lớp: II) Phân lớp dự đoán Dự đoán Dự đoán liệu trình gồm hai bước, gần giống với trình phân lớp Tuy nhiên để dự đoán, bỏ qua khái niệm nhãn phân lớp giá trị dự đoán liên tục (được xếp) giá trị phân loại Ví dụ thay phân loại xem khoản vay có an toàn hay rủi dự đoán xem tổng số tiền cho vay khoản vay khoản vay an toàn II) Phân lớp dự đoán Cây định Cây định phương pháp mạnh phổ biến cho hai nhiệm vụ khai phá liệu phân loại dự báo Mặt khác, định chuyển sang dạng biểu diễn tương đương dạng tri thức luật - (If-Then) Cây định cấu trúc biễu diễn dạng •Mỗi nút biễu diễn thuộc tính, •nhánh biễu diễn giá trị có thuộc tính, •Mỗi biểu diễn lớp định •Gốc đỉnh Cây định dùng để phân lớp cách xuất phát từ gốc di chuyển theo nhánh gặp nút Trên sở phân lớp chuyển đổi luật định II) Phân lớp dự đoán Thuật toán ID3 : Giải thuật quy nạp ID3 (gọi tắt ID3) ID3 biểu diễn khái niệm dạng định Biểu diễn cho phép xác định phân loại đối tượng cách kiểm tra giá trị số thuộc tính giải thuật có: Đầu vào: Một tập hợp ví dụ Mỗi ví dụ bao gồm thuộc tính mô tả tình huống, hay đối tượng đó, giá trị phân loại Đầu ra: Cây định có khả phân loại đắn ví dụ tập liệu rèn luyện, hy vọng phân loại cho ví dụ chưa gặp tương lai 4 Thuật toán ID3(tt) Entropy đo tính tập ví dụ Entropy(S) = -p+log2p+ - p-log2pTập S tập liệu rèn luyện, p+ , p- phần ví dụ dương, âm tập S  ví dụ tập S thuộc nhiều hai loại, giả sử có c giá trị phân loại công thức entropy tổng quát là: C Entropy(S) = ∑− pi log pi i =1  Entropy có giá trị nằm khoảng [0 1]  Entropy(S) =  tập ví dụ S toàn ví dụ thuộc loại, hay S  Entropy(S) =  tập ví dụ S có ví dụ thuộc loại khác với độ pha trộn cao  < Entropy(S) <  tập ví dụ S có số lượng ví dụ thuộc loại khác không II) Phân lớp dự đoán Thuật toán ID3(tt) Lượng thông tin thu đo mức độ giảm entropy mong đợi | Sv | Gain( S , A) = Entropy ( S ) − ∑ Entropy ( S v ) v∈Values ( A ) | S | Trong Gain(S,A) thuộc tính A, tập S Values(A) tập hợp có giá trị thuộc tính A, S V tập S chứa ví dụ có thuộc tính A mang giá trị v III) HỆ THỐNG CHẨN ĐOÁN BỆNH 1) Phân tích hệ thống Cho bảng liệu da rám nắng sau : TT Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết Đen Tầm thước Nhẹ Không Bị rám Đen Cao Vừa phải Có Không Râm Thấp Vừa phải Có Không Đen Thấp Vừa phải Không Bị rám Bạc Tầm thước Nặng Không Bị rám Râm Cao Nặng Không Không Râm Tầm thước Nặng Không Không Đen Thấp Nhẹ Có Không Áp dụng thuật toán ID3 giải Chọn thuộc tính phân hoạch dựa vào các vector đặc trưng: Màu tóc Vmàu tóc=(T(đen,rám),T(đen,không rám)) =(2/8,2/8) Vmàu tóc =(T(râm,rám), T(râm,không rám))= (0/8,3/8) Vmàu tóc =(T(bạc,rám),T(bạc,không rám))= (1/8,0/8) Chiều cao: Vchiều cao = (T(tầm thước,rám), T(tầm thước,không rám))= (2/8, 1/8) Vchiều cao = (T(cao, rám), T(cao,không rám)) = (0/8, 2/8) Vchiều cao =(T(thấp,rám), T(thấp,không rám))= (1/8, 2/8) Cân nặng: Vcân nặng= (T(nhẹ,rám), T(nhẹ,không rám)) = (1/8, 1/8) Vcân nặng = (T(vừa phải,rám), T(vừa phải, không rám)) = (1/8, 2/8) Vcân nặng = (T (nặng, rám), T(nặng, không rám)) = (1/8, 2/8) Dùng thuốc: Vdùng thuốc= (T(không, rám), T(không, không rám)) = (3/8, 2/8) Vdùng thuốc = (T(có,rám), T(có, không rám)) = (0/8, 3/8) Thuộc tính Màu tóc có nhiều vector đơn vị nhất nên ta chọn thuốc tính màu tóc để phân hoạch Màu tóc Đen(1,2,4,8) Bạc(5) (Rám) Râm(3,6,7) (Không rám) Tiếp theo cần phân hoạch tập P1=(1,2,4,8) TT Chiều cao Cân nặng Dùng thuốc? Kết Tầm thước Nhẹ Không Bị rám Cao Vừa phải Có Không Thấp Vừa phải Không Bị rám Thấp Nhẹ Có Không III) HỆ THỐNG CHẨN ĐOÁN BỆNH Tính các vector đặc trưng: Dùng thuốc Chiều cao: Vchiềucao =(T(tầm thước,rám), T(tầm thước, không rám)) = (1/4, 0/4) Vchiềucao= (T(thấp, rám), T(thấp, không rám)) = (1/4 , 1/4) Vchiềucao= (T(cao, rám), T(cao, không rám)) = (0/4, 1/4) Cân nặng: Vcân nặng= (T(nhẹ, rám), T(nhẹ, không rám)) = (1/4,1/4) Vcân nặng= (T(vừa phải, rám), T(vừa phải, không rám)) =(1/4,1/4) Dùng thuốc: Vdùngthuốc = (T(có, rám), T(không, rám)) = (0/4, 2/4) Vdùng thuốc = (T(không, rám), T(không, không rám)) =(2/4, 0/4) Chọn thuộc tính Dùng thuốc làm thuộc tính phân hoạch Có (2,8) Không(1,4) (không rám) (Rám) III) HỆ THỐNG CHẨN ĐOÁN BỆNH Kết quả, ta có định danh sau: Màu tóc Có( 2, 8) Đen(1,2,4,8) Bạc(5) Râm(3,6,7) Dùng thuốc (Rám) (Không rám) Không(1,4) III) HỆ THỐNG CHẨN ĐOÁN BỆNH Từ định danh trên, ta suy các luật: IF Tóc bạc THEN Rám IF Tóc râm THEN không bị rám IF (Tóc đen, có dùng thuốc) THEN không rám IF (Tóc đen, không dùng thuốc) THEN Rám III) HỆ THỐNG CHẨN ĐOÁN BỆNH USE CASE HỆ THỐNG III) HỆ THỐNG CHẨN ĐOÁN BỆNH Đặc tả chức Chức tra cứu thuốc : người dùng nhập vào tên loại thuốc cần biết thông tin chi tiết Hệ thống hiên thị thông tin loại thuốc gồm tên thuốc, quy cách, hàm lượng,cách dùng, định , chống định … Chức tra cứu bênh : Người dùng nhập vào tên bệnh (không viết dấu) Hệ thống hiển thị thông tin bệnh mà người dùng gõ vào gồm thông tin bệnh thuộc nhóm bệnh nào, tên tiếng anh loại bệnh đó, chi tiết hội chứng bệnh Tùy thuộc vào nhà thiết kế mà liệt kê thêm thông tin theo yêu cầu Chức sổ tay chẩn đoán bệnh : người dùng trả lời số cầu hỏi mà phần mềm đưa ,khi trả lời xong hệ thống chẩn đoán dự vào thuật toán kết loại bệnh Điều kiện thực chức chẩn đoán phải có sở liệu dạng chuẩn Chức khai phá liệu: Dựa vào thuật toán (cây định thuật toán ID3 ) đưa tập luật định IV) TÀI LIỆUTHAM KHẢO Đỗ Phúc, Giáo trình Khai thác liệu, ĐHQG TPHCM, 2005 Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001 Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2002 Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002

Ngày đăng: 11/05/2017, 14:30

Từ khóa liên quan

Mục lục

  • Slide 1

  • Slide 2

  • Slide 3

  • Slide 4

  • Slide 5

  • Slide 6

  • Slide 7

  • Slide 8

  • Slide 9

  • Slide 10

  • Slide 11

  • Slide 12

  • Slide 13

  • Slide 14

  • Slide 15

  • Slide 16

  • Slide 17

  • Slide 18

  • Slide 19

  • Slide 20

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan