Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
2,12 MB
Nội dung
i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN THỊ THU HẰNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH TẬP GIÁ TRỊ Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: GS.TS VŨ ĐỨC THI Thái Nguyên – năm 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ii LỜI CẢM ƠN Trƣớc hết, xin gửi lời cảm ơn sâu sắc đến thầy hƣớng dẫn khoa học GS.TS Vũ Đức Thi dẫn khoa học, định hƣớng nghiên cứu tận tình hƣớng dẫn suốt trình làm luận văn Tôi xin cảm ơn Thầy viện Công Nghệ Thông Tin, Thầy Cô trƣờng Đại học Công Nghệ Thông Tin Truyền Thông - Đại học Thái Nguyên quan tâm bảo trực tiếp giảng dạy, giúp đỡ suốt trình học tập nghiên cứu Cuối cùng, xin cảm ơn gia đình bạn bè, ngƣời ủng hộ động viên để yên tâm nghiên cứu luận văn Học viên Nguyễn Thị Thu Hằng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iii LỜI CAM ĐOAN Tôi xin cam đoan công trình riêng tôi, dƣới hƣớng dẫn GS.TS Vũ Đức Thi Các số liệu kết nghiên cứu luận văn trung thực Mọi tham khảo luận văn đƣợc trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo hay gian trá xin hoàn toàn chịu trách nhiệm Học viên Nguyễn Thị Thu Hằng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iv MỤC LỤC LỜI CẢM ƠN i DANH MỤC CÁC THUẬT NGỮ vi BẢNG KÝ HIỆU, TỪ VIẾT TẮT vii DANH MỤC BẢNG ix DANH MỤC HÌNH x MỞ ĐẦU CHƢƠNG 1: KHÁI QUÁT VỀ HỆ THÔNG TIN TẬP GIÁ TRỊ VÀ BÀI TOÁN RÚT GỌN THUỘC TÍNH 1.1 Hệ thông tin mô hình tập thô truyền thống 1.1.1 Hệ thông tin 1.1.2 Bảng định 1.1.3 Tập rút gọn tập lõi 1.1.4 Mô hình tập thô truyền thống 1.1.5 Ma trận phân biệt đƣợc hàm phân biệt đƣợc 13 1.2 Hệ thông tin tập giá trị mô hình tập thô dung sai 15 1.2.1 Hệ thông tin tập giá trị 15 1.2.2 Quan hệ dung sai 17 1.2.3 Bảng định tập giá trị 18 1.2.4 Tập thô dựa quan hệ dung sai 19 1.2.5 Ma trận dung sai 20 1.2.6 Rút gọn thuộc tính bảng định tập giá trị 21 CHƢƠNG 2: RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH TẬP GIÁ TRỊ 26 2.1 Đặt vấn đề 26 2.2 Cơ sở lý thuyết 26 2.2.1 Hàm phân biệt ngẫu nhiên 26 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ v 2.2.2 Bảng ngẫu nhiên CT bảng ngẫu nhiên dựa quan hệ dung sai TCT 27 2.2.3 Giá trị thuộc tính biểu diễn qua mô hình lƣới 37 2.3 Thuật toán tìm tập rút gọn thuộc tính 40 2.3.1 Thuật toán 2.1 - Tìm tập rút gọn thuộc tính bảng định tập giá trị 40 2.3.2 Ví dụ minh họa thuật toán 2.1 41 2.4.Thuật toán tìm xấp xỉ hệ thông tin tập giá trị 44 2.4.1 Thuật toán 2.2- Thuật toán tìm xấp xỉ trên, xấp xỉ dƣới sử dụng hàm phân biệt 44 2.4.2 Ví dụ minh họa thuật toán 2.2 45 CHƢƠNG 3: PHẦN MỀM THỬ NGHIỆM THUẬT TOÁN TÌM TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH TẬP GIÁ TRỊ VÀ ỨNG DỤNG TRONG BÀI TOÁN CHẨN ĐOÁN BỆNH VIÊM GAN B 48 3.1 Phát biểu toán 48 3.2 Mô tả xử lý liệu 48 3.2.1 Mô tả liệu 48 3.2.2 Xử lý liệu 50 3.3 Thử nghiệm chƣơng trình 52 3.4 Đánh giá kết 54 3.5 Kết luận chƣơng 55 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 57 TÀI LIỆU THAM KHẢO 58 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vi DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Hệ thông tin đơn trị Information System Hệ thông tin đơn trị đầy đủ Complete Information System Hệ thông tin đơn trị không Inconsistent Information System quán Bảng định Decision Table Hệ thông tin tập giá trị Set valued Information System Bảng định tập giá trị Set Valued Decision Information System Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Ma trận phân biệt Indiscernibility Matrix Hàm phân biệt Indiscernibility Function Bảng ngẫu nhiên Contingency Table Bảng ngẫu nhiên dựa quan hệ Tolerance Based Contingency Table dung sai Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vii BẢNG KÝ HIỆU, TỪ VIẾT TẮT Ký hiệu, từ viết tắt Diễn giải S U , A,V , f Hệ thông tin T U,C Bảng định IS U , A,V , f DS (U , C D, V , f Hệ thông tin tập giá trị d ,V , f ) Bảng định tập giá trị u a Giá trị đối tượng IND B Quan hệ B không phân biệt u Lớp tương đương chứa B u thuộc tính u a quan hệ IND B U/B Phân hoạch U sinh tập thuộc tính B COVER U Tập tất phủ U B (u ) Hàm định suy rộng đối tượng u BX B xấp xỉ X hệ thông tin BX B xấp xỉ X hệ thông tin BN B X B miền biên X hệ thông tin POS B D B miền dương D hệ thông tin TB Quan hệ dung sai tập thuộc tính B B TB ( X ) Xấp xỉ X hệ thông tin tập giá trị TB ( X ) Xấp xỉ X hệ thông tin tập giá trị BNDTB ( X ) Miền biên X hệ thông tin tập giá trị NEGTB ( X ) Miền X hệ thông tin tập giá trị POSTB ( X ) Miền dương X hệ thông tin tập giá trị CTB Bảng ngẫu nhiên tập thuộc tính B TCTB Bảng ngẫu nhiên dựa quan hệ dung sai Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ viii tập thuộc tính B MDT Ma trận phân biệt discern( A) Hàm phân biệt IS P Hệ thông tin giá trị tập đại diện DS P Bảng định giá trị tập đại diện UP Tập đối tượng đại diện hệ thông tin tập giá trị Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ix DANH MỤC BẢNG Bảng 1: Ví dụ hệ thông tin Bảng Bảng định bệnh cúm Bảng Bảng rút gọn thứ hệ thống bệnh cúm R1 Bảng Bảng rút gọn thứ hai hệ thống bệnh cúm R2 Bảng Thông tin bệnh cúm 10 Bảng Ma trận phân biệt đƣợc xây dựng từ Bảng 1.2 14 Bảng Hệ thông tin tập giá trị 16 Bảng Bảng định tập giá trị 18 Bảng Ma trận phân biệt theo hƣớng định 21 Bảng 10 Bảng định xe 23 Bảng 11 Bảng định tập giá trị 24 Bảng Bảng phân biệt ngẫu nhiên biểu diễn giá trị tập thuộc tính hàm phân biệt 32 Bảng 2 Minh hoạ giá trị hàm phân biệt 36 Bảng Bảng định tập giá trị bao gôm cột thuộc tính 41 Bảng Bảng định tập giá trị bao gồm cột thuộc tính điều kiện cột dx 45 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ x DANH MỤC HÌNH Hình Cấu trúc bảng định tập giá trị 39 Hình Bảng liệu đầu vào 49 Hình Tệp liệu sau xử lý 52 Hình 3 Giao diện nhập liệu 52 Hình Màn hình hiển thị thông tin thuộc tính 53 Hình Kết thực với liệu thử nghiệm 53 Hình Tệp liệu sau rút gọn 55 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 45 TCT [i,1] Tính hàm i TCT [i,1] TCT [i, 0] if (vi= 1) then LowerAppr {i} else if (vi > 0) then 10 Upper Appr 11 end if 12 13 {i} end if end for * Kết luận: Giả sử n số đối tƣợng Độ phức tạp để tạo bảng DS bảng TCT O(kn2) Xét vòng lặp for độ phức tạp để tính hàm v O(kn2) Độ phức tạp thời gian để xấp xỉ xấp xỉ dƣới vòng lặp if O(kn) (bỏ qua d phân lớp định) Vì vậy, độ phức tạp Thuật toán 2.2 O(kn2) 2.4.2 Ví dụ minh họa thuật toán 2.2 Ví dụ 2.4 Xét hệ thông tin tập giá trị IS (U , A) cho Bảng 1.5 (bỏ thuộc tính định d) Giả sử B U / IND B A , X u3 , u4 , u5 , u6 , u1 , u2 , u7 , u3 , u4 , u8 , u10 , u5 , u9 , u6 Tính xấp xỉ xấp xỉ dƣới X theo Thuật toán 2.2 1) Tạo bảng định sau: Bảng Bảng định tập giá trị bao gồm cột thuộc tính điều kiện cột dx U Audition(A) Spoken Số hóa Trung tâm Học liệu - ĐHTN Reading(R) Writing(W) dX http://www.lrc-tnu.edu.vn/ 46 Language(S) u1 {E} {E} {F , G} {F , G} u2 {E, F , G} {E, F , G} {F , G} {E, F , G} u3 {E, G} {E, F} {F , G} {F , G} u4 {E, F} {E, G} {F , G} {F } u5 {F , G} {F , G} {F , G} {F } u6 {F } {F } {E, F} {E, F} u7 {E, F , G} {E, F , G} {E, G} {E, F , G} u8 {E, F} {F , G} {E, F , G} {E, G} u9 {F , G} {G} {F , G} {F , G} u10 {E, F} {E, G} {F , G} {E, F} 2) Tạo TCTB TCTB i, j j 0,1 Ta có: i 1, ,nB Tính phủ U / TB , từ bảng ta có: u1 TB u1 , u2 , u3 , u4 , u7 , u8 , u10 u2 TB u4 u3 TB u1 , u2 , u3 , u4 , u5 , u7 , u8 , u9 , u10 u5 TB u9 u6 TB u2 , u4 , u5 , u6 , u7 , u8 , u9 , u10 TB TB TCT 1,0 u7 TB u8 TB u10 TB U u2 , u3 , u4 , u5 , u6 , u7 , u8 , u9 , u10 , TCT 1,1 TCT 2,0 , TCT 2,1 TCT 3,0 , TCT 3,1 TCT 4,0 , TCT 4,1 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 47 TCT 5,0 , TCT 5,1 3) Thực vòng lặp For với i Với i =1, v1 Với i =2, v2 Với i =3, v3 Với i =4, v4 Với i=5, v5 UpperAppr TCT 1,1 TCT 1,1 TCT 1, 1, 2, ,5 2 TCT 2,1 TCT 2,1 TCT 2, TCT 3,1 TCT 3,1 TCT 3, 4 3 TCT 4,1 TCT 4,1 TCT 4, TCT 5,1 TCT 5,1 TCT 5, 4 3 0.28 , UpperAppr 0.4 , UpperAppr ; 1, ; 0.33 , UpperAppr 1, 2,3 ; 0.44 , UpperAppr 1, 2,3, ; 0.37 , 1, 2,3, 4,5 ; 4) Kết luận: Xấp xỉ tập X cho U Xấp xỉ dƣới tập X cho rỗng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 48 CHƢƠNG 3: PHẦN MỀM THỬ NGHIỆM THUẬT TOÁN TÌM TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH TẬP GIÁ TRỊ VÀ ỨNG DỤNG TRONG BÀI TOÁN CHẨN ĐOÁN BỆNH VIÊM GAN B 3.1 Phát biểu toán Viêm gan siêu vi B loại virut công gan, gây bệnh viêm gan Tổ chức Y tế Thế giới thông kê có khoảng 350 triệu ngƣời nhiễm virut viêm gan B Việt Nam có khoảng 20% dân số nhiễm virut viêm gan B Những ngƣời nhiễm virut viêm gan B không đƣợc kiểm soát điều trị tốt gây viêm gan, xơ gan ung thƣ gan Nhƣ biết, từ bảng định có nhiều đối tƣợng, tập luật định rút trích đƣợc lớn Để thu gọn tập luật định mà không làm tính đặc trƣng bảng định ta thu gọn tập thuộc tính Dựa sở “Thuật toán 2.1 - Tìm tập rút gọn thuộc tính bảng định tập giá trị” luận văn xây dựng phần mềm thử nghiệm thuật toán vào triệu chứng bệnh Viêm gan B 3.2 Mô tả xử lý liệu 3.2.1 Mô tả liệu Chƣơng trình tìm luật rút gọn cho thuộc tính điều kiện từ đƣa luật định để dùng vào sở tri thức hệ chuyên gia nhằm mục đích chẩn đoán bệnh Số thuộc tính rút gọn phải nhỏ số thuộc tính ban đầu có giá trị nhƣ việc đƣa luật định Luật tạo có số thuộc tính nhỏ không ảnh hƣởng đến việc đƣa định Số liệu thực nghiệm đƣợc lấy từ kho liệu UCI với liệu viêm gan Hepatitis.data[15] để sinh luật định phục vụ cho bác sĩ chuyên ngành chẩn đoán bệnh viêm gan cho bệnh nhân Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 49 * Thông tin thuộc tính * Bảng liệu đầu vào theo kho UCI Hình Bảng liệu đầu vào Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 50 3.2.2 Xử lý liệu Chƣơng trình tiến hành khai phá liệu sở liệu bệnh nhân bị viêm gan Dữ liệu đầu vào file text có cấu trúc nhƣ sau: - Các thuộc tính điều kiện tƣơng ứng với 19 triệu chứng thu thập đƣợc từ bệnh nhân có biểu viêm gan, đƣợc kí hiệu: {a1, a2, a3, …a19} - Mỗi dòng thông tin bệnh nhân, dòng bệnh nhân thể thuộc tính, hai thuộc tính “dấu cách” Với thuộc tính có giá trị tập đƣợc cách dấu “,” - Với số liệu thiếu giá trị đƣợc chọn, tiến hành chuyển đổi sang số liệu tập giá trị cách thay giá trị thiếu (ký hiệu “?”) thành tập giá trị ngẫu nhiên Các giá trị tập giá trị ngẫu nhiên nằm miền giá trị thuộc tính có giá trị {0, 1, 2} - Thuộc tính cuối thuộc tính định mang giá trị {1}- Có bệnh, {0}- Không có bệnh * Các thuộc tính tương ứng với số đại lượng dùng để xác định tình trạng bệnh bệnh nhân: - a1: Age- số tuổi bệnh nhân 10 đến 80 Lớp 0: [10-23], Lớp 1: [23- 46], Lớp 2: [46-80] - a2: Sex- Giới tính: = Male, = Female - a3: Steroid- Thuốc kháng sinh: = No, = Yes - a4: Antiviral- Thuốc kháng viruts: = No, = Yes - a5: Fatigue- Mệt mỏi: = No, = Yes - a6: Malaise- Khó chịu: = No, = Yes - a7: Anorexia- Chán ăn: = No, = Yes Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 51 - a8: Liver big- Gan sƣng to: = No, = Yes - a9: Liver firm- Viêm gan: = No, = Yes - a10: Spleen palpable- Viêm lách: = No, = Yes - a11: Spiders- Mạch máu hình nhện da: = No, = Yes - a12: Ascites- Hạch ổ bụng: = No, = Yes - a13: Varices- Giãn tĩnh mạch: = No, = Yes - a14: Bilirubin- Sắc tố da ( vàng da): Lớp 0: [0.39-1.20], Lớp 1: [1.20- 2.40], Lớp 2:[2.40- 4.00] - a15: Alk phosphate- Huyết tƣơng: Lớp 0: [33-72.3], Lớp 1: [72.3- 144.6], Lớp 2: [144.6- 250] - a16: SGOT- Enzym men gan: Lớp 0: [13- 162.3], Lớp 1: [162.3- 324.6], Lớp 2: [324.6- 500] - a17: Albumin- Nồng độ albumin: Lớp 0: [2.1- 3.0], Lớp 1: [3.8- 4.5], Lớp 2: [5.0- 6.0] - a18: Protime- Tình trạng đông máu ngƣời bệnh: từ 10 đến 90 Lớp 0: [10-26.7], Lớp 1: [26.7- 53.4], Lớp 2: [53.4- 90] - a19: Histology- Tiểu sử mắc bệnh: 0= No, = Yes - d: Class- Lớp định: = Live, = Die Sau tiến hành xử lý liệu, ta thu đƣợc bảng dựa vào Dữ liệu đầu vào hình 3.1 nhƣ sau: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 52 Hình Tệp liệu sau xử lý 3.3 Thử nghiệm chƣơng trình Công nghệ công cụ phát triển ứng dụng Ứng dụng đƣợc xây dựng công cụ Microsoft Visual Studio 2012, tảng Net Framework 4.0 Sử dụng hệ quản trị CSDL Microsoft SQL Server 2008 Chức nhập liệu Ngƣời sử dụng tiến hành nhập liệu thông qua nút tab “Chọn tệp liệu” Lúc ngƣời sử dụng chọn tệp văn đƣợc xây dựng sẵn máy tính theo định dạng tệp text Hình 3 Giao diện nhập liệu Sau chọn tệp liệu, chƣơng trình xử lý hiển thị thông tin số cột thuộc tính, số ghi liệu toàn liệu tệp liệu nguồn Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 53 Hình Màn hình hiển thị thông tin thuộc tính Chức thực thuật toán Sau nhập liệu, ngƣời sử dụng chọn nút để chƣơng trình thực thuật toán Chƣơng trình đƣa hai kết quả: tập rút gọn thu đƣợc bƣớc xử lý thuật toán Hình Kết thực với liệu thử nghiệm Sau có kết rút gọn, ngƣời sử dụng sử dụng nút lại kết theo định dạng file text Số hóa Trung tâm Học liệu - ĐHTN để lƣu http://www.lrc-tnu.edu.vn/ 54 Dữ liệu thực thuật toán gồm 155 ghi Các giá trị tập giá trị ngẫu nhiên nằm miền giá trị thuộc tính Việc chuyển đổi đƣợc thực công cụ chuyển đổi tác giả xây dựng Cách tiếp cận rút gọn theo thuật toán trình bày theo hƣớng top-down, có nghĩa việc xây dựng tập rút gọn tập rỗng, sau bổ sung lần lƣợt thuộc tính có độ quan trọng lớn tính theo giá trị hàm phân biệt Quá trình bổ sung thuộc tính kết thúc giá trị hàm phân biệt tập thuộc tính thu đƣợc với giá trị toàn thuộc tính định 3.4 Đánh giá kết Thuật toán khởi tạo tập rút gọn rỗng tính giá trị hàm phân biệt với toàn thuộc tính định Tiếp đó, tính lần lƣợt giá trị hàm phân biệt với thuộc tính lựa chọn thuộc tính có giá trị lớn (thuộc tính a6) để bổ sung vào tập rút gọn Tiếp tục trình, thuộc tính đƣợc ghép cặp với thuộc tính lại đƣợc tính giá trị hàm phân biệt Cặp có giá trị lớn thuộc tính thuộc cặp bổ sung vào tập rút gọn (cặp a6-a19 nên thuộc tính đƣợc bổ sung vào tập rút gọn a19) Cứ tiếp tục ghép tập rút gọn với thuộc tính lại, thao tác dừng giá trị hàm phân biệt với giá trị hàm phân biệt toàn thuộc tính Sau kết thúc chƣơng trình dựa vào thuật toán “Tìm tập rút gọn thuộc tính bảng định tập giá trị”, chƣơng trình thu đƣợc kết nhƣ sau: Từ tập thuộc tính điều kiện chƣơng trình thu đƣợc tập rút gọn có số thuộc tính điều kiện nhỏ số thuộc tính điều kiện ban đầu Nhƣ vậy, thay phải dựa vào 19 thuộc tính ban đầu ta dựa vào thuộc tính (a3: Steroid- Thuốc kháng viêm, a6: Malaise- Khó ở, a11: Spiders- Mạch máu hình nhện da, a19: Histology- Tiền sử mắc bệnh) rút gọn bảng định để đƣa kết luận bệnh nhân có mắc bệnh hay không Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 55 Hình Tệp liệu sau rút gọn Kết rút gọn Dòng 1: - Nếu bệnh nhân không sử dụng thuốc kháng sinh - cảm thấy khó chịu ngƣời- xuất mạch máu hình nhện dƣới da- tiểu sử mắc bệnh không Thì mắc bệnh Dòng 3: - Nếu bệnh nhân có sử dụng thuốc kháng sinh - cảm thấy khó chịu ngƣời- xuất mạch máu hình nhện dƣới da- tiểu sử mắc bệnh không Thì mắc bệnh Dòng 4:- Nếu bệnh nhân dùng hay không dùng thuốc kháng sinhcảm thấy khó chịu ngƣời- xuất mạch máu hình nhện dƣới da- tiểu sử mắc bệnh không Thì mắc bệnh Dòng 7: Nếu bệnh nhân không sử dụng thuốc kháng sinh- cảm thấy khó chịu ngƣời- không xuất mạch máu hình nhện dƣới da- tiểu sử mắc bệnh không Thì không mắc bệnh Trên sở nghiên cứu lý thuyết, xây dựng chƣơng trình rút gọn thuộc tính, tạo tập luật hỗ trợ việc phát bệnh viêm gan B 3.5 Kết luận chƣơng Chƣơng này, tác giả cài đặt thành công thuật toán rút gọn thuộc tính thuộc tính cho bảng định triệu chứng viêm gan B Nội dung chủ yếu trình bày bƣớc tiền xử lý liệu áp dụng thuật toán rút gọn liệu sau xử lý để thu đƣợc tập rút gọn Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 56 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 57 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN I Những kết luận văn Luận văn trình bày khái niệm hệ thông tin khái niệm có liên quan.Trình bày nội dung hệ thông tin tập giá trị khái niệm làm tảng cho toán rút gọn thuộc tính Trình bày khái niệm tập rút gọn hệ thông tin hệ thông tin tập giá trị Khai thác hai thuật toán bảng định tập giá trị, thuật toán rút gọn thuộc tính bảng định tập giá trị thuật toán tính xấp xỉ trên- xấp xỉ dƣới tập hệ thông tin tập giá trị II Hƣớng phát triển luận văn Trên bảng định tập giá trị, tiếp tục sâu vào nghiên cứu rút gọn thuộc tính trƣờng hợp bổ sung tập đối tƣợng Tiếp tục nghiên cứu hàm phân biệt khác hệ thông tin giá trị tập Trên sở đó, khai thác tìm hiểu phƣơng pháp hiệu phƣơng pháp có Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 58 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Long Giang (2012) Nghiên cứu số phƣơng pháp khai phá liệu theo tiếp cận lý thuyết tập thô, Luận án Tiến sĩ, Viện Công Nghệ Thông Tin [2] Hoàng Thị Lan Giao (2007) Khía cạnh đại số lôgic phát luật theo tiếp cận tập thô, Luận án Tiến sĩ, Viện Công Nghệ Thông Tin [3] Phùng Thị Thu Hiền, Lê Quang Hào, Nguyễn Quang Khanh, Nguyễn Bá Tƣờng (2010) Định nghĩa tập thô theo hàm thuộc thô, Tạp chí nghiên cứu Khoa học kỹ thuật công nghệ quân (2010), tr 50 - 54 [4] Phùng Thị Thu Hiền, Lê Quang Hào, Nguyễn Bá Tƣờng (2011) Những vấn đề trích chọn đặc trƣng hệ tin, Tạp chí nghiên cứu Khoa học kỹ thuật công nghệ quân (2011), tr 60 - 63 [5] Nguyễn Đức Thuần (2010) Phủ tập thô độ đo đánh giá hiệu tập luật định, Luận án Tiến sĩ, Viện Công Nghệ Thông Tin Tài liệu tiếng Anh [6] B Kolman, R.C Busby, S.C Ross, Discrete Mathematical Structures, fifth ed., Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 2003 [7] G Liu, The axiomatization of the rough set upper approximation operations, Fundamenta Informaticae 69 (3) (2006) 331-342 [8] G Liu, Axiomatic systems for rough sets and fuzzy rough sets, International Journal of Approximate Reasoning 48 (3) (2008) 857-867 [9] Y.Guan, H Wang, Set-valued information systems, Information Sciences 176 (17) (2006) 2507-2525 [10] Nguyen Sinh Hoa, Nguyen H Son (1996), “Some Efficient Algorithms for Rough Set Methods”, Prceedings of the sixth International Conference on Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 59 Information Processi g Management of Uncertainty in Knowledge-Based Systems, pp 1451-1456 [11] Pawlak Z (1982), “Rough sets”, International Jornal of Computer and Information Science, 11, pp 341-356 [12] Z Pawlak, A Skowron, Rough sets: some extensions, Information Sciences 177 (1) (2007) 2840 [13] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers, 1991 [14] Junbo Zhang, Tianrui Li, Da Ruan, Dun Liu, Rough sets based matrix approaches wth dynamic attribute variation in set-valued information systems, International Journal of Approximate Reasoning, Volume 53, Issue 4, June 2012, Pages 620-635 [15] The UCI machine learning repository, https://archive.ics.uci.edu/ml/datasets/Hepatitis Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ [...]... thuật toán liên quan đến bảng quyết định tập giá trị, thuật toán giải quyết bài toán rút gọn thuộc tính trong tập thô truyền thống và tập thô dung sai trong hệ thông tin tập giá trị Phần tiếp theo của luận văn là khai thác thuật toán tìm tập rút gọn thuộc tính trong bảng quyết định tập giá trị Đối tƣợng nghiên cứu là bài toán rút gọn thuộc tính trong bảng quyết định tập giá trị nhƣ đã trình bày ở phần... thuộc tính về tập thô truyền thống, tập thô dung sai - Chƣơng 2: Rút gọn thuộc tính trong bảng quyết định tập giá trị: chƣơng này khai thác các thuật toán trong hệ thông tin tập giá trị: thuật toán tìm tập rút gọn thuộc tính trong bảng quyết định tập giá trị và thuật toán tìm xấp xỉ trên- xấp xỉ dƣới sử dụng hàm phân biệt trong bảng quyết định tập giá trị - Chƣơng 3: Phần mềm thử nghiệm thuật toán rút gọn. .. của một tập dữ liệu trong bảng quyết định tập giá trị của hệ thông tin tập giá trị Phần tiếp theo tôi khai thác thuật toán tìm tập rút gọn thuộc tính trong bảng quyết định tập giá trị dựa trên cơ sở của các hàm phân biệt và bảng ngẫu nhiên 2.2 Cơ sở lý thuyết Phần này tập trung khai thác tới một dạng đặc biệt của bảng quyết định, trong đó tập thuộc tính quyết định chỉ bao gồm một thuộc tính quyết định. .. 1.2.3 Bảng quyết định tập giá trị Bảng quyết định tập giá trị DS (U , C d ,V , f ) trong đó: U: là tập đối tƣợng khác rỗng C: là tập thuộc tính điều kiện khác rỗng d: là thuộc tính quyết định với C d ;V VC Vd , VC là tập giá trị của các thuộc tính điều kiện và Vd là tập giá trị của thuộc tính quyết định f: U C 2VC là ánh xạ tập giá trị, còn f : U d Vd là ánh xạ đơn trị Ví dụ 1.8 Biểu diễn bảng quyết định. .. tài liệu nghiên cứu các phƣơng pháp rút gọn thuộc tính trong hệ thông tin đơn trị Tuy nhiên đó mới là hệ đơn trị, luận văn này tôi đi vào “NGHIÊN CỨU MỘT SỐ THUẬT TOÁN RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH TẬP GIÁ TRỊ” Mục tiêu của luận văn trình bày có chọn lọc về các khái niệm cơ bản nhất trong lý thuyết tập thô trong phạm vi xem xét bài toán rút gọn thuộc tính Khảo sát một số thuật toán liên... các tập rút gọn của bảng quyết định Thuộc tính dư thừa là những thuộc tính mà việc loại bỏ chúng không ảnh hƣởng đến việc phân lớp tập dữ liệu, thuộc tính dƣ thừa không xuất hiện trong bất kỳ tập rút gọn nào của bảng quyết định Thuộc tính rút gọn là thuộc tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 8 Với bảng quyết định. .. quán Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 26 CHƢƠNG 2: RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH TẬP GIÁ TRỊ 2.1 Đặt vấn đề Rút gọn thuộc tính trong hệ quyết định là quá trình lựa chọn tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp của hệ quyết định Trong các hệ quyết định đơn trị có rất nhiều phƣơng pháp rút gọn thuộc tính dựa trên mô hình tập. .. }; Trong trƣờng hợp này, Bảng 1.2 là một bảng quyết định nhất quán 1.1.3 Tập rút gọn và tập lõi Trong bảng quyết định, các thuộc tính điều kiện đƣợc phân thành ba nhóm: thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc tính dư thừa (redundant attribute) Thuộc tính lõi là thuộc tính không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính lõi xuất hiện trong. .. định giống nhau 1.2.6 Rút gọn thuộc tính trong bảng quyết định tập giá trị Sử dụng khái niệm miền dƣơng mở rộng trong quan hệ quyết định tập giá trị, luận án đƣa ra khái niệm tập rút gọn dựa trên miền dƣơng Định nghĩa 1.7 Cho bảng quyết định tập giá trị DS R U,C d Nếu C thỏa mãn: 1) POS R 2) R' d POSC R, POS R d d POSC d thì R đƣợc gọi là một tập rút gọn của DS dựa trên miền dương Số hóa bởi Trung tâm... vi nghiên cứu Ứng dụng thuật toán rút gọn thuộc tính trong bảng quyết định tập giá trị vào bài toán chẩn đoán bệnh viêm gan B Phƣơng pháp nghiên cứu là nghiên cứu lý thuyết có sử dụng phƣơng pháp nghiên cứu thực nghiệm * Cấu trúc của luận văn gồm 3 chƣơng nhƣ sau: Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 3 - Chƣơng 1: khái quát về hệ thông tin tập giá trị và bài toán rút gọn thuộc ... giá trị Đối tƣợng nghiên cứu toán rút gọn thuộc tính bảng định tập giá trị nhƣ trình bày phần mục tiêu luận văn Phạm vi nghiên cứu Ứng dụng thuật toán rút gọn thuộc tính bảng định tập giá trị. .. tin tập giá trị toán rút gọn thuộc tính tập thô truyền thống, tập thô dung sai - Chƣơng 2: Rút gọn thuộc tính bảng định tập giá trị: chƣơng khai thác thuật toán hệ thông tin tập giá trị: thuật toán. .. tập giá trị, thuật toán giải toán rút gọn thuộc tính tập thô truyền thống tập thô dung sai hệ thông tin tập giá trị Phần luận văn khai thác thuật toán tìm tập rút gọn thuộc tính bảng định tập giá