Luận văn thạc sĩ nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và ứng dụng (1)

57 649 0
Luận văn thạc sĩ nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và ứng dụng (1)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

B ộ■ GIÁO DỤC * VÀ ĐÀO TẠO • TRƯỜNG ĐẠI HỌC s PHẠM HÀ NỘI • • • • = = = K )O c = = = TRÀN THỊ PHƯƠNG LIÊN NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ MÁY TÍNH HÀ NỘI, 2015 B ộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC s PHẠM HÀ NỘI = = = d BŨIo 8=== TRẦN THỊ PHƯƠNG LIÊN NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GON THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐÀY ĐỦ VÀ ỨNG DỤNG Chuyên ngành: Khoa Học Máy Tính Mã số: 60480101 LUẬN VĂN THẠC SĨ MÁY TÍNH Ngưòi hướng dẫn khoa học: TS Nguyễn Long Giang HÀ NỘI, 2015 L Ờ I CÁM ƠN Trong thời gian qua để hoàn thành luận văn nhận giúp đỡ tận tình thầy hướng dẫn khoa học, thầy cô trường Đại học Sư phạm Hà Nội Tôi xin chân thành cảm ơn thầy cô trường Đại học Sư phạm Hà Nội tạo điều kiện học tập, nghiên cứu giúp đỡ nhiều trình làm luận văn Đặc biệt xin cảm ơn thầy TS.N guyễn long G iang tận tình hướng dẫn, bảo suốt trình học tập, nghiên cứu đề tài giúp đỡ hoàn thành luận văn Vĩnh Phúc, ngày 21 tháng 11 năm 2015 Học viên T rầ n T hị P hư ơng Liên LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học TS N guyễn Long G iang Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Học viên T rầ n T hị P hư ơng Liên MỤC LỤC L Ờ I CẢM ƠN L Ờ I CAM ĐOAN M ỤC L Ụ C i DANH M ỤC CÁC TH U Ậ T N G Ữ iii DANH M ỤC CÁC B Ả N G iv DANH M ỤC CÁC H ÌN H V Ẽ V M Ở Đ Ầ U Chương CÁC KHÁI NIỆM c B Ả N 1.1 Hệ thông tin đầy đủ mô hình tập thô truyền thống .4 1.1.1 Hệ thông tin đầy đ ủ 1.1.2 Bảng định đầy đủ .7 1.1.3 Tập rút gọn tập lõ i 1.2 Hệ thông tin không đầy đủ mô hình tập thô dung s a i 1.2.1 Hệ thông tin không đầy đ ủ 1.1.2 Bảng định không đầy đ ủ C hương RÚT GỌN THUỘC TÍNH VÀ T R ÍC H LỌ C LUẬT TRONG BẢNG Q UYÉT ĐỊNH K H Ô N G ĐẦY Đ Ủ 11 2.1 Rút gọn thuộc tính trích lọc luật toong bảng định không đầy đ ủ 11 2.1.1 Tổng kết, phân nhóm phương pháp rút gọn thuộc tín h 11 2.1.2 Luật định độ đo đánh giá hiệu 16 2.1.3 Lựa chọn, so sánh, đánh giá phương pháp rút gọn thuộc tín h 20 2.2 Xây dựng phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng khoảng cách 22 2.2.1 Xây dựng khoảng cách hai tập thuộc tính 23 2.2.2 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 27 2.2.3 Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách 32 C hương TH Ử N G H IỆ M VÀ ĐÁNH G IÁ K Ế T Q U Ả 33 3.1 Bài to n 33 ii 3.2 Phân tích, lựa chọn công c ụ 33 3.2.1 Phương pháp rút gọn thuộc tính sử dụng độ đo lượng thông t i n 34 3.2.2 Lựa chọn công cụ cài đặt 35 3.3 M ột số kết thử nghiệm 35 3.3.1 Ket thử nghiệm rút gọn thuộc tính sử dụng khoảng cách 35 3.3.2 Kết thử nghiệm trích lọc luật mô hình tập thô dung sai 37 3.4 ứ n g dụng toán chuẩn đoán bệnh viêm gan B 39 3.4.1 Bài toán chuẩn đoán bệnh viêm gan B 39 3.4.2 Mô tả liệ u 39 3.4.3 Kết thực h iệ n 40 K ÉT L U Ậ N 44 TÀ I LIỆU THAM K H Ả O 45 PHỤ LỤC DANH MỤC CÁC THUẬT NGỮ T h u ậ t ngữ tiếng Việt T h u ậ t ngữ tiếng A nh Tập thô Rough Set Tập thô dung sai Tolerance Rough Set Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Hệ thông tin không đầy đủ Incomplete Information System Bảng định Decision Table Bảng định đầy đủ Complete Decision Table Bảng định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Xấp x ỉ Lower Approximation Xấp x ỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Luật định Decision Rule Khoảng cách Distance DANH MỤC CÁC BẢNG B ảng 1.1 Bảng thông tin bệnh c ú m B ảng 1.2 Bảng định không đầ đủ xe h i 10 B ảng 2.1 Các phương pháp rút gọn thuộc tính công trình [3, 8, 14] 13 B ảng 2.2 Bảng định không đầy đủ ve xe h i 17 Bảng 2.3 Bảng định không đầy đủ xe h i 30 Bảng 3.1 Kết thực Thuật toán DBAR Thuật toán IQ BAR 36 B ảng 3.2 Tập rút gọn Thuật toán DBAR Thuật toán IQ BAR 36 B ảng 3.3 Kết thực Thuật toán DBAK Thuật toán IQBAK số liệu lớn 37 B ảng 3.4 Tập rút gọn tốt số liệu Soybean-small 38 B ảng 3.5 Các luật phân lớp bảng định rút g ọ n 38 V DANH MỤC CÁC HÌNH VẼ H ình 2.1 Moi liên hệ tập rút gọn bảng định không đầy đ ủ 15 Hình 3.1 Ket rút gọn thuộc tính 42 Hình 3.2 Ket sinh luật định 43 MỞ ĐẦU Lý chọn đề tài Rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu trình khai phá liệu khám phá tri thức Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa liệu nhằm tìm thuộc tính cốt lõi Dựa vào tập thuộc tính cốt lõi tìm được, thuật toán khai phá liệu đạt hiệu cao Với lớp toán trích lọc luật bảng định, rút gọn thuộc tính trình tìm tập rút gọn (reduct) tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp bảng định Dựa vào tập rút gọn, việc sinh luật định đạt hiệu cao Lý thuyết tập thô truyền thống Pawlak [11] xem công cụ hiệu để giải toán rút gọn thuộc tính sinh luật bảng định đầy đủ Tuy nhiên với toán thực tế, miền giá trị thuộc tính bảng định thường không đầy đủ giá trị Yí dụ lĩnh vực y tế, bác sỹ thu thập đầy đủ triệu trứng bệnh nhân để phục vụ chuẩn đoán bệnh Các bảng định gọi bảng định không đầy đủ (Incomplete Decision Table) Đe giải toán rút gọn thuộc tính trích lọc luật bảng định không đầy đủ, công trình nghiên cứu Kryszkiewicz [5] thực mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai đề xuất mô hình tập thô dung sai nhằm rút gọn thuộc tính trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựa mô hình tập thô dung sai, số công trình công bố năm gần đề xuất số độ đo không chắn nhằm giải toán rút gọn thuộc tính trích lọc luật, đáng ý công trình [2], [3], [4], [6], [7], [8], [9], [10] Như trình bày trên, rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu trình khai phá liệu khám phá toi thức Do đó, việc nghiên cứu phương pháp rút gọn thuộc tính có ý nghĩa thực tiễn cao Hơn nữa, mô hình tập thô dung sai chứng minh công cụ hiệu để giải toán rút gọn thuộc tính, việc tiếp tục nghiên cứu nhằm tìm phương pháp mới, 34 3.2.1 Phương pháp rút gọn thuộc tính sử dụng độ đo lượng thông tin Trong [4], Huang B cộng đưa khái niệm tập rút gọn dựa lượng thông tin (information quantity) Với B c z A , lượng thông tin B ịd} /(5 |{ d } ) = / ( u { d } ) - / ( ) với / (5 ) = 1- p j2 " Z |5 fi(MJ)| \u\ Í=1 u = ịuv u2, ,un} Tập rút gọn dựa lượng thông tin định nghĩa sau: Cho bảng định không đầy đủ IDS =Ịơ,Au{d}j Nếu R.CZ.A thỏa mãn: ( 2) VR R gọi tập rút gọn IDS dựa ỉượng thông tin Trong công trình [4], Huang B tác giả trình bày thuật toán tìm tập rút gọn tốt sử dụng độ đo lượng thông tin, gọi Thuật toán IQBAR T h u ậ t toán IQ B A R Tìm tập rút gọn bảng định không đầy đủ sử dụng độ đo lượng thông tin [4] (Information Quantity Based Attribute Reduction) Input: Bảng định không đầy đủ IDS = (í/,A u { d } ) O utput: Một tập rút gọn tốt R R - ' , Tính z(/ỉ|{d}), / ( a |{J}); / / Thêm dần vào R thuộc tính có độ quan trọng lớn W hile / ( / ? |{ J } ) * /( a |{J}) Begin For each b e A - R tính SIGR(b) = / ( \{d})- / ( f i u {b}\{d}); Chọn bm e A - R cho SIGR(mm) = MaxịSIGR(b)}; * = End; // Loại bỏ thuộc tính dư thừa R có 35 10 For each b e /? If /(й-{ь}|{4) = /(л|{л}) then /? = /?-{&}; 11 Return R ; 3.2.2 Lựa chọn công cụ cài đặt Tôi sử dụng công cụ ngôn ngữ lập trình C# môi trường hệ điều hành Windows XP Professional để thực cài đặt thuật toán rút gọn thuộc tính DBAR, IQBAR thuật toán ưích lọc luật định RuleExtract Cả hai thuật toán DBAR IQBAR sử dụng đơn vị tính toán sở lớp dung sai SA (w;) với Щ; e и Tôi sử dụng thuật toán cải tiến công trình [7] để cài đặt thuật toán tính lớp dung sai SA [iiị ) với Uị e U cho hai thuật toán DBAR IQBAR Do đó, lý thuyết độ phức tạp thời gian hai thuật toán DBAR IQBAR 3.3 Một số kết thử nghiệm 3.3.1 Kết thử nghiệm rứt gọn thuộc tính sử dụng khoảng cách Sau cài đặt, tiến hành chạy thử nghiệm Thuật toán DBAR Thuật toán IQBAR số liệu vừa nhỏ lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Yới số liệu, giả sử |ơ| số đối tượng, |c| số thuộc tính điều kiện, \R\ số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây ỉ) Các thuộc tính điều kiện đánh số thứ tự từ đến Ici Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán 36 B ảng 3.1 Kết thực Thuật toán DBAR Thuật toán IQBAR STT T*A Ấ 1•/V Bộ so liệu \u\ T h u ậ t toán T h u ậ t toán IQ BA R DBAR \c\ \R\ \R\ t t H epatitis.data 155 19 1.3 1.296 L ung-cancer.data 32 56 0.175 0.171 A utom obile.data 205 25 1.7 1.687 A nneal.data 798 38 179 178 C ongressional 435 16 15 16.5 13 16.734 690 15 16.2 15.687 V oting R ecords C red it A pproval B ảng 3.2 Tập rút gọn Thuật toán DBAR Thuật toán IQBAR STT T ập r ú t gọn T ập rứ t gọn T h u ậ t to án IQ BA R T h u ậ t toán DBAR Bộ số liệu H epatitis.data {1,2, 4, 17} {1,2, 4, 17} L ung-cancer.data {3,4, 9, 43} {3,4, 9, 43} A utom obile.data {1, 13, 14, 20, 21} {1, 13, 14, 20,21} A nneal.data {1, 3, 4, 5, 8, 9, 33, 34, { ,3 ,4 , 5, 8, 9, 34, 35} 35} C ongressional {1 ,2 , ,4 , , , 8, 9, 10, {1, 2, 3, 4, 5, 8, 10, 11, V oting R ecords 11, 12, 13, 14, 15, 16} 12, 13, 14, 15, 16} C red it A pproval {1,2, ,4 , ,6 ,8 } {1,2, ,4 , ,6 ,8 } Ket thử nghiệm cho thấy: - Trên số liệu Hepatitis.data, Lung-cancer.data, Automobile.data, Credit Approval, tập rút gọn thu Thuật toán DBAR Thuật toán IQBAR Tuy nhiên, với số liệu Anneal.data, Congressional V oting R ecords, tập rút gọn thu Thuật toán DBAR tối thiểu tập rút gọn thu Thuật toán IQBAR Điều phù hợp với kết nghiên cứu lý thuyết 37 - Thời gian thực Thuật toán DBAR Thuật toán IQBAR tương đương Tiếp theo, tiến hành thử nghiệm Thuật toán DBAR Thuật toán IQBAR số liệu kích thước lớn Ket thử nghiệm mô tả bảng sau: Bảng 3.3 Ket thực Thuật toán DBAK Thuật toán IQBAK số liệu lớn TT Bộ số liệu \u\ Thuật toán Thuật toán IQBAR DBAR \c\ \r \ t t \r \ Census-Income.data 299285 40 21 5212 17 5206 Adult.data 48842 14 686 675 Dorothea.data 1950 1000 92 1256 78 1247 00 Poker-hand- 1000000 11 4385 4376 581012 54 17 7262 15 7256 testing.data - CovType.data Trên số liệu có kích thước lớn, với số liệu Census-Income.data, Dorothea.data, CovType.data, tập rút gọn thu Thuật toán DBAR tối thiểu tập rút gọn thu Thuật toán IQBAR Điều phù hợp với kết nghiên cứu lý thuyết - Thời gian thực thuật toán xấp xỉ 3.3.2 Kết thử nghiệm trích lọc luật mô hình tập thô dung sai Để tiến hành thử nghiệm, cài đặt Thuật toán RuleExtract ngôn ngữ c# Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Bộ số liệu thử nghiệm Soybean-small.data lấy từ kho liệu UCI [13] Soybeansmall.data số liệu rời rạc hóa với miền giá trị thuộc tính số nguyên dương 38 1) Thử nghiệm Thuật toán DBAR tìm tập rút gọn tốt Với số liệu thử nghiệm, giả sử |ơ| số đối tượng, |c| số thuộc tính điều kiện, a(D S ) độ chắn bảng định với tập thuộc tính ban đâu, a ị p s Ị độ chắn bảng định với tập thuộc tính rút gọn, thuộc tính điều kiện đặt tên theo thứ tự từ cl, c2, ,cn Kết thử nghiệm mô tả Bảng 3.4 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small ¥1 A Ắ 1•A Bọ sô liệu Tập thuộc Tập thuộc a( DS) \u\ \c\ STT tính ban đầu Soybean- 47 35 {cl, ,c35} a[DS' ) tính rứt gọn {c4, c22} small.data 2) Thử nghiệm Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng mô hình tập thô dung sai với số liệu Soybean-small.data Trên bảng định ban đầu với 35 thuộc tính điều kiện ị c l , ,c35}, kết thử nghiệm thu 47 luật phân lớp, độ dài luật 35 (được tính tổng số thuộc tính điều kiện tham gia vào vế trái luật) Trên bảng định rút gọn với thuộc tính điều kiện (c4, c22}, kết thử nghiệm mô tả Bảng 3.5, đó: tổng số luật phân lớp 7, độ dài luật 2, ỊJ độ chắn s độ hỗ trợ luật B ảng 3.5 Các luật phân lớp bảng định rút gọn STT C ác luật bảng định rút s gọn c4( 1) and c22(l) - - > DI 0.12766 c4(l) and c22(0) ==> D I 0.08511 c4(2) and c22(3) ==> D2 0.12766 c4(l) and c22(3) ==> D2 0.08511 c4(0) and c22(l) ==> D3 0.21277 c4( 1) and c22(2) ==> D4 0.21277 c4(0) and c22(2) ==> D4 0.14894 39 Chú thích: Trên bảng Bảng 3.5, c4(l) nghĩa thuộc tính c4 nhận giá trị (c4 = 1) Dl , D2, D3, D4 giá trị thuộc tính định (tổng số lớp định) Ket thử nghiệm cho thấy, tập rút gọn tốt thu Thuật toán DBAR, số lượng luật từ 47 giảm xuống 7, độ dài luật từ 35 giảm xuống Độ chắn tập luật không thay đổi (bằng 1) Ket khẳng định ý nghĩa việc rút gọn thuộc tính bước tiền xử lý liệu 3.4 ứ n g dụng toán chuẩn đoán bệnh viêm gan B 3.4.1 Bài toán chuẩn đoán bệnh viêm gan B Viêm gan siêu vi B loại virut công gan, gây bệnh viêm gan Tổ chức Y tế Thế giới thông kê có khoảng 350 triệu người nhiễm virut viêm gan B Việt Nam có khoảng 20% dân số nhiễm virut viêm gan B Những người nhiễm virut viêm gan B không kiểm soát điều trị tốt gây viêm gan, xơ gan ung thư gan Như biết, từ bảng định có nhiều đối tượng, tập luật định rút trích lớn Để rút gọn tập luật định mà không làm tính đặc trưng bảng định ta rút gọn tập thuộc tính Dựa sở nghiên cứu lý thuyết chương “Rút gọn thuộc tính trích lọc luật bảng định không đầy đủ”, luận văn thử nghiệm thuật toán vào triệu chứng bệnh Viêm gan B 3.4.2 Mô tả liệu Chương trình tìm luật rút gọn cho thuộc tính điều kiện từ đưa luật định để dùng vào sở tri thức hệ chuyên gia nhằm mục đích chuẩn đoán bệnh Số thuộc tính rút gọn phải nhỏ số thuộc tính ban đầu có giá trị việc đưa luật định Luật tạo có số thuộc tính nhỏ không ảnh hưởng đến việc đưa định Số liệu thực nghiệm lấy từ kho liệu UCI[13] với liệu viêm gan Hepatitis.data để sinh luật định phục vụ cho bác sĩ chuyên ngành chuẩn đoán bệnh viêm gan cho bệnh nhân Thông tin thuộc tính 40 Class: DIE, LIVE AGE: 10, 20, 30, 40, 50, 60, 70, 80 SEX: male, female STEROID: no, yes ANTIVIRALS: no, yes FATIGUE: no, yes MALAISE: no, yes ANOREXIA: no, yes LIVER BIG: no, yes 10 LIVER FIRM: no, yes 11 SPLEEN PALPABLE: no, yes 12.SPIDERS: no, yes 13 ASCITES: no, yes 14 VARICES: no, yes 15.BILIRUBIN: 0.39, 0.80, 1.20, 2.00, 3.00, 4.00 16 ALK PHOSPHATE: 33, 80, 120, 160, 200, 250 17.SGOT: 13, 100, 200, 300, 400, 500, 18 ALBUMIN: 2.1, 3.0, 3.8, 4.5, 5.0, 6.0 19 PROTIME: 10, 20, 30, 40, 50, 60, 70, 80, 90 20 HISTOLOGY: no, yes 3.4.3 Kết thực Chương trình tiến hành khai phá liệu sở liệu bệnh nhân bị viêm gan Dữ liệu đầu vào với liệu viêm gan H ep atỉtis.d ata có cấu trúc sau: - Các thuộc tính điều kiện tương ứng với 19 triệu chứng thu thập từ bệnh nhân có biểu viêm gan, kí hiệu: {Cl, c2, c3, C19} - Mỗi dòng thông tin bệnh nhân, dòng bệnh nhân thể thuộc tính, hai thuộc tính “dấu cách” Với thuộc tính có giá trị cách dấu 41 - Thuộc tính “?” có giá trị {0, 1, 2} - Thuộc tính cuối thuộc tính định mang giá trị {1}- Có bệnh, {0}- Không có bệnh Các thuộc tính tương ứng với số đại lượng dùng để xác định tình trạng bệnh bệnh nhân: - Cl: Age- số tuổi bệnh nhân 10 đến 80 Lớp 0: [10-23], Lớp 1: [23- 46], Lớp 2: [46-80] - c2: Sex- Giới tính: = Male, = Female - c3: Steroid- Thuốc kháng viêm: = No, = Yes - c4: Antiviral- Thuốc kháng viruts: = No, = Yes - c5: Fatigue- Mệt mỏi: 0= No, = Yes - c6: Malaise- Khó ở: 0= No, = Yes - c7: Anorexia- Chán ăn: 0= No, = Yes - c8: Liver big- Gan sưng to: 0= No, = Yes - c9: Liver firm- Viêm gan: 0= No, = Yes - c 10: Spleen palpable- Viêm lách: 0= No, = Yes - Cu: Spiders- Mạch máu hình nhện da: 0= No, = Yes - c 12: Ascites- Hạch ổ bụng: 0= No, = Yes - Ci3: Varices- Giãn tĩnh mạch: 0= No, = Yes - c 14: Bilirubin- Sắc tố da (vàng da): Lớp 0: [0.39-1.20], Lớp 1: [1.20- 2.40], Lớp 2:[2.40- 4.00] - Ci5: Aik phosphate- Huyết tương: Lớp 0: [33-72.3], Lớp 1: [72.3- 144.6], Lớp 2: [144.6- 250] - c 16: SGOT- Enzym men gan: Lớp 0: [13- 162.3], Lớp 1: [162.3- 324.6], Lớp 2: [324.6- 500] - c 17: Albumin- Nồng độ albumin: Lớp 0: [2.1- 3.0], Lớp 1: [3.8- 4.5], Lớp 2: [5.0- 6.0] - c 18: Protime- Tình trạng đông máu người bệnh: từ 10 đến 90 Lớp 0: [10-26.7], Lớp 1: [26.7- 53.4], Lớp 2: [53.4- 90] 42 - C 19: Histology- Tiền sử mắc bệnh: 0= No, = Yes - d: Class- Lớp định: = Live, = Die Sau nạp liệu vỉêm gan Hepatítỉs.data với thuộc tính nêu vào chương trình thu kết tập rút gọn thuộc tính sinh tập luật định cho theo hình 3.1 3.2 □ □ T ậ p rút gọn C1 ► I [ «= I ^ C2 3.0 C4 C1 1S I— đ * E —I 50 42 78 32 3.1 * 52 34 200 34 28- 1 51 * 1 23 * 3S 4Ễ 30 120 39 30 32 245 41 6Ữ 3,0 144 47 60 3£ S9 66 53 'T Sinh luật quyểt định Hình 3.1 Kết rút gọn thuộc tính 43 Ị ■= I E Tập luật Đõ chan (Alpha) Luât đinh ► c1C2)and c2(30) and c 4(1 ) and c17(1S) “ > 1 Ữ.OO&45 - c1C2) and c2(5ữ) and c4(1) and c17(42) :=> 1 0.00645 —I d ( ) and c2(7S) and c4f2) and c17(32) ==> 1 Ữ.Ũ0Ô45 d P ) anđ C2 1 Ữ.OO&45 C1[2) and C2(34> and C4[2) and C17(2S) ==í> 1 0.00&45 c1(1) and c2 1 O.OOS45 c K ) and g2 and c2 1 &.Ủ0&45 C1[2) and c2(3'9) and Ữ4C1) and C17(30) — > 1 Ữ.OO&45 C1[2) and c2(32) and C4[2) and C17(249) ==> 1 Ữ.OO&45 d í2 > and c2(41) and c4C2) and c17fôũl) ==> 0.00&45 C l(2 )a nd c2(3 ữ )a nd c4(2) and c17( 144} === 1 ữ 00545 c K ) and c2(47) and c4C1) and c17(6Q) ==? 1 ữ 00645 c K ) and c2 1 ữ 00645 Ữ.OO&45 Ữ.Ũ0&45 Q 00645 c2(&6) and c4(2) and c17(53) ==> C l(2 )a nd c2(4 ữ) a nd c4(1) and c17( 156) ==> e1i"2ìi and and c4M1 and c > c lí ) and B õ hỗ 1rơ (Gama} S Ố lu ậ t : I Xuất excel I Hình 3.2 Kết sinh luật định Đánh giá kết quả: Sau kết thúc chương trình dựa vào thuật toán “Rút gọn thuộc tính ưong bảng định không đầy đủ”, chương trình thu kết sau: Từ tập thuộc tính điều kiện chương trình thu tập rút gọn có số thuộc tính điều kiện nhỏ số thuộc tính điều kiện ban đầu Như vậy, thay phải dựa vào 19 thuộc tính ban đầu để đưa kết luận bệnh nhân có mắc bệnh hay không mắc bệnh ta chi dựa vào thuộc tính rút gọn bảng định để đưa kết luận bệnh nhân có mắc bệnh hay không Điều hiệu việc chuẩn đoán bệnh 44 KÉT LUẬN 1) Những kết luận văn Kết luận văn bao gồm: (1) Tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính bảng định không đầy đủ, bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính dựa vào mối liên hệ tập rút gọn - Đánh giá phương pháp rút gọn thuộc tính dựa vào độ đo đánh giá hiệu tập luật định (2) Dựa vào phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách định nghĩa qua Entropy Liang công trình [7], luận văn xây dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách khác, khoảng cách tập thuộc tính điều kiện thuộc tính định định nghĩa qua khoảng cách Jaccard hai tập hợp hữu hạn Luận văn thử nghiệm phương pháp số liệu mẫu từ kho liệu thử nghiệm UCI [13] Trên sở đó, thử nghiệm phương pháp rút gọn thuộc tính trích lọc luật toán chuẩn đoán bệnh viêm gan B (trên tập số liệu thử nghiệm) 2) Hướng phát triển Tiếp tục nghiên cứu phương pháp gia tăng rút gọn thuộc tính bảng định không đầy đủ trường hợp bổ sung loại bỏ tập đối tượng, tập thuộc tính 45 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Long Giang (2012), “Nghiên cứu phương pháp khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến s ĩ Toán học, Viện Công Nghệ Thông Tin [2] Nguyễn Thanh Tùng (2010), “v ề metric họ phân hoạch tập hợp hữu hạn”, Tạp chí Tin học Điều khiển học, T.26, s l , tr 7385 [3] Nguyễn Long Giang, Vũ Văn Định, Nghiên cứu thay đổi giá trị độ đo đánh giả hiệu tập luật định tập rút gọn bảng định không đầy đủ, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu ứng dụng CNTT - FAIR6, Huế, 2021/06/2013, Tr 394-402 Tài liệu tiếng Anh [4] Huang B., Li H X and Zhou X z (2005), “Attribute Reduction Based on Information Quantity under Incomplete Information Systems”, Systems Application Theory & Practice, Vol 34, pp 55-60 [5] Kryszkiewicz M (1998), “Rough set approach to incomplete information systems”, Information Science, Vol 112, pp 39-49 [6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp 311-316 [7] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings o f 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol 8170, 2013, pp 99-110 [8] Nguyen Long Giang, Vu Van Dinh (2013), “Relationships Among the Concepts o f Reduct in Incomplete Decision Tables”, Frontiers in 46 Artificial Intelligence and Applications, Volume 252: Advanced Methods and Technologies for Agent and M ulti-Agent Systems IOS Press, pp 417-426 [9] Pawlak Z (1982), “Rough sets”, International Journal o f Computer and Information Sciences, 11(5): 341-356 [10] Pawlak Z (1991), Rough sets: Theoretical Aspects o f Reasoning About Data, Kluwer Aca-demic Publishers [11] Qian Y H , Dang C Y., Liang J Y., Zhang H Y., Ma J M., “On the evaluation o f the decision performance o f an incomplete decision table”, Data & Knowledge Engineering 65, 2008, pp 373-400 [12] Yao Y.Y., Zhao Y and W ang J (2006), “On reduct construction algorithms”, Proceedings o f International Conference on Rough Sets and Knowledge Technology, pp 297-304 [13] The UCI machine learning repository, [14] Yu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized D iscem ibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing (2013), No 4, pp 375-388 PHỤ LỤC M ột số giao diện chương trình thử nghiệm Giao diện chương trình r i y Thử nghỉẽm rút gọn thuộc tính trích lọc luặt báng đinh khôrtg đù - Trần Thi Phương Liên ^ Giao diện chọn liệu thử nghiệm, ví dụ số liệu IRIS.DATA ■lí Thử nghiệm rút gọn thuộc tỉnh vầ trích lọc luật bảng định không đầy đù - Trần Thị Phương Liên Tệp dừ liệu " Thuật toán tim tập rút gọn cùa bảng quyẽt định không đú ll cl : Thuâttoảnsứ dung độ đo lưdng thông tin (IQBAR) ^ Thuâttoán sứ dung độ đo khoảng cách (DBAR) 4.9 I Open H 147 c2 c3 c4 35 1.4 0.2 ,3.0 T.4 0.2 13? 1.1 (1? ■* I ” Chuang trinh > UCĨ > AĩtributeReduction + t H Search A ttrib u teR eơ u ctL p Date modified abalore.data 02/11/201116:03 Libraries ; anneal.data 12/10/2013 8:00 A Documents bupa.data 02/11/201116:14 hepatitis.data 03/11/201110:15 irnports-85(Automobile).data 03/11/201110:27 J Music Pictures %■ Videos A I iris.data 02/11/201116:22 , kr-vs-kp.data 02/11/201116:28 - lung-cancer.data 11/10/2013 16:59 tic-tac-toedata 09/10/2013 14:14 Computer Windows (C) Local Disk(D:) v GIANG1 (E ) 'L Filenam e: B B S S E E S Open [^ I^ Giao diện rứt gọn thuộc tính sử dụng thuật toán DBAR 0^ Thử nghiệm rút gọn thuộctính trích lọc luật bảng định thống đầy đủ - Trần Thị Phương Liên La llfci^ T Ề p d ữ liệ u El" Thuật toán tỉmtâp rútgon bảng quyẽt định không đ iỵ đủ Thuật toán sử dụng đọ lượng thông tin (IQBAR) cl c2 c3 c4 35 14 02 ris-setosa 4.9 30 14 0.2 ns-setosa 4.7 32 13 0.2 ris-setosa 4.6 31 15 0.2 ris-setosa 5.0 3.6 14 0.2 ria-aetoaa 5.4 39 17 0.4 ria-aetoaa 4.6 3.4 14 0.3 ris-setosa 50 34 15 02 ris-seto sa 44 29 14 02 ris-seto sa 49 31 15 01 Iris-setosa 54 37 15 02 Iris-setosa 10 48 34 16 Ũ2 Iris-setosa 11 48 30 14 01 Iris-setosa 12 43 30 11 ữl Iris-setosa 13 ► d u í ] [ Sinh luâtquyẽtdịnl S Ố th u ộ c tín h d ie u k iệ n : S ố đối tü d n g : T ẳ p rú t g o n : {C ,C ,C } [ S ố th u ộ c tín h :s a u k h i đ ã r ú t q ọ n : Xe m tập rútgọn T h i g i a n : g iâ y m il i Ịg iâ y : r Giao diện xem bảng định sau rút gọn rrr ► [...]... tớnh trong bng quyt nh khụng y s dng khong cỏch Trong phn 2.1, lun vn ó tng kt cỏc kt qu nghiờn cu v cỏc phng phỏp rỳt gn thuc tớnh v lut quyt nh trong bng quyt nh khụng y , bao gm: kt qu v phõn nhúm cỏc phng phỏp da vo tp rỳt gn; kt qu v so sỏnh v ỏnh giỏ cỏc phng phỏp da trờn tiờu chun cht lng phõn lp ca tp rỳt gn K thut s dng khong cỏch úng vai trũ quan trng trong khai phỏ d liu v hc mỏy Trong. .. u Trong trng hp bng khụng nht quỏn thỡ POSc (Ê>) chớnh l tp con cc i ca u sao cho ph thuc hm c >D ỳng 1.1.3 T p r t gn v tp lừi Trong bng quyt nh, cỏc thuc tớnh iu kin c phõn thnh ba nhm: thuc tớnh lừi (core attribute), thuc tớnh rỳt gn (reductive attribute) v thuc tớnh d tha (redundant attribute) Thuc tớnh lừi l thuc tớnh khụng th thiu trong vic phõn lp chớnh xỏc tp d liu Thuc tớnh lừi xut hin trong. .. nghiờn cu ny l: - Trong bng quyt nh y , cỏc tỏc gi trong cụng trỡnh [6] ó xõy dng cụng thc tớnh khong cỏch gia hai phõn hoch (sinh bi hai tp thuc tớnh) s dng khong cỏch Jaccard gia hai tp hp hu hn v xut phng phỏp rỳt gn thuc tớnh s dng khong cỏch Cỏc tỏc gi cng chng minh phng phỏp s dng khong cỏch hiu qu hn cỏc phng phỏp s dng Entropy thụng tin - Trong bng quyt nh khụng y , cỏc tỏc gi trong cụng trỡnh... tp d liu, thuc tớnh d tha khụng xut hin trong bt k tp rỳt gn no ca bng quyt nh Thuc tớnh rỳt gn l thuc tớnh xut hin toong mt tp rỳt gn no ú ca bng quyt nh 8 Vi bng quyt nh DS = ( ớ / , C u , y , / ) Thuc tớnh c e C c gi l khụng cn thit (dispensable) trong DS nu POSc {D) = PO S^ ^ ề ) ; Ngc li, c c gi l cn thit (indispensable) Tp tt c cỏc thuc tớnh cn thit trong DS c gi l tp lừi v c ký hiu l PCORE... trờn cỏc h thụng tin y da trờn quan h tng ng Tuy nhiờn trong thc t, cỏc h thụng tin thng thiu giỏ tr trờn min giỏ tr ca thuc tớnh, gi l cỏc h thụng tin khụng y Trong h thụng tin khụng y , Kryszkiewicz [5] c xem l ngi u tiờn m rng quan h tng ng thnh quan h dung sai v xõy dng mụ hỡnh tp thụ m rng da trờn quan h dung sai, gi l mụ hỡnh tp thụ dung sai Trong mc ny, tụi trỡnh by cỏc khỏi nim c bn v mụ hỡnh... nhúm cỏc phng phỏp rỳt gn thuc tớnh Rỳt gn thuc tớnh theo tip cn tp thụ truyn thng ca Pawlak [10] l ch nghiờn cu sụi ng trong nhiu nm qua [1] Tuy nhiờn trong cỏc bi toỏn thc t, cỏc h thụng tin thng thiu giỏ tr trờn min giỏ tr ca thuc tớnh, cũn gi l cỏc h thụng tin khụng y Vớ d, trong cỏc kho d liu thuc lnh vc y khoa, cỏc bỏc s thng khụng thu thp cỏc triu trng ca cỏc bnh nhõn chun oỏn bnh Trờn h... =([/,Au{

Ngày đăng: 19/08/2016, 21:01

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan