Rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô mờ (tt)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN QUANG HUY RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ MỜ Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2017 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS NGUYỄN LONG GIANG Phản biện 1: .…………………………………………………………… .…………………………………………………………… ………… …………………………………………………………… ………… Phản biện 2: … ………………………………………………………… .…………………………………………………………… ………… …………………………………………………………… ………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng Mục lục MỤC LỤC MỤC LỤC iii LỜI MỞ ĐẦU Chương 1: Cơ sở lý thuyết 1.1 Lý thuyết tập thô 1.2 Lý thuyết tập mờ 1.3 Lý thuyết tập thô mờ 1.3.1 Quan hệ tương đương mờ 1.3.2 Ma trận tương đương mờ 1.4 Rút gọn thuộc tính bảng định 1.4.1 Tổng quan rút gọn thuộc tính 1.4.2 Rút gọn thuộc tính theo tiếp cận tập thô 1.4.3 Các phương pháp heuristic rút gọn thuộc tính phổ biến Chương 2: Rút gọn thuộc tính bảng định sử dụng độ đo khoảng cách mờ 10 2.1 Xây dựng độ đo khoảng cách mờ theo tiếp cận tập thô mờ 10 2.1.1 Định nghĩa khoảng cách 10 2.1.2 Khoảng cách Jaccard hai tập mờ 10 2.2 Thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ 11 2.2.1 Định nghĩa tập rút gọn dựa khoảng cách mờ 11 2.2.2 Định nghĩa độ quan trọng thuộc tính 11 2.3 Thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ 12 Chương 3: Thử nghiệm đánh giá kết 14 Mục lục 3.1 Phát biểu toán 14 3.2 Mục tiêu thử nghiệm 14 3.3 Số liệu, công cụ môi trường thử nghiệm 14 3.4 Đánh giá kết thử nghiệm 15 3.4.1 Thử nghiệm 15 3.4.2 Thử nghiệm 2: 16 KẾT LUẬN 19 LỜI MỞ ĐẦU Thời gian gần đây, phương pháp tiếp cận dựa tập thô mờ dần nhiều nhóm nghiên cứu quan tâm mở rộng ứng dụng tốn rút gọn thuộc tính, sinh luật định Mục đích rút gọn thuộc tính bước tiền xử lý liệu loại bỏ thuộc tính dư thừa nhằm tăng tính hiệu thuật tốn trích lọc luật, khai phá tri thức Một phương pháp truyền thống dựa lý thuyết tập thô đánh giá công cụ hiệu để giải tốn rút gọn thuộc tính trích lọc luật bảng định Tuy nhiên, phương pháp phải thực bảng định với miền giá trị thuộc tính rời rạc, nghĩa ta phải thực phương pháp rời rạc hóa liệu trước áp dụng phương pháp rút gọn thuộc tính theo tiếp cần tập thơ Do đó, làm giảm thiểu độ xác phân lớp bảng định Lý thuyết tập thô mờ xem cơng cụ hiệu để giải tốn rút gọn trực tiếp bảng định có miền giá trị thuộc tính liên tục Ưu điểm dễ thấy phương pháp khơng cầ n thơng qua bước rời ̣c hóa dữ liê ̣u các kỹ thuâ ̣t này tâ ̣p thô truyề n thố ng nên giảm thiể u đươ ̣c sự mấ t mát thông tin Với mục tiêu nghiên cứu phương pháp rút gọn thuộc tính nhằm nâng cao độ xác phân lớp bảng định, học viên chọn đề tài nghiên cứu “Rút gọn thuộc tính bảng định theo tiếp cận tập thô mờ” Luận văn trình bày phương pháp rút go ̣n thuô ̣c tiń h bảng định sử dụng khoảng cách Jaccard mờ Bố cục luận văn chia làm chương:  Chương Cơ sở lý thuyết Trình bày lý thuyết tập thơ, tập mờ tập thô mờ  Chương Rút gọn thuộc tính bảng định sử dụng độ đo khoảng cách mờ Sử dụng độ đo khoảng cách mờ theo tiếp cận tập thô mờ, khoảng cách Jaccard mờ, dùng để rút gọn thuộc tính, từ xây dựng thuật tốn  Chương Thử nghiệm đánh giá kết Áp dụng thuật toán xây dựng chương để giải tốn thử nghiệm có đầu vào liệu từ UCI đầu tập thuộc tính sau rút gọn 2 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Lý thuyết tập thô Định nghĩa 1.1 Hệ thông tin cặp IS  U , A U tập hữu hạn đối tượng gọi tập vũ trụ; A tập hữu hạn, khác rỗng thuộc tính Với u U , a  A , ta ký hiệu giá trị thuộc tính a đối tượng u u  a  Nếu B  b1 , b2 , , bk   A tập thuộc tính ta ký hiệu giá trị bi(u) B(u) Như vậy, u v hai đối tượng ta viết B(u)=B(v) bi(u)=bi(v) với i  1, , k Xét hệ thông tin IS  U , A Mỗi tập thuộc tính P  A , tồn quan hệ hai U, ký hiệu IND  P  , xác định IND( P)  {(u, v) U U | a  P, a(u )  a(v)} (1.1) IND  P  gọi quan hệ P-không phân biệt Dễ thấy quan hệ tương đương U Nếu (u, v)  IND( P) hai đối tượng u v khơng phân biệt thuộc tính P Quan hệ tương đương IND  P  xác định phân hoạch U, ký hiệu U / IND  P  hay U / P , cụ thể:   U / P   a  P : U / IND a (1.2) với A  B   X  Y : X  A, Y  B, X  Y   Ký hiệu lớp tương đương phân hoạch U / P chứa đối tượng u u  P ,   u  P  v U  u, v   IND  P  Cho hệ thông tin IS  U , A tập đối tượng X  U Với tập thuộc tính B  A cho trước, có lớp tương đương phân hoạch U / B Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua lớp tương đương U / B (còn gọi biểu diễn X tri thức có sẵn B), người ta xấp xỉ X hợp số hữu hạn lớp tương đương U / B Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B, gọi B-xấp xỉ B-xấp xỉ X, ký hiệu lượt BX BX , xác định sau :     BX  u U u  B  X , BX  u U u  B  X   (1.3) Tập BX bao gồm tất phần tử U chắn thuộc vào X, tập BX bao gồm phần tử U có khả thuộc vào X dựa vào tập thuộc tính B Từ hai tập xấp xỉ nêu trên, ta định nghĩa tập BN B  X   BX  BX : B-miền biên X , U  BX : B-miền X Dễ thấy B-miền biên X tập chứa đối tượng thuộc X, cịn Bmiền ngồi X chứa đối tượng chắn không thuộc X Sử dụng lớp phân hoạch U/B, xấp xỉ X viết lại BX  Y U / B Y  X  , BX  Y U / B Y  X   (1.4) Trong trường hợp BN B  X    X gọi tập rõ, ngược lại X gọi tập thô 1.2 Lý thuyết tập mờ Lý thuyết tập mờ (Fuzzy set theory) mở rộng lý thuyết tập hợp cổ điển nhằm biểu diễn tri thức khơng xác Để xem phần tử có thành viên tập A hay khơng, ta gán cho phần tử giá trị chắn thuộc A, gán giá trị phần tử chắn khơng thuộc tập A Nói cách khác, ta xây dựng hàm thành viên (hàm thuộc) để đánh giá xem phần tử có thuộc tập hợp hay không 1 if u  A  A (u)   0 if u  A u U (1.5) Rõ ràng, hàm thuộc  A xác định tập cổ điển A tập vũ trụ U với  A nhận giá trị {0,1} Ngược lại lý thuyết tập mờ cho phép đánh giá nhiều mức độ khác phần tử thuộc tập hợp, hàm thành viên để xác định mức độ phần tử u thuộc tập A   A (u)  1, u U Định nghĩa 1.2 Cho U vũ trụ tham chiếu, tập mờ A (hay gọi tập mờ A) U xác định hàm thuộc  A Mỗi phần tử u U, gán cho giá trị  A (u) , với   A (u)  Nói cách khác, tập mờ A U xác định ánh xạ  A : U  [0,1] Với U  u1, un , , un  , tập mờ A U biểu diễn: A  { A (u1) / u1,  A (u2 ) / u2 , ,  A (un ) / un}, ui U , i  n (1.6) Lực lượng tập mờ A ký hiệu xác định A    A (u ) (1.7) uU Định nghĩa 1.3 Cho U tập vũ trụ hữu hạn đối tượng F (U  U ) tập mờ thực U U Quan hệ R gọi quan hệ mờ U U R  F (U U ) , R( x, y ) đo độ liên hệ x U y  U Nếu hai phần tử x, y U có liên hệ với theo quan hệ R với cấp độ  ta viết R( x, y)   Nếu U  {u1, u2 , un} quan hệ mờ hai ngơi U biểu diễn ma trận vuông cấp n, ký hiệu M ( R) mà phần tử  ij nằm hàng i cột j mức độ liên hệ ui u j , tức  ij  R(ui , u j ) M ( R)  ij ; i, j  n Việc cho quan hệ hai R (1.8) U tương đương với việc cho ma trận M ( R) 1.3 Lý thuyết tập thô mờ Tuy lý thuyết tập mờ lý thuyết tập thơ có điểm khác biệt, song chúng mơ hình biểu diễn tính khơng chắn, lý thuyết tập thơ đặc trưng cho tính khơng rõ ràng lý thuyết tập mờ đặc trưng cho tính thơ sơ, kết hợp hai mơ hình lẽ tự nhiên tiến trình mở rộng lý thuyết tập thơ Việc kết hợp cho phép hai lý thuyết hỗ trợ cho nhằm biểu diễn tốt tính khơng chắn Tập thô mờ ứng dụng nhiều tốn phân tích liệu, điển hình tốn rút gọn thuộc tính sinh luật định 1.3.1 Quan hệ tương đương mờ Cho bảng định miền giá trị thực DT  U , C  D  , quan hệ R xác định miền giá trị thuộc tính gọi quan hệ tương đương mờ thỏa mãn điều kiện sau với x, y, z U 1) Tính phản xạ (reflexive): R  x, x   ; 2) Tính đối xứng (symetric): R  x, y   R  y, x  ;   3)Tính bắc cầu max-min (max-min transitive): R  x, z   R  x, y  , R  y, z  ; Cho hai quan hệ tương đương mờ R P RQ xác định tập thuộc tính P Q, với x, y U ta có: 1) R P  RQ  R P  x, y   RQ  x, y  ;   R  x, y   R (1.9)   x, y  ; 2) R PQ  R P  RQ  R  x, y   max R P  x, y  , RQ  x, y  ; 3) R PQ  R P  RQ P  x, y  , R Q 4) R P  RQ  R P  x, y   RQ  x, y  (1.10) (1.11) (1.12) 1.3.2 Ma trận tương đương mờ Cho bảng định miền giá trị thực DT  U , C  D  với U   x1 , x2 , , xn  R P quan hệ tương đương mờ xác định tập thuộc tính P  C Quan hệ R P   biểu diễn ma trận tương đương mờ M R P   pij  nn sau:  p11 p M ( R P )   21    pn1 p12 p22 pn p1n  p2 n     pnn  (1.13) với pij  R P  xi , x j  giá trị quan hệ hai đối tượng xi x j tập thuộc tính P , pij  0,1 , xi , x j U ,1  i, j  n Công thức sau để xây dựng ma trận tương đương mờ trực tiếp từ thuộc tính bảng định có miền giá trị thực:  p  xi   p  x j  1  4* , if pij   pmax  pmin  0, otherwise p  xi   p  x j  pmax  pmin  0.25 (1.14) với p  xi  giá trị thuộc tính p đối tượng xi , pmax , pmin tương ứng giá trị lớn nhất, nhỏ thuộc tính p Dễ thấy, giá trị phần tử ma trận tương đương mờ thuộc đoạn [0,1], pmax  pmin (tử thức mẫu thức 0) định nghĩa pij  Khi sử dụng quan hệ tương đương mờ công thức (1.14) quan hệ tương đương công thưc (1.15) pij  x j   xi  P pij  x j   xi  P (1.15) Nói cách khác, lớp tương đương  xi  P xem lớp đương đương mờ,     ký hiệu  xi  P , với hàm thuộc  xi  x j  x j   xi  P  xi  x j   P  P x j   xi  P 1.4 Rút gọn thuộc tính bảng định 1.4.1 Tổng quan rút gọn thuộc tính Rút gọn thuộc tính tốn quan tro ̣ng bước tiền xử lý số liệu với mục tiêu giảm số chiều liệu (số thuộc tính) cách loại bỏ liệu dư thừa nhằm nâng cao hiệu thuật toán khai phá liệu học máy Rút gọn thuộc tính bảng định trình lựa chọn tập nhỏ tập thuộc tính điều kiện mà bảo tồn thơng tin phân lớp bảng định, gọi tập rút gọn (reduct) Hiện có hai cách tiếp cận tốn lựa chọn thuộc tính: Lọc (filter) đóng gói (wrapper) Cách tiếp cận kiểu lọc thực việc lựa chọn thuộc tính độc lập với thuật toán khai phá sử dụng sau Các thuộc tính chọn dựa độ quan trọng chúng việc mô tả liệu Ngược lại với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn cách áp dụng kỹ thuật khai phá cụ thể với tập rút gọn vừa thu được, độ xác kết lấy làm tiêu chuẩn để lựa chọn tập thuộc tính Các hướng tiếp cận lọc đóng gói tốn lựa chọn thuộc tính biểu diễn Hình 1.1 Lựa chọn thuộc tính theo hướng tiếp cận lọc & đóng gói 1.4.2 Rút gọn thuộc tính theo tiếp cận tập thơ Lý thuyết tập thơ xem công cụ hiệu để giải tốn rút gọn thuộc tính cộng đồng nghiên cứu tập thô thực lâu Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô thực bảng định có miền giá trị rời rạc, nghĩa bảng định thu sau thực bước rời rạc hóa liệu Đối với bảng định có nhiều tập rút gọn khác Tuy nhiên, thực tế thường khơng địi hỏi tìm tất tập rút gọn mà cần tìm tập rút gọn tốt theo tiêu chuẩn đánh giá đủ 8 Phương pháp heuristic tìm tập rút gọn tốt bao gồm bước: Định nghĩa tập rút gọn, định nghĩa độ quan trọng thuộc tính sau xây dựng thuật tốn heuristic tìm tập rút gọn tốt Phương pháp rút gọn thuộc tính heuristic mơ hình hóa sau: Tập thuộc tính ban đầu Định nghĩa tập rút gọn Định nghĩa Độ quan trọng thuộc tính Xây dựng thuật tốn heuristic tìm tập rút gọn tốt Tập rút gọn Hình 1.2 Mơ hình phương pháp heuristic rút gọn thuộc tính Các thuật tốn heuristic tìm tập rút gọn thường xây dựng theo hai hướng tiếp cận khác nhau: Hướng tiếp cận từ lên (bottom-up) hướng tiếp cận từ xuống (top-down) Tiêu chuẩn so sánh, đánh giá phương pháp số lượng thuộc tính tập rút gọn, độ phức tạp thuật tốn heuristic tìm tập rút gọn độ xác phân lớp tập liệu sau rút gọn 1.4.3 Các phương pháp heuristic rút gọn thuộc tính phổ biến Mỗi phương pháp rút gọn thuộc tính định nghĩa tập rút gọn dựa tiêu chuẩn phương pháp Cho đến nay, có nhiều phương pháp heuristic rút gọn thuộc tính theo hướng tiế p câ ̣n lý thuyế t tâ ̣p thô công bố Dựa viê ̣c so sánh các tâ ̣p rút go ̣n kế t quả, phân loa ̣i các phương pháp rút go ̣n thuô ̣c tin ́ h bảng quyế t đinh ̣ thành ba nhóm:  Nhóm phương pháp tìm tập rút gọn miề n dương (hay cịn gọi nhóm phương pháp tìm tập rút gọn Pawlak): Sử du ̣ng khái niê ̣m miề n dương đinh ̣ nghiã tâ ̣p rút go ̣n Đây coi nhóm phương pháp rút gọn thuộc tính theo tiếp cận tập thơ  Nhóm phương pháp tìm tập rút gọn Entropy Shannon (hay cịn gọi nhóm phương pháp Entropy Shannon): Sử du ̣ng Shannon entropy, sử dụng các phép toán đa ̣i số quan ̣ để định nghĩa tập rút gọn  Nhóm phương pháp tìm tập rút gọn Entropy Liang (hay cịn gọi nhóm phương pháp Entropy Liang): Bao gồm phương pháp sử du ̣ng entropy Liang, phương pháp sử dụng ma trâ ̣n phân biê ̣t, phương pháp sử dụng đô ̣ khác biê ̣t tri thức đinh ̣ nghiã tâ ̣p rút go ̣n Đối với bảng định có miền giá trị thuộc tính giá trị số (real-valued) cần rời rạc hóa liệu trước áp dụng phương pháp rút gọn thuộc tính theo tiếp cận tập thơ truyền thống Do đó, mặt định tính phương pháp rời rạc hóa liệu làm giảm độ xác phân lớp bảng định Để rút gọn thuộc tính bảng định có miền giá trị số, lý thuyết tập thô mờ tỏ hiệu 10 CHƯƠNG 2: RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG ĐỘ ĐO KHOẢNG CÁCH MỜ 2.1 Xây dựng độ đo khoảng cách mờ theo tiếp cận tập thô mờ 2.1.1 Định nghĩa khoảng cách Một khoảng cách tập hợp U ánh xạ d : U  U  0,   thỏa mãn điều kiện sau với x, y, z U 1) d  x, y   , d  x, y   x y; 2) d  x, y   d  y, x  ; 3) d  x, y   d  y, z   d  x, z  2.1.2 Khoảng cách Jaccard hai tập mờ Định nghĩa 2.3 Cho U tập hữu hạn đối tượng A, B  U Khoảng cách Jaccard để đo đô ̣ tương tự hay đô ̣ “gầ n nhau” giữa hai tâ ̣p hơ ̣p hữu ̣n, đươ ̣c đinh ̣ nghiã sau DJ ( A, B)   A B A B (2.1) Hệ số Jaccard đo độ tương tự hai tập hợp A B định nghĩa J ( A, B )  A B A B Bổ đề 2.1 Cho ba số thực a, b, m với a  b Khi đó, ta có: a  b   a, m    b, m  (2.2) 11 Bổ đề 2.2 Cho ba tập mờ A, B, C tập đối tượng U Khi ta có: (1) Nếu A  B B  B  C  A  A  C (2.3) (2) Nếu A  B C  C  A  C  C  B (2.4) (3) A  A  B  C  C  A  C  C  B (2.5) Định lý 2.1 Cho U tập hữu hạn đối tượng A, B tập tập U Khi DFJ ( A, B)   A B (2.6) A B khoảng cách Jaccard mờ A, B biểu thức J ( A, B)  A B (2.7) A B gọi hệ số Jaccard mờ A B 2.2 Thuật tốn rút gọn thuộc tính sử dụng khoảng cách mờ 2.2.1 Định nghĩa tập rút gọn dựa khoảng cách mờ Định nghĩa 2.5 Cho bảng định có miền giá trị thực DT  U , C  D  tập thuộc tính P  C Nếu 1) d FJ  P, P  D   d FJ  C , C  D  (2.16) 2) p  P, d FJ ( P   p ,  P   p  D)  d FJ (C , C  D) (2.17) P tập rút gọn C dựa khoảng cách Jaccard mờ 2.2.2 Định nghĩa độ quan trọng thuộc tính Định nghĩa 2.6 Cho bảng định DT  U , C  D  , P  C b  C  P Độ quan trọng thuộc tính b P định nghĩa bởi: 12 SIGP  b   d FJ  P, P  D   d FJ  P  b , P  b  D  (2.18) 2.3 Thuật tốn rút gọn thuộc tính sử dụng khoảng cách mờ Thuật toán FJ_DBAR (Fuzzy Jaccard Distance based Attribute Reduction) Thuật tốn heuristic tìm tập rút gọn sử dụng khoảng cách Jaccard mờ Đầu vào: Bảng định giá trị thuộc tính số DS  U , C  D  , quan hệ tương đương mờ R Đầu ra: Một tập rút gọn tốt P P   ; M ( R P )  ; d FJ  ,   D   ; Tính ma trận tương đương mờ M ( RC ) , M (IND(D)) ; Tính khoảng cách mờ d FJ  C , C  D  ; // Thêm dần vào P thuộc tính có độ quan trọng lớn While d FJ  P, P  D   d FJ  C , C  D  Begin For each a  C  R Begin Tính d FJ  P  a , P  a  D  ; Tính SIGP  a   d FJ  P, P  D   d FJ  P  a , P  a  D  ; 10 End;   11 Chọn am  C  P cho SIGP  am   Max SIGP  a  ; aC  P 12 P  P  am  ; 13 Tính d FJ  P, P  D  ; 14 End; //Loại bỏ thuộc tính dư thừa P có 15 For each 16 Begin aP 13   17 Tính d FJ P  a ,  P  a  D ; 18 If d FJ  P  a ,  P  a  D   d FJ C , C  D  then P  P  a ; 19 End; 20 Return P ; Thuật tốn FJ_DBAR tìm tập rút gọn kiểm tra tính dư thừa tập rút gọn Độ phức tạp tính tốn ma trận tương đương mờ thuộc tính O( U ) với U số lượng đối tượng, C số lượng thuộc tính điều kiện; độ phức tạp tính tốn M ( RC ) O( C U ) Thuật tốn có hai vịng lặp lồng theo số lượng thuộc tính điều kiện Do vậy, độ phức tạp tính tốn FJ_DBAR O( C U ) 14 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Bài tốn thử nghiệm có đầu vào liệu từ UCI đầu tập thuộc tính sau rút gọn 3.1 Phát biểu tốn Xây dựng chương trình thử nghiệm thuật tốn tìm tập rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ (FJ_DBAR) 3.2 Mục tiêu thử nghiệm Đánh giá thời gian thực hiện, tập rút gọn độ xác phân lớp liệu 3.3 Số liệu, công cụ môi trường thử nghiệm  Dữ liệu đầu vào sử dụng liệu có giá trị thuộc tính số lấy từ UCI Một số liệu chỉnh sửa (như: xóa cột ID số thứ tự, đưa cột thuộc tính đích cuối cùng) để phù hợp với chương trình thử nghiệm  Mơ thuật tốn ngơn ngữ C#, sử dụng thư viện NET Visual Studio 2013  Cấu hính máy tính thử nghiệm: Windows 10 64bit, Bộ xử lý Pentium Core i7, 8GB Ram Bảng 3.1 Các số liệu thử nghiệm STT Bộ liệu Số đối tượng Số thuộc tính Số lớp Banknote authentication 1372 2 Wine recognition 178 13 3 Image Segmentation 2100 19 Wisconsin diagnostic breast cancer (wdbc) 569 30 15 Ionosphere 351 34 Sonar, mines vs rocks 208 60 3.4 Đánh giá kết thử nghiệm Để đánh giá kết thử nghiệm thuật tốn, học viên chọn thuật tốn FA_FPR (tìm tập rút gọn dựa miền dương mờ) để so sánh với thuật tốn FJ_DBAR (tìm tập rút gọn dựa khoảng cách Jaccard mờ) Các tiêu chí đánh giá thời gian thực hiện, số thuộc tính tập rút gọn độ xác phân lớp liệu 3.4.1 Thử nghiệm Trong thử nghiệm này, học viên chạy thực nghiệm thuật toán rút gọn FA_FPR FJ_DBAR tập liệu Do chương trình thử nghiệm sử dụng nhớ đệm cho biến mảng để lưu tập mẫu, nên lần chạy sau nhanh lần chạy Do đó, liệu chạy lần lấy thời gian trung bình lần chạy Bảng 3.2 kết thử nghiệm thời gian thực số lượng thuộc tính tập rút gọn hai thuật toán số liệu chọn với U số đối tượng, C số thuộc tính, R số thuộc tính tập rút gọn với thuật toán, t thời gian thực (đơn vị giây) Bảng 3.2 Kết thực nghiệm thuật toán FA_FPR FJ_DBAR TT Bộ số liệu U FA_FPR FJ_DBAR R t R t C Banknote authentication 1372 4 2.61 1.72 Wine recognition 178 13 13 0.95 13 0.13 Image Segmentation 2100 19 15 288.4 18 67.63 wdbc 569 30 22 20.7 30 13.17 16 Ionosphere Sonar, 351 34 24 9.04 17 4.20 208 60 20 13.18 58 10.01 mines vs rocks Hình 3.1 biểu đồ so sánh thời gian thực của hai thuật toán liệu cụ thể 350 300 250 200 150 100 50 FA_FPR FJ_DBAR Hình 3.1 Thời gian thực thuật toán FA_FPR FJ_DBAR 3.4.2 Thử nghiệm 2: Thử nghiệm tiến hành để đánh giá khả phân lớp tập rút gọn thu thuật tốn nói Để thực đánh giá, học viên sử dụng độ xác phân lớp (Classification Accuracy) qua thuật toán phân lớp C4.5 (J48) WEKA [https://sourceforge.net/projects/weka/], sử dụng phương pháp 10-fold cross-validation để đánh giá độ xác phân lớp Kết thử nghiệm mô tả bảng 3.3 17 Bảng 3.3 Độ xác phân lớp C4.5 FA_FPR FJ_DBAR Độ FA_FPR FJ_DBAR xác phân Độ lớp C4.5 TT Bộ số liệu U C bảng R xác phân authentication xác phân lớp C4.5 (%) (%) (%) Banknote R lớp C4.5 định gốc Độ chính 1372 98.8338 x 55.5394 Wine recognition 178 13 39.8876 13 x 13 x Image Segmentation 2100 19 96.1905 15 92.3256 18 96 wdbc 569 30 93.6731 22 81.1565 30 x Ionosphere 351 34 90.8832 24 88.8682 17 87.4644 208 60 71.6346 20 57.4351 58 65.6626 Sonar, mines vs rocks Độ xác phân lớp trung bình 81.8505 79.9464 72.2537 Hình 3.2 biểu đồ so sánh độ xác phân lớp hai thuật toán 100 80 60 40 20 Tập gốc FA_FPR FJ_DBAR Hình 3.2 Độ xác phân lớp C4.5 thuật toán FA_FPR FJ_DBAR 18 Như vậy, kết thực nghiệm số liệu mẫu cho thấy theo tiêu chí tập rút gọn hai thuật toán tương đương nhau; theo tiêu chí độ xác phân lớp thuật tốn FA_FPR cho kết tốt chút so thuật toán sử dụng FJ_DBAR; theo tiêu chí thời gian thực thuật tốn FJ_DBAR lại tỏ nhanh so với FA_FPR 19 KẾT LUẬN Những kết đạt luận văn Luận văn giải toán rút gọn thuộc tính trực tiếp bảng định theo tiếp cận tập thô mờ với nội dung chính: Tổng hợp nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thơ mờ; xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ thử nghiệm tính hiệu phương pháp số liệu mẫu Hướng phát triển luận văn Đối với toán rút gọn thuộc tính, sinh luật định theo tiếp cận tập thơ mờ, việc cải tiến phương pháp có, đề xuất phương pháp mở rộng ứng dụng nhà nghiên cứu quan tâm xây dựng Luận văn đạt số kết nêu trên, nhiều hạn chế điều kiện mặt thời gian phạm vi nghiên cứu đề tài Hướng nghiên cứu luận văn nghiên cứu phương pháp rút gọn thuộc tính sử dụng khoảng cách mờ khác, sau tìm hiểu mối liên hệ tập rút gọn Từ đó, hồn thiện việc phân loại so sánh phương pháp rút gọn thuộc tính bảng định có miền giá trị thực theo tiếp cận tập thô mờ ... thuyết tập thô, tập mờ tập thô mờ  Chương Rút gọn thuộc tính bảng định sử dụng độ đo khoảng cách mờ Sử dụng độ đo khoảng cách mờ theo tiếp cận tập thô mờ, khoảng cách Jaccard mờ, dùng để rút gọn thuộc. .. 1.4.2 Rút gọn thuộc tính theo tiếp cận tập thô Lý thuyết tập thô xem công cụ hiệu để giải toán rút gọn thuộc tính cộng đồng nghiên cứu tập thơ thực lâu Các phương pháp rút gọn thuộc tính theo tiếp. .. bảng định 1.4.1 Tổng quan rút gọn thuộc tính 1.4.2 Rút gọn thuộc tính theo tiếp cận tập thơ 1.4.3 Các phương pháp heuristic rút gọn thuộc tính phổ biến Chương 2: Rút gọn thuộc

Định dạng
Số trang	23
Dung lượng	0,92 MB