Về cải tiến phương pháp Fuzzy Random Forest, ứng dụng cho phân lớp dữ liệu không chắc chắn

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	8
Dung lượng	632,69 KB

Nội dung

Trong bài viết đề xuất một phương pháp mở rộng FRF đƣợc gọi là IFRF bằng cách cắt tỉa cây quyết định mờ trước khi bổ sung vào tập cây trong rừng; chiến lược cắt tỉa cây dựa trên giải thuật di truyền.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00099 VỀ CẢI TIẾN PHƯƠNG PHÁP FUZZY RANDOM FOREST, ỨNG DỤNG CHO PHÂN LỚP DỮ LIỆU KHÔNG CHẮC CHẮN Nguyễn Anh Thơ1, Nguyễn Long Giang1, Cao Chính Nghĩa2 Viện Cơng nghệ thơng tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Khoa Toán – Tin học, Học viện Cảnh sát nhân dân natho@ioit.ac.vn, nlgiang@ioit.ac.vn, ccnghia@gmail.com TÓM TẮT—Các thuật toán khai phá liệu máy học truyền thống thực phân lớp với liệu xử lý để loại bỏ liệu nhiễu, liệu thiếu xác liệu khơng đầy đủ, liệu không chắn Chúng phát độ xác phân lớp cải thiện với liệu không chắn sử dụng sức mạnh ngẫu nhiện phương pháp Fuzzy Random Forest (FRF) để tăng đa dạng linh hoạt tập mờ Chúng mở rộng phương pháp FRF để xử lý với với giá trị thiếu, liệu không với kỹ thuật cắt tỉa trước bổ sung vào rừng, mà cải thiện độ xác phân lớp kích thước nhớ lưu trữ FRF Từ khóa— Cây định mờ, rừng ngẫu nhiên mờ, phân lớp mờ, phân hoạch mờ I GIỚI THIỆU Phân lớp luôn vấn đề thách thức dự liệu nay, tăng số lƣợng, độ phức tạp tính đa dạng liệu Đã có nhiều kỹ thuật thuật tốn giải vấn đề phân lớp [1], [3], [6], [18] Tuy nhiên, đa số toán phân lớp đƣợc áp dụng liệu đầy đủ đƣợc đo đạc xác Nhƣng thực tế liệu thu thập đƣợc hầu nhƣ khơng hồn hảo, liệu méo mó, liệu khơng đầy đủ, việc xử lý dạng liệu khó khăn tốn Hơn thông tin thƣờng đƣợc điều chỉnh chun gia Do đó, tính xác thực liệu trở nên mơ hồ Vậy nên cần thiết xử lý trực tiếp dạng thông tin Trong báo này, sử dụng kỹ thuật phân lớp mờ [5], [6], [18] để đối phó với liệu không chắn (dữ liệu thiếu giá trị, liệu mờ) cách mở rộng phƣơng pháp rừng ngẫu nhiên mờ (Fuzzy Random Forest FRF) [14], [15], [16] đƣơc gọi Improve Fuzzy Random Forest, viết tắt IFRF Phƣơng pháp IFRF có cấu trúc dựa FRF, nhƣng phát triển định mờ thực phân vùng mờ liệu không đầy đủ liệu mờ cách sử dụng hàm thuộc hình thang [10] để lựa chọn thuộc tính Sau tối ƣu định sử dụng phƣơng pháp cắt tỉa dựa tối ƣu giải thuật di truyền [9] trƣớc bổ sung vào rừng Mục đích, tăng độ xác phân lớp, dự báo giảm không gian nhớ cần để lƣu trữ nút nhƣ giảm tƣợng overfitting liệu Trong mục II chúng tơi trình bày phƣơng pháp học, phân lớp sử dụng FRF[15] kỹ thuật tổng hợp thông tin FRF Mục III đề xuất mở rộng phƣơng pháp FRF kỹ thuật cắt tỉa sử dụng phƣơng pháp tối ƣu giải thuật di truyền [9] cách kết hợp toán tử Crossover and Mutation để tạo lai ghép hệ mới, hàm Fitness ƣớc lƣợng giá trị cá thể để lựa chọn hệ Mục IV thực nghiệm sánh đánh giá mơ hình phân lớp IFRF Chúng tơi thực thử nghiệm phƣơng pháp IFRF liệu không đầy đủ liệu mờ kho liệu chuẩn UCI [4] Phƣơng pháp đánh giá chéo Cross Validate đƣợc sử dụng để kiểm chứng độ xác mơ hình phân lớp IFRF Bên cạnh chúng tơi thực so sánh độ xác phân lớp IFRF với thuật toán phân lớp khác nhƣ RF [11], FRF [15] Boosting Mục V tổng kết hƣớng phát triển Trong phần tóm tắt kết đạt đƣợc, hƣớng phát triển tƣơng lai Cuối tài liệu tham khảo II PHƢƠNG PHÁP FUZZY RANDOM FOREST (FRF) Trong Random Forest Breiman [11], xây dựng với kích thƣớc tối đa khơng cắt tỉa Trong q trình xây dựng rừng, cần tách nút, có tập ngẫu nhiên tập tất thuộc tính đƣợc xem xét lựa chọn ngẫu nhiên có hồn lại đƣợc thực cho phép tách nút Kích thƣớc tập tham số rừng ngẫu nhiên Kết là, số thuộc tính (bao gồm thuộc tính tốt nhất) khơng đƣợc xem xét cho phép tách nút, nhƣng số thuộc tính đƣợc loại trừ lại đƣợc sử dụng tách nút khác Rừng ngẫu nhiên [11] có hai yếu tố ngẫu nhiên, bagging đƣợc sử dụng lựa chọn tập liệu đƣợc sử dụng nhƣ liệu đầu vào cho cây; hai tập thuộc tính đƣợc coi ứng cử viên cho nút chia Tính ngẫu nhiên nhằm tăng đa dạng cải thiện xác kết dự báo sau tổng hợp dự báo rừng Khi rừng ngẫu nhiên đƣợc xây dựng 1/3 đối tƣợng quan sát (exambles) đƣợc loại bỏ khỏi liệu huấn luyện rừng Các đối tƣợng đƣợc gọi “Out of bag - OOB”[11] Mỗi có tập đối tƣợng OOB khác Các đối tƣợng OOB không sử dụng để xây dựng đƣợc sử dụng thử nghiệm cho tƣơng ứng [11] A Rừng ngẫu nhiên mờ (FRF) Thuật toán 2.1 Fuzzy Random Forest (FRF) VỀ CẢI TIẾN PHƢƠNG PHÁP FUZZY RANDOM FOREST, ỨNG DỤNG CHO PHÂN LỚP DỮ LIỆU KHÔNG CHẮC CHẮN 812 FRF (input: E, Fuzzy Partition; output: Fuzzy Random Forest) Begin Tạo tập Sub: Lấy ngẫu nhiên có hồn lại |E| mẫu từ tập liệu huấn luyện E Xây dựng định mờ (Fuzzy Decision Tree - FDT) từ tập Sub Lặp lại bƣớc bƣớc tất định mờ (FDT) đƣợc xây dựng End Thuật toán 2.2 Fuzzy Decision Tree FuzzyDecisionTree(input: E, Fuzzy Partition; output: Fuzzy Decision Tree) Begin Khởi tạo mẫu liệu huấn luyện E với giá trị (  Fuzzy _ Tree, root  e   ) Đặt M tập thuộc tính, tất thuộc tính đƣợc phân vùng theo phân vùng mờ (Fuzzy Partition) Chọn thuộc tính để chia nút N 3.1 Lựa chọn ngẫu nhiên thuộc tính e từ tập thuộc tính M 3.2 Tính Information Gain cho thuộc tính e, sử dụng giá trị  Fuzzy _ Tree, root  e  thuộc tính e nút N 3.3 Chọn thuộc tính e có Information Gain lớn Phân hoạch nút N theo thuộc tính e đƣợc chọn bƣớc 3.3 loại bỏ khỏ M Đặt En tập liệu nút Lặp lại bƣớc với ( En ,M) phù hợp với điều kiện dừng (stopping criteria) End Cơng thức tính giá trị Information Gain dựa thuật toán ID3 sử dụng phân vùng mờ hình thang [10] Tƣ tƣởng chính, thuộc tính  A1 , A2 , , Af  đƣợc biểu diễn tập mờ hình thang, nút đƣợc chia dựa phân vùng số thuộc tính tạo nút cho tập mờ Phân vùng mờ thuộc tính đảm bảo đầy f đủ (khơng có điểm miền nằm vùng mờ) phân vùng mờ mạnh (thỏa mãn x  E ,   Ai  x   , với  A , A , , A  tập mờ phâp hoạch cho hàm thuộc f i 1  A ) i Hàm t , N  e  đƣợc gọi mức mẫu e thỏa mãn điều kiện dừng t nút N Đƣợc xác định nhƣ sau: - t , root  e   với e  E có nút gốc t -  fuzzy _ se _ partition  e   với e  E thuộc hai nút Đƣợc xác định nhƣ sau: o t ,childnode  e   t , node  e    fuzzy _ set _ partition  e  , giá trị e đƣợc xác định o Hoặc t ,childnode  e   t , node  e   , e có giá trị thiếu number _ outputsplit Điều kiện dừng (stopping criteria) cho thuật toán thỏa mãn trƣờng hợp sau: (1) tất mẫu e thuộc nút; (2) số mẫu e thỏa mãn giá trị ngƣỡng x cho trƣớc; (3) Nút rỗng B Phân lớp rừng ngẫu nhiên mờ Trong phần miêu tả cách phân lớp sử dụng FRF Đầu tiên giới thiệu ký hiệu đƣợc sử dụng Sau đó, chúng tơi xác định hai bƣớc ứng dụng định mờ FRF để xác định nhãn cho biến mục tiêu mẫu Các ký hiệu - T số rừng ngẫu nhiên mờ (FRF) Nt tổng số nút thứ t với t=1,2, ,T Đặc tính phân lớp định mờ mẫu thuộc nhiều khác chồng chéo tập mờ tạo số phân hoạch mà thuộc tính tồn phân hoạch khác I tổng số lớp liệu mẫu e mẫu sử dụng huấn luyện kiểm tra t , n  e  độ phụ thuộc mẫu e nút n t - Support độ hỗ trợ lớp i mỗi, Support (n)  - Ei với Ei tổng mức độ thuộc mẫu e En lớp thứ i nút n, En tổng mức độ thuộc đối tƣợng e nút n Nguyễn Anh Thơ, Nguyễn Long Giang, Cao Chính Nghĩa - 813   L_FRF ma trận có kích thƣớc T  MAX Nt , với MAX Nt  max N1 , N2 , , Nt  , phần tử ma trân véctơ kích thƣớc I có Support(i) độ hỗ trợ nút n t Một số phần tử ma trận khơng chứa thơng tin tất khơng có đạt MAX Nt Tuy nhiên ma trận L_FRF bao gồm - tất thông tin đƣợc tạo FRF, thông tin đƣợc sử dụng để phân lớp mẫu e L_FRFt,n,i tham chiếu đến phần tử ma trận độ hỗ trợ lớp i nút n t T _ FRFt ,i ma trận có kích thƣớc T  I  bao gồm độ chắn (confidence) t lớp i - D _ FRFi véctơ có kích thƣớc I, độ chắn FRF lớp i Phân lớp rừng ngẫu nhiên mờ Phân lớp mờ đƣợc P Bonissone cộng [15] đƣa hai dạng mơ hình đƣợc gọi Strategy Strategy nhƣ sau: Hình 2.1 Mơ hình phân lớp mờ [15] a) Mơ hình (kí hiệu Strategy 1) Tổng hợp thơng tin từ định khác Sau tổng hợp định tạo đƣợc rừng Hàm Faggre11 sử dụng tổng hợp thông tin từ cây, hàm Faggre1 sử dụng tổng hợp thông tin từ định Mơ hình phân lớp Strategy đƣợc thực thuật toán 2.3 nhƣ sau: Thuật toán 2.3 FRF Classification (Strategy 1) FRFClassification(Input e, Fuzzy Random Forest; Output c ) Begin DecisionsOfTrees(in: e,Fuzzy Random Forest; out: T_FRF); DecisionOfForest(in: T_FRF; out: c); End; DecisionsOfTrees(in: e,Fuzzy Random Forest; out: T_FRF) Begin 1) Tạo ma trận L_FRF 2) For each tree t {For each class i T _ FRFt ,i  Faggre11  t , i, L _ FRF  } End; DecisionOfForest(in: T_FRF; out: c) Begin 1) For each class i D _ FRFi  Faggre12  i, T _ FRF  2) c  arg maxi ,i 1 I D _ FRFi  End; Ma trận L_FRF hàm tổng hợp thông tin Faggre đƣợc xác định nhƣ sau: - Ma trận L_FRF đƣợc tạo cách quét mâu e t - Các hàm tổng hợp thông tin Faggre coi nhƣ trọng số FRF xác định nhƣ sau:   Nt  if i  arg max L _ FRFt , n, j     j ; j 1, , I Faggre11  t , i, L _ FRF     n 1   otherwise  T  errors  OOBt   Faggre12  i, T _ FRF        T _ FRFt ,i t 1  size  OOBt   (2.1) (2.2) 814 VỀ CẢI TIẾN PHƢƠNG PHÁP FUZZY RANDOM FOREST, ỨNG DỤNG CHO PHÂN LỚP DỮ LIỆU KHÔNG CHẮC CHẮN Với  hàm thuộc đƣợc xác định :   x  pmin  marg    pmax  marg   x   x   pmin  marg  x  pmax  marg  pmax  pmin  pmax  marg  x  (2.3) errors  OOBt   errors  OOBt   Trong đó: pmax  maxt 1, ,T  tỷ lệ  tỷ lệ lỗi lớn rừng, size  OOBt   size  OOBt   lỗi t, errors  OOBt  số lỗi thực phân lớp thực t sử dụng liệu kiểm thử OOB, size  OOBt  kích thƣớc liệu kiểm tra OOB t pmin tỷ lệ lỗi t marg  pmax  pmin Các FRF có trọng số lớn Trọng số thể tỷ lệ lỗi, có tỷ lệ lỗi thấp có trọng số b) Mơ hình (kí hiệu Strategy 2): Tổng hợp thông tin từ tất tất tạo thành rừng Hàm Faggre2 đƣợc sử dụng tổng hợp thông tin từ tất Phân lớp theo mơ hình Strategy đƣợc thực thuật toán 2.4 Thuật toán 2.4 FRF Classification (Strategy 2) FRFclassification(in: e, Fuzzy Random Forest; out: c) Begin Tạo ma trận L_FRF For each class i D _ FRFi  Faggre2  i, L _ FRF  c  arg maxi ,i 1 I D _ FRFi  End; Trong thuật tốn ma trận L_FRF đƣợc tạo thơng qua chay mẫu e rừng hàm tổng hợp thông tin Faggre đƣợc xác định công thức sau: T  errors  OOBt   Nt Faggre2  i, T _ FRF         T _ FRFt , n,i t 1  size  OOBt   n 1 (2.4)  errors  OOBt   Với hàm thuộc    đƣợc xác định tƣơng tự thuật toán 2.3  size  OOBt   III ĐỀ XUẤT PHƢƠNG PHÁP IFRF Trong phần đề xuất giải pháp mở rộng rừng ngẫu nhiên mờ đƣợc gọi Improve Fuzzy Random Forest, viết tắt IFRF Phƣơng pháp rừng ngẫu nhiên mờ FRF [15] dự RF [11] Do vậy, FRF tạo theo mục tiêu lấy mẫu ngẫu nhiên có hồn lại, khơng cắt tỉa, nhiều khác tốt Phƣơng pháp FRF [11] đƣợc phát triển dựa RF sử dụng hàm thuộc lý thuyết mờ để xác định trọng số tổng hợp Do đó, đƣợc tạo FRF không cắt tỉa Cây không cắt tỉa nguyên nhân dẫn đến cân cây, ảnh hƣởng đến độ xác phân lớp dự báo, thời gian tìm kiếm khơng gian lƣu trữ nút gây tƣơng overfitting liệu Do đó, để cải thiện vấn đề nêu đề xuất giải nháp cải tiến cách cắt tỉa định mờ (FDT) trƣớc bổ sung vào FRF Phƣơng pháp đƣợc trình bày thuật toán 3.1 3.2 dƣới đây: Thuật toán 3.1 Improve Fuzzy Random Forest (EFRF) IFRF(input: E, Fuzzy Partition; output: Fuzzy Random Forest) Begin Tạo tập sub data set(SDT): Lấy ngẫu nhiên có hồn lại |E| mẫu từ tập liệu huấn luyện E Xây dựng định mờ (Fuzzy Decision Tree - FDT) từ tập SDT Cây đƣợc cắt tỉa từ FDT gọi FDTp Lặp lại bƣớc bƣớc tất định mờ (FDT) đƣợc xây dựng End Thuật toán 3.1 thực kỹ thuật cắt tỉa sau xây dựng định mờ (FDT) Do vậy, kỹ thuật cắt tỉa sau xây dựng (Postpruning) Phƣơng pháp cắt tỉa không phụ thuộc vào giới hạn cây, đƣợc thực cắt tỉa theo điều kiện phƣơng pháp heuristic Nguyễn Anh Thơ, Nguyễn Long Giang, Cao Chính Nghĩa 815 Brieman’s với phƣơng pháp cost-complexity pruning (CCP), J R Quinlan với phƣơng pháp Pessimistic Error Pruning (PEP) kỹ thuật Postpruning trình cắt tỉa làm giảm số từ định ban đầu hiệu phƣơng pháp pre-pruning Trong báo này, phƣơng pháp tối ƣu giải thuật di truyền [10], đƣợc ứng dụng để phát cần cắt tỉa cách biểu diễn nhƣ chuỗi gen gồm bít (khơng cắt) (cắt) đƣợc gọi trọng số nhánh Sau đó, sử dụng toán tử Crossover Mutation để lai tạo hệ Tiếp theo thực lựa chọn cá thể quần thể để thực lai tạo (sinh cá thể cho hệ kế cận) quần thể cách xây dựng hàm Fitness Fitness hàm ƣớc lƣợng giá trị trọng số thể quần thể Cá thể đƣợc chọn theo điều kiện trọng số Từ yếu tố chúng tơi đề xuất phƣơng pháp cắt tỉa nhƣ sau: Thuật toán 3.2 Cắt tỉa định mờ PruningFuzzyDecisionTree (input : T;Output: T’ ) Begin 1) Tạo ngẫu nhiên h[P] giả thuyết; Khởi tạo quần thể P 2) Tính hàm Fitness  hi    N (T )   E (T ) , Với N(T) số nút định mờ T; E(T) số lỗi định mờ T;  ,  hai trọng số kích cỡ số lỗi định mờ 3) Tạo hệ Ps a Tính xác suất Pr(hi) giả thuyết hi quần thể P theo công thức Fitness  hi  Pr  hi   p  Fitness  hi  (3.1) j 1 Crossover: Chọn cặp giả thuyết có giá trị Pr(hi) từ P Ví dụ chọn cặp (h1,h2)có giá trị xác xuất Pr(h1)=Pr(h2) Sau tạo cặp (h1,h2) cách áp dụng toán tử Crossover Thêm tất vào Ps c Mutate: Chọn m phần trăm số giả thuyết Ps có xác suất Mỗi giả thuyết chọn ngẫu nhiên bít để nghịch đảo 4) Cập Ps = P 5) Lặp lại bƣớc đến Fitness  h    (  gí trị ngƣỡng có trƣớc) Thu đƣợc T có b cạnh đƣợc gán giá trị trọng số tối đa 6) Loại bỏ cạnh có trọng số có cắt tỉa T’ End; IV THỰC NGHIỆM VÀ ĐÁNH GIÁ MƠ HÌNH PHÂN LỚP IFRF Trong phần này, chúng tơi tiến hành thử nghiệm mơ hình phân lớp IFRF liệu kho liệu UCI[4] đƣợc mô tả chi tiết bảng 4.1, với |E| số mẫu, M số thuộc tính, I số lớp Abbr tên viết tắt liệu Thực nghiệm đƣợc thực trƣờng hợp liệu giá trị liệu mờ, cho biết độ xác mơ hình cách sử dụng phƣơng pháp kiểm tra chéo Cross validation, số nút IFRF trƣớc sau cắt tỉa Bảng 4.1 Dữ liệu thử nghiệm UCI [4] Data set Appendicitis Wisconsin breast C German credit Glass Ionosphere Iris plants Pima Indian diabetes Wine Abbr (abbreviation) APE BCW GER GLA ION IRP PIM WIN |E| 106 683 1000 214 351 150 768 178 M 24 34 13 I 2 3 Các tham số đƣợc thiết lập cho mô hình phân lớp IFRF nhƣ sau: Số T(100,150); Số thuộc tính đƣợc chọn ngẫu nhiên log  M  1 với M số thuộc tính; Mỗi định mờ IFRF đƣợc xây dựng tối đa (nút có mẫu thuộc lớp tập biến thuộc tính rỗng) khơng cắt tỉa; a% (5%, 15% 30%) giá trị không chắn (giá trị thiếu giá trị mờ); Dữ liệu huấn luyện đƣợc lấy ngẫu nhiên a%  E  M mẫu từ tập  liệu D DataTraina  Randomsiz  D, a%  E  M   liệu huấn luyên phần lại sau lấy liệu huấn  luyện khỏi tập liệu D DataTest  D  E  DataTrain  Để thấy đƣợc tính hiệu phƣơng pháp mở rộng IFRF liệu không chắn (Dữ liệu giá trị liệu mờ) Chúng sử dụng liệu kiểm tra (DataTest) để đánh giá mơ hình phân lớp IFRF Dữ liệu 816 VỀ CẢI TIẾN PHƢƠNG PHÁP FUZZY RANDOM FOREST, ỨNG DỤNG CHO PHÂN LỚP DỮ LIỆU KHÔNG CHẮC CHẮN kiểm tra đƣợc chia làm hai trƣờng hợp: (1) Các giá trị bị có thuộc tính liên tục (thuộc tính số) thuộc tính rời rạc; (2) Chuyển thuộc tính số sang dạng liệu mờ sử dụng hàm thuộc hình vng [11] khác cho thuộc tính khác Phƣơng pháp sử dụng để đánh giá mơ hình phân lớp IFRF phƣơng pháp kiểm tra chéo (Cross Validation) cách chia tập liệu thành 10 phần nhƣ (10-fold cross validation) thực lặp lần (5x10-fold cross validation) Độ xác phân lớp số nút mơ hình trung bình lần lặp Kết thực nghiệm đƣợc miêu tả bảng 4.2 bảng 4.3 Bảng 4.2 Kết thử nghiệm với liệu thiếu Dữ liệu APE BCW GER GLA ION IRP PIM WIN Số nút 12 165 274 52 86 13 145 Khơng cắt tỉa Độ xác 5% 15% 30% 90.31 90.1 90.92 97.19 96.52 94.39 75.98 72.82 71.52 71.04 66.71 60.46 95.47 93.75 90.32 96.1 93.22 80.62 76.32 74.57 69.67 93.46 91.6 83.66 Số nút 89 165 29 58 55 Cắt tỉa Độ xác 5% 15% 30% 91.13 90.35 86.42 97.31 95.12 92.89 76.68 71.86 71.25 77.66 71.05 70.01 96.41 93.18 91.79 97.33 96.03 94.38 77.14 75.55 73.58 97.87 96.01 93.47 Bảng 4.3 Kết thử nghiệm với liệu mờ Dữ liệu APE BCW GER GLA ION IRP PIM WIN Số nút 15 150 254 48 85 13 142 Khơng cắt tỉa Độ xác 5% 15% 91.13 90.52 97.31 96.61 76.68 76.89 77.66 73.74 96.41 95.42 97.33 96.02 77.14 76.45 97.87 97.67 30% 90.76 93.51 76.62 70.67 93.35 92.09 73.57 94.28 Số nút 78 145 29 52 53 Cắt tỉa Độ xác 5% 15% 90.92 91.34 97.73 96.89 76.76 76.6 76.58 73.74 96.94 95.88 98.64 96.02 77.66 76.62 97.58 97.16 30% 91.97 93.63 76.36 71.98 94.29 92.09 75.06 95.03 Để chứng minh tính hiệu phƣơng pháp mở rộng IFRF, tiến hành thử nghiệm so sánh độ xác thuật tốn IFRF với số thuật toán phân lớp mờ FRF số thuật toán phân lớp khác RF Boosting có tham số thiết lập Kết cho bảng 4.4 Bảng 4.4 Kết thử nghiệm với liệu thiếu 5% Data Set APE BCW GER GLA ION IRP PIM WIN NoTree 140 125 200 120 175 120 150 150 RF 89.15 97.07 72.68 78.85 93.45 95.33 75.26 98.03 Boosting 87.35 94.51 65.79 74.89 94.09 96.67 66.18 97.20 FRF 90.31 97.30 72.97 78.38 94.66 97.33 76.53 97.48 IFRF 91.13 97.73 76.68 77.66 95.79 98.38 76.58 98.47 V TỔNG KẾT Trong báo này, đề xuất phƣơng pháp mở rộng FRF đƣợc gọi IFRF cách cắt tỉa định mờ trƣớc bổ sung vào tập rừng Chiến lƣợc cắt tỉa dựa giải thuật di truyền Cách tiếp cận cho thấy đƣợc hiệu phân lớp, mà cụ thể độ xác phân lớp tốt hẳn phƣơng pháp phân lớp quần thể khác nhƣ RF, Boosting FRF hình 5.2 Điều đƣợc chứng minh qua thử nghiệm liệu thiếu giá trị liệu mờ Đặc biệt thực nghiệm cho thấy số nút sử dụng cho giảm từ 20% đến 60% so với trƣớc thực cắt tỉa hình 5.1 Nguyễn Anh Thơ, Nguyễn Long Giang, Cao Chính Nghĩa 817 300 Số nút 250 200 FRF 150 IFRF 100 50 APE BCW GER GLA ION IRP PIM WIN Hình 5.1 Biểu đồ so sánh số nút FRF IFRF Biểu đồ hình 5.1 cho thấy số nút phƣơng pháp mở rộng chúng tơi sử dụng nhiều so với phƣơng pháp FRF Điều chứng tỏ nhớ cần sử dụng để lƣu trữ nút phƣơng pháp mở rộng IFRF phƣơng pháp FRF 0.4 0.35 Lỗi phân lớp 0.3 RF 0.25 Boosting 0.2 FRF 0.15 IFRF 0.1 0.05 APE BCW GER GLA ION IRP PIM WIN Hình 5.2 Biểu đồ so sánh độ xác phân lớp Kết hình 5.1 hình 5.2 cho thấy phƣơng pháp mở rộng IFRF chúng tơi có độ xác tốt phƣơng pháp phân lớp khác, dung lƣợng sử dụng để lƣu trữ thấp hẳn so với phƣơng pháp phân lớp khác nhƣ FRF, RF Boosting liệu không chắn Tuy nhiên, độ xác chƣa đƣợc cải thiện nhiều, khía cạnh mà chúng tơi quan tâm tƣơng lai Trong thực nghiệm thực thử nghiệm liệu thiếu liệu mờ Một khía cạnh liệu không chắn liệu nhiễu liệu ngoại lai ln ln xuất q trình thu thập xử lý liệu thực tế Đây nhóm liệu cần quan tâm xử lý tƣơng lai VI LỜI CẢM ƠN Kết nghiên cứu đƣợc tài trợ Đề tài nghiên cứu mã số CS.16.16, cấp Viện CNTT, Viện Hàn lâm Khoa học Công nghệ Việt Nam TÀI LIỆU THAM KHẢO [1] Amir Hussain, Erfu Yang “A Novel Classification Algorithm Based on Incremental Semi-Supervised Support Vector Machin”, PLOS ONE | DOI:10.1371/journal.pone.0135709 August 14, 2015 [2] Adriano Donato De Matteis; Francesco Marcelloni; Armando Segatori “A new approach to fuzzy random forest generation” Fuzzy Systems (FUZZ-IEEE), 2015 IEEE International Conference on, 2015 [3] Data Set UCI: https://archive.ics.uci.edu/ml/datasets/ [4] Eyke Hüllermeier “Does machine learning need fuzzy logic”, Fuzzy Sets and Systems 281(2015)292–299 [5] Fernández-Delgado, Manuel, Eva Cernadas, Senén Barro, and Dinani Amorim “Do We Need Hundreds of Classifiers to Solve Real World Classification Problems?” The Journal of Machine Learning Research 15, 2014 [6] Jesús Alcalá-Fdez, Rafael Alcalá,María José Gacto,Francisco Herrera “Learning the member ship function contexts formining fuzzy association rules by using genetic algorithms”, Fuzzy Setsand Systems, 2009 [7] Jooyeol Yun, Jun Won Seo, and Taeseon Yoon “The New Approach on Fuzzy Decision Forest”, Lecture Notes on Software Engineering, Vol 4, No 2, May 2016 818 VỀ CẢI TIẾN PHƢƠNG PHÁP FUZZY RANDOM FOREST, ỨNG DỤNG CHO PHÂN LỚP DỮ LIỆU KHÔNG CHẮC CHẮN [8] Jie Chen, Xizhao Wang, Junhai Zhai, “Pruning Decision Tree Using Genetic Algorithms”, International Conference on Artificial Intelligence and Computational Intelligence, 2009 [9] L Breiman Random forests Machine learning, 45(1):5–32,2001 [10] M Zeinalkhani, M.Eftekhari “Comparing different stopping critetia for fuzzy decision tree induction through IDFID3”, Iranian Journal of Fuzzy Systems Vol 11, No 1, (2014) pp 27-48 [11] Nikita Patel, Saurabh Upadhyay “Study of Various Decision Tree Pruning Methods with their Empirical Comparison in WEKA”, International Journal of Computer Applications (0975 – 8887) Volume 60– No.12, December 2012 [12] P P Bonissone, J M Cadenas, M C Garrido, R A D´ıaz-Valladares “A Fuzzy Random Forest: Fundamental for Design and Construction” Proceedings of IPMU'08, pp 1231- 1238 Torremolinos (Malaga), June 22-27, 2008 [13] Piero Bonissone, José M Cadenas, M Carmen Garrido, R Andrés Díaz-Valladares “A fuzzy random forest”, International Journal of Approximate Reasoning 51 (2010) 729–747 [14] P P Bonissone, J M Cadenas, M C Garrido, R A D´ıaz-Valladares, R Mart´ınez “Weighted decisions in a Fuzzy Random Forest”, IFSA-EUSFLAT 2009 [15] Pragati Pandey, Minu Choudhary “Uncertain Data Management and Mining”, IRACST - International Journal of Computer Science and Information Technology & Security (IJCSITS), Vol 2, No.6, December 2012 [16] Renuka D Suryawanshi, D M Thakore “Decision Tree Classification Implementation with Fuzzy Logic”, IJCSNS International Journal of Computer Science and Network Security, VOL.12 No.10, October 2012 [17] S Meenakshi, V Venkatachalam “FUDT: A Fuzzy Uncertain Decision Tree Algorithm for Classification of Uncertain Data”, research article - computer engineering and computer science, Arab J Sci Eng (2015) 40:3187–3196 [18] Vitaly LEVASHENKO, Penka MARTINCOVÁ “Fuzzy decision tree for parallel processing support”, Journal of Information, Control and Management Systems, Vol 3, (2005), No ABOUT IMPROVE FUZZY RANDOM FOREST METHODS, APPLICATIONS FOR CLASSIFICATIN UNCERTAIN DATA Nguyen Anh Tho, Nguyen Long Giang, Cao Chinh Nghia ABSTRACT— The algorithms of data mining and machine learning to achieve classifiers with the data that has been processed to remove noise data, data inaccuracies, incomplete data and uncertain data We recognize that classification accuracy could be improved with uncertain data when use random power of Fuzzy Random Forest method (FRF) to increase the diversity of plants and the flexibility of fuzzy sets We expand the method FRF to handle the set with missing values, the data is not sure with techniques of tree pruning before adding into the forest, which can greatly improve the accuracy of classification and size of storage memory of FRF trees ...VỀ CẢI TIẾN PHƢƠNG PHÁP FUZZY RANDOM FOREST, ỨNG DỤNG CHO PHÂN LỚP DỮ LIỆU KHÔNG CHẮC CHẮN 812 FRF (input: E, Fuzzy Partition; output: Fuzzy Random Forest) Begin Tạo... kiểm tra (DataTest) để đánh giá mơ hình phân lớp IFRF Dữ liệu 816 VỀ CẢI TIẾN PHƢƠNG PHÁP FUZZY RANDOM FOREST, ỨNG DỤNG CHO PHÂN LỚP DỮ LIỆU KHÔNG CHẮC CHẮN kiểm tra đƣợc chia làm hai trƣờng hợp:...  T _ FRFt ,i t 1  size  OOBt   (2.1) (2.2) 814 VỀ CẢI TIẾN PHƢƠNG PHÁP FUZZY RANDOM FOREST, ỨNG DỤNG CHO PHÂN LỚP DỮ LIỆU KHÔNG CHẮC CHẮN Với  hàm thuộc đƣợc xác định :   x  pmin  marg

Ngày đăng: 26/11/2020, 00:08