1. Trang chủ
  2. » Công Nghệ Thông Tin

trích chọn thuộc tính trong Khai phá dữ liệu (Feature Selection in Data Mining)

18 690 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 0,97 MB

Nội dung

trích chọn thuộc tính trong Khai phá dữ liệu (Feature Selection in Data Mining)

trích chọn thuộc tính trong Khai phá dữ liệu (Feature Selection in Data Mining)  I. Tổng quan về trích chọn thuộc tính   !"#$% &'()* +,-#./.$01 .2-#3456".78 569$82$:;< =>*!?@(A@B;+% $ )"(:CD)25"2A E2F$2G6;;!2525@#6HI J;$G6;;!3 K  L&(*M22N";O(/ 569J$L; PQ*0.0AH8$56R!# 56 9$013 FD)$;S$"T$O(/$0N*." U$#2(=826. 569$J$ $"(:VA.NWX?"T$(:3YH;+ %&N"T$!U."(/ 569$011 A*FEZ*@'1$8$ .0AH(:"$N$( U$01"56.:.T #2#Q3   I9"'[19$82S$E?82S$L E\L!;.0(=)$< $]&(^3_#1$$82<&"$$&(& =0AH!P.:9#C*@"'(H&(*"6 "-@"YE`.:3  Y1$89P@S$@<.5>@N  )8282  482  a/$(*.#?  a/$Q.H'N3   F:&*2>22(/9O6"&[U-# O$01"8(=O(/ 569$013(56"$ ;<2>222b@HO  4=;+%(/ H2).!(< :./c-#%;!3L(= $" d;H:$$"0-H""0-O6 "&(*(25U@)!34/(P$Q ( cPP9"c!c$25@< :26>":e$(=0!&2>!1 86(:"c!3  26U$"(:;f(=;;26U&N g)0Q; Interestingness(Attribute) = - (m - Entropy(Attribute)) * (m -Entropy(Attribute))  (:$"265$F26`:h"26U"@ 82!  "#!$4=;+%(<-#./P);i !3 j;26cc(P(@&(^6!U@H(< $.H'N%/2$!3c_%26U#$(S  :/@/R@B$"$U ;&U.NT &#$M;&26 +  kK!l`mE !E !!  Y"cc"cShannon's entropy$;<2>22 .nP(=;+%9c!% &'(c!)#*+%,-.( các phương pháp trích chọn thuộc tính được triển khai trong Analysis Services của Microsoft +/0.1.2&  Là phần mềm khai thác dữ liệu, thuộc dự án nghiên cứu của đại học Waikato, New Zealand.  WEKA được xây dựng bằng ngôn ngữ Java, cấu trúc gồm hơn 600 lớp, tổ chức thành 10 packages.  Các chức năng chính của phần mềm:  Khảo sát dữ liệu: tiền xử lí dữ liệu, phân lớp, gom nhóm dữ liệu, và khai thác luật kết hợp.  Thực nghiệm mô hình: cung cấp phương tiện để kiểm chứng, đánh giá các mô hình học.  Biểu diễn trực quan dữ liệu bằng nhiều dạng đồ thị khác nhau.   2"Q%2o29#$#$%. -#PM2  * +,-#  a8.H=2  E52  $:$ 34#5 [...]... việc trích chọn thuộc tính thông qua phần mềm chuyên khai phá dữ liệu Weka Dataset dùng để minh họa là  file định dạng chuẩn của weka mushroom-train.arff gồm 2000 instances và 23 thuộc tính  Khởi động Weka > Chọn Explorer > Chọn Open file > Chọn Dataset “mushroomtrain.arff”  Chọn Tab “Select attributes” Trong mục Attribute Evaluator chọn WrapperSubsetEval Trong mục classifier chọn NaiveBayes   Trong. .. Method chọn “GreedyStepwise” Bấm Start để thực hiện, kết quả như sau:  3 thuộc tính được chọn đó là Odor, gill-size và stalk-surface-above Đánh trọng số các thuộc tính sử dụng Cross Validation  Sử dụng phương pháp trích chọn thuộc tính như trên ta thu được tập các thuộc tính tối ưu thay cho tập thuộc tính ban đầu Nhưng ta biết rằng, kết quả của việc chọn thuộc tính phụ thuộc rất lớn vào training dataset... tập thuộc tính tối ưu là bruises (xuất hiện 3 lần), odor ( xuất hiện 10 lần),gillspacing ( xuất hiện 3 lần), gill-size (xuất hiện 7 lần) và stalk-surface-above ( xuất hiện 10 lần) Xếp hạng các thuộc tính (Ranking attributes)  Weka cho phép xếp hạng các thuộc tính, theo phương pháp tìm kiếm backward (backward search) thì những thuộc tính ít quan trọng sẽ được loại bỏ ra khỏi tập thuộc tính trước và thuộc. .. dataset Nếu sử dụng một dataset khác có thể thu được tập thuộc tính khác và có khi các kết quả rất khác nhau  Để khắc phục hạn chế này, Weka cho phép sử dụng kỹ thuật Cross validation để đánh trọng số các thuộc tính tùy thuộc vào số lần xuất hiện của chúng trong toàn bộ quá trình Training Model  Để thực hiện đánh trọng số các thuộc tính sử dụng Cross validation, ta chọn : ATTRIBUTE SELECTION MODE = CROSS-VALIDATION... lên (from bottom to top) mức độ quan trọng của các thuộc tính giảm dần Thuộc tính odor có thứ hạng cao nhất là 22 (quan trọng nhất) sau đó là gill-size, stalk- sureface-above-,…  Ta thấy rằng qua các phương pháp chọn thuộc tính trên, kết quả khá ổn định Tập thuộc tính tối ưu luôn chứa các thuộc tính là odor, gill-size , stalk-surface-above , gill-spacing, bruises ... ra khỏi tập thuộc tính trước và thuộc tính quan trọng nhất sẽ được loại bỏ sau cùng Weka xếp hạng cho mỗi thuộc tính theo cách này  Để thực hiện xếp hạng các thuộc tính, trong mục SEARCH METHOD, đặt GENERATE RANKING = TRUE  Kết quả Ranking như sau:  Average rank: Vì chúng ta sử dụng phương pháp tìm kiếm backward cho nên chúng ta phải đọc kết quả từ dưới lên Trong cột Average rank, từ dưới lên (from . trích chọn thuộc tính trong Khai phá dữ liệu (Feature Selection in Data Mining)  I. Tổng quan về trích chọn thuộc tính  . entropy$;<2>22 .nP(=;+%9c!% &'(c!)#*+%,-.( các phương pháp trích chọn thuộc tính được triển khai trong Analysis Services của Microsoft +/0.1.2&  Là phần mềm khai thác dữ liệu, thuộc dự án nghiên. thành 10 packages.  Các chức năng chính của phần mềm:  Khảo sát dữ liệu: tiền xử lí dữ liệu, phân lớp, gom nhóm dữ liệu, và khai thác luật kết hợp.  Thực nghiệm mô hình: cung cấp phương tiện

Ngày đăng: 08/08/2015, 18:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w