Lập mô hình dự báo : Bao gồm 2 nhiệm vụ hoặc là phân nhóm dữ liệu vào một hay nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dự báo
Trang 1ĐẠI HỌC QUỐC GIA TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÁO CÁO KHAI PHÁ DỮ LIỆU (DATA MINING)
Đề tài:
TÌM HIỂU PHẦN MỀM WEKA ỨNG DỤNG TẠO LUẬT KẾT HỢP
ĐỂ QUYẾT ĐỊNH CHO VAY VỐN TRONG NGÂN HÀNG
MSHV:CH1101150
Trang 2MỤC LỤC
MỤC LỤC 2
MỞ ĐẦU 4
Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU (DATA MINING) 5
I Khai phá dữ liệu là gì? 5
1.1 Định nghĩa khai phá dữ liệu (KPDL) 5
1.2 Nhiệm vụ khai phá dữ liệu là gì? 6
1.3 Các dạng dữ liệu có thể khai phá: 7
II Các phương pháp khai phá dữ liệu 8
2.1 Phương pháp quy nạp (Induction) 8
2.2 Cây quyết định và luật 8
2.3 Phát hiện các luật kết hợp 9
2.4 Gom cụm (clustering) 11
2.5 Mạng neuron 11
III Các ứng dụng của khai phá dữ liệu 12
Chương 2: TỔNG QUAN PHẦN MỀM WEKA 14
HỖ TRỢ KHAI PHÁ DỮ LIỆU 14
I Giới thiệu về Weka 14
1.1 Đưa dữ liệu vào 16
1.2 Preprocess 18
1.3 Tab Classify 29
1.4 Associate (luật kết hợp) 32
Chương 3: ỨNG DỤNG TẠO LUẬT KẾT HỢP QUYẾT ĐỊNH CHO KHÁCH HÀNG VAY VỐN NGÂN HÀNG 34
Trang 3I Luật kết hợp 34
1.1 Khái niệm về luật và luật kết hợp 34
1.2 Một số tính chất của tập mục phổ biến và luật kết hợp 36
1.2.1 Một số tính chất với tập mục phổ biến: 36
1.2.2 Một số tính chất với luật kết hợp: 37
II Xây dựng ứng dụng tạo luật kết hợp quyết định cho khách hàng vay vốn 38
2.1 Cơ sở dữ liệu 38
2.2 Preprocess (Tiền xử lý ) 39
2.3 Classifier (Phân lớp) 43
2.4 Associate (Tạo luật kết hợp) 46
Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50
I Kết luận 50
1.1 Thuận lợi 50
1.2 Khó khăn 50
II Hướng phát triển 51
TÀI LIỆU THAM KHẢO 51
Trang 4MỞ ĐẦU
Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngàycàng phát triển tạo điều kiện cho các đơn vị thu thập dữ liệu tốt hơn Đặc biệt trong lĩnhvực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và
xử lý thông tin, nhằm giúp các chủ doanh nghiệp trong việc vạch ra các chiến lược kinhdoanh kịp thời mang lại những lợi nhuận to lớn cho doanh nghiệp của mình Tất cả lý do
đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lượng dữ liệu khổng
lồ cỡ Gigabyte thậm chí là Terabyte cho riêng mình Các kho dữ liệu ngày càng lớn vàtiềm ẩn nhiều thông tin có ích Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết đó là phải cónhững kỹ thuật và công cụ mới để biến kho dữ liệu khổng lồ kia thành những thông tin côđọng và có ích Kỹ thuật Khai phá dữ liệu (Data mining ) ra đời như một kết quả tất yếuđáp ứng các nhu cầu đó
Trang 5Chương I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU (DATA MINING)
I Khai phá dữ liệu là gì?
I.1 Định nghĩa khai phá dữ liệu (KPDL)
Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thôngtin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu(CSDL), kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một
số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (knowledgemining from databases),trích lọc dữ liệu (knowledge extraction), phân tích dữ liệu/mẫu(data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (datadredging) Nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khámphá tri thức trong CSDL (Knowledge Discovery in Databases – KDD) là như nhau Tuynhiên, trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá trithức trong CSDL
Sau đây là một số quan niệm về khai phá dữ liệu (KPDL):
KPDL là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho dữliệu khổng lồ
KPDL được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu Quá trìnhnày có thể là tự động hay bán tự động, song phần nhiều là bán tự động Các mẫu đượcphát hiện thường hữu ích theo nghĩa: các mẫu mang lại cho người sử dụng một lợi thếnào đó, thường là lợi thế về kinh tế
KPDL giống như quá trình tìm ra và mô tả mẫu dữ liệu Dữ liệu như là một tập hợpcủa các vật hay sự kiện, còn đầu ra của quá trình KPDL như là những dự báo của các vậthay sự kiện mới
KPDL được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, cơ sở dữ liệu khônggian, cũng như các kho dữ liệu phi cấu trúc, mà điển hình là World Wide Web
Trang 61.2 Nhiệm vụ khai phá dữ liệu là gì?
Trong mọi hoạt động sản xuất, kinh doanh thì yếu tố thành công luôn đặt lên hàngđầu Giờ đây KPDL đã và đang trở thành một trong những hướng nghiên cứu chính củalĩnh vực khoa học máy tính và công nghệ tri thức Do đó có thể coi mục đích chính củaquá trình KPDL là một mô tả và dự đoán mà các mẫu KPDL phát hiện đều được nhằmvào mục đích này.Để đạt được mục tiêu chính trên, nhiệm vụ cơ bản nhất của KPDL là:
Phân cụm, phân loại, phân nhóm, phân lớp : Nhiệm vụ là trả lời câu hỏi là một dữ liệu
mới thu thập được sẽ thuộc về nhóm nào? Quá trình này thường được thực hiện một cách
tự động
Khai phá luật kết hợp : Nhiệm vụ là phát hiện những mối quan hệ giống nhau về cấu
trúc của các bản ghi giao dịch Luật kết hợp X=>Y có dạng tổng quát là : Nếu một giaodịch đã sở hữu các tính chất X, thì đồng thời nó cũng sở hữu các tính chất Y, ở một mức
độ nào đó Khai phá luật kết hợp được hiểu theo nghĩa: biết trước các tính chất X, thì sẽbiết được các tính chất Y là những tính chất nào?
Lập mô hình dự báo : Bao gồm 2 nhiệm vụ hoặc là phân nhóm dữ liệu vào một hay
nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở
dữ liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của các trường khác
Phân tích sự tiến hoá : Phân tích sự tiến hoá thực hiện việc mô tả và mô hình hoá các
qui luật hay khuynh hướng của những đối tượng mà ứng xử của chúng thay đổi theo thờigian Phân tích sự tiến hoá có thể bao gồm cả đặc trưng hoá, phân biệt, tìm luật kết hợp,phân lớp hay phân cụm dữ liệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời
gian, sánh mẫu theo chu kì và phân tích dữ liệu dựa trên tính tương tự
Hồi quy : Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá
trị thực
Phân nhóm : Là việc mô tả chung để tìm ra các tập dữ liệu xác định hay các nhóm để mô
tả dữ liệu Các nhóm có thể tách riêng, phân cấp hoặc chồng lên nhau Có nghĩa là dữ liệu
có thể vừa thuộc nhóm này vừa thuộc nhóm kia
Trang 7Mô hình phụ thuộc : Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến.
Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu trúc của mô hình xác định các biếnnào là phụ thuộc cục bộ vào nhau và mức định lượng của một mô hình xác định độ mạnhcủa sự phụ thuộc theo một thước đo nào đó
Dò tìm biến đổi và phát hiện độ lệch : Tập trung vào khai thác những thay đổi đáng kể
nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó
1.3 Các dạng dữ liệu có thể khai phá:
Do KPDL được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau đượcchấp nhập trong KPDL Dưới đây là một số kiểu dữ liệu điển hình:
CSDL quan hệ : Là các CSDL tác nghiệp được tổ chức theo mô hình dữ liệu quan hệ
( như Oracle, IBM, DB2, MS SQL, v.v )
CSDL đa chiều : Là kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn dữ liệu khác
nhau Dạng dữ liệu này có mang tính lịch sử (có thuộc tính thời gian) và chủ yếu phục vụcho quá trình phân tích cũng như là khai phá tri thức nhằm hỗ trợ quá trình ra quyết định
CSDL dạng giao dịch: Là một dạng CSDL tác nghiệp, nhưng các bản ghi thường là các
giao dịch Dạng dữ liệu này phổ biến trong lĩnh vực thương mại và ngân hàng, ví dụ: dữliệu về các giao dịch thanh toán của ngân hàng,v.v
Dữ liệu không gian và thời gian : Là dạng dữ liệu có tích hợp thuộc tính về không
gian(ví dụ: dữ liệu về bản đồ) hoặc thời gian (ví dụ: dữ liệu về thị trường chứng khoán)
CSDL quan hệ-hướng đối tượng : Là dạng CSDL lai giữa hai mô hình quan hệ và
hướng đối tượng
CSDL đa phương tiện : Dữ liệu âm thanh, hình ảnh, phim ảnh, text và web v.v Dạng dữ
liệu này hiện đang khá phổ biến trên Internet do sự ứng dụng rộng rãi của nó
Trang 8II Các phương pháp khai phá dữ liệu
Quá trình khai phá dữ liệu là quá trình phát hiện mẫu trong đó giải thuật khai phá
dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân lớp,hồi quy, phân nhóm,…
2.1 Phương pháp quy nạp (Induction)
Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng
có thể được suy diễn từ kho thông tin đó Có hai việc chính để thực hiện việc này là suydiễn và quy nạp
Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ
sở dữ liệu Ví dụ như toán tử liên kết áp dụng cho hai bảng quan hệ, bảng đầu chứa thôngtin về các nhân viên và các phòng ban, bảng thứ hai chứa thông tin về các phòng ban vàcác trưởng phòng Như vậy sẽ suy ra mối quan hệ giữa các nhân viên và trưởng phòng.Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ cácthông tin cũ Mẫu chiết xuất được bằng cách sử dụng phương pháp này thường là các luậtsuy diễn
Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh ra từ cơ sở
dữ liệu Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầuvới các tri thức đã biết trước Các thông tin mà phương pháp này đem lại là các thông tinhay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu Phương pháp nàyliên quan đến việc tìm kiếm các mẫu trong cơ sở dữ liệu
Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật
2.2 Cây quyết định và luật
Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối
tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn là tên các thuộctính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khácnhau Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng
Trang 9với giá trị của thuộc tính của đối tượng tới lá Mô tả một mẫu đầu ra có thể của quá trìnhkhai phá dữ liệu khách hàng xin vay vốn.
Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt
thống kê Các luật có dạng Nếu P thì Q với P là mệnh đề đúng với phần dữ liệu trong cơ
sở dữ liệu, Q là mệnh đề dự đoán Ví dụ ta có một mẫu phát hiện được bằng phương pháptạo luật: Nếu giá 1 cân táo thấp hơn 5000 đồng thì số lượng táo bán ra sẽ tăng 5% Nhữngluật như thế này được sử dụng rất rộng rãi trong việc miêu tả tri thức trong hệ chuyên gia.Chúng có thuận lợi là dễ hiểu đối với người sử dụng
Cây quyết định và luật có ưu điểm là hình thức miêu tả đơn giản, mô hình suy diễn khá
dễ hiểu đối với người sử dụng Tuy nhiên, giới hạn của nó là miêu tả cây và luật chỉ cóthể biểu diễn được một số dạng chức năng và vì vậy giới hạn cả về độ chính xác của môhình Cho đến nay, đã có rất nhiều giải thuật suy diên sử dụng các luật và cây quyết địnhđược áp dụng trong máy học và trong thống kê
2.3 Phát hiện các luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệutrong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìmđược Ta có thể lấy một số ví dụ đơn giản về luật kết hợp như sau: Sự kết hợp giữa haithành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của
Trang 10Cho một lược đồ R = {A1,…Ap} các thuộc tính với miền giá trị {0,1}, và một quan
hệ r trên R Một tập luật kết hợp trên r được mô tả dưới dạng X B với X R và BR\
X Về mặt trực giác, ta có thể phát biểu ý nghĩa của luật như sau: nếu một bản ghi củabảng r có giá trị 1 tại mỗi thuộc tính thuộc X thì giá trị của thuộc tính B cũng là 1 trongcùng bản ghi đó Ví dụ như ta có tập cơ sở dữ liệu về các mặt hàng bán trong siêu thị, cácdòng tương ứng với các ngày bán hàng, các cột tương ứng với các mặt hàng thì giá trị 1tại ô (20/10, bánh mì) xác định rằng bánh mì đã được bán ngày hôm đó và cũng kéo theo
sự xuất hiện giá trị 1 tại ô (20/10, bơ)
Cho WR, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ củacác dòng trong r có giá trị 1 tại mỗi cột thuộc W Tần số xuất hiện của luật X B trong rđược định nghĩa là s(X{B},r) còn gọi là độ hỗ trợ của luật, độ tin cậy của luật làs(X{B},r)/s(X,r), ở đây X có thể gồm nhiều thuộc tính, B là giá trị không cố định Nhờvậy mà không xảy ra việc tạo ra các luật không mong muốn trước khi quá trình tìm kiếmbắt đầu Điều đó cũng cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ của
số lượng các thuộc tính ở đầu vào Do vậy cần phải chú ý khi thiết kế dữ liệu cho việc tìmkiếm các luật kết hợp
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X B saocho tần số của luật không nhỏ hơn ngưỡng cho trước và độ tin cậy của luật không nhỏhơn ngưỡng cho trước Từ một cơ sở dữ liệu ta có thể tìm được hàng nghìn thậm chíhàng trăm nghìn các luật kết hợp
Ta gọi một tập con X R là phổ biến trong r nếu thoả mãn điều kiện s(X,r) .
Nếu biết tất cả các tập phổ biến trong r thì việc tìm kiếm các luật kết hợp rất dễ dàng Vìvậy, giải thuật tìm kiếm các luật kết hợp trước tiên đi tìm tất cả các tập phổ biến này, sau
đó tạo dựng dần các luật kết hợp bằng cách ghép dần các tập thuộc tính dựa trên mức độphổ biến
Giải thuật tìm kiếm các luật kết hợp tạo ra số luật ít nhất phải bằng số các tậpthường xuyên và nếu như một tập thường xuyên có kích thước K thì phải có ít nhất là 2K
Trang 11luật kết hợp Thông tin về các tập thường xuyên được sử dụng để ước lượng độ tin cậycủa các tập luật kết hợp.
2.4 Gom cụm (clustering)
Kỹ thuật phân nhóm là kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗinhóm giống nhau theo một tiêu chuẩn nào đó Mối quan hệ thành viên của các nhóm cóthể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràngbuộc giữa các thành viên trong nhóm Một kỹ thuật phân nhóm khác là xây dựng nên cáchàm đánh giá thuộc tính của các thành phần như là hàm của các tham số của các thànhphần Phương pháp này được gọi là phương pháp phân hoạch tối ưu (optimalpartitioning) Một ví dụ ứng dụng của phương pháp phân nhóm theo độ giống nhau là cơ
sở dữ liệu khách hàng, ứng dụng của phương pháp tối ưu ví dụ như phân nhóm kháchhàng theo số các tham số và các nhóm thuế tối ưu có được khi thiết lập biểu thuế bảohiểm
Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫuchứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu Khicác mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu ở dạng dễhiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như côngviệc phân tích Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng
2.5 Mạng neuron
Mạng neuron là một tiếp cận tính toán mới liên quan đến việc phát triển các cấutrúc toán học với khả năng lọc Các phương pháp là kết quả của việc nghiên cứu mô hìnhhọc của hệ thống thần kinh con người Mạng neuron có thể đưa ra ý nghĩa từ các dữ liệuphức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và pháthiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính kháckhông thể phát hiện được
Trang 12nó cũng có những ưu điểm đáng kể Một trong số những ưu điểm phải kể đến của mạngneuron là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có thể áp dụng đượccho rất nhiều loại bài toán khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữliệu như phân lớp, phân nhóm, mô hình hoá, dự báo các sự kiện phụ thuộc vào thời gian,
…
Đặc điểm của mạng neuron là không cần gia công dữ liệu nhiều trước khi bắt đầu quátrình học như các phương pháp khác Tuy nhiên, để có thể sử dụng mạng neuron có hiệuquả cần phải xác định các yếu tố khi thiết kế mạng như:
Mạng neuron được đóng gói với những thông tin trợ giúp của các chuyên gia đángtin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt Sau khi học, mạng
có thể được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học
III Các ứng dụng của khai phá dữ liệu
KPDL tuy là một lĩnh vực mới phát triển nhưng thu hút được sự quan tâm của rấtnhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó Có thể liệt kê ra đây một
số ứng dụng điển hình:
- Phân tích dữ liệu và hỗ trợ ra quyết định;
- Điều trị y học: mối liên hệ giữa triệu chứng, chẩn đoán và phương pháp điềutrị( chế độ dinh dưỡng, thuốc men, phẫu thuật, );
- Phân lớp văn bản và các trang web, tóm tắt văn bản,v.v.;
Trang 13- Tin sinh học: tìm kiếm, đối sánh các hệ gene và thông tin di truyền, mối liên hệgiữa một số hệ gene và một số bệnh di truyền,v.v.;
- Tài chính và thị trường chứng khoán: phân tích tình hình tài chính và dự báo giácủa các loại cổ phiếu trong thị trường chứng khoán, v.v
Trang 14Chương 2: TỔNG QUAN PHẦN MỀM WEKA
HỖ TRỢ KHAI PHÁ DỮ LIỆU
I Giới thiệu về Weka
Weka là môi trường thử nghiệm Khai phá dữ liệu, do các nhà khoa học thuộctrường Đại học Waitako, New Zealand, khởi xướng và được sự đóng góp của rất nhiềunhà nghiên cứu trên thế giới Weka là phần mềm mã nguồn mở, cung cấp công cụ trựcquan và sinh động cho mọi người tìm hiểu về khai phá dữ liệu Weka còn cho phép cácgiải thuật học mới phát triển có thể tích hợp vào môi trường của nó Hệ thống được viếtbằng java Nó chạy được hầu hết trên tất cả hệ điều hành
Weka cung cấp nhiều giải thuật khác nhau với nhiều phương thức cho quá trình xử
lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào
Weka cung cấp những tính năng chính sau:
Bao gồm nhiều công cụ đa dạng để thay đổi tập dữ liệu, xử lý dữ liệu, giảithuật học và phương pháp đánh giá
Giao diện đồ họa người dùng (trực quan hóa dữ liệu)
Môi trường để so sánh các giải thuật học
Bạn có thể xử lý trước tập dữ liệu, cho vào trong một sơ đồ, và phân chia các lớp kết quả
và thực hiện nó mà không cần viết bất cứ một chương trình nào
Weka lấy dữ liệu từ các file có định dạng arff, nó được phát sinh từ một file hoặc mộtbảng cơ sở dữ liệu
Cách sử dụng Weka là thông qua giao diện đồ họa của nó
Trang 15Hình 1: Giao diện đồ họa của Weka Các phiên bản của Weka
WEKA 3.0: “book version”: Chỉ cho phép viết các câu lệnh
WEKA 3.2: “GUI version”- Graphical User interfaces (Phiên bản giao diện đồhọa) : Ngoài việc viết các câu lệch có thể sử dụng giao diện đồ họa
WEKA 3.3: “Development version” (Phiên bản phát triển) :Với nhiều cải tiến
Trong phần Applications có 4 phần:
Explorer: Sử dụng menu lựa chọn Explorer chỉ sử dụng cho những bộ dữ liệu vừa và
nhỏ
Experimeter: Cho phép người dùng thực hiện những bài tập cơ bản khi ứng dụng phân
lớp và kĩ thuật hồi quy, với những công việc có giá trị, phương pháp và tham số tốt nhấtcho vấn đề đã cho Cho phép bạn tự động hóa xử lý, làm cho nó phân lớp và lọc dễ dàngvới những cách thiết lập tham số khác nhau trên toàn thể bảng dữ liệu
KnowledgeFlow: cho phép người dùng kéo thả những chiếc hộp tượng trưng cho các
giải thuật và dữ liệu để kết nối chúng lại với nhau và đưa ra cấu trúc
Simple CLI: Sử dụng câu lệnh
Trang 16Trong giao diện của Explorer có 6 tab
Hình 2: Giao diện đồ họa của Exporer
– Preprocess: Tiền xử lý dữ liệu.
– Classify: Tạo ra những chương trình để phân loại.
– Cluster: Tạo phân cụm cho cơ sở dữ liệu.
– Associate: Tạo luật kết hợp cho dữ liệu và đánh giá chúng.
– Select attributes: Lựa chọn những thuộc tính liên quan nhất trong tập dữ liệu – Visualize: (Nhìn thấy sự khác nhau hai chiều của dữ liệu và sự tương tác giữa
chúng)View different two-dimensional plots of the data and interact with them
1.1 Đưa dữ liệu vào
Trong tab Preprocess có:
Trang 17 Nút mở các file có sẵn trên máy.
Nút mở file từ máy khác
Nút đọc dữ liệu từ một cơ sở dữ liệu
Nút Phần mềm tự tạo ra dữ liệu cho bạn theo những sự lựa chọncủa bạn
Sử dụng nút có thể đọc các tập tin ở nhiều định dạng như: định dạngARFF, định dạng CSV, định dạng C4.5
Khi mở một file từ mục open file sẽ hiện ra một cửa sổ như sau:
Hình 3: Mở file trong Exporer
Trang 18Vùng Current Relation (Các mối quan hệ hiện tại)
Relation (Quan hệ): Cho biết tên của bảng dữ liệu
Instances (Trường hợp): Số lượng các bản ghi
Attributes.(Những thuộc tính): Số lượng các thuộc tính trong dữ liệu.
Sum of weights: Tổng trọng lượng của mỗi bản ghi.
Ví dụ: Khi file đã được mở, màn hình sẽ được thể hiện trong hình 3, nó cho biết về
tên bảng bảng dữ liệu: Trong trường hợp này bảng dữ liệu có tên là Weather nó có 14
bản ghi và 5 thuộc tính Tên các thuộc tính là outlook, temperature, humidity, windy vàplay Đầu tiên, theo mặc định là thuộc tính outlook và bạn có thể chọn những thuộc tínhkhác bằng cách click chuột vào nó
Vùng Attributes (Những thuộc tính)
Ở dưới hộp Current Relation là hộp Attributes Có bốn nút để thay đổi sự chọn lựa
All: Tất cả đều được chọn.
None: Tất cả các hộp đều không được chọn.
Invert: Những thuộc tính trước đây không được chọn sẽ trở thành được chọn
và ngược lại
Pattern: Cho phép người dùng lựa chọn các thuộc tính bằng cách nhập tên
thuộc tính vào
Vùng Selected Attribute:
Trang 19 Name: Tên thuộc tính.
Type: Kiểu dữ liệu của thuộc tính đó.
Missing: cho biết số lượng và phần trăm tương ứng của số bản ghi có giá trị
rỗng trong thuộc tính
Distinct: Cho biết số lượng các giá trị trong thuộc tính.
Unique: cho biết số lượng và phần trăm tương ứng của các giá trị không bị
lặp lại trong thuộc tính
Nếu thuộc tính đang chọn có kiểu dữ liệu là Nominal thì sẽ nhìn thấy trong vùngnày một table gồm có các trường số thứ tự (NO.), tên các giá trị (lable), số lượng mỗi giátrị (Count) và trọng lượng của chúng (Weight) như sau:
Nếu thuộc tính đang chọn có kiểu dữ liệu là numeric thì table có hai trường là sốliệu thống kê (Statistic) và giá trị tương ứng (Value) Ở trường Statistic có các giá trịMinimum (Giá trị nhỏ nhất), Maximum (Giá trị lớn nhất), mean (Giá trị trung bình), Độlệch chuẩn (StdDev) như hình sau:
Sau khi đưa dữ liệu vào, có thể thự hiện các thao tác để xử lý dữ liệu trước khi thựchiện những công việc khác như phân cụm, tạo cây quyết định, luật kết hợp… Để thựchiện xử lý dữ liệu trước hết bạn click vào button , một cây thư mục đổ xuống,trong cây thưc mục đổ xuống như hình dưới đây:
Trang 20Từ cây thư mục này có thể thực hiện các thao tác để tiền xử lý dữ liệu.
Add
Cho phép bạn chèn thêm một thuộc tính cho bảng dữ liệu
Chọn mục Add trong cây thư mục, ở bên phải nút Choose sẽ xuất hiện dòng chữ Add -N unnamed -C last Click chuột trái (hoặc click chuột phải chọn show properties…) sẽ
xuất hiện một hộp thoại cho phép bạn thiết lập các tham số:
AttributeIndex: Vị trí của thuộc tính cần thêm vào trong bảng dữ liệu mặc
định là cuối bảng dữ liệu (Last)
Trang 21 AttributeName: Tên của thuộc tính mới.
AttributeType: kiểu dữ liệu của thuộc tính mới.
DateFormat : định dạng ngày
NominalLabels: Giá trị của thuộc tính nếu thuộc tính có kiểu dữ liệu là
Nominal, các giá trị được cách nhau bằng dấu phẩy
thiết lập các tham số:
Debug: Nếu chọn False thì chương trình sẽ không kiểm tra lỗi trong quá
trình thực hiện
Expression: Nơi để nhập biểu thức toán học.Biểu thức có thể sử dụng các
phép toán và các hàm sau: +, -, *, /, ^, log, abs, cos, exp, sqrt, floor, ceil, rint,
Trang 22 AddID
Cho phép bạn chèn vào một trường ID
Chọn mục AddID trong cây thư mục, ở bên phải nút Choose sẽ xuất hiện dòng chữ AddID -C first -N ID Click chuột trái (hoặc click chuột phải chọn show properties…)
vào dòng chữ này sẽ xuất hiện một hộp thoại cho phép bạn thiết lập các tham số:
IDIndex: Vị trí của thuộc tính ID được thêm vào bảng dữ liệu Mặc định là
vị trí đầu tiên (first)
AttributeName: Tên của thuộc tính ID mới.
AddValues
Chèn thêm giá trị cho một thuộc tính
Chọn mục AddValue trong cây thư mục, ở bên phải nút Choose sẽ xuất hiện dòng chữ AddValues -C last -L Click chuột trái (hoặc click chuột phải chọn show properties…) vào dòng chữ này sẽ xuất hiện một hộp thoại cho phép bạn thiết lập các
tham số:
Trang 23 AttributeIndex: Vị tri của thuộc tính cần thêm giá trị trong bảng dữ liệu.
Labels: các giá trị của thuộc tính cần thêm vào, mỗi giá trị cách nhau bằng
dấu phẩy
Sort: chọn False thì các giá trị trong thuộc tính không được sắp xếp mà giữ
nguyên vị trí như lúc đưa vào Chọn true thì các giá trị trong thuộc tính đượcsắp xếp tăng dần như trong từ điển
ChangeDateFormat
Thay đổi định dạng kiểu ngày tháng
Chọn mục ChangeDateFormat trong cây thư mục, ở bên phải nút Choose sẽ xuất hiện dòng chữ ChangeDateFormat -C last -F yyyy-MM-dd'T'HH:mm:ss Click chuột trái (hoặc click chuột phải chọn show properties…) vào dòng chữ này sẽ xuất hiện một
hộp thoại cho phép bạn thiết lập các tham số:
Trang 24 AttributeIndex: Vị trí thuộc tính cần thay đổi định dạng
DateFormat: Thiết lập định dạng mới cho thuộc tính được chọn.
này sẽ xuất hiện một hộp thoại cho phép bạn thiết lập các tham số:
AttributeIndices: vị trí của thuộc tính cần copy nếu chọn false ở mục
invertSelection hoặc không cần copy nếu chọn true ở mục invertSelection
Discretize
Trang 25Chỉ thực hiện trên các thuộc tính có giá trị là kiểu dữ liệu numeric Cho phép bạn chiakhoảng giá trị của thuộc tính đó từ min đến max thành các khoảng giá trị nhỏ hơn
Chọn mục Discretize trong cây thư mục, ở bên phải nút Choose sẽ xuất hiện dòng chữ Discretize -B 10 -M -1.0 -R first-last Click chuột trái (hoặc click chuột phải chọn show properties…) vào dòng chữ này sẽ xuất hiện một hộp thoại cho phép bạn thiết lập
các tham số:
AttributeIndices: vị trí của thuộc tính cần chia khoảng giá trị
Bins: Số khoảng sẽ được chia
MathEpression
Chỉ thực hiện trên các thuộc tính có giá trị là kiểu dữ liệu numeric
Cho phép bạn thay đổi giá trị của các thuộc tính thông qua các biểu thức toán học Cóthể sử dụng các phép toán và hàm sau: +, -, *, /, pow, log,abs, cos, exp, sqrt, tan, sin, ceil,