Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu Yeast dataset

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	33
Dung lượng	1,37 MB

Nội dung

NỘI DUNG: SỬ DỤNG PHẦN MỀM WEKA ĐỂ PHÂN LỚP YEAST DATASET 1.Tóm lược lý thuyết về phân lớp ---------------------------------------------trang 3 2.Qui trình Train và Test một classifier --------------------------------------trang 3 3.Giới thiệu dataset --------------------------------------------------------------trang 6 4.Thực hành phân lớp trên weka -----------------------------------------------trang7 4.1.Thuật toán C4.5------------------------------------------------------trang 14 4.2.Đặc điểm của C4.5---------------------------------------------------trang 15 5.Tiến hành bằng weka--------------------------------------------------------trang 17 6.Kết luận -----------------------------------------------------------------------trang 30

Khai phá dữ liệu GVHD:HỒ NHẬT QUANG Tiểu luận môn: Khai phá dữ liệu Đề tài : Sử dụng phần mềm Weka phân lớp trên Yeast dataset Giáo viên hướng dẫn: HỒ NHẬT QUANG Sinh viên thực hiện: NGUYỄN THỊ HƯƠNG Lớp: CNPM6 ______Hà Nội, 09/11/2011______ 1 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG NỘI DUNG: SỬ DỤNG PHẦN MỀM WEKA ĐỂ PHÂN LỚP YEAST DATASET 1. Tóm lược lý thuyết về phân lớp ---------------------------------------------trang 3 2. Qui trình Train và Test một classifier --------------------------------------trang 3 3. Giới thiệu dataset --------------------------------------------------------------trang 6 4. Thực hành phân lớp trên weka -----------------------------------------------trang7 4.1. Thuật toán C4.5------------------------------------------------------trang 14 4.2. Đặc điểm của C4.5---------------------------------------------------trang 15 5. Tiến hành bằng weka--------------------------------------------------------trang 17 6. Kết luận -----------------------------------------------------------------------trang 30 NỘI DUNG: SỬ DỤNG PHẦN MỀM WEKA ĐỂ PHÂN LỚP YEAST DATASET .2 Tóm lược lý thuyết về phân lớp (Classification) .3 1.Qui trình Train và Test một classifier 3 2.Giới thiệu dataset 6 4.Thực hành phân lớp trên weka: Đầu tiên ta mở weka: 7 4.1Tiền xử lý 8 4.2Phân lớp bằng cây quyết định j4.8 16 5.Tiến hành bằng weka 19 . Kết luận: 32 2 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG Tóm lược lý thuyết về phân lớp (Classification) Trong lĩnh vực máy học (machine Learning) và nhận dạng (pattern recognition), bài toán phân lớp (classification) đề cập đến các thuật toán (algorithms) nhằm xác định lớp (class) của đối tượng đã cho sẽ thuộc về lớp nào trong các lớp đã cho trước (Given Categories). Một điều cần chú ý là khác với bài toán phân cụm (clustering), dữ liệu dùng để xây dựng mô hình (Training Data) trong bài toán phân lớp phải được xác định lớp trước (pre-Labeled). Đối với dataset yeast thì có 10 class tương ứng với 10 thành phần, và được gọi là class1, class2, class3,class4, class5, class6, class7, class8, class9, class10. 1. Qui trình Train và Test một classifier - Dữ liệu để xây dựng mô hình: dữ liệu gốc (original dataset), dữ liệu này phải có thuộc tính phân lớp gọi là categorical attribute - Dữ liệu gốc sẽ được chia thành 2 phần là Training Set (để xây dựng model) và Testing Set (để kiểm định Model) - Cuối cùng là tính toán lỗi để đánh giá Model 3 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG Cross Validation (CV) trong Training and Testing Phase Đây là kỹ thuật chủ yếu được sử dụng trong xây dựng predictive Model. Trong đó dữ liệu gốc sẽ được chia thành n phần bằng nhau (n-fold), và quá trình Train/Test Model thực hiện lặp lại n lần. Tại mỗi lần Train/Test Model, 1 phần dữ liệu dùng để Test và (n-1) phần còn lại dùng để Train. Người ta chứng minh được rằng mô hình 10 Fold là tốt nhất Mô hình sau sẽ mô tả mô hình với 3 fold 4 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG 5 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG 2. Giới thiệu dataset Yeast dataset có chứa kết quả của một cuộc phân tích chất protêin có trong men rượu bia. Một cuộc phân tích trên 1484 loại men rượu bia dựa vào 9 thành phần của tập dữ liệu men rượu bia. Số liệu này thường được sử dụng để kiểm tra và so sánh thực hiện các thuật toán phân loại lượng protein có trong các loại khác nhau. Các phân tích xác định ảnh hưởng của 9 thành phần được tìm thấy trong các loại men rượu. Thông tin thuộc tính gồm có : 9 thành phần CYT (cytosolic or cytoskeletal) NUC (nuclear) MIT (mitochondrial) ME3 (membrane protein, no N-terminal signal) ME2 (membrane protein, uncleaved signal) ME1 (membrane protein, cleaved signal) EXC (extracellular) VAC (vacuolar) POX (peroxisomal) ERL (endoplasmic reticulum lumen) 6 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG 4.Thực hành phân lớp trên weka: Đầu tiên ta mở weka: 7 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG 4.1 Tiền xử lý 8 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG Và mở dataset yeast. Bước 1 ta mở tab Preprocess <tiền xử lý> 9 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG - Ở bước tiền xử lý này ta sẽ tiến hành loại bỏ những dữ liệu lỗi hoặc những thuộc tính có quá nhiều giá trị rời rạc như trường ID, hoặc những giá trị bất thường. Weka cung cấp cho ta chức năng filter những giá trị lỗi đó: 10 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 . HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG 5 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG 2. Giới thi u dataset. trong xử lý những giá trị thi u 17 Học sinh thực hiện: NGUYỄN THỊ HƯƠNG – CNPM6 Khai phá dữ liệu GVHD:HỒ NHẬT QUANG Giá trị thi u của thuộc tính là hiện

Ngày đăng: 16/12/2013, 15:09

Xem thêm