. Đặt vấn đề Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có. Khai phá dữ liệu là một bước của quá trình khai phá tri thức (Knowledge Discovery Process), bao gồm: •Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding). •Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation). •Khai phá dữ liệu (Data mining): xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai phá dữ liệu. Kết quả cho ta một nguồn tri thức thô. •Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được. •Triển khai (Deployment). Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Weka bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp. Cụ thể đề tài này ta tìm hiểu về bài toán phân lớp trong weka và áp dụng trong bài toán dự đoán vị trí protein bằng cách áp dụng một số thước đo cho tế bào (cytoplasm, inner membrane, perisplasm, outer membrane, outer membrane lipoprotein, inner membrane lipoprotein inner membrane, cleavable signal sequence) II. Xây dự cơ sở dữ liệu 1.Thông tin chung dataset:
BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬN QUÂN SỰ ************* BÀI TẬP LỚN KHAI PHÁ DỮ LIỆU Đề tài: Sử dụng phần mềm Weka phân lớp cho bài toán dự đoán vị trí protein Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Nguyễn Anh Tuấn(89) Lớp: Hệ thống thông tin 6 I. Đặt vấn đề Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có. Khai phá dữ liệu là một bước của quá trình khai phá tri thức (Knowledge Discovery Process), bao gồm: • Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding). • Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation). • Khai phá dữ liệu (Data mining): xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai phá dữ liệu. Kết quả cho ta một nguồn tri thức thô. • Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được. • Triển khai (Deployment). Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Weka bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp. Cụ thể đề tài này ta tìm hiểu về bài toán phân lớp trong weka và áp dụng trong bài toán dự đoán vị trí protein bằng cách áp dụng một số thước đo cho tế bào (cytoplasm, inner membrane, perisplasm, outer membrane, outer membrane lipoprotein, inner membrane lipoprotein inner membrane, cleavable signal sequence) II. Xây dự cơ sở dữ liệu 1. Thông tin chung dataset: Kiểu : phân lớp Tính năng : 7 Trường hợp : 336 Nguồn gốc : Thế giới thực Real / Integer / Nominal : 7/0/0 Số lớp : 8 Giá trị bị mất ? Không 2. Mô tả các thuộc tính @relation ecoli @attribute Mcg real[0.0,89.0] @attribute Gvh real[1.0,88.0] @attribute Lip real[1.0,48.0] @attribute Chg real[1.0,5.0] @attribute Aac real[0.0,88.0] @attribute Alm1 real[1.0,94.0] @attribute Alm2 real[0.0,99.0] @attribute Site {cp,im,imS,imL,imU,om,omL,pp} @inputs Mcg, Gvh, Lip, Chg, Aac, Alm1, Alm2 @output Site 3. Bảng dữ liệu Trường dữ liệu Chú giải Mcg McGeoch's method for signal sequence recognition. Gvh von Heijne's method for signal sequence recognition Lip von Heijne's Signal Peptidase II consensus sequence score. Binary attribute Chg Presence of charge on N-terminus of predicted lipoproteins. Binary attribute Aac score of discriminant analysis of the amino acid content of outer membrane and periplasmic proteins Alm1 score of the ALOM membrane spanning region prediction program Alm2 score of ALOM program after excluding putative cleavable signal regions from the sequence Site cp (cytoplasm) im (inner membrane without signal sequence) pp (perisplasm) imU (inner membrane, uncleavable signal sequence) om (outer membrane) omL (outer membrane lipoprotein) imL (inner membrane lipoprotein) imS (inner membrane, cleavable signal sequence) III. Phân tích yêu cầu bài toán IV. Tiến hành xử lý thực nghiệm trên Weka 1. Tiền sử lý dữ liệu Tiến hành khởi chạy weka.Trong giao diện đồ họa của Weka,chọn Explorer. WEKA Decision Tree Mục đích: Tạo một cây quyết định trong WEKA dự đoán vị trí của protein theo các thuộc tính khác nhau hay không? Mục đích: Tạo một cây quyết định trong WEKA dự đoán vị trí của protein theo các thuộc tính khác nhau hay không? Mcg , Gvh , Lip , Chg Aac , Alm1 , Alm2 pp imU om omL im cp imL imS Trong weka lưu trữ dữ liệu bằng định dạng ARFF. File ARFF bao gồm danh sách các trường, và các giá trị thuộc tính cho mỗi trường được phân cách bằng dấu phẩy. Hầu hết các bảng tính và các chương trình cơ sở dữ liệu cho phép bạn chuyển dữ liệu thành một tập tin mà các giá trị của thuộc tính đều được tách nhau bằng dấu phẩy như trong định dạng của file arff.Bạn chỉ cần đưa file vào một trình soạn thảo văn bản hoặc từ bộ vi xử lý; thêm tên của tập dữ liệu bằng cách sử dụng các từ @relation, Khai báo tên các thuộc tính bằng từ khóa @attribute, và từ khóa @data để bắt đầu đưa dữ liệu vào .Ví dụ như hình dưới đây : Sau khi đã tạo xong file arff thì tiến hành đọc dữ liệu vào weka . Ta sẽ thấy xuất hiện dữ liệu trên cửa sổ Preprocess của WEKA : 2. Xây dựng cây quyết định bằng J48 - Bước đầu tiên ta sử dụng tất cả dữ liệu để trainning cho cây: + Nhấn vào tab Classify chọn thuật toán sử dụng bằng cách nhấn vào nút Choose; khi cây thư mục hiện thư mục Trees/J48: Để tiến hành trainning trên toàn bộ dữ liệu ta chọn vào tùy chọn Use tranning set rồi nhấn Start. Ta thu được kết quả hiển thị ở khung Classifier Output như sau: Nội dung : === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: ecoli Instances: 336 Attributes: 8 Mcg Gvh Lip Chg Aac Alm1 Alm2 Site Test mode: evaluate on training data === Classifier model (full training set) === J48 pruned tree ------------------ Alm1 <= 59 | Gvh <= 58 | | Lip <= 1: omL (6.0/1.0) | | Lip > 1 | | | Alm2 <= 61 | | | | Mcg <= 62: cp (148.0/9.0) | | | | Mcg > 62 | | | | | Aac <= 51 | | | | | | Aac <= 39 | | | | | | | Alm1 <= 44: cp (3.0/1.0) | | | | | | | Alm1 > 44: pp (2.0) | | | | | | Aac > 39: pp (7.0) | | | | | Aac > 51: om (6.0/2.0) | | | Alm2 > 61 | | | | Mcg <= 73: im (7.0/1.0) | | | | Mcg > 73: imU (2.0) | Gvh > 58 | | Aac <= 64: pp (38.0/2.0) | | Aac > 64: om (15.0/1.0) Alm1 > 59 | Mcg <= 56: im (52.0/5.0) . vị trí protein Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Nguyễn Anh Tuấn( 89) Lớp: Hệ thống thông tin 6 I. Đặt vấn đề Khai phá dữ liệu (data. 7/0/0 Số lớp : 8 Giá trị bị mất ? Không 2. Mô tả các thuộc tính @relation ecoli @attribute Mcg real[0.0,89.0] @attribute Gvh real[1.0,88.0] @attribute