1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka khai phá bộ dữ liệu companies dataset

10 422 2

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 472,5 KB

Nội dung

I.Đặt vấn đề Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp.Cụ thể trong báo cáo này em đề cập đến giải thuật phân lớp áp dụng xác đinh lĩnh vực hoạt động của công ty dựa trên các tiêu chí như số nhân viên , tài sản , lợi nhuận , vốn lưu chuyển II.Xây dựng cơ sở dữ liệu 1.Thông tin chung của dataset % DASL file http://lib.stat.cmu.edu/DASL/Datafiles/Companies.htm % Forbes 500 Companies Sal % Reference: Forbes, 1986 % Authorization: free use % Description: Facts about companies selected from the Forbes 500 list for 1986. This is a 1/10 systematic sample from the alphabetical list of companies. The Forbes 500 includes all companies in the top 500 on any of the criteria, and thus has almost 800 companies in the list. % Number of cases: 77 % Variable Names: % Company: Company Name % Assets: Amount of assets (in millions) % Sales: Amount of sales (in millions) % Market_Value: Market Value of the company (in millions) % Profits: Profits (in millions) % Cash_Flow: Cash Flow (in millions

I. Đặt vấn đề Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp.Cụ thể trong báo cáo này em đề cập đến giải thuật phân lớp áp dụng xác đinh lĩnh vực hoạt động của công ty dựa trên các tiêu chí như số nhân viên , tài sản , lợi nhuận , vốn lưu chuyển II. Xây dựng cơ sở dữ liệu 1. Thông tin chung của dataset % DASL file http://lib.stat.cmu.edu/DASL/Datafiles/Companies.htm % Forbes 500 Companies Sal % Reference: Forbes, 1986 % Authorization: free use % Description: Facts about companies selected from the Forbes 500 list for 1986. This is a 1/10 systematic sample from the alphabetical list of companies. The Forbes 500 includes all companies in the top 500 on any of the criteria, and thus has almost 800 companies in the list. % Number of cases: 77 % Variable Names: % Company: Company Name % Assets: Amount of assets (in millions) % Sales: Amount of sales (in millions) % Market_Value: Market Value of the company (in millions) % Profits: Profits (in millions) % Cash_Flow: Cash Flow (in millions) % Employees: Number of employees (in thousands) % Sector: Type of market the company is associated with 2. Mô tả các thuộc tính @RELATION relation @ATTRIBUTE 'Company' {"AH Robins","AMR","Air Products","Allied Signal","American Electric Power","American Savings Bank FSB","Apple Computer","Armstrong World Industries","Bally Manufacturing","Bank South","Bell Atlantic","Brooklyn Union Gas","CBI Industries","California First Bank","Central Illinois Public Service","Cigna","Cleveland Electric Illuminating","Columbia Gas System","Community Psychiatric Centers","Continental Telecom","Crown Cork & Seal","Dayton- Hudson","Digital Equipment","Dillard Department Stores","Dreyfus","Eg&G","Ex-Cell-O","FW Woolworth","First American","First Empire State","First Tennessee National","Florida Progress","Fruehauf","General Electric","Giant Food","Great A&P Tea","H&R Block","Halliburton","Hewlett-Packard","Hospital Corp of America","IBM","IU International","Idaho Power","Kansas Power & Light","Kroger","LTV","Liz Claiborne","Marine Corp","May Department Stores","Mellon Bank","Mesa Petroleum","Montana Power","NCR","National City","Norstar Bancorp","Norwest","Owens-Corning Fiberglas","PPG Industries","Pan Am","Peoples Energy","Phillips Petroleum","Public Service Co of New Mexico","Republic Airlines","San Diego Gas & Electric","Shared Medical Systems","Southeast Banking","Sovran Financial","Stop & Shop Cos","Supermarkets General","TWA","Telex","Textron","Turner","United Financial Group","United Technologies","Valero Energy","Warner Communications","Western Air Lines","Wickes Cos"} @ATTRIBUTE 'Assets' numeric @ATTRIBUTE 'Sales' numeric @ATTRIBUTE 'Market_Value' numeric @ATTRIBUTE 'Profits' numeric @ATTRIBUTE 'Cash_Flow' numeric @ATTRIBUTE 'Employees' numeric @ATTRIBUTE 'sector' {"Communication","Energy","Finance","HiTech","Manufacturing","Medical","Other","Retail","Transportati on"} Trường dữ liệu Chú giải Company Tên công ty Assets Tổng tài sản Sales Doanh thu Market_Value Giá trị thị trường Profits Lợi nhuận Cash_Flow Vốn Lưu chuyển Employees Số lượng nhân viên sector Ngành III. Phân tích yêu cầu của bài toán IV. Tiến hành thực nghiệm trên Weka 1. Tiền xử lý dữ liệu Tiến hành khởi chạy weka.Trong giao diện đồ họa của Weka,chọn Explorer. Trong weka lưu trữ dữ liệu bằng định dạng ARFF. File ARFF bao gồm danh sách các trường, và các giá trị thuộc tính cho mỗi trường được phân cách bằng dấu phẩy. Hầu hết các bảng tính và các chương trình cơ sở dữ liệu cho phép bạn chuyển dữ liệu thành một tập tin mà các giá trị của thuộc tính đều được tách nhau bằng dấu phẩy như trong định dạng của file arff.Bạn chỉ cần đưa file vào một trình soạn thảo văn bản hoặc từ bộ vi xử lý; thêm tên của tập dữ liệu bằng cách sử dụng các từ @relation, Khai báo tên các thuộc tính bằng từ khóa @attribute, và từ khóa @data để bắt đầu đưa dữ liệu vào .Ví dụ như hình dưới đây : Sau khi đã tạo xong file arff thì tiến hành đọc dữ liệu vào weka Ta thấy xuất hiện dữ liệu trên cửa số Preprocess của WEKA như sau: 2. Xây dựng cây quyết định bằng J48 - Bước đầu tiên ta sử dụng tất cả dữ liệu để trainning cho cây: + Nhấn vào tab Classify chọn thuật toán sử dụng bằng cách nhấn vào nút Choose; khi cây thư mục hiện thư mục Trees/J48: Để tiến hành trainning trên toàn bộ dữ liệu ta chọn vào tùy chọn Use tranning set rồi nhấn Start. Ta thu được kết quả hiển thị ở khung Classifier Output như sau: Nội dung kết quả : === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: relation Instances: 79 Attributes: 8 Company Assets Sales Market_Value Profits Cash_Flow Employees sector Test mode: 10-fold cross-validation === Classifier model (full training set) === J48 pruned tree ------------------ Employees <= 15.8 | Cash_Flow <= 83 | | Sales <= 550 | | | Assets <= 278: Medical (2.0) | | | Assets > 278: Finance (10.0) | | Sales > 550 | | | Assets <= 707: Medical (2.0/1.0) | | | Assets > 707: Manufacturing (2.0) | Cash_Flow > 83 | | Assets <= 6914 | | | Employees <= 7 | | | | Assets <= 1022: HiTech (2.0) | | | | Assets > 1022: Energy (12.0) | | | Employees > 7 | | | | Market_Value <= 483: Transportation (2.0) | | | | Market_Value > 483: Other (4.0/1.0) | | Assets > 6914: Finance (6.0) Employees > 15.8 | Profits <= 312.7 | | Cash_Flow <= 72.5 | | | Assets <= 4418: Transportation (3.0/1.0) | | | Assets > 4418: Finance (2.0/1.0) | | Cash_Flow > 72.5 | | | Cash_Flow <= 456.5 | | | | Profits <= 26.6: Other (2.0) | | | | Profits > 26.6 | | | | | Cash_Flow <= 145.7: Retail (6.0) | | | | | Cash_Flow > 145.7 | | | | | | Employees <= 66.2: Manufacturing (7.0/2.0) | | | | | | Employees > 66.2: Retail (4.0) | | | Cash_Flow > 456.5 | | | | Sales <= 4152: Communication (2.0/1.0) | | | | Sales > 4152: Manufacturing (2.0) | Profits > 312.7 | | Employees <= 50: Energy (3.0/1.0) | | Employees > 50: HiTech (6.0/1.0) Number of Leaves : 19 Size of the tree : 37 Time taken to build model: 0.03 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 38 48.1013 % Incorrectly Classified Instances 41 51.8987 % Kappa statistic 0.3956 Mean absolute error 0.1244 Root mean squared error 0.3131 Relative absolute error 64.7792 % Root relative squared error 101.0691 % Total Number of Instances 79 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0 0.013 0 0 0 0.435 Communication 0.667 0.063 0.714 0.667 0.69 0.858 Energy 0.647 0.065 0.733 0.647 0.688 0.817 Finance 0.375 0.099 0.3 0.375 0.333 0.677 HiTech 0.4 0.188 0.235 0.4 0.296 0.604 Manufacturing 0.25 0.04 0.25 0.25 0.25 0.598 Medical 0.286 0.042 0.4 0.286 0.333 0.5 Other 0.6 0.043 0.667 0.6 0.632 0.876 Retail 0.167 0.041 0.25 0.167 0.2 0.533 Transportation Weighted Avg. 0.481 0.074 0.505 0.481 0.487 0.721 === Confusion Matrix === a b c d e f g h i <-- classified as 0 0 0 1 1 0 0 0 0 | a = Communication 0 10 1 1 1 0 1 0 1 | b = Energy 0 2 11 0 3 1 0 0 0 | c = Finance 1 1 0 3 1 1 0 1 0 | d = HiTech 0 0 1 1 4 0 1 2 1 | e = Manufacturing 0 0 1 1 1 1 0 0 0 | f = Medical 0 1 1 1 2 0 2 0 0 | g = Other 0 0 0 1 1 0 1 6 1 | h = Retail 0 0 0 1 3 1 0 0 1 | i = Transportation Cây quyết định :  Tóm tắt kết quả khi phân lớp: + Trường hợp phân lớp chính xác: 38 chiếm 48.1013% +Trường hợp không chính xác: 41 chiếm 51.8987% 3. Tiến hành chạy thử nhiều lần cây trên số lượng dữ liệu tranning khác nhau: Lần thứ hai : Lấy 95% dữ liệu để xây dựng cây , 5% để test Lần thứ hai : Lấy 90% dữ liệu để xây dựng cây , 10% để test . lưu chuyển II. Xây dựng cơ sở dữ liệu 1. Thông tin chung của dataset % DASL file http://lib.stat.cmu.edu/DASL/Datafiles /Companies. htm % Forbes 500 Companies. Description: Facts about companies selected from the Forbes 500 list for 1986. This is a 1/10 systematic sample from the alphabetical list of companies. The Forbes

Ngày đăng: 16/12/2013, 15:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w