Tiểu luận khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu Pittsburgh Bridges dataset

18 789 3
Tiểu luận khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu  Pittsburgh Bridges dataset

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I. ĐẶT VẤN ĐỀ - Kết quả của một thử nghiệm xác nhận qua 10 lần với C4.5, và với một cây quyết định riêng cho từng sở hữu thiết kế có được sau đây tỷ lệ lỗi trên phiên bản V1 của cơ sở dữ liệu: Tài liệu 15%, REL-L 32%, SPAN 32%, T-OR-D 15%, LOẠI 44%. Số các trường hợp: 108 Có liên quan Thông tin: Có hai phiên bản cơ sở dữ liệu: V1 có chứa các ví dụ ban đầu và V2 có chứa các mô tả sau discretizing các thuộc tính số. Có không có các lớp học ``''''trong miền. Thay vào đó là một miền THIẾT KẾ thuộc tính (thiết kế mô tả) cần phải được dự đoán dựa trên 7 đặc điểm kỹ thuật thuộc tính. Số thuộc tính: 13: 7 chi tiết kỹ thuật, mô tả thiết kế 5, và 1 nhận dạng (không được sử dụng để phân loại) Thuộc tính Thông tin: Các trường loại nhà nước cho dù sở hữu một là liên tục / số nguyên (c) hoặc danh nghĩa (n). Đối với tài sản với c, n loại, phạm vi các số liên tục được đưa ra đầu tiên và giá trị danh nghĩa theo các dấu chấm phẩy. II. XÂY DỰNG CƠ SỞ DỮ LIỆU Đề tài sử dụng dataset Pittsburgh Bridges cung cấp giá trị của 13 thuộc tính phân loại cho 124 bộ dữ liệu. Thông tin chung của dataset Pittsburgh Bridges gồm:

BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬN QUÂN SỰ ************* BÀI TẬP LỚN KHAI PHÁ DỮ LIỆU Đề tài: Pittsburgh Bridges Data Set Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Nguyễn Trọng Thành Lớp: Hệ thống thông tin 6 Khai phá dữ liệu 1 I. ĐẶT VẤN ĐỀ - Kết quả của một thử nghiệm xác nhận qua 10 lần với C4.5, và với một cây quyết định riêng cho từng sở hữu thiết kế có được sau đây tỷ lệ lỗi trên phiên bản V1 của cơ sở dữ liệu: Tài liệu 15%, REL-L 32%, SPAN 32%, T-OR-D 15%, LOẠI 44%. Số các trường hợp: 108 Có liên quan Thông tin: Có hai phiên bản cơ sở dữ liệu: V1 có chứa các ví dụ ban đầu và V2 có chứa các mô tả sau discretizing các thuộc tính số. Có không có các lớp học ``''trong miền. Thay vào đó là một miền THIẾT KẾ thuộc tính (thiết kế mô tả) cần phải được dự đoán dựa trên 7 đặc điểm kỹ thuật thuộc tính. Số thuộc tính: 13: 7 chi tiết kỹ thuật, mô tả thiết kế 5, và 1 nhận dạng (không được sử dụng để phân loại) Thuộc tính Thông tin: Các trường loại nhà nước cho sở hữu một là liên tục / số nguyên (c) hoặc danh nghĩa (n). Đối với tài sản với c, n loại, phạm vi các số liên tục được đưa ra đầu tiên và giá trị danh nghĩa theo các dấu chấm phẩy. Khai phá dữ liệu 2 II. XÂY DỰNG CƠ SỞ DỮ LIỆU Đề tài sử dụng dataset Pittsburgh Bridges cung cấp giá trị của 13 thuộc tính phân loại cho 124 bộ dữ liệu. Thông tin chung của dataset Pittsburgh Bridges gồm: Các thuộc tính có thể được rời rạc lên đến 10 giá trị liên tục hay. Một thuộc tính rời rạc có thể được danh nghĩa với các giá trị v1, v2, v3 . hoặc số nguyên với giá trị 0, 1, 2, . . III. TIẾN HÀNH THỰC NGHIỆM TRÊN WEKA 1. Tiền xử lý dữ liệu Tiến hành khởi chạy weka.Trong giao diện đồ họa của Weka,chọn Explorer. Trong weka lưu trữ dữ liệu bằng định dạng ARFF. File ARFF bao gồm danh sách các trường, và các giá trị thuộc tính cho mỗi trường được phân cách bằng dấu phẩy. Hầu hết các bảng tính và các chương trình cơ sở dữ liệu cho phép bạn chuyển dữ liệu thành một tập tin mà các giá trị của thuộc tính đều được tách nhau bằng dấu phẩy như trong Khai phá dữ liệu 3 định dạng của file arff.Bạn chỉ cần đưa file vào một trình soạn thảo văn bản hoặc từ bộ vi xử lý; thêm tên của tập dữ liệu bằng cách sử dụng các từ @relation, Khai báo tên các thuộc tính bằng từ khóa @attribute, và từ khóa @data để bắt đầu đưa dữ liệu vào . Sau khi đã tạo xong file arff thì tiến hành đọc dữ liệu vào weka Ta thấy xuất hiện dữ liệu trên cửa số Preprocess của WEKA như sau: Bạn có thể chỉnh sửa dữ liệu bằng cách click vào , lúc đó bảng dữ liệu sẽ xuất hiện để bạn chỉnh sửa. Khai phá dữ liệu 4 2. Xây dựng cây quyết định: - Bước đầu tiên ta sử dụng tất cả dữ liệu để trainning cho cây: + Nhấn vào tab Classify chọn thuật toán sử dụng bằng cách nhấn vào nút Choose; khi cây thư mục hiện thư mục Trees/J48: Khai phá dữ liệu 5 Để tiến hành trainning trên toàn bộ dữ liệu ta chọn vào tùy chọn Use tranning set rồi nhấn Start. Ta thu được kết quả hiển thị ở khung Classifier Output: Nội dung kết quả === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: Pittsburgh Instances: 108 Attributes: 13 IDENTIF RIVER LOCATION ERECTED PURPOSE LENGTH LANES CLEARG TORD MATERIAL SPAN RELL TYPE Test mode: evaluate on training data === Classifier model (full training set) === J48 pruned tree Khai phá dữ liệu 6 ------------------ MATERIAL = WOOD: WOOD (16.0) MATERIAL = IRON | ERECTED <= 1859: SUSPEN (3.0) | ERECTED > 1859: SIMPLE-T (8.0) MATERIAL = STEEL | PURPOSE = WALK: SUSPEN (1.0) | PURPOSE = AQUEDUCT: SIMPLE-T (0.0) | PURPOSE = RR: SIMPLE-T (27.0/4.0) | PURPOSE = HIGHWAY | | TORD = THROUGH | | | RELL = S: ARCH (5.13/1.13) | | | RELL = SF | | | | LANES <= 2: SIMPLE-T (2.13/1.13) | | | | LANES > 2: SUSPEN (3.0) | | | RELL = F | | | | ERECTED <= 1918: SIMPLE-T (15.52/5.74) | | | | ERECTED > 1918 | | | | | LOCATION <= 45: ARCH (12.0/5.0) | | | | | LOCATION > 45: CANTILEV (2.0/1.0) | | TORD = DECK | | | ERECTED <= 1939: CANTILEV (5.22/2.22) | | | ERECTED > 1939: CONT-T (6.0) Number of Leaves : 14 Size of the tree : 23 Time taken to build model: 0.02 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 86 81.1321 % Incorrectly Classified Instances 20 18.8679 % Kappa statistic 0.7417 Mean absolute error 0.0944 Root mean squared error 0.2165 Relative absolute error 37.1932 % Root relative squared error 60.9277 % Coverage of cases (0.95 level) 99.0566 % Mean rel. region size (0.95 level) 39.3082 % Total Number of Instances 106 Ignored Class Unknown Instances 2 === Detailed Accuracy By Class === Khai phá dữ liệu 7 TP Rate FP Rate Precision Recall F-Measure ROC Area Class 1 0 1 1 1 1 WOOD 0.636 0 1 0.636 0.778 0.96 SUSPEN 0.955 0.177 0.792 0.955 0.866 0.943 SIMPLE-T 0.846 0.065 0.647 0.846 0.733 0.954 ARCH 0.333 0.032 0.571 0.333 0.421 0.832 CANTILEV 0.6 0 1 0.6 0.75 0.949 CONT-T Weighted Avg. 0.811 0.085 0.822 0.811 0.799 0.943 === Confusion Matrix === a b c d e f <-- classified as 16 0 0 0 0 0 | a = WOOD 0 7 3 1 0 0 | b = SUSPEN 0 0 42 2 0 0 | c = SIMPLE-T 0 0 1 11 1 0 | d = ARCH 0 0 6 2 4 0 | e = CANTILEV 0 0 1 1 2 6 | f = CONT-T Tóm tắt kết quả khi phân lớp: + Trường hợp phân lớp chính xác: 86 chiếm 81.1321% +Trường hợp không chính xác: 20 chiếm 18.8679% - Để xem kết quả cây dưới dạng hình ảnh tiến hành như sau: Cây quyết định sinh ra Khai phá dữ liệu 8 3. Tiến hành chạy thử nhiều lần cây trên số lượng dữ liệu tranning khác nhau:  Lần thứ hai: Lấy 90% dữ liệu để xây dựng cây, 10% để test: === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: Pittsburgh Instances: 108 Attributes: 13 IDENTIF RIVER LOCATION ERECTED PURPOSE LENGTH LANES CLEARG TORD MATERIAL SPAN RELL TYPE Test mode: split 90.0% train, remainder test === Classifier model (full training set) === J48 pruned tree Khai phá dữ liệu 9 ------------------ MATERIAL = WOOD: WOOD (16.0) MATERIAL = IRON | ERECTED <= 1859: SUSPEN (3.0) | ERECTED > 1859: SIMPLE-T (8.0) MATERIAL = STEEL | PURPOSE = WALK: SUSPEN (1.0) | PURPOSE = AQUEDUCT: SIMPLE-T (0.0) | PURPOSE = RR: SIMPLE-T (27.0/4.0) | PURPOSE = HIGHWAY | | TORD = THROUGH | | | RELL = S: ARCH (5.13/1.13) | | | RELL = SF | | | | LANES <= 2: SIMPLE-T (2.13/1.13) | | | | LANES > 2: SUSPEN (3.0) | | | RELL = F | | | | ERECTED <= 1918: SIMPLE-T (15.52/5.74) | | | | ERECTED > 1918 | | | | | LOCATION <= 45: ARCH (12.0/5.0) | | | | | LOCATION > 45: CANTILEV (2.0/1.0) | | TORD = DECK | | | ERECTED <= 1939: CANTILEV (5.22/2.22) | | | ERECTED > 1939: CONT-T (6.0) Number of Leaves : 14 Size of the tree : 23 Time taken to build model: 0.01 seconds === Evaluation on test split === === Summary === Correctly Classified Instances 7 63.6364 % Incorrectly Classified Instances 4 36.3636 % Kappa statistic 0.4762 Mean absolute error 0.1457 Root mean squared error 0.3364 Relative absolute error 57.87 % Root relative squared error 95.6485 % Coverage of cases (0.95 level) 81.8182 % Khai phá dữ liệu 10

Ngày đăng: 13/12/2013, 11:00

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan