1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho dataset Titanic

20 582 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 1,75 MB

Nội dung

I. ĐẶT VẤN ĐỀ Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp.Cụ thể đề tài này em tìm hiểu về bài toán phân lớp trong weka và áp dụng trong bài toán khả năng sống của hành khách trên tàu Titanic khi xảy ra tai nạn trìm tàu. II. XÂY DỰNG CƠ SỞ DỮ LIỆU Đề tài sử dụng dataset Titanic cung cấp giá trị của 4 thuộc tính phân loại cho mỗi hành khách trong số 2201 hành khách có trên tàu Titanic khi xảy ra tai nạn đâm vào tảng băng trôi và bị trìm. Các thuộc tính đó là: - Tầng lớp xã hội(tầng lớp xã hội cao nhất,tầng lớp thứ hai,tầng thứ ba,thuyền viên) - Tuổi (người lớn hoặc tre em) - Giới tính - Có sống sót hay không Giải quyết bài toán này để trả lời cho câu hỏi là làm thế nào sự sống còn liên quan đến các thuộc tính khác. Thông tin chung của dataset Titanic gồm: Mô tả các thuộc tính: @relation titanic @attribute Class real[-1.87,0.965] @attribute Age real[-0.228,4.38] @attribute Sex real[-1.92,0.521] @attribute Survived {-1.0,1.0} Bảng dữ liệu Trường dữ liệu Chú giải Class(tầng lớp) Gồm 4 tầng lớp : tầng lớp phi hành đoàn(crew)(-1.87) , tầng lớp đầu tiên(first)(-0.923), tầng lớp thứ 2(second)(0.0214) , tầng lớp thứ 3(third)(0.965)

Báo cáo môn Khai phá dữ liệu BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬN QUÂN SỰ ************* BÀI TẬP LỚN KHAI PHÁ DỮ LIỆU Đề tài: Sử dụng phần mềm Weka phân lớp cho khả năng sống sót của khách trên tàu Titanic khi xảy ra thảm họa trìm tàu Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Đỗ Trọng Phương Lớp: Hệ thống thông tin 6 1 Báo cáo môn Khai phá dữ liệu I. ĐẶT VẤN ĐỀ Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp.Cụ thể đề tài này em tìm hiểu về bài toán phân lớp trong weka và áp dụng trong bài toán khả năng sống của hành khách trên tàu Titanic khi xảy ra tai nạn trìm tàu. 2 Báo cáo môn Khai phá dữ liệu II. XÂY DỰNG CƠ SỞ DỮ LIỆU Đề tài sử dụng dataset Titanic cung cấp giá trị của 4 thuộc tính phân loại cho mỗi hành khách trong số 2201 hành khách có trên tàu Titanic khi xảy ra tai nạn đâm vào tảng băng trôi và bị trìm. Các thuộc tính đó là: - Tầng lớp xã hội(tầng lớp xã hội cao nhất,tầng lớp thứ hai,tầng thứ ba,thuyền viên) - Tuổi (người lớn hoặc tre em) - Giới tính - Có sống sót hay không Giải quyết bài toán này để trả lời cho câu hỏi là làm thế nào sự sống còn liên quan đến các thuộc tính khác. Thông tin chung của dataset Titanic gồm: Mô tả các thuộc tính: 3 Báo cáo môn Khai phá dữ liệu @relation titanic @attribute Class real[-1.87,0.965] @attribute Age real[-0.228,4.38] @attribute Sex real[-1.92,0.521] @attribute Survived {-1.0,1.0} Bảng dữ liệu Trường dữ liệu Chú giải Class(tầng lớp) Gồm 4 tầng lớp : tầng lớp phi hành đoàn(crew)(-1.87) , tầng lớp đầu tiên(first)(-0.923), tầng lớp thứ 2(second)(0.0214) , tầng lớp thứ 3(third)(0.965) Age(tuổi) người lớn(adult)(-0.228), trẻ em(child)(4.38) Sex(giới tính) nam(male)(-1.92), nữ(female)(0.521) Survived(Sống sót) có(yes)(-1.0), không(no)(1.0) III. PHÂN TÍCH YÊU CẦU BÀI TOÁN 4 WEKA Decision Tree Không sống sót Sống sót Tầng lớp Tuổi Giới tính Báo cáo môn Khai phá dữ liệu Đọc dữ liệu vào sau đó áp dụng bài toán phân lớp dựa vào các thuộc tính tầng lớp,tuổi,giới tính để phân lớp khả năng sống sót của hành khách trên tàu khi tàu trìm.Tạo ra cây quyết định về khả năng sống sót của hành khách nhằm để hỗ trợ cho việc có thể cứu được nhiều người sống sót nhất khi tàu trìm. IV. TIẾN HÀNH THỰC NGHIỆM TRÊN WEKA 1. Tiền xử lý dữ liệu Tiến hành khởi chạy weka.Trong giao diện đồ họa của Weka,chọn Explorer. Trong weka lưu trữ dữ liệu bằng định dạng ARFF. File ARFF bao gồm danh sách các trường, và các giá trị thuộc tính cho mỗi trường được phân cách bằng dấu phẩy. Hầu hết các bảng tính và các chương trình cơ sở dữ liệu cho phép bạn chuyển dữ liệu thành một tập tin mà các giá trị của thuộc tính đều được tách nhau bằng dấu phẩy như trong định dạng của file arff.Bạn chỉ cần đưa file vào một trình soạn thảo văn bản hoặc từ bộ vi xử lý; thêm tên của tập dữ liệu bằng cách sử dụng các từ @relation, Khai báo tên các thuộc tính bằng từ khóa @attribute, và từ khóa @data để bắt đầu đưa dữ liệu vào .Ví dụ như hình dưới đây : 5 Mục đích: Tạo một cây quyết định trong WEKA xem khả năng sống sót của hành khách theo các thuộc tính khác hay không? Mục đích: Tạo một cây quyết định trong WEKA xem khả năng sống sót của hành khách theo các thuộc tính khác hay không? Báo cáo môn Khai phá dữ liệu Sau khi đã tạo xong file arff thì tiến hành đọc dữ liệu vào weka 6 Báo cáo môn Khai phá dữ liệu Ta thấy xuất hiện dữ liệu trên cửa số Preprocess của WEKA như sau: Chuyển kiểu dữ liệu của các attribute từ numeric sang nominal:chọn choose trong cây filter chọnNumericToNominal 7 Báo cáo môn Khai phá dữ liệu Bạn có thể chỉnh sửa dữ liệu bằng cách click vào , lúc đó bảng dữ liệu sẽ xuất hiện để bạn chỉnh sửa. Thêm các gí trị crew, first, second,third vào thuộc tính class. Trong cây thư mục chọn AddValue. Tiến hành nhập vào các giá trị tương ứng như sau: 8 Báo cáo môn Khai phá dữ liệu Hộp editor xuất hiện nhập các giá trị vào hộp labels và nhấn OK Click chuột phải vào cột class chọn Replace Value With… gõ các giá trị tương ứng muốn thay thế vào. 9 Báo cáo môn Khai phá dữ liệu Nhập giá trị cũ Nhập giá trị thay thế Kết quả sau khi thay đổi 10

Ngày đăng: 13/12/2013, 11:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w