1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu về chế độ ăn kiêng Fiber.arff

36 4,3K 27

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 2,06 MB

Nội dung

Mục lục : I.Công cụ sử dụng –phần mềm weka .3 II.Mô tả bài toán .4 III.Xây dựng cơ sở dữ liệu .4 IV.Tiến hành thực nghiệm cơ sở dữ liệu trên weka .6 1.Tiền xử lý dữ liệu .6 2.Xây dựng cây quyết định15 Qui trình Train và Test một classifier15 Cross Validation (CV) trong Training and Testing Phase16 A.Với thuật toán J48:17 a)Tiến hành trainning trên toàn bộ dữ liệu:17 b)Tiến hành chạy thử lần 2 :22 c)Tiến hành chạy thử lần 3 :25 d)Tiến hành chạy thử lần 4 :27 e)Tiến hành chạy thử lần 5 :30 B.Với thuật toán ID332 V.Đánh giá kết quả .36 I.Công cụ sử dụng –phần mềm weka . Weka là môi trường thử nghiệm KPDL do các nhà khoa học thuộc trường Đại học Waitako, NZ, khởi xướng và được sự đóng góp của rất nhiều nhà nghiên cứu trên thế giới. Weka là phần mềm mã nguồn mở, cung cấp công cụ trực quan và sinh động cho mọi người tìm hiểu về KPDL. Weka còn cho phép các giải thuật học mới phát triển có thể tích hợp vào môi trường của nó. Hệ thống được viết bằng java. Nó chạy được hầu hết trên tất cả hệ điều hành. Weka cung cấp nhiều giải thuật khác nhau với nhiều phương thức cho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Weka cung cấp những tính năng chính sau: Bao gồm nhiều công cụ đa dạng để thay đổi tập dữ liệu, xử lý dữ liệu, giải thuật học và phương pháp đánh giá. Giao diện đồ họa người dùng (trực quan hóa dữ liệu). Môi trường để so sánh các giải thuật học. Bạn có thể xử lý trước tập dữ liệu, cho vào trong một sơ đồ, và phân chia các lớp kết quả và thực hiện nó mà không cần viết bất cứ một chương trình nào. Weka lấy dữ liệu từ các file có định dạng .arff, nó được phát sinh từ một file hoặc một bảng cơ sở dữ liệu. Cách sử dụng

Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka BÔ ̣ QUÔ ́ C PHO ̀ NG HO ̣ C VIÊ ̣ N KY ̃ THUÂ ̣ N QUÂN ̣ ************* BÀI TẬP LỚN KHAI PHÁ DỮ LIỆU Đê ̀ ta ̀ i: Sử dụng phần mềm Weka phân lớp cho sở dữ liệu về chế độ ăn kiêng. Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Lê Hoàng Việt Lớp: Hệ thống thông tin 6 Page 1 Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka Mục lục : Mục lục : 2 I.Công cụ sử dụng –phần mềm weka .3 II.Mô tả bài toán .4 III.Xây dựng sở dữ liệu .4 IV.Tiến hành thực nghiệm sở dữ liệu trên weka .5 1.Tiền xử lý dữ liệu .6 2.Xây dựng cây quyết định 15 Qui trình Train và Test một classifier 15 Cross Validation (CV) trong Training and Testing Phase .16 A.Với thuật toán J48: .17 a)Tiến hành trainning trên toàn bộ dữ liệu: .17 b)Tiến hành chạy thử lần 2 : .22 c)Tiến hành chạy thử lần 3 : .25 d)Tiến hành chạy thử lần 4 : .27 e)Tiến hành chạy thử lần 5 : .30 B.Với thuật toán ID3 .32 V.Đánh giá kết quả .36 Page 2 Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka I. Công cụ sử dụng –phần mềm weka .  Weka là môi trường thử nghiệm KPDL do các nhà khoa học thuộc trường Đại học Waitako, NZ, khởi xướng và được sự đóng góp của rất nhiều nhà nghiên cứu trên thế giới. Wekaphần mềm mã nguồn mở, cung cấp công cụ trực quan và sinh động cho mọi người tìm hiểu về KPDL. Weka còn cho phép các giải thuật học mới phát triển thể tích hợp vào môi trường của nó. Hệ thống được viết bằng java. Nó chạy được hầu hết trên tất cả hệ điều hành.  Weka cung cấp nhiều giải thuật khác nhau với nhiều phương thức cho quá trình xử lý để ước lượng kết quả bằng đồ cho bất kì một dữ liệu nào.  Weka cung cấp những tính năng chính sau: + Bao gồm nhiều công cụ đa dạng để thay đổi tập dữ liệu, xử lý dữ liệu, giải thuật học và phương pháp đánh giá. + Giao diện đồ họa người dùng (trực quan hóa dữ liệu). + Môi trường để so sánh các giải thuật học.  Bạn thể xử lý trước tập dữ liệu, cho vào trong một đồ, và phân chia các lớp kết quả và thực hiện nó mà không cần viết bất cứ một chương trình nào.  Weka lấy dữ liệu từ các file định dạng .arff, nó được phát sinh từ một file hoặc một bảng sở dữ liệu.  Cách sử dụng Weka là thông qua giao diện đồ họa của nó Page 3 Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka II. Mô tả bài toán . Với bộ sở dữ liệu Fiber,tạm hiểu là sở dữ liệu về 1 kế hoach ăn kiêng với mức độ chất xơ cao. Cụ thể sẽ là ảnh hưởng của chất xơ đối với 12 người phụ nữ được cho một chế độ ăn uống kiểm soát.Trước mỗi bữa ăn họ sẽ ăn 1 chiếc bánh quy nằm trong 4 loại sau : loại giòn(bran),loại chứa cám xơ(gum),loại kết hợp cả 2 loại trên (combo) hoặc cũng thể là loại không chứa chất xơ(control).Lượng calo sẽ được theo dõi và bộ sở dữ liệu cho ta kết quả báo cáo về tình trạng dạ dày hay một số vần đề khác của từng đối tượng . Linkdataset : http://tunedit.org/repo/DASL/Fiber.arff III. Xây dựng sở dữ liệu . Trong dataset hiện tại sử dụng 5 thuộc tính dùng để mô tả về bài toán này . Các thuộc tính như sau: Tên thuộc tính(ATTRIBUTE) Giá trị thuộc tính ,kiểu giá trị Mô tả Cracker {"bran","combo","control","gum"} Loại chất xơ trong bánh quy Diet numeric 1 trong bốn chế độ ăn (theo cracker) Subject numeric Mỗi người trong csdl được đánh dấu bằng 1 id riêng từ 1-12 Digested numeric Page 4 Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka Sự khác biệt giữa lượng calo và lượng calo thông qua hệ thống Bloat {"high","low","med","none"} Báo cáo về mức độ đầy hơi hoặc chướng bụng của từng đối tượng Bài toán nhằm giải quyết vần đề chế độ ăn sẽ cho kết quả về mức độ đầy hơi hoặc chướng bụng của từng đối tượng sẽ như thế nào trong số những kết quả sau của thuộc tính đầu ra ‘Bloat’ như sau : +High : Cao . +Low : Thấp . +Med : Trung bình . +None : Không gì . IV.Tiến hành thực nghiệm sở dữ liệu trên weka . Với giao diện : Page 5 Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka Gồm 4 phần : +Explorer: Sử dụng menu lựa chọn. Explorer chỉ sử dụng cho những bộ dữ liệu vừa và nhỏ. +Experimeter: Cho phép người dùng thực hiện những bài tập bản khi ứng dụng phân lớp và kĩ thuật hồi quy, với những công việc giá trị, phương pháp và tham số tốt nhất cho vấn đề đã cho. Cho phép bạn tự động hóa xử lý, làm chophân lớp và lọc dễ dàng với những cách thiết lập tham số khác nhau trên toàn thể bảng dữ liệu +KnowledgeFlow: cho phép người dùng kéo thả những chiếc hộp tượng trưng cho các giải thuật và dữ liệu để kết nối chúng lại với nhau và đưa ra cấu trúc. +Simple CLI: Sử dụng câu lệnh. Áp dụng với bài toán này,em sẽ sử dụng chức năng Explorer. 1. Tiền xử lý dữ liệu . Weka lưu trữ dữ liệu với định dang filename.arff gồm tên dataset,danh sach cách trường và các giá trị thuộc tính cho mỗi trường phân cách nhau bởi dấu phẩy .Chúng ta thể chuyển dữ liệu thành 1 tập tin mà các giá trị của thuộc tính đều được tách nhau bằng dấu phẩy như trong định dạng filename.arff bằng cách đưa file vào 1 trình soạn thảo văn bản hoặc từ bộ vi Page 6 Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka xử lý,thêm tên tập dữ liệu bằng cách dùng từ khóa @relation.Khai báo tên thuộc tính bằng từ khóa @attribute và để bắt đầu đưa dữ liệu vào bằng từ khóa @data : Tiến hành đọc dữ liệu vào weka : Chọn open file : Page 7 Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka Sau khi mở file ta thấy trong giao diện Explorer 6 tab ta chọn Preprocess để tiến hành quá trình tiền xử lý dữ liệu : Page 8 Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka Trong Data Mining, một số kỹ thuật như classifycation chỉ thể thực hiện trên các dữ liệu phân loại (categorical/ nominal data). Điều này yêu cầu phải thực hiện việc rời rạc hóa trên các thuộc tính kiểu dữ liên tục (như kiểu numeric) khi muốn áp dụng các kỹ thuật này. Trong file dữ liệu fiber.arff 3 thuộc tính kiểu số, đó là ‘diet’,’subject’,’digested’. Để thực hiện việc rời rạc hóa với 3 thuộc tính trên ta thực hiện như sau : Mở hộp thoại Filter và chọn: filters.unsupervised.attribute.Discretize Page 9 Lê Hoàng Việt-HTTT6-Khai phá dữ liệu bằng weka +Tiếp theo, bấm chuột vào text box ngay bên phải nút “Choose” và thiết lập các tham số để thực hiện việc rời rạc hóa. +Trong textbox attributeIndices nhập 4 tương ứng với index của thuộc tính “Digested” .Trong mục bins nhập 3 ( được chia thành 3 khoảng – interval) Page 10 . viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Lê Hoàng Việt Lớp: Hệ thống thông tin 6 Page 1 Lê Hoàng Việt- HTTT6-Khai phá dữ liệu bằng weka Mục lục :. Lê Hoàng Việt- HTTT6-Khai phá dữ liệu bằng weka BÔ ̣ QUÔ ́ C PHO ̀ NG HO ̣ C VIÊ

Ngày đăng: 16/12/2013, 15:04

HÌNH ẢNH LIÊN QUAN

- Dữ liệu để xây dựng mô hình: dữ liệu gốc (original dataset), dữ liệu này phải có thuộc tính phân lớp gọi là categorical attribute - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu về chế độ ăn kiêng Fiber.arff
li ệu để xây dựng mô hình: dữ liệu gốc (original dataset), dữ liệu này phải có thuộc tính phân lớp gọi là categorical attribute (Trang 15)
Hình dưới đây mô tả CV với 3-fold. - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu về chế độ ăn kiêng Fiber.arff
Hình d ưới đây mô tả CV với 3-fold (Trang 16)
Cross Validation (CV) trong Training and Testing Phase - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu về chế độ ăn kiêng Fiber.arff
ross Validation (CV) trong Training and Testing Phase (Trang 16)
Để xem được cây kết quả ta chuột phải vào kết quả như bên hình và chọn visualize tree: - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu về chế độ ăn kiêng Fiber.arff
xem được cây kết quả ta chuột phải vào kết quả như bên hình và chọn visualize tree: (Trang 21)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w