Hệ trợ giúp quyết định, Khai phá dữ liệu PHẦN mềm WEKA và ỨNG DỤNG

32 400 5
Hệ trợ giúp quyết định, Khai phá dữ liệu PHẦN mềm WEKA và ỨNG DỤNG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài tập lớn Hệ trợ giúp quyết định (DSS): Tìm hiểu chi tiết phần mềm Weka và ứng dụng. 1.Giới thiệu chung về Weka 2. Tìm hiểu chi tiết về Weka 3. Ứng dụng của Weka trong việc phân lớp dữ liệu, thực hiện bài toán dự đoán số người đến sân tập thể thao dựa vào tình hình thời tiết

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ GIAO THÔNG VẬN TẢI KHOA CÔNG NGHỆ THÔNG TIN *** BÁO CÁO HỌC PHẦN HỆ TRỢ GIÚP QUYẾT ĐỊNH ĐỀ TÀI: TÌM HIỂU PHẦN MỀM WEKA VÀ ỨNG DỤNG GVHD: ĐỒN THỊ THANH HẰNG NHĨM SV: BÙI THANH THƯ NGUYỄN HOÀI NAM NGUYỄN TRƯỜNG PHI LỚP: HÀ NỘI, 09/2019 68DCHT211 LỜI NÓI ĐẦU Ngày nay, mà cách mạng công nghệ 4.0 phát triển tồn cầu, cơng nghệ thông tin trở thành trợ thủ đắc lực người sống quốc gia để hòa nhập giới Đứng trước thách thức bùng nổ cách mạng này, việc ứng dụng thông tin lĩnh vực đời sống, xã hội Hệ trợ giúp định (DSSDecision Support System) hệ thống thông tin tạo phát triển để trợ giúp công tác định, đặc biệt hoạt động định kinh doanh tổ chức Các DSS phục vụ cho việc quản lý, vận hành lập kế hoạch tổ chức, giúp người đưa định vấn đề thay đổi nhanh chóng khơng dễ dàng xác định trước- tức vấn đề định cấu trúc bán cấu trúc Hệ thống hỗ trợ định vi tính hóa hồn tồn có hỗ trợ người Cùng với đời hệ trợ giúp định, phần mềm Weka xây dựng để hỗ trợ đắc lực cho người việc phân tích liệu lập mơ hình dự đốn, phục vụ tốt cho trình tổ chức, định Chính tính hữu ích đó, nhóm chúng em định chọn đề tài: “Tìm hiểu phần mềm Weka ứng dụng” Trong trình thực đề tài, kiến thức hạn hẹp nên khơng thể tránh sai sót Rất mong q thầy (cô) nhận xét đưa đánh giá để chúng em rút kinh nghiệm Chúng em xin chân thành cám ơn! NHẬN XÉT CỦA GIÁO VIÊN MỤC LỤC PHẦN 1: GIỚI THIỆU VỀ PHẦN MỀM WEKA 1.1 Giới thiệu chung 1.2 Cấu trúc phần mềm 1.3 Các phiên Weka 1.4 Ưu điểm Weka PHẦN 2: TÌM HIỂU CHI TIẾT VỀ PHẦN MỀM WEKA 2.1 Cài đặt Weka 2.2 Menu thành phần 2.2.1 Program 2.2.2 Visualization 2.2.3 Tools 2.2.4 Help 2.2.5 Applications 2.3 Môi trường Explorer 2.3.1 Preprocess 2.3.2 Classify 2.3.3 Cluster .10 2.3.4 Associate: khám phá luật kết hợp từ liệu 10 2.3.5 Select Attributes 11 2.4 Visualize 11 PHẦN 3: ỨNG DỤNG CỦA PHẦN MỀM WEKA 11 3.1 Tập tin ARFF .11 3.2 Cây định 12 3.3 Thuật toán J48 13 3.3 Xây dựng mơ hình phân lớp định Weka 15 3.3.1 Mô tả toán 15 3.3.2 Tiền xử lý liệu 15 3.3.3 Sử dụng thuật toán J48 17 3.4 Đánh giá kết luận .26 DANH MỤC HÌNH ẢNH Hình 0-1 Giao diện Hình 0-2 Menu thành phần Hình 0-3 Menu thành phần Program Hình 0-4 Menu thành phần Visualization Hình 0-5 Menu thành phần Tools Hình 0-6 Menu thành phần Applications Hình 0-7 Mơi trường Explorer Hình 0-8 Cấu trúc định 13 Hình 0-9 Bảng liệu thuộc tính thời tiết 15 Hình 0-10 Chọn file liệu Weather.aff 16 Hình 0-11 Kết hiển thị file liệu weather.aff 16 Hình 0-12 Thuật tốn J48 17 Hình 0-13 Classify Output .18 Hình 0-14 Tree View .19 Hình 0-15 Kết với tỉ lệ phân chia 60% .20 Hình 0-16 Kết với tỉ lệ phân chia 70% .21 Hình 0-17 Kết tỉ lệ phân chia 60% .22 Hình 0-18 Kết tỉ lệ phân chia 50% .23 Hình 0-19 Kết tỉ lệ phân chia 40% .24 Hình 0-20 Kết tỉ lệ phân chia 35% .25 Hình 0-21 Quá trình khởi tạo hoạt động định 26 PHẦN 1: GIỚI THIỆU VỀ PHẦN MỀM WEKA 1.1.Giới thiệu chung - WEKA: tên viết tắt Waikato Enviroment for Knowledge Analysis (Môi trường phân tích kiến thức Waikato) - Weka phần mềm mã nguồn mở miễn phí khai thác liệu, viết ngôn ngữ Java theo kiến trúc hướng đối tượng, tổ chức thành thư viện phục vụ cho lĩnh vực học máy khai phá liệu, thuộc dự án nghiên cứu đại học Waikato, New Zealand Ngồi khn khổ trường đại học, Weka phát âm vần điệu với Mecca- loài chim khơng bay với chất tò mò tìm thấy đảo New Zealand, đồng thời loài chim biểu tượng cho phần mềm Weka - Các cột mốc phát triển phần mềm Weka:  Năm 1993: Đại học Waikato khởi động dự án, xây dựng phiên Weka  Năm 1997: định xây dựng lại Weka từ đầu ngơn ngữ Java, có cài đặt thuật tốn mơ hình hóa  Năm 2005: Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award - Hiện tại, phiên ổn định Weka Weka 3.8 Ngồi ra, Đại học Waikato cung cấp phiên phát triển Weka 3.9 Đối với phiên bản, Weka cung cấp đầy đủ phiên cho hệ điều hành Windows, Mac OS X, Linux Lưu ý, máy tính cần có phải phiên Java cần thiết để để chạy phiên Weka cụ thể Với Weka 3.8 tại, máy tính cần cài đặt phiên Java 1.7 trở lên - Theo KDNugget (2005) đánh giá, Weka sản phẩm khai thác liệu sử dụng nhiều nhất, bật hiệu năm 2005 1.2.Cấu trúc phần mềm - Weka xây dựng ngôn ngữ Java, bao gồm 600 class, tổ chức thành 10 packages - Weka có số lượng lớn công cụ hồi quy phân loại Các gói địa gói bao gồm Weka thực thi, tiếng gói mơ hình M5p Một số cơng cụ hồi quy phổ biến khác như: M5Rules, Decision Stump, Random Forest, RepTree, ZeRoR, - Các chức chính:  Khảo sát liệu: tiền xử lý liệu, phân lớp, gom nhóm khai thác luật kết hợp  Thực nghiệm mơ hình: cung cấp phương tiện để kiểm chứng, đánh giá mơ hình học  Biểu diễn trực quan liệu nhiều dạng đồ thị khác - Các mơi trường chính:  Simple CLI: giao diện đơn giản kiểu dòng lệnh, cho phép thực thi trực tiếp lệnh Weka cho hệ điều hành khơng cung cấp giao diện dòng lệnh riêng Hệ trợ giúp định (DSS)  Explorer: Môi trường cho phép sử dụng tất tính Weka để khai phá liệu tính tiền xử lý liệu (Preprocess), phân lớp (Classtify), phân cụm (Clusster), khai thác luật kết hợp (Associate)  Experimenter: môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê mơ hình học máy  KnowledgeFlow: môi trường cho phép tương tác đồ họa kiểu kéo/ thả để thiết kế thành phần (các bước) thí nghiệm  Workbench: mơi trường kết hợp môi trường nêu trên, người sử dụng tùy ý chuyển đổi mà không cần quay lại cửa sổ “Weka GUI Chooser” - Weka hỗ trợ chạy nhiều hệ điều hành khác nhau, chia thành nhóm phiên dành cho mơi trường Windows platform Linux, Macintosh, 1.3 Các phiên Weka - Snapshots: vá lỗi nhất, thường cập nhật đêm - Book versions: phiên thể chức mô tả Data Minning: ractical Machine Learning Tools and Techniques (2nd Edition) Ian.H.Witten Eibe Frank - Developer versions: phiên thử nghiệm, hỗ trợ nhiều tính chưa ổn định 1.4 Ưu điểm Weka - Phần mềm Weka biết đến sử dụng rộng rãi vào khoảng năm 1997 với ưu điểm vượt trội:  Tính khả dụng miễn phí theo giấy phép Cơng cộng GPL (General Public License)  Hỗ trợ nhiều thuật toán máy học khai thác liệu  Kiến trúc thư viện dễ dàng cho việc xây dựng ứng dụng thực nghiệm  Được thực ngơn ngữ lập trình Java nên có tính di động cao, chạy hầu hết tảng điện toán đại thử nghiệm Linux hay Window,  Tổng hợp toàn diện kỹ thuật tiền xử lý mơ hình hóa liệu  Giao diện đồ họa giúp người dùng dễ sử dụng - Ngoài ra, Weka hỗ trợ khai thác liệu tiêu chuẩn, cụ thể tiền xử lý liệu, phân cụm, phân loại, hồi quy, trực quan hóa lựa chọn tính Tất kỹ thuậ Weka dựa giả định liệu có sẵn dạng tệp phẳng quan hệ, điểm liệu mô tả số cố định Hệ trợ giúp định (DSS) PHẦN 2: TÌM HIỂU CHI TIẾT VỀ PHẦN MỀM WEKA 2.1.Cài đặt Weka - Link Dowload: https://www.cs.waikato.ac.nz/~ml/weka/ - Các bước cài đặt tương tự phần mềm bình thường khác Hình 0-1 Giao diện Hệ trợ giúp định (DSS) 2.2.Menu thành phần Hình 0-2 Menu thành phần 2.2.1 Program Hình 0-3Menu thành phần Program Hệ trợ giúp định (DSS)   Phần thứ gọi phần mơ tả Nó chứa thơng tin về: tên quan hệ, thuộc tính quan hệ dạng liệu thuộc tính Phần thứ hai phần liệu Nó bắt đầu với từ khóa “@data” dòng riêng biệt Sau thể (instance) thể dòng Giá trị thuộc tính thể phân cách dấu “,” Giá trị thuộc tính xuất theo thứ tự khai báo phần mô tả Các giá trị bị thiếu thể “?” Tên quan hệ khai báo dòng tập tin với cú pháp: @relation Một thuộc tính khai báo với cú pháp: @attribute Tên quan hệ tên thuộc tính chuỗi ký tự không bắt đầu ký tự đặc biệt “{”, “}”, “,”, “%” đặt dấu nháy đơn nêu chứa khoảng trắng - Tập tin ARFF định nghĩa thuộc tính theo kiểu chính:  Thuộc tính dạng số: @attribute math numeric  Thuộc tính dạng chuỗi: @attribute sentence string  Thuộc tính định danh: @attribute name {}  Thuộc tính dạng ngày tháng: @attribute birthday date "", định dạng ngày theo tiêu chuẩn ISO-8601 Ví dụ “yyyy-MM-dd HH: mm: ss” 3.2 Cây định - Cây định mà nút biểu diễn đặc trưng (tính chất), nhánh(branch) biểu diễn quy luật(rule) biểu biễn kết (giá trị cụ thể hay nhánh tiếp tục) - Trong lý thuyết định (chẳng hạn quản lý rủi ro), định (tiếng Anh: decision tree) đồ thị định hậu (bao gồm rủi ro hao phí tài nguyên) Cây định sử dụng để xây dựng kế hoạch nhằm đạt mục tiêu mong muốn Các định dùng để hỗ trợ trình định Cây định dạng đặc biệt cấu trúc Hệ trợ giúp định (DSS) 12 Hình 0-8 Cấu trúc định - Các kiểu định:  Cây hồi quy (Regression Tree): ước lượng hàm giá có giá trị số thực thay sử dụng cho nhiệm vụ phân loại (ví dụ: ước tính giá ngơi nhà khoảng thời gian bệnh nhân nằm viện)  Cây phân loại (Classification tree): giới tính (nam hay nữ), kết trận đấu (thắng hay thua) - Ưu điểm định:  Cây định xử lý liệu có giá trị số liệu có giá trị tên thể loại  Cây định mơ hình hộp trắng  Có thể thẩm định mơ hình kiểm tra thống kê  Cây định xử lý tốt lượng liệu lớn thời gian ngắn 3.3 Thuật toán J48 - Thuật toán J48 (hay gọi C4.5) tác giả Quinlan cơng bố vào năm 1996 Thuật toán thuật toán cải tiến từ thuật toán ID3 giải hầu hết vấn đề mà ID3 chưa thực - Đây cải tiến với việc cho phép xử lý tập liệu có thuộc tính số làm việc với tập liệu bị thiếu nhiễu - J48 thực phân lớp mẫu liệu theo chiến lược phát triển theo chiều sâu: xét tất phép thử xảy để phân chia tập liệu cho chọn phép thử có giá trị GainRaio tốt  Xác định thuộc tính phân lớp theo công thức Gain: Hệ trợ giúp định (DSS) 13  - Đến năm 1991, tác giả Nunez lại đưa cơng thức khác: Mơ tả thuật tốn dạng mã sau: Hệ trợ giúp định (DSS) 14 3.3 Xây dựng mơ hình phân lớp định Weka 3.3.1 Mơ tả tốn - Dữ liệu dùng ví dụ file weather.aff có thuộc tính: Outlook, Temperature, Humidity, Windy thuộc tính phân loại Play có giá trị Yes No Đây liệu mô tả khả có đến sân chơi thể thao hay người chơi thể thao phụ thuộc vào thời tiết Hình 0-9 Bảng liệu thuộc tính thời tiết Bằng cách sử dụng Weka để thực thi định, xây dựng công cụ hỗ trợ yêu cầu dựa liệu khách quan thu thập trước 3.3.2 Tiền xử lý liệu - Khởi động Weka chọn Explorer - Chọn File liệu Weather.aff - Hệ trợ giúp định (DSS) 15 Hình 0-10 Chọn file liệu Weather.aff - Kết sau: Hình 0-11 Kết hiển thị file liệu weather.aff Hệ trợ giúp định (DSS) 16 3.3.3 Sử dụng thuật tốn J48 Hình 0-12 Thuật tốn J48 - - Nhấn tab “Classify” :  Nhấn nút Choose  Mở thư mục tree  Chọn thuật toán J48  Nhấn Start Ta thu kết khung Classify Output: Hệ trợ giúp định (DSS) 17 Hình 0-13 Classify Output a) Đánh giá hiệu phân lớp theo phương pháp Cros- Vadilation - Kết trả theo vùng liệu:  Vùng Run Information: cho biết thông tin liệu nguồn o Đề án sử dụng: weka.classifiers.trees.J48 -C 0.25 -M o Cơ sở liệu: weather.symbolic o Số trường: 14 Hệ trợ giúp định (DSS) 18 - o Số thuộc tính: (Outlook, temperature, humidity, windy, play) o Chế độ kiểm tra: 10-fold cross-validation  Vùng hiển thị kết training: o Chế độ phân lớp: toàn liệu o Cây J48 sau tiến hành training: outlook = sunny | humidity = high: no (3.0) | humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) o Số lượng lá: o Kích thước cây: o Thời gian tiến hành: 0.01s Kết hiển thị sau: Hình 0-14 Tree View Hệ trợ giúp định (DSS) 19 Các luật sinh ra:  Rule 1: If outlook= “sunny” and humidity= “hight” then Play= “No”  Rule 2: If outlook= “sunny” and humidity= “nomal” then Play= “Yes”  Rule 3: If outlook= “overcast” then Play= “Yes”  Rule 4: If outlook= “rainy” and windy= “True” then Play= “No”  Rule 5:If outlook= “rainy” and windy= “False” then Play= “Yes” b) Đánh giá hiệu phân lớp theo phương pháp Percentage split: cho biết tỉ lệ phân chia % đạt hiệu phân lớp cao - Lần thứ với tỉ lệ phân chia 66% ta có kết sau: - Hình 0-15 Kết với tỉ lệ phân chia 60% Hệ trợ giúp định (DSS) 20 - Lần thứ 2, với tỉ lệ phân chia 70% thu kết là: Hình 0-16 Kết với tỉ lệ phân chia 70% Hệ trợ giúp định (DSS) 21 - Lần thứ 3, với tỉ lệ phân chia là: 60% Hình 0-17 Kết tỉ lệ phân chia 60% Hệ trợ giúp định (DSS) 22 - Lần thứ với tỉ lệ phân chia 50% Hình 0-18 Kết tỉ lệ phân chia 50% Hệ trợ giúp định (DSS) 23 - Lần thứ với tỉ lệ phân chia 40% Hình 0-19 Kết tỉ lệ phân chia 40% Hệ trợ giúp định (DSS) 24 - Lần thứ với tỉ lệ phân chia 35% Hình 0-20 Kết tỉ lệ phân chia 35% Hệ trợ giúp định (DSS) 25 3.4 Đánh giá kết luận - Sau thực chạy lần J48 để xây dựng với tham số đầu vào khác nhau, ta thấy ứng với lần chạy thứ với tham số chọn lựa là: liệu dùng khởi tạo 40%, liệu test 60% đạt tỉ lệ phân chia lớp xác 62,5% Số lượng mẫu test không bé Nên ta chọn định sinh lần chạy thứ để sử dụng mẫu thử sau - Sau trình thực hành tạo định Weka thuật tốn J48, ta hình dung q trình khởi tạo hoạt động định sau Hình 0-21 Quá trình khởi tạo hoạt động định Hệ trợ giúp định (DSS) 26 ... chiều liệu - Các giá trị lớp khác hiển thị màu khác PHẦN 3: ỨNG DỤNG CỦA PHẦN MỀM WEKA 3.1 Tập tin ARFF - Dữ liệu đầu vào WEKA định dạng chuẩn ARFF với phần mở rộng “* arff” Tuy nhiên, WEKA cung... tính Tất kỹ thuậ Weka dựa giả định liệu có sẵn dạng tệp phẳng quan hệ, điểm liệu mô tả số cố định Hệ trợ giúp định (DSS) PHẦN 2: TÌM HIỂU CHI TIẾT VỀ PHẦN MỀM WEKA 2.1.Cài đặt Weka - Link Dowload:... tin ARFF gồm 02 phần riêng biệt Hệ trợ giúp định (DSS) 11   Phần thứ gọi phần mơ tả Nó chứa thơng tin về: tên quan hệ, thuộc tính quan hệ dạng liệu thuộc tính Phần thứ hai phần liệu Nó bắt đầu

Ngày đăng: 15/10/2019, 08:59

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan