1. Trang chủ
  2. » Luận Văn - Báo Cáo

TỔNG QUAN về PHẦN mềm WEKA

19 247 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 1,24 MB

Nội dung

PHẦN II: NỘI DUNG CHƯƠNG I: TỔNG QUAN VỀ PHẦN MỀM WEKA I. GIỚI THIỆU VỀ WEKA 1. Khái niệm WEKA – Waikato Environment for Knowledge Analysis Là phần mềm khai thác dữ liệu, thuộc dự án nghiên cứu của đại học Waikato, New Zealand. WEKA là một phần mềm mã nguồn mở miễn phí khai thác dữ liệu, được xây dựng bằng ngôn ngữ lập trình Java, theo kiến trúc hướng đối tượng, được tổ chức thành thư viện phục vụ cho lĩnh vực học máy và khai phá dữ liệu Weka cung cấp các thuật toán học tập có thể dễ dàng áp dụng cho các bộ dữ liệu(dataset). Nó cũng bao gồm một loạt các công cụ để chuyển đổi các bộ dữ liệu như các thuật toán để phân loại và lấy mẫu mà không cần viết bất kỳ mã chương trình nào. Weka chứa một bộ sưu tập các công cụ trực quan và thuật toán để phân tích dữ liệu cũng như các mô hình dự đoán, cùng với các giao diện đồ họa để dễ dàng truy cập các chức năng này. • 1993 – Đại học Waikato, New Zealand, khởi động dự án, xây dựng phiên bản đầu tiên của Weka. • 1997 – Quyết định xây dựng lại Weka từ đầu bằng Java, có cài đặt các thuật toán mô hình hóa. • 2005 – Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award.

KHOA CƠNG NGHỆ THƠNG TIN ĐỀ TÀI: TÌM HIỂU VỀ PHẦN MỀM WEKA Gia Lai, tháng năm 2021 MỤC LỤC PHẦN I: MỞ ĐẦU PHẦN II: NỘI DUNG CHƯƠNG I: TỔNG QUAN VỀ PHẦN MỀM WEKA I GIỚI THIỆU VỀ WEKA Khái niệm Cấu trúc phần mềm Weka phiên II NHỮNG TÍNH NĂNG VƯỢT TRỘI CỦA WEKA III ĐỊNH DẠNG DỮ LIỆU CHƯƠNG II: MÔI TRƯỜNG CHỨC NĂNG CỦA PHẦN MỀM I CÁC MÔI TRƯỜNG CHỨC NĂNG CỦA WEKA Explorer Experimenter .7 KnowledgeFlow Simple CLI II TÌM HIỂU MƠ HÌNH EXPLORE .8 Tiền xử lý liệu Khai thác luật kết hợp Phân lớp 10 Gom nhóm .11 Lựa chọn thuộc tính 12 Mơ hình hóa liệu 12 CHƯƠNG III: VÍ DỤ 13 PHẦN III: KẾT LUẬN .18 TÀI LIỆU THAM KHẢO 20 PHẦN I: MỞ ĐẦU Ngày mà thời buổi cơng nghiệp hóa, đại hóa ngày phát triển tồn cầu cơng nghệ thơng tin trở thành trợ thủ đắc lực người sống quốc gia để hịa nhập với giới Đứng trước thách thức , trước bùng nổ thời đại công nghệ 4.0 việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống kinh tế xã hội, cách khai thác liệu truyền thống khơng cịn đáp ứng yêu cầu , thách thức Do kỹ thuật phát tri thức sở liệu đời nhằm giải toán khai phá liệu Khai phá liệu ngành khoa học thực nghiệm Nó thiết kế cho cung cấp nhiều hỗ trợ cho tồn q trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị liệu đầu vào, việc ước lượng học sơ đồ thống kê, hình dung liệu kết việc học Khai phá liệu (Data Mining) lĩnh vực khó để khám phá nghiên cứu Do đó, nhiều phần mềm đời với mục tiêu giúp cho người dùng dễ dàng nghiên cứu toán lĩnh vực khó nhằn Và phần mềm Weka phần mềm hỗ trợ đắc lực cho người việc phân tích liệu, lập mơ hình dự đốn phục vụ tốt cho việc khai phá liệu Đề tài tiểu luận em : Tìm hiểu phần mềm Weka Em xin chân thành cảm ơn Giảng viên : TS.Trần Thị Hồng cung cấp kiến thức tài liệu tham khảo để em hoàn thành tiểu luận Do kiến thức thời gian cịn hạn chế nên khơng tránh khỏi sai sót ngồi ý muốn Rất mong nhận góp ý, giúp đỡ để em hoàn thành tiểu luận tốt PHẦN II: NỘI DUNG CHƯƠNG I: TỔNG QUAN VỀ PHẦN MỀM WEKA I GIỚI THIỆU VỀ WEKA Khái niệm WEKA – Waikato Environment for Knowledge Analysis Là phần mềm khai thác liệu, thuộc dự án nghiên cứu đại học Waikato, New Zealand WEKA phần mềm mã nguồn mở miễn phí khai thác liệu, xây dựng ngơn ngữ lập trình Java, theo kiến trúc hướng đối tượng, tổ chức thành thư viện phục vụ cho lĩnh vực học máy khai phá liệu Weka cung cấp thuật tốn học tập dễ dàng áp dụng cho liệu(dataset) Nó bao gồm loạt công cụ để chuyển đổi liệu thuật toán để phân loại lấy mẫu mà không cần viết mã chương trình Weka chứa sưu tập cơng cụ trực quan thuật tốn để phân tích liệu mơ hình dự đốn, với giao diện đồ họa để dễ dàng truy cập chức  1993 – Đại học Waikato, New Zealand, khởi động dự án, xây dựng phiên Weka  1997 – Quyết định xây dựng lại Weka từ đầu Java, có cài đặt thuật tốn mơ hình hóa  2005 – Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award 2 Cấu trúc phần mềm Weka phiên Cấu trúc phần mềm  WEKA xây dựng ngôn ngữ Java, cấu trúc gồm 600 lớp, tổ chức thành 10 packages  Các chức phần mềm:  Khảo sát liệu: tiền xử lí liệu, phân lớp, gom nhóm liệu, khai thác luật kết hợp  Thực nghiệm mô hình: cung cấp phương tiện để kiểm chứng, đánh giá mơ hình học  Biểu diễn trực quan liệu nhiều dạng đồ thị khác Các phiên bản:  Snapshots vá lỗi nhất, thường cập nhật hàng đêm  Book versions phiên thể chức mô tả sách Data Mining: Practical Machine Learning Tools and Techniques (2nd Edition) Ian.H.Witten Eibe Frank  Developer versions phiên thử nghiệm, hỗ trợ nhiều tính cịn chưa ổn định II NHỮNG TÍNH NĂNG VƯỢT TRỘI CỦA WEKA Weka đánh giá sản phẩm khai thác liệu bật tính đặc biệt sau: - Hỗ trợ nhiều thuật toán máy học khai thác liệu - Được tổ chức theo dạng mã nguồn mở để người dùng dễ dàng tải sử dụng - Độc lập với môi trường sử dụng máy ảo Java - Dễ sử dụng, kiến trúc thuộc dạng thư viện dễ dàng cho việc xây dựng ứng dụng thực nghiệm - Giao diện đồ họa ( gồm tính hiển thị hóa liệu) - Môi trường cho pháp so sánh giải thuật học khai phá liệu - Weka hỗ trợ số nhiệm vụ khai thác liệu tiêu chuẩn cụ thể xử lý trước liệu, phân cụm, phân cụm, phân loại, hồi quy, trực quan hóa lựa chọn tính III ĐỊNH DẠNG DỮ LIỆU Weka hỗ trợ nhiều định dạng như:     ARFF: *.arff CVS files: *.cvs C4.5 files: *.name, *.data XRFF files: *.xrff Trong đó, ARFF định dạng sử dụng phổ biến Weka ARFF định dạng sử dụng Weka, biểu diễn dạng file text đọc cách đơn giản chương trình notepad… mà khơng cần phải có chương trình chun dụng Các liệu file giá trị thuộc tính thể (instance) có chung tập hợp thuộc tính ARFF dễ thao tác dễ hiểu, người dùng tự tạo cho file ARFF hiểu quy định chuẩn Tuy nhiên, định dạng chuyên dụng cho chương trình Weka nên ứng dụng khác đọc Do đó, sử dụng kết hợp Weka với chương trình khác người dùng buộc phải xây dựng module để chuyển kiểu liệu từ ARFF sang kiểu liệu tương ứng với chương trình CHƯƠNG II: MÔI TRƯỜNG CHỨC NĂNG CỦA PHẦN MỀM I CÁC MÔI TRƯỜNG CHỨC NĂNG CỦA WEKA Explorer Explorer: ứng dụng cho phép thực nghiệm nhiệm vụ khai thác liệu thường gặp như: - Tiền xử lý liệu - Khai thác luật kết hợp - Phân lớp - Gom nhóm Experimenter Experimenter: ứng dụng cung cấp môi trường thực nghiệm để kiểm chứng mơ hình học, so sánh với để đánh giá KnowledgeFlow(KF) môi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế bước (các thành phần) thí nghiệm KF công cụ quan việc xây dựng mơ hình khai phá liệu KF cho phép người xây dựng mơ hình điều chỉnh giai đoạn (phase) điều chỉnh tham số tương ứng với thuật toán qua bước để có mơ hình khai phá với kết tốt Simple CLI với giao diện đơn giản kiểu dịng lệnh (như MS-DOS) II.TÌM HIỂU MƠ HÌNH EXPLORER Explorer môi trường thể đầy đủ phương tiện để thao tác với liệu thuật toán máy học cung cấp Weka Cung cấp giao diện người dùng tiện dụng cho việc thực thi thuật toán máy học liệu người dùng đưa vào Giao diện: Tiền xử lý liệu(Preprocess)  Dữ liệu nhập vào (imported) từ tập tin có khn dạng: ARFF, CSV  Dữ liệu đọc vào từ địa URL, từ sở liệu thông qua JDBC  Các công cụ tiền xử lý liệu WEKA gọi filters:  Rời rạc hóa (Discretization)  Chuẩn hóa (Normalization) Chuẩn hóa (Normalization)  Lấy mẫu (Re-sampling)  Lựa chọn thuộc tính (Attribute selection)  Chuyển đổi (Transforming) kết hợp (Combining) thuộc tính  … Khai thác luật kết hợp(Associate) + Cung cấp thuật toán khai thác luật kết hợp - Apriori - PredictiveApriori: cải tiến thuật toán Apriori + Associator output hiển thị thông tin quan trọng:  Run information: Các tùy chọn mơ hình phát luật kết hợp, tên tập liệu, số lượng ví dụ, thuộc tính  Associator model (full training set): Biểu diễn (dạng text) tập luật kết hợp     phát Độ hỗ trợ tối thiểu (minimum support) Độ tin cậy tối thiểu (minimum confidence) Kích thước tập mục thường xuyên (large/frequent itemsets) Liệt kê luật kết hợp tìm 3 Phân lớp(Classify) + Các phân lớp (Classifiers) WEKA tương ứng với mơ hình dự đốn đại lượng kiểu định danh (phân lớp) đại lượng kiểu số (hồi quy/dự đoán) + Các kỹ thuật phân lớp hỗ trợ WEKA:  Decision trees (Cây định )  Support vector machines (Hỗ trợ máy vector)  Neural networks (Các mạng thần kinh)  + Lựa chọn phân lớp (classifier) + Lựa chọn tùy chọn cho việc kiểm tra (test options):  Use training set: Bộ phân loại học đánh giá tập học tập học  Supplied test set: Sử dụng tập liệu khác (với tập học) việc đánh giá  Cross-validation: Tập liệu chia thành K tập (folds) có kích thước xấp xỉ nhau, phân loại học đánh giá phương pháp crossvalidation  Percentage split: Chỉ định tỷ lệ phân chia tập liệu việc đánh giá  Output model: Hiển thị phân lớp học  Output per-class stats: Hiển thị thông tin thống kê precision/recall lớp  Output entropy evaluation measures: Hiển thị đánh giá độ hỗn tạp (entropy) tập liệu  Output confusion matrix: Hiển thị thông tin ma trận lỗi phân lớp (confusion matrix) phân lớp học  Store predictions for visualization: Các dự đoán phân lớp lưu lại nhớ, để hiển thị sau  Output predictions: Hiển thị chi tiết dự đoán tập kiểm tra  Cost-sensitive evaluation: Các lỗi (của phân lớp) xác định dựa ma trận chi phí (cost matrix) định  Random seed for XVal / % Split: Chỉ định giá trị random seed sử dụng cho trình lựa chọn ngẫu nhiên ví dụ cho tập kiểm tra Classifier output hiển thị thông tin quan trọng:  Run information: Các tùy chọn mơ hình học, tên tập liệu, số lượng ví dụ, thuộc tính, f.f thí nghiệm  Classifier model (full training set): Biểu diễn (dạng text) phân lớp học  Predictions on test data: Thông tin chi tiết dự đoán phân lớp tập kiểm tra  Summary: Các thống kê mức độ xác phân lớp, f.f thí nghiệm chọn  Detailed Accuracy By Class: Thông tin chi tiết mức độ xác phân lớp lớp  Confusion Matrix: Các thành phần ma trận thể số lượng ví dụ kiểm tra (test instances) phân lớp bị phân lớp sai  Result listcung cấp số chức hữu ích:  Save model: Lưu lại mơ hình tương ứng với phân lớp học vào tập tin nhị phân (binary file)  Load model: Đọc lại mơ hình học trước từ tập tin nhị phân  Re-evaluate model on current test set: Đánh giá mơ hình (bộ phân lớp) học trước tập kiểm tra (test set)  Visualize classifier errors: Hiển thị cửa sổ biểu đồ thể kết việc phân lớp Các ví dụ phân lớp xác biểu diễn ký hiệu dấu chéo (x), cịn ví dụ bị phân lớp sai biểu diễn ký hiệu ô vuông Gom nhóm (Cluster) Cung cấp thuật tốn gom nhóm phổ biến, ví dụ: - DBSCan - EM (Expectation Maximization) - K-Means Lựa chọn thuộc tính (Select Attributes) - Để xác định thuộc tính quan trọng - Trong Weka phương pháp lựa chọn thuộc tính bao gồm phần: Attribute Evaluator Xác định phương pháp đánh giá mức độ phù hợp thuộc tính, ví dụ: Tính tương quan, bao bọc, tăng thông tin Search Method Xác định phương pháp (thứ tự xét thuộc tính) Vd: Tính ngẫu nhiên, đầy đủ… Mơ hình hóa liệu (Visualize) Visualize phần biểu diễn trực quan tập liệu giúp người dùng hiểu rõ chất tập liệu khảo sát Visualize biểu diễn tập liệu thông qua ký hiệu màu sắc, giúp người dùng nhìn rõ tập liệu khảo sát phân bố nào, giá trị thuộc tính CHƯƠNG III VÍ DỤ MINH HỌA Demo sử dụng Weka Explorer Trong phần trình bày cách sử dụng Weka để xây dựng định C4.5 sử dụng liệu play tennis Dữ liệu nhập từ file tennis.arff Các bước thực huấn luyện sau: Nhập liệu Nhấn Open file để import file liệu Hiệu chỉnh liệu Hiệu chỉnh liệu để đáp ứng yêu cầu toán Chọn thuật toán huấn luyện Chú ý ta chọn J48 Weka implement thuật tốn dựa C4.5 gọi J48 để giải số vần đề implement thuật tốn C4.5 Cấu hình training set Chọn liệu test thích hợp để test sau huấn luyện tính độ lỗi, tỉa Start training Nhấn Start để bắt đầu huấn luyện Xem kết Kết hiển thị khung Classifier Output Sử dụng scrollbar để xem kết đầy đủ Cây định kết view dạng Cây cách trực quan cách thực hình vẽ Cây định sau chạy có dạng sau: PHẦN III: KẾT LUẬN Trong tiểu luận trên, em trình bày tổng quan phần mềm Weka, lấy ví dụ việc phân tích liệu thời tiết để đưa định chơi hay không chơi… Với tính vượt trội mạnh mẽ, đặc biệt phần mềm mã nguồn mở, người dùng nghiên cứu giải thuật khai phá liệu hay học máy cách dễ dàng trực quan hóa hơn, đặc biệt người tập tành nghiên cứu, tìm hiểu lĩnh vực Ngồi ra, với chuyên gia, sử dụng class có sẵn để làm thư viện tùy biến, chỉnh sửa thành chức phục vụ cho nghiên cứu chuyên sâu Do kiến thức hạn hẹp nên báo cáo em khơng tránh có thiết sót ngồi ý muốn, mong nhận giúp đỡ, góp ý cô bạn Em xin chân thành cảm ơn! TÀI LIỆU THAM KHẢO - Trang chủ Weka: https://www.cs.waikato.ac.nz/ml/weka/ Wikipedia Weka: https://en.wikipedia.org/wiki/Weka_(machine_learning) - http://www.nsl.hcmus.edu.vn/greenstone/collect/thesiskh/index/assoc/HASH8c8d.dir/5.p df - Nguyễn Thị Hạnh, T.S Hồ Cẩm Hà, “Khai phá liệu định”, 2008 - http://www.cs.waikato.ac.nz/ml/weka/index_documentation.html ...MỤC LỤC PHẦN I: MỞ ĐẦU PHẦN II: NỘI DUNG CHƯƠNG I: TỔNG QUAN VỀ PHẦN MỀM WEKA I GIỚI THIỆU VỀ WEKA Khái niệm Cấu trúc phần mềm Weka phiên... hoàn thành tiểu luận tốt PHẦN II: NỘI DUNG CHƯƠNG I: TỔNG QUAN VỀ PHẦN MỀM WEKA I GIỚI THIỆU VỀ WEKA Khái niệm WEKA – Waikato Environment for Knowledge Analysis Là phần mềm khai thác liệu, thuộc... khó để khám phá nghiên cứu Do đó, nhiều phần mềm đời với mục tiêu giúp cho người dùng dễ dàng nghiên cứu toán lĩnh vực khó nhằn Và phần mềm Weka phần mềm hỗ trợ đắc lực cho người việc phân tích

Ngày đăng: 25/09/2021, 22:41

TỪ KHÓA LIÊN QUAN

w