Sử dụng phần mềm Weka và Ngôn ngữ R để giải quyết bài toán phân lớp

12 80 0
Sử dụng phần mềm Weka và Ngôn ngữ R để giải quyết bài toán phân lớp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

SỬ DỤNG PHẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN LỚP Chức năng Classify – phân lớp dùng Weka Giới thiệu chức năng của phần mềm R (Chức năng Classify – phân lớp)Giới thiệu R Phân tích số liệu và biểu đồ thường được tiến hành bằng các phần mềm thông dụng như SAS, SPSS, Stata, Statistica, và SPlus. Đây là những phần mềm được các công ti phần mềm phát triển và giới thiệu trên thị trường khoảng ba thập niên qua, và đã được các trường đại học, các trung tâm nghiên cứu và công ti kĩ nghệ trên toàn thế giới sử dụng cho giảng dạy và nghiên cứu. Nhưng vì chi phí để sử dụng các phần mềm này tuơng đối đắt tiền (có khi lên đến hàng trăm ngàn đôla mỗi năm), một số trường đại học ở các nước đang phát triển (và ngay cả ở một số nước đã phát triển) không có khả năng tài chính để sử dụng chúng một cách lâu dài.

SỬ DỤNG PHẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN LỚP * Nội dung thực I Giới thiệu chức phần mềm Weka (Chức Classify – phân lớp) Giới thiệu chức Classify - Là chức phần Explorer; - Hỗ trợ người dùng huấn luyện kiểm chứng mơ hình phân l ớp hay th ực hồi quy Mô tả chức Classify ( thực qua bước) - B1: Tại tab Preprocess, chọn tập liệu thực tiền xử lý li ệu - B2: Chọn thuật toán phân lớp xác định tham số - B3: Chọn kiểu test tập liệu test cần - B4: Tiến hành phân lớp liệu - B5: Ghi nhận kết H1: Chọn tab Preprocess để đọc liệu vào chương trình Weka H2:Chọn tab Classify để phân lớp H3: Chọn thuật toán điều chỉnh tham số H4: Chọn kiểu test H5: Chọn Start để chạy thuật tốn phân lớp H6: Bảng lưu thơng tin ngày thuật toán H7: Bảng ghi kết II Sử dụng phần mềm Weka áp dụng giải toán phân lớp (ch ương 5) với liệu tùy chọn Việt Nam Mô tả - Nguồn liệu: https://data.vietnam.opendevelopmentmekong.net/vi/dataset/covid-19prevention-and-control-epidemic-station-in-vietnam - Nội dung liệu: + Dữ liệu cho thấy vị trí trung tâm ki ểm tra phòng ng ừa COVID-19, trạm kiểm soát thành phố lớn Việt Nam Đi ều đặc bi ệt quan tr ọng để giúp người quyền ki ểm soát lây lan bệnh dịch Các thành phố lớn Hà Nội Hồ Chí Minh nơi tri ển khai nhanh trung tâm xét nghiệm trạm kiểm tra ki ểm soát COVID-19 D ữ li ệu đ ược cập nhật liên tục địa phương khác + Dữ liệu gồm có thuộc tính (STT, Name, Location, Trajectory, Area, Contigious zone, Type, Province, Reference) 121 ghi Đọc liệu vào chương trình Weka - Chạy phần mềm Weka, sau truy xuất đến tập tin ngu ồn (Tên tập tin ngu ồn: station_test_covid19_en-sheet1) - Ta chọn tab Classify để phân lớp - Sau chọn thuật tốn phân lớp (REPTree) tập hu ấn luy ện (Use training set - Ta chạy thuật toán phân lớp, kết sau: Hình 1: Bảng kết - Phân tích kết quả: + Phần Run information thơng tin mơ hình học, tên quan hệ, s ố mẫu, thu ộc tính kiểu test Cụ thể, thuật toán sử dụng REPTTree, tên quan hệ d ữ li ệu vị trí trung tâm kiểm tra phòng ngừa COVID-19, s ố mẫu 121, s ố thu ộc tính 09, kiểu test đánh giá liệu huấn luyện (Hình 1) + REPTree: đưa cây: On the Thang Long bridge (80/79) [41/40], d ữ li ệu nhỏ nên thời gian xây dựng mơ hình nhanh (0,02 giây) (Hình 2) Hình + Evaluation on training set: ta biết kiểu test đánh giá dựa tập hu ấn luy ện (Hình 3) + Summary: Tổng kết lại số liệu thống kê cho bi ết độ xác b ộ phân l ớp theo kiểu test cụ thể như: số mẫu phân lớp (Correctly Classified Instances): 2, số mẫu phân lớp sai (Incorrectly Classified Instances): 119 giá trị độ đo lỗi (Hình 3) Hình + Detailed Accuracy By Class: cho ta biết độ xác phân l ớp (Hình 4) Hình + Confusion Matrix: Cho ta biết mẫu đ ược gán vào t ừng l ớp Các ph ần tử ma trận thể số mẫu test có lớp thật dịng l ớp d ự đón c ột (Hình 5) Hình SỬ DỤNG PHẦN MỀM R GIẢI QUYẾT BÀI TOÁN PHÂN LỚP * Nội dung thực I Giới thiệu chức phần mềm R (Chức Classify – phân lớp) Giới thiệu R Phân tích số liệu biểu đồ thường tiến hành phần mềm thông dụng SAS, SPSS, Stata, Statistica, S-Plus Đây ph ần mềm công ti phần mềm phát triển giới thiệu thị trường khoảng ba thập niên qua, trường đại học, trung tâm nghiên cứu công ti kĩ nghệ toàn giới sử dụng cho giảng dạy nghiên cứu Nhưng chi phí để sử dụng phần mềm tuơng đối đắt tiền (có lên đến hàng trăm ngàn đô-la năm), số trường đại học nước phát triển (và số nước phát triển) khơng có khả tài để sử dụng chúng cách lâu dài Do đó, nhà nghiên cứu th ống kê th ế giới hợp tác với để phát triển phần mềm mới, với chủ trương mã nguồn mở, cho tất thành viên ngành th ống kê học toán h ọc giới sử dụng cách thống hồn tồn mi ễn phí Năm 1996, báo quan trọng tính tốn thống kê, hai nhà thống kê h ọc Ross Ihaka Robert Gentleman [lúc đó] thuộc Trường đại học Auckland, New Zealand phát hoạ ngơn ngữ cho phân tích thống kê mà họ đặt tên R [1] Sáng kiến nhiều nhà thống kê học giới tán thành tham gia vào việc phát triển R Cho đến nay, qua chưa đầy 10 năm phát tri ển, ngày có nhiều nhà thống kê học, toán học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học Trên tồn cầu, có mạng lưới triệu người sử dụng R, số tăng nhanh Có thể nói vịng 10 năm nữa, vai trò phần mềm thống kê thương mại khơng cịn lớn thời gian qua Vậy R gì? Nói m ột cách ngắn gọn, R phần mềm sử dụng cho phân tích th ống kê vẽ bi ểu đồ Thật ra, chất, R ngôn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học gi ải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích th ống kê phức tạp Vì ngơn ngữ, người ta sử dụng R để phát tri ển thành phần mềm chun mơn cho vấn đề tính tốn cá biệt Vì thế, làm nghiên cứu khoa học, nước cịn nghèo khó nước ta, cần phải học cách sử dụng R cho phân tích thống kê đồ thị Bài viết ngắn hướng dẫn bạn đọc cách sử dụng R Tơi giả định bạn đọc khơng biết R, tơi kì vọng bạn đọc biết qua cách sử dụng máy tính II Sử dụng phần mềm R áp dụng giải toán phân lớp (chương 5) với liệu tùy chọn Việt Nam Mô tả - Nguồn liệu: https://www.kaggle.com/ngvietlg/vietnam-weather-temperature-2002-2017 + Dữ liệu lấy 25 dòng cột: Nhiệt độ Năm để phân l ớp nhóm lạnh khơng lạnh nước Việt Nam Dữ liệu down Đọc liệu vào chương trình R - Ta cần sử dụng thư viện + library(ggplot2) + library(cowplot) + library(randomForest) Tiếp theo: Gọi liệu sau trích 25 dịng đầu cột Trong cột thứ nhiệt độ từ 19 độ trở xuống 1(lạnh), ngược lại 0(khơng lạnh) đặt tên QĐ 10 Đường dẫn đến liệu Đặt tên cột cho liệu 11 Sau kiểm tra kiểu liệu, ta đổi ki ểu liệu sang ki ểu th phù hợp TÀI LIỆU THAM KHẢO: - Nguyễn Văn Tuấn – “Phân tích số liệu biểu đ b ằng R” - INTRODUCTION TO DATA MINING COPYRIGHT @2006 BY PEARSON EDUCATION 12 ... test có lớp thật dịng l ớp d ự đón c ột (Hình 5) Hình SỬ DỤNG PHẦN MỀM R GIẢI QUYẾT BÀI TOÁN PHÂN LỚP * Nội dung thực I Giới thiệu chức phần mềm R (Chức Classify – phân lớp) Giới thiệu R Phân tích... cách sử dụng R cho phân tích thống kê đồ thị Bài viết ngắn hướng dẫn bạn đọc cách sử dụng R Tôi giả định bạn đọc khơng biết R, tơi kì vọng bạn đọc biết qua cách sử dụng máy tính II Sử dụng phần mềm. .. Nhiệt độ Năm để phân l ớp nhóm lạnh khơng lạnh nước Việt Nam Dữ liệu down Đọc liệu vào chương trình R - Ta cần sử dụng thư viện + library(ggplot2) + library(cowplot) + library(randomForest) Tiếp

Ngày đăng: 13/11/2020, 08:57

Từ khóa liên quan

Mục lục

  • I. Giới thiệu chức năng của phần mềm Weka (Chức năng Classify – phân lớp)

    • 1. Giới thiệu chức năng Classify

    • 2. Mô tả chức năng Classify ( được thực hiện qua 5 bước)

    • II. Sử dụng phần mềm Weka áp dụng giải quyết bài toán phân lớp (chương 4 và 5) với dữ liệu tùy chọn của Việt Nam

      • 1. Mô tả

      • 2. Đọc dữ liệu vào chương trình Weka

      • SỬ DỤNG PHẦN MỀM R GIẢI QUYẾT BÀI TOÁN PHÂN LỚP

        • I. Giới thiệu chức năng của phần mềm R (Chức năng Classify – phân lớp)

        • II. Sử dụng phần mềm R áp dụng giải quyết bài toán phân lớp (chương 4 và 5) với dữ liệu tùy chọn của Việt Nam

          • 1. Mô tả

          • 2. Đọc dữ liệu vào chương trình R

          • TÀI LIỆU THAM KHẢO:

Tài liệu cùng người dùng

Tài liệu liên quan