Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
4,2 MB
Nội dung
Tổng quan phần mềm Orange: KHAI THÁC DỮ LIỆU HIỆU QUẢ VÀ VUI VẺ Máy học mã nguồn mở trực quan hóa liệu Xây dựng quy trình phân tích liệu cách trực quan với công cụ đa dạng Khai phá liệu (Data Mining) học máy (Machine Learning) lĩnh vực khó để khám phá nghiên cứu Do đó, nhiều phần mềm đời với mục tiêu giúp cho người dùng dễ dàng nghiên cứu tốn lĩnh vực khó nhằn Một phần mềm kể đến Orange Phần mềm Orange biết đến việc tích hợp công cụ khai phá liệu mã nguồn mở học máy thơng minh, đơn giản, lập trình Python với giao diện trực quan tương tác dễ dàng Với nhiều chức năng, phần mềm phân tích liệu từ đơn giản đến phức tạp, tạo đồ họa đẹp mắt thú vị giúp việc khai thác liệu học máy trở nên dễ dàng cho người dùng chuyên gia Các công cụ (widgets) cung cấp chức đọc liệu, hiển thị liệu dạng bảng , lựa chọn thuộc tính đặc điểm liệu, huấn luyện liệu để dự đoán, so sánh thuật toán máy học , trực quan hóa phần tử liệu, … Data: Dùng để rút trích, biến đổi, nạp liệu (ETL process) Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát liệu tốt Model: gồm hàm máy học (machine learning) phân lớp liệu với Tree, Logictis Regression, SVM, Evaluate: Là phương pháp đánh giá mơ : Test& Score, Prediction, Confusion Unsupervised: Gồm hàm máy học (machine learing) gom nhóm liệu như: Distance, K-means, Add ons: Giúp mở rộng chức nâng cao xử lý liệu lớn (Big Data) với Spark, xử lý ảnh với Deep learing, xử lý văn bản, phân tích mạng xã hội, Đây có lẽ điểm cộng Orange so với phần mềm khai phá liệu khác Phân lớp liệu: Định nghĩa phân lớp liệu: Là trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước ( thuộc lớp ) Quá trình gán nhãn( thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu Quá trình phân lớp liệu: Bước 1: Xây dựng mơ hình ( hay cịn gọi giai đoạn “ học” “ huấn luyện”) Bước 2: Sử dụng mơ hình chia thành bước nhỏ : Bước 2.1:Đánh giá mơ hình ( kiểm tra tính đắn mơ hình ) Bước 2.2: Phân lớp liệu Một số phương pháp phân lớp: Hồi quy Logistic ( Logistic Regression) Định nghĩa: Là mơ hình xác suất dự đốn giá trị đầu rời rạc từ tập giá trị đầu vào ( biểu diễn dạng vector) Cây định (Decision Tree) Định nghĩa : Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai phá liệu, định phương pháp nhằm mơ tả, phân loại tổng qt hóa tập liệu cho trước SVM (Support Vector Machine) Định nghĩa : Là thuật tốn có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng không gian nhiều chiều làm mặt phân cách lớp liệu Các biến thể SVM: Loại SVM Hard Margin SVM Hai lớp cần phân lớp phân chia Soft Margin SVM Multi-class SVM Kernel SVM tuyến tính ( linearly seperable) Hai lớp cần phân lớp “gần” phân chia tuyến tính (almost linear seperable) Phân lớp đa lớp ( biên lớp tuyến tính Dữ liệu phi tuyến Các phương pháp đánh giá mô hình phân lớp: Định nghĩa: Là phương pháp nhằm kiểm tra tính hiệu mơ hình phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình hay khơng Một mơ hình lý tưởng mơ hình khơng đơn giản, không phức tạp không nhạy cảm với nhiễu ( tránh underfitting overfitting ) Underfitting ( chưa khớp) Định nghĩa: Là chưa khớp chưa phù hợp với tập liệu huấn luyện mẫu dự đoán Nguyên nhân: Có thể mo hình chưa đủ độ phức tạp cần thiết để bao quát tập liệu Tồn nhiều điểm liệu mà mơ hình khơng phân loại dẫn đến đọ xác mơ hình thấp Overfitting ( q khớp) Định nghĩa : tượng mơ hình tìm q khớp với liệu huấn luyện Điều dẫn đến việc dự đốn nhiễu nên mơ hình khơng cịn tốt phân lớp liệu Nguyên nhân: Lượng liệu huấn luyện nhỏ độ phức tạp mơ hình q cao nên độ xác cao khơng thể mơ tả su hướng tổng quát liệu Good fitting (Phù hợp) Định nghĩa: Là trường hợp mơ hình cho kết hợp lý với tập liệu huấn luyện giá trị Các phương pháp đánh giá mơ hình phân lớp: Ma trận nhầm lẫn (Confusion Ma trix) Định nghĩa: Là ma trận có điểm liệu thực thuộc vào lớp cụ thể dự đoán rơi vào lớp Tính xác ( Accuracy ) Định nghĩa: Là tỷ số mẫu phân lớp toàn tập liệu ROC AUC Định nghĩa: Là đồ thị sử dụng phổ biến đánh giá mơ hình phân loại nhị phân Đường cong tạo cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate ngưỡng khác Cross Validation: Holdout K-fold cross validation Phương pháp holdout phân chia tập dự liệu ban đầu thành tập độc lập theo tỷ lệ nhát định Phương pháp k- fold cross validation phân chia liệu thành k tập có kích thước Mơ hình phân lớp phần mềm Orange: File Chức năng: đọc liệu từ 1tệp đầu vào Công cụ File đọc tệp liệu đầu vào (bảng liệu với trường hợp liệu) gửi tập liệu đến kênh đầu Lịch sử tệp mở gần trì cơng cụ Công cụ File bao gồm thư mục với liệu mẫu cài đặt sẵn với Orange Công cụ File đọc liệu từ Excel (.xlsx), phân tách tab đơn giản (.txt), tệp phân tách dấu phẩy (.csv) URL Đối với định dạng khác, xem phần Định dạng khác Duyệt qua tệp liệu mở trước tải tệp mẫu Duyệt tìm tệp liệu Tải lại tập tin liệu chọn Chèn liệu từ địa URL, bao gồm liệu từ Google Sheets Tin tập liệu tải: kích thước tập liệu, số lượng loại tính liệu Thơng tin bổ sung tính liệu Các tính chỉnh sửa cách nhấp đúp vào chúng Người dùng thay đổi tên thuộc tính, chọn loại biến cho thuộc tính (Liên tục, Danh nghĩa, Chuỗi, Thời gian) chọn cách xác định thêm thuộc tính (như Tính năng, Mục tiêu Meta) Người dùng định bỏ qua thuộc tính Duyệt liệu tài liệu Tạo báo cáo Data Table Chức : Hiển thị liệu thành bảng tính Đầu vào : liệu từ dataset Đầu : liệu thể bảng tính Cơng cụ Data Table nhận đầu vào nhiều liệu thị chúng bảng tính Cơng cụ cho phép xếp liệu theo thuộc tính hay trợ giúp lựa chọn liệu Tên tệp liệu Tên biến nằm hàng giá trị biến nằm cột Thơng tin kích thước tập liệu số lượng loại biến Giá trị biến liên tục biểu với màu sắc quy mức độ khác Các biến ( hàng) chọn đưa vào đầu công cụ Sử dụng công cụ Restrore Original Order để khôi phục lại thứ tự ban đầu sau xếp dựa trênthuộc tính 6 Tạo báo cáo Trong Auto-send chọn, tất thay đổi liên kết với công cụ khác Trong trường hợp không để tất thay đổi liên quan đến công cụ khác, nhấn Send Select Rows Tree Đầu vào Dữ liệu: liệu đầu vào Tiền xử lý: phương pháp tiền xử lý Đầu Learner: thuật toán định Tree Mơ hình: mơ hình đào tạo Tree thuật toán đơn giản phân chia liệu thành nút lớp liệu Nó tiền thân Random Forest Tree phần mềm Orange thiết kế bên xử lý liệu rời rạc liên tục Nó sử dụng cho nhiệm vụ phân loại hồi quy 1 Name: Người học đặt tên theo ý muốn Tên mặc định Tree Thông số: Induce binary tree: xây dựng nhị phân (chia thành hai nút con) Min number of instances in leaves (số tối thiểu ví dụ lá): chọn, thuật tốn khơng đặt số nút số liệu tham khảo Do not split subsets smaller than (Không phân chia tập hợp nhỏ hơn): cấm thuật toán phân chia nút có số lượng ví dụ cho Limit the maximal tree depth (Giới hạn độ sâu tối đa): giới hạn độ sâu phân loại số cấp nút định 4.Tạo báo cáo 5.Nhấp vào Apply sau thay đổi Nếu bạn đánh dấu vào ô bên trái nút Apply , thay đổi tự động SVM Support Vector Machines đưa vào khơng gian chiều có đặc trưng cao cấp Đầu vào Dữ liệu: liệu đầu vào Tiền xử lý: phương pháp tiền xử lý Đầu Learner: thuật tốn học hồi quy tuyến tính Mơ hình: mơ hình đào tạo Vectơ hỗ trợ: thể sử dụng làm vectơ hỗ trợ Máy vectơ hỗ trợ (SVM) kỹ thuật máy học phân tách khơng gian thuộc tính với siêu phẳng, tối đa hóa điểm liệu tất lớp Kỹ thuật thường mang lại kết dự đoán tối cao Đối với hồi quy, SVM thực hồi quy tuyến tính khơng gian tính với kích thước cao cách sử dụng ε-insensitive Độ xác ước tính phụ thuộc tốt vào tham số C, ε kernel Hoạt động cho nhiệm vụ phân loại hồi quy 1 Name: đặt tên cho mơ hình Tên mặc định phiên SV SVM SVM Type với cài đặt kiểm tra lỗi SVM ν-SVM dựa giảm thiểu khác hàm lỗi Ở bên phải, bạn đặt giới hạn lỗi kiểm tra: SVM : Cost ( C ): giới hạn bất lợi cho thiệt hại áp dụng cho nhiệm vụ phân loại hồi quy ε: tham số cho mơ hình epsilon-SVR, áp dụng cho hồi quy Xác định khoảng cách từ giá trị thực khơng có bất lợi liên kết với giá trị dự đoán ν-SVM : Cost: giới hạn bất lợi cho thiệt hại áp dụng cho nhiệm vụ hồi quy ν: tham số cho mơ hình ν-SVR, áp dụng cho việc phân loại hồi quy Giới hạn phần training error giới hạn phần vectơ hỗ trợ Kernel hàm biến đổi khơng gian thuộc tính thành khơng gian tính để phù hợp với siêu phẳng có biên độ tối đa, cho phép thuật tốn tạo mơ hình với tuyến tính , đa thức , RBF Sigmoid kernel Các hàm định kernel trình bày chọn chúng số liên quan là: g: số gamma hàm kernel (giá trị đề xuất / k, k số lượng thuộc tính, khơng có training set cung cấp cho widget, mặc định người dùng phải tự thiết lập lựa chọn), c: số c0 hàm kernel (mặc định 0) d: cho mức độ hạt nhân (mặc định 3) Đặt độ lệch cho phép so với giá trị mong đợi Numerical Tolerance Đánh dấu tick vào ô cạnh Iteration Limit để đặt số lần lặp tối đa phép Tạo báo cáo Nhấp vào Apply sau thay đổi Nếu bạn đánh dấu vào ô bên trái nút Apply , thay đổi tự động Hồi quy logistic Thuật toán phân loại hồi quy logistic với quy hóa LASSO (L1) sườn núi (L2) Đầu vào Dữ liệu: liệu đầu vào Tiền xử lý: phương pháp tiền xử lý Đầu Học viên: thuật tốn học hồi quy logistic Mơ hình: mơ hình đào tạo Các hệ số: hệ số hồi quy logistic Hồi quy logistic học mơ hình hồi quy logistic từ liệu Nó hoạt động cho nhiệm vụ phân loại: Một tên mà theo người học xuất vật dụng khác Tên mặc định Hồi quy Logistic Regression Quy tắc loại (hoặc L1 L2 ) Đặt cường độ chi phí (mặc định C = 1) Nhấn Áp dụng để cam kết thay đổi Nếu Áp dụng Tự động đánh dấu, thay đổi Nhấp vào Apply sau thay đổi Nếu bạn đánh dấu vào ô bên trái nút Apply , thay đổi tự động TEST AND SCORE Đầu vào: Dữ liệu: liệu đầu vào Dữ liệu thử nghiệm: liệu riêng biệt để thử nghiệm Người học: thuật toán học tập Đầu : Kết đánh giá: kết thuật toán phân loại thử nghiệm Các widget kiểm tra thuật toán học tập Đề án lấy mẫu khác có sẵn, bao gồm việc sử dụng liệu thử nghiệm riêng biệt Các widget làm hai điều Đầu tiên, hiển thị bảng với số đo hiệu suất phân loại khác nhau, chẳng hạn độ xác phân loại diện tích đường cong Thứ hai, đưa kết đánh giá, sử dụng vật dụng khác để phân tích hiệu suất trình phân loại, chẳng hạn Phân tích ROC Ma trận nhầm lẫn Các widget hỗ trợ phương pháp lấy mẫu khác Xác thực chéo chia liệu thành số lần định (thường 10) Thuật toán kiểm tra cách đưa ví dụ từ lần lần; mơ hình tạo từ nếp gấp khác ví dụ từ nếp gấp phân loại Điều lặp lại cho tất nếp gấp Rời khỏi lần tương tự, giữ trường hợp thời điểm, tạo mơ hình từ tất trường hợp khác sau phân loại trường hợp tổ chức Phương pháp rõ ràng ổn định, đáng tin cậy chậm Lấy mẫu ngẫu nhiên phân chia ngẫu nhiên liệu vào tập huấn luyện kiểm tra theo tỷ lệ định (ví dụ 70:30); tồn quy trình lặp lại số lần xác định Kiểm tra liệu huấn luyện : sử dụng toàn liệu để đào tạo sau để thử nghiệm Phương pháp thực tế cho kết sai Kiểm tra liệu thử nghiệm : phương pháp sử dụng liệu từ tín hiệu Dữ liệu Để nhập liệu khác với ví dụ kiểm tra (ví dụ từ tệp khác số liệu chọn tiện ích khác), chúng tơi chọn Tín hiệu liệu thử nghiệm riêng biệt kênh liên lạc chọn kiểm tra liệu thử nghiệm 2 Để phân loại, lớp Target chọn widget Khi lớp Target (Trung bình lớp), phương thức trả điểm số tính trung bình theo trọng số tất lớp Ví dụ, trường hợp trình phân loại có lớp, điểm số tính cho lớp lớp mục tiêu, lớp lớp mục tiêu lớp lớp mục tiêu Các điểm số tính trung bình với trọng số dựa quy mô lớp học để lấy điểm số cuối Tạo báo cáo Các widget tính tốn số thống kê hiệu suất: - Phân loại: Khu vực ROC khu vực đường cong vận hành máy thu Độ xác phân loại tỷ lệ ví dụ phân loại xác F-1 trung bình hài hịa có trọng số độ xác thu hồi (xem bên dưới) Độ xác tỷ lệ dương tính thật số trường hợp phân loại dương tính, ví dụ tỷ lệ Iris virginica xác định xác Iris virginica Nhớ lại tỷ lệ dương tính thực số tất trường hợp tích cực liệu, ví dụ số người bị bệnh số tất chẩn đoán bị bệnh - Hồi quy: MSE đo trung bình bình phương sai số độ lệch (sự khác biệt cơng cụ ước tính ước tính) RMSE bậc hai trung bình số học bình phương tập hợp số (thước đo khơng hồn hảo phù hợp cơng cụ ước tính với liệu) MAE sử dụng để đo lường mức độ dự báo dự đoán chặt chẽ với kết cuối R2 hiểu tỷ lệ phương sai biến phụ thuộc dự đốn từ biến độc lập CONFUSION MATRIX (hiển thị liệu thực tế dự đoán) Đầu vào: Kết đánh giá: kết thuật toán phân loại thử nghiệm Đầu : Dữ liệu chọn: tập hợp liệu chọn từ ma trận nhầm lẫn Dữ liệu: với thông tin bổ sung việc liệu thể liệu chọn chưa Các Confusion Matrix cho biết số / tỷ lệ trường hợp lớp dự đoán thực tế Việc lựa chọn phần tử ma trận cung cấp trường hợp tương ứng vào tín hiệu đầu Bằng cách này, người ta quan sát trường hợp cụ thể bị phân loại sai làm Khi kết đánh giá chứa liệu nhiều thuật toán học tập, phải chọn thuật toán hộp Người học Ảnh chụp nhanh cho thấy ma trận nhầm lẫn cho mơ hình Tree Naive Bayesian đào tạo thử nghiệm liệu mống mắt Phía bên phải tiện ích chứa ma trận cho mơ hình Bayes ngây thơ (vì mơ hình chọn bên trái) Mỗi hàng tương ứng với lớp xác, cột biểu thị lớp dự đoán Chẳng hạn, bốn trường hợp IrisVersolor bị phân loại sai thành Iris-virginica Cột bên phải đưa số lượng phiên từ lớp (có 50 trịng ba lớp) hàng cho số lượng phiên phân loại vào lớp (ví dụ: 48 trường hợp phân loại thành virginica) Trong Hiển thị , chọn liệu muốn thấy ma trận Số lượng phiên hiển thị xác khơng xác trường hợp phân loại số Tỷ lệ dự đoán cho thấy có trường hợp phân loại như, giả sử, IrisVersolor nằm lớp thực sự; bảng đọc 0% số chúng thực setosae, 88,5% số chúng phân loại nhiều màu đa sắc 7,7% virginicae Tỷ lệ thực tế cho thấy mối quan hệ ngược lại: tất đa ngôn ngữ thực sự, 92% phân loại đa ngôn ngữ 8% virginicae Trong Chọn , bạn chọn đầu mong muốn Chính xác gửi tất trường hợp phân loại xác đến đầu cách chọn đường chéo ma trận Phân loại sai chọn trường hợp phân loại sai Không hủy bỏ lựa chọn Như đề cập trước đây, người ta chọn riêng lẻ bảng để chọn loại trường hợp phân loại sai cụ thể (ví dụ: đa ngơn ngữ phân loại virginicae) Khi gửi phiên chọn, tiện ích thêm thuộc tính mới, chẳng hạn lớp dự đoán xác suất chúng, tùy chọn tương ứng Dự đoán Xác suất chọn Các widget xuất thay đổi Send Automatic đánh dấu Nếu không, người dùng cần nhấp vào Gửi chọn để cam kết thay đổi PREDICTION Đầu vào : Dữ liệu: liệu đầu vào Dự đoán: dự đoán sử dụng liệu Đầu : Dự đoán: liệu có thêm dự đốn https://www.educba.com/orange-data-mining/ https://orangedatamining.com/ https://en.wikipedia.org/wiki/Orange_(software) https://www.predictiveanalyticstoday.com/orange-data-mining/ ... Kiểm tra liệu huấn luyện : sử dụng toàn liệu để đào tạo sau để thử nghiệm Phương pháp thực tế cho kết sai Kiểm tra liệu thử nghiệm : phương pháp sử dụng liệu từ tín hiệu Dữ liệu Để nhập liệu khác... Duyệt tìm tệp liệu Tải lại tập tin liệu chọn Chèn liệu từ địa URL, bao gồm liệu từ Google Sheets Tin tập liệu tải: kích thước tập liệu, số lượng loại tính liệu Thơng tin bổ sung tính liệu Các tính... Định nghĩa : Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai phá liệu, định phương pháp nhằm mô tả, phân loại tổng quát hóa tập liệu cho trước