CHUYÊN đề hệ THỐNG THÔNG TIN chủ đề học máy với weka

11 19 0
CHUYÊN đề hệ THỐNG THÔNG TIN chủ đề học máy với weka

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG CHUN ĐỀ HỆ THỐNG THÔNG TIN Chủ đề: Học máy với WeKa Họ tên: Trần Đức Minh Mã Sinh Viên: B18DCCN412 Mã nhóm: 02 Giảng viên : Dương Trần Đức download by : skknchat@gmail.com I.NGHIÊN CỨU THUẬT TỐN Thuật tốn Navie Bayes a) Giới thiệu thuật toán: + Naive Bayes giải thuật thuộc lớp giải thuật thống kê, dự đốn xác suất phần tử liệu thuộc vào lớp , dựa định lý Bayes + Naive Bayes thuật toán phân loại cho vấn đề phân loại nhị phân (hai lớp) đa lớp b) Định lí Bayes + Định lý Bayes tìm xác suất kiện xảy với xác suất kiện khác xảy Với: c) + suất + P(A|B) xác suất A biết B P(A) xác suất xảy A P(B|A) xác suất B biết A P(B) xác suất xảy B Ngun lí hoạt động Thuật tốn Naive Bayes tính xác suất cho yếu tố, sau chọn kết với xác Xét tốn : có C class từ , 2,…,C vector x ∈ D ( D tập liệu huấn luyện gồm caonhất nhiều vector x ) xác suất để đầu class c biết đầu vào vector x : p(c|x) từ biểu thức tính xác xuất ta xác định class cách chọn class có xác xuất cao  c=argmaxc∈{1,…,C} p(c|x) =argmaxc p ( x∨c ) p( c) ( bayes) p ( x) rút gọn c = argmaxc p(x|c)p(c) (vì c k phụ thuộc vào p(x)) p(c) xác suất để điểm rơi vào class c , giá trị tính tỉ lệ số điểm liệu tập training rơi vào class chia cho tổng số lượng liệu tập training p(x|c) phân phối điểm liệu class c giả sử cách đơn giản thành phần biến ngẫu nhiên x độc lập với ` d) Ưu điểm nhược điểm Ưu điểm download by : skknchat@gmail.com Dễ sử dụng nhanh cần dự đoán nhãn liệu test Có thể hoạt động với vectơ đặc trưng mà phần liên tục ,phần lại dạng rời rạc Huấn luyện mơ hình nhanh dễ dàng Nhược điểm Độ xác khơng cao Trong giới thực, bất khả thi đặc trưng liệu độc lập với 2.KNN a Giới thiệu thuật toán - K-nearest neighbor thuật toán supervised-learning đơn giản Machine Learning - KNN hoạt động với nguyên lý tương tự Giá trị điểm liệu xác định điểm liệu xung quanh - Thường dùng toán phân loại hồi quy - Lớp (nhãn) đối tượng liệu dự đốn từ lớp (nhãn) k hàng xóm gần b Ý tưởng KNN - Thuật toán KNN cho liệu tương tự tồn gần khơng gian, nên tìm k điểm gần với liệu cần kiểm tra - Để xác định điểm liệu gần ta cần đo khoảng cách chúng có phương pháp khoảng cách + Euclidean + Manhattan + Minkowski download by : skknchat@gmail.com c Các bước thực Ta có D tập điểm liệu gắn nhãn A liệu chưa phân loại Đo khoảng cách (Euclidian, Manhattan, Minkowski, Minkowski Trọng số) từ liệu A đến tất liệu khác phân loại D Chọn K (K tham số mà bạn định nghĩa) khoảng cách nhỏ Kiểm tra danh sách lớp có khoảng cách ngắn đếm số lượng lớp xuất Lấy lớp (lớp xuất nhiều lần nhất) Lớp liệu lớp mà bạn nhận bước d Ưu điểm nhược điểm Ưu điểm - Thuật toán đơn giản, dễ dàng triển khai - Độ phức tạp tính tốn nhỏ Xử lý tốt với tập liệu nhiễu Nhược điểm - Với K nhỏ dễ gặp nhiễu dẫn tới kết đưa không xác - Cần nhiều thời gian để thực phải tính tốn khoảng cách với tất đối tượng tập liệu - Cần chuyển đổi kiểu liệu thành yếu tố định tính II Bài toán tập liệu cụ thể Lựa chọn toán - Bài toán : dự đoán khả chiến thắng người chơi sử dụng x trò chơi tic-tac-toe o Tic-tac-toe trò chơi phổ biến dùng viết bàn cờ giấy có chín ơ, 3x3 Hai người chơi, người dùng ký hiệu O, người dùng ký hiệu X, điền ký hiệu vào Người thắng người thể tạo dãy ba ký hiệu mình, ngang dọc hay chéo download by : skknchat@gmail.com - Dataset: https://github.com/tertiarycourses/Weka/blob/master/Weka%20datasets/tic-tactoe.arff Mô tả tập liệu Tập liệu gồm 958 trường hợp kết thúc trò chơi với chiến thắng Tập liệu có thuộc tính tương ứng với vng  top-left-square : ô bên trái , {b,o,x}  top-middle-square:ô , {b,o,x}  top-right-square : ô bên phải , {b,o,x}  middle-left-square : ô bên trái , {b,o,x}  middle-middle-square : , {b,o,x}  middle-right-square : ô bên phải , {b,o,x}  bottom-left-square : ô bên trái , {b,o,x}  bottom-middle-square : ô , {b,o,x}  bottom-right-square : ô bên phải , {b,o,x}  Class : Lớp định , {negative,positive} Thơng tin thuộc tính o b : trống o x : người chơi x sử dụng ô o o : người chơi o sử dụng ô Chuẩn hóa liệu : liệu down dạng chuẩn weka download by : skknchat@gmail.com download by : skknchat@gmail.com III Sử dụng weka để tiến hành thực nghiệm Thuật toán Naive Bayes Tiến hành thực nghiệm lần với tỷ lệ tham số tập huấn luyện sau : L1 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 55% L2 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 66% L3 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 70% L4 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 85% L5 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 90% Lần thử Tỉ lệ huấn luyện/kiểm thử 55/45 65/35 75/25 85/15 95/5 Từ lần chạy thực nghiệm thực hiện, ta thấy lần chạy L2 đạt hiệu cao với tỷ lệ phân lớp 71,3433 % Như chạy thực nghiệm liệu với tỷ lệ huấn luyện 65% Naive Bayes lựa chọn phù hợp download by : skknchat@gmail.com Thuật toán KNN + Tiến hành thực nghiệm với số K láng riêng 10 cách tính khoảng cách Euclidean download by : skknchat@gmail.com + Tiến hành thực nghiệm lần với tỉ lệ huấn luyện sau L1 : tập liệu với tỷ lệ huấn luyện 50% L2 : tập liệu với tỷ lệ huấn luyện 60% L3 : tập liệu với tỷ lệ huấn luyện 70% L4 : tập liệu với tỷ lệ huấn luyện 80% L5 : tập liệu với tỷ lệ huấn luyện 90% Lần thử Tỉ lệ huấn luyện/kiểm thử 50/50 download by : skknchat@gmail.com Từ lần chạy thực nghiệm thực hiện, ta thấy lần chạy L5 đạt hiệu cao với tỷ lệ phân lớp 98.9583 % Như chạy thực nghiệm liệu với tỷ lệ huấn luyện 90% KNN lựa chọn phù hợp Tổng kết Thuật tốn KNN có tốc độ chậm lại cho kết xác cao với tập liêu huấn luyện 70% đạt đọ xác 90% Thuật tốn Naive Bayes có tốc độ cao lại cho kết xác thấp khoang 70% download by : skknchat@gmail.com ... hành thực nghiệm lần với tỉ lệ huấn luyện sau L1 : tập liệu với tỷ lệ huấn luyện 50% L2 : tập liệu với tỷ lệ huấn luyện 60% L3 : tập liệu với tỷ lệ huấn luyện 70% L4 : tập liệu với tỷ lệ huấn luyện... https://github.com/tertiarycourses /Weka/ blob/master /Weka% 20datasets/tic-tactoe.arff Mô tả tập liệu Tập liệu gồm 958 trường hợp kết thúc trò chơi với chiến thắng Tập liệu có thuộc tính tương ứng với ô vuông  top-left-square... Lớp định , {negative,positive} Thông tin thuộc tính o b : trống o x : người chơi x sử dụng ô o o : người chơi o sử dụng ô Chuẩn hóa liệu : liệu down dạng chuẩn weka download by : skknchat@gmail.com

Ngày đăng: 27/04/2022, 06:15

Hình ảnh liên quan

- Huấn luyện mô hình nhanh và dễ dàng Nhược điểm - CHUYÊN đề hệ THỐNG THÔNG TIN chủ đề học máy với weka

u.

ấn luyện mô hình nhanh và dễ dàng Nhược điểm Xem tại trang 3 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan