CHUYÊN đề hệ THỐNG THÔNG TIN chủ đề học máy với weka

10 6 0
CHUYÊN đề hệ THỐNG THÔNG TIN chủ đề học máy với weka

Đang tải... (xem toàn văn)

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG CHUN ĐỀ HỆ THỐNG THÔNG TIN Chủ đề: Học máy với WeKa Họ tên: Trần Đức Minh Mã Sinh Viên: B18DCCN412 Mã nhóm:  02 Giảng viên : Dương Trần Đức I.NGHIÊN CỨU THUẬT TỐN Thuật tốn Navie Bayes a) Giới thiệu thuật toán: + Naive Bayes  một giải thuật thuộc lớp giải thuật thống kê, dự đoán xác suất phần tử liệu thuộc vào lớp , dựa định lý Bayes + Naive Bayes thuật toán phân loại cho vấn đề phân loại nhị phân (hai lớp) đa lớp b) Định lí Bayes + Định lý Bayes tìm xác suất kiện xảy với xác suất kiện khác xảy Với: P(A|B) xác suất A biết B P(A) xác suất xảy A P(B|A) xác suất B biết A P(B) xác suất xảy B c) Ngun lí hoạt động + Thuật tốn Naive Bayes tính xác suất cho yếu tố, sau chọn kết với xác suất cao + Xét tốn : có C class từ , 2,…,C vector x ∈ D ( D tập liệu huấn luyện gồm nhiều vector x )  xác suất để đầu class c biết đầu vào vector x : p(c|x)  từ biểu thức tính xác xuất ta xác định class cách chọn class có xác xuất cao p (x∨c ) p(c)  c=argmaxc∈{1,…,C} p(c|x) =argmaxc ( bayes) p ( x) rút gọn c = argmaxc p(x|c)p(c) (vì c k phụ thuộc vào p(x))  p(c)  xác suất để điểm rơi vào class c , giá trị tính tỉ lệ số điểm liệu tập training rơi vào class chia cho tổng số lượng liệu tập training   p(x|c) phân phối điểm liệu class c giả sử cách đơn giản thành phần biến ngẫu nhiên x là độc lập với ` d) Ưu điểm nhược điểm  Ưu điểm  Dễ sử dụng nhanh cần dự đoán nhãn liệu test Có thể hoạt động với vectơ đặc trưng mà phần liên tục ,phần lại dạng rời rạc Huấn luyện mơ hình nhanh dễ dàng Nhược điểm - Độ xác khơng cao - Trong giới thực, bất khả thi đặc trưng liệu độc lập với 2.KNN a Giới thiệu thuật toán - K-nearest neighbor thuật toán supervised-learning đơn giản Machine Learning - KNN hoạt động với nguyên lý tương tự Giá trị điểm liệu xác định điểm liệu xung quanh - Thường dùng tốn phân loại hồi quy - Lớp (nhãn) đối tượng liệu dự đốn từ lớp (nhãn) k hàng xóm gần b Ý tưởng KNN - Thuật toán KNN cho liệu tương tự tồn tại gần - nhau trong khơng gian, nên tìm k điểm gần với liệu cần kiểm tra Để xác định điểm liệu gần ta cần đo khoảng cách chúng có phương pháp khoảng cách + Euclidean + Manhattan + Minkowski c Các bước thực Ta có D tập điểm liệu gắn nhãn A liệu chưa phân loại Đo khoảng cách (Euclidian, Manhattan, Minkowski, Minkowski Trọng số) từ liệu A đến tất liệu khác phân loại D Chọn K (K tham số mà bạn định nghĩa) khoảng cách nhỏ Kiểm tra danh sách lớp có khoảng cách ngắn đếm số lượng lớp xuất Lấy lớp (lớp xuất nhiều lần nhất) Lớp liệu lớp mà bạn nhận bước d Ưu điểm nhược điểm  Ưu điểm - Thuật toán đơn giản, dễ dàng triển khai - Độ phức tạp tính tốn nhỏ - Xử lý tốt với tập liệu nhiễu  Nhược điểm - Với K nhỏ dễ gặp nhiễu dẫn tới kết đưa khơng xác - Cần nhiều thời gian để thực phải tính tốn khoảng cách với tất đối tượng tập liệu - Cần chuyển đổi kiểu liệu thành yếu tố định tính II Bài toán tập liệu cụ thể Lựa chọn toán - Bài toán : dự đoán khả chiến thắng người chơi sử dụng x trò chơi tictac-toe o Tic-tac-toe là trò chơi phổ biến dùng viết bàn cờ giấy có chín ơ, 3x3 Hai người chơi, người dùng ký hiệu O, người dùng ký hiệu X, điền ký hiệu vào ô Người thắng người thể tạo dãy ba ký hiệu mình, ngang dọc hay chéo - Dataset: https://github.com/tertiarycourses/Weka/blob/master/Weka%20datasets/tic-tactoe.arff Mô tả tập liệu  Tập liệu gồm 958 trường hợp kết thúc trò chơi với chiến thắng  Tập liệu có thuộc tính tương ứng với vuông  top-left-square : ô bên trái , {b,o,x}  top-middle-square:ô , {b,o,x}  top-right-square : ô bên phải , {b,o,x}  middle-left-square : ô bên trái , {b,o,x}  middle-middle-square : , {b,o,x}  middle-right-square : ô bên phải , {b,o,x}  bottom-left-square : ô bên trái , {b,o,x}  bottom-middle-square : ô , {b,o,x}  bottom-right-square : ô bên phải , {b,o,x}  Class : Lớp định , {negative,positive}  Thơng tin thuộc tính o b : ô trống o x : người chơi x sử dụng ô o o : người chơi o sử dụng Chuẩn hóa liệu : liệu down dạng chuẩn weka III Sử dụng weka để tiến hành thực nghiệm Thuật toán Naive Bayes Tiến hành thực nghiệm lần với tỷ lệ tham số tập huấn luyện sau :      L1 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 55% L2 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 66% L3 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 70% L4 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 85% L5 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 90% Lần thử Tỉ lệ huấn luyện/kiểm thử Tổng số ghi 958 Số mẫu phân lớp 302 Số mẫu phân lớp sai 129 55/45 65/35 958 239 96 75/25 958 166 73 85/15 958 102 42 95/5 958 32 16  Tỉ lệ phân Tỉ lệ phân Thời gian lớp lớp sai 70.0696 % 71.3433 % 69.4561 % 70.8333 % 66.6667 % 29.9304 % 28.6567 % 30.5439 % 29.1667 % 33.3334 % 0.01 s 0s 0s 0s 0s Từ lần chạy thực nghiệm thực hiện, ta thấy lần chạy L2 đạt hiệu cao với tỷ lệ phân lớp 71,3433 % Như chạy thực nghiệm liệu với tỷ lệ huấn luyện 65% Naive Bayes lựa chọn phù hợp 2 Thuật toán KNN + Tiến hành thực nghiệm với số K láng riêng 10 cách tính khoảng cách Euclidean + Tiến hành thực nghiệm lần với tỉ lệ huấn luyện sau      L1 : tập liệu với tỷ lệ huấn luyện 50% L2 : tập liệu với tỷ lệ huấn luyện 60% L3 : tập liệu với tỷ lệ huấn luyện 70% L4 : tập liệu với tỷ lệ huấn luyện 80% L5 : tập liệu với tỷ lệ huấn luyện 90% Lần thử Tỉ lệ huấn luyện/kiểm thử Tổng số ghi 50/50 958 Số mẫu phân lớp 411 Số mẫu phân lớp sai 168 Tỉ lệ phân Tỉ lệ phân Thời gian lớp lớp sai 85.8038 % 14.1962 % 0.18 s 60/40 70/30 80/20 958 958 958 352 280 187 31 5 90/10 958 95  91.906% 97.561 % 97.3958 % 98.9583 % 8.049% 2.439 % 2.6042% 0.03 s 0.14 s 0.03 s 1.0417% 0.01 s Từ lần chạy thực nghiệm thực hiện, ta thấy lần chạy L5 đạt hiệu cao với tỷ lệ phân lớp 98.9583 % Như chạy thực nghiệm liệu với tỷ lệ huấn luyện 90% KNN lựa chọn phù hợp Tổng kết   Thuật tốn KNN có tốc độ chậm lại cho kết xác cao với tập liêu huấn luyện 70% đạt đọ xác 90% Thuật tốn Naive Bayes có tốc độ cao lại cho kết xác thấp khoang 70% ... thực nghiệm lần với tỉ lệ huấn luyện sau      L1 : tập liệu với tỷ lệ huấn luyện 50% L2 : tập liệu với tỷ lệ huấn luyện 60% L3 : tập liệu với tỷ lệ huấn luyện 70% L4 : tập liệu với tỷ lệ huấn... https://github.com/tertiarycourses /Weka/ blob/master /Weka% 20datasets/tic-tactoe.arff Mô tả tập liệu  Tập liệu gồm 958 trường hợp kết thúc trò chơi với chiến thắng  Tập liệu có thuộc tính tương ứng với ô vuông ... {negative,positive}  Thơng tin thuộc tính o b : ô trống o x : người chơi x sử dụng ô o o : người chơi o sử dụng ô Chuẩn hóa liệu : liệu down dạng chuẩn weka III Sử dụng weka để tiến hành thực nghiệm

Ngày đăng: 27/04/2022, 05:31

Tài liệu cùng người dùng

Tài liệu liên quan