Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 39 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
39
Dung lượng
0,95 MB
Nội dung
ỦY BAN NHÂN DÂN THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC SÀI GỊN KHOA CƠNG NGHỆ THƠNG TIN - - TIỂU LUẬN HỌC PHẦN SEMINAR CHUYÊN ĐỀ THUẬT TOÁN MÁY HỌC PHÂN LỚP DỮ LIỆU K-NEAREST NEIGHBOR (KNN) Sinh viên: Nguyễn Thanh Phúc - 3118410338 Tô Hồng Phúc - 3118410339 Lê Ngô Quyền – 3118410360 GVHD: TS Phan Tấn Quốc Thành phố Hồ Chí Minh, năm 2022 download by : skknchat@gmail.com MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH ẢNH, ĐỒ THỊ MỞ ĐẦU Đặt vấn đề .7 Hình Mối quan hệ AI, Machine Learning Deep Learning Mục đích nghiên cứu Phạm vi đối tượng nghiên cứu Nội dung thực Cấu trúc đề tài CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1.Machine Learning 1.1.1 Định nghĩa 1.1.2 Một số phương thức Machine Learning .9 Hình 1.1.2: Ví dụ mơ hình phân lớp 10 1.2 Bài toán phân lớp liệu 11 1.2.1 Quá trình phân lớp liệu 11 CHƯƠNG 2: THUẬT TOÁN K-NEAREST NEIGHBOR 12 2.1 Thuật toán k-nearest neighbor 12 2.1.1 Định nghĩa 12 2.1.2 Quy trình làm việc thuật tốn KNN 12 2.1.3 Ví dụ minh họa 13 Hình 2.1.3 ví dụ minh họa thuật toán KNN 13 download by : skknchat@gmail.com 2.1.4 Ví dụ Knn nhiễu 14 Hình 2.1.4 Bản đồ minh họa KNN nhiễu với k=1 14 2.1.5 Ưu điểm, nhược điểm thuật toán 14 2.2 Khoảng cách không gian vector 15 2.2.1 Định nghĩa 15 2.2.2 Một số norm thường dùng 15 Hình 2.2.2 Norm norm không gian hai chiều .16 CHƯƠNG 3: THỰC NGHIỆM 17 3.1 Bộ liệu Iris flower dataset 17 3.1.1 Giới thiệu 17 Hình 3.1.1 Hình ảnh minh họa Iris flower dataset 18 3.1.2 Sử dụng tập liệu 18 Hình 3.1.2 Sơ đồ minh họa phân cụm Iris flower datasets 19 3.1.3 Tập liệu 19 Bảng 1: Thơng tin lồi Setosa 19 Bảng 2: Thơng tin lồi Versicolor 21 Bảng 3: Thơng tin lồi Virginica 22 3.2 Cài đặt 24 3.2.1 Cài đặt python 3.6 24 3.2.2 Thử nghiệm 30 Hình 3.2.2 Mơ hình tốn 30 CHƯƠNG 4: KẾT LUẬN 37 TÀI LIỆU THAM KHẢO 38 download by : skknchat@gmail.com STT 4 download by : skknchat@gmail.com STT download by : skknchat@gmail.com DANH MỤC HÌNH ẢNH, ĐỒ STT download by : skknchat@gmail.com MỞ ĐẦU Đặt vấn đề Những năm gần đây, AI lên môt chứng cuôc cách mạng công nghiệp lần thứ tư Trí tuệ nhân tạo được định nghĩa mơt nghành khoa học máy tính liên quan đến việc tự đơng hóa hành vi thơng minh Trí tuệ nhân tạo mơt bơ phận khoa học máy tính phải được đặt những nguyên lý lý thuyết vững chắc, có khả ứng dụng được lĩnh vực Ở thời điểm tại, thuật ngữ thường dùng để nói đến máy tính có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo Theo đà phát triển công nghệ, ứng dụng trí tuệ nhân tạo ln xu hướng cơng nghệ tương lai mà hãng cơng nghệ tồn giới đua sáng tạo, tảng cốt lõi cuốc cách mạng công nghệ 4.0 ML (Machine Learning) mơt lĩnh vực trí tuệ nhân tạo, được sinh từ khả nhận diện mẫu từ lý thuyết máy tính học mà khơng cần phải lập trình để xử lý nhiệm vụ cụ thể Hầu hết nghành cơng nghiệp làm việc với hàm lượng lớn dữ liệu nhận tầm quan trọng công nghệ ML Những nhìn sáng suốt từ nguồn dữ liệu – chủ yếu dạng thời gian thực – giúp tổ chức vận hành hiệu tạo lợi cạnh tranh so với đối thủ Các ứng dụng ML đã quen thuôc với người: xe tự hành Google Tesla, hệ thống tự tag khuôn mặt Facebook, hệ thống gợi ý sản phẩm Amazon, hệ thống gợi ý phim Netflix…, môt vài những ứng dụng trí tuệ nhân tạo cụ thể ML Hình Mối quan hệ AI, Machine Learning Deep Learning download by : skknchat@gmail.com Xu hướng phát triển công nghệ thông tin ngày tăng, song song với lượng dữ liệu được sinh ngày mơt lớn Vì nhu cầu để xử lý dữ liệu lớn hơn, ML góp phần giải vấn đề Mơt những thuật tốn thường dùng ML thuật tốn K- nearest neighbor Ứng dụng thuật toán được sử dụng nhiều rơng rãã̃i tốn phân lớp Mục đích nghiên cứu Nghiên cứu, tìm hiểu thuật toán KNN Đánh giá hiệu thuật toán Phạm vi đối tượng nghiên cứu Phạm vi nghiên cứu: Thử nghiệm Iris flower dataset Đối tượng nghiên cứu: Thuật tốn KNN bơ Iris flower dataset Nội dung thực Tìm hiểu thuật tốn KNN Làm quen với bô dữ liệu Iris Sử dụng bô dữ liệu vào thử nghiệm đánh giá Cấu trúc đề tài Mở đầu Chương 1: Cơ sở lý thuyết Chương 2: Thuật toán K-nearest neighbor Chương 3: Thực nghiệm Chương 4: Kết luận Qua đây, nhóm em xin trân trọng cảm ơn tiến sĩ Phan Tấn Quốc đãã̃ hướng dẫn nhóm em q trình thực tiểu luận download by : skknchat@gmail.com CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1.Machine Learning 1.1.1 Định nghĩa Là môt lĩnh vực trí tuệ nhân tạo liên qua đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống học tự đông từ dữ liệu để giải vấn đề cụ thể Ví dụ máy học cách phân loại thư điện tử có phải thư rác hay khơng tự đơng xếp vào thư mục tương ứng Machine Learning có liên quan đến thống kê hai lĩnh vực nghiên cứu việc phân tích dữ liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Machine Learning có được áp dụng rơng rãã̃i bao gồm máy truy tìm dữ liệu, máy phân tích thị trường chứng khốn, nhận dạng tiếng nói chữ viết… 1.1.2 Một số phương thức Machine Learning Học có giám sát: Thuật tốn dự đốn đầu môt dữ liệu (new input) dựa cặp (input, outcome) đã biết từ trước Cặp dữ liệu được gọi (data, label), tức (dữã̃ liêu, nhãã̃n) Supervised learning nhóm phổ biến thuật tốn Machine Learning Học có giám sát được chia thành hai loại chính: Classification (phân lớp): Là q trình phân lớp môt đối tượng dữ liệu vào môt hay nhiều lớp đã cho trước nhờ mơt mơ hình phân lớp (model) Mơ hình được xây dựng dựa mơt tập dữ liệu được xây dựng trước có gán nhãn (hay gọi tập huấn luyện) Quá trình phân lớp trình gán nhãã̃n cho đối tượng dữ liệu Hình 1.1.2: Ví dụ mơ hình phân lớp download by : skknchat@gmail.com Có nhiều toán phân lớp phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị Trong phân lớp nhị phân môt loại phân lớp đặc biệt phân lớp đa lớp Ứng dụng toán phân lớp được sử dụng nhiều rông rãi nhận dạng khuôn mặt, nhận dạng chữ viết, nhận dạng giọng nói, phát thư rác… Regression (hồi quy): Nếu khơng được chia thành nhóm mà mơt giá trị thực cụ thể Đầu môt điểm dữ liệu đầu điểm dữ liệu đã biết Học không giám sát: môt kĩ thuật máy học nhằm tìm mơt mơ hình hay cấu trúc bị ẩn bơi tập dữ liệu không được gán nhãã̃n cho trước UL khác với SL xác định trước output từ tập dữ liệu huấn luyện được Tùy thuôc vào tập huấn luyện kết output khác Trái ngược với SL, tập dữ liệu huấn luyện UL không người gán nhãã̃n, máy tính phải tự học hồn tồn Có thể nói, học khơng giám sát giá trị đầu phụ thc vào thuật tốn UL Ứng dụng lớn phổ biến học không giám sát toán phân cụm Học bán giám sát: Các toán có mơt số lượng lớn dữ liệu mơt phần chúng được dán nhãã̃n Những tốn nằm giữa phương thưc học giám sát học khơng giám sát 1.2 Bài tốn phân lớp liệu 1.2.1 Quá trình phân lớp liệu Để xây dựng được mơ hình phân lớp đánh giá hiệu mơ hình cần phải thực q trình sau đây: Bước 1: Chuẩn bị tập dữ liệu huấn luyện rút trích đặc trưng Cơng đoạn được xem cơng đoạn quan trọng tốn ML input cho việc học đẻ tìm mơ hình tốn Chúng ta phải biết cần chọn những đặc trưng tốt dữ liệu, lược bỏ những đặc trưng không tốt dữ liệu, gây nhiễu Ước lượng số chiều dữ liệu tốt hay nói cách khác chọn feature Nếu số nhiều lớn gây khó khăn cho việc tính tốn phải giảm số chiều dữ liệu giữ được xác dữ liệu Ở bước chuẩn bị bơ dữ liệu để test mơ hình Thơng thường sử dụng cross-validation (kiểm tra chéo) để chia tập dataset thành hai phàn, môt phần phục vụ cho training phần cịn lại phục vụ cho mục đích testing mơ hình Có hai cách thường sử dụng cross-validation splitting k-fold 10 download by : skknchat@gmail.com Khi tải hoàn tất ta bắt đầu tiến hành cài đặt: Nhấp đúp vào tệp vừa tải đẻ cài đặt Tại có hai lựa chọn: Install now: Mặc định cài python vào ổ C, cài sẵn IDLE, pip tài liệu… Customize installation: cho phép chọn cài đặt tính cần thiết 24 download by : skknchat@gmail.com ... mơ hình phân lớp 10 1.2 Bài toán phân lớp liệu 11 1.2.1 Quá trình phân lớp liệu 11 CHƯƠNG 2: THUẬT TOÁN K- NEAREST NEIGHBOR 12 2.1 Thuật toán k- nearest neighbor. .. trình phân lớp trình gán nhãã̃n cho đối tượng dữ liệu Hình 1.1.2: Ví dụ mơ hình phân lớp download by : skknchat@gmail.com Có nhiều tốn phân lớp phân lớp nhị phân, phân lớp đa lớp, phân lớp đa... tham số thuật toán học để tìm mơ hình tốt kiểm tra, đánh giá lại mơ hình phân lớp cuối chọn mơ hình phân lớp tốt cho toán 11 download by : skknchat@gmail.com CHƯƠNG 2: THUẬT TỐN K- NEAREST NEIGHBOR