1. Trang chủ
  2. » Giáo Dục - Đào Tạo

TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

38 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiểu Luận Học Phần Seminar Chuyên Đề Thuật Toán Máy Học Phân Lớp Dữ Liệu K-Nearest Neighbor (KNN)
Tác giả Nguyễn Thanh Phúc, Tô Hồng Phúc, Lê Ngô Quyền
Người hướng dẫn TS. Phan Tấn Quốc
Trường học Trường Đại Học Sài Gòn
Chuyên ngành Công Nghệ Thông Tin
Thể loại tiểu luận
Năm xuất bản 2022
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 38
Dung lượng 1,07 MB

Nội dung

ỦY BAN NHÂN DÂN THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC SÀI GỊN KHOA CƠNG NGHỆ THƠNG TIN - - TIỂU LUẬN HỌC PHẦN SEMINAR CHUYÊN ĐỀ THUẬT TOÁN MÁY HỌC PHÂN LỚP DỮ LIỆU K-NEAREST NEIGHBOR (KNN) Sinh viên: Nguyễn Thanh Phúc - 3118410338 Tô Hồng Phúc - 3118410339 Lê Ngô Quyền – 3118410360 GVHD: TS Phan Tấn Quốc Thành phố Hồ Chí Minh, năm 2022 MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH ẢNH, ĐỒ THỊ MỞ ĐẦU Đặt vấn đề Hình Mối quan hệ AI, Machine Learning Deep Learning Mục đích nghiên cứu Phạm vi đối tượng nghiên cứu Nội dung thực Cấu trúc đề tài CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1.Machine Learning 1.1.1 Định nghĩa 1.1.2 Một số phương thức Machine Learning .9 Hình 1.1.2: Ví dụ mơ hình phân lớp 10 1.2 Bài toán phân lớp liệu 11 1.2.1 Quá trình phân lớp liệu 11 CHƯƠNG 2: THUẬT TOÁN K-NEAREST NEIGHBOR .12 2.1 Thuật toán k-nearest neighbor 12 2.1.1 Định nghĩa 12 2.1.2 Quy trình làm việc thuật toán KNN 12 2.1.3 Ví dụ minh họa .13 Hình 2.1.3 ví dụ minh họa thuật tốn KNN 13 2.1.4 Ví dụ Knn nhiễu 14 Hình 2.1.4 Bản đồ minh họa KNN nhiễu với k=1 14 2.1.5 Ưu điểm, nhược điểm thuật toán 14 2.2 Khoảng cách không gian vector 15 2.2.1 Định nghĩa 15 2.2.2 Một số norm thường dùng 15 Hình 2.2.2 Norm norm không gian hai chiều .16 CHƯƠNG 3: THỰC NGHIỆM 17 3.1 Bộ liệu Iris flower dataset 17 3.1.1 Giới thiệu 17 Hình 3.1.1 Hình ảnh minh họa Iris flower dataset .18 3.1.2 Sử dụng tập liệu 18 Hình 3.1.2 Sơ đồ minh họa phân cụm Iris flower datasets .19 3.1.3 Tập liệu 19 Bảng 1: Thơng tin lồi Setosa 19 Bảng 2: Thơng tin lồi Versicolor 21 Bảng 3: Thông tin loài Virginica .22 3.2 Cài đặt 24 3.2.1 Cài đặt python 3.6 24 3.2.2 Thử nghiệm 30 Hình 3.2.2 Mơ hình toán 30 CHƯƠNG 4: KẾT LUẬN 37 TÀI LIỆU THAM KHẢO 38 STT DANH MỤC TỪ VIẾT TẮT Từ viết tắt Ý nghĩa AI Artificial Intelligence ML Machine Learning SVM Support Vector Machine KNN K- nearest neighbor STT DANH MỤC BẢNG BIỂU Tên Bảng Nội dung Bảng Thông tin lồi hoa Setosa Bảng Thơng tin lồi hoa Versicolor Bảng Thơng tin lồi hoa Virginica STT DANH MỤC HÌNH ẢNH, ĐỒ THỊ Tên hình ảnh, đồ thị Nội dung Hình Mối quan hệ giữa AI, Machine Learning Deep Learning Hình 1.1.2 Ví dụ mơ hình phân lớp Hình 2.1.3 Ví dụ minh họa thuật tốn KNN Hình 2.1.4 Bản đồ minh họa knn nhiễu với k=1 Hình 2.2.2 Norm norm khơng gian hai chiều Hình 3.1.1 Hình ảnh minh họa Iris flower dataset Hình 3.1.2 Sơ đồ minh họa phân cụm Iris flower datasets Hình 3.2.2 Mơ hình toán MỞ ĐẦU Đặt vấn đề  Những năm gần đây, AI lên một chứng c̣c cách mạng cơng nghiệp lần thứ tư Trí tuệ nhân tạo được định nghĩa mợt nghành khoa học máy tính liên quan đến việc tự đợng hóa hành vi thơng minh Trí tuệ nhân tạo một bộ phận khoa học máy tính phải được đặt những nguyên lý lý thuyết vững chắc, có khả ứng dụng được lĩnh vực Ở thời điểm tại, thuật ngữ thường dùng để nói đến máy tính có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo  Theo đà phát triển cơng nghệ, ứng dụng trí tuệ nhân tạo xu hướng công nghệ tương lai mà hãng cơng nghệ tồn giới đua sáng tạo, tảng cốt lõi cuốc cách mạng công nghệ 4.0  ML (Machine Learning) mợt lĩnh vực trí tuệ nhân tạo, được sinh từ khả nhận diện mẫu từ lý thuyết máy tính học mà khơng cần phải lập trình để xử lý nhiệm vụ cụ thể  Hầu hết nghành cơng nghiệp làm việc với hàm lượng lớn dữ liệu nhận tầm quan trọng công nghệ ML Những nhìn sáng suốt từ nguồn dữ liệu – chủ yếu dạng thời gian thực – giúp tổ chức vận hành hiệu tạo lợi cạnh tranh so với đối thủ  Các ứng dụng ML đã quen thuộc với người: xe tự hành Google Tesla, hệ thống tự tag khuôn mặt Facebook, hệ thống gợi ý sản phẩm Amazon, hệ thống gợi ý phim Netflix…, một vài những ứng dụng trí tuệ nhân tạo cụ thể ML Hình Mối quan hệ AI, Machine Learning Deep Learning  Xu hướng phát triển công nghệ thơng tin ngày tăng, song song với lượng dữ liệu được sinh ngày một lớn Vì nhu cầu để xử lý dữ liệu lớn hơn, ML góp phần giải vấn đề Mợt những thuật tốn thường dùng ML thuật tốn K- nearest neighbor  Ứng dụng thuật toán được sử dụng nhiều rợng rãi tốn phân lớp Mục đích nghiên cứu  Nghiên cứu, tìm hiểu thuật tốn KNN  Đánh giá hiệu thuật toán Phạm vi đối tượng nghiên cứu  Phạm vi nghiên cứu: Thử nghiệm Iris flower dataset  Đối tượng nghiên cứu: Thuật tốn KNN bợ Iris flower dataset Nội dung thực  Tìm hiểu thuật tốn KNN  Làm quen với bợ dữ liệu Iris  Sử dụng bộ dữ liệu vào thử nghiệm đánh giá Cấu trúc đề tài  Mở đầu  Chương 1: Cơ sở lý thuyết  Chương 2: Thuật toán K-nearest neighbor  Chương 3: Thực nghiệm  Chương 4: Kết luận Qua đây, nhóm em xin trân trọng cảm ơn tiến sĩ Phan Tấn Quốc hướng dẫn nhóm em q trình thực tiểu luận CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1.Machine Learning 1.1.1 Định nghĩa  Là mợt lĩnh vực trí tuệ nhân tạo liên qua đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống học tự động từ dữ liệu để giải vấn đề cụ thể Ví dụ máy học cách phân loại thư điện tử có phải thư rác hay không tự động xếp vào thư mục tương ứng  Machine Learning có liên quan đến thống kê hai lĩnh vực nghiên cứu việc phân tích dữ liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn  Machine Learning có được áp dụng rợng rãi bao gồm máy truy tìm dữ liệu, máy phân tích thị trường chứng khốn, nhận dạng tiếng nói chữ viết… 1.1.2 Một số phương thức Machine Learning  Học có giám sát: Thuật tốn dự đốn đầu một dữ liệu (new input) dựa cặp (input, outcome) đã biết từ trước Cặp dữ liệu được gọi (data, label), tức (dữ liệu, nhãn) Supervised learning nhóm phổ biến thuật tốn Machine Learning  Học có giám sát được chia thành hai loại chính:  Classification (phân lớp): Là q trình phân lớp mợt đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp (model) Mơ hình được xây dựng dựa một tập dữ liệu được xây dựng trước có gán nhãn (hay cịn gọi tập huấn luyện) Quá trình phân lớp trình gán nhãn cho đối tượng dữ liệu Hình 1.1.2: Ví dụ mơ hình phân lớp Có nhiều tốn phân lớp phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị Trong phân lớp nhị phân một loại phân lớp đặc biệt phân lớp đa lớp Ứng dụng toán phân lớp được sử dụng nhiều rộng rãi nhận dạng khn mặt, nhận dạng chữ viết, nhận dạng giọng nói, phát thư rác…  Regression (hồi quy): Nếu không được chia thành nhóm mà mợt giá trị thực cụ thể Đầu một điểm dữ liệu đầu điểm dữ liệu đã biết  Học không giám sát: một kĩ thuật máy học nhằm tìm mợt mơ hình hay cấu trúc bị ẩn bơi tập dữ liệu không được gán nhãn cho trước UL khác với SL xác định trước output từ tập dữ liệu huấn luyện được Tùy thuộc vào tập huấn luyện kết output khác Trái ngược với SL, tập dữ liệu huấn luyện UL không người gán nhãn, máy tính phải tự học hồn tồn Có thể nói, học khơng giám sát giá trị đầu phụ tḥc vào thuật tốn UL Ứng dụng lớn phổ biến học không giám sát toán phân cụm  Học bán giám sát: Các tốn có mợt số lượng lớn dữ liệu một phần chúng được dán nhãn Những toán nằm giữa phương thưc học giám sát học khơng giám sát 1.2 Bài tốn phân lớp liệu 1.2.1 Quá trình phân lớp liệu  Để xây dựng được mơ hình phân lớp đánh giá hiệu mơ hình cần phải thực q trình sau đây: Bước 1: Chuẩn bị tập dữ liệu huấn luyện rút trích đặc trưng Cơng đoạn được xem công đoạn quan trọng tốn ML input cho việc học đẻ tìm mơ hình tốn Chúng ta phải biết cần chọn những đặc trưng tốt dữ liệu, lược bỏ những đặc trưng không tốt dữ liệu, gây nhiễu Ước lượng số chiều dữ liệu tốt hay nói cách khác chọn feature Nếu số nhiều lớn gây khó khăn cho việc tính tốn phải giảm số chiều dữ liệu giữ được đợ xác dữ liệu Ở bước chuẩn bị bợ dữ liệu để test mơ hình Thông thường sử dụng cross-validation (kiểm tra chéo) để chia tập dataset thành hai phàn, một phần phục vụ cho training phần lại phục vụ cho mục đích testing mơ hình Có hai cách thường sử dụng cross-validation splitting k-fold 10 Khi tải hoàn tất ta bắt đầu tiến hành cài đặt: Nhấp đúp vào tệp vừa tải đẻ cài đặt Tại có hai lựa chọn: Install now: Mặc định cài python vào ổ C, cài sẵn IDLE, pip tài liệu… Customize installation: cho phép chọn cài đặt tính cần thiết 24 Đợi lúc để hồn tất việc cài đặt Khi đã cài đặt xong, mở IDLE để chạy thử một đoạn code sau: 25 ... mơ hình phân lớp 10 1.2 Bài toán phân lớp liệu 11 1.2.1 Quá trình phân lớp liệu 11 CHƯƠNG 2: THUẬT TOÁN K- NEAREST NEIGHBOR .12 2.1 Thuật toán k- nearest neighbor. .. Quá trình phân lớp trình gán nhãn cho đối tượng dữ liệu Hình 1.1.2: Ví dụ mơ hình phân lớp Có nhiều tốn phân lớp phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị Trong phân lớp nhị phân mợt... cuối chọn mơ hình phân lớp tốt cho toán 11 CHƯƠNG 2: THUẬT TỐN K- NEAREST NEIGHBOR 2.1 Thuật tốn k- nearest neighbor 2.1.1 Định nghĩa K- nearest neighbor (KNN) một những thuật tốn học có giám sát

Ngày đăng: 23/04/2022, 06:47

HÌNH ẢNH LIÊN QUAN

DANH MỤC BẢNG BIỂU - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
DANH MỤC BẢNG BIỂU (Trang 5)
Hình 1. Mối quan hệ giữa AI, MachineLearning và Deep Learning - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
Hình 1. Mối quan hệ giữa AI, MachineLearning và Deep Learning (Trang 7)
Hình 1.1.2: Ví dụ về mô hình phân lớp - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
Hình 1.1.2 Ví dụ về mô hình phân lớp (Trang 9)
Hình 2.1.3. ví dụ minh họa thuật toán KNN - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
Hình 2.1.3. ví dụ minh họa thuật toán KNN (Trang 12)
 Ta dễ dàng nhìn thấy có hai loại: hình vuông màu xanh biểu diễn cho những người là fan của K-pop, tam giác màu đỏ biểu diễn cho những người không là fan của K-pop,  hình tròn màu xanh là người bạn mình muốn biết có phải là fan K-pop hay không,  khoả - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
a dễ dàng nhìn thấy có hai loại: hình vuông màu xanh biểu diễn cho những người là fan của K-pop, tam giác màu đỏ biểu diễn cho những người không là fan của K-pop, hình tròn màu xanh là người bạn mình muốn biết có phải là fan K-pop hay không, khoả (Trang 13)
 Dựa trên mô hình phân biệt tuyến tính của Fisher, bộ dữ liệu này đã trở thành trường hợp thử nghiệm điển hình cho nhiều kỹ thuật phân loại thống kê trong học máy như  máy vector hỗ trợ. - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
a trên mô hình phân biệt tuyến tính của Fisher, bộ dữ liệu này đã trở thành trường hợp thử nghiệm điển hình cho nhiều kỹ thuật phân loại thống kê trong học máy như máy vector hỗ trợ (Trang 17)
Hình 3.1.1. Hình ảnh minh họa về Iris flower dataset - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
Hình 3.1.1. Hình ảnh minh họa về Iris flower dataset (Trang 17)
Hình 3.1.2. Sơ đồ minh họa phân cụm của Iris flower datasets - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
Hình 3.1.2. Sơ đồ minh họa phân cụm của Iris flower datasets (Trang 18)
 Tuy nhiên, cả ba loài Iris đều có thể tách rời trong hình chiếu trên thành phần chính phân nhánh phi tuyến - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
uy nhiên, cả ba loài Iris đều có thể tách rời trong hình chiếu trên thành phần chính phân nhánh phi tuyến (Trang 18)
Bảng 2: Thông tin loài Versicolor - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
Bảng 2 Thông tin loài Versicolor (Trang 20)
Xuất hiện trang như hình dưới: Nhấp chuột vào Downloads và chọn Windows. - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
u ất hiện trang như hình dưới: Nhấp chuột vào Downloads và chọn Windows (Trang 23)
3.2.1. Cài đặt python 3.6 - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
3.2.1. Cài đặt python 3.6 (Trang 23)
Hình 3.2.2. Mô hình bài toán - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
Hình 3.2.2. Mô hình bài toán (Trang 29)
3.2.2. Thử nghiệm - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
3.2.2. Thử nghiệm (Trang 29)
w