TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

35 13 0
TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ỦY BAN NHÂN DÂN THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC SÀI GỊN KHOA CƠNG NGHỆ THƠNG TIN - - TIỂU LUẬN HỌC PHẦN SEMINAR CHUYÊN ĐỀ THUẬT TOÁN MÁY HỌC PHÂN LỚP DỮ LIỆU K-NEAREST NEIGHBOR (KNN) Sinh viên: Nguyễn Thanh Phúc - 3118410338 Tô Hồng Phúc - 3118410339 Lê Ngô Quyền – 3118410360 GVHD: TS Phan Tấn Quốc Thành phố Hồ Chí Minh, năm 2022 MỤC LỤC STT DANH MỤC TỪ VIẾT TẮT Từ viết tắt Ý nghĩa AI Artificial Intelligence ML Machine Learning SVM Support Vector Machine KNN K- nearest neighbor STT DANH MỤC BẢNG BIỂU Tên Bảng Nội dung Bảng Thông tin lồi hoa Setosa Bảng Thơng tin lồi hoa Versicolor Bảng Thơng tin lồi hoa Virginica STT DANH MỤC HÌNH ẢNH, ĐỒ THỊ Tên hình ảnh, đồ thị Nội dung Hình Mối quan hệ giữa AI, Machine Learning Deep Learning Hình 1.1.2 Ví dụ mơ hình phân lớp Hình 2.1.3 Ví dụ minh họa thuật tốn KNN Hình 2.1.4 Bản đồ minh họa knn nhiễu với k=1 Hình 2.2.2 Norm norm khơng gian hai chiều Hình 3.1.1 Hình ảnh minh họa Iris flower dataset Hình 3.1.2 Sơ đồ minh họa phân cụm Iris flower datasets Hình 3.2.2 Mơ hình tốn MỞ ĐẦU Đặt vấn đề • Những năm gần đây, AI lên chứng cách mạng cơng nghiệp lần thứ tư Trí tuệ nhân tạo được định nghĩa nghành khoa học máy tính liên quan đến việc tự động hóa hành vi thơng minh Trí tuệ nhân tạo phận khoa học máy tính phải được đặt những nguyên lý lý thuyết vững chắc, có khả ứng dụng được lĩnh vực Ở thời điểm tại, thuật ngữ thường dùng để nói đến máy tính có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo • Theo đà phát triển cơng nghệ, ứng dụng trí tuệ nhân tạo xu hướng công nghệ tương lai mà hãng cơng nghệ tồn giới đua sáng tạo, tảng cốt lõi cuốc cách mạng cơng nghệ 4.0 • ML (Machine Learning) lĩnh vực trí tuệ nhân tạo, được sinh từ khả nhận diện mẫu từ lý thuyết máy tính học mà khơng cần phải lập trình để xử lý nhiệm vụ cụ thể • Hầu hết nghành cơng nghiệp làm việc với hàm lượng lớn dữ liệu nhận tầm quan trọng công nghệ ML Những nhìn sáng suốt từ nguồn dữ liệu – chủ yếu dạng thời gian thực – giúp tổ chức vận hành hiệu tạo lợi cạnh tranh so với đối thủ • Các ứng dụng ML đã quen thuộc với người: xe tự hành Google Tesla, hệ thống tự tag khuôn mặt Facebook, hệ thống gợi ý sản phẩm Amazon, hệ thống gợi ý phim Netflix…, vài những ứng dụng trí tuệ nhân tạo cụ thể ML Hình Mối quan hệ AI, Machine Learning Deep Learning Xu hướng phát triển công nghệ thông tin ngày tăng, song song với lượng dữ liệu được sinh ngày lớn Vì nhu cầu để xử lý dữ liệu lớn hơn, ML góp phần giải vấn đề Một những thuật tốn thường dùng ML thuật tốn K- nearest neighbor • Ứng dụng thuật toán được sử dụng nhiều rộng rãi tốn phân lớp • Mục đích nghiên cứu • Nghiên cứu, tìm hiểu thuật tốn KNN • Đánh giá hiệu thuật toán Phạm vi đối tượng nghiên cứu • Phạm vi nghiên cứu: Thử nghiệm Iris flower dataset • Đối tượng nghiên cứu: Thuật toán KNN Iris flower dataset Nội dung thực • Tìm hiểu thuật tốn KNN • Làm quen với dữ liệu Iris • Sử dụng dữ liệu vào thử nghiệm đánh giá Cấu trúc đề tài • Mở đầu • Chương 1: Cơ sở lý thuyết • Chương 2: Thuật tốn K-nearest neighbor • Chương 3: Thực nghiệm • Chương 4: Kết luận Qua đây, nhóm em xin trân trọng cảm ơn tiến sĩ Phan Tấn Quốc đã hướng dẫn nhóm em q trình thực tiểu luận CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1.Machine Learning 1.1.1 Định nghĩa • Là lĩnh vực trí tuệ nhân tạo liên qua đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống học tự động từ dữ liệu để giải vấn đề cụ thể Ví dụ máy học cách phân loại thư điện tử có phải thư rác hay không tự động xếp vào thư mục tương ứng • Machine Learning có liên quan đến thống kê hai lĩnh vực nghiên cứu việc phân tích dữ liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn • Machine Learning có được áp dụng rộng rãi bao gồm máy truy tìm dữ liệu, máy phân tích thị trường chứng khốn, nhận dạng tiếng nói chữ viết… 1.1.2 Một số phương thức Machine Learning • Học có giám sát: Thuật tốn dự đốn đầu dữ liệu (new input) dựa cặp (input, outcome) đã biết từ trước Cặp dữ liệu được gọi (data, label), tức (dữ liệu, nhãn) Supervised learning nhóm phổ biến thuật tốn Machine Learning • Học có giám sát được chia thành hai loại chính: + Classification (phân lớp): Là trình phân lớp đối tượng dữ liệu vào hay nhiều lớp đã cho trước nhờ mơ hình phân lớp (model) Mơ hình được xây dựng dựa tập dữ liệu được xây dựng trước có gán nhãn (hay cịn gọi tập huấn luyện) Quá trình phân lớp trình gán nhãn cho đối tượng dữ liệu Hình 1.1.2: Ví dụ mơ hình phân lớp Có nhiều tốn phân lớp phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị Trong phân lớp nhị phân loại phân lớp đặc biệt phân lớp đa lớp Ứng dụng toán phân lớp được sử dụng nhiều rộng rãi nhận dạng khuôn mặt, nhận dạng chữ viết, nhận dạng giọng nói, phát thư rác… Regression (hồi quy): Nếu không được chia thành nhóm mà giá trị thực cụ thể Đầu điểm dữ liệu đầu điểm dữ liệu đã biết • Học không giám sát: kĩ thuật máy học nhằm tìm mơ hình hay cấu trúc bị ẩn bơi tập dữ liệu không được gán nhãn cho trước UL khác với SL xác định trước output từ tập dữ liệu huấn luyện được Tùy thuộc vào tập huấn luyện kết output khác Trái ngược với SL, tập dữ liệu huấn luyện UL không người gán nhãn, máy tính phải tự học hồn tồn Có thể nói, học khơng giám sát giá trị đầu phụ thuộc vào thuật toán UL Ứng dụng lớn phổ biến học khơng giám sát tốn phân cụm • Học bán giám sát: Các tốn có số lượng lớn dữ liệu phần chúng được dán nhãn Những toán nằm giữa phương thưc học giám sát học không giám sát + 1.2 Bài toán phân lớp liệu 1.2.1 Q trình phân lớp liệu • Để xây dựng được mơ hình phân lớp đánh giá hiệu mơ hình cần phải thực q trình sau đây: Bước 1: Chuẩn bị tập dữ liệu huấn luyện rút trích đặc trưng Cơng đoạn được xem cơng đoạn quan trọng tốn ML input cho việc học đẻ tìm mơ hình tốn Chúng ta phải biết cần chọn những đặc trưng tốt dữ liệu, lược bỏ những đặc trưng không tốt dữ liệu, gây nhiễu Ước lượng số chiều dữ liệu tốt hay nói cách khác chọn feature Nếu số nhiều lớn gây khó khăn cho việc tính tốn phải giảm số chiều dữ liệu giữ được độ xác dữ liệu Ở bước chuẩn bị dữ liệu để test mơ hình Thơng thường sử dụng cross-validation (kiểm tra chéo) để chia tập dataset thành hai phàn, phần phục vụ cho training phần cịn lại phục vụ cho mục đích testing mơ hình Có hai cách thường sử dụng cross-validation splitting k-fold Bước 2: Xây dựng mơ hình phân lớp Mục đích mơ hình huấn luyện tìm hàm F(x) thơng qua hàm f tìm được để gán nhãn cho dữ liệu Bước thường được gọi học hay training F(x)= y Trong đó: x feature hay input đầu vào dữ liệu y nhãn dán lớp hay output đầu Thông thường để xây dựng mơ hình phân lớp cho tốn sử dungjcacs thuật toán học giám sát KNN, NN, SVM, Decision tree, Navie Bayers Bước 3: Kiểm tra dữ liệu với mơ hình Sau tìm được mơ hình phân lớp bước hai, bước đưa vào dữ liệu đẻ kiểm tra mơ hình phân lớp Bước 4: Đánh giá mơ hình phân lớp chọn mơ hình tốt Bước cuối đánh giá mơ hình cách đánh giá mức độ lỗi dữ liệu testing dữ liệu training thơng qua mơ hình tìm được Nếu không đạt được kết mong muốn phải thay đổi tham số thuật tốn học để tìm mơ hình tốt kiểm tra, đánh giá lại mơ hình phân lớp cuối chọn mơ hình phân lớp tốt cho toán CHƯƠNG 2: THUẬT TỐN K-NEAREST NEIGHBOR 2.1 Thuật tốn k-nearest neighbor 2.1.1 Định nghĩa K-nearest neighbor (KNN) những thuật tốn học có giám sát đơn giản Machine Learning Ý tưởng KNN tìm output dữ kiệu dựa thông tin những dữ liệu training gần 2.1.2 Quy trình làm việc thuật toán KNN Bước 1: Xác định tham số K= số láng giềng gần Bước 2: Tính khoảng cách đối tượng cần phân lớp với tất đối tượng training data Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần xác định K láng giềng gần với đối tượng cần phân lớp Bước 4: Lấy tất lớp K láng giềng gần Bước 5: Dựa vào phần lớn lớp K để xác định lớp cho đối tượng cần phân lớp 2.1.3 Ví dụ minh họa Hình 2.1.3 ví dụ minh họa thuật toán KNN 10 3.2 Cài đặt 3.2.1 Cài đặt python 3.6 Tải python tại đây: https://www.python.org/downloads/ Xuất trang hình dưới: Nhấp chuột vào Downloads chọn Windows Lúc xuất trang có chứa phiên Python, cài đặt Python 3.6 nên ta tìm phiên 3.6 tải Ví dụ hình chúng em chọn phiên 3.6.8 21 Khi tải hoàn tất ta bắt đầu tiến hành cài đặt: Nhấp đúp vào tệp vừa tải đẻ cài đặt Tại có hai lựa chọn: Install now: Mặc định cài python vào ổ C, cài sẵn IDLE, pip tài liệu… Customize installation: cho phép chọn cài đặt tính cần thiết 22 Đợi lúc để hoàn tất việc cài đặt Khi đã cài đặt xong, mở IDLE để chạy thử đoạn code sau: Như đã hoàn thành xong việc cài đặt python, việc lại cài đặt những thư viện cần thiết để hỗ trợ cho toán Ở đây, toán cần thư viện sau: numpy, matplotlib, sklearn Sử dụng cmd để cài đặt: 23 Nếu pip bạn chưa có sẵn gói ta phải cài đặt cho nó, ta thực sau: Sau cài đặt thành cơng gói pip ta tiếp tục cài đặt thư viện numpy: 24 Cài đặt thư viện matplotlib: Cuối ta cài đặt thư viện sklearn: 25 ... trình phân lớp trình gán nhãn cho đối tượng dữ liệu Hình 1.1.2: Ví dụ mơ hình phân lớp Có nhiều tốn phân lớp phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị Trong phân lớp nhị phân loại phân. .. cuối chọn mơ hình phân lớp tốt cho toán CHƯƠNG 2: THUẬT TỐN K- NEAREST NEIGHBOR 2.1 Thuật tốn k- nearest neighbor 2.1.1 Định nghĩa K- nearest neighbor (KNN) những thuật toán học có giám sát đơn... toán nằm giữa phương thưc học giám sát học không giám sát + 1.2 Bài toán phân lớp liệu 1.2.1 Quá trình phân lớp liệu • Để xây dựng được mơ hình phân lớp đánh giá hiệu mơ hình cần phải thực

Ngày đăng: 23/04/2022, 06:46

Hình ảnh liên quan

DANH MỤC BẢNG BIỂU - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)
DANH MỤC BẢNG BIỂU Xem tại trang 3 của tài liệu.
Hình 1.1.2: Ví dụ về mô hình phân lớp - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Hình 1.1.2.

Ví dụ về mô hình phân lớp Xem tại trang 7 của tài liệu.
Hình 2.1.3. ví dụ minh họa thuật toán KNN - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Hình 2.1.3..

ví dụ minh họa thuật toán KNN Xem tại trang 10 của tài liệu.
• Ta dễ dàng nhìn thấy có hai loại: hình vuông màu xanh biểu diễn cho những người là fan của K-pop, tam giác màu đỏ biểu diễn cho những người không là fan của K-pop,  hình tròn màu xanh là người bạn mình muốn biết có phải là fan K-pop hay không,  khoả - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

a.

dễ dàng nhìn thấy có hai loại: hình vuông màu xanh biểu diễn cho những người là fan của K-pop, tam giác màu đỏ biểu diễn cho những người không là fan của K-pop, hình tròn màu xanh là người bạn mình muốn biết có phải là fan K-pop hay không, khoả Xem tại trang 11 của tài liệu.
Hình 2.2.2. Norm 1 và norm2 trong không gian hai chiều - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Hình 2.2.2..

Norm 1 và norm2 trong không gian hai chiều Xem tại trang 13 của tài liệu.
• Dựa trên mô hình phân biệt tuyến tính của Fisher, bộ dữ liệu này đã trở thành trường hợp thử nghiệm điển hình cho nhiều kỹ thuật phân loại thống kê trong học máy như  máy vector hỗ trợ. - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

a.

trên mô hình phân biệt tuyến tính của Fisher, bộ dữ liệu này đã trở thành trường hợp thử nghiệm điển hình cho nhiều kỹ thuật phân loại thống kê trong học máy như máy vector hỗ trợ Xem tại trang 15 của tài liệu.
Hình 3.1.1. Hình ảnh minh họa về Iris flower dataset - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Hình 3.1.1..

Hình ảnh minh họa về Iris flower dataset Xem tại trang 15 của tài liệu.
Hình 3.1.2. Sơ đồ minh họa phân cụm của Iris flower datasets - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Hình 3.1.2..

Sơ đồ minh họa phân cụm của Iris flower datasets Xem tại trang 16 của tài liệu.
Bảng 1: Thông tin loài Setosa - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Bảng 1.

Thông tin loài Setosa Xem tại trang 16 của tài liệu.
Bảng 2: Thông tin loài Versicolor - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Bảng 2.

Thông tin loài Versicolor Xem tại trang 18 của tài liệu.
Bảng 3: Thông tin loài Virginica - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Bảng 3.

Thông tin loài Virginica Xem tại trang 19 của tài liệu.
Xuất hiện trang như hình dưới: Nhấp chuột vào Downloads và chọn Windows. - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

u.

ất hiện trang như hình dưới: Nhấp chuột vào Downloads và chọn Windows Xem tại trang 21 của tài liệu.
3.2.1. Cài đặt python 3.6 - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

3.2.1..

Cài đặt python 3.6 Xem tại trang 21 của tài liệu.
Hình 3.2.2. Mô hình bài toán - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

Hình 3.2.2..

Mô hình bài toán Xem tại trang 27 của tài liệu.
3.2.2. Thử nghiệm - TIỂU LUẬN học PHẦN SEMINAR CHUYÊN đề THUẬT TOÁN máy học PHÂN lớp dữ LIỆU k NEAREST NEIGHBOR (KNN)

3.2.2..

Thử nghiệm Xem tại trang 27 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan