MỞ ĐẦU 1. Lý do chọn đề tài Trong những năm gần đây, sự phát triển không ngừng của ngành công nghệ thông tin và các lĩnh vực liên quan, dẫn đến hệ quả là khối lượng thông tin lưu trữ ngày càng lớn. Sự bùng nổ về dữ liệu dẫn đến yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực không thể thiếu của nền công nghệ thông tin thế giới hiện nay nói chung và Việt Nam nói riêng. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau như: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế… Ngành giáo dục nói chung và các trường đại học nói riêng, với lượng dữ liệu điểm khá lớn nên: Việc nhìn tổng quát về kết quả học tập của các học sinh ở một khối hay toàn trường trong một học kỳ sẽ mất nhiều thời gian để thống kê, tính toán và có thể xảy ra sai sót. Để có thể dễ dàng hơn trong việc quản lý những sinh viên có kết quả học tập chưa tốt qua đó đưa ra những giải pháp cho sinh viên có thể cải thiện việc học tập. Dựa vào điểm của các môn học của sinh viên từ các kì học trước qua đó giúp cho sinh viên năm ba có thể lựa chọn nghành học phù hợp với bản thân và dễ dàng kiếm việc sau khi ra trường. Dựa vào kết quả phân cụm có thể khảo sát mở lớp cho các môn học có học phần tiên quyết đã học trước đó của sinh viên một cách dễ dàng và chính xác. Với tầm quan trọng của giáo dục nhất là trong thời đại của cuộc cách mạng khoa học – công nghệ hiện đại cùng sự phát triển không ngừng của Trí tuệ nhân tạo hiện nay và với những lý do trên em xin chọn đề tài “NGHIÊN CỨU XÂY DỰNG ỨNG DỤNG PHÂN CỤM ĐIỂM SINH VIÊN BẰNG THUẬT TOÁN KMEANS” làm đề tài đồ án tốt nghiệp. 2. Mục đích nghiên cứu Nghiên cứu các vấn đề cơ bản về phân cụm dữ liệu, các thuật toán liên quan đến phân cụm. Phân tích và triển khai áp dụng thuật toán KMeans. Phân tích thực trạng và nhu cầu ứng dụng công nghệ thông tin vào xử lý dữ liệu điểm trong trường đại học. Đề ra giải pháp ứng dụng công nghệ thông tin vào việc phân cụm sinh viên dựa vào dữ liệu điểm. Cài đặt và đánh giá thuật toán KMeans. Áp dụng cơ sở lý thuyết nền tảng để xây dựng và triển khai ứng dụng. 3. Đối tượng và phạm vi nghiên cứu Tìm hiểu thuật toán KMeans để phân cụm sinh viên dựa trên dữ liệu của trường đại học đã có. Cài đặt và thử nghiệm với dữ liệu của trường đại học. 4. Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: Phân tích và tổng hợp các tài liệu về khai phá dữ liệu, sử dụng thuật toán KMeans trong phân cụm dữ liệu. Phương pháp thực nghiệm: Phân tích, tìm ra giải pháp và vận dụng lý thuyết, các thuật toán có liên quan để trợ giúp việc lập trình, xây dựng ứng dụng. Ứng dụng kết hợp kỹ thuật phân cụm dữ liệu để phân cụm sinh viên. 5. Cấu trúc báo cáo đồ án tốt nghiệp Cấu trúc đồ án được chia thành các chương như sau: Mở đầu: Giới thiệu tổng quan về đề tài đồ án tốt nghiệp. Chương 1: Cơ sở lý thuyết Tổng quan về Machine Learning. Tổng quan về khám phá tri thức, khai phá dữ liệu. Tổng quan về phân cụm dữ liệu và các thuật toán liên quan. Tổng quan ngôn ngữ C và .Net Framework, DevExpress. Chương 2: Phân tích thuật toán KMeans Giới thiệu và tiến hành phân tích thuật toán KMeans. Ví dụ minh họa và nhận xét về thuật toán. Chương 3: Thử nghiệm và đánh giá Cài đặt thuật toán. Đánh giá thuật toán đối với bài toán phân cụm sinh viên. Đưa ra kết quả đạt được, những thứ còn tồn tại. Hướng phát triển về thuật toán cho ứng dụng. Kết luận và kiến nghị Tài liệu tham khảo
LỜI CẢM ƠN Lời nói đầu tiên, em xin gửi tới Quý Thầy Cô Bộ môn Công Nghệ Thông Tin – Trường Đại học Trần Đại Nghĩa lời chúc sức khỏe lòng biết ơn sâu sắc, chân thành Em xin chân thành gửi lời cảm ơn đến Quý Thầy Cô giúp đỡ tạo điều kiện cho em hoàn thành đồ án với đề tài “Nghiên cứu xây dựng ứng dụng cụm điểm sinh viên thuật toán K-Means” Đặc biệt, em xin chân thành cảm ơn thầy Nguyễn Kiên Cường, người tận tình giúp đỡ, hướng dẫn, cung cấp cho em kiến thức, kỹ cần có để nghiên cứu hoàn thành đề tài Mặc dù cố gắng q trình nghiên cứu, kiến thức cịn hạn chế nên cịn nhiều thiếu sót Vì vậy, em mong nhận đóng góp ý Quý Thầy Cô giảng viên môn để đề tài em hồn thiện Lời sau cùng, em kính chúc Quý Thầy Cô Bộ môn Công Nghệ Thông Tin đặc biệt thầy Nguyễn Kiên Cường thật dồi sức khỏe, gặt hái nhiều thành công sống nghiệp giảng dạy Em xin chân thành cảm ơn! Tp Hồ Chí Minh, ngày … tháng 12 năm 2021 Sinh viên thực Hồ Anh Dũng MỤC LỤC LỜI CẢM ƠN DANH MỤC THUẬT NGỮ DANH MỤC BẢNG BIỂU DANH MỤC HÌNH ẢNH MỞ ĐẦU .1 Lý chọn đề tài Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Cấu trúc báo cáo đồ án tốt nghiệp CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan Machine Learning .4 1.1.1 Giới thiệu Machine Learning 1.1.2 Phân nhóm thuật toán Machine Learning .6 1.1.3 Các ứng dụng Machine Learning 1.2 Khai phá tri thức trình khai phá tri thức 10 1.2.1 Khai phá tri thức 10 1.2.2 Quá trình khai phá tri thức 11 1.3 Tổng quan khai phá liệu 12 1.3.1 Khai phá liệu 12 1.3.2 Mục tiêu khai phá liệu 13 1.3.3 Quá trình khai phá liệu 13 1.3.4 Các phương pháp khai phá liệu 14 1.4 Tổng quan phân cụm liệu thuật toán liên quan 15 1.4.1 Giới thiệu 15 1.4.2 Các mục tiêu phân cụm liệu 16 1.4.3 Một số thuộc tính 17 1.4.4 Một số kỹ thuật phân cụm liệu 18 1.4.4 Ứng dụng phân cụm liệu 19 1.4.5 Các yêu cầu vấn đề tồn 20 1.5 Tổng quan C# Net Framework, DevExpress 22 1.5.1 Ngơn ngữ lập trình C# 22 1.5.2 .Net Framework 23 1.5.3 DevExpress 25 CHƯƠNG 2: PHÂN TÍCH THUẬT TỐN K-MEANS 27 2.1 Tổng quan thuật toán K-Means 27 2.1.1 2.1.2 2.1.3 Giới thiệu thuật toán 28 Một số khái niệm dùng thuật toán 28 Mô tả thuật toán 30 2.1.4 Ví dụ thuật tốn 32 2.2 Đặc điểm thuật toán 38 2.3 Ứng dụng 39 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 41 3.1 Giới thiệu toán 41 3.2 Tập liệu sử dụng 42 3.3 Môi trường thử nghiệm 43 3.4 Giao diện chương trình 43 3.4.1 Đọc liệu: 44 3.4.2 Phân tích 46 3.4.3 Xuất Excel 49 3.4.5 Phân tích chi tiết 51 3.5 Kết đánh giá 54 KẾT LUẬN VÀ KIẾN NGHỊ 55 TÀI LIỆU THAM KHẢO 57 DANH MỤC THUẬT NGỮ STT THUẬT NGỮ TIẾNG Ý NGHĨA TIẾNG VIỆT ANH TỪ VIẾT GHI TẮT CHÚ Information Technology Công Nghệ Thông Tin CNTT Stupid Pointless Thư rác SPAM Annoying Messages Artificial Intelligence Trí tuệ nhân tạo AI Machine Learning Học máy ML Deep Learning Học sâu DL Knowledge Discovery in Khai phá tri thức KDD Database Application Giao diện lập trình ứng dụng API Programming Interface Database Cơ sở liệu CSDL Data Mining Khai phá liệu KPDL 10 Structured Query Ngôn ngữ truy vấn liệu có Language cấu trúc 11 Association rules Luật kết hợp 12 Classification Phân lớp 13 Clustering Phân cụm 14 Regression Hồi quy SQL DANH MỤC BẢNG BIỂU Bảng 2.1 Minh hoạ ma trận phân hoạch 28 Bảng 2 Tập liệu ví dụ thuật tốn K-Means 32 Bảng Các thuộc tính tập liệu 43 Bảng Các chức chương trình 44 DANH MỤC HÌNH ẢNH Hình 1.1 Các nhánh Machine Learning Trí tuệ nhân tạo Hình 1.2 Ứng dụng Trí tuệ nhân tạo 10 Hình 1.3 Quá trình khai phá tri thức 11 Hình 1.4 Quá trình khai phá liệu 13 Hình 1.5 Minh họa phân cụm liệu 16 Hình 2.1 Mơ phân cụm với thuật tốn K-Means 28 Hình 2.2 Sơ đồ khối thuật toán K-Means 30 Hình 3.1 Chọn file cần phân tích 45 Hình 3.2 Giao diện hiển thị liệu 45 Hình 3.3 Giao diện ban đầu chức phân tích .46 Hình 3.4 Giao diện sau thực phân tích 47 Hình 3.5 Hình chọn số cụm mơn học cần phân tích 47 Hình 3.6 Thơng số cụm sau phân tích 47 Hình 3.7 Danh sách chi tiết sinh viên thuộc cụm 48 Hình 3.8 Danh sách lớp có chi tiết cụm 48 Hình 3.9 Tìm kiếm sinh viên có chi tiết cụm 48 Hình 3.10 Lọc sinh viên theo lớp 49 Hình 3.11 Cửa sổ chọn đường dẫn lưu tập tin Excel 50 Hình 3.12 Thơng báo lưu tập tin thành cơng 50 Hình 3.13 Kết sau xuất Excel .51 Hình 3.14 Chi tiết cụm file Excel 51 Hình 3.15 Giao diện phân tích cụm chi tiết 52 Hình 3.16 Giao diện phân tích chi tiết thực 53 Hình 3.17 Giao diện phân tích chi tiết thực xong .54 MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, phát triển không ngừng ngành công nghệ thông tin lĩnh vực liên quan, dẫn đến hệ khối lượng thông tin lưu trữ ngày lớn Sự bùng nổ liệu dẫn đến yêu cầu cấp thiết cần có kỹ thuật cơng cụ để tự động chuyển đổi liệu khổng lồ thành tri thức có ích Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thiếucủa công nghệ thông tin giới nói chung Việt Nam nói riêng Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác như: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế… Ngành giáo dục nói chung trường đại học nói riêng, với lượng liệu điểm lớn nên: - Việc nhìn tổng quát kết học tập học sinh khối hay toàn trường học kỳ nhiều thời gian để thống kê, tính tốn xảy sai sót - Để dễ dàng việc quản lý sinh viên có kết học tập chưa tốt qua đưa giải pháp cho sinh viên cải thiện việc học tập - Dựa vào điểm mơn học sinh viên từ kì học trước qua giúp cho sinh viên năm ba lựa chọn nghành học phù hợp với thân dễdàng kiếm việc sau trường - Dựa vào kết phân cụm khảo sát mở lớp cho mơn học có học phần tiên học trước sinh viên cách dễ dàng xác Với tầm quan trọng giáo dục thời đại cách mạng khoa học – công nghệ đại phát triển khơng ngừng Trí tuệ nhân tạo với lý em xin chọn đề tài “NGHIÊN CỨU XÂY DỰNG ỨNG DỤNG PHÂN CỤM ĐIỂM SINH VIÊN BẰNG THUẬT TOÁN K-MEANS” làm đề tài đồ án tốt nghiệp Mục đích nghiên cứu - Nghiên cứu vấn đề phân cụm liệu, thuật toán liên quan đến phân cụm Phân tích triển khai áp dụng thuật tốn K-Means - Phân tích thực trạng nhu cầu ứng dụng công nghệ thông tin vào xử lý liệu điểm trường đại học Đề giải pháp ứng dụng công nghệ thông tin vào việc phân cụm sinh viên dựa vào liệu điểm - Cài đặt đánh giá thuật toán K-Means - Áp dụng sở lý thuyết tảng để xây dựng triển khai ứng dụng Đối tượng phạm vi nghiên cứu - Tìm hiểu thuật tốn K-Means để phân cụm sinh viên dựa liệu trường đại học có - Cài đặt thử nghiệm với liệu trường đại học Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: - Phân tích tổng hợp tài liệu khai phá liệu, sử dụng thuật toán K-Means phân cụm liệu Phương pháp thực nghiệm: - Phân tích, tìm giải pháp vận dụng lý thuyết, thuật tốn có liên quan để trợ giúp việc lập trình, xây dựng ứng dụng - Ứng dụng kết hợp kỹ thuật phân cụm liệu để phân cụm sinh viên Cấu trúc báo cáo đồ án tốt nghiệp Cấu trúc đồ án chia thành chương sau: Mở đầu: Giới thiệu tổng quan đề tài đồ án tốt nghiệp Chương 1: Cơ sở lý thuyết - Tổng quan Machine Learning - Tổng quan khám phá tri thức, khai phá liệu - Tổng quan phân cụm liệu thuật toán liên quan - Tổng quan ngôn ngữ C# Net Framework, DevExpress Chương 2: Phân tích thuật tốn K-Means - Giới thiệu tiến hành phân tích thuật tốn K-Means - Ví dụ minh họa nhận xét thuật toán Chương 3: Thử nghiệm đánh giá - Cài đặt thuật toán - Đánh giá thuật toán toán phân cụm sinh viên - Đưa kết đạt được, thứ tồn - Hướng phát triển thuật toán cho ứng dụng Kết luận kiến nghị Tài liệu tham khảo CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan Machine Learning 1.1.1 Giới thiệu Machine Learning Những năm gần đây, AI hay Trí tuệ nhân tạo đạt nhiều thành tựu rực rỡ nhiều lĩnh vực: Thị giác máy tính (computer vision), xử lý ngôn ngữ tự nhiên (natural language processing), hệ thống khuyến nghị (recommendation system) Với tốc độ phát triển vơ nhanh chóng nhờ vào tiến ngành khoa học liệu (Data Science) siêu máy tính có tốc độ tính tốn nhanh chóng, AI giúp cho sống người ngày tốt đẹp [3] Xe tự lái Google Tesla, hệ thống tự nhận diện khuôn mặt ảnh Facebook, trợ lý ảo Siri Apple, hệ thống gợi ý sản phẩm Amazon, hệ thống gợi ý phim Netflix… vài nhiều ứng dụng trí tuệ nhân tạo Và Machine Learning tập trí tuệ nhân tạo Nó lĩnh vực nhỏ ngành khoa học máy tính, có khả tự học hỏi dựa tên liệu đưa vào mà khơng cần phải lập trình cụ thể [10] Hình 1.1 Các nhánh Machine Learning Trí tuệ nhân tạo a) Định nghĩa Machine Learning Hình Chọn file cần phân tích Danh sách sinh viên hiển thị giao diện phần mềm Hình 3.2 Giao diện hiển thị liệu 45 *Lưu ý: Tập tin Excel phải định dạng từ Excel 2007 trở lên (*.xlsx) Các cột thông tin phải theo định dạng chuẩn (cột mã sinh viên ‘f_masv’, cột tên ‘f_ten’, cột điểm môn Tin học đại cương ‘f_tinhocdaicuong’ 3.4.2 Phân tích Sau mở tập tin Excel, bạn chọn vào nút “Phân tích” để khởi động cửa sổ phân tích Hình 3.3 Giao diện ban đầu chức phân tích Để phân tích liệu, bạn cần nhập vào số cụm chọn mơn học cần phân tích nhấn nút “Thực hiện” để bắt đầu phân tích liệu 46 Hình 3.4 Giao diện sau thực phân tích Hình 3.5 Hình chọn số cụm mơn học cần phân tích Hình 3.6 Thơng số cụm sau phân tích Cửa sổ thơng số cụm hiển thị cụm sau phân tích, thơng số bao gồm: Thứ tự cụm, tâm cụm, số lượng phần tử(sinh viên) cụm, tỷ lệ phần trăm số lượng phần tử so với tổng số lượng sinh viên danh sách 47 Hình 3.7 Danh sách chi tiết sinh viên thuộc cụm Hình 3.8 Danh sách lớp có chi tiết cụm Hình 3.9 Tìm kiếm sinh viên có chi tiết cụm Chức tìm kiếm tìm kiếm mã số sinh viên, điểm, tên, lớp 48 Hình 3.10 Lọc sinh viên theo lớp *Lưu ý: Số cụm nhập vào phải số lớn Khi chọn môn học, phải chọn mơn có tập tin Excel 3.4.3 Xuất Excel Sau phân tích, bạn có nhu cầu xuất bảng cửa sổ phân tích bạn chọn nút “Xuất Excel” cơng cụ nhấn tổ hợp phím “Ctrl+S” để lưu bảng định dạng Exce 49 l 50 Hình 3.11 Cửa sổ chọn đường dẫn lưu tập tin Excel Hình 3.12 Thơng báo lưu tập tin thành cơng 51 Hình 3.13 Kết sau xuất Excel Cấu trúc file tạo sau: Trang chứa “Thông số cụm” biểu đồ Các trang chi tiết cụm Hình 3.14 Chi tiết cụm file Excel 3.4.5 Phân tích chi tiết Phân tích chi tiết chức cho thấy rõ bước chạy thuật tốn Trong q trình “Phân tích” “Phân tích chi tiết” người dùng phải đợi trình 52 hồn tất (hoặc đóng ứng dụng khởi động lại) thực thao tác khác Hình 3.15 Giao diện phân tích cụm chi tiết Sau nhấn chọn nút “Phân tích chi tiết” ứng dụng mở tab hình Thực chọn mơn học nhập vào “số cụm” “thời gian” (tốc độ thực thi – nhập: 500 1000 1500) nhấn nút “Thực hiện” 53 Hình 3.16 Giao diện phân tích chi tiết thực Ơ vng vùng xuất điểm trung bình mơn học chọn sinh viên Ơ vng thứ hai tính khoảng cách từ điểm đến tâm cụm Ơ vng thứ ba tên cụm mà điểm thuộc Dịng Gridview có viền xanh dịng tâm cụm ban đầu 54 Hình 3.17 Giao diện phân tích chi tiết thực xong Sau gán giá trị vào tâm cụm tính lại tâm cụm (các dòng border màu xanh đỏ) Tâm cụm tính trung bình cộng giá trị cột tương ứng với tâm cụm Khi hai dịng cập nhật tâm cụm liên tiếp có giá trị cột thuật tốn dừng 3.5 Kết đánh giá Với chương trình mang lại, nhiều giúp nhà trường đánh giá kết học tập sinh viên dựa điểm trung bình mơn học hỗ trợ định mở chuyên ngành tư vấn cho sinh viên có nên theo chuyên ngành dựa kết học tập số mơn học tảng chun ngành khảo sát mở lớp học phần phù hợp với chuyên nghành 55 KẾT LUẬN VÀ KIẾN NGHỊ Kết đạt Trong trình nghiên cứu hoàn thành đồ án tốt nghiệp với đề tài “Nghiên cứu xây dựng ứng dụng phân cụm điểm sinh viên thuật toán K-Means”, em đạt kết sau: Về mặt khoa học - Nắm bắt kiến thức Học máy, phát tri thức, khai phá liệu dựa kỹ thuật phân cụm phân hoạch liệu - Hiểu rõ quy trình phương pháp phân cụm phân hoạch liệu từ mơ hình thực tế đến toán cụ thể Về mặt ứng dụng Từ kết mặt kiến thức đạt trên, em xây dựng thành công ứng dụng phân loại điểm sinh viên thuật toán K-Means Ứng dụng có chức năng: trả số cụm (do người dùng yêu cầu) danh sách đối tượng cụm, đối tượng thuộc cụm nhất, trực quan hóa kết qua biểu đồ, in file Excel Nhằm giúp cho lãnh đạo Khoa Cơng nghệ thơng tin dựa vào để phân tích đưa biện pháp kịp thời xác việc quản lý sinh viên Về mặt người Qua trình làm đồ án thời gian không nhiều em học hỏi, rèn luyện thêm cho thân số kỹ tìm kiếm, nghiên cứu tài liệu, phân tích tốn, cách nhìn nhận xử lý vấn đề, làm việc nhóm, lập trình, rèn luyện tính kiên nhẫn cách trình bày văn hợp lý … hữu ích cho thân em cơng việc sống sau Như vậy, em hoàn thành mục tiêu đặt ban đầu với đề tài nghiên cứu 56 Tồn Bên cạnh khía cạnh đạt được, thời gian thực có hạn với trình độ kiến thức nhiều hạn chế nên thiếu sót như: - Một số chức cịn chưa khắc phục - Tập liệu mẫu sử dụng hạn chế Hướng phát triển Trong tương lai, có điều kiện đồ án em phát triển theo hướng sau: - Phát triển toán với số liệu lớn hơn, bao quát - Tiếp tục nghiên cứu phương pháp, cách tiếp cận phân cụm liệu: phân cụm thống kê, phân cụm khái niệm, phân cụm mờ, … tìm kiếm, so sánh lựa chọn thuật tốn tối ưu để giải toán đưa Vì thời gian thực đề tài có hạn nên q trình làm việc, nghiên cứu khơng thể tránh khỏi thiếu sót, mong nhận đóng góp ý kiến Q Thầy Cơ 57 TÀI LIỆU THAM KHẢO [1] Mark J Price, C# 8.0 with NET core 3.0 – Modern Cross-Platform Development, Packt Publishing, 2019 [2] Võ Thị Ngọc Châu, Giáo trình Khai phá liệu, Đại học Bách Khoa Thành phố Hồ Chí Minh [3] Trần Hùng Cường, Ngô Đức Vinh, Tổng quan phát tri thức khai phá liệu, Tạp chí Khoa Học & Công Nghệ, Số 5.2011, Trường Đại học Công nghiệp Hà Nội, 2011 [4] Giới thiệu Machine Learning, link: https://machinelearningcoban.com/2016/12/26/introduce/ [5] Machine Learning cho người bắt đầu, link: https://viblo.asia/p/machine-learning-cho-nguoi-moi-bat-dau-part-13Q75wpyGKWb [6] Tổng quan Net Framework, link: https://vi.wikipedia.org/wiki/.NET_Framework [7] Tìm hiểu DevExpress – UI Control cho NET Framework, link: https://viblo.asia/p/tim-hieu-ve-devexpress-ui-control-cho-net-frameworkRnB5pBLJZPG [8] DevExpress – Sự lựa chọn tuyệt vời cho Winforms Control, link: https://techtalk.vn/devexpress-su-lua-chon-tuyet-voi-cho-winformscontrol.html [9] Tổng quan ngơn ngữ C#, link: https://voer.edu.vn/c/ngon-ngu-c/cf37fa1e/383e2f05 [10] Ứng dụng thuật tốn K-Means, link: https://kipalog.com/posts/Thuat-toan-Kmean-va-ung-dung [11] K-Means Clustering, link: https://machinelearningcoban.com/2017/01/01/kmeans [12] Nguyễn Văn Lễ, Mạnh Thiên Lý, Nguyễn Thị Định, Nguyễn Thị Thanh Thủy, Cải tiến thuật toán K-Means ứng dụng hỗ trợ sinh viên chọn chuyên nghành theo học chế tín chỉ, Tạp chí Khoa học cơng nghệ Thực phẩm, Trường Đại học Công nghiệp Thực phẩm TP.HCM, 2018 58 [13] Nguyễn Thị Hữu Phương, Nguyễn Trường Xuân, Đặng Văn Đức, Sử dụng thuật toán K – Means tốn phân loại đám mây điểm LiDAR, Tạp chí Khoa Học & Công Nghệ, Trường Đại học Mỏ - Địa chất, 2017 [14] Nguyễn Văn Huân, Phạm Việt Bình, Trương Mạnh Hà, Vũ Xuân Nam, Đoàn Mạnh Hồng, Cải tiến thuật toán K – Means ứng dụng phân cụm liệu tự động 61 (12/2): 102 - 106, Tạp chí Khoa Học & Cơng Nghệ, Trường Đại học Thái Nguyên 59