Ứng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà Nội
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Phạm Văn Vượng ỨNG DỤNG PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU CHO TƯ VẤN NGÀNH NGHỀ SINH VIÊN TRƯỜNG ĐẠI HỌC KIẾN TRÚC HÀ NỘI Chuyên ngành: Hệ thống thơng tin Mã số: 8480104 TĨM TẮT LUẬN VĂN THẠC SĨ (Theo định hướng ứng dụng) HÀ NỘI – 2018 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS TRẦN ĐÌNH QUẾ Phản biện 1: ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Phản biện 2: ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: .giờ .ngày .tháng .năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Tính cấp thiết đề tài Bước vào kỷ XXI, nghề nghiệp xã hội có chuyển biến nhiều so với giai đoạn trước Cuộc cách mạng khoa học công nghệ tạo điều kiện để nhân loại tiến từ kinh tế công nghiệp sang kinh tế tri thức Đó kinh tế xây dựng sở sản xuất, phân phối sử dụng tri thức, thơng tin, máy tính cơng nghệ truyền thông viễn thông yếu tố chiến lược Trong ngành công nghệ thông tin phát triển không ngừng nay, để đạt mục tiêu trên, cần lực lượng lao động có đủ trình độ lực làm chủ cơng nghệ kỹ thuật mới, đủ điều kiện đảm bảo hoàn thành tốt công việc lĩnh vực đời sống xã hội Nếu không chiếm hữu tri thức, không sáng tạo sử dụng thông tin ngành sản xuất khơng thể thành cơng cạnh tranh liệt thị trường Chính việc nâng cao trình độ học vấn, trình độ văn hóa cho nhân dân, đặc biệt việc định hướng ngành học định hướng nghề nghiệp cho hệ trẻ hôm nay, chủ nhân tương lai đất nước, cần quan tâm hết Như nghề nghiệp coi nhiều yếu tố quan trọng định đến tương lai người Vì lựa chọn cho ngành nghề phù hợp vấn đề nhiều bạn trẻ quan tâm, đặc biệt bạn sinh viên trẻ học tập năm đầu trường đại học Theo khảo sát trường đại học Kiến trúc Hà Nội, nhiều bạn sinh viên sau trường khơng tìm cơng việc phù hợp với lực sở thích thân Có số sinh viên định hướng lựa chọn chuyên ngành khơng khả dẫn đến q trình học tập kết kém, sau thời gian học tập không đạt kết tốt dẫn đến việc bỏ học từ năm đầu, tạo tâm lý chán nản, động lực học tập Vì lý nên học viên định lựa chọn đề tài: Ứng dụng phân cụm khai phá liệu cho tư vấn ngành nghề sinh viên trường Đại học Kiến trúc Hà Nội Tổng quan vấn đề nghiên cứu Phân cụm sở liệu phương pháp quan trọng trình tìm kiếm tri thức Phân cụm phương pháp học từ quan sát (learning from obversation) hay gọi học khơng có giám sát Phân cụm đặc biệt hiệu ta thông tin cụm, ta quan tâm tới thuộc tính cụm mà chưa biết biết thơng tin Phân cụm coi công cụ độc lập để xem xét phân bố liệu, làm bước tiền xử lý cho thuật toán khác Việc phân cụm liệu có nhiều ứng dụng tiếp thị, sử dụng đất, bảo hiểm, hoạch định thành phố, định hướng nghề nghiệp … Hiện nay, phân cụm liệu hướng nghiên cứu nhiều Tin học Thực tế trường Đại học Kiến trúc Hà Nội nhiều sinh viên năm đầu phân vân lựa chọn ngành học khoa đăng ký thiếu thông tin chưa có lựa chọn đắn dựa khả sở thích thân Do vậy, để sinh viên phát huy hết khả năng, nhiệt huyết thuận lợi cho việc làm sau cần có định hướng đắn kịp thời năm đầu đại học Trong luận văn tập trung khảo sát thuật toán phân cụm để từ áp dụng phân loại sinh viên nhằm đưa giải pháp tư vấn, định hướng giúp sinh viên khoa trường đại học Kiến trúc Hà Nội lựa chọn ngành nghề phù hợp Mục đích luận văn - Tìm hiểu kỹ thuật khai phá liệu, số thuật toán phân cụm liệu - Lựa chọn thuật toán ứng dụng giải toán phân loại sinh viên nhằm hỗ trợ định hướng ngành học cho sinh viên khoa trường - Thu thập liệu cài đặt thử nghiệm chương trình Đối tượng nghiên cứu - Tìm hiểu số thuật tốn phân cụm liệu - Lựa chọn thuật toán phân cụm liệu phù hợp áp dụng giải yêu cầu toán - Thu thập liệu: Sinh viên năm đầu học tập trường Đại học Kiến trúc Hà Nội Tuy nhiên số lượng sinh viên năm đầu lớn nên liệu mẫu thu hẹp vào sinh viên khoa trường - Tiến hành thực nghiệm tập liệu mẫu Phương pháp nghiên cứu: - Nghiên cứu lý thuyết khai phá liệu - Tìm hiểu số thuật toán phân cụm liệu - Xây dựng phân tích u cầu tốn đặt - Lựa chọn thuật tốn phân cụm liệu phù hợp áp dụng giải yêu cầu toán - Tiến hành thực nghiệm tập liệu mẫu - Phân tích, đánh giá kết đạt - Phương hướng phát triển Cấu trúc luận văn: Luận văn có cấu trúc gồm 03 chương có nội dung sau: Chương 1: Tổng quan phân cụm liệu Trình bày tổng quan phân cụm liệu giới thiệu số phương pháp phân cụm liệu, đưa so sánh, đánh giá, lựa chọn Chương 2: Phân cụm cho tư vấn lựa chọn ngành nghề Chương trình bày khái quát số kỹ thuật phân cụm đặc trưng Phân tích, đánh giá ứng dụng kỹ thuật phân cụm để lựa chọn thuật toán thích hợp xây dựng giải tốn đặt Chương 3: Thử nghiệm đánh giá Giới thiệu tốn thực tế, khó khăn sinh viên lựa chọn ngành nghề phù hợp với nhu cầu lực thân Dựa kỹ thuật phân cụm thuật toán lựa chọn xây dựng hệ thống tư vấn lựa chọn ngành nghề cho sinh viên, giúp họ có lựa chọn đắn cho tương lai công việc sau CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Giới thiệu Dữ liệu người tạo ngày nhiều số lượng, tăng nhanh khối lượng, phát triển mạnh quy mô khiến việc phân loại, lựa chọn, khai thác, sử dụng gặp khó khăn định Khái niệm Khai phá liệu đời hỗ trợ công việc này; cụ thể khai phá gì, khai phá liệu khai thác nào, công nghệ khai phá liệu sử dụng gì… Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu Về bản, khai phá liệu xử lý liệu nhận biết mẫu xu hướng thông tin để bạn định đánh giá Nếu vào lớp toán cần giải quyết, KPDL bao gồm kỹ thuật áp dụng sau: − Phân lớp dự đoán (classification and prediction) − Phân cụm (clustering/segmentation) − Luật kết hợp (association rules) − Phân tích hồi quy (regression analysis) − Phân tích mẫu theo thời gian (sequential/temporal patterns) − Mơ tả khái niệm (concept description and summarization) 1.2 Kỹ thuật phân cụm liệu 1.2.1 Khái niệm Phân cụm liệu (Data Clustering) hay phân cụm, gọi phân tích cụm, phân tích phân đoạn, phân tích phân loại, q trình nhóm tập đối tượng thực thể hay trừu tượng thành lớp đối tượng tương tự Một cụm tập hợp đối tượng liệu mà phần tử tương tự cụm phi tương tự với đối tượng cụm khác Một cụm đối tượng liệu xem nhóm nhiều ứng dụng 1.2.2 Các bước để phân cụm • Chọn lựa đặc trưng • Chọn độ đo gần gũi • Tiêu chuẩn phân cụm • Thuật tốn phân loại • Cơng nhận kết • Giải thích kết 1.2.3 Các loại đặc trưng phân cụm Có bốn loại đặc trưng, là: - Các đặc trưng danh nghĩa (nominal): Gồm đặc trưng mà giá trị mã hoá trạng thái Chẳng hạn cho đặc trưng giới tính người giá trị ứng với nam ứng với nữ Rõ ràng so sánh lượng giá trị loại vô nghĩa - Các đặc trưng thứ tự (ordinal): Là đặc trưng mà giá trị cách có ý nghĩa Ví dụ đặc trưng thể hồn thành khoá học sinh viên Giả sử giá trị 4, 3, 2, tương ứng với ý nghĩa: ”xuất sắc”, “rất tốt“, “tốt“, “không tốt“ Các giá trị xếp theo thứ tự có ý nghĩa so sánh hai giá trị liên tiếp không quan trọng lượng - Các đặc trưng đo theo khoảng (interval –scaled): Với đặc trưng cụ thể khác biệt hai giá trị có ý nghĩa mặt số lượng ta có đặc trưng đo theo khoảng (cịn gọi thang khoảng) Ví dụ đặc trưng nhiệt độ, từ 10-15 độ coi rét đậm, cịn 10 độ coi rét hại, khoảng nhiệt độ mang ý nghĩa riêng - Các đặc trưng đo theo tỷ lệ (ratio-scaled): Cũng với ví dụ nhiệt độ ta coi tỷ lệ nhiệt độ Hà Nội 10 độ với nhiệt độ Matxcơva độ mang ý nghĩa Hà Nội nóng gấp mười lần Matxcơva Trong đó, người nặng 100 kg coi nặng gấp hai lần người nặng 50 kg Đặc trưng cân nặng đặc trưng đo theo tỷ lệ (thang tỷ lệ) 1.2.4 Ứng dụng kỹ thuật phân cụm Phân cụm công cụ quan trọng số ứng dụng Sau số ứng dụng nó: • Giảm liệu: Giả sử ta có lượng lớn liệu (N) Phân cụm nhóm liệu thành m cụm liệu dễ nhận thấy m cụm cụm chuyên ngành Vật liệu) 3.3 Xây dựng hệ thống Dữ liệu đầu vào ban đầu thu thập dạng file excel bảng điểm năm đầu lớp sinh viên thử nghiệm dựa khảo sát nguyện vọng sinh viên việc lựa chọn chun ngành phù hợp Hình 3.1: Mơ tả liệu mẫu Sau thu thập liệu mẫu dạng file excel lưu trữ file data hệ thống, chương trình tự động nhập liệu từ file excel ban đầu: 19 Hình 3.2: Giao diện chương trình nhập liệu Chương trình nhận liệu đầu vào từ file excel data Sau nhận liệu có sẵn từ file data hệ thống lưu trữ liệu đầu vào dạng bảng: Hình 3.3: Chương trình sau phân tích dựa sở thuật toán K-Means: + Hàm init_centroids(X, k): X liệu, k số số cụm (cluster) Hàm khởi tạo điểm trung tâm ban đầu, lấy ngẫu nhiên 20 + Hàm assign_labels(X, centroids): X liệu, centroids trung điểm Hàm gán nhãn cho liệu cụm mà gần với trung điểm + Hàm update_centroids(X, labels, K): X: liệu; labels: nhãn liệu; k: số cụm Hàm cập nhật lại trung điểm (centroid) cụm cách lấy liệu gần với giá trị trung bình (mean) cụm + Hàm has_converged(centroids, new_centroids): kiểm tra hội tụ Thuật toán hội tụ (tức tính đầu đúng) mà sau bước cập nhật trung điểm, trung điểm giống hoàn toàn với trung điểm cũ + Hàm kmeans(X, K): hàm chính, gọi hàm theo thứ tự thuật tốn Tư vấn cho sinh viên thơng qua điểm môn đặc trưng chuyên ngành, phân chia sinh viên ngành phù hợp khoa đưa kết Hình 3.4: Kết sau phân tích liệu đầu vào Sau đưa kết tư vấn, chương trình tổng hợp, tính toán dựa biểu đồ kết đưa tỷ lệ phần trăm số tư vấn phù hợp với sở thích sinh viên tỷ lệ phần trăm kết phù hợp toàn hệ thống 21 Kết sau phân tích đưa tỷ lệ đánh giá: Hình 3.5: Biểu đồ đánh giá hệ thống 22 3.3 Kết luận Nội dung chương giới thiệu toán thực tế việc đào tạo đặc điểm lựa chọn, tư vấn sinh viên lựa chọn ngành nghề chuyên ngành trường Đại học Kiến Trúc Hà Nội Dựa khai phá liệu ứng dụng thuật toán tác giả xây dựng hệ thống tư vấn lựa chọn ngành nghề giúp sinh viên định hướng lựa chọn chuyên ngành học phù hợp với thân đánh giá lực thân, từ có kế hoạch định hướng học tập đắn để sau trường lựa chọn cơng việc khả sở thích 23 KẾT LUẬN • Luận văn đạt kết sau Luận văn “Ứng dụng phân cụm khai phá liệu cho tư vấn ngành nghề sinh viên trường Đại học Kiến Trúc Hà Nội” trình bày số vấn đề sau: - Tổng quan khám phá tri thức ứng dụng khai phá liệu lưu trữ hệ thống thông tin Khai phá liệu ứng dụng nhiều lĩnh vực khác sống, đặc biệt ứng dụng khai phá liệu giáo dục - Một số kỹ thuật phân cụm liệu: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa mật độ, phương pháp dựa lưới Các thuật tốn điển hình phương pháp đánh giá thuật toán - Dựa khai phá liệu, tác giả xây dựng hệ thống tư vấn lựa chọn ngành nghề phù hợp cho sinh viên trường Đại học Kiến trúc Hà Nội Áp dụng thuật toán K–means để phân cụm sinh viên lựa chọn ngành học chuyên sâu, giúp sinh viên xác định ngành nghề phù hợp Từ có kế hoạch học tập có lựa chọn đắn để sau trường đạt công việc phù hợp với sở thích lực thân - Kết tư vấ ngành nghề chưa với nguyện vọng, sỏ thích sinh viên, biểu đồ đánh giá hệ thống (Hình 3.5), chuyên ngành vật liệu xây dựng có tỷ lệ 28,6% sinh viên có tư vấn hợp với nguyện vọng, sở thích, 71,4 % số sinh viên cịn lại có tư vấn khơng phù hợp với nguyện vọng, sở thích Như vậy, số sinh viên cần có điều chỉnh học tập Với sinh viên có nguyện vọng theo chuyên ngành xây dựng dân dụng & công nghiệp cần điều chỉnh kết học tập môn vật lý, với sinh viên có nguyện vọng theo chun ngành xây dựng cơng trình ngầm đô thi cần điều chỉnh kết học tập mơn kiến trúc cơng trình Từ có định hướng đưa kế hoạch học tập phù hợp 24 • Hạn chế - Do dừng lại liệu thử nghiệm, việc thu thập thông tin xử lý thông tin sinh viên liệu điểm khó khăn nên số lượng liệu cịn chưa đa dạng tập trung sinh viên khoa xây dựng Nên chưa mơ hết tình có khả xảy thực tế - Việc xử lý liệu thơ để trích chọn thuộc tính cần thiết để tinh chế thành liệu đầu vào cho ứng dụng phân loại phải thực thủ cơng, chưa có tiện ích xử lý tự động Ngồi chưa xây dựng hệ thống lưu trữ liệu dành riêng cho ứng dụng - Giao diện chương trình cịn thơ sơ, hướng đến mục tiêu xử lý toán đề tư vấn phân chia sinh viên vào ngành học khoa, chưa có thêm tiện ích • Hướng phát triển - Để q trình tư vấn lựa chọn ngành nghề có hiệu quả, cần xây dựng hệ thống hoàn chỉnh thống nhất, quản lý trình học tập rèn luyện sinh viên - Xem xét nghiên cứu thêm số ứng dụng khác khai phá liệu vào số lĩnh vực giáo dục - Phát triển thêm nhiều mơ hình tư vấn, định hướng ngành nghề bậc học Để trợ giúp học sinh sinh viên tốt ... Luận văn ? ?Ứng dụng phân cụm khai phá liệu cho tư vấn ngành nghề sinh viên trường Đại học Kiến Trúc Hà Nội? ?? trình bày số vấn đề sau: - Tổng quan khám phá tri thức ứng dụng khai phá liệu lưu trữ... định lựa chọn đề tài: Ứng dụng phân cụm khai phá liệu cho tư vấn ngành nghề sinh viên trường Đại học Kiến trúc Hà Nội 2 Tổng quan vấn đề nghiên cứu Phân cụm sở liệu phương pháp quan trọng trình... chọn theo học ngành học phù hợp với lực mà sở thích thân, tác giả có ý tư? ??ng xây dựng hệ thống tư vấn lựa chọn ngành nghề cho sinh viên trường Đại học Kiến Trúc Hà Nội Vì số lượng sinh viên khoa