Ứng dụng phân cụm dữ liệu vào việc đánh giá giảng viên tại trường đại học an giang

71 4 0
Ứng dụng phân cụm dữ liệu vào việc đánh giá giảng viên tại trường đại học an giang

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO DAI HOC HUE TRUONG DAI HOC KHOA HOC NGUYEN THI THU THAO UNG DUNG PHAN CUM DU LIEU VAO VIEC DANH GIA GIANG VIEN TAI TRUONG DAI HOC AN GIANG CHUYEN NGANH: KHOA HOC MAY TINH MA SO: 60.48.01.01 LUAN VAN THAC SI KHOA HOC DINH HUONG UNG DUNG NGƯỜI HƯỚNG DẪN KHOA HỌC TS HOANG THI LAN GIAO Thừa Thiên Huế, 2018 Chuong TONG QUAN VE KHAI PHA DU LIEU 1.1 QUA TRINH KHAI PHA DU LIEU 1.1.1 Dinh nghia Khai phá liệu q trình khai thác (rút trích) thơng tin tiểm ân có tính đự đốn, thơng tin có nhiều ý nghĩa, hữu ích từ CSDL lớn, coi bước trình khám phá tri thức (Knowledge DIiscovery in Databases - KDD) Khai phá đữ liệu giai đoạn quan trọng tiến trình khám phá tri thức từ CSDL [4] Quá trình khám phá tri thức tiến hành qua giai đoạn hình I.I: : Khai pha ¥ Lira chon va Chuyến đổi Lam Dữ liệu a ile Mo hinh |ị i ị va Tich hop Cơ sở liệu Hình 1 Quá trình khám phá tri thức [4] Bắt đầu trình kho liệu thô kết thúc tri thức chiết xuất Về lý thuyết giản đơn thực trình khó khăn, gặp phải nhiều vướng mắc như: quản lý tập liệu, phải lặp lặp lại tồn q trình, v.v LỜI CẢM ƠN Hồn thành luận văn này, tơi xin bày tỏ lịng biết ơn sâu sắc đến TS Hồng Thị Lan Giao, Trường Đại học Khoa học - Đại học Huế, tận tình hướng dẫn tơi suốt q trình thực dé tai Xin chân thành cảm ơn giúp đỡ mặt Ban Giám hiệu, Phòng Đào tạo Sau đại học, Khoa Công nghệ Thông tin - Trường Đại học Khoa học - Đại học Huế tất q thầy tận tình truyền dạy kiến thức kinh nghiệm chuyên môn trình giảng dạy hồn thành luận van Xin gửi lời cảm ơn đến Ban Giám hiệu, Phòng Khảo thí Đảm bảo chất lượng, Trường Đại học An Giang hỗ trợ tạo điều kiện thuận lợi đồng thời cung cấp tài liệu, số liệu để tơi hồn thành luận văn Cuối cùng, xin gửi lời cảm ơn tất bạn bè, đồng nghiệp người thân động viên giúp đỡ tơi hồn thành tốt luận văn Thừa Thiên Huế, tháng 08 năm 2018 Tác giả Nguyễn Thị Thu Thảo il MỤC LỤC 0909.0609790 i LG CAM ON esesssevsescesecccrsserversesemversseurvoressersesceneerncess suavisenvecesnucasnenesmnensters ii h/0/90090155 ID 0\)28)/10/019 (00:70 ca ii Vv DANH MUC CAC HINHQ ccessesssssssssscsssssesssccssssscssscssssscsucsssssucsucsssssecesesssenecesees vi DANH MUC CAC KY HIEU, CHU VIET TAT Chương TÔNG QUAN VỀ KHAI PHÁ DỮ LIỆU -. 1.1 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 25s S2 EEE2E2ExEEE.zExcrxe In? in e aajaăă _ăa 1.1.2 Quy trình khai phá đữ lIẾU scseezeesorrsdirtrdrritioitsentytirtpdithgpaisngpai 1.2 MỘT SÓ KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU . 1.3 MỘT SÓ LĨNH VỰC ỨNG DỰNG THỰC TIẾN CỦA KHAI PHÁ DU LIỆU .- 52-2252 2211221122211222112221221222111221112211121122222222 re 1.4 NHUNG THACH THUC - KHO KHAN TRONG KHAM PHA TRI THUC VA KHAI PHA DU LIỆU -©2222222E222112211221122112212221221222e6 1.5 TIỂU KÉT CHƯƠNG l ©-2-222222222122212112211221122122122 E2 te 10 Chương MỘT SĨ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 11 2.1 TONG QUAN VE PHAN CUM DỮ LIỆU 22 22222E222222222222-e2 11 2.2 MOT SO KY THUAT TIEP CAN TRONG PHAN CUM DU LIEU 14 2.2.1 Phương pháp phân cụm phân hoạch - ¿5c cc +2 cv 14 2.2.2 Phương pháp phân cụm phân cấp -22-222 222222222522122222-e 14 2.2.3 Phương pháp phân cụm dựa mật độ . -csccscc: 18 2.2.4 Phương pháp phân cụm dựa lưới .- -¿ cccsscssccssrxsrres 19 2.2.5 Phương pháp phân cụm dựa mơ hình - :c-cs:csccc+ 20 2.2.6 Phương pháp phân cụm có liệu ràng buộc ::-:-: 22 2.3 MOT SO YEU TO CAN THIET CHO CAC THUẬT TOÁN TRONG PHAN CUM DU LIBU ooo coo csocsosseeseeeeveesteeter ete tevterteseestsesteseneseeseeeees 23 2.3.1 Phân loại kiểu đữ liệu 222 22222222111211211212 2e 23 1H 2.3.2 Độ đo tương tự phi tương tự cà snehhhenrereere 24 2.4 MOT SO THUAT TOAN CO BAN TRONG PHAN CUM DU LIEU 27 2.4.1 Thuật toán dựa trén mat dd DBSCAN occcecceceeceeeeteeeenseeeennees 27 2.4.2 Thuật toán PAM 22-222 22222112111221121121112212222222 re 29 2.4.3 Thuật toán K-Means 0122111221119 x1 nn xnxx xnxx 30 2.5 TIỂU KÉT CHƯƠNG ©2222222222251211122112111211121122121221 xe 36 Chương ỨNG DỤNG PHAN CUM DU LIEU VAO VIEC DANH GIÁ GIẢNG VIÊN TẠI TRƯỜNG ĐẠI HỌC AN GIANG . 37 3.1 TONG QUAN VE HOAT DONG DANH GIA GIANG VIEN TAI TRƯỜNG ĐẠI HỌC AN GIANG 22 22122212211221122122.222 re 37 3.2 UNG DUNG THUAT TOAN PHAN CUM DANH GIA GIANG VIEN TẠI TRƯỜNG ĐẠI HỌC AN GIANG -222 22222212222222222 re 40 3.2.1 Tiền xử lý liệu -©222222221222122112211221122122122 2e 40 3.2.2 Giới thiệu phần mềm Weka 222222 22122212211221122122 xe 3.2.3 Chạy thực nghiệm Weka tn nhe 43 3.3 PHÂN TÍCH VÀ ĐÁNH GIÁ -.©222222222122212211222222.2 xe 55 3.4 TIEU KÉT CHƯƠNG -©222222222122122121122112122222 re 56 4000070 X3 57 TAI LIEU THAM KHAO Wu ecceccscsssesssssssesssesssecsscssscssscsssccsscsssecsucsssecssccssessscsssecsses 58 32189800 XN 59 1V DANH MỤC CÁC BẢNG Bang:3: 1D Gu thy thap assessor eronsemereseornmreneesmncennnm meses cerned 39 Bang Kết xếp loại - 52-222 2222212211121112112112212121221222 re 40 Bảng 3 Dữ liệu Xử lý ích HH HH HH g he ere 41 Bảng Kết thuật toán K-means đánh giá qua lần chạy 34 Bảng Kết thực nghiệm thuật toán HC với liệu 55 DANH MỤC CÁC HÌNH Hình 1 Q trình khám phá tri thức [4] c5: 2S S2 2EEEerEtxetrerrerrrrerres Hình Quá trình khai phá liệu .- 2 212112112 211 ty tkerey Hình Vi du vé phan cum dit Ou eee eeceececeeeeeeeeeeeeeneeneeseneeneeseereeens 11 Hình Phân cụm đối tượng dựa khoảng cách -sc sec 12 Hình Phân cụm đối tượng dựa kích cỡ -cccseiernreree 13 Hình Các chiến lược phân cụm phân cấp [4] -22-22222222222222222- Lý chọn đề tài Chúng ta sống giới thừa thơng tin, thiếu tri thức - nhận định nhiều người thời đại bùng nỗ thông tin Đối với liệu lớn, kỹ thuật thống kê truyền thống công cụ quản lý CSDL khơng cịn phù hợp Khai phá liệu trở thành lĩnh vực quan trọng hữu ich việc phân tích đữ liệu từ quan điểm khác tơng kết thành thơng tin có lợi Khai phá liệu giáo dục lĩnh vực quan tâm, liệu thu thập tử sở giáo dục khác nhau, liệu thơng tin cá nhân kết đánh giá Việc lựa chọn thuật toán tốt cho tập liệu cho trước vấn dé rat phơ biến Do đó, đòi hỏi phải thực số phương pháp dé lựa chọn phù hợp Khai phá liệu giáo dục sử dụng nhiều kỹ thuật kNearest Neighbor, Naive Bayes, phân cụm, mạng nơron, định v.v Trong đó, phân cụm phương pháp sử dụng rộng rãi Phân cụm đữ liệu q trình nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng cụm tương đồng Phân cụm nhiệm vụ khai phá liệu kỹ thuật phố biến để phân tích số liệu thông tin, hệ hỗ trợ định, thuật toán nhận dạng mẫu phân lớp mâu, Vv.V Phân cụm liệu ứng dụng nhiều lĩnh vực khác nhau: kinh tế, giáo dục, bảo hiểm, quy hoạch đô thị, y tế Để đánh giá hoạt động giảng dạy giảng viên, trường đại học áp dụng nhiều hình thức như: tự đánh giá giảng viên, đánh giá thông qua ý kiến đồng nghiệp, lãnh đạo, qua hồ sơ giảng dạy, kết học tập học sinh, sinh viên thông qua ý kiến phản hồi từ người học Một hình thức trường quan tâm người học đánh giá; hình thức có ý nghĩa quan trọng người học vừa trung tâm, vừa đối tượng, vừa người hưởng thụ sản phâm q trình đào tạo Do đó, đánh giá chất lượng theo quan điểm người học thước đo chất lượng dao tao [1] Nhằm tìm hiểu sâu kỹ thuật khai phá liệu, cụ thể phương pháp phân cụm liệu, sở tiêu chí đánh giá hoạt động giảng dạy giảng viên áp dụng trường Đại học An Giang, tác giả muốn có phương pháp khoa học để đánh giá tiêu chí, hỗ trợ cho Ban Giám hiệu, giảng viên phòng chức điều chỉnh cách hợp lý Do đó, với mong muốn hồn thiện công cụ đánh giá, giúp Nhà trường đánh giá giảng viên cách khách quan góp phần nâng cao chất lượng đào tạo, tác giả chọn dé tài “Ứng dung phân cụm liệu vào việc đánh giá giảng viên Trường Đại học An Giang” đê thực > Mục tiêu nghiên cứu - Tìm hiểu kỹ thuật phân cụm khai phá liệu - Đánh giá giảng viên thông qua kết phân hồi từ người học hoạt động giảng dạy giảng viên Trường Đại học An Giang > Ý nghĩa đề tài - Về mặt lý luận: sâu tìm hiểu kỹ thuật khai phá liệu - Về mặt thực tiến: hỗ trợ Nhà trường hoàn thiện công cụ đánh giá, đưa đề xuất, khuyến nghị nhằm nâng cao hiệu công tác đánh giá hoạt động giảng đạy giảng viên đáp ứng yêu cầu nâng cao chất lượng giáo dục giai đoạn Cấu trúc luận văn Cấu trúc luận văn bao gồm phần mở đầu, ba chương nội dung, phần kết luận tài liệu tham khảo, đó: Chương - Tổng quan khai phá đữ liệu Chương - Một số phương pháp phân cụm đữ liệu Chương - Ứng dụng phân cụm liệu vào việc đánh giá giảng viên Trường Đại học An Giang Test mode: Classes to clusters evaluation on training data === Clustering model (full training set) === Number of iterations: Within cluster sum of squared errors: 439.47327119297165 Initial starting points (random): Cluster 0: GV160,4.5,3.6,4.2,4.3,4.23,4.62,4.87,4.6 Cluster 1: GV37,2.5,3.15,2.93,2.5,3.03,2.91,2,2.1 Cluster 2: GV394,4.3,4.1,3.5,3.5,4,2.5,2.64,3.79 Cluster 3: GV255,2.1,2.1,2.1,1.5,1.6,2,2.1,2 Missing values globally replaced with mean/mode Final cluster centroids: Cluster# Attribute Full Data (407.0) (840) (94.0) (197.0) (32.0) Ma GV GV1 GV1 GV2 GV4 GV7 PPGD 3.6985 44715 30636 3.9672 1.8797 NDGD 3.8821 4.6418 3.3413 4.1118 20628 TLGD 3.5771 4.4421 2.8043 3.8448 19278 TNGV 3.5973 45439 2.8566 3.8291 1.8619 KKTD 395635 4.4838 3.0182 3.7859 16347 KTDG 3.6365 4.4846 3.1282 3.856 1.5519 TCHD 3.6105 4.558 3.0934 3.7737 16375 4.4008 3.0102 3.9095 1.6269 TPSP 3.6238 Time taken to build model (full training data) : 0.03 seconds === Model and evaluation on training set === Clustered Instances = 84(21%) L = 94 (23%) 49 197 (48%) 32( 8%) Class attribute: xl Classes to Clusters:

Ngày đăng: 11/01/2024, 22:49

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan