Phân tích phản hồi về cảm nghĩ để dự đoán khả năng nghề nghiệp của học sinh cấp trung học phổ thông phần 4 luận văn thạc sĩ

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	21
Dung lượng	2,02 MB

Nội dung

37 CHƯƠNG 4 ÁP DỤNG SVM, GIẢI THUẬT NAIVE BAYES VÀ ENTROPY CỰC ĐẠI VÀO DỰ ĐOÁN KHẢ NĂNG NGHỀ NGHIỆP CỦA HỌC SINH 4 1 Những vấn đề đối với giải thuật Naive Bayes, SVM, Entropy cực đại Với Nai Bay , chúng tôi ử dụng khung Datu ox 14 Khung này hỗ trợ nhiều thu t toán nhưng chúng tôi chỉ ử dụng Nai Bay trong khuôn khổ này để ử dụng cơ n Về SVM, li SVM 15 là thư iện ã nguồn ở phổ iến cho Máy hỗ trợ V ctor ới c u hình linh hoạt à nhiều hạt nhân để ử dụng trong tương lai Chúng tôi chọn Joachi ’ SVM.

CHƯƠNG ÁP DỤNG SVM, GIẢI THUẬT NAIVE BAYES VÀ ENTROPY CỰC ĐẠI VÀO DỰ ĐOÁN KHẢ NĂNG NGHỀ NGHIỆP CỦA HỌC SINH 4.1 Những vấn đề giải thuật Naive Bayes, SVM, Entropy cực đại Với Nai Bay , dụng khung Datu ox [14] Khung hỗ trợ nhiều thu t tốn chúng tơi dụng Nai Bay ã nguồn n Về SVM, li SVM [15] thư iện khuôn khổ để dụng phổ iến cho Máy hỗ trợ V ctor ới c u hình linh hoạt nhiều hạt nhân để dụng tương lai Chúng tơi chọn Joachi ’ SVMlight k rn l [13] ì thu t tốn tối ưu hóa nhanh Tiếp th o, chọn Stanford Cla ifi r dụng Maxi u [16] Stanford Cla ifi r chứng Entropy thu t tốn inh cho kết qu tốt Nai Bay , trình phân loại SVM dựa t p liệu tiếng Anh Stanford Cla ifi r kè ới nhiều tinh chỉnh tính n ng chúng tơi dụng chúng tơi áp dụng cài đặt tính n ng giống cho c Để ước tính hiệu u t a kiểu áy hình phân loại, dụng xác thực chéo 10 lần Giá trị k chọn 10 Điều có ngh a ới 5000 câu gắn nhãn, có 500 câu [17] chứng ỗi lần Các nghiên cứu thực nghiệ Koha i inh ố lượng chọn 10, dường ố nếp g p tối ưu Trong xác thực chéo 10 lần, toàn Mỗi lần g p dụng t p liệu chia thành 10 lần loại trừ lẫn t lần để kiể tra tính thu t toán tạo từ liệu tổng hợp chín lần g p cịn lại 4.2 Đề xuất giá trị đầu vào cho giải thuật Naive Bayes, SVM, Entropy cực đại 4.2.1 Xử lý liệu đầu vào Dữ liệu ph n hồi học inh thu th p từ Trung học Phổ thông Ngô S iên tỉnh Kiên Giang Chúng chia giai đoạn thành ước 37 Bước 1: Kiể tra địa ạch liệu, loại ỏ ố thông tin không cần thiết như: d u thời gian ail Sau đó, loại ỏ t t c câu lỗi, trùng lặp liệu ị khuyết, chúng tơi có 5.000 câu thơ Bước 2: Sau đó, liệu trình ày ã hóa thành ố từ - 4, tương ứng ới liệu, ng 4.1 au B ng 4.1 Dữ liệu Mã hóa Dữ liệu Khơng thích Thích ã hóa Bình Tự nhiên thường Kết qu liệu xử lý ã hóa trình ày hình au: Hình 4.1 Dữ liệu trước xử lý 38 Xã h i Hình 4.2 Dữ liệu ã hóa 4.2.2 Một số vấn đề khác B phân loại Nai Bay , Maxi u Entropy Support V ctor Machin đối ánh đối tượng ới nhãn phù hợp dựa thống kê chúng Trong trình t p hu n luyện, điể nhãn quy trình kiể thống kê xây dựng từ liệu hu n luyện đầu Các tra tính n ng liệu đầu từ thực giai đoạn trước Kết qu có ới nghiệp, phân khối học inh Chúng dụng u t t ng ục đích dự đốn nghề a tr n để phân tích hiệu hình phân loại 4.3 Thực thi giải pháp kết uả đạt Dựa xác nh n chéo 10 lần, B ng trình ày kết qu tó tắt ới nghiên cứu MaxEnt đạt điều tốt nh t tổng điể th o au Na Bay phân loại ới 78%, ới 77,00% Đáng ngạc nhiên đây, SVM có đ xác th p nh t ới 75% 39 B ng 4.2 Kết qu phân loại để xác thực chéo 10 lần Classifier Models Naïve Bayes Maxent SVM Overall Accuracy 77% 78% 75% Chi tiết cho hình, chúng tơi ẽ trình ày phần tiếp th o 4.3.1 Thuật toán Maxent Trong ng 4.3, Với nguồn liệu dụng, Max nt cho kết qu có đ xác th p lớp Nhưng có kết qu tốt nh t lớp B ng 4.3 Kết qu phân loại Max nt Độ xác Recall F1-score (precision) 3-Tự nhiên 55% 57% 56% 4-Xã hội 86% 85% 85% 0.78 Accuracy Macro avg 0.70 0.71 0.71 Weighted avg 0.78 0.78 0.78 Ở thu t toán này, liệu nh p ào, th o tương ứng câu hỏi đặt kh o át, au cho kết qu dự áo cuối Thử nghiệ 40 au: Hình 4.3 Chạy thử hình thu t tốn Max nt (1) Hình 4.4 Chạy thử hình thu t tốn Max nt (2) 41 4.3.2 Thuật toán NAIVE-BAYES Kết qu B ng 4.4 Kết qu phân loại Nai Độ xác (precision) - Bayes Recall F1-score 3-Tự nhiên 55% 55% 55% 4-Xã hội 85% 85% 85% 0.77 Accuracy Macro avg 0.70 0.70 0.70 Weighted avg 0.77 0.77 0.77 Tại thu t toán Nai Bay , dụng tương tự ới Max nt Thu t tốn chúng tơi chạy thử nghiệ au: 42 Hình 4.5 Chạy thử hình thu t tốn Naive Bayes (1) 43 Hình 4.6 Chạy thử hình thu t toán Naive Bayes (2) 44 4.3.3 Thuật toán SVM Trong bảng 4.5 chứng inh SVM tốt nh t ới t p liệu nhị phân không thành công lớp SVM phân loại xác dù t trường hợp B ng 4.5 Kết qu phân loại SVM Độ xác (precision) Recall F1-score 3-Tự nhiên 0% 0% 0% 4-Xã hội 75% 100% 86% 0.75 Accuracy Macro avg 0.37 0.50 0.43 Weighted avg 0.56 0.75 0.64 Tại thu t toán áp dụng tương tự, chạy thử chương trình ằng liệu qua xử lý Để xác định ức đ dự đoán qu phân ề hai lớp “[3]” [4] Trong hình dự án Kết hình t t thử đây, cho th y học inh dự đoán phù hợp ới khối ngành “xã h i” 45 Hình 4.7 Chạy thử hình thu t tốn SVM (1) 46 Hình 4.8 Chạy thử hình thu t toán SVM () 4.4 Kết luận Nghiên cứu Stanford ới t p liệu tiếng Anh cân ằng (R ut r ) [12] cho kết qu dự đoán Max nt hoạt đ ng tốt nh t a cân ằng chúng tơi cho thử nghiệ hình Dữ liệu khơng khơng xác định ề ặt t nh thực tế ch p nh n Chúng tơi nói điều ởi ì hầu hết trường hợp, quan tâ đến ph n hồi từ học inh Nó phân tích đưa kết qu dự đoán ề nghề nghiệp cho học inh, hay nói rõ phân chia an học cho học inh, dựa thích, quan tâ đến ôn học Trong nghiên cứu đưa kết qu dự đoán Max nt hoạt đ ng tốt nh t, ới đ xác 78% Tiếp th o ới đ xác có kho ng cách khơng q xa ới Max nt thu t tốn Nai Bay , đ xác thu t toán 77% Xếp cuối a thu t toán thử nghiệ cho th y trình phân loại SVM phân loại Xã h i - Nhưng SVM là SVM M t ố nghiên cứu trước t trường hợp nhị phân, í dụ hình nh t không thành công lớp Tự nhiên - Chúng tơi th y MaxEnt đạt đ xác lớp cao nh t ới 86% 47 KẾT LUẬN VÀ KIẾN NGHỊ T ng kết đề tài Nghiên cứu đáp ứng ục tiêu đề tài dự đoán kh n ng nghề nghiệp tương lai học inh c p trung học phổ thông ằng cách gi i thu t Nai SVM Entropy cực đại Điều nhằ ề nghề nghiệp n thân nghiên cứu học inh t cách xác, trực quan Bên cạnh đó, đề tài rõ ề thu t toán điều chỉnh thông ố gi i thu t để t ng đ xác Ba thống kê Vì hỗ trợ định hướng cho Bay , phân loại nghiên cứu thử nghiệ dựa xác u t y, liệu đào tạo đóng trị r t quan trọng Nghiên cứu cho th y kết qu xác th o lớp chứng inh liệu không cân ằng ẽ không nh hưởng đến lớp tiêu cực nhiều th y lớp tích cực Dữ liệu nghiên cứu cho th y ph n hồi tiêu cực tích cực ình thường cu c ống tại, điều cho đ xác nghiên cứu đáng tin c y Với đ xác tốt nh t 78%, tác gi th y MaxEnt đầy hứa hẹn r t tiề n ng o ới gi i thu t lại Những đóng góp đề tài Đề tài nghiên cứu đóng góp liệu giáo dục ình ới 5.000 câu gắn nhãn tích cực, tiêu cực trung l p Dữ liệu tác gi nguồn hữu ích cho c ng đồng phân tích ph n hồi ề c uốn tạo định dạng chứng ngh tương lai Nghiên cứu tác gi t ứng dụng l y liệu thô người dùng xu t kết qu n n iểu thức trực quan dạng iểu đồ Nghiên cứu inh Na Bay cũ, ké xác t ố l nh ực không ph i l nh ực Mặc dù ph n hồi phức tạp thu t tốn truyền thống hoạt đ ng hiệu qu ới tính n ng thích hợp chọn Những hạn chế cịn tồn Mặc dù thực có nhiều cố gắng để hoàn thành ài lu n giống ới Các hạn chế t ố nghiên cứu khác, nghiên cứu tồn tác gi gặp ph i q trình nghiên cứu liệu n t ố hạn chế tác gi dụng chưa ph i liệu đạt chuẩn Ngoài ra, kho tài liệu đề tài nghiên cứu 48 chưa nhiều ì y nên r ng tài liệu ới nhiều đánh giá học inh Hướng mở rộng phát triển đề tài Từ kết qu phân tích nghiên cứu, tác gi đề xu t triển phân tích tình c gi t ố hướng kh thi để phát tương lai Thứ nh t nên giàu liệu tác ằng cách thu th p ghi nhãn ph n hồi học inh từ nhiều trường c p trung học phổ thông Mục tiêu tương lai nhó câu t p liệu Xây dựng tác gi có ố 10.000 liệu có đ cân ằng cao hơn, đáp ứng cho iệc dụng nghiên cứu chuẩn xác Thứ hai, xây dựng nên thành ứng dụng, nhằ đưa hướng hỗ trợ giáo dục ề định hướng cho học inh tương lại cách xác cao 49 TÀI LIỆU THAM KHẢO [1] B T Kieu and S B Pham "Sentiment analysis for vietnamese," in Knowledge and Systems Engineering (KSE), 2010 Second International Conference on, 2010, pp 152-157 [2] S Mac Kim and R A Calvo "Sentiment analysis in student experiences of learning," In Educational Data Mining 2010, 2010 [3] R M Achen and A Lumpkin "Evaluating Classroom Time through Systematic Analysis and Student Feedback," International Journal for the Scholarship of Teaching and Learning Vol 9, p 4, 2015 [4] D Phuc and N T K Phung "Using Naïve Bayes model and natural language processing for classifying messages on online forum," in Research, Innovation and Vision for the Future, 2007 IEEE International Conference on, 2007, pp 247-252 [5] Larose D T Data Mining: Methods and Models John Wiley & Sons, Inc Pubs Canada, 2006 [6] M K Smith et al "The Classroom Observation protocol for Undergraduate STEM (COPUS): a new instrument to characterize university STEM classroom practices," CBE-Life Sciences Education Vol 12, pp 618-627, 2013 [7] D Delen "A comparative analysis of machine learning techniques for student retention management," Decision Support Systems Vol 49, pp 498-506, 2010 [8] N T Duyen et al "An empirical study on sentiment analysis for Vietnamese," in 2014 International Conference on Advanced Technologies for Communications (ATC 2014), 2014, pp 309-314 [9] B Liu "Sentiment analysis and opinion mining," Synthesis lectures on human language technologies Vol 5, pp 1-167, 2012 50 [10] B Rohrer "How to choose algorithms for Microsoft Azure machine learning." Internet: https://docs.microsoft.com/en-us/azure/machine-learning/how-to-select- algorithms, Aug 10, 2015 [11] T Wilson et al "Recognizing contextual polarity in phrase-level sentiment analysis," in Proceedings of the conference on human language technology and empirical methods in natural language processing, 2005, pp.347-354 [12] D Klein and C Manning "Maxent models, conditional estimation, and optimization," HLTNAACL 2003 Tutorial, 2003 [13] T Joachims (2017, May.) "Svmlight: Support vector machine," SVM-Light Support Vector Machine [Online] Vol.19 Available: http://svmlight.joachims.org/ [14] V Vryniotis "Developing a Naive Bayes Text Classifier in JAVA." Internet: https://blog.datumbox.com/developing-a-naive-bayes-text-classifier-in-java/, January 27, 2014 [15] C.-C Chang and C.-J Lin "LIBSVM: a library for support vector machines," ACM ransactions on Intelligent Systems and Technology (TIST) Vol 2, p.27, 2011 [16] D Klein The stanford classifier The Stanford Natural Language Processing Group, 2003 [17] R Kohavi "A study of cross-validation and bootstrap for accuracy estimation and model selection," in Ijcai, 1995, pp 1137-1145 [18] R Socher et al "Recursive deep models for semantic compositionality over a sentiment treebank," in Proceedings of the conference on empirical methods in natural language processing (EMNLP), 2013, p 1642 [19] N Altrabsheh et al "SA-E: sentiment analysis for education," in 5th KES International Conference on Intelligent Decision Technologies, 2013 [20] C Cort and V Vapnik “Support-V ctor N twork ,” Machine Learning Vol 20, no 3, pp 273–297, Sep.1995 51 [21] Vapnik V Statistical Learning Theory Wiley–Interscience New York 1998 [22] Vladimir N Vapnik The Nature of Statistical Learning Theory Springer, 1995 [23] Thorsten Joachims Learning to Classify Text Using Support Vector Machines: Methods, Theory and Algorithms Kluwer Academic Publishers, USA, 2002 [24] Joachims, T Making Large-Scale SVM Learning Practical Advances in kernelmethods, 1999 [25] Thor t n Joachi 2002 “Opti izing arch ngin u ing clickthrough data,” in Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '02) Association for Computing Machinery, New York, NY, USA, 133–142 [26] Thor t n Joachi “Tran ducti Inf r nc for T xt Cla ification u ing Support Vector Machines.” in Proceedings of the Sixteenth International Conference on Machine Learning (ICML '99) Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 200–209, 1999 [27] I Ri h “An E pirical Study of th Nai Bay cla ifi r,” in Proceedings of IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence, 2001 [28] A.L Berger et al 1996 “A proc axi u ntropy approach to natural languag ing,” Computational Linguistics, Vol 22, Issue 1, March 1996, pp 39–71 [29] Do ingo , P and Pazzani, M “On th Opti ality of th Si pl Bay ian Classifier under Zero-On o ,” Machine Learning Vol 29, pp 103–130, 1997 [30] Đặng N H Thành c ng ự “M t góc nhìn từ ài toán phân lớp liệu: thang điể đánh giá quan trọng?" trình ày Kỷ yếu Hội thảo khoa học quốc gia Hệ thống thông tin Kinh doanh Quản lý –ISBM20, Thành Phố Hồ Chí Minh, tháng 10 n 2020, NXB Kinh Tế TP Hồ Chí Minh, pp 273-280, 2020 52 [31] J Brownl (2020) “4 Types of Classification Tasks in Machine Learning.” Accessed November 2020 Internet: https://machinelearningmastery.com/types-ofclassification-in-machine-learning, 20/4/2021 [32] Kotsiantis et al “Machin l arning: a r i w of cla ification and co ining t chniqu ,” Artif Intell Rev Vol 26, pp 159–190, 2006 [33] Jiawei Han and Micheline Kamber Data Mining: Concepts and Techniques Second Edition, Morgan Kaufmann Publishers, 2006 [34] Dur un D l n “A co parati tud nt r t ntion anag analy i of achin l arning t chniqu for nt,” Decision Support Systems Vol 49, Issue 4, pp 498– 506, 2010 [35] Chri toph r Manning and Dan Kl in “Opti ization, conditional ti ation without ax nt od l , and agic.” in Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: Tutorials Vol (NAACL-Tutorials '03), p 8, 2003 [36] Joachims and Thorsten "Svmlight: Support vector machine." SVM-Light Support Vector Machine, University of Dortmund [Online] Vol 19 (no 4) Available: http://svmlight joachims org/, 1999 [37] V Vryniotis (2014)."Developing a Naive Bayes Text Classifier in JAVA." Internet: https://blog.datumbox.com/developing-a-naive-bayes-text-classifier-in-java/, 06/03/2021 [38] Chih-Chung Chang and Chih-J n ctor in 2011 “ IBSVM: A li rary for upport achin ,” ACM Transactions on Intelligent Systems and Technology (TIST) Vol 2, no 27, pp 1–27, April 2011 [39] D Klein (2003) "The stanford classifier." The Stanford Natural Language Processing Group Internet: https://nlp.stanford.edu/software/classifier.shtml 53 PHỤ LỤC D o thu t toán Na D o thu t toán SVM -Bayes 54 D o thu t toán SVM 55 Gi y xác nh n 56 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: Trần Thanh Điền Giới tính: Nam Ngày, tháng, n inh: 06/06/1984 Nơi inh: Kiên Giang Email: thanhdien1984@gmail.com Điện thoại: 0917.723457 II QUÁ TRÌNH ĐÀO TẠO: Từ n 2003 đến 2006: Học cao đẳng trường cao đẳng c ng đồng Kiên Giang Từ n 2009 đến 2011: Học đại học trường ĐH Công Nghệ Thông Tin TP.HCM Từ n 2017 đến 2020: Học cao học Khoa Công nghệ Thông tin – Trường đại học Cơng nghiệp thành phố Hồ Chí Minh III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Nơi công tác 2007-2012 Trung Tâm KTTH-Hướng Nghiệp 2013-đến Công việc đảm nhiệm Trường THPT Ngô S iên Giáo viên Giáo viên Tp HCM, ngày tháng 10 năm 2021 Người khai Trần Thanh Điền 57 ... hồi từ học inh Nó phân tích đưa kết qu dự đoán ề nghề nghiệp cho học inh, hay nói rõ phân chia an học cho học inh, dựa thích, quan tâ đến ơn học Trong nghiên cứu đưa kết qu dự đoán Max nt hoạt... ứng ục tiêu đề tài dự đoán kh n ng nghề nghiệp tương lai học inh c p trung học phổ thông ằng cách gi i thu t Nai SVM Entropy cực đại Điều nhằ ề nghề nghiệp n thân nghiên cứu học inh t cách xác,... giai đoạn trước Kết qu có ới nghiệp, phân khối học inh Chúng dụng u t t ng ục đích dự đốn nghề a tr n để phân tích hiệu hình phân loại 4.3 Thực thi giải pháp kết uả đạt Dựa xác nh n chéo 10 lần,

Ngày đăng: 30/06/2022, 14:18