Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
226,18 KB
Nội dung
1 LỜI CAM ĐOAN Luận văn hoàn thành trường Đại học Quy Nhơn Tôi xin cam đoan luận văn cơng trình nghiên cứu riêng tơi hướng dẫn Thầy TS Lê Xuân Vinh Trong q trình nghiên cứu hồn thành luận văn tơi kế thừa thành khoa học nhà khoa học đồng nghiệp với trân trọng biết ơn Tôi xin cam đoan thông tin trích dẫn luận văn rõ nguồn gốc, số liệu kết nghiên cứu đề tài trung thực hồn tồn khơng chép sử dụng kết nghiên cứu đề tài tương tự Bình Định, ngày 15 tháng năm 2020 Tác giả đề tài Nguyễn Thị Phú LỜI CẢM ƠN Trước trình bày nội dung luận văn, tơi xin bày tỏ lịng biết ơn sâu sắc tới Thầy TS Lê Xuân Vinh, người tận tình hướng dẫn để tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn chân thành tới tồn thể q thầy giáo khoa Tin trường Đại học Quy Nhơn, dạy bảo tơi tận tình suốt q trình học tập khoa Nhân dịp xin gửi lời cảm ơn chân thành tới gia đình, đồng nghiệp học sinh trường THPT Tăng Bạt Hổ cổ vũ, động viên, giúp đỡ suốt trình học tập thực luận văn tốt nghiệp Bình Định, ngày 15 tháng năm 2020 Tác giả đề tài Nguyễn Thị Phú MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG BIỂU MỞ ĐẦU Lý chọn đề tài Dự báo công việc quan trọng, thiếu nhiều lĩnh vực Khi tiến hành dự báo người ta vào xử lý liệu thu thập khứ để xác định xu hướng vận động tượng tương lai nhờ vào số mơ hình tốn học Có nhiều phương pháp dự báo khác dự báo hệ chuyên gia, dự báo phương trình hồi quy, dự báo chuỗi thời gian Nhưng dự báo phương pháp hồi quy tuyến tính hồi quy logistic ứng dụng rộng rãi nhiều lĩnh vực giáo dục, kinh doanh y học Nó có sở khoa học rõ ràng mang lại kết với độ xác cao Phân tích hồi quy logistic phân tích thống kê nhằm xác định mối quan hệ đối tượng quan tâm (biến phụ thuộc) đối tượng liên quan (các biến độc lập) để đưa kết luận có ý nghĩa thống kê Phương pháp hồi quy Logistic sử dụng nhiều toán biến phụ thuộc nhị phân hay rời rạc Trong giáo dục nước ta nay, công tác phân luồng giáo dục nghê nghiêp tiêp tục học lên đai học quan tâm Vào đại học không la đương nhât đê đên công Công tac phân luồng học sinh Vi ệt Nam thơi gian qua co n chưa tôt Ở n ước tiên tiên Đức, việc phân luông đư ợc thực rât sơm, bặt đâu tư năm lơp 6, môt sô không nho chon xu hương hoc nghê đê bô sung vao lực lương lao đông nghê nghiêp Việt Nam bặt đâu đa co xu hương đo Gân đăng ký xét tuyển vào đại học, nhiêu đia phương Nghê An , Thanh Hoa co nơi sô hoc sinh không vao đai hoc, mà học nghề lên đến 30-40% Đây la sô buôc chung ta phải suy nghĩ Nhưng yêu tô nao dân đên quyêt đinh ? Đây vấn đề cần phải phát hiện, nghiên cưu va co môt tông kêt Trong bối cảnh xã hội Việt Nam ngày nay, học sinh sau tốt nghiệp trung học phổ thơng thường có hai lựa chọn: Một là, xét tuyển vào trường đại học, cao đẳng để tiếp tục đường học vấn mình; Hai là, tham gia vào trung tâm dạy nghề để theo đuổi nghề phục vụ cho sống sau Trong thực tế có nhiều người thành cơng với lựa chọn thứ hai vào đại học khơng cịn đường để thành cơng Nhiều nghiên cứu việc lựa chọn học sinh phụ thuộc vào nhiều yếu tố cá nhân, gia đình, văn hóa mơi trường học tập [5] Các nhà quản lý, giáo dục cố gắng khám phá yếu tố để dự đoán khả học sinh học lên đại học cao đẳng hay học nghề Vì nghiên cứu nhằm mục đích thiết lập mơ hình dự đốn cách sử dụng số yếu tố ảnh hưởng đến định học sinh như: Học sinh có hộ nơng thơn hay thành thị; tình trạng sức khỏe; độ tuổi; xếp loại học lực; quy mơ gia đình; tính cách; thu nhập Bố/Mẹ; trình độ học vấn Bố/Mẹ; vấn đề tư vấn hướng nghiệp gia đình nhà trường, yếu tố ảnh hưởng đến lựa chọn học sinh có học tiếp lên đại học, cao đẳng hay học nghề? Nghiên cứu thống kê gần 500 học sinh trường THPT Tăng Bạt Hổ trường THPT Chuyên Chu Văn An Bình Định thơng tin nêu định lựa chọn học sinh để thấy yếu tố ảnh hưởng lựa chọn học sinh Từ đưa mơ hình dự đốn cho năm cách phân luồng học sinh để nhà trường gia đình có định hướng tốt cho học sinh vấn đề lựa chọn nghề nghiệp tương lai Để hiểu rõ mơ hình hồi quy logistic ứng dụng việc phát phụ thuôc cua cac yêu tô đên quyêt định cua học sinh va dư bao xu hương lựa chọn cua học sinh, đề tài luận văn lựa chọn với tiêu đề “Học máy phương pháp hồi quy logistic ứng dụng phân luồng học sinh phổ thông” Tổng quan tình hình nghiên cứu đề tài: Hồi quy logistic phân tích hồi quy thích hợp để tiến hành biến phụ thuộc nhị phân Giống tất phân tích hồi quy, hồi quy logistic phân tích dự đốn Hồi quy logistic sử dụng để mô tả liệu để giải thích mối quan hệ biến nhị phân phụ thuộc nhiều biến độc lập Ví dụ ngữ cảnh y khoa, mục tiêu hồi qui Logistic nghiên cứu mối tương quan hay nhiều yếu tố nguy đối tượng phân tích Trong hồi qui logistic đối tượng nghiên cứu thường thể qua biến số nhị phân cịn yếu tố nguy thể qua biến số liên tục biến nhị phân hay biến thứ bậc Vấn đề đặt cho nghiên cứu dạng để ước tính độ tương quan yếu tố nguy đối tượng phân tích Các phương pháp phân tích hồi qui tuyến tích khơng áp dụng biến phụ thuộc khơng phải biến liên tục mà biến nhị phân Trong năm 1970, nhà thống kê David R Cox phát triển mơ hình có tên Logistic Regression Model để phân tích biến nhị phân [3] Mơ hình trở nên có giá trị ứng dụng thống kê vào đầu năm 1980 (Ahani, et.al, 2010) Kể từ đó, hồi quy logistic sử dụng nhiều chuyên ngành bao gồm nghiên cứu y học (Sanchez cộng sự, 2008; Kaufman cộng sự, 2000; Rubino cộng sự, 2003) nghiên cứu y sinh chủ yếu để hình thành mơ hình xếp yếu tố định liệu kết có xảy hay không (Sharareh R cộng sự, 2010) Trong nghiên cứu xã hội (Ingles cộng sự., 2009; King Zeng, 2002; Saijo cộng sự., 2008; Garcia-Ramirez cộng sự, 2005), nghiên cứu thị trường (Neagu Hoerl, 2005; Kleijnen cộng sự., 2004; Barone cộng sự, 2007; Sallis Sharma, 2009; Kirkos, 2009), Trong giáo dục, nghiên cứu “Mơ hình dự đoán nhị phân xác định ý định sinh viên việc học cao hơn” Marvin S Daguplo, 2017 [4] Trong nghiên cứu này, ý định theo đuổi giáo dục đại học cho bị ảnh hưởng yếu tố quan trọng khác cá nhân môi trường hầu hết tương tác hai Koyama [5] nhận thấy lựa chọn học sinh liên quan đến đại học bị ảnh hưởng nhiều xã hội, vốn văn hóa trị gia đình họ Một nghiên cứu tiết lộ chi phí giáo dục, thể chất, khía cạnh nguồn lực giáo dục đại học; ảnh hưởng từ người quan trọng chẳng hạn cha mẹ, giáo viên đồng nghiệp ba người đứng đầu cân nhắc việc theo đuổi giáo dục đại học [6] Nghiên cứu khái niệm hóa để trình bày quan điểm định lượng học sinh có ý định theo đuổi giáo dục đại học Các nhà nghiên cứu cố gắng khám phá yếu tố dự đoán khả học sinh học cao Vì vậy, nghiên cứu nhằm mục đích thiết lập mơ hình dự đốn cách sử dụng theo ngữ cảnh yếu tố học vấn cha mẹ công việc, tuổi học sinh, giới tính, khu vực thơng tin khác, yếu tố ảnh hưởng đến ý định học sinh theo đuổi bậc học cao Mục đích nhiệm vụ nghiên cứu - Tìm hiểu kiến thức tổng quan học máy - Tìm hiểu phương pháp hồi quy Logistic - Ứng dụng phương pháp hồi quy Logistic để dự đoán phân luồng học sinh phổ thông - Phát mối quan hệ yếu tố cá nhân, gia đình, mơi trường giáo dục, mơi trường xã hội đến định lựa chọn học sinh học lên cao đẳng, đại học hay học nghề 10 Đối tượng phạm vi nghiên cứu: 4.1Đối tượng nghiên cứu lý thuyết: Tìm hiểu học máy phương pháp hồi quy logistic: Mơ hình hồi quy logistic, hàm sigmoid, hàm mát phương pháp tối ưu 4.2Đối tượng nghiên cứu thực tiễn: Lựa chọn học sinh sau tốt nghiệp trung học phổ thông: học tiếp lên đại học, cao đẳng hay học nghề 4.3Phạm vi nghiên cứu: Khảo sát thông tin cá nhân, gia đình, mơi trường giáo dục lựa chọn học sinh hai trường THPT Tăng Bạt Hổ THPT Chuyên Chu Văn An Bình Định Sau dùng phương pháp hồi quy logistic để đưa dự đoán việc phân luồng học sinh Phương pháp nghiên cứu: - Phương pháp nghiên cứu lí thuyết phương pháp thực nghiệm - Dựa tài liệu thu thập từ nhiều nguồn (sách, báo, Internet, ) tổng hợp, phân tích trình bày lại theo hiểu biết thân - Vận dụng phương pháp hồi quy logistic để dự đoán xu hướng lựa chọn học sinh phổ thông để phân luồng học sinh Kết cấu luận văn Ngoài phần mở đầu, kết luận tài liệu tham khảo, luận văn có chương cấu trúc sau: [3] D R Cox - Birkbeck College, University of London (1958) The regresstion analysis of binary sequences Journalof the Royal Statistical Society [4] Marvin S Daguplo (2017) - Binary Logistic Predictive Model in Determining Students' Intention to Take Higher Education Asia Pacific Journal of Multidisciplinary Research Vol No.4, 138-143 [5] Koyama, J P (2007) Approaching and attending college: Anthropological and ethnographic accounts Teachers College Record, 109(10), 2301-2323 [6] Haur, L S (2009) Higher education marketing concerns: Factors influenceing Malaysian students' intention to study at Higher Eduaction Institutions (Doctoral dissertation, University of Malaya) [7] Một số blog Machine Learning: Machine Learning (keyword: blog machine learning Việt Nam) [8] Lê Xuân Vinh (2017), Bài giảng trí tuệ nhân tạo nâng cao, Trường Đại học Quy Nhơn [9] Ông Xuân Hồng (2015), Đánh giá mơ hình, (https://ongxuanhong.wordpress.com/2015/08/25/danh-gia-mo-hinhmodel- evaluation/) [10] Khoản Điều Nghị định 75/2006/NĐ-CP Luật giáo dục Việt Nam PHỤ LỤC PHỤ LỤC I: CHƯƠNG TRÌNH VÍ DỤ VỀ HỒI QUY ĐƠN BIẾN import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression # training dataset DATA_FILE_NAME = 'data.csv' # gradient descent max step INTERATIONS = 200000 # learning rate ALPHA = 0.001 def sigmoid(z): return 1.0 / (1.0 + np.exp(-z)) def compute_cost(X, y, theta): # number of training examples m = y.size # activation h = sigmoid(np.dot(X, theta)) # cost j = - np.sum(y * np.log(h) + (1 - y) * np.log(1 - h)) / m return j def gradient_descent(X, y, theta, alpha, num_inters): # number of training examples m = y.size jHistory = np.empty(num_inters) for i in range(num_inters): delta = np.dot(X.T, sigmoid(np.dot(X, theta))- y) / m theta -= alpha * delta jHistory[i] = compute_cost(X, y, theta) return theta, jHistory df = pd.read_csv(DATA_FILE_NAME) df_0 = df[df.y == 0] df_1 = df[df.y == 1] # extract X,y X = df.values[:, 0:1] y = df.values[:,1] m = y.size # number of training examples # add X_0 to X X = np.concatenate((np.ones((m,1)), X.reshape(-1,1)), axis=1) theta, jHistory = gradient_descent(X, y, np.zeros(X.shape[1]), ALPHA, INTERATIONS) print(theta) khachhang = pd.read_csv("data.csv") #print(pima.info()) X = khachhang[['x']] y= khachhang['y'] print(X,y) X = X.fillna(X.mean()) clf = LogisticRegression(random_state=0, solver='lbfgs') clf = LogisticRegression() clf.fit(X, y) print(clf.predict(X)) k=clf.decision_function(X) p=1.0 / (1.0 + np.exp(-k)) print(p) #Thu voi bo du lieu Thunhap = 55000 m = np.array([55000]).reshape(1,1) print(clf.predict(m)) k=clf.decision_function(m) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print(clf.score(X, y)) #Thu voi bo du lieu Thunhap = 31000 m = np.array([31000]).reshape(1,1) print(clf.predict(m)) k=clf.decision_function(m) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print(clf.score(X, y)) #Thu voi bo du lieu Thunhap = 11000 m = np.array([21000]).reshape(1,1) print(clf.predict(m)) k=clf.decision_function(m) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print(clf.score(X, y)) #Thu voi bo du lieu Thunhap = 6500 m = np.array([9000]).reshape(1,1) print(clf.predict(m)) k=clf.decision_function(m) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print(clf.score(X, y)) PHỤ LỤC II: CHƯƠNG TRÌNH VÍ DỤ VỀ HỒI QUY ĐA BIẾN import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression # training dataset DATA_FILE_NAME = 'data.csv' # gradient descent max step INTERATIONS = 200000 # learning rate ALPHA = 0.001 def sigmoid(z): return 1.0 / (1.0 + np.exp(-z)) def compute_cost(X, y, theta): # number of training examples m = y.size # activation h = sigmoid(np.dot(X, theta)) # cost j = - np.sum(y * np.log(h) + (1 - y) * np.log(1 - h)) / m return j def gradient_descent(X, y, theta, alpha, num_inters): # number of training examples m = y.size jHistory = np.empty(num_inters) for i in range(num_inters): delta = np.dot(X.T, sigmoid(np.dot(X, theta))- y) / m theta -= alpha * delta jHistory[i] = compute_cost(X, y, theta) return theta, jHistory df = pd.read_csv(DATA_FILE_NAME) df_0 = df[df.y == 0] df_1 = df[df.y == 1] # extract X,y X = df.values[:, 0:2] y = df.values[:,2] m = y.size # number of training examples # add X_0 to X X = np.concatenate((np.ones((m,1)), X.reshape(-1,2)), axis=1) theta, jHistory = gradient_descent(X, y, np.zeros(X.shape[1]), ALPHA, INTERATIONS) print(theta) khachhang = pd.read_csv("data.csv") X = khachhang[['x_1','x_2']] y= khachhang['y'] #print(X,y) #X = X.fillna(X.mean()) #clf = LogisticRegression(random_state=0, solver='lbfgs') clf = LogisticRegression() clf.fit(X, y) k=clf.decision_function(X) p=1.0 / (1.0 + np.exp(-k)) print(p) print(clf.predict(X)) print(clf.score(X, y)) #Du doan voi so tien chi la 7.8, co the vien m = np.array([7.8,1]).reshape(1,2) k=clf.decision_function(m) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print(clf.predict(m)) print(clf.score(X, y)) #Du doan voi so tien chi la 7.8, khong dang ki vien m = np.array([7.8,0]).reshape(1,2) k=clf.decision_function(m) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print(clf.predict(m)) print(clf.score(X, y)) #Du doan voi so tien chi la 2.1, co dang ki vien m = np.array([2.1,1]).reshape(1,2) k=clf.decision_function(m) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print(clf.predict(m)) print(clf.score(X, y)) #Du doan voi so tien chi la 2.1, khong dang ki vien m = np.array([2.1,0]).reshape(1,2) k=clf.decision_function(m) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print(clf.predict(m)) print(clf.score(X, y) ) PHỤ LỤC III: CHƯƠNG TRÌNH ĐỂ TÍNH RA CÁC GIÁ TRỊ CỦA XÁC SUẤT P VÀ CÁC GIÁ TRỊ CỦA W #Buoc 1: nhap vao cac thu vien #thu vien dung cho cac phep toan dai so tuyen tinh import numpy as np #thu vien de xu li du lieu import pandas as pd #dung de chuan hoa du lieu from sklearn import preprocessing #dung de tim nhung chuc nang quan nhat from sklearn.feature_selection import SelectKBest, chi2 #cac thu vien cho logistic regression from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import time #Buoc 2: Tai tap du lieu #Lay tap du lieu mau df = pd.read_csv('hocsinhTHPT.csv') print('Cau truc cua file du lieu hoc sinh',df.shape) print(df[0:5]) print(df.count().sort_values()) print(df) # Bo cot Thoigian df1=df.drop(columns=['Thoigian'],axis=1) print(df1) print(df1.shape) # Xoa nhung hoc sinh dien bi thieu thong tin df2 = df1.dropna(how='any') print(df2.shape) print(df2.count().sort_values()) # Khong xoa nhung hoc sinh bi thieu thong tin ma dien vao cho du df[['TdhvBo','Thunhap','Tinhcach','Hocluc','HotroTC','VDGDhuongnghiep','V itricon','Baoho','QHGD','QuymoGD','TinhTrangSK','Tuoi','Hokhau','GT','Tdh vMe']] #y= df['Luachon'] #print(X,y) #X = X.fillna(X.mean()) #dien xong roi in de kiem tra #print(X.count().sort_values()) #print(X,y) #print(X.shape) #chuan hoa du lieu #scaler = preprocessing.MinMaxScaler() #scaler.fit(df) #df = pd.DataFrame(scaler.transform(df), index=df.index, columns=df.columns) #df.iloc[4:10] #print(df) #Doan chuong trinh sau de tinh cac w DATA_FILE_NAME = 'hocsinhTHPT.csv' # gradient descent max step INTERATIONS = 200000 # learning rate ALPHA = 0.001 def sigmoid(z): return 1.0 / (1.0 + np.exp(-z)) def compute_cost(X, y, theta): # number of training examples m = y.size # activation h = sigmoid(np.dot(X, theta)) # cost j = - np.sum(y * np.log(h) + (1 - y) * np.log(1 - h)) / m return j def gradient_descent(X, y, theta, alpha, num_inters): # number of training examples m = y.size jHistory = np.empty(num_inters) for i in range(num_inters): delta = np.dot(X.T, sigmoid(np.dot(X, theta))- y) / m theta -= alpha * delta jHistory[i] = compute_cost(X, y, theta) return theta, jHistory #df = pd.read_csv(DATA_FILE_NAME) df2_0 = df2[df2.Luachon == 0] df2_1 = df2[df2.Luachon == 1] # extract X,y X = df2.values[:, 0:15] y = df2.values[:,15] m = y.size # number of training examples # add X_0 to X X = np.concatenate((np.ones((m,1)), X.reshape(-1,15)), axis=1) theta, jHistory = gradient_descent(X, y, np.zeros(X.shape[1]), ALPHA, INTERATIONS) print(theta) #mo hinh logistic regression t0 = time.time() print(X,y) clf = LogisticRegression() clf.fit(X, y) print('Du doan Lua chon cho cac hoc sinh') print(clf.predict(X)) print(clf.decision_function(X)) k=clf.decision_function(X) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print('Do chinh xac cua mo hinh',clf.score(X, y)) print('Thoi gian thuc hien mo hinh',time.time() - t0) #Du doan voi mot hoc sinh co lua chon df = pd.read_csv("hocsinhTHPT2.csv") # Xoa nhung hoc sinh dien bi thieu thong tin df3 = df.dropna(how='any') print(df3.shape) print(df3.count().sort_values()) X = df2.values[:, 0:15] y = df2.values[:,15] df[['GT','Hokhau','Tuoi','TinhTrangSK','QuymoGD','TdhvBo','TdhvMe','Thun hap','HotroTC','Hocluc','QHGD','Baoho','Vitricon','Tinhcach','VDGDhuongng hiep']] #y= df['Luachon'] #print(X,y) #X = X.fillna(X.mean()) clf = LogisticRegression() clf.fit(X, y) m = np.array([0,0,2,3,0,4,3,3,0,3,2,2,2,6,1]).reshape(1,15) print('du doan lua chon cua hoc sinh la: ', clf.predict(m)) print(clf.decision_function(m)) k=clf.decision_function(m) p=1.0 / (1.0 + np.exp(-k)) print('xac suat p = ',p) print('Do chinh xac cua mo hinh',clf.score(X, y)) print('Thoi gian thuc hien mo hinh',time.time() - t0) PHỤ LỤC IV: CHƯƠNG TRÌNH ĐÁNH GIÁ MƠ HÌNH #Buoc 1: nhap vao cac thu vien #thu vien dung cho cac phep toan DSTT import numpy as np #thu vien de xu li du lieu import pandas as pd #cac thu vien cho logistic regression from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score from sklearn.metrics import classification_report from sklearn import metrics import time df = pd.read_csv("hocsinhTHPT2.csv") # Xoa nhung hoc sinh dien bi thieu thong tin df3 = df.dropna(how='any') print(df3.shape) print(df3.count().sort_values()) X = df3.values[:, 0:15] y = df3.values[:,15] #X = df[['GT','Hokhau','Tuoi','TinhTrangSK','QuymoGD','TdhvBo','TdhvMe','Thun hap','HotroTC','Hocluc','QHGD','Baoho','Vitricon','Tinhcach','VDGDhuongng hiep']] #y= df['Luachon'] #print(X,y) #X = X.fillna(X.mean()) X1 = df3.values[:200, 0:15] y1 = df3.values[:200,15] from sklearn import preprocessing as pp mms = pp.MinMaxScaler(feature_range= (0,1)) X_train1 = mms.fit_transform(X1) print(X_train1) clf = LogisticRegression() clf.fit(X_train1, y1) print(clf.predict(X_train1)) yy=clf.predict(X_train1) k=clf.decision_function(X_train1) p=1.0 / (1.0 + np.exp(-k)) print('xac suat ',p) print('Do chinh xac cua mo hinh la: ',clf.score(X_train1,y1)) # Danh gia mo hinh bang ma tran confusion # Su dung toan bo du lieu cua tap huan luyen de Test predictions = clf.predict(X) cnf_matrix = metrics.confusion_matrix(y, predictions) print('\n Ma tran chua chuan hoa') print(cnf_matrix) print('\n Ma tran chuan hoa') normalized_confusion_matrix = cnf_matrix/cnf_matrix.sum(axis = 1, keepdims = True) print(normalized_confusion_matrix) print('\n Do chinh xac mơ hình', np.diagonal(cnf_matrix).sum()/cnf_matrix.sum()) # in frame danh gia predictions = clf.predict(X) print(classification_report(y,predictions)) #Danh gia mo hinh chia tap du lieu t0 = time.time() #X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=421) X = df3.values[:200, 0:15] y = df3.values[:200,15] from sklearn import preprocessing as pp mms = pp.MinMaxScaler(feature_range= (0,1)) X_train1 = mms.fit_transform(X) print(X_train1) clf_logreg = LogisticRegression(random_state=0) # Xay dung mo hinh su dung tap du lieu huan luyen clf_logreg.fit(X, y) # Danh gia mo hinh su dung tap du lieu kiem tra y_pred = clf_logreg.predict(X_train1) l=clf_logreg.decision_function(X_train1) score = accuracy_score(y, y_pred) print(clf_logreg.predict(X_train1)) print('Do chinh xac cua mo hinh la: ',score) print('Thoi gian thuc hien mo hinh',time.time() t0) # Danh gia mo hinh bang ma tran confusion # Su dung 25% du lieu cua tap huan luyen de Test cnf_matrix = metrics.confusion_matrix(y, y_pred) print('\n Ma tran chua chuan hoa') print(cnf_matrix) print('\n Ma tran chuan hoa') normalized_confusion_matrix = cnf_matrix/cnf_matrix.sum(axis = 1, keepdims = True) print(normalized_confusion_matrix) print('\n Do chinh xac mơ hình', np.diagonal(cnf_matrix).sum()/cnf_matrix.sum()) # in frame danh gia predictions = clf.predict(X) print(classification_report(y,y_pred)) ... Tìm hiểu phương pháp xây dựng mơ hình hồi quy logistic, hàm sigmoid, hàm mát phương pháp tối ưu, số ví dụ ứng dụng vào phương pháp hồi quy Logisic Chương 3: Ứng dụng phương pháp hồi quy Logistic. .. Logistic để dự đốn phân luồng học sinh phổ thơng Phân hồi pháp tíchquy liệu logistic xây để dựng phân chương luồng học trình sinh ứng phổ dụng thông phương CHƯƠNG TỔNG QUAN VỀ HỌC MÁY Chương trình... quan học máy: Trình bày vấn đề học máy, phân lớp thuật toán học máy, bước học máy, số ngôn ngữ lập trình sử dụng học máy, số phương pháp đánh giá độ xác mơ hình Chương 2: Phương pháp hồi quy logistic: