Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình python đề tài nghiên cứu khoa học sinh viên

58 3 0
Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình python đề tài nghiên cứu khoa học sinh viên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN NĂM 2019 NGHIÊN CỨU PHƯƠNG PHÁP MƠ HÌNH HĨA DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGƠN NGỮ LẬP TRÌNH PYTHON Sinh viên thực Nguyễn Phi Thái Lớp: CNTT K57 Khoa: Công nghệ thông tin Trần Xuân Lâm Lớp: CNTT K57 Khoa: Công nghệ thông tin Người hướng dẫn: ThS Phạm Thị Kim Thúy TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN NĂM 2019 NGHIÊN CỨU PHƯƠNG PHÁP MƠ HÌNH HĨA DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGƠN NGỮ LẬP TRÌNH PYTHON Sinh viên thực Nguyễn Phi Thái Nam Dân tộc: Kinh Lớp: CNTT K57 Khoa: Công Nghệ Thông Tin Trần Xuân Lâm Nam Dân tộc: Kinh Lớp: CNTT K57 Khoa: Công Nghệ Thông Tin Năm thứ: 3/4 Năm thứ: 3/4 Người hướng dẫn: ThS Phạm Thị Kim Thúy LỜI CẢM ƠN Trong trình thực đề tài nghiên cứu này, chúng em nhận nhiều quan tâm, giúp đỡ từ thầy cô công tác trường đại học Giao Thông Vận Tải thành phố Hồ Chí Minh Chúng em cám ơn chân thành đến Ban giám đốc trường Phân Hiệu đại học Giao Thông Vận Tải thành phố Hồ Chí Minh phát động hội thi Nghiên Cứu Khoa Học Sinh Viên, nhờ mà chúng em có hội học tập, trau dồi kiến thức, kĩ làm quen với việc nghiên cứu khoa học Đặc biệt, nhóm em chân thành cảm ơn đến Phạm Thị Kim Thúy tận tâm bảo, lắng nghe ý tưởng giúp chúng em trình thực đề tài Những thiếu sót đề tài nghiên cứu tránh khỏi hạn chế kiến thức, kinh nghiện thực tế, nhóm mong nhận lời dẫn, góp ý quý thầy để đề tài thêm phần hồn thiện Lời cuối, em xin chúc thầy cô thành công công việc giảng dạy hạnh phúc sống Đại diện nhóm NCKH Nhóm trưởng Nguyễn Phi Thái MỤC LỤC CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Mô tả liệu 1.1.1 Mô tả liệu phương pháp đồ thị 1.1.2 Mô tả liệu phương pháp số 1.1.2.1 Các số đo xu hướng trung tâm .4 1.1.2.2 Số đo hướng biến thiên 1.1.2.3 Đồ thị hình hộp 10 1.2 Hồi quy tuyến tính .11 1.2.1 Giới thiệu .11 1.2.2 Mô hình hồi quy tuyến tính 11 1.3 Hệ số tương quan 13 CHƯƠNG 2: GIỚI THIỆU VỀ PYTHON .15 2.1 Lập trình Python 15 2.1.1 Cài đặt anaconda để lập trình python 15 2.1.2 Cài đặt Spyder .16 2.1.3 Các thành phần ngôn ngữ python 17 2.2 Các thư viện hỗ trợ python .20 2.2.1 Cách import thư viện .20 2.2.2 Thư viện Numpy 21 2.2.3 Thư viện Pandas 23 2.2.4 Thư viện Mablotlib 24 2.2.5 Thư viện Sympy 25 CHƯƠNG 3: PYTHON TRONG XÁC SUẤT THỐNG KÊ 26 3.1 Nhập xuất liệu vào file excel với thư viện pandas .26 3.1.1 Ứng dụng Python mô liệu điểm thi .26 3.1.2 Nhập xuất liệu thông qua file excel 27 3.2 Đánh giá liệu thông qua biểu đồ .28 3.2.1 Biểu đồ cột (Histogram) 28 3.2.2 Biểu đồ đường .31 3.2.3 Biểu đồ hình hộp (Boxplot) 31 3.2.4 Biểu đồ tán xạ 32 3.3 Xử lí liệu 33 3.3.1 Các Phép tốn liên quan đến phương trình đường thẳng hồi quy tuyến tính 33 3.3.2 Mơ hình hóa phương trình đường thẳng hồi quy tuyến tính 34 3.3.3 Mơ phương trình đường thẳng hồi quy 37 KẾT LUẬN VÀ KIẾN NGHỊ 39 Kết luận 39 Kiến nghị .40 TÀI LIỆU THAM KHẢO 41 PHỤ LỤC BẢNG BIỂU Bảng 2.1: Toán tử số học 18 Bảng 2.2: Toán tử quan hệ 18 Bảng 2.3: Toán tử gán 18 Bảng 2.4: Toán tử logic 19 Bảng 2.5: Toán tử membership 19 Bảng 2.6: Thứ tự ưu tiên toán tử 19 Bảng 2.7: Các phép toán hỗ trợ 22 Bảng 2.8: Các toán tử hỗ trợ 22 Bảng 3.1: Bảng điểm môn Xác suất Thống kê 26 Bảng 3.2: Danh sách thuộc tính quan trọng 36 PHỤ LỤC HÌNH ẢNH Hình 1.1: Biểu đồ tỉ lệ dân số Thế Giới Hình 1.2: Biểu đồ sản lượng cao su .2 Hình 1.3: Biểu đồ cột thể bảng phân bố tần số ghép lớp .3 Hình 1.4: Vị trí số đo trung tâm .6 Hình 1.5: Mức phân vị thứ p Hình 1.6: Ba mức phân vị Hình 1.7: Phạm vi tứ phân vị Hình 1.8: Các thành phần đồ thị hình hộp 10 Hình 1.9: Đồ thị hình hộp 10 Hình 1.10: Hồi quy tuyến tính 12 Hình 2.1: Giao diện ANACONDA 15 Hình 2.2: Thêm environment ANACONDA 15 Hình 2.3: Công cụ ANACONDA 16 Hình 2.4: Giao diện spyder 16 Hình 2.5: Đồ thị Boxplot .23 Hình 2.6: Phương trình đường thẳng 24 Hình 2.7: Đồ thị tán xạ 24 Hình 2.8: Đường nối điểm liệu 25 Hình 3.2: Biểu đồ cột ứng với điểm môn Xác xuất Thống kê .29 Hình 3.2: Mô tả tần số xuất điểm sinh viên 29 Hình 3.3: Biểu đồ histogram dạng mật độ 30 Hình 3.4: Biểu đồ tần suất điểm kết thúc học phần 30 Hình 3.5: Biểu đồ tần suất điểm thành phần .31 Hình 3.6: Biểu đồ đường 31 Hình 3.7: Biểu đồ hình hộp (Boxplot) 32 Hình 3.8: Biểu đồ tán xạ .32 Hình 3.9: Phương trình đường thẳng hồi quy 37 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH THƠNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI Thông tin chung - Tên đề tài: NGHIÊN CỨU PHƯƠNG PHÁP MƠ HÌNH HĨA DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGƠN NGỮ LẬP TRÌNH PYTHON - Sinh viên thực hiện: Nguyễn Phi Thái Lớp: CNTT K57 Khoa: Công Nghệ Thông Tin Năm thứ: Trần Xuân Lâm Lớp: CNTT K57 Khoa: Công Nghệ Thông Tin Năm thứ: Số năm đào tạo: Số năm đào tạo: - Người hướng dẫn: ThS Phạm Thị Kim Thúy Mục tiêu đề tài Dùng phương pháp lập trình, cụ thể lập trình với ngơn ngữ python để tính đặc trưng số kì vọng, phương sai, … Sau vẽ dạng đồ thị để minh họa liệu ngẫu nhiên thông kê Ứng dụng Python để phân tích mẫu nghiên cứu thơng qua dạng đồ thị đồ thị histogram, boxplot, … Tính sáng tạo Hiện việc học tập sinh viên môn Xác suất thống kê cứng nhắc Sinh viên chủ yếu biết kiến thức Xác suất Thống kê thông qua sách truyền đạt giáo viên Đề tài trình bày sở lý thuyết Xác suất thống kê, lập trình với ngơn ngữ Phython Từ áp dụng lập trình để xử lí tốn thống kê Kết sau xử lí mơ dạng đồ thị để sinh viên tiếp cận với kiến thức xác suất thống kê cách trực quan dễ hình dung nhất, người dạy dẽ dàng truyền đạt kiến thức Xác Suất Thống Kê đến sinh viên Kết nghiên cứu Dùng lập trình ngơn ngữ Python để mơ tốn thống kê cụ thể phương trình hồi quy tuyến tính Đánh giá liệu thơng qua dạng đồ thị: Đồ thị hình cột (histogram), đồ thị hình hộp (boxplot), Đóng góp mặt kinh tế - xã hội, giáo dục đào tạo, an ninh, quốc phòng khả áp dụng đề tài Việc phân tích liệu quan trọng lĩnh vực kinh tế - xã hội, giáo dục đào tạo, an ninh, quốc phịng, … Mơ liệu phương pháp hình học giúp cho hình dung mẫu liệu cách trực quan, dễ dàng Từ đó, đưa kết luận về liệu Mơ liệu phương pháp hình học giúp cho sinh viên dễ hình dung kiến thức Xác suất - Thống kê, Nó tảng để thực công việc, lĩnh vực khác xử lí ảnh, phân tích liệu, … Công bố khoa học sinh viên từ kết nghiên cứu đề tài (ghi rõ họ tên tác giả, nhan đề yếu tố xuất có) nhận xét, đánh giá sở áp dụng kết nghiên cứu (nếu có): Ngày 12 tháng năm 2019 Sinh viên chịu trách nhiệm thực đề tài (ký, họ tên) Nguyễn Phi Thái ` Nhận xét người hướng dẫn đóng góp khoa học sinh viên thực đề tài (phần người hướng dẫn ghi): Trên sở lý thuyết Xác suất Thống kê; Mối liên hệ lý thuyết thực hành Từ đó, đề tài mơ mẫu ngẫu nhiên lập trình với ngơn ngữ Python để đánh giá liệu cách trực quan dễ hình dung Ngày 12 tháng 04 năm 2019 Người hướng dẫn (ký, họ tên) Phạm Thị Kim Thúy 34 return (data[i - 1] + data[i])/2 median(data) + Giá trị mode: giá trị mode giá trị mà xuất nhiều nhất, cần đếm số lượng phần tử xuất nhiều trong mảng liệu def mode(data): dmax = data[0] for d in data: if data.count(d) > data.count(dmax): dmax = d return dmax mode(data); + Độ lệch: Nếu đại diện tập liệu giá trị trung vị giá trị trung bình hai tập giống nhau: mean([1,5,9]) == mean([3,4,5,6,7]) Vì vậy, tính giá trị trung bình độ lệch: def mydev(data): mu = mean(data) return sum([point-mu for point in data])/len(data) + Phương sai: Phương sai trung bình bình phương độ lệch def variance(data): mu = mean(data) return sum([(point-mu)**2 for point in data])/len(data) + Độ lệch chuẩn: bậc hai phương sai def stddev(data): # standard deviation return math.sqrt(variance(data)) 3.3.2 Mơ hình hóa phương trình đường thẳng hồi quy tuyến tính Trong trường hợp này, thay đổi tên cột ‘x’,’y’.Cú pháp: dataframe.rename(columns={columns[0]:"x",columns[1]:"y "},inplace=True) print(dataframe.columns) 35 Sử dụng thư viện: from statsmodels.formula.api import ols Sử dụng hồi quy đơn để phân tích xem điểm thành phần có liên quan so với điểm học phần, với phân phối y~x: model=ols(dataframe.columns[1]+"~"+dataframe.columns[0] ,dataframe).fit() print(model.summary()) Sau gọi xuất bảng kết sau: OLS Regression Results Dep Variable: y R-squared: 0.797 Model: OLS Adj R-squared: 0.789 Method: Least Squares F-statistic: 105.9 Date: Tue, 09 Apr 2019 Prob (F-statistic): 7.65e-11 Time: 10:32:26 Log-Likelihood: -49.385 No Observations: 29 AIC: 102.8 Df Residuals: 27 BIC: 105.5 Df Model: Covariance Type: nonrobust =========================================================== =================== coef std err t P>|t| [0.025 0.975] Intercept -0.9723 0.617 -1.576 0.127 2.238 0.293 x 0.9005 0.088 10.291 0.000 0.721 1.080 =========================================================== =================== Omnibus: 2.228 Durbin-Watson: 1.399 Prob(Omnibus): 0.328 Jarque-Bera (JB): 1.220 Skew: -0.482 Prob(JB): 0.543 36 Kurtosis: 17.3 3.286 Cond No Trong bảng bao gồm nhiều thông tin ước lượng, cụ thể sau: Bảng 3.2: Danh sách thuộc tính quan trọng Cột coef in tham số hàm hồi quy tuyến tính, hàm hồi quy tuyến tính là: Y   0.9723  0.9005 X Ngoài ra, hệ số xác định R-Square có giá trị 0.797 có ý nghĩa mơ hình lý thuyết phù hợp với liệu thực tế chiếm 79.7% Ngoài ra, khoảng tin cậy cho hệ số hồi quy biến X (điểm thành phần) thuộc khoảng (0.721,1.080) Trong trường hợp, cần lấy ta giá trị tham số b0,b1 hàm hồi quy sử dụng câu lệnh: model.params Kết quả: 0.892661089205942 Bảng có khoảng tin cậy liệu α = 0.05 Nếu khoảng tin cậy khác, ví dụ α = 0.03 cần phải sử dụng thêm câu lệnh: 37 model.conf_int(0.01) 3.3.3 Mô phương trình đường thẳng hồi quy Sử dụng đồ thị tán xạ liệu trên, kết hợp với vẽ đường thẳng hồi quy tuyến tính đồ thị hồi quy tuyến tính predict = model.predict () plt.figure() plt.scatter(dataframe[column1],dataframe[column2]) plt.plot( dataframe[column1],predict , color ='r') plt.xlabel('Điểm thành phần') plt.ylabel('Điểm kết thúc học phần') plt.title('Đồ thị hồi quy tuyến tính điểm thành phần điểm kết thúc học phần') plt.show () Đồ thị sau thực thi: Hình 3.9: Phương trình đường thẳng hồi quy Thơng qua đồ thị hồi quy tuyến tính điểm thành phần điểm thi kết thúc học phần tạo dựa ngôn ngữ python, nhóm có nhận xét sau: + Đường thẳng hồi quy tuyến tính có xu hướng lên nên điểm thành phần điểm kết thúc học phần tỉ lệ thuận với nhau, điểm thành phần tăng điểm thi kết thúc học phần tăng 38 + Các giá trị điểm kết thúc học phần tương ứng với điểm thành phần phân bố hai bên đường thẳng hồi quy + Nhìn vào đồ thị, dự báo điểm kết thúc học phần có điểm thành phần Giả sử điểm thành phần điểm điểm kết thúc học phần dự đoán nằm khoảng từ [1.8, 2] điểm 39 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Trong môn học Xác xuất Thống kê, sinh viên giải tiếp cận toán cách phương pháp thơng thường phương pháp thiếu tính minh họa, trực quan Hơn nữa, lĩnh vực việc lấy mẫu dự liệu quan trọng, với mẫu liệu khác sinh viên phải giải nhiều lần khác nhau, điều tốn nhiều thời gian, cơng sức Vì vậy, việc thực giải tốn phương pháp lập trình giải vấn đề Ngơn ngữ python cơng cụ lập trình có tính mạnh mẽ việc giải toán, đặc biệt lĩnh vực phân tích liệu Cụ thể python có nhiều thư viện xây dựng giúp minh họa tốn thơng qua dạng đồ thị, biểu đồ histogram, tròn, boxplot, Điều giúp cho việc đánh giá liệu dễ dàng Từ đó, nhà thống kê đưa kết luận xác cho mẫu liệu Đề tài sử dụng phương pháp lập trình với ngôn ngữ python để xử lý liệu mô hình hóa liệu cách trực quan Cụ thể, đề tài xây dựng mơ hình để biểu thị tương quan hai thuộc tính liệu phương trình hồi quy tuyến tính Thơng qua phương trình hồi quy tuyến tính, dự đốn giá trị cịn lại Ngồi ra, việc mơ phương trình hồi quy tuyến tính phương pháp đồ thị mà sử dụng ngôn ngữ python cho phép dễ dàng hình dung phân bố tập liệu mối tương quan tập liệu Về việc giải tốn lập trình có nhiều điểm tương đồng nhau: Cả hai giải vấn đề chưa có lời giải, gồm bước: Tìm u cầu, phân tích liệu, giải tốn đưa kết Chúng ta hồn tồn áp dụng kiến thức lập trình để giải tốn thay cách giải thơng thường Thống kê thu thập, phân tích, thấu hiểu biểu diễn số lượng liệu lớn Ta lấy liệu, xem xét để tìm bí ẩn phía sau Đây tảng cho ngành liên quan khoa học liệu (data science) ngành hot Việc sử dụng lập trình để giải tốn tương tự mà khơng nhiều thời gian giải lại với đầu vào thay đổi, tốn có số lượng đầu vào lớn mà người khó tìm lời giải Điều ta cần làm thu thập liệu 40 phải hiểu khía cạnh liệu, khơng học thuộc lịng cơng thức, tính chất để làm kiểm tra đánh giá Ngồi việc lập trình giúp cho giải nhanh dạng tốn, cịn áp dụng phương pháp lập trình để mơ tả liệu phương pháp hình học, trực quan, dễ hiểu Điều đặc biệt cần viết chương trình lần lần sau việc áp dụng với nhiều mẫu khác nhau, nhờ cần xây dựng lần sử dụng nhiều lần Điều giúp cho tiết kiệm thời gian nhiều Đây ý tưởng mà nhóm muốn truyền đạt thơng qua đề tài Kiến nghị Việc mô tả liệu thực tế thường lớn việc xử lý số liệu có nhiều phương pháp khác kết hợp với thuật tốn phức tạp để xử lý tốt liệu Vì để tài đưa ví dụ để sinh viên hình dung cách tiếp cận việc mơ hình hóa liệu Do đó, tương lai đề tài nên mở rộng với tập liệu quy mô lớn nên chọn mơ hình hồi quy đa tuyến 41 TÀI LIỆU THAM KHẢO [1] TS Trần Văn Long, TS Nguyễn Mạnh Hùng, TS Phí Thị Vân Anh (2017), Xác suất Thống Kê, nhà xuất Giao thông vận tải [2] PGS TS Đặng Đức Trọng, TS Đinh Ngọc Thanh (2016), Lý thuyết Thống kê, nhà xuất Đại học Quốc gia Thành phố Hồ Chí Minh [3] C Burch, S Guyader, D Samarov, H Shen (2007), Experimental estimate of the abundance and effects of nearly neutral mutations in the RNA virus  6, Genetics 176, pp 467-476 [4] Xavier Gendre (2016), Introduction to Data Mining, France NGHIÊN CỨU PHƯƠNG PHÁP MƠ HÌNH HĨA DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGƠN NGỮ LẬP TRÌNH PYTHON Giảng viên hướng dẫn: ThS Phạm Thị Kim Thúy Sinh viên thực hiện: Nguyễn Phi Thái Lớp: CNTT-K57 Trần Xuân Lâm Lớp: CNTT-K57 Tóm tắt: Trong thời đại 4.0, cơng nghệ thơng tin có vai trị quan trọng tự động hóa trao đổi liệu Đáp ứng với xu hướng đó, việc áp dụng kiến thức cơng nghệ thơng tin để giải toán quan trọng, cụ thể tốn xác suất thống kê Vì vậy, đề tài chọn phương pháp lập trình với ngơn ngữ python để mơ hình hóa mẫu liệu mẫu ngẫu nhiên Việc mô tả liệu phương pháp có vai trị quan trọng, giúp cho phân tích đặc tính liệu, mối quan hệ mẫu khác Từ đưa kết xác cho mẫu liệu Từ khóa: Mơ hình hóa liệu, phương pháp lập trình, ngơn ngữ python ĐẶT VẤN ĐỀ Hiện nay, Việt Nam, sinh viên chuyên ngành Công Nghệ Thơng Tin, Tốn – Tin áp dụng kiến thức toán thuật toán để làm đề tài tốt nghiệp Khảo sát đề tài tốt nghiệp năm 2019 sinh viên CNTT K56 thuộc phân hiệu, có khơng sinh viên chọn Đại số tuyến tính, Xác suất Thống kê,… làm kiến thức cho việc lập trình đề tài sinh viên Đa số sinh viên sử dụng Python thuộc tính ưu việt việc tính tốn: tích phân, đạo hàm, giải phương trình vi phân, … Có thể thấy, lập trình giúp cho việc giải toán nhanh, cần định nghĩa phương pháp giải giải tốn với mẫu liệu tương tự Cụ thể, việc sử dụng phương pháp lập trình với ngơn ngữ python để mơ tả liệu ngẫu nhiên giúp hình dung liệu đưa nhận xét xác, quan trọng CÁC NỘI DUNG CHÍNH Phương pháp nghiên cứu 2.1 Phương pháp thu thập xử lý số liệu từ thực nghiệm Phương pháp mơ hình hóa liệu thông qua ngôn ngữ python Phương tiện nghiên cứu 2.2 Sử dụng ngơn ngữ python để lập trình 2.3 Nội dung nghiên cứu thực Từ việc nghiên cứu phương pháp mô tả liệu thống kê bao gồm: Mô tả liệu phương pháp đồ thị, mô tả liệu phương pháp số việc nghiên cứu phương pháp lập trình với ngơn ngữ Python để mơ hình hóa liệu thơng qua dạng đồ thị: đồ thị hình cột (histogram), đồ thị tần số, đồ thị tần suất, đồ thị hình hộp (boxplot), phương trình đường thẳng hồi quy tuyến tính tính tốn giá trị liên quan đến mơ hình: giá trị mode, trung vị, trung bình, … Trong đó, mơ hình hóa liệu với mẫu liệu thực phần trọng tâm đề tài Dữ liệu thực mô đề tài danh sách điểm thi kết thúc học phần điểm thành phần môn Xác suất Thống kê lớp CNTT-K57 Dữ liệu mô để giải dạng tốn: Tìm mối tương quan điểm thành phần điểm cuối kì cụ thể thơng qua mơ hình hồi quy tuyến tính Kết dạng mơ hình liệu tạo dựa ngơn ngữ python: Hình 1: Biểu đồ hình Hình 2: Biểu đồ hình theo cặp Hình 3: Biểu đồ đường Hình 4: Biểu đồ tần số điểm thành phần điểm kết thúc học phần Hình 5: Biểu đồ tần suất Hình 6: Biểu đồ hình hộp Hình 7: Biểu đồ tán xạ Hình 8: Đường thẳng hồi quy tuyến tính Từ mơ hình trên, ta có nhận xét: Điểm thành phần thường cao điểm kết thúc học phần Hơn nữa, điểm thành phần, điểm kết thúc học phần có mối tương quan với cụ thể: điểm thành phần cao điểm kết thúc học phần có xu hướng cao Ngồi ra, thơng qua đồ thị hồi quy tuyến tính điểm thành phần điểm thi kết thúc học phần, nhóm có nhận xét sau: + Đường thẳng hồi quy tuyến tính có xu hướng lên nên điểm thành phần điểm kết thúc học phần tỉ lệ thuận với nhau, điểm thành phần tăng điểm thi kết thúc học phần tăng + Các giá trị điểm kết thúc học phần tương ứng với điểm thành phần phân bố hai bên đường thẳng hồi quy + Nhìn vào đồ thị, dự báo điểm kết thúc học phần có điểm thành phần Giả sử điểm thành phần điểm điểm kết thúc học phần dự đốn nằm khoảng từ [1.8, 2] điểm 2.4 Kết nghiên cứu Đề tài đánh giá mơ hình hóa đại lượng tiêu biểu thống kê liệu Trong đó, nhóm nghiên cứu sử dụng hồi quy đơn tuyến tính để đưa phân tích đặc trưng kết thi mẫu liệu sinh viên Phân hiệu Kết thơng tin bổ ích để giảng viên Tốn Phân hiệu tham khảo để định hướng giảng dạy 2.5 Kiến nghị Dữ liệu thực tế thường lớn việc xử lý số liệu có nhiều phương pháp khác kết hợp với thuật toán phức tạp để xử lý đưa nhận định xác cho mẫu liệu Do đó, tương lai đề tài mở rộng với tập liệu quy mô lớn nên chọn mô hình hồi quy đa tuyến KẾT LUẬN Trong mơn học Xác xuất Thống kê, sinh viên giải tiếp cận tốn cách phương pháp thơng thường phương pháp thiếu tính minh họa, trực quan Hơn nữa, lĩnh vực việc lấy mẫu dự liệu quan trọng, với mẫu liệu khác sinh viên phải giải nhiều lần khác nhau, điều tốn nhiều thời gian, cơng sức Vì vậy, việc thực giải tốn phương pháp lập trình giải vấn đề Ngơn ngữ python cơng cụ lập trình có tính mạnh mẽ việc giải toán, đặc biệt lĩnh vực phân tích liệu Cụ thể python có nhiều thư viện xây dựng giúp minh họa tốn thơng qua dạng đồ thị, biểu đồ histogram, tròn, boxplot, Điều giúp cho việc đánh giá liệu dễ dàng Từ đó, nhà thống kê đưa kết luận xác cho mẫu liệu Đề tài sử dụng phương pháp lập trình với ngơn ngữ python để xử lý liệu mơ hình hóa liệu cách trực quan Cụ thể, đề tài xây dựng mơ hình để biểu thị tương quan hai thuộc tính liệu phương trình hồi quy tuyến tính Thơng qua phương trình hồi quy tuyến tính, biết hai thuộc tính, dự đốn giá trị cịn lại Ngồi ra, việc mơ phương trình hồi quy tuyến tính phương pháp đồ thị mà sử dụng ngôn ngữ python cho phép dễ dàng hình dung phân bố tập liệu mối tương quan tập liệu Tài liệu tham khảo [1] TS Trần Văn Long, TS Nguyễn Mạnh Hùng, TS Phí Thị Vân Anh, Xác suất Thống Kê, nhà xuất Giao thông vận tải, 2017 [2] PGS TS Đặng Đức Trọng, TS Đinh Ngọc Thanh, Lý thuyết Thống kê, nhà xuất Đại học Quốc gia Thành phố Hồ Chí Minh, 2016 [3] C Burch, S Guyader, D Samarov, H Shen, Experimental estimate of the abundance and effects of nearly neutral mutations in the RNA vius  6, Genetics 176, pp 467-476, 2007 [4] Xavier Gendre, Introduction to Data Mining, France, 2016

Ngày đăng: 31/05/2023, 08:30

Tài liệu cùng người dùng

Tài liệu liên quan