1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Hệ thống tư vấn và phân loại học sinh sử dụng kỹ thuật học máy tính

38 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 1,51 MB

Nội dung

UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT HỌ VÀ TÊN: TRÀ NHẤT LAN LUẬN VĂN TỐT NGHIỆP HỆ THỐNG TƯ VẤN VÀ PHÂN LOẠI HỌC SINH SỬ DỤNG KỸ THUẬT HỌC MÁY CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH: 8480104 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS QUẢN THÀNH THƠ BÌNH DƯƠNG, năm 2019 LỜI CAM ĐOAN Đề tài “Xây dựng hệ thống tư vấn phân loại học sinh sử dụng kỹ thuật học máy” cơng trình nghiên cứu tơi thực Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả xin cam đoan lời nêu hoàn toàn thật Bình Dương, ngày 28 tháng năm 2019 Học viên TRÀ NHẤT LAN Trang: i LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành đến quý Thầy Cô Trường Đại học Thủ Dầu Một trang bị cho em kiến thức, kỹ cần thiết suốt khóa học để em hồn thành nội dung chương trình học trường Em chân thành cảm ơn Thầy PGS.TS Quản Thành Thơ khuyến khích, động viên tận tình hướng dẫn em trình thực luận văn thạc sỹ Chúng tơi mong nhận góp ý quý thầy cô để luận vặn đạt kết tốt Cuối cùng, em xin cảm ơn gia đình, bạn bè, đồng nghiệp động viên, giúp đỡ em suốt q trình học hồn thành luận văn Tôi xin chúc quý thầy cô, bạn thật nhiều sức khỏe, nhiều niềm vui sống, thành công công việc Trang: ii MỤC LỤC DANH MỤC TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG v DANH MỤC BIỂU ĐỒ, ĐỒ THÌ, HÌNH ẢNH, SƠ ĐỒ v TÓM TẮT LUẬN VĂN vi MỞ ĐẦU CHƯƠNG GIỚI THIỆU 1.1 Phân lớp liệu 1.2 Tình hình nghiên cứu 1.3 Mục tiêu đề tài 1.4 Nội dung phương pháp nghiên cứu CHƯƠNG MƠ HÌNH VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 2.1.1 Khái niệm 2.2 MỘT PHƯƠNG PHÁP HỌC MÁY PHỔ BIẾN 2.2.1 Khái niệm học máy 2.2.2 Một số phương pháp học máy 2.2.2.1 Học có giám sát 2.2.2.2 Học khơng có giám sát 2.2.2.3 Học bán giám sát 2.2.3 Một số thuật toán học máy 2.2.3.1 Hồi quy tuyến tính (Linear regression) 2.2.3.2 Thuật toán định (Decision trees) 2.2.3.3 Thuật toán K_means 2.2.3.4 Thuật toán K láng giềng gần (K-nearest neighbors) 2.3 PHƯƠNG PHÁP RANDOM FOREST 2.3.1 Cây định 2.3.2 Rừng ngẫu nhiên (Random Forest) 2.4 Một số cơng trình nghiên cứu liên quan CHƯƠNG XÂY DỰNG MƠ HÌNH DỰ ĐỐN ĐIỂM CỦA HỌC SINH DÙNG RANDOM FOREST 10 3.1 MƠ TẢ DỮ LIỆU BÀI TỐN 10 3.2 MƠ HÌNH HUẤN LUYỆN 13 Trang: iii 3.2.1 MÔ HÌNH DÙNG TRONG RANDOM FOREST 13 3.2.2 Xây dựng Cây định dùng CART 13 3.2.3 Xây dựng Rừng ngẫu nhiên (Random Forest) 14 3.2.4 Áp dụng Rừng ngẫu nhiên 15 3.3 GIAO DIỆN 15 3.4 Chức dự đoán: 15 3.4.1 Chức dự đốn mơn khối tự nhiên 18 3.4.2 Chức dự đốn mơn khối xã hội: 19 3.5 Chức phân loại tư vấn học sinh 19 3.6 Các bước tiền xử lý liệu 20 CHƯƠNG THỰC NGHIỆM 23 4.1 Mô tả liệu huấn luyện 23 4.2 Dữ liệu huấn luyện 23 4.3 Tính độ tương quan 24 4.4 So sánh với thuật toán học máy khác 25 4.5 So sánh độ tương khối xã hội 26 4.6 So sánh độ tương quan khối tự nhiên 27 CHƯƠNG GIAO DIỆN HỆ THỐNG 28 5.1 Ngơn ngữ lập trình: 28 5.1.1 Ngơn ngữ lập trình Python 3.6 28 5.2 Công cụ hỗ trợ 28 5.2.1 Phần mềm Jupyter Notebook 28 5.2.2 Visual Studio Code 28 5.3 Thư viện hỗ trợ 28 5.3.1 Thư viện numpy 28 5.3.2 Thư viện Pandas 29 CHƯƠNG KẾT QUẢ ĐẠT ĐƯỢC VÀ HẠN CHẾ 30 6.1 Kết đạt làm 30 6.2 Hạn chế: 30 6.3 Khuyến nghị 30 TÀI LIỆU THAM KHẢO 31 Trang: iv DANH MỤC TỪ VIẾT TẮT CART: Classification and Regression Tree AI: Artificial Intelligence RF: Random Forest KNN: K – Nearest Neighbors DANH MỤC CÁC BẢNG BẢNG 1: Thông kê độ tương quan thuật tốn BẢNG 2: Só sánh độ tương quan só với thuật toán khác DANH MỤC BIỂU ĐỒ, ĐỒ THÌ, HÌNH ẢNH, SƠ ĐỒ Hình 1: Quy trình khai phá liệu Hình 2: Mơ tả liệu điểm năm học lớp 10 Hình 3: Mơ tả liệu điểm năm học lớp 11 Hình 4: Mô tả liệu điểm năm học lớp 12 Hình 5: Mơ tả liệu điểm thi tốt nghiệp Hình 6: Quy trình huấn luyện RF Hình 7: Quy trình xây dựng RF Hình 8: Minh họa mơ hình hoạt động hệ thống Hình 9: Quy trình hoạt động hệ thống 10 Hình 10: Minh họa module khối mơn tự nhiên 11 Hình 11: Minh họa module khối mơn xã hội 12 Hình 12: Minh họa dự đốn mơn khối tự nhiên 13 Hình 13: Minh họa dự đốn mơn khối xã hội 14 Hình 14: Quy trình chức phân loại tư vấn 15 Hình 15: Minh họa liệu điểm lớp 10 16 Hình 16: Minh họa liệu điểm chuẩn hóa 17 Hình 17: Minh họa liệu huấn luyện 18 Hình 18: Minh họa thuộc tính liệu 19 Hình 19: So sánh độ tương quan khối xã hội 20 Hình 20: So sánh độ tương quan khối tự nhiên Trang: v TÓM TẮT LUẬN VĂN Với tốc độ phát triển mạnh mẽ cơng nghệ thơng tin việc ứng dụng công nghệ thông tin vào lĩnh vực như: ý tế, giáo dục, kinh doanh áp dụng rộng rãi Trong lượng liệu thu lớn, muốn khai thác nguồn liệu việc áp dụng phương pháp khai phá liệu học máy cần thiết Luận văn áp dụng kỹ thuật học máy để dự đoán kết thi tốt nghiệp trước kì thi tốt nghiệp học sinh, luận văn chia làm chương Chương 1: giới thiệu tình hình nghiên cứu lý chọn đề tài luận văn mục tiêu thực luận văn Chương 2: giới thiệu kiến thức tảng khai thác liệu Trí tuệ nhận tạo (AI), số phương pháp học máy như: học có giám sát, học khơng có giám sát, học bán giám sát, học tăng cường Giới thiệu số thuật toán học máy việc ứng dụng thuật toán Random Forest để dự đoán điểm thi trước kì thi tốt nghiệp học sinh Chương 3: mô tả liệu điểm học sinh từ năm học lớp 10, lớp 11, lớp 12 liệu điểm thi tốt nghiệp học sinh từ năm 2015 đến 2018 học sinh trường Phổ Thông Trung Học Thanh Tuyền, từ liệu ta tiến hành bước chuẩn hóa liệu điểm học sinh để áp dụng vào mơ hình hệ thống Luận văn giới thiệu việc xây dựng mơ hình CART việc áp dụng thuật toán Random Forest vào toán dự đoán điểm thi tốt nghiệp học sinh Áp dụng thuật toán để xây dựng giao diện hệ thống dự đoán điểm thi tốt nghiệp học sinh Chương 4: từ việc xây dựng hệ thống ta tiến hành kiểm thử tính độ xác mơ hình hệ thống công thức R Square Chương 5: giới thiệu chức hệ thống việc ứng dụng ngơn ngữ lập trình, cơng cụ hỗ trợ thư việc hỗ trợ việc xây dựng hệ thống dự đốn điểm thi trước kì thi tốt nghiệp học sinh Chương 6: Đánh giá kết đạt hạn chế việc áp dụng mơ hình Random Forest (RF) vào xây dựng hệ thống hướng phát triển tới Trang: vi MỞ ĐẦU Ngày nhu cầu ứng dụng công nghệ thông tin vào ngành giáo dục ứng dụng rộng rãi trường đại học, cao đẳng, trung cấp, trường Phổ Thông Trung Học Nhưng học sinh Phổ Thơng Trung Học nhu cầu cần dự đốn điểm thi trước kì thi tốt nghiệp yêu cầu quan trọng Từ học sinh tìm hiểu trường phù hợp, tham khảo số ngành học trước kì thi để chuẩn bị trước nộp hồ sơ xét tuyển tuyển sinh đại học, cao đẳng, trung cấp Nhằm giúp em dự đốn trước điểm thi đạt thi tốt nghiệp Trung Học Phổ Thông Quốc Gia, hướng dẫn thầy PGS.TS Quản Thành Thơ, chọn đề tài nghiên cứu: “xây dựng hệ thống tư vấn phân loại học sinh sử dụng kỹ thuật học máy” dựa sở liệu điểm môn học năm học liên tiếp điểm thị tốt nghiệp trước lớp 10, 11, 12 điểm thi tốt nghiệp Hệ thống dự đoán điểm thi tốt nghiệp học sinh trước kì thi tốt nghiệp để em biết trước lực cố gắn kì thi tới từ em biết nên chọn trường để xét tuyển, ngành cho phù họp với thân em Hệ thống dự đoán điểm thi học sinh theo hai khối khối môn học tự nhiên khối môn học xã hội cho phù hợp với kết dự thi em Dữ liệu luận văn lấy từ liệu điểm thực tế trường Phổ Thông Thanh Tuyền với liệu từ năm 2015 đến năm 2018 điểm thi tốt nghiệp năm “Hệ thống tư vấn phân loại học sinh sử dụng kỹ thuật học máy” em sử kỹ thuật RF (Random forest Regression) để dự đoán điểm thi tốt nghiệp theo khối môn học tự nhiên khối môn học xã hội dựa liệu điểm năm học gần Trang: CHƯƠNG GIỚI THIỆU 1.1 Phân lớp liệu Ngày phân lớp liệu hướng nghiên cứu khai phá liệu Phân lớp dự đoán hai dạng phân tích liệu nhằm rút mơ hình mơ tả lớp liệu quan trọng hay dự đoán xu hướng liệu tương lai Phân lớp dự đoán nhãn xác định hay giá trị liệu rời rạc có nghĩa phân lớp thao tác với đối tượng liệu mà có giá trị biết trước dự đốn lại xây dựng mơ hình với hàm nhận giá trị liên tục 1.2 Tình hình nghiên cứu Trên thực tế, có nhiều nghiên cứu phân lớp liệu tất lĩnh vực như: y tế, ngân hàng, khách sạn, siêu thị, giáo dục, … Nhưng Việt Nam lĩnh vực giáo dục có nghiên cứu việc chuẩn đốn điểm thi tốt nghiệp trước kì thi tốt nghiệp Trung Học Phổ Thông dựa vào việc phân lớp liệu dựa vào điểm năm học cấp ba điểm thi tốt nghiệp Trung Học Phổ Thông năm học trước (từ lớp 10 đến lớp 12 điểm thi tốt nghiệp Trung Học Phổ Thông) 1.3 Mục tiêu đề tài Khai thác liệu điểm học sinh ba năm học điểm thi tốt nghiệp Trung Học Phổ Thông học sinh Từ liệu điểm tiền xử lý để phù hợp với việc “xây dựng hệ thông phân loại tư vấn sử dụng kĩ thuật học máy” Xây dựng hệ thống dự đoán điểm thi tốt nghiệp học sinh trước kì thi tốt nghiệp theo hai khối: khối mơn học tự nhiên khối môn học xã hội Từ đó, giúp cho học sinh biết khả kiến thức trước kì thi tốt nghiệp để có lựa chọn tốt cho việc chọn trường, chọn ngành để xét tuyển sinh đại học kì tuyển sinh đại học, cao đẳng, trung cấp năm học 1.4 Nội dung phương pháp nghiên cứu Nội dung nghiên cứu khai phá liệu điểm học sinh để xây dựng hệ thống tư vấn phân loại học sinh sử dụng kỹ thuật học máy Trang: Nghiên cứu kết hợp khai phá liệu thuật toán RF (Random Forest) để đưa dự đoán điểm thi trước kì thi tốt nghiệp Trung Học Phổ Thơng Quốc Gia Trang:  Ta xây dựng module khối mơn tự nhiên Hình 10: Minh họa module khối môn tự nhiên  Ta xây dựng module khối mơn xã hội Hình 11: Mơ tả module khối môn xã hội Trang: 17 3.4.1 Chức dự đốn mơn khối tự nhiên Chức cho phép người nhập đầu vào điểm khối mơn tự nhiên như: mơn Tốn, mơn Lý, mơn Hóa, mơn Sinh học, Ngữ văn, Ngoại Ngữ Hình 12: Minh họa mơ hình dự đốn khối mơn tự nhiên Trang: 18 3.4.2 Chức dự đoán môn khối xã hội: Chức cho phép người nhập đầu vào điểm khối môn xã hội như: mơn Tốn, mơn Ngữ Văn, mơn Ngoại Ngữ, môn môn Lịch Sử, môn Địa lý, môn Giáo Dục Cơng Dân Hình 13: Minh họa mơ hình dự đốn khối mơn xã hội Kết ta thu điểm số môn thi khối tự nhiên xã hội mà ta vừa nhập vào 3.5 Chức phân loại tư vấn học sinh Từ kết dự đốn ta có số điểm môn thi tốt nghiệp em học sinh từ ta tính điểm khối thi mà em đạt Dựa vào số điểm thi thể biểu đồ ta tư vấn cho em chọn xét tuyển vào trường đại học theo khối tốt Hệ thống phân loại khả đậu vào đại học em dựa vào độ chênh lệch so với điểm trung bình khối tự nhiên khối xã hội, độ chênh lệch tính từ -10 đến 10 chia sau: Trang: 19  Độ chênh lệch từ: đến nhỏ có khả đậu đại học  Độ chênh lệch từ: lớn đến nhỏ 10 có khả đâu đại học cao  Độ chênh lệch từ: lớn 10 chắn đậu đại học  Độ chênh lệch từ: -5 đến nhỏ có khả khơng đậu đại học  Độ chênh lệch từ: nhỏ -5 chắn khơng đậu đại học Hình 14: Chức phân loại từ vấn 3.6 Các bước tiền xử lý liệu Từ liệu thu thập mô ta chương ta tiến hành chuẩn hóa liệu phù hợp với hệ thống phù hợp với thuật toán Từ liệu ban đầu môn học từ lớp 10 đến lớp 12 liệu điểm thi tốt nghiệp năm Trang: 20 Hình 15: Minh họa liệu điểm lớp 10 Từ liệu điểm ba tập tin điểm lớp 10, 11, 12 ta loại bỏ cột không quan trọng như: cột số thứ tự, môn Tin học, môn Thể dục, môn Giáo dục quốc phồng, môn Công nghệ, cột điểm kiểm tra, cột học lực, cột hạnh kiểm loại bỏ dịng mà khơng đủ thơng tin điểm như: học sinh chuyển trường bỏ học Cũng tập tin điểm thi tốt nghiệp ta loại bỏ số cột không quan trọng như: số thứ tự, lớp, chứng nhân dân, giới tính, ngày sinh, nơi sinh, dân tộc, mã tên hội đồng Sau loại bỏ cột không quan trong bốn tập tin liệu điểm ta tiến hành gom liệu vào tập tin gồm có 375 dịng 36 cột thể điểm mơn học như: mơn lớp 10 có Tốn 10, Lý 10, Hóa 10, Sinh 10, Văn 10, Sử 10, Địa 10, Ngoại ngữ 10, Giáo dục công dân 10 môn học lớp 11 có Tốn 11, Lý 11, Hóa 11, Sinh 11, Văn 11, Sử 11, Địa 11, Ngoại ngữ 11, Giáo dục công dân 11 môn học Trang: 21 lớp 12 có Tốn 12, Lý 12, Hóa 12, Sinh 12, Văn 12, Sử 12, Địa 12, Ngoại ngữ 12, Giáo dục công dân 12, môn thi tốt nghiệp như: mơn Tốn, Lý, Hóa, Sinh, Văn, Sử, Địa, Ngoại ngữ, Giáo dục cơng dân Sau hồn thành xong ta chuyển đổi đuổi tập tin.xlx thành tập tin có csv Hình 15: Minh họa liệu chuẩn hóa Trang: 22 CHƯƠNG THỰC NGHIỆM 4.1 Mô tả liệu huấn luyện Tập liệu tập tin markData.csv với cột thệ điểm mơn Tốn, mơn Lý, mơn Hóa, mơn Sinh, mơn Văn, môn Sử, môn Địa lý, môn Ngoại Ngữ, môn Giáo Dục Công Dân năm học lớp 10, lớp 11, lớp 12 điểm thi tốt nghiệp Tổng số dòng 750 dòng 36 cột chia thành hai tập Tập khối môn tự nhiên tập khối mơn xã hội Hình 17: Mơ tả liệu huấn luyện 4.2 Dữ liệu huấn luyện Dữ liệu có 750 dòng 36 cột chia làm hai phần theo tỷ lệ 8/2 80% liệu dùng để huấn luyện 20% liệu dùng để kiểm tra kết Tập liệu khối từ nhiên gồm có 520 dịng 36 cột Tập liệu khối mơn xã hội gồm có 228 dịng 36 cột Trang: 23 Hình 18: Minh họa liệu huấn luyện 4.3 Tính độ tương quan Để đo độ tương quan thuật toán ta dùng công thức R Squared R Square công thức bình phương sử dụng nhiều thống kê cho ta biết mức độ phù hợp mô hình nghiên cứu 𝑅𝐻𝐶 𝐸𝑆𝑆 𝐸𝑆𝑆 𝐸𝑆𝑆(𝑛 − 1) = =1− 𝑛−𝑘 =1− 𝑇𝑆𝑆 𝑇𝑆𝑆 𝑇𝑆𝑆(𝑛 − 𝑘) 𝑛−1 với: 𝑅2 = 𝑀𝑆𝑆 = 𝑇𝑆𝑆  ESS: tổng độ lệch bình phương phần dư  TSS: tổng độ lệch bình phương tồn nhân tố nghiên cứu  R2: Là hệ số bình phương  n: Là tổng số mẫu quan sát  k: Số lượng biến độc lập cộng thêm Trang: 24 Hệ thống chia liệu theo hai khối khối tự nhiên xã hội huấn luyện hai tập liệu Với độ tương quan tính cơng thứ R Square Bên bảng thống kê 10 lần kiểm thử hai tập liệu Trong hệ thống tác giả nghiên cứu tách kết dự đoán theo hai khối tự nhiên khối xã hội nhắm làm tăng hiệu độ xác thuật tốn Khi tách thành hai khối mơn mà em khơng thi tốt nghiệp tốt nghiệp khối tức mơn có số điểm thi bỏ qua q trình dự đốn độ tương quan kết gần làm cho kết xác Số lần Độ tương quan thuật tốn Trung bình Khối tự nhiên Khối xã hội 81 79 80 83 76 79.5 76 78 77 77 86 81.5 86 67 76.5 66 76 71 77 83 80 83 80 81.5 81 79 80 10 78 82 80 Tổng 78.7 Bảng 1: Thống kê độ tương quan thuật toán Từ bảng thống kê độ tương quan thuật tốn sau 10 lần kiểm thử độ kết xác khoản 78,7 % 4.4 So sánh với thuật toán học máy khác STT Số dòng liệu Số cột liệu 750 36 Random Forest 78.8% 750 36 Bayesian 75% Độ tương quan Thuật toán Trang: 25 750 36 Linear Regression 67% 750 36 K_means 70% Bảng 2: Só sánh độ xác só với thuật tốn khác Trong trình thuật nghiệm kiểm thử thuật tốn khác thuật tốn Randon Forest có độ tương quan 78,7 % so với thuật toán khác 4.5 So sánh độ tương khối xã hội Hình 19: So sánh độ tương quan khối xã hội Biểu đồ só sánh độ tương quan khối xã hội so với điểm trung bình mơn khối xã hội Nhìn vào biểu đồ ta biết điểm dự đoán cao hay thắp so với điểm trung bình Trang: 26 4.6 So sánh độ tương quan khối tự nhiên Hình 20: So sánh độ tương quan khối tự nhiên Biểu đồ só sánh độ tương quan khối xã hội so với điểm trung bình mơn khối tự nhiên Nhìn vào biểu đồ ta biết điểm dự đốn cao hay thắp so với điểm trung bình Trang: 27 CHƯƠNG GIAO DIỆN HỆ THỐNG 5.1 Ngơn ngữ lập trình: 5.1.1 Ngơn ngữ lập trình Python 3.6 Python ngơn ngữ lập trình thơng dịch, thiết kế trọng vào tính dễ đọc đoạn mã cho phép lập trình viên diễn tả khái niệm với vài dòng lệnh Python sử dụng hệ thống kiểu động, chế cấp phát nhớ tự động hỗ trợ nhiều mơ hình lập trình lâp trình hướng đối tượng, lập trình hàm lập trình thủ tục Chúng tơi chọn ngơn ngữ lập trình Python 3.6 để xây dựng hệ thống phân loại tư vấn học sinh sữ dụng kĩ thuật học máy Python hỗ trợ nhiều thư viện cho việc phân tích khai phá liệu để dự đốn kết cần đạt 5.2 Cơng cụ hỗ trợ 5.2.1 Phần mềm Jupyter Notebook Jupyter Notebook ứng dụng web mã nguồn mở hỗ trợ nhiều ngôn ngữ lập trình Jupyter Notebook cịn có nhiều thư viện hỗ trợ cho việc phân tích liệu thị kết phân tích Ngồi Jupyter Notebook hỗ trợ vẽ đồ thị, biểu đồ 5.2.2 Visual Studio Code Visua Studio Code trình biên tập mã tự hồn thành mã nguồn thơng minh Visual Studio Code hỗ trợ nhiều ngôn ngữ nhiều chức tùy vào ngôn ngữ: C++, R, Python, C#, CSS, HTML, … 5.3 Thư viện hỗ trợ 5.3.1 Thư viện numpy Numpy thư viện giúp xây dựng ứng dụng Máy học Python Numpy cung cấp đối tượng phương thức để làm việc với mảng đa chiều phép tốn đại số tuyến tính Thư viện numpy đối tượng mảng Mảng tương tự danh sách Python với điều kiện phần tử mảng phải có kiểu liệu Mảng thao tác với số lượng lớn liệu số Trang: 28 5.3.2 Thư viện Pandas Thư viện pandas python thư viện mã nguồn mở, hỗ trợ đắc lực thao tác liệu Pandas cơng cụ phân tích xử lý liệu mạnh mẽ ngôn ngữ lập trình python Thư viện Pandas sử dụng rộng rãi nghiên cứu lẫn phát triển ứng dụng khoa học liệu Thư viện Pandas sử dụng cấu trúc liệu riêng Dataframe Pandas cung cấp nhiều chức xử lý làm việc cấu trúc liệu Chính linh hoạt hiệu khiến cho pandas sử dụng rộng rãi Thư viện Pandas cịn cơng cụ đọc, ghi liệu với nhiều định dạng tập tin khác như: CSV, text, excel, … Liên kết liệu thông minh, xử lý trường hợp liệu bị thiếu Tự động đưa liệu lộn xộn dạng có cấu trúc, dễ dàng thay đổi bố cục liệu, tích hợp chế trượt, lập mục, lấy tập từ tập liệu lớn Trang: 29 CHƯƠNG KẾT QUẢ ĐẠT ĐƯỢC VÀ HẠN CHẾ 6.1 Kết đạt làm Thông qua việc tìm hiểu ứng dụng kiến thức phương pháp học máy áp dụng thuật toán rừng ngâu nhiên vào việc xây dựng “hệ thống phân loại tư vấn học sinh sử dụng kỹ thuật học máy” Hệ thống áp dụng mơ hình rừng ngẫu nhiên để dự đốn điểm thi trước kì thi tốt nghiệp, hệ thống dự đoán với kết gần là: 78.7% với tập liệu huấn luyện điểm môn học từ năm lớp 10 đến lớp 12 điểm thi tốt nghiệp học sinh năm trước Hệ thống so sánh liệu dự đoán so với kết trung bình khối khối tự nhiên khối xã hội theo biểu đồ Hệ thống phân loại học sinh thi tốt nghiệp có khả đậu đại học hay không đậu đại học đưa cảnh báo cho người sử dụng Ngoài ra, xây dụng ứng dụng web để kiểm thử mơ hình rừng ngẫu nhiên với tốn dự đốn điểm thi tốt nghiệp trước kì thi tốt nghiệp 6.2 Hạn chế: Những hạn chế cần phải mà cần phải khắc phụ: Do nguồn liệu thu thập hạn chế nên việc kiểm thử đánh giá kết dự đoán chưa cao Do thời gian kiến thức hạn chế nên việc nghiên cứu thực có giới hạn 6.3 Khuyến nghị Tơi tiếp tục nghiên cứu để tối ứu thuật toán để dự đoán kết ngày tốt Thu thập nhiều liệu để hệ thống cho kết có độ xác cao Sẽ nghiên cứu để áp dụng hệ thống dự đoán điểm thi trước kì thi tốt nghiệp áp dụng vào thực tế Trang: 30 TÀI LIỆU THAM KHẢO [1] Đồng Thị Ngọc Lan (2011) Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm tăng hiệu phân lớp liệu đa chiều [2] Nguyễn Bá Quân (2016) Các phương pháp dự đoán ứng dụng vào toán đoán nhận khả ức chế gen siRNA Hà Nội [3] Peng Jiang, Haonan Wu, Yao Da, Fei Sang, Jiawei Wei, Xiao Sun, Zuhong Lu (2007), “RFRCDB-siRNAImproved design of siRNAs by random forest regression model coupled with database searching” [4] Wei Yin Loh (2011) Classification and regression trees [5] Mihaela van der Schaar (2017) Classification and regression trees Department of Engineering Science University of Oxford [6] Đỗ Thanh Nghị (2015) Giải thuật rừng ngẫu nhiên với luật gán nhãn cục cho phân lớp [7] Nguyễn Thị Thanh Hương (2018) áp dụng thuật toán phân loại random forest để xây dựng đồ sử dụng đất/thảm phủ tỉnh đắk lắk dựa vào ảnh vệ tinh landsat oli Trường đại học Tây Nguyên [8] Tom M Mitchell – Machine Learning – McGraw Hill, Inc (trang 52 – 65) [9] Wikipedia – Bách khoa toàn thư mở - Học máy: http://en.wikipedia.org/wiki/Machine_learning Trang: 31 ... nghiệp năm ? ?Hệ thống tư vấn phân loại học sinh sử dụng kỹ thuật học máy? ?? em sử kỹ thuật RF (Random forest Regression) để dự đoán điểm thi tốt nghiệp theo khối môn học tự nhiên khối môn học xã hội... VÀ HẠN CHẾ 6.1 Kết đạt làm Thơng qua việc tìm hiểu ứng dụng kiến thức phương pháp học máy áp dụng thuật toán rừng ngâu nhiên vào việc xây dựng ? ?hệ thống phân loại tư vấn học sinh sử dụng kỹ thuật. .. điểm học sinh ba năm học điểm thi tốt nghiệp Trung Học Phổ Thông học sinh Từ liệu điểm tiền xử lý để phù hợp với việc “xây dựng hệ thông phân loại tư vấn sử dụng kĩ thuật học máy? ?? Xây dựng hệ thống

Ngày đăng: 21/06/2021, 21:48

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3]. Peng Jiang, Haonan Wu, Yao Da, Fei Sang, Jiawei Wei, Xiao Sun, Zuhong Lu (2007), “RFRCDB-siRNAImproved design of siRNAs by random forest regression model coupled with database searching” Sách, tạp chí
Tiêu đề: RFRCDB-siRNAImproved design of siRNAs by random forest regression model coupled with database searching
Tác giả: Peng Jiang, Haonan Wu, Yao Da, Fei Sang, Jiawei Wei, Xiao Sun, Zuhong Lu
Năm: 2007
[8]. Tom M. Mitchell – Machine Learning – McGraw Hill, Inc (trang 52 – 65) [9]. Wikipedia – Bách khoa toàn thư mở - Học máy:http://en.wikipedia.org/wiki/Machine_learning Link
[1]. Đồng Thị Ngọc Lan (2011). Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm tăng hiệu quả phân lớp đối với dữ liệu đa chiều Khác
[2]. Nguyễn Bá Quân (2016). Các phương pháp dự đoán và ứng dụng vào bài toán đoán nhận khả năng ức chế gen siRNA. Hà Nội Khác
[5]. Mihaela van der Schaar (2017). Classification and regression trees. Department of Engineering Science University of Oxford Khác
[6]. Đỗ Thanh Nghị (2015). Giải thuật rừng ngẫu nhiên với luật gán nhãn cục bộ cho phân lớp Khác
[7]. Nguyễn Thị Thanh Hương (2018). áp dụng thuật toán phân loại random forest để xây dựng bản đồ sử dụng đất/thảm phủ tỉnh đắk lắk dựa vào ảnh vệ tinh landsat 8 oli.Trường đại học Tây Nguyên Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w