Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
1,2 MB
Nội dung
UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT PHẠM THỊ HẢO PHÁT TRIỂN HỆ THỐNG DỰ ĐOÁN ĐIỂM THI TỐT NGHIỆP CỦA HỌC SINH THPT SỬ DỤNG KỸ THUẬT RỪNG NGẪU NHIÊN HỒI QUY CHUYÊN NGÀNH: HỆ THỐNG THƠNG TIN MÃ NGÀNH: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG, NĂM 2019 UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT PHẠM THỊ HẢO PHÁT TRIỂN HỆ THỐNG DỰ ĐOÁN ĐIỂM THI TỐT NGHIỆP CỦA HỌC SINH THPT SỬ DỤNG KỸ THUẬT RỪNG NGẪU NHIÊN HỒI QUY CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS QUẢN THÀNH THƠ BÌNH DƯƠNG, NĂM 2019 LỜI CAM ĐOAN Tơi xin cam đoan luận văn “Phát triển hệ thống dự đoán điểm thi tốt nghiệp học sinh trung học phổ thông sử dụng kỹ thuật rừng ngẫu nhiên hồi quy” cơng trình nghiên cứu tơi hướng dẫn PGS.TS Quản Thành Thơ xuất phát yêu cầu thực tế việc giảng dạy trường trung học phổ thơng Những nội dung trình bày luận văn trình học tập, tiếp thu tích lũy kiến thức kết nghiên cứu tôi, chưa công bố trước hình thức Bình Dương, ngày … tháng… năm… Tác giả Phạm Thị Hảo LỜI CẢM ƠN Tôi xin chân thành cảm ơn quý thầy cô giáo khoa Kỹ thuật công nghệ trường đại học Thủ Dầu Một dạy dỗ truyền đạt kiến thức quý báu cho Đặc biệt, xin gửi lời cảm ơn sâu sắc đến PGS.TS Quản Thành Thơ tận tình hướng dẫn tơi để hồn thành cơng trình nghiên cứu Tơi xin kính chúc q thầy giáo ln dồi sức khỏe để tiếp tục nghiệp trồng người cao TĨM TẮT LUẬN VĂN Trong năm gần đây, kì thi tốt nghiệp trung học phổ thông quốc gia thường xuyên đổi hình thức thi nội dung đề thi Do đó, giáo viên, phụ huynh học sinh khối 12 trường phổ thông quan tâm đến vấn đề học sinh điểm thi, liệu với điểm xét trường đại học nào… Vấn đề tiên đoán số điểm thi, giáo viên giảng dạy trực tiếp đốn dựa lực học tập em bậc phụ huynh xem bói để nghe thầy bói phán mà khơng có sở khoa học nào, đơi dựa cảm tính Ở lĩnh vực dự đốn, có nhiều mơ hình sử dụng kĩ thuật khác Weka, logic mờ, rừng ngẫu nhiên hồi quy… Rừng ngẫu nhiên phương pháp học tập chung để phân loại, hồi quy nhiệm vụ khác hoạt động cách xây dựng vô số định thời điểm đào tạo đưa phân lớp (phân loại) dự đốn trung bình (hồi quy) riêng lẻ Kể từ giới thiệu Breiman (2001), kĩ thuật rừng ngẫu nhiên thành công phương pháp phân loại hồi quy có độ xác cao, áp dụng vào nhiều mơ hình tiên đốn Trong đề tài luận văn này, tơi đề xuất mơ hình tiên đốn điểm thi tốt nghiệp trung học phổ thông quốc gia cho học sinh Mơ hình lấy điểm tổng kết mơn có tham gia thi để làm tập huấn luyện tập kiểm thử kĩ thuật rừng hồi quy ngẫu nhiên để đưa điểm dự đoán Sau tiếp tục xây dựng hệ thống dự đốn điểm website để người dùng nhập dự đốn dựa vào mơ hình xây dựng MỤC LỤC Đề mục Trang Chương 1: Giới thiệu 1.1 Đặt vấn đề 1.2 Mục tiêu phạm vi nghiên cứu 1.3 Tổng quan luận văn Chương 2: Kiến thức tảng 2.1 Khai phá liệu 2.2 Học máy 2.3 Phương pháp rừng hồi quy ngẫu nhiên 16 Chương 3: Xây dựng mô hình tiên đốn điểm Random Forest 21 3.1 Kiến thức tổng quát hệ thống 21 3.2 Mô tả liệu toán 22 3.3 Chuẩn hóa liệu để đưa vào mơ hình Random Forest 23 Chương 4: Thí nghiệm 24 4.1 Tập liệu 24 4.2 Các thiết lập 24 4.3 Kết thực nghiệm 25 4.4 Website tiên đoán điểm thi tốt nghiệp 26 Chương 5: Công nghệ sử dụng 28 5.1 Ngơn ngữ lập trình 28 5.2 Thư viện 28 5.3 Công cụ thiết bị 29 Chương 6: Tổng kết 30 6.1 Kết đạt 30 6.2 Tồn hạn chế 30 6.3 Hướng phát triển 30 THAM KHẢO 31 Chương Giới thiệu 1.1 Đặt vấn đề Hàng năm, thi tốt nghiệp trung học phổ thông quốc gia mối quan tâm hàng đầu phụ huynh học sinh khối 12 nước Gia đình ln tạo điều kiện thầy cô giáo dành nội dung ôn tập sâu sát cho học sinh để em đạt điểm cao kì thi này, dành hi vọng đỗ tốt nghiệp đỗ vào trường đại học Khi dạy em lớp, thường giáo viên vào lực học đưa dự đoán điểm thi tới cho học sinh Từ dự đốn này, em biết lực đến đâu, cần phải nỗ lực thêm nào, xét trường đại học, cao đẳng vừa tầm… Tuy nhiên, dự đốn cảm tính, nhiều có pha thêm tình cảm giáo viên mà khơng có sở khoa học Xuất phát từ thực tiễn trên, đề tài sử dụng kĩ thuật Random Forest Regression lấy liệu điểm tổng kết môn thi tốt nghiệp trung học phổ thơng quốc gia để tiên đốn điểm thi tốt nghiệp em, đồng thời cập nhật điểm chuẩn trường đại học khu vực miền Nam năm trước cho em so sánh dự đốn xét vào trường cho tương lai 1.2 Mục tiêu phạm vi nghiên cứu Thu thập liệu điểm tổng kết môn học học sinh khối 12 lấy từ trường THPT địa bàn huyện Phú Riềng năm học 2017 – 2018 Đề xuất mơ hình Random Forest Regression vào việc phân loại điểm tổng kết học sinh, sử dụng kĩ thuật phân lớp Xây dựng hệ thống sử dụng mơ hình huấn luyện để tiên đoán điểm thi tốt nghiệp trung học phổ thơng quốc gia, từ xây dựng website tiên đoán điểm thi tốt nghiệp trung học phổ thông quốc gia người dùng nhập điểm tổng kết mơn có liên quan đến kì thi 1.3 Tổng quan luận văn Chương Nội dung Giới thiệu chung đề tài tổng quan luận văn Các kiến thức tảng cần có để xây dựng hệ thống dự đốn điểm Trong kiến thức khai phá liệu, phương pháp học máy phổ biến phương pháp rừng hồi quy ngẫu nhiên Trình bày việc xây dựng mơ hình tiên đốn điểm dựa kĩ thuật Random Forest Regression, có kiến trúc tổng quát hệ thống, mơ tả liệu chuẩn hóa liệu để đưa vào mơ hình Trình bày thí nghiệm mơ hình, bao gồm thực thí nghiệm, đánh giá kết thí nghiệm dựa nhiều tập liệu trực quan hóa lên website Trình bày cơng nghệ để hồn thành đề tài bao gồm ngơn ngữ lập trình, thư viện sử dụng công cụ liên quan Tổng kết, đánh giá tồn tại, hạn chế đề tài, tìm hướng khắc phục hướng phát triển đề tài tương lai Bảng – Tổng quan luận văn Chương Kiến thức tảng 2.1 Khai phá liệu (Data Mining) 2.1.1 Khái niệm khai phá liệu Khai phá liệu trình khám phá mẫu tập liệu lớn liên quan đến phương pháp điểm giao máy học, thống kê hệ thống sở liệu Khai phá liệu lĩnh vực liên ngành khoa học thống kê máy tính với mục tiêu tổng thể trích xuất thông tin (bằng phương pháp thông minh) từ liệu chuyển đổi thông tin thành cấu trúc dễ hiểu để sử dụng tiếp liệu 2.1.2 Mục tiêu khai phá liệu Mục tiêu khai phá liệu trích xuất mẫu kiến thức từ lượng lớn liệu Khai phá liệu từ thông dụng thường áp dụng cho dạng liệu quy trình xử lý thơng tin quy mơ lớn (thu thập, trích xuất, lưu trữ, phân tích thống kê) ứng dụng hệ thống hỗ trợ định máy tính, bao gồm trí tuệ nhân tạo (Ví dụ: học máy) kinh doanh thông minh 2.1.3 Nhiệm vụ khai phá liệu Nhiệm vụ khai phá liệu thực tế phân tích bán tự động tự động lượng lớn liệu để trích xuất mẫu thú vị chưa biết trước đây, nhóm ghi liệu (phân tích cụm), ghi bất thường (phát bất thường) phụ thuộc (khai thác quy tắc luật kết hợp, khai thác mơ hình tuần tự) Điều thường liên quan đến việc sử dụng kỹ thuật sở liệu số khơng gian Hình – Minh họa khai phá liệu 2.2 Học máy (Machine Learning) 2.2.1 Khái niệm học máy Học máy lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể Tương quan với khai phá liệu số phương pháp công cụ, nhiên đặc điểm khác biệt học máy dự đốn số thơng tin liệu dựa đặc tính biết 2.2.2 Các loại hệ thống máy học Có nhiều loại hệ thống Machine Learning khác nhau, sau cách phân loại chúng theo danh mục rộng dựa trên: • Có đào tạo với giám sát người hay khơng (học có giám sát, học khơng giám sát, học bán giám sát học tăng cường) • Có thể học tăng dần hay không (online learning so với batch learning) • Hoạt động cách đơn giản so sánh điểm liệu với điểm liệu biết, thay vào phát mẫu liệu đào tạo xây dựng mơ hình dự đốn, giống nhà khoa học thường làm (học tập dựa ví dụ so với dựa mẫu) Những tiêu chí khơng độc quyền, kết hợp chúng theo cách tuỳ thích Ví dụ, lọc thư rác tối tân học nhanh cách sử dụng mơ hình mạng nơ-ron sâu đào tạo cách sử dụng ví dụ thư rác ham; điều làm cho trở thành hệ thống học tập trực tuyến, theo mơ hình, có giám sát 2.2.2.1 Học có giám sát Trong học tập có giám sát, liệu đào tạo cung cấp cho thuật toán bao gồm giải pháp mong muốn, gọi nhãn (Hình 2) phân tách tối ưu Thuật tốn rừng ngẫu nhiên thay đổi quy trình để thuật toán học giới hạn mẫu ngẫu nhiên tính cần tìm Số lượng tính tìm kiếm điểm phân chia (m) phải định làm tham số cho thuật tốn Có thể thử giá trị khác điều chỉnh xác nhận chéo Để phân loại mặc định tốt là: m = sqrt (p) Đối với hồi quy, mặc định tốt là: m = p / Trong m số lượng tính chọn ngẫu nhiên tìm kiếm điểm phân tách p số lượng biến đầu vào Ví dụ: tập liệu có 25 biến đầu vào cho vấn đề phân loại, thì: m = sqrt (25) m=5 Hiệu suất ước tính Đối với mẫu bootstrap lấy từ liệu huấn luyện, có mẫu bị bỏ lại không bao gồm Các mẫu gọi mẫu Out-Of-Bag OOB Hiệu suất mơ hình mẫu bên trái tính trung bình cung cấp độ xác ước tính mơ hình đóng gói Hiệu suất ước tính thường gọi ước tính hiệu suất OOB Các biện pháp hiệu suất ước tính lỗi kiểm tra đáng tin cậy tương quan tốt với ước tính xác nhận chéo 2.3.5 Tầm quan trọng cải tiến Khi định đóng gói xây dựng, tính tốn hàm lỗi giảm cho biến điểm phân chia Trong tốn hồi quy, lỗi tổng bình phương phân loại, điểm Gini Những lỗi tính trung bình tất định đầu để đưa ước tính tầm quan trọng biến đầu vào Độ giảm lớn biến chọn, tầm quan trọng lớn Các đầu giúp xác định tập hợp biến đầu vào liên quan nhiều nhất đến vấn đề đề xuất thử nghiệm lựa chọn tính bạn thực số tính bị xóa khỏi liệu 20 21 Chương Xây dựng mơ hình tiên đốn điểm Random Forest Regression 3.1 Kiến trúc tổng quát hệ thống Bài tốn có input điểm tổng kết học sinh mơn có tham gia thi tốt nghiệp trung học phổ thông quốc gia, kết cho output điểm thi tốt nghiệp theo dự đoán hệ thống Hệ thống đề xuất chia thành hai phần, phần thứ điểm học sinh đưa vào huấn luyện cho mơ hình Random forest regression tiên đoán điểm ứng với việc huấn luyện: Hình 17a – Kiến trúc tổng quát hệ thống Một phần hệ thống giao diện Web cho phép học sinh nhập điểm tổng kết mơn có tham gia thi tốt nghiệp vào, hệ thống dựa vào kết huấn luyện để đưa điểm thi tiên đoán cho em Hình 17b – Kiến trúc tổng quát hệ thống 22 3.2 Mơ tả liệu tốn Dữ liệu vào hệ thống điểm tổng kết môn học học sinh khối 12 số trường THPT địa tỉnh Bình Phước năm học 2017 – 2018 Tổng cộng nghìn dịng liệu nghìn học sinh 12, lưu trữ file Excel: Hình 18 – Dữ liệu điểm học sinh Ngoài ra, liệu điểm chuẩn năm 2017 số trường đại học thu thập để đưa vào hệ thống Đây sở để so sánh với điểm tiên đoán học sinh để đưa dự đốn học sinh xét trường nào, là: 23 File DiemchuanOfficial.xlsx, liệu gồm 306 dòng tương ứng với điểm chuẩn khối thi trường đại học khối Đại học Quốc gia Thành phố Hồ Chí Minh Hình 19 – Dữ liệu điểm chuẩn trường đại học 3.3 Chuẩn hóa liệu để đưa vào mơ hình Random Forest Regression Khi có điểm tổng kết học sinh khối 12, việc chuẩn hóa liệu tiến hành sau: Loại bỏ thuộc tính thừa (Mơn khơng tham gia thi tốt nghiệp) Loại bỏ ghi không phù hợp (Những học sinh không đủ điều kiện tham gia thi tốt nghiệp) Đánh số báo danh cho ghi để phân biệt Làm tròn điểm tổng kết môn học (a): sử dụng hàm mround (a, b) excel để làm tròn số đến hàng b phép thêm bớt thích hợp để tạo điểm c điểm dùng để huấn luyện 24 Chương Thí nghiệm 4.1 Tập liệu Trong nghìn ghi liệu đưa vào thí nghiệm, chia 80% để huấn luyện 20% để kiểm tra Các môn học chia để huấn luyện riêng, mơn model nhỏ khác nhau, tính chất độc lập mơn, học sinh giỏi môn không đồng nghĩa với việc giỏi mơn cịn lại 4.2 Ví dụ minh họa xây dựng đồ thị theo CART Giả sử môn Vật lý, điểm tổng kết em (9, 8, 8.5, 8.8, 9.4, 9.1) điểm thi thực tế đạt tương ứng (7.5, 6, 6.25, 6.5, 7.75, 8) 7.5 (1) 86 (2) 8.5 6.25 (3) 8.8 6.5 (4) 9.4 7.75 (5) 9.1 (6) Trong đó, cơng thức tính square loss để tìm điểm chia tốt là: Ta có bảng tính điểm chia tốt nhất: Ta lập đồ thị sau: Ta tiếp tục tính điểm chia tốt để tính node đồ thị: 25 Cây đồ thị vẽ tiếp sau: 4.3 Các thiết lập Sử dụng thư viện xlrd để đọc file excel thư viện numpy để thao tác với mảng số.A Ví dụ minh họa đọc liệu: Hình 20 –Đọc liệu Tiếp theo, ta tiến hành khởi tạo X liệu độc lập (là điểm tổng kết năm học), cịn Y liệu phụ thuộc (là điểm thi tốt nghiệp) cho mơn học 26 Hình 21 –Khởi tạo biến Tiến hành import module RandomForestRegressor từ thư viện sklearn.ensemble tạo regressor với thông số tương ứng cho mơn học Hình 22 – Các regressor chương trình 4.4 Kết thực nghiệm Để đánh giá mơ hình, sử dụng hàm RMSE (Root Mean Square Error) tính độ lệch trung bình bình phương theo cơng thức cải tiến phương pháp sai số tỷ lệ phần trăm MAPE (Mean Absolute Percentage Error): Trong đó: Predictedi kết dự đốn cuối mơ hình (trung bình kết con) học sinh thứ i Actuali điểm thi tốt nghiệp thực tế học sinh thứ i N số lượng học sinh dự đoán 27 Khi chọn tham số n_estimator=100 độ xác tương đối tốt, với số lượng 100 độ xác khơng thay đổi Ta có kết độ lệch mơ hình: Ngoại GDCD Trung ngữ bình 0.780 Random 0.803 0.531 0.730 1.064 0.920 0.580 0.739 0.836 0.823 Forest (với n_estima tor=100) Bảng – Độ sai số mơ hình (Độ sai số nhỏ tương đương độ Mơ hình Tốn Lý Hóa Văn Sinh Sử Địa xác 100%) Ngoài ra, so sánh kết với số phương pháp hồi quy khác, ta thấy Mơ hình Tố Lý Hóa Sin Văn Sử Địa Ngoạ GDC n h i ngữ D Random Forest (với n_estimator=10 0) Bagging(với n_estimators=10 0) AdaBoost (với n_estimators=10 0) GradientBoostin g (với max_depth=50) ExtraTrees (thông số mặc định) KNeighbors (thông số mặc định) MLP (thơng số mặc định) Trun g bình 0.80 0.53 0.73 1.06 0.92 0.58 0.73 0.836 0.823 0.780 0.76 0.57 0.78 0.90 0.95 0.74 0.73 0.844 0.84 0.793 0.76 0.59 0.73 1.02 0.90 0.73 0.72 0.856 0.825 0.796 0.76 0.57 0.78 1 0.95 0.74 0.72 0.841 0.843 0.802 0.76 0.57 0.78 0.95 0.73 0.72 0.841 0.843 0.802 0.90 0.48 0.84 1.08 0.92 0.64 0.64 1.004 0.834 0.82 0.90 0.54 0.83 1.09 0.90 0.87 1.33 1.057 1.153 0.967 Bảng Bảng so sánh độ sai số việc dự đoán hồi quy qua mơ hình khác Kết quả: Tốt tất mơ hình với độ sai số nhỏ 0.78 4.5 Website tiên đoán điểm tốt nghiệp Sau mơ hình huấn luyện, thành lập website để người dùng nhập điểm tổng kết Điểm gửi máy chủ đưa vào hệ thống, dựa 28 kết huấn luyện, đưa điểm thi tốt nghiệp dự đoán trả kết cho người dùng: Hình 24 – Website dự đốn điểm 29 Chương Công nghệ sử dụng để xây dựng hệ thống 5.1 Ngơn ngữ lập trình 5.1.1 Python Ngơn ngữ lập trình sử dụng Python 3.0 Đây ngơn ngữ lập trình thơng dịch, có nhiều ưu điểm như: Sử dụng đơn giản giúp cho người lập trình dễ đọc dễ hiểu Có kho thư viện tiêu chuẩn cao Tốc độ xử lý nhanh Python biên dịch chạy tất tảng lớn 5.1.2 HTML Hệ thống sử dụng ngôn ngữ HTML (HyperText Markup Language) "Ngôn ngữ Đánh dấu Siêu văn bản" ngôn ngữ đánh dấu thiết kế để tạo nên trang web với mẩu thơng tin trình bày World Wide Web Cùng với CSS JavaScript, HTML tạo ba tảng kỹ thuật cho World Wide Web để thiết kế nên hệ thống tiên đoán điểm 5.2 Thư viện 5.2.1 Thư viện xlrd Việc đọc trích xuất file liệu Python thuận tiện nhanh chóng Điều cộng đồng người lập trình ghi nhận sử dụng Hệ thống sử dụng thư viện xlrd để đọc file excel 5.2.2 Thư viện numpy Numpy thư viện toán học phổ biến đẩy quyền python Nó cho phép làm việc hiệu với ma trận, tính tốn phép tốn ma trận nhanh chóng hiệu Hệ thống sử dụng thư viện numpy để thao tác với mảng số Hình 25 - Khai thác thư viện xlrd thư viện numpy 30 5.2.3 Thư viện sklearn Đây thư viện phổ biến ngơn ngữ ngữ lập trình Python, có chứa sẵn nhiều thuật toán, hàm, module liệu cho người lập trình khai thác Hệ thống sử dụng thư viện sklearn, lấy module RandomForestRegressor quan trọng để tạo regressor với thông số tương ứng cho mơn học Hình 26 – Khai thác thư viện sklearn 5.3 Công cụ thiết bị 5.3.1Jupiter Notebook Jupyter Notebook ứng dụng web nguồn mở cho phép người dùng tạo chia sẻ tài liệu có chứa mã trực tiếp, phương trình, trực quan hóa văn tường thuật Sử dụng bao gồm: làm chuyển đổi liệu, mô số, mơ hình thống kê, trực quan hóa liệu, học máy… Jupyter Notebook có hỗ trợ 40 ngơn ngữ lập trình, bao gồm Python, R, Julia Scala… 5.3.2 Chuẩn kết nối socketIO Để xây dựng ứng dụng realtime cần sử dụng socketio Socketio giúp bên địa điểm khác kết nối với nhau, truyền liệu thông qua server trung gian Cấu trúc ứng dụng realtime sử dụng socket bao gồm phần: phía server, phía client Cần phải cài đặt khai báo sử dụng hai phía server client sử dụng 31 Chương Tổng kết 6.1 Kết đạt Sau học tìm hiểu học máy, định, tơi xây dựng mơ hình tiên đoán điểm thi tốt nghiệp dành cho đối tượng phụ huynh, học sinh khối 12 chuẩn bị bước vào kì thi quan trọng Mơ hình đề xuất sử dụng kĩ thuật rừng hồi quy ngẫu nhiên thuật tốn phân lớp Mơ hình bước đầu có kết tốt với độ xác tương đối khả quan Tôi phát triển thêm hệ thống dự đốn điểm website giúp cho người dùng nhập điểm tổng kết nhận kết điểm thi tốt nghiệp dự đốn để có sở khoa học đánh giá lực thân học sinh, từ có kế hoạch cho tương lai thân người dùng Tuy nhiên, điểm số dự đoán số tham khảo, phụ huynh, học sinh không nên để ảnh hưởng tiêu cực đến tâm lý khả phấn đấu thân 6.2 Tồn hạn chế Hệ thống mà đề xuất xây dựng số tồn hạn chế sau: Tuy mơ hình cho kết dự đoán khả quan chưa phải tốt so với số mơ hình khác Độ lệch sai số cịn cao số lý khách quan đến từ em học sinh như: Không phải học sinh học nhau, số học sinh có lực học lớp (điểm tổng kết cao) tập trung ôn thi cho một vài khối (ví dụ khối B) điểm thi thực tế mơn cịn lại (ví dụ mơn Vật lý) tổ hợp thi khác thấp, cộng vào tâm lý, thể trạng, thời tiết thi có ảnh hưởng đến kết thi Giao diện website sơ sài kiến thức thẩm mỹ thiết kế cá nhân hạn chế Dữ liệu thu thập chưa dồi dào, việc huấn luyện kiểm thử tập liệu cịn thơ sơ 6.3 Hướng phát triển mơ hình tương lai Tơi hi vọng phát triển mơ hình tốt hơn, với thời gian chạy nhanh hơn, tốc độ xử lý tốt kết dự đoán xác hướng cụ thể: 32 Nghiên cứu tìm hiểu học hỏi nhiều mơ hình ứng dụng Random Forest Thu thập nhiều liệu để phục vụ cho hệ thống Tìm hiểu mơ hình để thử nghiệm kĩ thuật khác phù hợp cho nội dung tiên đoán Học hỏi, tìm hiểu, nâng cao kiến thức thân kiến thức HTML, Python, công cụ hỗ trợ khác để hoàn thành hệ thống tốt 33 THAM KHẢO [1] L Breiman, J Friedman, R Olshen, C Stone (1984 ), Classification and Regression Trees [2] L Breiman (2001), Random Forests - Machine Learning [3] A Cutler (2006), Trees and Random Forests [4] Hoàng Xuân Huấn (2015), Giáo trình Học Máy, NXB ĐHQG Hà Nội [5] J Kacprzyk, W Pedrycz (2015), Handbook of Computational Intelligence, Springer [6] Aurélien Géron (2017), Hands-On Machine Learning with Scikit-Learn and TensorFlow [7] Các hình ảnh số đến số 16: sưu tầm từ nguồn Internet 34