Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 33 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
33
Dung lượng
1,98 MB
Nội dung
ĐỀ TÀI PHƯƠNG PHÁP SỬ DỤNG CNTT ĐỂ DỰ ĐOÁN KẾT QUẢ THI TN/THPT CHO HỌC SINH TẠI TRƯỜNG THPT TÂY HIẾU – THPT 1/5 Phần 1: Đặt vấn đề Sự cần thiết vấn đề nghiên cứu Nghị 29-NQ/TW, Đảng CSVN lần thứ XI (2013) “Về đổi bản, toàn diện giáo dục đào tạo, đáp ứng u cầu cơng nghiệp hóa, đại hóa điều kiện kinh tế thị trường định hướng xã hội chủ nghĩa hội nhập quốc tế" xác định mục tiêu tổng quát “Đổi toàn diện giáo dục đào tạo" “Tạo chuyển biến bản, mạnh mẽ chất lượng, hiệu giáo dục, đào tạo; đáp ứng ngày tốt công xây dựng, bảo vệ Tổ quốc nhu cầu học tập nhân dân ” Nghị 29 xác định rõ nhiệm vụ giải pháp hàng đầu “Đổi công tác quản lý giáo dục, đào tạo, bảo đảm dân chủ, thống nhất; tăng quyền tự chủ trách nhiệm xã hội sở giáo dục, đào tạo; coi trọng quản lý chất lượng” Trong bối cảnh đổi chung này, giáo dục trung học phổ thông phải đổi mạnh mẽ, không ngừng nâng cao chất lượng giáo dục - dạy học cấp học tảng để học sinh tiếp tục học nghề hay chuyên môn sâu cấp cao Hàng năm, Bộ GD&ĐT Sở GD&ĐT tổ chức nhiều đợt tập huấn để giáo viên trường có mơi trường học tập nâng cao trình độ, trao đổi kinh nghiệm với giáo viên trường bạn, qua giúp giáo viên có điều kiện trao đổi, học hỏi lẫn nhau, hỗ trợ thường xuyên trình dạy học, tổ chức dự trực tuyến, … Dựa vào đợt tập huấn này, chất lượng dạy học ngày cải thiện Thông thường, nội dung đợt tập huấn áp dụng đại trà cho nhiều trường học nhiều giáo viên Là giáo viên THPT luôn tự đặt câu hỏi giải đáp câu hỏi đó: Làm để có phương pháp giảng dạy học linh hoạt hấp dẫn người học; làm để học sinh yêu thích mơn học; làm để khơi dậy mong muốn học tập tìm hiểu kiến thức người học; làm để tăng hiệu tiết dạy, môn học; làm để dạy học gắn liền với thực tiễn, làm để giúp học sinh biết khả với lực sắn có từ giúp em chọn hướng phù hợp cho tương lai theo khả … Đây vấn đề bách người làm giáo dục đất nước giai đoạn Hơn nữa, xã hội đại này, để đáp ứng nhu cầu nguồn nhân lực lao động chất lượng cao cho đất nước, người lao động khơng có kiến thức chun mơn, ngoại ngữ, tin học mà cịn phải có kỹ năng, số hiểu biết xã hội kỹ phát giải vấn đề, kỹ giao tiếp, kỹ làm việc theo nhóm, kỹ sử dụng cơng nghệ thơng tin,… Câu hỏi đặt “Làm để giúp học sinh đánh giá lực học tập cách khoa học gắn liền với thực tiễn, giúp học sinh yên tâm để chọn đường cho tương lai, định học lên Đại học hay học nghề sau kết thúc cấp học THPT ?” Trước thực tế đó, chúng tơi chọn đề tài “Phương pháp sử dụng CNTT để dự đoán kết thi TN/THPT cho học sinh trường THPT Tây Hiếu – THPT 1/5” đáp ứng yêu cầu mong muốn trên, góp thêm phần nhỏ việc áp dụng kỹ thuật Khai phá liệu giáo dục nhằm có định hướng tốt cho học sinh, giáo viên lãnh đạo trường THPT nói chung Trường THPT Tây Hiếu, THPT 1/5 nói riêng Đề tài nghiên cứu áp dụng kỹ thuật khai phá liệu tập liệu thu thập Trường THPT Tây Hiếu, thị xã Thái Hòa trường THPT 1/5, huyện Nghĩa Đàn Dựa vào kết q trình phân tích liệu giúp học sinh biết khả để kịp thời điều chỉnh, tự bồi dưỡng, học thêm môn học cịn yếu Ngồi ra, việc cịn giúp cho học sinh định hướng lựa chọn trường đại học phù hợp với khả Thêm vào đó, việc dự đồn kết cịn giúp cho nhà trường điều chỉnh kế hoạch dạy học phù hợp với đối tượng học sinh cuối cấp học Chúng tơi hi vọng đề tài phần giúp học sinh, giáo viên trường THPT có định hướng phù hợp góp phần đổi bản, toàn diện giáo dục đào tạo nâng cao vị trường Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát Tìm hiểu tổng quan kỹ thuật khai phá liệu áp dụng dự đoán kết kỳ thi THPT quốc gia cho học sinh Trường THPT Tây Hiếu, học sinh trường THPT 1/5 2.2 Mục tiêu cụ thể Đề tài tập trung vào mục tiêu cụ thể sau: - Thu thập liệu học sinh Trường THPT Tây Hiếu, thị xã Thái Hòa, tỉnh Nghệ An học sinh trường THPT 1/5, huyện Nghĩa Đàn, tỉnh Nghệ An; - Tìm hiểu nghiên cứu liên quan đến đề tài nước; - Nghiên cứu kỹ thuật khai phá liệu thuật tốn phân lớp, phân cụm; - Phân tích kết dựa tập liệu thu thập sử dụng kỹ thuật khai phá liệu; - Nhận xét, đánh giá kiến nghị dựa kết phân tích nhằm giúp học sinh, giáo viên nhà trường có kết dự báo mang tính khoa học học sinh tham dự kỳ thi THPT quốc gia từ làm để định hướng cho học sinh sau kết thúc cấp học Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu - Dữ liệu thu thập từ học sinh giáo viên Trường THPT Tây Hiếu trường THPT 1/5; - Các thuật toán khai phá luật kết hợp phân lớp; - Các công cụ khai phá liệu 3.2 Phạm vi nghiên cứu - Đề tài sử dụng thông tin liệu học sinh Trường THPT Tây Hiếu, THPT 1/5 năm gần nhất; - Nghiên cứu kỹ thuật khai phá luật phân lớp phân cụm để thực yêu cầu đặt Nội dung nghiên cứu - Thu thập liệu học sinh Trường THPT Tây Hiếu, thị xã Thái Hòa, tỉnh Nghệ An trường THPT 1/5 huyện Nghĩa Đàn ; - Nghiên cứu lý thuyết khai phá liệu, cụ thể giải thuật khai phá luật phân lớp phân cụm; - Tìm hiểu cơng trình nghiên cứu liên quan đến đề tài; - Ứng dụng kỹ thuật khai phá liệu tập liệu thu thập; - Sử dụng ngơn ngữ lập trình Python số công cụ khai phá liệu để tiến hành thực nghiệm; - Nhận xét, đánh giá phân tích kết thu từ tập liệu Phần II Nội dung nghiên cứu: Khai phá liệu Quá trình khai phá liệu kết xuất tri thức tiềm ẩn liệu giúp cho việc phân tích, dự báo áp dụng cho nhiều ngành, nhiều lĩnh vực kinh doanh hay giáo dục Chương trình bày khái niệm khai phá liệu giáo dục; nhu cầu khai phá liệu giáo dục đào tạo số lĩnh vực khác; giai đoạn khai phá liệu số toán điển hình khai phá liệu kỹ thuật phân lớp (classification) phân cụm (clustering) Ngoài ra, chương cịn trình bày thực trạng tốn Dự đốn kết kỳ thi THPT quốc gia kỹ thuật Khai phá liệu, nghiên cứu liên quan đến đề tài nước bước thu thập liệu học sinh phục vụ cho việc phân tích dựa vào kỹ thuật khai phá liệu đề cập 1.1 Khai phá liệu giáo dục Ngày nay, công nghệ thông tin phát triển mạnh mẽ việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội làm lượng liệu thu thập lưu trữ hệ thống thông tin tăng lên cách nhanh chóng Trước tình hình đó, việc khai thác chọn lọc liệu có ích từ lượng liệu khổng lồ việc cần thiết, đóng vai trị định thành cơng hoạt động Các liệu chắt lọc giúp cải thiện hoạt động hay đặt dự đoán giúp việc đưa định tương lai xác Với lý đó, nhu cầu phát triển kỹ thuật thu thập, lưu trữ, phân tích liệu, đặt địi hỏi phải xử lý thơng minh hiệu Từ làm phát triển kỹ thuật với kỹ thuật cho phép ta khai thác tri thức hữu dụng từ sỡ liệu lớn gọi kỹ thuật khai phá liệu (Data Mining - DM) Các kỹ thuật khai phá liệu ứng dụng nhiều lĩnh vực như: kinh tế, tài chính, y tế, giáo dục Trong việc ứng dụng khai phá liệu vào nhiều lĩnh vực khác đời sống, khai phá liệu lĩnh vực giáo dục dần có quan tâm mức Chúng ta cần phải nhìn nhận giáo dục nhân tố định phát triển đất nước nhiều mặt Mục tiêu phát triển xã hội cách bền vững đặt cho giáo dục yêu cầu Giáo dục đào tạo có nhiệm vụ định hướng hoạch định sách cho đối tượng giáo dục hệ trẻ, lực lượng kế thừa việc xây dựng, bảo vệ phát triển đất nước tương lai cách đắn kịp thời Chính vậy, việc định hướng xây dựng sách giáo dục đào tạo cần phải hỗ trợ công cụ khoa học để tránh sai lầm đáng tiếc Trong số cơng cụ đó, khai phá liệu cơng cụ hữu ích có tính khoa học cao, giúp nhà quản lý giáo dục có tri thức quý giá phục vụ cho công tác quản lý học sinh, sinh viên sử dụng kết hữu ích từ q trình chắt lọc liệu khai phá liệu Ngày nay, việc tư vấn học tập cho học sinh, chủ yếu liên quan đến lựa chọn lộ trình học phù hợp nhằm đạt kết học tập cao cho học sinh đặc biệt quan tâm Đó khó khăn chung khơng học sinh, mà cịn nhà trường, giáo viên tham gia tư vấn, từ tổ chức quản lý trường cán phân công chuyên trách giáo viên chủ nhiệm Các giáo viên chuyên trách công tác tuyển sinh tiếp cận toàn liệu điểm học sinh Ngay với cấp quản lý, cảm tính suy luận thủ cơng từ khối liệu khổng lồ để đưa tư vấn tốt việc chọn lộ trình học, chọn mơn thi, chọn ngành học, chọn trường học cho học viên khả thi 1.2 Một số kỹ thuật khai phá liệu a) Khai phá luật kết hợp (Association Rules) Bài toán kinh điển dẫn đến việc khai phá luật kết hợp: Bài toán giỏ mua hàng siêu thị Giả định có nhiều mặt hàng, ví dụ “bánh mì”, “sữa”,…(coi tính chất trường) Khách hàng siêu thị bỏ vào giỏ mua hàng họ số mặt hàng đó, muốn tìm hiểu khách hàng thường mua mặt hàng đồng thời, không cần biết khách hàng cụ thể Nhà quản lý dùng thông tin để điều chỉnh việc nhập hàng siêu thị, hay đơn giản để bố trí xếp mặt hàng gần nhau, bán mặt hàng theo gói hàng, giúp cho khắc đỡ cơng tìm kiếm Khai phá luật kết hợp mô tả tương quan kiện kiện xuất thường xuyên đồng thời Nhiệm vụ khai phá luật kết hợp phát tập xuất khối lượng giao dịch lớn sở liệu cho trước */ Định nghĩa luật kết hợp Định nghĩa: Cho I={I1, I2, , Im} tập hợp m tính chất riêng biệt Giả sử D CSDL, với ghi chứa tập T tính chất (có thể coi ), ghi có số riêng Một luật kết hợp mệnh đề kéo theo có dạng XY, X, Y I, thỏa mãn điều kiện XY= Các tập hợp X Y gọi tập hợp tính chất (itemset) Tập X gọi nguyên nhân, tập Y gọi hệ Có độ đo quan trọng luật kết hợp: Độ hỗ trợ (support) độ tin cậy (confidence), định nghĩa phần */ Định nghĩa: Độ hỗ trợ Định nghĩa 1: Độ hỗ trợ tập hợp X sở liệu D tỷ số ghi T D có chứa tập X tổng số ghi D (hay phần trăm ghi D có chứa tập hợp X), ký hiệu support(X) hay supp(X) (support tự sinh cài thuật toán) |{T D:Y X}| S0 = (3.1) |D| Ta có: supp(X) 1 với tập hợp X Định nghĩa 2: Độ hỗ trợ luật kết hợp XY tỷ lệ số lượng ghi chứa tập hợp X Y, so với tổng số ghi D - Ký hiệu supp(XY) |{T D:T X Y}| Supp(XY) = (3.2) |D| Khi nói độ hỗ trợ luật 50%, có nghĩa có 50% tổng số ghi chứa X Y Như vậy, độ hỗ trợ mang ý nghĩa thống kê luật */ Định nghĩa: Độ tin cậy Định nghĩa 1: Độ tin cậy luật kết hợp XY tỷ lệ số lượng ghi D chứa X Y với số ghi D có chứa tập hợp X Ký hiệu độ tin cậy luật conf(r) Ta có conf(r) 1 Nhận xét: Độ hỗ trợ độ tin cậy có xác suất sau: Supp(XY)=P(XY) Conf (XY) = P(Y/X)=supp(XY)/supp(X) (3.3) (3.4) Định nghĩa 2: Độ tin cậy luật kết hợp XY tỷ lệ số lượng ghi tập hợp chứa X Y, so với tổng số ghi chứa X Chúng ta nhận thấy tri thức đem lại luật kết hợp dạng có khác biệt nhiều so với thông tin thu từ câu lệnh truy vấn liệu thơng thường SQL Đó tri thức, mối liên hệ chưa biết trước mang tính dự báo tiềm ẩn liệu Những tri thức không đơn giản kết phép nhóm, tính tổng hay xếp mà q trình tính tốn phức tạp */ Định nghĩa: Tập hợp thường xuyên Định nghĩa 1: Tập hợp X gọi tập hợp thường xuyên (Frenquent itemset) có supp(X) minsup, với minsup ngưỡng độ hỗ trợ cho trước Kí hiệu tập FI Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm Khai phá luật kết hợp thực qua bước: - Bước 1: tìm tất tập mục phổ biến, tập mục phổ biến xác định qua tính độ hỗ trợ thỏa mãn độ hỗ trợ cực tiểu - Bước 2: sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu Phương pháp sử dụng hiệu lĩnh vực marketing có chủ đích, phân tích định, quản lí kinh doanh, Ví dụ: phân tích thói quen mua sắm khách hàng, có luật kết hợp phát biểu sau: “60% khách hàng vào nhà sách mua viết có tới 80% số mua thêm bút viết” “60% khách hàng vào siêu thị mua mặt hàng giày có tới 80% số mua mặt hàng Tất Xi đánh giày” … Bài toán luật kết hợp giúp nhà kinh doanh hiểu rõ xu bán hàng, tâm lý khách hàng mua sắm, từ đưa chiến lược bố trí mặt hàng cách hợp lý nhất, b) Phân lớp (Classification) Phân lớp liệu hướng nghiên cứu khai phá liệu Kỹ thuật đã, có nhiều ứng dụng lĩnh vực xã hội: Kinh doanh, Thương mại, Ngân hàng, Y tế, Giáo dục…Trong mô hình phân lớp đề xuất, định coi công cụ mạnh, phổ biến đặc biệt thích hợp với ứng dụng khai phá liệu Thuật toán phân lớp nhân tố trung tâm mơ hình phân lớp Đây toán phổ biến khai phá liệu với mục tiêu tìm mối quan hệ thuộc tính dự báo thuộc tính phân lớp Chính điều đó, q trình phân lớp sử dụng mối quan hệ để dự báo cho mẫu Phân lớp liệu có vai trị quan trọng tiến trình dự báo khuynh hướng, quy luật phát triển c Phân cụm (Clustering) Mục tiêu phương pháp nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học khơng giám sát Khơng giống phân loại liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learning by example) Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu,… d Phương pháp dự báo: Bài toán dự báo dùng để dựa vào thông tin liên quan đến người học (điểm đầu vào, điểm định kỳ, điểm khảo sá ), hay điểm môn thi cuối năm,… để tiến hành đưa dự báo lựa chọn mà có khả cao xảy VD: học sinh đăng kí vào ngành học nào, thi mơn học có kết tốt học sinh có lợi nhất, học với lực đem đến hiệu giáo dục cao e Phương pháp khai phá chỗi: Đây phương pháp mang tính thời nhiều người quan tâm Khai phá chuỗi (sequential/temporal patterns): Phương pháp khai phá chuỗi tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Có nhiều hình thức khác để biểu diễn liệu khai thác, xử lí liệu việc tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khốn, dự báo thời tiết, dự báo thiên tai động đất… có tính dự báo cao… 1.3 Bài toán dự đoán kết kỳ thi TN/THPT quốc gia Bài toán đặt sau: Vào cuối khóa học THPT học sinh có nhiều kênh thơng tin như: Họ tên, ngày sinh, giới tính, kỹ luật, khen thưởng, dân tộc, tôn giáo, nghề nghiệp bố, nghề nghiệp mẹ, Điểm tuyển sinh đầu vào lớp 10, đánh giá xếp loại học lực, hạnh kiểm năm học lớp 10, lớp 11, lớp 12, điểm tổng kết theo môn dự thi TN/THPT Quốc gia năm học lớp 10, 11 lớp 12… Tất thông tin nhà trường lưu trữ phần mềm quản lý học sinh THPT: VNEDU.VN in ấn, lưu trữ hồ phòng văn thư nhà trường Nhiệm vụ đặt dựa kênh thông tin nêu học sinh đưa dự báo điểm môn thi TN/THPT quốc gia cách khoa học nhờ ứng dụng CNTT nói chung mơn Khai phá liệu nói riêng, Từ giúp học sinh đánh giá khả năng, lực thân để có lựa chọn phù hợp cho tương lai nên chọn trường Đại học – Cao đẳng hay học nghề 1.4 Thu thập tiền xử lý liệu 1.4.1 Tập hợp liệu 10 - Bước thứ ba: Khai phá liệu (Data mining) Bước khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Ở bước quan trọng, bao gồm cơng đoạn như: + Xác định chức năng, nhiệm vụ mục đích khai phá liệu? + Dùng phương pháp khai phá nào? Thơng thường với tốn khai phá liệu bao gồm: + Các tốn mang tính mơ tả - đưa tính chất chung liệu; + Các toán dự báo bao gồm việc phát suy diễn dựa tập liệu có Ở bước tuỳ theo toán mà ta xác định lựa chọn phương pháp khai phá liệu cho phù hợp - Bước thứ tư: Đánh giá mẫu (Pattern evaluation): Dựa tập liệu, độ đo đặc trưng, xác định mẫu thực đáng quan tâm để biểu diễn - Bước thứ năm: Biểu diễn kết trình, phát đưa dự báo ứng dụng cấp học khác tương đồng Do kết dự đốn mơ tả mang tính khoa học nên chúng làm để tư vấn, cảnh báo, nhắc nhở em học sinh giúp nhà quản lý giáo dục có nhìn khách quan từ điều chỉnh kế hoạch dạy học phù hợp với đối tượng học sinh giúp học sinh đạt kết cao kỳ thi THPT quốc gia tới 2.2 Áp dụng kỹ thuật phân lớp Kĩ thuật phân lớp liệu Khai Phá Dữ Liệu vấn đề nguyên cứu mở rộng nay; tập trung chủ yếu vào thống kê, máy học mạng nơtrôn Kĩ thuật phân lớp đánh giá kĩ thuật khai phá liệu sử dụng rộng rãi với nhiều mở rộng Sự kết hợp kỹ thuật phân lớp sở 19 liệu lĩnh vực hứa hẹn đáp ứng vấn đề quan trọng ứng dụng sở liệu tính uyển chuyển cao Với ý nghĩa vai trò quan trọng kĩ thuật phân lớp nêu trên, thuật phân lớp thời gian gẩn từ kết đăng tải số báo cáo khoa học hội nghị khoa học quốc tế Khai Phá Dữ Liệu việc tìm hiểu sử dụng kĩ thuật phân lớp Giới thiệu phân lớp: Phân lớp liệu kĩ thuật dựa tập huấn luyện giá trị hay nhãn lớp thuộc tính phân lớp sử dụng việc phân lớp liệu Phân lớp tiên đoán loại lớp nhãn Bên cạnh kĩ thuật phân lớp có hình thức tương tự kĩ thuật tiên đoán, kĩ thuật Kĩ thuật phân lớp tiến hành bao gồm bước : Xây dựng mơ hình sử dụng mơ hình - Xây dựng mơ hình: Là mơ tả tập lớp định nghĩa trước đó: mẫu gán thuộc lớp định nghĩa trước xát định thuộc tính nhãn lớp, tập hợp sử dụng việc sử dụng mơ hình gọi tập huấn luyện Mơ hình biểu diễn luật phân lớp, định cơng thức tốn học - Sử dụng mơ hình: Việc sử dụng mơ hình phục vụ cho mục đích phân lớp liệu tương lai phân lớp cho đối tượng chưa biết đến Trước sử dụng mơ hình người ta thường phải đánh giá tính xác mơ hình : nhãn biết mẫu kiểm tra so sánh với kết phân lớp mơ hình, độ xác phần trăm tập hợp mẫu kiểm tra mà phân loại mô hình, tập kiểm tra độc lập với tập huấn luyện Phân lớp hình thức học giám sát tức là: tập liệu huấn luyện ( quan sát, thẩm định ) đôi với nhãn định lớp quan sát, liệu phân lớp dựa tập huấn luyện Ngược lại với hình thức học giám sát hình thức học khơng giám sát lúc nhãn lớp tập liệu huấn luyện đến 20 Đây toán phổ biến khai phá liệu với mục tiêu tìm mối quan hệ thuộc tính dự báo thuộc tính phân lớp Chính điều đó, q trình phân lớp sử dụng mối quan hệ để dự báo cho mẫu Phân lớp liệu có vai trị quan trọng tiến trình dự báo khuynh hướng, quy luật phát triển Cho tập liệu chứa đối tượng bao gồm thuộc tính mơ tả với thuộc tính lớp đối tượng đó, thuật tốn định tạo luật để dự đoán lớp đối tượng chưa biết Dữ liệu thu thập thông qua thuật tốn phân lớp tạo mơ hình, từ mơ hình dùng liệu để kiểm tra độ xác dùng để dự đốn liệu chưa gán nhãn 2.3 Áp dụng kỹ thuật phân cụm Phân cụm liệu kỹ thuật quan trọng khai phá liệu Có nhiều định nghĩa khác kỹ thuật này, chất hiểu phân cụm quy trình tìm cách nhóm đối tượng cho vào cụm (clusters), cho đối tượng cụm tương tự đối tượng khác cụm khơng tương tự Mục đích phân cụm tìm chất bên nhóm liệu Tuy nhiên, khơng có tiêu chí xem tốt để đánh giá hiệu phân tích phân cụm, điều phụ thuộc vào mục đích phân cụm như: giảm liệu (data reduction), “cụm tự nhiên” (“natural clusters”), cụm “có ích” (“useful” clusters), phát phần tử ngoại lai (outlier detection) Mục tiêu phương pháp nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học khơng giám sát Không giống phân loại liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learning 21 by example) Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu,… Thực nghiệm Đây kết việc khai phá liệu dựa vào kỹ thuật phân lớp, phân cụm tập liệu 1198 học sinh trường THPT Tây Hiếu THPT 1/5, 1198 học sinh năm học 2017 - 2018, 2018 - 2019, 2019 – 2020 dùng để huấn luyện 599 học sinh năm học 2020-2021 dùng để dự đốn, dự báo 3.1 Mơi trường thực nghiệm Hiện có nhiều cơng cụ lập trình như: C, C++, Pascal, C# hay Python… Trong số đó, Python ngơn ngữ lập trình sử dụng phổ biến nhiều tính đa dạng ngơn ngữ Đây ngôn ngữ dùng nhiều ngành khoa học liệu (Data science) ngôn ngữ phổ biến để xây dựng chương trình liên quan đến học máy, nhận dạng mẫu … Python đời từ năm 1989, khoảng năm trở lại đây, Python nhiều người sử dụng cộng đồng người sử dụng ngôn ngữ đông, so sánh từ bảng xếp hạng ngơn ngữ lập trình tháng năm 2018 Python đứng thứ 10 ngơn ngữ phổ biến [https://www.tiobe.com] Ngơn ngữ lập trình Python có số điểm bật sau: - Người lập trình dễ học: Ngơn ngữ lập trình Python khơng có nhiều từ khóa, cú pháp đơn giản, rõ ràng nên thân thiện với người học - Cấu trúc: Ngữ lập trình Python dễ đọc, dễ hiểu suy đốn ý nghĩa dịng lệnh mã lệnh - Chương trình viết ngơn ngữ lập trình Python chạy nhiều hệ điều hành khác bao gồm Windows, macOS Linux 22 - Tính mở cao: Một ưu điểm Python so với ngơn ngữ lập trình Matlab người dùng tự sử dụng phân phối Python Đây ngơn ngữ lập trình có cộng đồng rộng lớn, khơng ngừng cải thiện lần cập nhật - Dễ dàng chỉnh sửa, nâng cấp nhúng: người lập trình dễ dàng nhúng đoạn chương trình viết ngơn ngữ khác nhưg C, C++ vào chương trình Python Điều cung cấp cho ứng dụng thực có tính tốt mà ngơn ngữ lập trình khác khó làm - Ngơn ngữ thông dịch thuận lợi, cấp cao: Không giống ngơn ngữ lập trình C/C++, lập trình với Python, người lập trình khơng phải lo lắng nhiệm vụ khó khăn quản lý nhớ, dọn dẹp liệu - Có nhiều thư viện giúp tiết kiệm nhiều thời gian lập trình: Python cung cấp số lượng lớn thư viện giúp cho công việc lập trình trở nên dễ dàng rút ngắn thời gian lập trình - Giúp giai vấn đề phức tạp, hướng đối tượng: Tương tự ngôn ngữ lập trình C-Sharp, thứ Python hướng đối tượng Lập trình hướng đối tượng Python giúp giải vấn đề phức tạp cách trực quan Ta phân chia vấn đề phức tạp thành tập nhỏ cách tạo đối tượng Để cài đặt Python, ta cần tải cài địa chỉ: https://www.python.org/downloads/ Hình 3.1 Biểu tượng ngơn ngữ lập trình Python PyCharm Có nhiều mơi trường tích hợp để phát triển ứng dụng Python Sublime, Eclipse IDE, NetBeans, Microsoft Visual Studio, PyCharm,… Trong số JetBrains PyCharm mơi trường phát triển Python nhiều người dùng Pycharm dễ dàng phát sửa lỗi mã, chỉnh sửa xử lý 23 cố Bộ biên tập mã thông minh PyCharm cung cấp hỗ trợ cho Python, Javascript, CSS nhiều thứ khác 3.2 Các bước thực Bước 1: Cài đặt Python (cho hệ điều hành windows): - Tải Python cho hệ thống windows : Trình thơng dịch Windows Python cài đặt miễn phí từ website Python Hình 3.2 Tải cài đặt Python cho Hệ điều hành - Cài trình thơng dịch cho Python: Ta hợp Python vào ứng dụng thơng dịch dịng lệnh có sẵn Windows (Command Prompt) cách bật lựa chọn cuối danh sách mơ-đun sẵn có Hình 3.3 Tải cài đặt Python cho Hệ điều hành - Cài đặt chương trình soạn thảo văn 24 Dù viết chương trình Python với Notepad hay TextEdit, ta dễ đọc viết mã nhiều sử dụng chương trình soạn thảo văn chun biệt Có nhiều chương trình soạn thảo miễn phí, chẳng hạn Notepad++ (Windows), TextWrangler (Mac) hay Jedit (cho hệ điều hành nào) Hình 3.4 Tải cài đặt Python cho Hệ điều hành - Kiểm tra cài đặt bạn Mở Command Prompt (Windows) Terminal (Trình giả lập - Mac/Linux) đánh python Python tải hiển thị số phiên Bạn chuyển đến ứng dụng thông dịch dịng lệnh trình phiên dịch Python, thể dạng: >>> Hình 3.5 Tải cài đặt Python cho Hệ điều hành 25 Bước 2: Lập trình Python với: Tập liệu để học huấn luyện học sinh từ năm 2017, 2018, 2019 Bước 3: Từ kết đưa dự báo tập liệu học sinh năm 2020 3.3 Kết thực nghiệm phân tích kết Sau thực tệp liệu mô tả trên, học sinh có 44 thuộc tính để đưa vào học máy, huấn luyện liệu 599 học sinh cần dự báo điểm thi học trường THPT Tây Hiếu, THPT 1/5 năm 2020-2021 cho ta kết dự báo mang tính khoa học mong muốn Hình 3.6 Kết dự đốn 26 Hình 3.7 Kết dự đoán Phần Kết luận kiến nghị Nhận xét: Với toán nghiên cứu nhân tố ảnh hưởng đến kết thi TN/THPT quốc gia học sinh trường THPT Tây hiếu trường THPT 1/5 nói riêng học sinh THPT nói chung cấp thiết Dựa ứng dụng cơng nghệ thơng tin, phân tích yếu tố mang tính khoa học giúp nhà trường phát huy yếu tố quan trọng chuyên môn số môn học giúp học sinh tiến vượt bậc qua năm học với điểm đầu vào lớp 10 thấp có nhiều tiến qua năm học hạn chế việc học sinh có kết xuống qua góp phần nâng cao chất lượng giảng dạy học tập chung nhà trường học sinh, từ nâng cao kết học tập chất lượng đào tạo trường để phụ huynh học sinh tin tưởng, giao phó Để đạt mục đích nghiên cứu Đề tài này, tác giả khảo sát, tập hợp liệu 1198 học sinh từ năm học 2017-2018 đến năm học 2020-2021 trường THPT Tây Hiếu, THPT 1/5 với học sinh có 44 thuộc tính 27 Từ kết nghiên cứu cho thấy yếu tố sau ảnh hưởng đến kết thi TN/THPT quốc gia học sinh: - Vai trò giáo viên hoạt động giảng dạy (bao gồm thuộc tính điểm tuyển sinh vào 10, điểm mơn dự thi THPT quốc gia, điểm tổng kết học lực, hạnh kiểm … khối 10, 11, 12 Như để góp phần nâng cao chất lượng giáo dục, nâng cao kết kỳ thi TN/THPT quốc gia học sinh vai trị người giáo viên quan trọng, giai đoạn đổi giáo dục Sự tâm cao, có tinh thần trách nhiệm, nhận thức đắn, kỹ sử dụng có hiệu thiết bị dạy học tổ chức hướng dẫn học sinh học tập tốt phẩm chất cần thiết người giáo viên nhà trường Bên cạnh điểm quan trọng công tác giáo dục tri thức người giáo viên, người giáo viên phải khơng ngừng nâng cao trình độ chuyên môn nghiệp vụ, học hỏi phát triển kỹ tổ chức, hướng dẫn giúp đỡ học sinh nhà trường - Thái độ, ý thức học tập học sinh Với kết dự báo đề tài giúp học sinh có kênh thơng tin dự báo quan trọng, mang tính khoa học với học sinh học tập trường THPT Tây Hiếu, THPT 1/5 Qua giúp học sinh có kết dự báo không cao, phải cố gắng nhiều khoảng thời gian lại chờ đến ngày thi Tn/THPT Quốc gia 2021 Mỗi học sinh phải nhận thức việc học quan trọng, môi trường giáo dục với cách dạy giáo viên cách học học sinh trường THPT Tây Hiếu, THPT 1/5, qua tự lập kế hoạch học tập phù hợp để đạt kết cao kỳ thi THPT quốc gia 2021 - Với cấp Quản lý nhà trường từ tập phân tích, huấn luyện, dự báo đề tài có nhìn khách quan cống tác giảng dạy tập thể giáo viên cách học học sinh Từ đưa sách, kế hoạch hợp lý để nâng cao chất lượng dạy học chung nâng cao kết kỳ thi THPT quốc gia nói riêng 28 sử dụng kênh thông tin để tư vấn, hướng nghiệp cho em học sinh làm hồ sơ đăng ký thi TN/THPT quốc gia chọn trường học, ngành học theo lực sở trường học sinh Kiến nghị - Có kế hoạch thực tốt chương trình tư vấn định hướng nghề nghiệp dựa vào ứng dụng CNTT đặc biệt việc đưa dự báo mang tính khoa học kết thi THPT quốc gia; - Quan tâm, đầu tư kinh phí, đặt hàng đề tài khoa học nghiên cứu nâng cao chất lượng sở giáo dục - Sử dụng kết dự báo đề tài để làm sở cho việc đánh giá, xếp loại, chất lượng giáo viên thông qua kết học sinh - Xây dựng kế hoạch tư vấn, hướng nghiệp cho học sinh dựa đề tài qua giúp học sinh lựa chọn môn thi, khối thi dựa kết học tập rèn luyện năm học lớp 10,11 12 - Hỗ trợ thêm nhân lực để tác giả thực có hiệu cơng tác dự báo, tư vấn học sinh lựa chọn khối thi vào trước kỳ thi Kết đạt Từ kết nghiên cứu lý thuyết thực nghiệm, nhóm tác giả thu nhận góp ý hữu ích đánh giá học sinh, dự đoán kết môn thi kỳ thi thông qua tập hợp thơng tin cá nhân có trước trường THPT Chúng chọn xây dựng đề tài nhằm đáp ứng yêu cầu đặt ứng dụng công nghệ thông tin công tác dự báo kết kỳ thi TN/THPT quốc gia tư vấn hướng nghiệp giúp học sinh chọn môn thi theo lực học sinh Tuy nhiên đề tài bộc lộ số hạn chế thực tập liệu trường THPT Tây hiếu, THPT 1/5 Để đề tài nghiên cứu tiếp tục nghiên cứu mở rộng để ứng dụng rộng rãi cập học giáo dục nước nhà, đề tài quan tâm giới thiệu thêm đến người dùng ngôn ngữ Python 29 Đề tài thực theo nhiệm vụ giao thời hạn theo yêu cầu đặt Tuy nhiên với thân, đề tài mang tính mới, phụ huynh học sinh THPT quan tâm khó, khơng thể tránh khỏi thiếu sót, khiếm khuyết Vì vậy, tơi mong quý Thầy, cô giáo đồng nghiệp góp ý để tơi hồn thiện đề tài Hướng phát triển đề tài Khi có ý tưởng lựa chọn, nghiên cứu đề tài thân nhóm chúng tơi ln mong muốn đặt mục tiêu phải giải hai nội dung sau: Thứ đưa dự đoán (dự báo) cách khoa học điểm thi học sinh với tập thông tin cá nhân có; Thứ hai sử dụng kết dự báo để giúp học sinh có thêm kênh thông tin đáng tin cậy vào công tác tuyển sinh chọn môn thi TN/THPT quốc gia chọn nghành chọn trường … đưa đề tài vào áp dụng cho trường, cấp học nói Tơi mong đề tài nghiên cứu có nhiều đề tài nghiên cứu chuyên sâu qua kênh thơng tin giúp tư vấn cho học sinh lựa chọn môn thi, loại trường đại học, cao đẳng, hay lựa chọn ngành nghề phù hợp với lực thân Để đóng góp phần đem đến nhiều thuận lợi cho cơng tác dạy học cơng tác quản lí giáo dục Với thời gian dài nghiên cứu, ấp ủ ý tưởng tất tâm huyết ngành giáo dục, thân nhóm chúng tơi ln ln nỗ lực, tìm tịi, học hỏi nội dung liên quan Nhưng nội dung mang tính mới, cao, nội dung đa dạng, trình thực nhiệm vụ nghiên cứu, khơng thể tránh khỏi khiếm khuyết hạn chế Chúng mong muốn thầy giáo, cô giáo bạn bè, đồng nghiệp, đóng góp ý kiến để giúp chúng tơi hồn thiện hướng nghiên cứu tương lai để ứng dụng vào thực tiễn ngày hiệu Xin chân thành cảm ơn ! 30 DANH MỤC CÁC TỪ VIẾT TẮT CNTT Công nghệ thông tin CSDL Cơ sở liệu CĐ Cao đẳng ĐH Đại học GD-ĐT Giáo dục Đào Tạo GDTX Giáo dục thường xuyên KTKĐCLGD Khảo thí kiểm định chất lượng giáo dục THPT Trung học phổ thông HN Hướng nghiệp 31 MỤC LỤC Nội dung Phần 1: Đặt vấn đề Trang 1 Sự cần thiết vấn đề nghiên cứu Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát 2.2 Mục tiêu cụ thể 3 Đối tượng phạm vi nghên cứu 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu Nội dung nghiên cứu Phần II Nội dung nghiên cứu Khai phá liệu 1.1 Khai phá liệu giáo dục 1.2 Một số kỹ thuật khai phá liệu 1.3 Bài toán dự đoán kết kỳ thi TN/THPT quốc gia 10 1.4 Thu thập tiền xử lý liệu 10 1.4.1 Tập hợp liệu 10 1.4.2 Tiền xử lý liệu 13 Dự đoán kết thi TN/THPT quốc gia kỹ thuật khai phá 14 liệu 2.1 Các bước thực 17 2.2 Áp dụng kỹ thuật phân lớp 19 2.3 Áp dụng kỹ thuật phân cụm 21 Thực nghiệm 22 3.1 Môi trường thực nghiệm 22 3.2 Các bước thực 24 32 3.3 Kết thực nghiệm phân tích kết Phần Kết luận kiến nghị 26 27 Nhận xét 27 Kiến nghị 29 Kết đạt 29 Hướng phát triển đề tài 30 33 ... Đại học hay học nghề sau kết thúc cấp học THPT ?” Trước thực tế đó, chúng tơi chọn đề tài ? ?Phương pháp sử dụng CNTT để dự đoán kết thi TN /THPT cho học sinh trường THPT Tây Hiếu – THPT 1/ 5? ?? đáp... nghiệm Đây kết việc khai phá liệu dựa vào kỹ thuật phân lớp, phân cụm tập liệu 11 98 học sinh trường THPT Tây Hiếu THPT 1/ 5, 11 98 học sinh năm học 2 017 - 2 018 , 2 018 - 2 019 , 2 019 – 2020 dùng để huấn... áp dụng dự đoán kết kỳ thi THPT quốc gia cho học sinh Trường THPT Tây Hiếu, học sinh trường THPT 1/ 5 2.2 Mục tiêu cụ thể Đề tài tập trung vào mục tiêu cụ thể sau: - Thu thập liệu học sinh Trường