Cài đặt giải thuật phân lớp dựa trên luật kết hợp dự báo.

Một phần của tài liệu Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh (Trang 73 - 76)

- Giai đoạn 4: Đánh giá độ chính xác của phân lớp.

3.3.1.Cài đặt giải thuật phân lớp dựa trên luật kết hợp dự báo.

Các giải thuật khai phá luật kết hợp được cài đặt trong ứng dụng là các giải thuật được trình bày tại chương 2 gồm giải thuật CPAR và bản cải tiến là CPAR-GR nhằm kiểm chứng tính hiệu quả của việc sử dụng T-Test để thu giảm số chiều của tập dữ liệu và Gain_Ratio được cải tiến từ hệ số Gain trong việc tìm thuộc tính tham gia vào luật kết hợp.

* Môi trường cài đặt ứng dụng thử nghiệm:

Cài đặt và sử dụng ngôn ngữ lập trình Python 3.8 cùng các thư viện hỗ trợ thuận lợi cho việc khai phá dữ liệu phù hợp đề tài mà em đang nghiên cứu như thư viện Pandas cung cấp các tác vụ xuất nhập dữ liệu hỗ trợ kết xuất file từ bộ nhớ, thư viện Numpy cung cấp các công cụ để lưu trữ các tập dữ liệu lớn và đa chiều cùng với những phương thức linh hoạt ... Ngoài ra Python còn cung cấp các kiểu dữ liệu Tuples và Set phù hợp với các bộ dữ liệu đang được sử dụng để phân tích. Cài đặt và biên tập thư viện PyQt5 cùng với các phương thức QtGui, QtCore, QtWidgets để xây dựng giao diện trên môi trường Python.

Cấu hình phần cứng Intel® Core™ i5-3320M CPU @ 2.60GHz, bộ nhớ RAM 8.0 GB, HDD 500GB.

* Mô tả dữ liệu thực nghiệm:

Công tác chuẩn bị các điều kiện cho hoạt động giáo dục của một năm học tại các trường Trung học phổ thông cũng như các bậc học khác có rất nhiều vấn đề cần phải tính toán kỹ lưỡng để đảm bảo đáp ứng nhu cầu học tập của con em nhân dân ở một thành phố lớn nhất cả nước như Thành phố Hồ Chí Minh. Không những đáp ứng về số lượng mà với sự phát triển về khoa học công nghệ như hiện nay việc giáo dục học sinh không chỉ dừng ở dạy tri thức mà còn phải giúp học sinh tiếp cận với các thành tựu khoa học công nghệ đang có và định hướng phát triển, mặt khác do mặt trái

đạo đức, vướng vào tệ nạn xã hội khiến công tác quản lý giáo dục không chỉ còn trong khuôn viên Nhà trường mà cần phải có sự phối hợp của các cấp ngành liên quan, đặc biệt là của phụ huynh và cộng đồng. Tất cả các vấn đề nêu trên đều phải được Nhà trường lên kế hoạch ngay từ đầu năm học để có biện pháp phối hợp giữa lực lượng trong và ngoài nhà trường triển khai thực hiện có hiệu quả, việc xây dựng kế hoạch cần có các số liệu thống kê đầy đủ và càng chính xác càng tốt.

Việc dự báo đúng, đầy đủ giúp nhà trường nắm bắt tình học sinh để có biện pháp tập trung giúp đỡ các em lấy lại cân bằng trong học tập, mặt khác trường hợp các em buộc phải nghỉ học thì phối hợp với các cơ quan hữu quan định hướng giúp đỡ các em tham gia các hoạt động nhằm phục hồi sức khỏe, tinh thần tạo cho các em một cơ hội để phát triển bản thân.

Sử dụng luật kết hợp trong trường hợp này hỗ trợ việc xây dựng kế hoạch giáo dục năm học của các cấp quản lý, trong đó đối chiếu cơ sở vật chất hiện có để dự kiến số liệu tuyển sinh đầu cấp cho phù hợp tránh tình trạng thụ động về số liệu tuyển sinh. Đồng thời đây cũng là những số liệu quan trọng đối với việc chuẩn bị các cơ sở dạy nghề, cai nghiện, phục hồi chức năng … trong kế hoạch hoạt động của Chính quyền Thành phố. Tuy nhiên khai thác dữ liệu trong ngành giáo dục để tạo luật kết hợp cũng gặp một số thách thức như:

- Thống kê lý do nghỉ bỏ học của học sinh có nhiều trường hợp số liệu mang tính chất cảm tính khó lượng hóa.

- Việc ghi sổ đăng bộ của các nhà trường cho các trường hợp học sinh nghỉ bỏ học chưa kịp thời, đầy đủ do còn có trường hợp xin quay lại học rồi lại bỏ nhiều lần. - Các luật được sinh ra phải được kiểm chứng với các trường ở các khu vực có đặc thù khác nhau, do có một số nguyên nhân mang tính cục bộ.

Mô tả cơ sở dữ liệu đầu vào:

Dữ liệu học sinh nghỉ bỏ học được lưu trữ tại Sổ đăng bộ của Nhà trường và được cập nhật trực tuyến trên cơ sở dữ liệu ngành giáo dục Thành phố.

Tập dữ liệu đầu vào là danh sách học sinh đã nghỉ bỏ học được trích xuất từ sổ Đăng bộ của các trường trung học gồm có 1063 dòng với mỗi dòng là thông tin của

một học sinh. Mỗi học sinh có một số thông tin liên quan đến nguyên nhân các em nghỉ bỏ học như học lực, hạnh kiểm, hút thuốc, đánh nhau, …

Cơ sở dữ liệu đầu ra:

Từ cơ sở dữ liệu đầu vào qua giải thuật CPAR-GR xử lý sẽ cho đầu ra bộ luật kết hợp với độ chính xác của luật trong dự báo.

Ví dụ: {Hoàn cảnh gia đình = 1, Học lực = 2, Mồ côi = 1  Bỏ học = 1} (Accuracy = 87%)

Hoàn cách gia đình = 1: Hộ nghèo. Học lực =2: yếu.

Mồ côi = 1: cả cha và mẹ

Luật kết hợp trên có nghĩa là một học sinh có Hoàn cảnh gia đình là hộ nghèo, Học lực yếu và thuộc diện Mồ côi cả cha và mẹ thì dự báo có nguy cơ Bỏ học chính xác đến 87%

Nhận xét:

Trong quá trình tìm luật kết hợp khi thực hiện chương trình ta thực hiện thay đổi các tham số ngưỡng bao phủ CT dùng để xác định ngưỡng trọng số tối thiểu TWT, nếu tham số này nhỏ (0.05) dùng cho cơ sở dữ liệu lớn với số lượng tuple nhiều sẽ đảm bảo việc tìm luật kỹ lưỡng không bị bỏ sót, ngược lại với cơ sở dữ liệu nhỏ thì tham số này sẽ phải lớn hơn để tránh giải thuật lặp lại nhiều lần mà mỗi lần tổng trọng số giảm một lượng rất nhỏ làm tiêu tốn tài nguyên và thời gian thực hiện.

Tham số thứ 2 là tỷ lệ Gain_Ratio GSR dùng để xác định các thuộc tính có giá trị Gain_Ratio gần bằng Best_Gain, nếu ta nhập giá trị này cao (0.99) thì số lượng thuộc tính được lấy để xét tham gia luật sẽ ít, còn ngược lại số thuộc tính trong ngưỡng được xét để tham gia luật sẽ cao điều này làm hạn chế luật có 1 thuộc tính.

Tham số thứ 3 là Decay_Factor thực hiện việc giảm trọng số các tuple theo tỷ lệ, nếu giá trị này lớn sẽ giảm trọng số các tuple với giá trị khá nhỏ sẽ làm cho tổng trọng số chậm chạm ngưỡng vì vậy số luật tạo ra sẽ nhiều hơn, ngược lại giá trị này nhỏ sẽ làm trọng số của các tuple đã được đưa vào xét tạo luật giảm một cách nhanh

chóng vì vậy tổng trọng số sẽ nhanh chóng hơn chạm ngưỡng trọng số quyết định đến việc dừng giải thuật sớm đồng nghĩa với việc đó là số luật tạo ra sẽ ít hơn.

Với việc tìm ra luật kết hợp từ cơ sở dữ liệu học sinh nghỉ bỏ học sẽ giúp các nhà trường dự kiến số lượng tuyển sinh cho năm mới, đồng thời có biện pháp giáo dục, hỗ trợ, động viên kịp thời để các em có cơ hội tiếp tục học tập đối với những học sinh có biểu hiện như luật đã dự báo hiện đang học tập tại nhà trường.

Một phần của tài liệu Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh (Trang 73 - 76)