Tiền xử lý dữ liệu:

Một phần của tài liệu Nghiên cứu kỹ thuật cây quyết định và xây dựng ứng dụng hỗ trợ học sinh trường THPT võ nguyên giáp chọn nghề (Trang 65 - 66)

6. Cấu trúc luận văn

3.2. Tiền xử lý dữ liệu:

 Trích chọn đặc trƣng: Các thuộc tính có khả năng khai phá dữ liệu tốt nhất trong bài toán chọn nghề: maSoThich, NhomST, maNganh, maMH, diem, NhomMH, GioiTinh, D_NhomSt.

 Tổng hợp dữ liệu và tổng quát hóa dữ liệu:

o Thuộc tính D_NhomSt: Lấy giá trị NhomST trong thực thể Nganh có mã ngành là ngành học sinh chọn, tính điểm trắc nghiệm tổng các nội dung sở thích thuộc giá trị này. Thuộc tính này đƣợc tổng hợp từ NhomST (nhóm sở thích, điểm trắc nghiệm các nội dung sở thích) và maNganh học sinh chọn.

o Thuộc tính NstChonCaoNhat: Thuộc tính xác định điểm sở thích theo ngành của học sinh có lớn nhất không. Thuộc tính tổng hợp dữ liệu từ MaNganh, maSoThich.

o Thuộc tính Dtb_MH: Từ ngành chọn lấy maNganh, Từ mã ngành tìm đƣợc mã môn học phù hợp, từ mã môn học kết hợp mã học sinh truy xuất bảng điểm lấy điểm trung bình môn phụ thuộc ngành của học sinh. Thuộc tính này tổng hợp dữ liệu từ MaNganh, MaHS, MaMH, diem.

o Thuộc tính DtbMhHonDTB: Thuộc tính xác định điểm môn học theo ngành của học sinh có lớn hơn điểm trung bình các môn của học sinh hay không. Thuộc tính tổng hợp dữ liệu từ maSo, MaNganh, diem.

o Thuộc tính GtPhuHopNganh: Từ maHS ta truy xuất đƣợc giá trị giới tính của học sinh, từ maNganh truy xuất đƣợc giới tính ngành, so sánh giới tính học sinh và giới tính ngành, đƣa ra kết luận. Thuộc tính này kết hợp maHS, GT trong thực thể HocSinh với MaNganh, GtPhuhop trong thực thể Nganh.

 Lấy giá trị cho mỗi mẫu dữ liệu:

o Chọn maHS ngẫu nhiên, mã ngành ngẫu nhiên tính DtbMH từ bảng điểm của học sinh.

o DtbMhHonDTB đƣợc tính tự động sau khi so sánh hai kết quả, nếu điểm trung bình môn học lớn hơn điểm trung bình chung của học sinh thì trả về giá trị Y, ngƣợc lại trả giá trị N.

o GtPhuHopNganh truy xuất theo mã học sinh và mã ngành: nếu GT học sinh trùng với giới tính ngành thì có giá trị là Y, nếu không trùng thì có giá trị là N.

o NstChonCaoNhat: đƣợc tính tự động sau khi so sánh tổng điểm trắc nghiệm của nhóm điểm tính cách theo ngành với các điểm các nhóm còn lại, nếu điểm nhóm chọn lớn nhất thì trả về giá trị Y, ngƣợc lại trả giá trị N.

o Lấy giá trị ngẫu nhiên từ 0 đến 36 cho các thuộc tính: D_NhomSt

o Thuộc tính Chon: Điền

Một phần của tài liệu Nghiên cứu kỹ thuật cây quyết định và xây dựng ứng dụng hỗ trợ học sinh trường THPT võ nguyên giáp chọn nghề (Trang 65 - 66)

Tải bản đầy đủ (PDF)

(91 trang)