Chương 3: Xây dựng chương trình dêmo

Một phần của tài liệu xây dựng ứng dụng demo cho kỹ thuật khai phá dữ liệu bằng cây quyết định (Trang 30 - 31)

Phương pháp khai phá dữ liệu trong những năm gần đây được ứng dụng trong nhiều lĩnh vực như: thương mại, giáo dục, y tế, bưu chính viễn thông... Tuy nhiên, ở Việt Nam phương pháp này còn chưa được áp dụng nhiều, nhất là trong lĩnh vực giáo dục, đào tạo. Vì vậy trong nội dung nghiên cứu khoa học của mình, em đã tiến hành xây dựng chương trình ứng dụng khai phá dữ liệu trong giáo dục đào tạo. Cụ thể là ứng dụng khai phá dữ liệu Trường đại học sư phạm Hà Nội. Bài toán như sau: "Sử dụng các thông tin: Khu vực sống, thành phần gia đình, học lực 4 năm đại học, điểm thi đầu vào của sinh viên để dự đoán xếp loại tốt nghiệp đại học của sinh viên."

3.2. Thu thập và tiền xử lý dữ liệu

Dữ liệu mà em thu thập được lấy kho dữ liệu của Trường đại học sư phạm Hà Nội. Sau khi đã có được toàn bộ các dữ liệu, em tiến hành trích lọc ra những thông tin cần thiết cho bài toán ứng dụng của em. Dữ liệu thu thập được ở dạng file access như sau:

Tiền xử lý dữ liệu: do một số lý do nào đó, trong bảng dữ liệu về sinh viên, có một số ô không có giá trị. Vì vậy, em tiến hành bước tiền xử lý dữ liệu: dùng giá trị dữ liệu thông dụng nhất cho các thuộc tính mà có giá trị bị thiếu để điền vào các ô dữ liệu bị để trống đó.

Sau đó, do em dự tính dùng tool dtree (dtree làm việc với dữ liệu dạng file text ) để xây dựng cây quyết định, vì vậy em tiến hành xử lý , export dữ liệu từ access ra file text.

3.3. Chương trình

- Đầu vào: dữ liệu phẳng (dạng file text) chứa các thông tin được sử dụng trong mô tả bài toán.

- Đầu ra: đầu ra của cây là file text chứa các luật dự đoán xếp loại tốt nghiệp của sinh viên dựa vào các thông tin đầu vào. .

Chương 4. KẾT LUẬN

Một phần của tài liệu xây dựng ứng dụng demo cho kỹ thuật khai phá dữ liệu bằng cây quyết định (Trang 30 - 31)