.Các giai đoạn của quá trình khai phá dữ liệu

Một phần của tài liệu 28035_1712202001915713LUNVN_Minh_IN (Trang 36 - 38)

2.6.1. Hình thành, xác định và định nghĩa vấn đề

Giai đoạn này ta cần xác định vấn đề cần giải quyết, tìm hiểu kiến thức về bài toán đang thực hiện bao gồm các tri thức của các chuyên gia trong lĩnhvực cần nghiên cứu từ đó xác định chính xác nguồn dữ liệu để thu thập đồng thời phải hiểu được cấu trúc dữ liệu, ý nghĩavà tầm quan trọng của nó để từ đó ta đưa ra bài toán cụ thể để giải quyết vấn đề.

2.6.2. Xử lý và làm sạch dữ liệu

Giai đoạn này ta dùng các kỹ thuật tiền xử lý dữ liệu để xử lý dữ liệu đã thu thập được sao cho các giải thuật khai phá dữ liệu có thể hiểu được. Tiền xử lý dữ liệu bao gồm:

+Xửlý dữ liệu bị thiếu hoặc mất: Các giá trị bị thiếu hoặc mất sẽ được thay thế bằng các giá trị thích hợp hơn hoặc xóa những dữ liệu sai miền giá trị và giải quyết sự không nhất quán.

+Khử sự trùng lắp dữ liệu: Loại bỏ những dữ liệu bịtrùng.

+Giảm nhiễu dữ liệu: Các dữ liệu bị nhiễu sẽ được điều chỉnh hoặc loại ra khỏi cơ sở dữ liệu.

+Rời rạc hóa dữ liệu: Các dữ liệu số sẽ được rời rạc hóa ra dạng phù hợp cho khai phá dữ liệu.

+Giảm chiều: Loại bớt các thuộc tính chứa ít thơng tin để tiết kiệm thời gian và tài nguyên của máy tính.

2.6.3. Biến đổi dữ liệu

Biến đổi dữ liệu, chọn lựa mộtsố phươngpháp. Phân loại (Classification), hồi quy (Regression), phân nhóm (Clustering), quy nạp, tổng hợp kết quả(Summarization).

3.6.4. Khai phá dữ liệu

Khai phá dữ liệu, hay nói cách khác là trích chọn, chiết xuất ra các mẫu hay các mơ hình tiềm ẩn dưới các dữ liệu có ý nghĩa, hiểu được. Giai đoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích khai phá dữ liệu, dùng phương pháp khai phá nào là thíchhợp? Trong mỗi kỹ thuật khai phá có thể có nhiều giải thuật khai phá, việc chọn thuật toán nào để có hiệu quả cao phụ thuộc vào rất nhiều yếu tố như độ lớn của tập dữ liệu khai phá, cấu trúc của tập dữ liệu, tập dữ liệu có hay khơng có thuộc tính bị thiếu nhiều giá trị…

2.6.5. Giải thích kết quả và đánh giá mơ hình

Đây là giai đoạn biến đổi từ những luật rút ra được (của giai đoạn trước) từ tập huấn luyện sang dạng phù hợp với nghiệp vụ của bàitoán đang nghiêncứu.Đồng thời cũng sẽ là giai đoạn đánh giá của các chuyên gia tư vấn dựa trên tập dữ liệu thử. Dựa vào nhận xét và hỗ trợ của các chuyên gia khi đó sẽ điều chỉnh kịp thời các mơ hình của các giai đoạn trước. Các mơ hình đạt u cầu với các chun gia sẽ được sử dụng.

Đây là giai đoạn cuối cùng của quá trình phát hiện tri thức, tri thức khai phá được có thể được sử dụng trực tiếp hoặc được tích hợp vào một hệ thống phần mềm để thuận tiện cho người sử dụng cuối. Các mơ hình đạt ucầu sẽ được xây dựng thành chương trình ứng dụng thực tế nhằm hỗ trợ đưa ra quyết định theo yêu cầu của người dùng.

2.7. Khai phá dữ liệu trong giáo dục

Khai phá dữ liệu trong giáo dục là các q trình thiết kế để phân tích các dữ liệu từ môi trường giáo dục nhằm giải đáp các câu hỏi trong giáo dục, làm sáng tỏ tiến trình học tập từ đó hỗ trợ cho các nhà quản lý giáo dục trong việc ra quyết định để nâng cao hiệu suất giảng dạy và học tập. Những dữ liệu giáo dục bao gồm nguồn dữ liệu đến từ các hệ thống quản lý q trình học tập, mơi trường học tập tương tác, hệ thống dạy kèm thơng minh, các trị chơi giáo dục…

Khai phá dữ liệu trong giáo dục tuy là một ngành mới nổi trong những năm gần đây nhưng nó thu hút được sự quan tâm của đông đảo cộng đồng khoa học. Năm 2005, hội thảo đầu tiên mang tên "Educational Data Mining" (EDM) đã được tổ chức tại Pittsburgh cùng với Hội nghị AAAI (Association for the Advancement of Artificial Intelligence). Sau đó, hội nghị quốc tế về khai phá dữ liệu giáo dục lần đầu tiên được tổ chức tại Canada trong hai ngày 20 và 21 tháng 6 năm 2008 với mục đích tập trung các nhà nghiên cứu từ nhiều lĩnh vực khác nhau như khoa học máy tính, thống kê, giáo dục, tâm lý học… để cùng nhau phân tích tập dữ liệu lớn từ giáo dục tìm ra lời giải đáp cho những câu hỏi quan trọng trong giáo dục. Kể từ năm 2008, Hội nghị quốc về khai phá dữ liệu giáo dục (Hội nghị quốc tế EDM) được tổ chức đều đặn hàng năm tại các đất nước khác nhau trên thế giới. Hội nghị quốc tế EDM lần thứ 7 được tổ chức tại Anh diễn ra trong 3 ngày từ ngày mùng 4 đến ngày mùng 7 tháng 7 năm 2014 với chủ đề “Big Data - Big Ben - Education Data Mining for Big Impact in Learning and Teaching”. Gần đây nhất, Hội nghị quốc tế EDM lần thứ 8 được tổ chức cùng với hội nghị AIED (International Conference on Artificial Intelligence in Education) tại Tây Ban Nha [3].

Một phần của tài liệu 28035_1712202001915713LUNVN_Minh_IN (Trang 36 - 38)

Tải bản đầy đủ (PDF)

(74 trang)