Đặc tả chi tiết các thành phần

Một phần của tài liệu xây dựng hệ trợ giúp ra quyết định trong công tác tuyển sinh đại học hệ từ xa tại viện đại học mở hà nội (Trang 81 - 83)

7. Bố cục luận văn

3.1.3. Đặc tả chi tiết các thành phần

Dữ liệu đầu vào (Input)

Đầu vào của hệ thống là các tệp dữ liệu về công tác tác tuyển sinh được lưu trữ dưới dạng file Excel (*.xls).

Tệp dữ liệu huấn luyện

Đây là tệp chứa tập dữ liệu huấn luyện. Trong tệp này, mỗi dòng ứng với một ví dụ, được mô tả như sau:

Hình 3.2. Cấu trúc tệp dữ liệu huấn luyện

Tệp dữ liệu kiểm thử

Đây chính là tập dữ liệu kiểm tra, có cấu trúc giống tệp dữ liệu huấn luyện. Mục đích dùng để đánh giá hiệu suất của cây quyết định được sinh ra bởi tập huấn luyện.

Hình 3.3. Cấu trúc tệp dữ liệu kiểm thử

Tiền xử lý dữ liệu (Data Pre-processing Layer - DPL)

Sau khi người dùng chọn các tệp dữ liệu excel cần xử lý, DPL sẽ tiến hành phân tích và lưu dữ liệu vào bộ nhớ tạm dataset, gồm 3 tệp như sau:

Tệp 1: Chứa định nghĩa về tên các thuộc tính và kiểu giá trị của nó. Kiểu giá trị ở đây có thể là một danh sách rời rạc hữu hạn các giá trị hoặc giá trị liên tục. Dữ liệu của tệp này được lấy từ tệp gốc của file dữ liệu huấn luyện.

Tệp 2: Đây là tệp dữ liệu huấn luyện, nhập/xuất theo kiểu ma trận. Mỗi hàng tương ứng với một ví dụ.

Tệp 3: Đây là tệp kiểm thử, cấu trúc hoàn toàn giống với tệp dữ liệu huấn luyện.

Hình 3.4. Mô tả quá trình tiền xử lý dữ liệu Phân tích dữ liệu (Data Analysing Layer - DAL)

DAL là thành phần quan trọng nhất trong hệ thống. Trong lớp này, giải thuật C4.5 được cài đặt có nhiệm vụ phân tích các tệp dữ liệu đầu vào, thực hiện các bước lựa chọn thuộc tính và xây dựng cây quyết định đánh giá rủi ro đồng thời rút ra một tập các luật để kiểm tra lại tập dữ liệu kiểm thử.

Các giá trị của thuộc tính đích Tên các thuộc tính và các giá trị của các thuộc tính độc lập

Dữ liệu huấn luyện

Dữ liệu kiểm thử

Kiểm tra, biến đổi dữ liệu

Dataset

Tệp định nghĩa về tên các thuộc tính Tệp dữ liệu huấn luyện Tệp dữ liệu kiểm thử

Quá trình phân tích dữ liệu diễn ra như sau:

Hình 3.5. Mô tả quá trình phân tích dữ liệu Dữ liệu đầu ra (Output)

Sau quá trình xử lý, hệ thống sẽ đưa ra cây quyết định và tập các luật được sinh ra từ tập dữ liệu huấn luyện, đồng thời hệ thống cũng tính toán và đưa ra tỷ lệ về độ tin cậy của tập luật này. Từ đó chúng ta có thể áp dụng để cài đặt ứng dụng và tiến kiểm thử hệ toàn bộ thệ thống.

Một phần của tài liệu xây dựng hệ trợ giúp ra quyết định trong công tác tuyển sinh đại học hệ từ xa tại viện đại học mở hà nội (Trang 81 - 83)

Tải bản đầy đủ (PDF)

(114 trang)