MƠ HÌNH TỔNG QUÁT HỆ THỐNG

Một phần của tài liệu Luận văn thạc sĩ Xây dựng ứng dụng phát hiện nội dung giống nhau giữa các tài liệu (Trang 37)

6. Bố cục luận văn

2.4. MƠ HÌNH TỔNG QUÁT HỆ THỐNG

Các bƣớc Tiến trình

5

Kiểm tra và hiển thị kết quả trùng khớp

4

Xây dựng hệ thống kiểm tra nội dung

giống nhau 3 Xây dựng mơ hình đặc trƣng 2 Tiền xử lý các tài liệu để đƣa vào mơ hình đặc trƣng

1

Thu thập tài liệu từ các khĩa luận tốt nghiệp của sinh viên

ngành Cơng nghệ thơng tin

Hình 2.1. Mơ hình tổng quát hệ thống

Kiến trúc tổng thể của hệ thống bao gồm những thành phần sau: Tập các tài liệu đã đƣợc

chuẩn hĩa (tiền xử lý) Mơ hình đặc trƣng

Hệ thống kiểm tra nội dung giống nhau

- Bộ sưu tập tài liệu: Sƣu tập các nguồn tài liệu từ các khĩa luận tốt nghiệp của sinh viên ngành Cơng nghệ thơng tin, Khoa Kỹ thuật – Cơng nghệ, Trƣờng Đại học Quảng Bình.

- Tiền x l : Là hoạt động nhằm chuẩn hĩa dữ liệu đầu vào theo quy định đầu ra phù hợp với CSDL yêu cầu. Những hoạt động này cĩ thể: chuyển đổi định dạng phơng chữ, loại bỏ các thành phần khơng cần thiết (hình ảnh, biểu đồ, bảng biểu,...), chuyển đổi cấu trúc, kiểm tra tính đúng đắn của dữ liệu,… Ở bƣớc này trong đề tài thì việc xử lý bằng phƣơng pháp thủ cơng, chuẩn hĩa dữ liệu trƣớc khi đƣa vào kho. Việc chuẩn hĩa dữ liệu là việc chuyển đổi định dạng dữ liệu thành định dạng tƣơng thích với mục đích của hệ thống.

- Xây dựng mơ hình đặc trưng (với đơn vị là câu): Sử dụng cơng cụ tách câu vnSentDetector để tách câu từ tập dữ liệu đầu vào (tập các KLTN) và thống kê tập các câu trùng nhau.

- Xây dựng hệ thống kiểm tra nội dung giống nhau: Xây dựng ứng dụng nhằm phát hiện nội dung giống nhau giữa tài liệu cần kiểm tra và tập tài liệu đã đƣợc chuẩn hĩa trong mơ hình đặc trƣng.

- Kiểm tra và hiển thị kết quả trùng khớp: Là thành phần sau cùng của hệ thống. Nĩ giúp cho ngƣời dùng kiểm tra xem tài liệu của mình cĩ trùng nội dung với những tài liệu khác trong CSDL hay ko từ đĩ cĩ những điều chỉnh hợp lý phù hợp với mục đích sử dụng.

Một phần của tài liệu Luận văn thạc sĩ Xây dựng ứng dụng phát hiện nội dung giống nhau giữa các tài liệu (Trang 37)

Tải bản đầy đủ (PDF)

(81 trang)