TỔNG KẾT CHƢƠNG 1

Một phần của tài liệu 28012_171220200190175LUANVAN (Trang 30 - 31)

6. Bố cục của luận văn

1.4.TỔNG KẾT CHƢƠNG 1

Toàn bộ bộ nội dung của chƣơng đã trình bày những lý thuyết tổng quan về xử lý ngôn ngữ tự nhiên, khai phá dữ liệu, khai phá dữ liệu web. Qua đó thấy đƣợc trích rút thông tin là một trong những ứng dụng quan trọng của xử lý ngôn ngữ tự nhiên và khai phá dữ liệu web. Trích rút thông tin đƣợc biết đến với các tên gọi khác nhƣ trích chọn thông tin, trích xuất thông tin, tách thông tin, chiết suất thông tin. Công nghệ trích rút thông tin đƣợc dùng để tìm ra các thông tin cấu trúc, thông tin cần thiết từ một tài liệu, phân biệt với truy vấn thông tin là tìm ra các tài liệu liên quan, hoặc một phần tài liệu liên quan từ kho dữ liệu cục bộ.

CHƢƠNG 2

GIẢI PHÁP TRÍCH RÚT VÀ TỔNG HỢP THÔNG TIN ĐỂ XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH

Nội dung chƣơng này sẽ trình bày khái quát về trích rút thông tin nhƣ định nghĩa, các loại dữ liệu trong bài toán trích rút thông tin, các hƣớng tiếp cận giải quyết bài toán và phân loại hệ thống trích rút thông tin. Dựa vào cái nhìn khái quát nhất về trích rút thông tin, luận văn sẽ tiến hành phân tích, đánh giá và lựa chọn những giải pháp tối ƣu nhất. Đồng thời luận văn sẽ đƣa ra các giải pháp về môi trƣờng phát triển hệ thống, cũng nhƣ các giải pháp về trích rút thông tin ở mức độ ý tƣởng và trừu tƣợng hóa để tiến hành xây dựng hệ thống đọc tin nhanh.

Qua quá trình tìm hiểu, tôi biết đƣợc trang web là một trong những dạng cơ bản của dữ liệu bán cấu trúc, vì vậy các thuật toán liên quan đến dữ liệu bán cấu trúc cũng đƣợc áp dụng cho bài toán trích rút thông tin từ trang web. Trong phần giải pháp trích rút thông tin để xây dựng hệ thống, luận văn đề cập đến các giải thuật trong bài toán trích rút thông tin cho dữ liệu bán cấu trúc là phƣơng pháp phân tích mã HTML dựa trên cấu trúc cây DOM, sử dụng biểu thức chính quy và thuật toán trích rút thân văn bản Body Text Extraction. Đồng thời luận văn cũng phân tích một số ƣu nhƣợc điểm của hai phƣơng pháp này để lựa chọn ra phƣơng pháp tối ƣu nhất cho việc xây dựng ứng dụng.

Một phần của tài liệu 28012_171220200190175LUANVAN (Trang 30 - 31)