Bài toán trích chọn thông tin du lịch trên một số trang thông tin điện tử

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng việt​ (Trang 30)

Trong chƣơng này, luận văn sẽ tập trung làm rõ bài toán trích chọn thông tin trên một số trang thông tin điện tử tiếng Việt, phân tích ƣu nhƣợc điểm của các phƣơng pháp đã đƣợc trình bày ở chƣơng 2 và mục đích khi xây dựng mô hình là tạo ra một tập dữ liệu mẫu đầy đủ, không mất thời gian trong việc tiền xử lý dữ liệu nên trong chƣơng này tác giả lựa chọn giải pháp trích chọn thông tin dựa trên phƣơng pháp kết hợp giữa phân tích mã HTML và luật để xây dựng mô hình chi tiết cho bài toán trích chọn thông tin trên một số trang thông tin điện tử tiếng Việt.

3.1. Bài toán trích chọn thông tin du lịch trên một số trang thông tin điện tử tiếng Việt điện tử tiếng Việt

3.1. Bài toán trích chọn thông tin du lịch trên một số trang thông tin điện tử tiếng Việt điện tử tiếng Việt về một tour du lịch sẽ bao gồm hai thành phần là tên tour và thông tin chi tiết về tour, trong thông tin chi tiết về tour thì tùy thuộc vào từng website mà ta có số lƣợng thuộc tính khác nhau, thông thƣờng thì trong phần này sẽ có ba thuộc tính cơ bản là mã tour, thời gian và giá tour. Ngoài ra còn có thể có thêm các thuộc tính khác nhƣ: Phƣơng tiện, lịch trình, điểm khởi hành, ngày khởi hành, điểm kết thúc. Nhƣ vậy, ta thấy rằng các thông tin cơ bản về một tour du lịch sẽ bao gồm hai thành phần là tên tour, thông tin chi tiết về tour.

Mục tiêu của bài toán trích chọn thông tin du lịch trong văn bản tiếng Việt là trích ra các thông tin cơ bản về các tour du lịch từ các văn bản tiếng Việt không có cấu trúc.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng việt​ (Trang 30)

Tải bản đầy đủ (PDF)

(69 trang)