Trong khố luận này, chúng tơi thực nghiệm với tập dữ liệu liên quan tới dữ liệu miền du lịch, sử dụng máy tìm kiếm Google và tiến hành trả lời với tập câu hỏi đơn giản liên quan tới miền du lịch.
• Tập các mối quan hệ và dữ liệu seed
Qua quá trình khảo sát dữ liệu thực tế, để tạo dữ liệu phục vụ cho hệ thống hỏi đáp, chúng tơi liệt kê những mối quan hệ được quan tâm nhiều nhất trong ngành du lịch. Hiện nay chúng tơi cĩ 85 mối quan hệ trong ngành du lịch, ví dụ: lễ hội – địa điểm, bãi biển – địa điểm, đặc sản – địa điểm, núi – chiều cao,… Với 85 mối quan hệ đã thu thập được, chúng tơi tiến hành thực nghiệm trên 10 mối quan hệ.
• Tập dữ liệu
Dữ liệu du lịch phục vụ cho hệ thống được crawler về từ các nguồn dữ liệu khác nhau, như là. Nguồn dữ liệu cĩ thể được sử dụng như các website về du lịch, như: wikipedia [35], dulichvietnam.com.vn [31], vietbao.vn [34], travelatvietnam.com [33], e- cadao.com [32], … vì chúng cĩ khả năng trả lời các câu hỏi liên quan tới sự kiện, định nghĩa khái niệm về địa danh, thơng tin địa điểm, đặc điểm của khu du lịch,….
36
Bảng 5. Ví dụ tập các mối quan hệ và các thành phần của seed
Mối quan hệ Thành phần thứ nhất của seed
Thành phần thứ hai của seed
Lễ hội – Địa điểm Hội Chùa Keo Thái Bình
Lễ hội – Địa điểm Hội Lim Bắc Ninh
Lễ hội – Địa điểm Hội Chùa Hương Hà Tây
Bãi biển – Địa điểm Quất Lâm Nam Định
Bãi biển – Địa điểm Sầm Sơn Thanh Hĩa
Bãi biển – Địa điểm Đồ Sơn Hải Phịng
…. …. …..
• Xây dựng tập thực thể ban đầu cho việc sinh tự động thực thể
Tương ứng với các mối quan hệ đã được xác định trước, xác định bằng tay nhãn thực thể cho các thành phần trong seed. Với mỗi nhãn, tiến hành tìm các ví dụ cho các thực thể tương ứng.
Bảng 6. Một số thực thể được gán nhãn trước bằng tay
Nhãn thực thể Một số thực thể được gán nhãn trước
Lễ hội Lễ hội chùa Hương
Hội Lim Hội đền Hùng Chùa Chùa Một Cột Chùa Thầy Chùa Tỉnh, thành phố Hà Nội Nam Định Hải Phịng …. ….
37