Tên đềtài: PHƯƠNG PHÁP TRẢ LỜI CÁC TRUY VẤN TIẾNG VIỆT CHO HỆ
THỐNG TÌM KIẾM THƯ VIỆN PHIM
1.1. Mục tiêu đề tài
Đề tài nhằm mục tiêu nghiên cứu phương pháp trả lời các truy vấn tiếng Việt cho hệ thống tìm kiếm thư viện phim. Phương pháp trả lời các truy vấn tiếng Việt
được chúng tôi thiết lập trên cơ sở xây dựng các qui tắc cú pháp được định nghĩa theo DCG (Definite Clause Grammar) để phân tích cấu trúc cú pháp của các câu hỏi tiếng Việt, từđó xác định những thông tin mà các câu hỏi này cần truy vấn để
tạo các câu trả lời dựa trên cấu trúc cú pháp của những câu hỏi có liên quan.
1.2. Phạm vi nghiên cứu
Để thực hiện mục tiêu nghiên cứu của đề tài, chúng tôi giới hạn phạm vi nghiên cứu trong những nội dung sau:
- Các dạng câu truy vấn tiếng Việt: có cấu trúc câu đơn, hỏi trực tiếp, thuộc 3 dạng sau:
o Dạng câu hỏi đúng/sai
o Dạng câu hỏi thông tin
o Dạng câu hỏi yêu cầu liệt kê thông tin đối tượng
- Lĩnh vực ứng dụng: các thông tin về phim chẳng hạn như: tên phim, đạo diễn, diễn viên …
Nguyễn Khắc Mẫn _ Ngô Ngọc Thơ 23
1.3. Nội dung nghiên cứu
Nội dung nghiên cứu đề tài tập trung chủ yếu vào việc làm thế nào để phân tích, xử lý một câu truy vấn bằng tiếng Việt dưới dạng ngôn ngữ tự nhiên, cụ thể
bao gồm các nội dung sau:
- Cách lấy thông tin:
o Nghiên cứu việc rút trích thông tin phim trên các website.
o Chuyển đổi thông tin đã rút trích được thành dạng Ontology.
- Cách biểu diễn thông tin phim trên máy tính:
o Sử dụng Ontology đểlưu trữ các thông tin về phim.
o Các thao tác với Ontology: tạo mới một ontology, câp nhật, truy vấn.
- Cách phân tích, xử lý câu truy vấn bằng ngôn ngữ tự nhiên (tiếng Việt):
o Nghiên cứu ngữ pháp DCG để phân tích câu truy vấn.
o Nghiên cứu cách xử lý câu truy vấn đã được phân tích bằng DCG,
sau đó phát sinh câu truy vấn SPARQL từ cây ngữ pháp đã được
DCG phân tích để truy vấn Ontology.
- Cách phát sinh câu trả lời dựa vào kết quả truy vấn trên Ontology, và câu truy vấn của người sử dụng.
1.4. Những đóng góp mới
Từ những nghiên cứu trên nhóm đã đưa ra một giải pháp mới cho mô hình tìm kiếm đó là tìm kiếm dựa trên ngữ nghĩa của câu, đều cần làm ở đây là làm sao cho
máy tính có khảnăng hiểu được ý nghĩa của câu truy vấn từđó thực hiện tìm kiếm các thông tin phù hợp nhất với câu truy vấn.
- Vê mặt thực tiễn: cung cấp search engine gần gũi, thân thiện với người sử
dụng hơn. Người sử dụng nhập vào câu truy vấn và nhận được đúng cái
mình muốn, không như trước kia phải tốn thời gian cho việc sàng lọc thông tin tìm kiếm được.
Nguyễn Khắc Mẫn _ Ngô Ngọc Thơ 24 - Về mặt nghiên cứu khoa học: đưa ra mô hình xử lý cho các câu truy vấn tiếng Việt dưới dạng ngôn ngữ tự nhiên. Mô hình đã giải quyết được bài toán là làm thế nào máy tính có thể hiểu một câu truy vấn dưới dạng ngôn ngữ tự nhiên.
1.5. Mô hình kiến trúc hệ thống đã xây dựng được
Hình 3.1 Mô hình kiến trúc hệ thống
Hinh 3.1 là mô hình xử lý câu truy vấn tiếng việt cho thư viện phim mà nhóm
đã xây dựng được trong quá trình nghiên cứu, mô hình trên cho phép người dùng (user) nhập vào bất kỳ một câu truy vấn nào bằng tiếng việt dưới dạng ngôn ngữ tự nhiên để tìm kiếm thông tin phim cần thiết.
Ví dụ:
Nguyễn Khắc Mẫn _ Ngô Ngọc Thơ 25
Trả lời:“(Có tất cả 4 kết quả) tào mẫn lợi, mã tuấn vỹ, dương di, tạ thiên hoa: là diễn viên của phim chòm sao tình yêu”.
Sau đây chúng ta sẽ đi sâu vào từng thành phần cụ thểđể thấy rõ việc áp dụng các nguyên lý sáng tạo khoa học trong đó.