GIỚI THIỆU ĐỀ TÀI NGHIÊN CỨU

Một phần của tài liệu ứng dụng vào việc xây dựng phương pháp trả lời các truy vấn tiếng việt cho hệ thống tìm kiếm thư viện phim (Trang 25 - 28)

Tên đề tài: PHƯƠNG PHÁP TRẢ LỜI CÁC TRUY VẤN TIẾNG VIỆT CHO HỆ

THỐNG TÌM KIẾM THƯ VIỆN PHIM

1.1. Mục tiêu đề tài

Đề tài nhằm mục tiêu nghiên cứu phương pháp trả lời các truy vấn tiếng Việt

cho hệ thống tìm kiếm thư viện phim. Phương pháp trả lời các truy vấn tiếng Việt

được chúng tôi thiết lập trên cơ sở xây dựng các qui tắc cú pháp được định nghĩa theo DCG (Definite Clause Grammar) để phân tích cấu trúc cú pháp của các câu

hỏi tiếng Việt, từ đó xác định những thông tin mà các câu hỏi này cần truy vấn để tạo các câu trả lời dựa trên cấu trúc cú pháp của những câu hỏi có liên quan.

1.2. Phạm vi nghiên cứu

Để thực hiện mục tiêu nghiên cứu của đề tài, chúng tôi giới hạn phạm vi

nghiên cứu trong những nội dung sau:

- Các dạng câu truy vấn tiếng Việt: có cấu trúc câu đơn, hỏi trực tiếp, thuộc 3 dạng sau:

o Dạng câu hỏi đúng/sai

o Dạng câu hỏi thông tin

o Dạng câu hỏi yêu cầu liệt kê thông tin đối tượng

- Lĩnh vực ứng dụng: các thông tin về phim chẳng hạn như: tên phim, đạo

Nguyễn Khắc Mẫn _ Ngô Ngọc Thơ 23

1.3. Nội dung nghiên cứu

Nội dung nghiên cứu đề tài tập trung chủ yếu vào việc làm thế nào để phân tích, xử lý một câu truy vấn bằng tiếng Việt dưới dạng ngôn ngữ tự nhiên, cụ thể bao gồm các nội dung sau:

- Cách lấy thông tin:

o Nghiên cứu việc rút trích thơng tin phim trên các website.

o Chuyển đổi thơng tin đã rút trích được thành dạng Ontology.

- Cách biểu diễn thông tin phim trên máy tính:

o Sử dụng Ontology để lưu trữ các thông tin về phim.

o Các thao tác với Ontology: tạo mới một ontology, câp nhật, truy vấn.

- Cách phân tích, xử lý câu truy vấn bằng ngôn ngữ tự nhiên (tiếng Việt):

o Nghiên cứu ngữ pháp DCG để phân tích câu truy vấn.

o Nghiên cứu cách xử lý câu truy vấn đã được phân tích bằng DCG, sau đó phát sinh câu truy vấn SPARQL từ cây ngữ pháp đã được DCG phân tích để truy vấn Ontology.

- Cách phát sinh câu trả lời dựa vào kết quả truy vấn trên Ontology, và câu truy vấn của người sử dụng.

1.4. Những đóng góp mới

Từ những nghiên cứu trên nhóm đã đưa ra một giải pháp mới cho mơ hình tìm kiếm đó là tìm kiếm dựa trên ngữ nghĩa của câu, đều cần làm ở đây là làm sao cho máy tính có khả năng hiểu được ý nghĩa của câu truy vấn từ đó thực hiện tìm kiếm các thơng tin phù hợp nhất với câu truy vấn.

- Vê mặt thực tiễn: cung cấp search engine gần gũi, thân thiện với người sử dụng hơn. Người sử dụng nhập vào câu truy vấn và nhận được đúng cái mình muốn, khơng như trước kia phải tốn thời gian cho việc sàng lọc thơng tin tìm kiếm được.

Nguyễn Khắc Mẫn _ Ngô Ngọc Thơ 24 - Về mặt nghiên cứu khoa học: đưa ra mơ hình xử lý cho các câu truy vấn tiếng Việt dưới dạng ngôn ngữ tự nhiên. Mơ hình đã giải quyết được bài

tốn là làm thế nào máy tính có thể hiểu một câu truy vấn dưới dạng ngôn ngữ tự nhiên.

1.5. Mơ hình kiến trúc hệ thống đã xây dựng được

Hình 3.1 Mơ hình kiến trúc hệ thống

Hinh 3.1 là mơ hình xử lý câu truy vấn tiếng việt cho thư viện phim mà nhóm

đã xây dựng được trong quá trình nghiên cứu, mơ hình trên cho phép người dùng

(user) nhập vào bất kỳ một câu truy vấn nào bằng tiếng việt dưới dạng ngơn ngữ tự

nhiên để tìm kiếm thơng tin phim cần thiết.

Ví dụ:

Nguyễn Khắc Mẫn _ Ngơ Ngọc Thơ 25

Trả lời:“(Có tất cả 4 kết quả) tào mẫn lợi, mã tuấn vỹ, dương di, tạ thiên hoa: là diễn viên của phim chịm sao tình u”.

Sau đây chúng ta sẽ đi sâu vào từng thành phần cụ thể để thấy rõ việc áp dụng

các nguyên lý sáng tạo khoa học trong đó.

Một phần của tài liệu ứng dụng vào việc xây dựng phương pháp trả lời các truy vấn tiếng việt cho hệ thống tìm kiếm thư viện phim (Trang 25 - 28)

Tải bản đầy đủ (PDF)

(37 trang)