Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
152,54 KB
Nội dung
Báo cáo GR2 : Xử lí ngôn ngữ tự nhiên Đề tài : Sử dụng ngôn ngữ tự nhiên để truy vấn sở liệu Giáo viên hướng dẫn : PGS.TS Lê Thanh Hương Sinh viên : Nguyễn Xuân Thiện – 20092579 – IS K54 Việt Nhật Contents I Tổng quan Bài toán Đầu vào câu tiếng Việt dạng ngôn ngữ tự nhiên Cần xử lí phân tích ý nghĩa câu văn để phục vụ cho việc tìm kiếm từ sở liệu có liên quan Nội dung: - Xây dựng hệ thống cho phép người dùng nhập vào câu hỏi, câu tìm kiếm dạng ngôn ngữ tự nhiên đưa kết trả liên quan Ví dụ : Người dùng nhập : Tôi muốn ăn hải sản Hà Nội Hệ thống phân tích tìm trả địa điểm nhà hàng hải sản Hà Nội Các bước thực - - Phân tích câu hỏi : bước phân tích ý nghĩa câu văn nhập vào, từ đưa câu truy vấn phục vụ cho trình tìm kiếm Chính rút thông tin : Chích rút thông tin có liên quan từ kho liệu internet Trả : Trả thông tin truy vấn từ kết hai bước Sơ đồ trình thực Phân tích câu hỏi Chích rút thông tin Kết trả II III Nội dung nghiên cứu GR2 - Nghiên cứu pha phân tích câu hỏi, cụ thể gồm có tách từ gán nhãn từ loại cho câu văn tiếng Việt - Chạy chương trình demo tách từ gán nhãn từ loại Đánh giá kết Pha phân tích câu hỏi Bài toán phân tích câu hỏi: Phân tích câu hỏi nhận đầu vào câu hỏi dạng ngôn ngữ tự nhiên người dùng, đưa câu truy vấn cho bước trích chọn tài liệu liên quan thông tin cần thiết cho bước trích rút câu trả lời Gán nhãn từ loại Để phân tích ngữ nghĩa câu văn bước ta tiến hành gán nhãn từ loại cho từ xuất câu 1.1 Bài toán gán nhãn từ loại Gán nhãn từ loại việc xác định chức ngữ pháp từ câu trình gán từ đoạn văn với đánh dấu từ loại cấu trúc ngữ pháp Đây bước trước phân tích cú pháp hay vấn đề xử lý ngôn ngữ phức tạp khác Thông thường, từ có nhiều chức ngữ pháp, ví dụ: câu “con ngựa đá đá ngựa đá”, từ “đá” từ thứ thứ ba giữ chức ngữ pháp danh từ, từ thứ hai lại động từ câu 1.2 Tổng quan cách tiếp cận giải toán 1.2.1 Quá trình gán nhãn từ loại Gán nhãn từ loại trình gồm bước xử lý: Bước : Tách từ : tách câu nhập vào thành chuỗi từ có nghĩa tiếng Việt Bước 2: Gán nhãn tiền nhiệm: Gán cho từ tất nhãn nhận Bước 3: Quyết định kết gán nhãn : Chọn nhãn hợp lí cho từ 1.2.2 Dữ liệu Để thực gán nhãn từ loại ta phải có kho liệu , chúng là: - Từ điển tiếng Việt văn phạm loại bỏ nhập nhằng - Kho văn gán nhãn sẵn , kèm theo quy tắc ngữ pháp xây dựng tay - Kho văn chưa gán nhãn, kèm theo thông tin ngôn ngữ tập từ loại thông tin mô tả quan hệ từ loại hậu tố 1.2.3 Tách từ Bài toán Cho câu tiếng Việt bất kỳ, tách câu thành đơn vị từ vựng (từ), âm tiết từ điển (phát đơn vị từ vựng mới) Để giải toán đặt ra, cần sử dụng tập liệu gồm bảng âm tiết tiếng Việt từ điển từ vựng tiếng Việt Các bước giải Xây dựng ôtômát âm tiết đoán nhận tất âm tiết tiếng Việt Xây dựng ôtômát từ vựng đoán nhận tất từ vựng tiếng Việt Dựa ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích sử dụng thuật toán tìm kiếm đồ thị để liệt kê cách phân tích Thuật toán xây dựng ôtômát âm tiết Input: Từ điển âm tiết Output: Ôtômát âm tiết Thuật toán: Đặt trạng thái khởi đầu q0 ; Vòng lặp đọc hết tệp liệu, lấy âm tiết Gọi kí tự âm tiết c0, c1, , cn-1 a p := q0 ;i := 0; b Vòng lặp ( i