C ƢƠN 3 PHÁT TRIỂN HỆ THỐNG TRUY VẤN DỮ LIỆU TÙY
3.2.1. Cấu trúc câu truy vấn bằng NNTN và kỹ thuật xử lý
Câu truy vấn là một câu tự nhiên bình thƣờng có chứa các từ khóa trong ngoặc kép. Các từ khóa trong ngoặc kép là mô tả bằng NNTN cho: tên bảng, tên thuộc tính, giá trị của thuộc tính trong CSDL.
Ví dụ:
append "Last Name" worth "Contact" put "Last Name"
Các bƣớc xử lý câu truy vấn bằng NNTN có cấu trúc:
- Tách các từ và từ khóa trong câu truy vấn bằng NNTN có cấu trúc: Tách từ và từ khóa là một quá trình xử lý xác định ranh giới của các từ trong câu văn, hay có thể hiểu là xác định các từ đơn, từ khóa có trong câu. Đây là bƣớc quan trọng đối với bất kỳ hệ thống xử lý NNTN nào. Ngôn ngữ tiếng Anh thuộc loại hình hòa kết2,
ranh giới của từ chỉ đơn giản là những khoảng trắng. Vì vậy kỹ thuật tách từ đƣợc dùng trông quá trình này chỉ đơn giản là cắt các từ dựa trên các khoảng trắng chứa trong câu. Việc tách các từ khóa dựa vào dấu ngoặc kép.
- Xác định từ loại của từ (từ loại của từ nhƣ Hình 3.2): dựa vào gán nhãn từ loại trong NLP.
2
Hình . Tên đầy đủ và ký hiệu viết tắt của từ loại trong Tiếng Anh [14]
Quy trình chung gắn thẻ bao gồm tách từ các văn bản, xác định các thẻ có thể, và giải quyết các thẻ nhập nhằng. Các thuật toán đƣợc sử dụng để thực hiện gán nhãn từ loại (POS tagging) thƣờng rơi vào hai lớp:
- Gán nhãn dựa trên luật (rule-based): gắn thẻ dựa trên luật sử dụng một tập
hợp các quy tắc và một từ điển của từ và thẻ có thể. Các quy tắc đƣợc sử dụng khi một từ có nhiều thẻ. Luật thƣờng sử dụng từ phía trƣớc và/ hoặc phía sau để chọn thẻ.
- Bộ gán nhãn xác suất (stochastic taggers): bộ gán nhãn xác suất sử dụng
hoặc dựa trên mô hình Markov hoặc dấu hiệu cơ bản, trong đó sử dụng cây quyết định hoặc dữ liệu ngẫu nhiên cực đại. Mô hình Markov là những máy trạng thái hữu hạn, mà mỗi trạng thái đều có hai xác suất phân phối. Mục tiêu của nó là tìm ra trình tự tối ƣu thẻ cho một câu. Mô hình Markov ẩn (HMM) cũng đƣợc sử dụng. Trong
mô hình này, các quá trình chuyển đổi trạng thái không thể nhìn thấy.