Các thuộc tính sử dụng kết hợp giữa biểu thức chính quy và từ điển

Một phần của tài liệu (LUẬN văn THẠC sĩ) nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh 04 (Trang 53 - 54)

Danh sách các thuộc tính khi kết hợp từ điển với biểu thức chính quy

street number (reg. expression) + street name (dict.) address word (dict.) + street name (dict.)

street number (reg. expression) + address word (dict.) + street name (dict.)

Ví dụ: trong câu “tìm đường tới số 144 đường xuân thủy” với câu này tôi sẽ sử dụng kết hợp biểu thức chính quy và từ điển như sau. Giả sử tại vị trí 0 là từ “144” trong câu làm trung tâm, sử dụng cửa sổ có kích thước bằng 7 ta có các mẫu ngữ cảnh như sau:

Bảng 3.12: Ví dụ các mẫu ngữ cảnh khi kết hợp sử dụng cả biểu thức chính quy và từ điển

Mẫu ngữ cảnh khi sử dụng kết hợp cả biểu thức chính quy và từ điển

4w:-3:-2:-1:0:đường:tới:số:144 3w:-2:-1:0:tới:số:144 2w:-1:0:số:144 1w:0:144 2w:0:1:144:đường 3w:0:1:2:144:đường:xuân 4w:0:1:2:3:144:đƣờng:xuân:thủy:num-strname

Bằng trực quan ta dễ thấy cụm từ “xuân thủy” sẽ là một tên đường hợp lệ sau khi tìm kiếm trong từ điển tên đường phố. Tại đây tôi sẽ kiểm tra xem vị trí ngay phía trước cụm từ xuân thủy có từ nào không, nếu có thì tôi sẽ kiểm tra hai trường hợp:

Nếu từ đứng trước cụm từ xuân thủy là một biểu thức số hợp lệ (theo biểu thức chính quy số của tên đường) thì ngay tại đây tôi sẽ có thêm một thuộc tính mới là num- strname được thêm vào các mẫu ngữ cảnh.

Nếu từ đứng trước cụm từ xuân thủy là một từ mà không phải kiểu số thì tôi sẽ kiểm tra thêm một bước nữa bằng cách tìm kiếm từ đó xem có thuộc vào từ điển

addword-streetname không. Nếu kết quả trả về là có (ở đây là từ đường) thì xác định được đây là một từ thuộc vào từ điển hợp lệ của tên đường. Để đảm bảo trường hợp có thể trước từ đường có tồn tại số của tên đường không. Tôi sẽ xét thêm một từ trước đó xem nó có phải là số của tên đường không.

Trong trường hợp này, ta thấy ví dụ trên đã lấy đúng ví dụ cho việc xác định số của tên đường mà từ đứng trước cụm từ xuân thủy là từ “đường” thuộc trong từ điển

addword-streetname. Trước từ đường là từ “144” cũng hợp lệ. Do vậy theo ví dụ ở bảng trên tại vị trí 0:1:2:3 ta xác định được một thuộc tính quan trọng là số của tên đường.

Trong luận văn của mình tôi sử dụng một số lượng biểu thức chính quy cho các kiểu dữ liệu quan trọng. Dưới đây tôi liệt kê các biểu thức chính quy mà tôi đã sử dụng giúp bắt được được dữ liệu tốt và nhanh hơn trong quá trình huấn luyện mô hình:

Một phần của tài liệu (LUẬN văn THẠC sĩ) nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh 04 (Trang 53 - 54)

Tải bản đầy đủ (PDF)

(74 trang)