Các mẫu ngữ cảnh khi sử dụng biểu thức chính quy

Một phần của tài liệu (LUẬN văn THẠC sĩ) nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh 04 (Trang 50 - 51)

Các thuộc tính cho

biểu thức chính quy Mẫu văn bản khớp với biểu thức chính quy

is–number, is–day, 1–tokens: −2 . . . 2 → [w-2], [w-1], [w0], [w1], [w2]

is–date, is-week, 2–tokens: −2 . . . 2 → [w-2 w-1], [w-1 w0], [w0 w1], [w1

w2]

is–month, is–year, 3–tokens: −2 . . . 2 → [w-2 w-1 w0], [w-1 w0 w1], [w0 w1

w2]

is–full–date 4–tokens: −3 . . . 3 → [w-3 w-2 w-1 w0] . . . [w0 w1 w2 w3] is–phone–number,

is–email, is–url, 6–tokens: −5 . . . 5 → [w-5 w-4 w-3 w-2 w-1 w0] . . . [w0 w1

w2 w3 w4 w5]

7–tokens: −6 . . . 6 → [w-6 w-5 w-4 w-3 w-2 w-1 w0] . . . [w0

w1 w2 w3 w4 w5 w6]

Với các mẫu ngữ cảnh sử dụng cho biểu thức chính quy sử dụng kích thước cửa sổ từ 5 đến 13 để trượt trong khung cửa sổ. Trong đó với kích thước cửa sổ bằng 13 thường được dùng để quét cho kiểu dữ liệu url, bởi trên thực tế có rất nhiều địa chỉ url của website rất dài.

Ngoài ra tôi cũng sử dụng một số các từ điển tìm kiếm cho các thuộc tính như: - url: gồm các url phổ biến ở Việt Nam như: dân trí chấm com chấm vn

(dantri.com.vn), vnexpress.net và 24 giờ chấm com (24h.com.vn),…

- part–of–url: một danh sách các tên miền, và tên miền con như .vn, .edu.vn, .com.vn,…

- address-word: một danh sách các tên về địa chỉ như: đường, ngõ, hẻm, ngã ba, ngã tư, ngã năm,…

- time–word: một danh các tên về biểu thức thời gian như: nửa đêm, rạng sáng, rưỡi, kém,…

- day–word: một danh sách các tên về ngày như: hôm qua, ngày tới, tuần tới, ngày hôm qua….

- period–word: một danh sách tên về khoảng thời gian và tân suất thời gian như: hàng ngày, hàng tuần, thứ tư hàng tuần,…

- location–word: một danh sách các từ, cụm từ về chỉ dẫn đường đi như: từ, đến, định vị...

- app–name: một danh sách về các tên ứng dụng phổ biến trên các kho ứng dụng dành cho điện thoại đi động thông minh như: facebook, skype, gmail, youtube,…

- street–name: một danh sách về các tên đường của Việt Nam như: võ văn tần, trần hưng đạo,…

- province–name: một danh sách tên các tỉnh, thành phố của Việt Nam như: hà nội, sài gòn, việt trì, vinh, …

- contact–word: danh sách các từ liên quan tới việc thực hiện cuộc gọi hoặc nhắn tin như tới danh bạ hoặc thuê bao nào đó: gọi cho, nhắn cho, nhắn tin tới,… - organization–word: danh sách các từ tiền tố chỉ nơi công cộng hay các trụ sở

công ty, trường học như: sân bay, trạm xe bus, ngân hàng,…

Dưới đây là danh sách các mẫu văn bản tìm kiếm trong từ điển được trình bày chi tiết ở bảng 3.8.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh 04 (Trang 50 - 51)

Tải bản đầy đủ (PDF)

(74 trang)