Xây dựng modul cắt cụm từ

Một phần của tài liệu Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu (Trang 83 - 87)

6. Cấu trúc của luận vă n

2.3.5.6. Xây dựng modul cắt cụm từ

Khi áp dụng phương pháp tách từ của Lê Hồng Phương chúng tơi thấy thời gian tính tốn phụ thuộc vào độ dài của câu cần tách chứ khơng phải độ lớn của các MDFA. Trong trường hợp một câu cĩ độ dài lớn, thời gian tách câu trở nên rất lâu và ảnh

hưởng tới tồn bộ quá trình thu thập tài liệu của hệ thống. Trong khi tốc độ tách từ chỉ

phụ thuộc vào độ dài tính bằng số âm tiết ứng với cụm từ cần tách. Để tăng tốc độ tách từ, chúng tơi xây dựng modul cắt cụm từ. Modul này làm việc như sau:

Gọi n là số âm tiết tối đa định cắt. Với cụm từ bất kỳđưa vào sẽ tiến hành kiểm tra độ dài của cụm từđĩ, nếu vượt quá n âm tiết thì sẽ tiến hành phân chia thành các cụm từ cĩ độ dài nhỏ hơn n âm tiết. Ví trị cắt được xác định tạm thời ở chính giữa câu. Tuy nhiên, tại vị trí này đơi khi lại nằm giữa hai âm tiết của một từ ghép. Do từ

ghép dài nhất trong tiếng Việt gồm bốn âm tiết, dựa vào đặc điểm này, tại vị trí định cắt ta dùng một mặt nạ cĩ độ dài là 4 âm tiết để áp vào và sử dụng automata từ vựng kiểm tra xem trong 4 âm tiết đĩ cĩ tồn tại từ ghép nào hay khơng. Nếu khơng tồn tại, tiếp tục di chuyển mặt nạ tiến lên 1 đơn vị âm tiết, quá trình diễn ra liên tục cho đến khi xuất hiện từ ghép trong mặt nạ (Hình 2.36).

Ví dụ:

Hình 2.36: Minh họa cho hoạt động của modul cắt cụm từ.

Lý do phải dựa vào từ ghép để xác định vị trí cắt là vì giữa âm tiết của một từ

ghép và một từđơn khơng cĩ dấu hiệu nào để xác định.

Giới hạn tối đa cho một cụm từ đầu vào mà chúng tơi đã lựa chọn cho modul này là 30 âm tiết.

2.3.6.7. Kiến trúc tổng thể của bộ tách từ tiếng Việt

Kiến trúc của bộ tách từ (Hình 2.37), trong kiến trúc này, đầu vào sẽ là văn bản, sau bước này sẽ nhận được một danh sách các câu, cụm âm tiết (tiếng) cấu tạo lên văn

... con đường đi lên chủ nghĩa xã hội ở nước ta ... Vị trí cắt chính thức Vị trí dựđịnh cắt Mặt nạ Vị trí cắt ... S1 S2 S3 S4 S5 S6 S7 ... Mặt nạ Từ ghép

bản. Câu ở đây được hiểu là một đoạn liên tiếp các âm tiết khơng bị ngắt bởi bất kỳ

một dấu phân câu hoặc dấu phân đoạn nào cả. Trong các văn bản ta thường gặp 11 loại dấu phân câu, dấu phân đoạn là: Dấu chấm « . », dấu phẩy « , », dấu chấm phẩy « ; », dấu hai chấm « : », dấu mở ngoặc « ..(.. », dấu đĩng ngoặc « ..).. », dấu hỏi « ? », dấu chấm cảm « ! », dấu nháy đơn «..‘...’..», dấu nháy kép «..“...”..», dấu gạch ngang « - ».

Các dấu phân câu/phân đoạn khơng được xem là dấu phân câu/phân đoạn nếu thuộc vào một trong các trường hợp sau: Dấu gạch ngang « - » trong từ vay mượn (phiên âm tiếng nước ngồi); dấu chấm « . » trong địa chỉ email (ví dụ: thanhtblc@gmail.com) hay trong chữ số thập phân (ví dụ như 3.52). Ngồi ra, cũng lưu ý thêm về dấu kết thúc câu, xem đây cĩ phải là câu ngay sau một trong 3 dấu kết thúc câu tiếng Việt hay khơng, đĩ là: Dấu chấm « . », dấu hỏi « ? » và dấu chấm cảm « ! » để cĩ các thơng tin về sau (như âm tiết đầu tiên phải viết hoa,...).

Sau khi tách thành các câu, các cụm từ ta tiến hành tách chúng ra thành những

đơn vị nhỏ hơn dựa vào đặc điểm nhận dạng của chúng. Chia chúng thành 3 cụm từ

mới bao gồm: Cụm từ chứa hồn tồn các âm tiết viết chữ thường (cụm từ viết thường), cụm từ chứa hồn tồn các âm tiết viết chữ hoa (cụm từ viết hoa hồn tồn) và cụm từ chứa các âm tiết cĩ chữ cái đầu viết hoa.

Chương III

CÀI ĐẶT THỬ NGHIỆM CƠNG CỤ THU THẬP THƠNG TIN THEO LĨNH VỰC CHUYÊN SÂU VÀ BÀN LUẬN

Một phần của tài liệu Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu (Trang 83 - 87)

Tải bản đầy đủ (PDF)

(108 trang)