Việc tách từ

Một phần của tài liệu Luận văn: Nghiên cứu và đánh giá các hệ truy xuất thông tin ppt (Trang 42 - 44)

Việc xác định từ trong tiếng Việt là rất khó và tốn nhiều chi phí. Do đó, cách đơn giản nhất là sử dụng từ điển được lập sẵn. Tách tài liệu thành các từ, loại bỏ các từ láy, từ nối, từ đệm, các từ không quan trọng trong tài liệu. Một câu gồm nhiều từ ghép lại. Tuy nhiên, trong một câu có thể có nhiều cách phân tích từ khác nhau.

Ví dụ : xét câu “Tốc độ truyền thông tin sẽ tăng cao” có thể phân tích từ theo các cách sau:

Tốc độ / truyền/ thông tin / sẽ / tăng cao. Tốc độ / truyền thông / tin / sẽ / tăng cao.

Hiện đã có nhiều giải pháp cho vấn đề này với kết quả thu được rất cao. Tuy nhiên thời gian, chi phí tính toán, xử lý lớn không thích hợp cho việc lập chỉ mục cho hệ thống tìm kiếm thông tin vì số lượng tài liệu phải xử lý là rất lớn.

Cách giải quyết: lập chỉ mục cho các từ có thể có trong một tài liệu. Ví dụ câu trên ta nên lập xem xét các từ : tốc độ, truyền, truyền thông, thông tin, tin, sẽ, tăng cao.

Sau đó sẽ dùng ngưỡng chặn để loại bỏ các từ, giả sử từ “truyền thông” không phải là một từ xuất hiện thật sự trong tài liệu (chỉ có được do sự

kết hợp ngẫu nhiên từ “truyền” và “thông tin”) thì xác suất xuất hiện của từ

loại bỏ. Một từ trong tiếng Việt là sự kết hợp của hai hay nhiều tiếng. Phương pháp xác định một từ được ghép lại thông qua nhiều tiếng dựa trên việc xem xét độ gắn kết (cohesion) giữa chúng:

Trong đó:

size_factor: kích thước tập chỉ mục pair_freqij : tần số xuất hiện từ

ni, nj : tần số xuất hiện tiếng i, j

Hai tiếng có khả năng tạo thành một từ cao khi chúng thường xuất hiện

chung với nhau, nghĩa là cohension của chúng cao.

Phương pháp này không tách từ chính xác hoàn toàn nhưng có thể chấp

nhận trong hệ thống tìm kiếm thông tin vì trong quá trình lập chỉ mục chỉ cần xác định đúng các từ có trọng lượng cao, trong trường hợp việc tách từ là sai thì từ sai chỉ được lập chỉ mục khi nó có trọng lượng cao, việc lập chỉ mục một từ sai sẽ làm tăng chi phí lưu trữ nhưng không ảnh hưởng lớn tính chính xác kết quả tìm kiếm vì dù sao từ này cũng có trọng lượng lớn.

Còn trong trường hợp một từ ghép được tách thành nhiều từ đơn ví dụ

từ “thông tin” khi được lập chỉ mục sẽ luôn có 3 từ “thông”, “tin”, “thông tin”. Điều này gây ảnh hưởng đến tính chính xác của việc lập chỉ mục vì thực sự các từ “thông”, “tin” không cần thiết lập chỉ mục. Ta giải quyết vần đề này bằng cách nếu từ “thông tin” được lập chỉ mục thì khi đó số lần xuất hiện của các từ “thông” và “tin” sẽđược tính toán lại bằng cách trừđi các trường hợp đã xuất hiện trong từ “thông tin”để tính toán trọng lượng cho các từ đơn. Nếu từ đơn “tin” chỉ luôn xuất hiện trong từ “thông tin” thì số lần xuất hiện

của từ “tin” và “thông tin” là bằng nhau nên khi lập chỉ mục cho từ “thông tin” thì số lần xuất hiện riêng của từ đơn “tin” sẽ bằng 0 nên không được lập chỉ mục.

Một phần của tài liệu Luận văn: Nghiên cứu và đánh giá các hệ truy xuất thông tin ppt (Trang 42 - 44)