Tách từ

Một phần của tài liệu đồ án tốt nghiệp tìm hiểu về search engine và xây dựng ứng dụng minh hoạ cho search engine tiếng việt t (Trang 39)

3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11],

3.2.2Tách từ

Việc xác định từ trong tiếng Việt là rất khó và tốn nhiều chi phí. Do đó, cách đơn giản nhất là sử dụng từ điển được lập sẵn. Tách tài liệu thành các từ, loại bỏ các từ láy, từ nối, từ đệm, các từ không quan trọng trong tài liệu. Một câu gồm nhiều từ ghép lại, tuy nhiên trong một câu có thể có nhiều cách phân tích từ khác nhau.

Ví dụ : xét câu "Tốc độ truyền thông tin sẽ tăng cao" có thể phân tích từ theo các cách sau:

Tốc độ / truyền/ thông tin / sẽ / tăng cao. Tốc độ / truyền thông / tin / sẽ / tăng cao.

Hiện đã có nhiều giải pháp cho vấn đề này với kết quả thu được rất cao. Tuy nhiên thời gian, chi phí tính toán, xử lý lớn không thích hợp cho việc lập chỉ mục cho hệ thống tìm kiếm thông tin vì số lượng tài liệu phải xử lý là rất lớn.

Cách giải quyết: lập chỉ mục cho các từ có thể có trong một tài liệu. Ví dụ câu trên ta nên lập xem xét các từ : tốc độ, truyền , truyền thông ,thông tin, tin , sẽ , tăng cao.

Sau đó sẽ dùng ngưỡng chặn để loại bỏ các từ, giả sử từ "truyền thông" không phải là một từ xuất hiện thật sự trong tài liệu (chỉ có được do sự kết hợp ngẫu nhiên từ "truyền" và "thông tin") thì xác suất xuất hiện của từ này trong tài liệu sẽ không cao nên khi tính toán trọng lượng thì từ này sẽ bị loại bỏ. Một từ trong tiếng Việt là sự kết hợp của hai hay nhiều tiếng. Phương pháp xác định một từ được ghép lại thông qua nhiều tiếng dựa trên việc xem xét độ gắn kết (cohesion) giữa chúng:

Trong đó:

size_factor: kích thước tập chỉ mục pair_freqij: tần số xuất hiện từ

ni , nj : tần số xuất hiện tiếng i, j

Hai tiếng có khả năng tạo thành một từ cao khi chúng thường xuất hiện chung với nhau, nghĩa là cohension của chúng cao.

Phương pháp này không tách từ chính xác hoàn toàn nhưng có thể chấp nhận trong hệ thống tìm kiếm thông tin vì trong quá trình lập chỉ mục chỉ cần xác định đúng các từ có trọng lượng cao, trong trường hợp việc tách từ là sai thì từ sai chỉ được lập chỉ mục khi nó có trọng lượng cao, việc lập chỉ mục một từ sai sẽ làm tăng chi phí lưu trữ nhưng có lẽ không ảnh hưởng lớn tính chính xác kết quả tìm kiếm

vì dù sao từ này cũng có trọng lượng lớn.

Còn trong trường hợp một từ ghép được tách thành nhiều từ đơn ví dụ từ "thông tin" khi được lập chỉ mục sẽ luôn có 3 từ "thông", "tin", "thông tin" , điều này gây ảnh hưởng đến tính chính xác của việc lập chỉ mục vì thực sự các từ "thông", "tin" không cần thiết lập chỉ mục.Ta giải quyết vần đề này bằng cách nếu từ "thông tin" được lập chỉ mục thì khi đó số lần xuất hiện của các từ "thông" và "tin" sẽ được tính toán lại bằng cách trừ đi các trường hợp đã xuất hiện trong từ "thông tin" để tính toán trọng lượng cho các từ đơn. Nếu từ đơn "tin" chỉ luôn xuất hiện trong từ "thông tin" thì số lần xuất hiện của từ "tin" và "thông tin" là bằng nhau nên khi lập chỉ mục cho từ "thông tin" thì số lần xuất hiện riêng của từ đơn "tin" sẽ bằng 0 nên không được lập chỉ mục.

Một phần của tài liệu đồ án tốt nghiệp tìm hiểu về search engine và xây dựng ứng dụng minh hoạ cho search engine tiếng việt t (Trang 39)