4 Chương : XỬ LÝ NGÔN NGỮ VÀ TRA TỪ ĐIỂN
4.2.1 Tìm từ gốc (Stemming)
Đối với văn bản tiếng Anh, các từ thể hiện dưới nhiều dạng ngữ pháp được thể
hiện khác nhau về mặt hình thức (ví dụ như link và links hay book, books và booked). Tuy nhiên, những từ như vậy lại giống nhau về mặt ngữ nghĩa. Chính vì vậy nên khi xét trên khía cạnh nội dung thì chúng là một. Những từ loại dạng này thường ở dạng danh từ số nhiều, động từ ở ngôi thứ ba số ít, động từ ở dạng –ing hoặc dạng quá khứ và quá khứ phân từ. Từ gốc là một phần của từ sau khi đã loại bỏ phụ tố. Các phụ tố có thể là tiền tố hoặc hậu tố. Các tiền tố trong tiếng Anh như: dis-, multi-, poly-, un-... Các hậu tố trong tiếng Anh như: -ly, -ment, -logy; Với hai dạng phụ tố khác nhau tạo ra các cách xử lý khác nhau.
Tiền tố tạo ra dẫn xuất của từ, nên tạo ra nghĩa mới, trường hợp này không tiến hành stemming. Ví dụ: know và unknow là hai từ riêng biệt với ngữ nghĩa khác nhau. Tuy nhiên unknow là kết hợp giữa know và tiền tố un-. Hậu tố có thể tạo ra dẫn xuất hoặc biến cách. Trường hợp hậu tố tạo ra dẫn xuất (như emotion tạo ra: emotional, emotionalist, emotionalism, emotionalize) sẽ tạo ra những nghĩa khác nhau nên không tiến hành stemming. Hậu tố tạo ra biến cách (như: book tạo ra books, booked) thì tiến hành stemming đưa về từ gốc.
Phương pháp stemming được sử dụng là thuật toán Porrter16 của tác giả Martin Porter đưa ra năm 1980.
Trong phạm vi của luận văn này, tôi áp dụng thuật toán tìm gốc từ cho tiếng Anh vào các trường hợp sau:
Ø Biến đổi từ chỉ số nhiều thành từ chỉ số ít: cats → cat.
Ø Biến đổi động từ chia ở ngôi thứ ba về dạng nguyên mẫu: works → work.
Ø Biến đổi từ thêm –ing, –ed về dạng nguyên mẫu: worked → work, working → work.
Ø Chuyển ‘i’ thành ‘y’ trong trường hợp trong gốc từ có nguyên âm: companies → compani → company.
4.2.2 Tìm từ gần giống với từ cần tra 4.2.2.1 Khoảng cách Levenshtein