Khôi phục từ gốc (Stemming)

Một phần của tài liệu Khóa luận tốt nghiệp cử nhân CNTT tra từ điển anh việt qua camera trên điện thoại di động dùng android 2 (Trang 43)

Tiếng Anh là ngôn ngữ thuộc loại hình ngôn ngữ hòa kết (flexional). Các hình vị trong ngôn ngữ hòa kết thường không đứng một mình mà đi kèm phụ tố, mỗi phụ tố có thể mang đồng thời nhiều ý nghĩa, hoặc ngược lại một ý nghĩa có thể biễu diễn băng nhiều phụ tố. Trong tiếng Anh các phụ tố có thể tạo ra các dẫn xuất hoặc biến cách khác nhau.

Một từ trong văn bản tiếng Anh có thể có nhiều thể hiện khác nhau dưới nhiều dạng ngữ pháp khác nhau, tuy nhiên chúng cùng mang một nội dung ngữ nghĩa. Nên chúng được xem xét là một. Ví dụ: look, looks, looking, looked, … Các từ dạng này thường là danh từ số nhiều, động từ ở ngôi thứ ba số ít, động từ ở dạng thêm –ing hoặc dạng quá khứ, quá khứ phân từ. Do đó ứng dụng phải khôi phục từ gốc. Từ gốc là một phần của từ sau khi loại bỏ các phụ tố. Phụ tố có thể là tiền tố hoặc hậu tố. Ví dụ các tiền tố như: dis-, un- , muti-… các hậu tố như: -ly, -ment, -tion, -logy… Với mỗi phụ tố khác nhau sẽ tạo ra dẫn xuất hoặc biến cách khác nhau và có cách xử lý cụ thể cho từng trường hợp.

Đối với tiền tố tạo ra dẫn xuất của từ, thì từ đó sẽ mang ngữ nghĩa khác, do đó chúng ta không cần phải thực hiện khôi phục từ gốc. Ví dụ: like và unlike là khác nhau.

Đối với hậu tố có hai trường hợp: tạo ra dẫn xuất hoặc tạo ra biến cách. Hậu tố tạo ra dẫn xuất sẽ có ngữ nghĩa khác nhau, hoặc từ loại khác nhau. Ví dụ: apply, appliance, applicability, applicably, applicant, application,…Trường hợp này sẽ không dùng khôi phục từ gốc. Hậu tố tạo ra biến cách thì sẽ tiến hành đưa về từ gốc. Ví dụ books, booked sẽ đưa về nguyên mẫu là book.

Tóm lại chúng ta chỉ sử dụng khôi phục từ gốc trong trường hợp hậu tố tạo ra biến cách, vì chúng có cùng ngữ nghĩa. Trong trường hợp này ứng dụng sử dụng thuật toán khôi phục từ gốc Porter để khôi phục từ gốc.

Thuật toán stemming Porter do Martin Poter đưa ra năm 1980 sau này được tiếp tục phát triển và sử dụng rộng rải. Thuật toán này có thể giải quyết tất cả các trường hợp để đưa về dạng từ gốc nguyên mẫu. Trong phạm vi ứng dụng này chỉ sử dụng thuật toán cho các trường hợp sau:

 Danh từ ở dạng số nhiều, bỏ -s hoặc –es đưa về nguyên mẫu.  Động từ chia ở ngôi thứ ba số ít bỏ –s hoặc –es đưa về nguyên

mẫu.

 Những từ thêm –ing hoặc –ed được đưa về nguyên mẫu.

 Chuyển “i” thành “y” trong trường hợp gốc từ có nguyên âm. Ví dụ: companies  compani  company.

Sơ đồ hình 4.2 minh họa về thuật toán stemming được sử dụng trong ứng dụng.

Hình 4.18 Sơ đồ thuật toán khôi phục từ gốc

Đề thuận tiện tùy theo mục đích của người sử dụng, trong ứng dụng cho phép người dùng tùy chỉnh thiết lập cấu hình: không sử dụng stemming, sử dụng stemming cho các trường hợp trên (mặc định đã sử dụng), sử dụng stemming khôi phục tận gốc.

Một phần của tài liệu Khóa luận tốt nghiệp cử nhân CNTT tra từ điển anh việt qua camera trên điện thoại di động dùng android 2 (Trang 43)