Nhìn một cách tổng quan, phương pháp dựa trên từ (word-base) cho độ chính xác khá cao ( trên 95%) nhờ vào tập ngữ liệu huấn luyện lớn, được đánh dấu chính xác, tuy nhiên hiệu suất của thuật tốn phụ thuộc hồn tồn vào ngữ liệu huấn luyên. Bởi vì mục đích của các tác giả [Đinh Điền et al, 2001] là thực hiện tách từ
thật chính xác để phục vụ cho việc dịch máy nên tác giả đã chọn phương pháp WFST. Với các phương pháp cần phải sử dụng từ điển hoặc tập huấn luyện, ngồi việc tách từ thật chính xác, ta cịn cĩ thể nhờ vào các thơng tin đánh dấu trong tập ngữ liệu để thực hiện các mục đích khác cần đến việc xác định từ loại như dịch máy, kiểm lỗi chính tả, từ điển đồng nghĩa... Do vậy, mặc dù thời gian huấn luyện khá lâu, cài đặt khá phức tạp, chi phí tạo tập ngữ liệu huấn luyện rất tốn kém, nhưng kết quả mà hướng tiếp cận dựa trên từ mang lại cho mục đích dịch máy là rất xứng
đáng cho cơng sức bỏ ra.
Hướng tiếp cận dựa trên ký tự (character-based) cĩ ưu điểm là dễ thực hiện, thời gian thực thi tương đối nhanh, tuy nhiên lại cĩ độ chính xác khơng cao bằng phương pháp dựa trên từ. Hướng tiếp cận này thích hợp cho các mục đích nghiên cứu khơng cần đến độ chính xác tuyệt đối cũng như các thơng tin về từ loại như
phân loại văn bản, lọc spam, firewall... Nhìn trên bình diện chung, hướng tiếp cận dựa trên từ cĩ nhiều ưu điểm đáng kể, và đem lại nhiều hứa hẹn lạc quan cho các hướng nghiên cứu tiếp theo để nâng cao độ chính xác của phương pháp tách từ này.
3.5. Kết luận
Dựa trên các phân tích vềưu khuyết điểm của các phương pháp, chúng em chọn hướng tiếp cận dựa trên “tiếng” (character-based) cho mục tiêu phân loại văn bản của mình.
Bởi vì, mục tiêu của luận văn là phân loại tin tức báo điện tử, một loại hình cực kỳ phong phú về nội dung và ngơn ngữ, nên việc tạo ra một từ điển hồn chỉnh và cĩ khả năng cập nhật các thay diễn ra liên tục của ngơn ngữ là khĩ thực hiện được. Hệ thống xử lý cần phải cĩ khả năng linh hoạt, tự động cập nhật những thay đổi
hằng ngày, nên hướng tiếp cận khơng dựa trên từ điển hoặc tập ngữ liệu là cực kỳ
thích hợp.
Hơn nữa, hệ thống phân loại tin tức cần cĩ tốc độ xử lý chấp nhận được để cĩ thể xử lý kịp thời các thơng tin mới xuất bản hằng ngày. Do đĩ, với ưu điểm đơn giản, tốc độ thực thi chấp nhận đươc, hướng tiếp cận IGATEC là một lựa chọn hồn tồn phù hợp.
Mặt khác, việc phân loại văn bản khơng yêu cầu việc tách từ phải cĩ độ chính xác cao đến mức từng từ. Ta cĩ hồn tồn cĩ thể thực hiện thêm việc loại bỏ các từ
khơng cần thiết cho việc phân loại như các hư từ, thán từ... để tăng tốc độ và sự
C Chhưươơnngg 44 T TÁÁCCHH TTỪỪ TTIIẾẾNNGG VVIIỆỆTT K KHHƠƠNNGG DDỰỰAA TTRRÊÊNN TTẬẬPP N NGGỮỮ LLIIỆỆUU HHAAYY TTỪỪ ĐĐIIỂỂNN – – MMỘỘTT TTHHÁÁCCHH TTHHỨỨCC Giới thiệu
Các nghiên cứu về thống kê dựa trên Internet
Các phương pháp tính độ liên quan giữa các từ dựa trên thống kê Tiền xử lý
Hướng tiếp cận tách từ dựa trên thống kê từ Internet và thuật tốn di truyền
Cơng cụ trích xuất thơng tin từ Google Cơng cụ tách từ dùng thuật tốn di truyền Kết quả thực nghiệm
Chương 4. TÁCH TỪ TIẾNG VIỆT KHƠNG DỰA TRÊN TẬP NGỮ LIỆU ĐÁNH DẤU (ANNOTATED CORPUS)
HAY TỪ ĐIỂN (LEXICON) – MỘT THÁCH THỨC
4.1. Giới thiệu
Như chúng ta đã tìm hiểu ở những phần trên, việc khĩ xác định ranh giới từ đã làm cho việc xử lý tính nhập nhằng trong ngơn ngữ tiếng Việt càng thêm phức tạp.Ví dụ như: câu “ơng lão già đi rất nhanh”, ta cĩ thể phân chia từ theo nhiều cách mà câu vẫn cĩ nghĩa “ơng ||già đi || rất || nhanh”, “ơng già || đi || rất || nhanh”, “ơng || già || đi || rất || nhanh” …
Nhìn chung, đối với tiếng Anh, về mặt lý thuyết tiếng Anh cĩ nhiều thuận lợi vì là loại ngơn ngữ hồ kết hay biến cách (flexion) [Đinh Điền, 2004] , hệ thống ngữ
pháp và từ loại đã được quy định rõ ràng, do đĩ việc phân định ranh giới từ cũng như xây dựng tập ngữ liệu đánh dấu là tương đối đễ dàng.
Cịn đối với tiếng Việt, về mặt lý thuyết tiếng Việt là loại hình đơn lập [Đinh
Điền, 2004], phương thức ngữ pháp chủ yếu là trật tự từ và hư từ, vì vậy chỉ xét về
mặt phân định ranh giới từđã cĩ thể cĩ nhiều cách phân định cho cùng một câu mà vẫn đúng ngữ pháp Việt Nam.
Ở phần này, chúng em xin trình bày hướng tiếp cận cho việc tách từ tiếng Việt theo một hướng mới mà khơng cần sử dụng tập ngữ liệu huấn luyện hay từ điển. Hướng tiếp cận của chúng em dựa trên ý tưởng của bài báo IGATEC, và cĩ nhiều cải tiến đang kể hàm làm tăng chất lượng cho bước tách từ tiếng Việt phục vụ cho việc phân loại tin tức báo điện tử.