3.7.1. Đặc điểm từ trong tiếng Việt
Khỏc với Tiếng Anh, từ là một nhúm ký tự liờn tiếp cú ý nghĩa được phõn cỏch nhau bằng cỏc khoảng trắng hoặc dấu cõu, đơn vị cơ bản trong Tiếng Việt là tiếng khụng phải là từ, một từ trong tiếng Việt cú thể gồm một hoặc nhiều tiếng. Từ tiếng Việt cú một số đặc điểm chớnh như sau:
- Từ ở dạng nguyờn thể, hỡnh thức và ý nghĩa của từ độc lập với cỳ phỏp - Từ được cấu trỳc từ “tiếng”
gồm từ lỏy và từ ghộp.
Như vậy, từ Tiếng Việt và từ Tiếng Anh cú những đặc điểm khỏc biệt chớnh như bảng dưới đõy.
Đặc điểm Tiếng Việt Tiếng Anh
Đơn vị cơ bản Tiếng Từ
Nhận dạng từ Tổ hợp cỏc tiếng liờn tiếp cú nghĩa dựa vào ngữ cảnh sử dụng
Cỏch nhau bởi cỏc khoảng trắng hoặc dấu cõu.
Từ loại Khụng thống nhất Định nghĩa rừ ràng
Tiền tố/hậu tố Khụng cú Cú
Bảng 3- 5. So sỏnh cỏc đặc điểm khỏc nhau giữa tiếng Anh và tiếng Việt
Từ những đặc điểm khỏc biệt trờn, khi phõn tỏch văn bản tiếng Việt thành cỏc từ cú nhiều khú khăn hơn so với việc phõn tỏch từ Tiếng Anh. Cỏc phần dưới đõy sẽ trỡnh bày một số phương phỏp tỏch từ Tiếng Việt đang được sử dụng hiện nay.
3.7.2. Phương phỏp so khớp cực đại
Phương phỏp so khớp cực đại (MM - Maximum Matching) hay cũn gọi là so khớp cực đại từ trỏi qua phải (LRMM - Left Right Maximum Matching). Ở phương phỏp này, chỳng ta sẽ duyệt một ngữ hoặc cõu từ trỏi sang phải và chọn từ cú nhiều õm tiết nhất cú mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết cõu.
Với tư tưởng đú, phương phỏp này thực hiện tỏch từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy nhiờn, khuyết điểm của phương phỏp này cũng chớnh là từ điển, nghĩa là độ chớnh xỏc khi thực hiện tỏch từ phụ thuộc hoàn toàn vào tớnh đủ, tớnh chớnh xỏc của từ điển hơn nữa nú cũng tỏch từ sai trong một số trường hợp đặc biệt như cõu: Học sinh học sinh học
3.7.3. Phương phỏp học cải biến
Phương phỏp này tiếp cận dựa trờn tập ngữ liệu đó đỏnh dấu.Theo cỏch tiếp cận này để cho mỏy tớnh cú thể nhận biết ranh giới giữa cỏc từ để cú thể tỏch từ chớnh xỏc, chỳng ta sẽ cho mỏy học cỏc cõu mẫu trong tập ngữ liệu đó được đỏnh dấu ranh giới giữa cỏc từ đỳng.
Ta thấy phương phỏp rất đơn giản, vỡ chỉ cần cho mỏy học cỏc tập cõu mẫu và sau đú mỏy sẽ tự rỳt ra qui luật của ngụn ngữ và để từ đú sẽ ỏp dụng chớnh xỏc khi cú những cõu đỳng theo luật mà mỏy đó rỳt ra. Và rừ ràng để tỏch từ được hoàn toàn chớnh xỏc trong mọi trường hợp thỡ đũi hỏi phải cú một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lõu để cú thể rỳt ra cỏc luật đầy đủ.
3.7.4. Mụ hỡnh tỏch từ bằng WFST và mạng Neural
Mụ hỡnh mạng chuyển dịch trạng thỏi hữu hạn cú trọng số (WFST – Weighted Finit State Transducer) đó được ỏp dụng trong tỏch từ từ năm 1996. í tưởng cơ bản là ỏp dụng WFST với trọng số là xỏc suất xuất hiện của mỗi từ trong kho ngữ liệu. Dựng WFST để duyệt qua cỏc cõu cần xột, khi đú từ cú trọng số lớn nhất là từ được chọn để tỏch. Phương phỏp này cũng đó được sử dụng trong cụng trỡnh đó được cụng bố của tỏc giả Đinh Điền [2001], tỏc giả đó sử dụng WFST kốm với mạng Neural để khử nhập nhằng khi tỏch từ, trong cụng trỡnh tỏc giả đó xõy dựng hệ thống tỏch từ gồm tầng WFST để tỏch từ và xử lý cỏc vấn đề liờn quan đến một số đặc thự riờng của ngụn ngữ tiếng Việt như từ lỏy, tờn riờng,.. và tầng mạng Neural dựng để khử nhập nhằng về ngữ nghĩa sau khi đó tỏch từ (nếu cú).
Theo cụng bố trong cụng trỡnh của tỏc giả, mụ hỡnh này đạt được độ chớnh xỏc trờn 97%. Tỏc giả sử dụng thờm mạng Neural kết hợp với từ điển để khử cỏc nhập nhằng cú thể cú khi tỏch ra nhiều từ cú được từ một cõu; tầng mạng Neural sẽ loại bỏ đi cỏc từ khụng phự hợp bằng cỏch kết hợp với từ điển. Bờn cạnh đú, cũng tương tự như phương phỏp TBL điểm quan trọng của mụ hỡnh này cần tập ngữ liệu học đầy đủ.
3.7.5. Phương phỏp tỏch tỏch từ tiếng Việt dựa trờn thống kờ từ Internet và thuật giải di truyền
Phương phỏp tỏch tỏch từ tiếng Việt dựa trờn thống kờ từ Internet và thuật giải di truyền (IGATEC - Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tỏch từ với mục đớch phõn loại văn bản mà khụng cần dựng đến một từ điển hay tập ngữ liệu học nào. Trong hướng tiếp cận này, tỏc giả kết hợp giữa thuật toỏn di truyền với dữ liệu thống kờ được lấy từ Internet.
Theo cỏch tiếp cận của tỏc giả, hệ thống tỏch từ gồm 2 thành phần
Lấy thụng tin trực tuyến (Online Extractor): Thành phần này cú tỏc dụng
lấy thụng tin về tần số xuất hiện của cỏc từ trong văn bản bằng cỏch sử dụng một search engine nổi tiếng như Google hay Yahoo chẳng hạn. Sau đú, tỏc giả sử dụng cỏc cụng thức thớch hợp (xem [4]) để tớnh toỏn mức độ phụ thuộc lẫn nhau để làm cơ sở tớnh fitness cho GA engine.
Tỏch từ bằng thuật giải di truyền: mỗi cỏ thể trong quan thể được biểu diễn
bởi chuỗi cỏc bit 0,1, trong đú, mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhúm bit cựng loại đại diện cho cho một đoạn. Cỏc cỏ thể trong quần thể được khởi tạo ngẫu nhiờn, trong đú mỗi đoạn được giới hạn trong khoảng 5. GA engine sau đú thực hiện cỏc bước đột biến và lai ghộp nhằm mục đớch làm tăng giỏ trị fitness của cỏc cỏ thể để đạt được cỏch tỏch từ tốt nhất cú thể.
Chương 4: Lí THUYẾT TẬP THễ