Từ những đặc điểm khỏc biệt trờn, khi phõn tỏch văn bản tiếng Việt thành cỏc từ cú nhiều khú khăn hơn so với việc phõn tỏch từ Tiếng Anh. Cỏc phần dưới đõy sẽ trỡnh bày một số phương phỏp tỏch từ Tiếng Việt đang được sử dụng hiện nay.
3.7.2. Phương phỏp so khớp cực đại
Phương phỏp so khớp cực đại (MM - Maximum Matching) hay cũn gọi là so khớp cực đại từ trỏi qua phải (LRMM - Left Right Maximum Matching). Ở phương phỏp này, chỳng ta sẽ duyệt một ngữ hoặc cõu từ trỏi sang phải và chọn từ cú nhiều õm tiết nhất cú mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết cõu.
Với tư tưởng đú, phương phỏp này thực hiện tỏch từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy nhiờn, khuyết điểm của phương phỏp này cũng chớnh là từ điển, nghĩa là độ chớnh xỏc khi thực hiện tỏch từ phụ thuộc hoàn toàn vào tớnh đủ, tớnh chớnh xỏc của từ điển hơn nữa nú cũng tỏch từ sai trong một số trường hợp đặc biệt như cõu: Học sinh học sinh học
3.7.3. Phương phỏp học cải biến
Phương phỏp này tiếp cận dựa trờn tập ngữ liệu đó đỏnh dấu.Theo cỏch tiếp cận này để cho mỏy tớnh cú thể nhận biết ranh giới giữa cỏc từ để cú thể tỏch từ chớnh xỏc, chỳng ta sẽ cho mỏy học cỏc cõu mẫu trong tập ngữ liệu đó được đỏnh dấu ranh giới giữa cỏc từ đỳng.
Ta thấy phương phỏp rất đơn giản, vỡ chỉ cần cho mỏy học cỏc tập cõu mẫu và sau đú mỏy sẽ tự rỳt ra qui luật của ngụn ngữ và để từ đú sẽ ỏp dụng chớnh xỏc khi cú những cõu đỳng theo luật mà mỏy đó rỳt ra. Và rừ ràng để tỏch từ được hoàn toàn chớnh xỏc trong mọi trường hợp thỡ đũi hỏi phải cú một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lõu để cú thể rỳt ra cỏc luật đầy đủ.
3.7.4. Mụ hỡnh tỏch từ bằng WFST và mạng Neural
Mụ hỡnh mạng chuyển dịch trạng thỏi hữu hạn cú trọng số (WFST – Weighted Finit State Transducer) đó được ỏp dụng trong tỏch từ từ năm 1996. í tưởng cơ bản là ỏp dụng WFST với trọng số là xỏc suất xuất hiện của mỗi từ trong kho ngữ liệu. Dựng WFST để duyệt qua cỏc cõu cần xột, khi đú từ cú trọng số lớn nhất là từ được chọn để tỏch. Phương phỏp này cũng đó được sử dụng trong cụng trỡnh đó được cụng bố của tỏc giả Đinh Điền [2001], tỏc giả đó sử dụng WFST kốm với mạng Neural để khử nhập nhằng khi tỏch từ, trong cụng trỡnh tỏc giả đó xõy dựng hệ thống tỏch từ gồm tầng WFST để tỏch từ và xử lý cỏc vấn đề liờn quan đến một số đặc thự riờng của ngụn ngữ tiếng Việt như từ lỏy, tờn riờng,.. và tầng mạng Neural dựng để khử nhập nhằng về ngữ nghĩa sau khi đó tỏch từ (nếu cú).
Theo cụng bố trong cụng trỡnh của tỏc giả, mụ hỡnh này đạt được độ chớnh xỏc trờn 97%. Tỏc giả sử dụng thờm mạng Neural kết hợp với từ điển để khử cỏc nhập nhằng cú thể cú khi tỏch ra nhiều từ cú được từ một cõu; tầng mạng Neural sẽ loại bỏ đi cỏc từ khụng phự hợp bằng cỏch kết hợp với từ điển. Bờn cạnh đú, cũng tương tự như phương phỏp TBL điểm quan trọng của mụ hỡnh này cần tập ngữ liệu học đầy đủ.
3.7.5. Phương phỏp tỏch tỏch từ tiếng Việt dựa trờn thống kờ từ Internet và thuật giải di truyền
Phương phỏp tỏch tỏch từ tiếng Việt dựa trờn thống kờ từ Internet và thuật giải di truyền (IGATEC - Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tỏch từ với mục đớch phõn loại văn bản mà khụng cần dựng đến một từ điển hay tập ngữ liệu học nào. Trong hướng tiếp cận này, tỏc giả kết hợp giữa thuật toỏn di truyền với dữ liệu thống kờ được lấy từ Internet.
Theo cỏch tiếp cận của tỏc giả, hệ thống tỏch từ gồm 2 thành phần
Lấy thụng tin trực tuyến (Online Extractor): Thành phần này cú tỏc dụng lấy thụng tin về tần số xuất hiện của cỏc từ trong văn bản bằng cỏch sử dụng một search engine nổi tiếng như Google hay Yahoo chẳng hạn. Sau đú, tỏc giả sử dụng cỏc cụng thức thớch hợp (xem [4]) để tớnh toỏn mức độ phụ thuộc lẫn nhau để làm cơ sở tớnh fitness cho GA engine.
Tỏch từ bằng thuật giải di truyền: mỗi cỏ thể trong quan thể được biểu diễn bởi chuỗi cỏc bit 0,1, trong đú, mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhúm bit cựng loại đại diện cho cho một đoạn. Cỏc cỏ thể trong quần thể được khởi tạo ngẫu nhiờn, trong đú mỗi đoạn được giới hạn trong khoảng 5. GA engine sau đú thực hiện cỏc bước đột biến và lai ghộp nhằm mục đớch làm tăng giỏ trị fitness của cỏc cỏ thể để đạt được cỏch tỏch từ tốt nhất cú thể.
Chương 4: Lí THUYẾT TẬP THễ
4.1. Giới thiệu
Lý thuyết tập thụ (rough set theory) lần đầu tiờn được đề xuất bởi Z. Pawlak vào đầu những năm 1980 và nhanh chúng được xem như một cụng cụ xử lý cỏc thụng tin mơ hồ và khụng chắc chắn. Lý thuyết tập thụ là một cụng cụ hữu ớch được sử dụng nhiều trong việc phõn tớch và phõn lớp dữ liệu. Lý thuyết tập thụ đó được ỏp dụng thành cụng trong nhiều tỏc vụ khỏc nhau như: Trớch chọn cỏc đặc trưng, tổng hợp ra cỏc luật và phõn cụm dữ liệu.
Lý thuyết tập thụ dựa trờn giả thiết rằng để định nghĩa một tập hợp, chỳng ta cần phải cú thụng tin về mọi đối tượng trong tập vũ trụ, quan điểm này hoàn toàn khỏc với quan điểm truyền thống của tập hợp là mọi tập hợp đều được định nghĩa duy nhất bởi cỏc phần tử của nú mà khụng cần biết bất kỳ thụng tin nào về cỏc phần tử của tập hợp. Vấn đề nổi bật của lý thuyết tập thụ là việc đưa ra ý tưởng về tớnh mơ hồ của tri thức hay hệ thụng tin; nú dựa trờn khỏi niệm xấp xỉ dưới (Lower approximation) và xấp xỉ trờn (Upper approximation) của hệ thụng tin. Xấp xỉ dưới của một hệ thụng tin cho một khỏi niệm C là tập hợp cỏc đối tượng chắc chắn thuộc về khỏi niệm C; trong khi đú xấp xỉ trờn của một hệ thụng tin cho khỏi niệm C là tập hợp cỏc đối tượng cú thể thuộc về khỏi niệm C. Vựng khỏc biệt giữa xấp xỉ trờn và xấp xỉ dưới được gọi là vựng biờn (Boundary region) đú là những đối tượng khụng thể quyết định được là cú thuộc khỏi niệm C (xem hỡnh 4.1).
Trong chương này chỳng ta sẽ nghiờn cứu cỏc khỏi niệm và ý nghĩa cơ bản của lý thuyết tập thụ. Đõy là những kiến thức quan trọng cho việc ỏp dụng tập thụ vào phõn cụm kết quả tỡm kiếm web.
Hỡnh 4- 1. Hỡnh ảnh minh họa cỏc khỏi niệm của tập thụ
4.2. Hệ thụng tin
Một tập dữ liệu thể hiện dưới dạng bảng, trong đú mỗi dũng thể hiện cho một trường hợp, một sự kiện, một bệnh nhõn hay đơn giản là một đối tượng. Mỗi cột của bảng thể hiện một thuộc tớnh (là một giỏ trị, một quan sỏt, một đặc điểm …) được “đo lường” cho từng đối tượng. Ngoài ra giỏ trị của thuộc tớnh cũng cú thể được cung cấp bởi chuyờn gia hay bởi người sử dụng. Một bảng như vậy được gọi là mộthệ thụng tin (information system).
Một cỏch hỡnh thức, hệ thụng tin là một cặp A = (U,A) trong đú U là tập hữu hạn khỏc rỗng cỏc đối tượng và được gọi là tập vũ trụ, A là tập hữu hạn khỏc rỗng cỏc thuộc tớnh sao cho a: U→Vavới mọi aA. Tập Va được gọi là tập giỏ trị của thuộc tớnh a.
Vớ dụ 4-1 : Bảng 4-1dưới đõy cho ta hỡnh ảnh về một hệ thụng tin đơn giản
Age LEMS x1 16 – 30 50 x2 16 – 30 0 x3 31 – 45 1 – 25 x4 31 – 45 1 – 25 x5 46 – 60 26 – 49 x6 16 – 30 26 – 49 x7 46 – 60 26 – 49