Các phƣơng pháp tách từ

 Phƣơng pháp dựa trên otomat

Phƣơng pháp này sử dụng tập dữ liệu gồm bảng âm tiết tiếng Việt (khoảng 6700 âm tiết) và từ điển từ vựng tiếng Việt (khoảng 30.000 từ). Các từ điển đƣợc lƣu dƣới dạng các tệp văn bản có định dạng mã TCVN hoặc Unicode dựng sẵn (UTF-8).

Các bƣớc giải quyết của phƣơng pháp:

- Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt

- Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt.

- Dựa trên các ôtômát nêu trên, xây dựng đồ thị tƣơng ứng với câu cần phân tích và sử dụng thuật toán tìm kiếm trên đồ thị để liệt kê các cách phân tích có thể.

Bảng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển đƣợc ghi trên đó một ký tự. Ví dụ, với ba âm tiết phƣơng, pháp, trình ta sẽ có ôtômát đoán nhận âm tiết nhƣ Hình 2.1.

Hình 2.4 Xây dựng ôtômát âm tiết

Ôtômát từ vựng đƣợc xây dựng tƣơng tự, với điểm khác nhƣ sau: thay vì ghi trên mỗi cung chuyển một âm tiết, chúng ta ghi số hiệu của trạng thái (kết) của ôtômát âm tiết tại đó đoán nhận mỗi âm tiết của từ nhằm giảm kích thƣớc của ôtômát từ vựng. Ví dụ, với hai từ phƣơng pháp và phƣơng trình, giả sử khi đƣa lần lƣợt các âm tiết phƣơng, pháp, trình qua ôtômát âm tiết, ta đến đƣợc các trạng thái kết ghi các số n1, n2, n3 thì trên các cung chuyển tƣơng ứng ta ghi các số n1, n2, n3 (Hình 2.2).

Hình 2.5 Xây dựng ôtômát từ vựng

Tƣ tƣởng của thuật toán phân tách từ vựng là quy việc phân tách câu về việc tìm đƣờng đi trên một đồ thị có hƣớng, không có trọng số. Giả sử câu ban đầu là một dãy gồm n+1 âm tiết s0, s1,..., sn. Phƣơng pháp xây dựng một đồ thị có n+2 đỉnh v0, v1,...,

vn, vn+1, sắp thứ tự trên một đƣờng thẳng từ trái sang phải; trong đó, từ đỉnh vi đến đỉnh vj có cung (i < j) nếu các âm tiết si, si+1,. .., sj-1 theo thứ tự lập thành một từ. Khi đó mỗi cách phân tách câu khác nhau tƣơng ứng với một đƣờng đi trên đồ thị từ đỉnh đầu v0 đến đỉnh cuối vn+1. Trong thực tế, cách phân tích câu đúng đắn nhất thƣờng ứng với đƣờng đi qua ít cung nhất trên đồ thị.

Trong trƣờng hợp câu có sự nhập nhằng thì đồ thị sẽ có nhiều hơn một đƣờng đi ngắn nhất từ đỉnh đầu đến đỉnh cuối, phƣơng pháp liệt kê toàn bộ các đƣờng đi ngắn nhất trên đồ thị, từ đó đƣa ra tất cả các phƣơng án tách từ có thể và để ngƣời dùng quyết định sẽ chọn phƣơng án nào, tuỳ thuộc vào ngữ nghĩa hoặc văn cảnh. Ví dụ, xét một câu có cụm "thuộc địa bàn", ta có đồ thị nhƣ sau (Hình 2.3)

Hình 2.6 Một tình huống nhập nhằng trong phân tách từ

Cụm này có sự nhập nhằng giữa thuộc địa và địa bàn và ta sẽ có hai kết quả phân tách là “thuộc địa / bàn” và “thuộc / địa bàn”. Ta có thể chỉ ra rất nhiều những cụm nhập nhằng trong tiếng Việt, chẳng hạn “tổ hợp âm tiết”, “bằng chứng cớ”…

Trƣờng hợp trong câu có âm tiết không nằm trong từ điển thì rõ ràng ôtômát âm tiết không đoán nhận đƣợc âm tiết này. Kết quả là đồ thị ta xây dựng từ câu đó là không liên thông. Dựa vào tính chất này, ta thấy rằng nếu đồ thị không liên thông thì dễ dàng phát hiện ra rằng đơn vị âm tiết không đoán nhận đƣợc không nằm trong từ điển âm tiết, tức nó bị viết sai chính tả hoặc là một đơn vị âm tiết (từ vựng) mới.

Với cách tiếp cận nhƣ trên, bài toán phân tách từ vựng trong câu tiếng Việt về cơ bản đã đƣợc giải quyết, đặc biệt là vấn đề tách các tổ hợp từ tƣơng đƣơng với một đơn vị từ vựng, thƣờng là các cụm từ cố định, cụm từ gợi ý hoặc các thành ngữ trong tiếng Việt. Với những câu nhập vào có sự nhập nhằng từ vựng, tức có nhiều hơn một cách phân tách thì phƣơng pháp liệt kê toàn bộ các phƣơng án tách từ có thể và giành quyền lựa chọn kết quả cho ngƣời sử dụng. Trong tất cả các phƣơng án phân tách đó bao giờ cũng tồn tại phƣơng án đúng.

 Dùng mô hình n-gram và phƣơng pháp xác suất thống kê

Hƣớng tiếp cận này thƣờng quy định tham số đầu vào n trong mô hình n-gram, thông thƣờng n=2 do số lƣợng từ ghép 2 tiếng chiếm đa số trong từ điển tiếng Việt. Có thể giải thích sơ qua về mô hình n-gram, đây là mô hình tách các từ liên tiếp nhau trong

văn bản, giả sử ta có văn bản S = {t1, t2,…, ti} với ti là tiếng trong văn bản, mô hình trên sẽ gom các tiếng liên tiếp nhau thành 1 từ, với i tiếng sẽ có (i-(n-1)) từ.

Ví dụ ta có câu: “Bài báo trình bày một phƣơng pháp hoàn toàn mới” Dùng mô hình n-gram với n=2 ta sẽ có các từ:

w1=”Bài báo”, w2=”báo trình”, w3=”trình bày”, w4=”bày một”, w5=”một phƣơng”, w6= “phƣơng pháp”, w7=”pháp hoàn”, w8=”hoàn toàn”, w9=”toàn mới”

Ta thấy chỉ có w1, w3, w6, w8 là những cụm từ có nghĩa, theo quan niệm những cụm từ sau khi tách xuất hiện nhiều trong nhiều văn bản khác nhau thì ta cho rằng từ đó có nghĩa. Nhƣ vậy các từ có nghĩa sẽ có tần suất xuất hiện nhiều nhất. Tuy nhiên nhƣ đã thấy qua ví dụ trên với i=10 và n=2 chỉ có 4 cụm từ có nghĩa, nhƣng có đến 5 cụm từ vô nghĩa, chính vì thế nếu sử dụng phƣơng pháp này ta phải xác định ngƣỡng tần suất chấp nhận từ có nghĩa và khuyết điểm của phƣơng pháp này là sinh dữ liệu rác khá nhiều.

 Sử dụng giải thuật di truyền và thống kê trên Internet

Phƣơng pháp tập trung vào cách tách từ trong văn bản tiếng Việt theo một cách khả thi nào đó mà không dựa vào bất kỳ bộ lexicon hay ngữ liệu huấn luyện đƣợc gán nhãn nào để phục vụ cho việc phân loại văn bản tiếng Việt. Do có thể tồn tại nhiều cách tách từ hợp lý khác nhau cho cùng một câu, phƣơng pháp sử dụng giải thuật di truyền để tiến hóa quần thể mà trong đó, mỗi cá thể là tƣơng ứng với một cách tách từ cho câu đang xét. Hàm đánh giá độ thích nghi thể hiện thông tin thống kê rút trích trực tiếp từ Internet sử dụng các search engine thƣơng mại. Thông tin rút trích bao gồm tần số của tài liệu và thông tin tƣơng quan n-gram.

Hƣớng tiếp cận lai áp dụng nhiều cách khác nhau để tận dụng ƣu điểm của các giải pháp.Tóm lại, các hƣớng tiếp cận để phân loại văn bản tiếng Việt dựa vào từ chỉ khả thi khi có bộ lexicon tốt và hay ngữ liệu huấn luyện đủ lớn và đáng tin cậy

Với mỗi câu, phƣ ơ ng pháp sẽ xác định cách tách từ hợp lý nhất. Tuy nhiên, không gian tìm kiếm sẽ rất lớn do có nhiều cách tổ hợp các tiếng thành từ. Dựa vào nguyên lý tiến hóa và di truyền, giải thuật di truyền thích hợp cho việc xác định (xấp xỉ) các lời giải tối ƣu hóa toàn cục trong không gian tìm kiếm rất lớn thay vì các lời giải tối ƣu cục bộ. Giải thuật di truyền sẽ tiến hóa một quần thể qua nhiều thế hệ nhằm tối ƣu hóa toàn cục thông quá quá trình chọn lọc, lai, biến dị và tái sinh. Chất lƣợng của mỗi cá thể trong quần thể đƣợc xác định bằng hàm thích nghi và qua mỗi thế hệ, chúng ta sẽ chọn lại N cá thể tốt nhất sau khi thực hiện quá trình lai, biến dị và tái sinh. Điểm mới của hƣớng tiếp cận này là thay vì phải sử dụng ngữ liệu huấn luyện đã đƣợc gán nhãn hay lexicon – vốn chƣa có sẵn cho tiếng Việt, tác giả phƣơng pháp đã sử dụng thông tin thống kê rút trích trực tiếp từ search engine và dùng giải thuật di truyền để xác định những cách tách từ hợp lý nhất đối với văn bản tiếng Việt cho trƣớc. Các kết quả thực nghiệm cho thấy hƣớng tiếp cận này đạt đƣợc những kết quả khả quan trong việc tách từ và phân loại văn bản tiếng Việt với độ đo micro-averaging F1 đạt trên 90%. Phƣơng pháp này hứa hẹn tiềm năng lớn cho việc

xử lý các văn bản của các ngôn ngữ tƣơng tự tiếng Việt – vốn còn chƣa có các ngữ liệu đƣợc gán nhãn hay lexicon chuẩn.

CHƢƠNG 3: ỨNG DỤNG PHÂN LOẠI BÀI BÁO KHOA HỌC TRONG LĨNH VỰC

CÔNG NGHỆ THÔNG TIN

Tách từ trong văn bản

Phƣơng pháp rút trích đặc trƣng