Bài toán tách từ tiếng việt

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 32)

Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản tiếng Việt

2.3. Bài toán tách từ tiếng việt

2.3.1. Giới thiệu bài toán

Một trong các vấn đề nền tảng của việc phân tích văn bản là chia văn bản thành

đơn vị cơ sở nhỏ nhất đó chính là từ. Trong tiếng Anh việc tách từ trở nên đơn giản vì

về mặt ngữ nghĩa mỗi từ đều mang trong nó ngữ nghĩa riêng. Nên chúng ta có thể tách từ dựa vào khoảng trắng. N hưn g t r o n g c á c ngôn ngữ châu Á như tiếng Hoa,

tiếng Nhật, tiếng Hàn và cả tiếng Việt đó là một thách thức vô cùng to lớn vì sự

phức tạp tồn tại trong nó. Mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng

Á khác như khó xác định ranh giới giữa các từ và có các điểm khác biệt về

phonetic, văn phạm và ngữ nghĩa so với các ngôn ngữ Ấn Âu. Do đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử

nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Việt nếu không xây dựng

thành công giải pháp cho việc tách từ trong văn bản tiếng Việt[20].

Theo Yang và Xin [29] và các kết quả khảo sát của Nguyễn Thanh Hùng[20], hầu hết các phương pháp phân loại văn bản tiếng Việt hiệu quả nhất hiện nay như: Support Vector Machine, Linear Least Squares Fit, mạng nơ ron … đều cần thông

tin xác suất hay thống kê hay trọng số của từ. Sau khi khảo sát và đánh giá các

phương pháp này trong việc phân loại văn bản tiếng Việt, đề tài được xác định

việc tách từ là bước đầu tiên hết sức quan trọng cần phải được giải quyết

Đơn vị cơ bản trong tiếng Việt là tiếng, không phải là từ. Trong tài liệu “Từ tiếng

Việt” của tác giả Đinh Điền được đăng trong hội thảo Proceeding of ICMLC2002 ở Beijing, vào tháng 11 năm 2002 đã nêu ra một số đặc tính chính của từ trong tiếng Việt như sau:

- Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp - Từ được cấu trúc từ “tiếng”

- Từ bao gồm từ đơn (từ một tiếng) và từ phức (n- tiếng, với n < 5), bao gồm từ láy và từ ghép.

Do đặc điểm của tiếng Việt nên việc xây dựng bộ lexicon hay ngữ liệu

này cần rất nhiều thời gian, công sức và chi phí. Đây chính là vấn đề đáng lo nhất

trong bài toán phân loại văn bản tiếng Việt, xử lý ngôn ngữ tự nhiên và tìm kiếm thơng tin tiếng Việt.

Bài tốn có thể mơ tả như sau : Xét văn bản t gồm n tiếng t=s1s2…sn. Mục tiêu của p hư ơn g p h á p tách từ là xác định những cách tách hợp lý nhất văn

bản t thành m đọan t=w1w2…wm với wk=si…sj (1 ≤ k≤ m, 1≤ i, j≤ n) có thể là từ

đơn hay từ phức.

Hay : Cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ

vựng (từ) có nghĩa.

phức tạp, đặc biệt là khơng có ngữ liệu kiểm chứng đã được tách từ thủ công.

2.3.2. Các phương pháp tách từ

2.3.2.1. Phương pháp dựa trên otomat [21]

Phương pháp này sử dụng tập dữ liệu gồm bảng âm tiết tiếng Việt (khoảng 6700 âm tiết) và từ điển từ vựng tiếng Việt (khoảng 30.000 từ). Các từ điển được lưu dưới dạng các tệp văn bản có định dạng mã TCVN hoặc Unicode dựng sẵn (UTF- 8). Chương trình xây dựng bằng Java, mã nguồn mở .

Các bước giải quyết của phương pháp :

- Xây dựng ơtơmát âm tiết đốn nhận tất cả các âm tiết tiếng Việt - Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt.

- Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân

tích và sử dụng thuật tốn tìm kiếm trên đồ thị để liệt kê các cách phân tích có thể.

Bảng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển được ghi trên đó một ký tự. Ví dụ, với ba âm tiết phương, pháp, trình ta sẽ có ơtơmát đốn nhận âm tiết như Hình 2.1.

Hình 2. 1 Xây dựng ôtômát âm tiết

Ơtơmát từ vựng được xây dựng tương tự, với điểm khác như sau: thay vì ghi trên mỗi cung chuyển một âm tiết, ta ghi số hiệu của trạng thái (kết) của ơtơmát âm tiết tại đó đốn nhận mỗi âm tiết của từ nhằm giảm kích thước của ơtơmát từ vựng. Ví dụ, với hai từ phương pháp và phương trình, giả sử khi đưa lần lượt các âm tiết phương, pháp, trình qua ơtơmát âm tiết, ta đến được các trạng thái kết ghi các số n1, n2, n3 thì

trên các cung chuyển tương ứng ta ghi các số n1, n2, n3 (Hình 2.2).

Hình 2. 2 Xây dựng ôtômát từ vựng

Tư tưởng của thuật toán phân tách từ vựng là quy việc phân tách câu về việc tìm đường đi trên một đồ thị có hướng, khơng có trọng số. Giả sử câu ban đầu là

một dãy gồm n+1 âm tiết s0, s1, ..., sn. Phương pháp xây dựng một đồ thị có n+2

đỉnh v0, v1, ..., vn, vn+1, sắp thứ tự trên một đường thẳng từ trái sang phải; trong đó, từ đỉnh vi đến đỉnh vj có cung (i < j) nếu các âm tiết si, si+1, ..., sj-1 theo thứ tự lập thành một từ. Khi đó mỗi cách phân tách câu khác nhau tương ứng với một đường

đi trên đồ thị từ đỉnh đầu v0 đến đỉnh cuối vn+1. Trong thực tế, cách phân tích câu đúng đắn nhất thường ứng với đường đi qua ít cung nhất trên đồ thị.

Trong trường hợp câu có sự nhập nhằng thì đồ thị sẽ có nhiều hơn một

đường đi ngắn nhất từ đỉnh đầu đến đỉnh cuối, phương pháp liệt kê toàn bộ các đường đi ngắn nhất trên đồ thị, từ đó đưa ra tất cả các phương án tách câu có thể và để người dùng quyết định sẽ chọn phương án nào, tuỳ thuộc vào ngữ nghĩa hoặc

văn cảnh. Ví dụ, xét một câu có cụm "thuộc địa bàn", ta có đồ thị như sau (Hình 2.3)

Hình 2. 3 Một tình huống nhập nhằng

Cụm này có sự nhập nhằng giữa thuộc địa địa bàn và ta sẽ có hai kết quả phân tách là "thuộc địa / bàn" và "thuộc / địa bàn". Ta có thể chỉ ra rất nhiều

những cụm nhập nhằng trong tiếng Việt, chẳng hạn "tổ hợp âm tiết", "bằng chứng cớ",...

Trường hợp trong câu có âm tiết khơng nằm trong từ điển thì rõ ràng ơtơmát âm tiết khơng đốn nhận được âm tiết này. Kết quả là đồ thị ta xây dựng từ câu đó là

khơng liên thơng. Dựa vào tính chất này, ta thấy rằng nếu đồ thị khơng liên thơng thì dễ dàng phát hiện ra rằng đơn vị âm tiết khơng đốn nhận được khơng nằm trong từ điển âm tiết, tức nó bị viết sai chính tả hoặc là một đơn vị âm tiết (từ vựng) mới.

Với cách tiếp cận như trên, bài toán phân tách từ vựng trong câu tiếng Việt về cơ bản đã được giải quyết, đặc biệt là vấn đề tách các tổ hợp từ tương đương với một đơn vị từ vựng, thường là các cụm từ cố định, cụm từ gợi ý hoặc các thành ngữ

trong tiếng Việt. Với những câu nhập vào có sự nhập nhằng từ vựng, tức có nhiều hơn một cách phân tách thì chương trình liệt kê toàn bộ các phương án tách từ có thể và giành quyền lựa chọn kết quả cho người sử dụng. Trong tất cả các phương án phân tách đó bao giờ cũng tồn tại phương án đúng.

2.3.2.2. Dùng mơ hình n-gram và phương pháp xác suất thống kê

Hướng tiếp cận này thường quy định tham số đầu vào n trong mơ hình n-gram, thơng thường n=2 do số lượng từ ghép 2 tiếng chiếm đa số trong từ điển tiếng Việt. Có thể giải thích sơ qua về mơ hình n-gram, đây là mơ hình tách các từ liên tiếp nhau

trong văn bản, giả sử ta có văn bản S = {t1,t2,…,ti} với ti là tiếng trong văn bản, mơ hình trên sẽ gom các tiếng liên tiếp nhau thành 1 từ, với i tiếng sẽ có (i-(n-1)) từ.

Ví dụ ta có câu : “Bài báo trình bày một phương pháp hồn tồn mới” Dùng mơ hình n-gram với n=2 ta sẽ có các từ :

w1=”Bài báo” ,w2=”báo trình”, w3=”trình bày”, w4=”bày một”, w5=”một phương”, w6= “phương pháp”, w7=”pháp hoàn”, w8=”hoàn toàn”, w9=”toàn mới”

Ta thấy chỉ có w1,w3,w6,w8 là những cụm từ có nghĩa, theo quan niệm những cụm từ sau khi tách xuất hiện nhiều trong nhiều văn bản khác nhau thì ta cho rằng từ

đó có nghĩa. Như vậy các từ có nghĩa sẽ có tần suất xuất hiện nhiều nhất. Tuy nhiên

như đã thấy qua ví dụ trên với i=10 và n=2 chỉ có 4 cụm từ có nghĩa, nhưng có đến 5 cụm từ vơ nghĩa, chính vì thế nếu sử dụng phương pháp này ta phải xác định ngưỡng

khá nhiều.

2.3.2.3. Sử dụng giải thuật di truyền và thống kê trên Internet[19]

Phương pháp tập trung vào cách tách từ trong văn bản tiếng Việt theo một cách khả thi nào đó mà khơng dựa vào bất kỳ bộ lexicon hay ngữ liệu huấn luyện được gán nhãn nào để phục vụ cho việc phân loại văn bản tiếng Việt. Do có thể

tồn tại nhiều cách tách từ hợp lý khác nhau cho cùng một câu, phương pháp sử dụng giải thuật di truyền để tiến hóa quần thể mà trong đó, mỗi cá thể là tương ứng

với một cách tách từ cho câu đang xét. Hàm đánh giá độ thích nghi thể hiện thong tin

thống kê rút trích trực tiếp từ Internet sử dụng các search engine thương mại. Thơng tin rút trích bao gồm tần số của tài liệu và thông tin tương quan n-gram.

Hướng tiếp cận lai áp dụng nhiều cách khác nhau để tận dụng ưu điểm của

các giải pháp. Tóm lại, các hướng tiếp cận để phân loại văn bản tiếng Việt dựa

vào từ chỉ khả thi khi có bộ lexicon tốt và/hay ngữ liệu huấn luyện đủ lớn và đáng tin cậy

Với mỗi câu, p hươn g p h áp sẽ xác định cách tách từ hợp lý nhất. Tuy

nhiên, khơng gian tìm kiếm sẽ rất lớn do có nhiều cách tổ hợp các tiếng thành từ. Dựa vào nguyên lý tiến hóa và di truyền, giải thuật di truyền thích hợp cho việc xác định (xấp xỉ) các lời giải tối ưu hóa tồn cục trong khơng gian tìm kiếm rất

lớn thay vì các lời giải tối ưu cục bộ. Giải thuật di truyền sẽ tiến hóa một quần thể

qua nhiều thế hệ nhằm tối ưu hóa tồn cục thơng q q trình chọn lọc, lai, biến dị và tái sinh. Chất lượng của mỗi cá thể trong quần thể được xác định bằng hàm thích nghi và qua mỗi thế hệ, chúng ta sẽ chọn lại N cá thể tốt nhất sau khi thực hiện quá trình lai, biến dị và tái sinh.

Điểm mới của hướng tiếp cận này là thay vì phải sử dụng ngữ liệu huấn

luyện đã được gán nhãn hay lexicon – vốn chưa có sẵn cho tiếng Việt, tác giả

phương pháp đã sử dụng thông tin thống kê rút trích trực tiếp từ search engine và

dùng giải thuật di truyền để xác định những cách tách từ hợp lý nhất đối với văn

bản tiếng Việt cho trước. Các kết quả thực nghiệm cho thấy hướng tiếp cận này

đạt được những kết quả khả quan trong việc tách từ và phân loại văn bản tiếng

Việt với độ đo micro-averaging F1 đạt trên 90%. Phương pháp này hứa hẹn tiềm

chưa có các ngữ liệu được gán nhãn hay lexicon chuẩn.

2.4. Các thách thức của q trình rút trích văn bản khoa học 2.4.1. Văn phong

Theo [25] văn phong trong các văn bản khoa học phải theo các quy định sau : - Chính xác và sáng sủa

- Sử dụng những con số để định lượng, tránh nêu những từ mang tính định tính

- Dùng những từ ngữ khách quan, khơng mang tính cá nhân

- Sử dụng thì quá khứ, chỉ dùng hiện tại cho những thứ đã trở thành chân lý trong cộng đồng

- Ý của các đoạn văn phải theo trình tự dẫn giải từ trên xuống

Tuy văn bản khoa học có văn phong quy định, cấu trúc rõ ràng, nhất là với thể loại bài báo khoa học, nhưng cách viết, cách bố trí hay đặt đề mục của mỗi người là

khác nhau, thông thường bố cục bài báo phụ thuộc vào mạch ý tưởng của chính tác giả. Cịn thể loại tồn văn báo cáo thì lại càng phong phú trong cách viết, đa số là các báo cáo của sinh viên, những người chưa có nhiều kinh nghiệm trong viết một văn bản khoa học khiến cho sự phức tạp trong cấu trúc của văn bản càng trở nên phức tạp. Từ

đó gây nhiều khó khăn trong việc xác định các thành phần quan trọng trong văn bản

rút trích.

2.4.2. Lỗi văn phạm

Bên cạnh sự đa dạng trong cách viết, lỗi văn phạm do người viết tạo nên cũng gây nhiều trở ngại trong nhiều giai đoạn của quy trình xử lý. Việc sử dụng các dấu câu khơng đúng mục đích, những lỗi phát sinh chính tả do vơ ý như thêm các khoảng

trắng, đánh sai từ làm hệ thống rút trích khơng nhận diện được cũng ảnh hưởng nhiều

đến kết quả rút trích. Chính vì thế muốn kết quả rút trích có độ chính xác cao địi hỏi

Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt tiếng Việt

3.1. Các phương pháp rút trích

Như chúng ta đã đề cập ở mơ hình rút trích ý chính trong chương 1 (Hình 1.2) , trong giai đoạn phân tích, văn bản đầu vào được phân tích để xác định các đơn vị ngữ liệu quan trọng đồng thời tiếp nhận các thông số đầu vào của hệ thống tóm tắt. Các

thông số đầu vào được tiếp nhận ngay từ đây để hệ thống thông qua chúng sẽ áp dụng các phương pháp phù hợp. Cịn việc phân tích xác định các đơn vị ngữ liệu quan trọng là công việc của các phương pháp trong giai đoạn phân tích. Trong đó, văn bản cần

tóm tắt sẽ được tách ra thành các đoạn, các câu, và những đoạn hay câu quan trọng

nhất sẽ được chọn ra thông qua một số tiêu chí bài tốn.

Các phương pháp áp dụng trong giai đoạn phân tích được chia thành hai loại : Phương pháp thống kê và Phương pháp mạng ngữ nghĩa.

- Phương pháp thống kê là các phương pháp sử dụng các số liệu thống kê về độ quan trọng của các từ, ngữ, câu hay đoạn. Qua đây, hệ thống có thể sẽ giảm được số lượng các đối tượng phải xem xét và trích rút chính xác các đơn vị ngữ

liệu cần lấy. Các thống kê có thể nhận được từ các nghiên cứu về ngôn ngữ học hay thông qua phương pháp học máy từ các tập mẫu có sẵn. Từ đó, các thống

kê này được dùng cho các tính tốn hiện thời trên văn bản đầu vào.

- Phương pháp mạng ngữ nghĩa là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tư

tưởng chính của các phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên kết nhiều với các thành phần khác sẽ có độ quan trọng lớn. Việc

đánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa, các quan hệ cú pháp

hoặc thông qua các phương pháp xác định độ liên quan truyền thống.

3.1.1. Các phương pháp thống kê (Statistical Methods)

Tiếp cận thống kê đã chứng tỏ được tiềm năng khi áp dụng vào nhiều vấn đề trong xử lý ngôn ngữ tự nhiên, như dịch máy, tìm kiếm văn bản, và trích chọn

thơng tin. Khá nhiều phương pháp thống kê đã được áp dụng cho tóm tắt văn bản

toán phân lớp. Cụ thể hơn, một văn bản được phân thành 2 lớp, lớp quan trọng và

lớp không quan trọng. Phương pháp sử dụng học máy thống kê được áp dụng để xây dựng các luật cho việc phân lớp. Các phương pháp học máy đã được áp dụng thành

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 32)

Tải bản đầy đủ (PDF)

(99 trang)