Dùng thống kê

Một phần của tài liệu Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt (Trang 55)

Giải pháp này dựa theo ngữ cảnh của các từ xung quanh để đưa ra quyết định thích hợp. Có hai vấn đề cần được giải quyết đối với giải pháp này: độ rộng của ngữ cảnh và cách áp dụng thống kê. Ngữ cảnh càng rộng thì thuật toán càng phức tạp.Tuy nhiên giải pháp này phụ thuộc rất nhiều vào ngữ liệu huấn luyện. Kết quả huấn luyện của một ngữ liệu chính trị khó có thể áp dụng cho cho các tài liệu văn học và ngược lại. Hơn nữa, có những từ có xác suất rất cao, nhưng chỉ có chức năng về mặt ngữ pháp, làm giảm vai trò của xác suất.

Mô hình HMM

Trong cách áp dụng này, các trạng thái ẩn là các lớp từ, giả định rằng mỗi từ có thể thuộc mọi lớp từ với một xác suất nhất định. Bài toán được xem như tìm kiếm chuỗi lớp từ C=c1, c2, ..., cn từ một chuỗi từ W = w1, w2, ..., wn . Mục tiêu là tìm từ W và C từ câu S cho trước sao cho tối đa xác suất:

) ( ) | ( max arg , C P C W P C W

Giả sử rằng xác suất P(W|C) chỉ phụ thuộc vào lớp từ của nó, và xác suất lớp P(C) chỉ phụ thuộc vào lớp của tử đứng trước. Những xác suất này có thể được ước lượng bằng thuật toán Baurn-Welch dùng ngữ liệu huấn luyện. Tiến trình học dựa trên thuật toán Baurn-Welch và giống với bài toán gán nhãn từ loại bằng HMM, trừ việc số trạng thái được xác định trước và xác suất khởi đầu được gán ngẫu nhiên.

Hầu hết các giải pháp khác là sự lai ghép giữa các mô hình và các mô hình ngôn ngữ học như WFST, TBL. Thời gian xử lí cho các giải pháp loại này tăng đáng kể, nhưng độ chính xác đạt được khá cao. Tri thức về ngôn ngữ thường được áp dụng cho các mô hình dựa trên luật hiếm khi được áp dụng cho các mô hình trên.

4.2.3.1 Mô hình WFST và mạng nơ-ron

Mô hình WFST (Weigthed Finite State Transducer) đã được áp dụng để tách từ tiếng Trung Quốc. Ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu. Dùng WFST để duyệt qua câu cần xét. Cách duyệt có trọng số lớn nhất sẽ là cách tách từ được chọn. Trong [9], các tác giả đã phối hợp giữa mô hình WFST với mạng nơron thông qua ngưỡng phân tách từ t0

để xử lý các câu khi không khử được sự nhập nhằng qua WFST.

4.2.3.2 Mô hình Source-Chanel cải tiến

Mô hình này được đề nghị trong [12]

Đặt S là một câu tiếng Trung Quốc, hay là một chuỗi các kí tự (tương đương chuỗi tiếng trong tiếng Việt). Với mỗi cách tách từ W có thể có, chọn các tách từ tốt nhất W*, tương ứng với xác suất điều kiện P(W|S):

) | ( max arg * S W P W w

Theo công thức Bayes, bỏ mẫu số là hằng số, ta được :

) | ( ) ( max arg * W S P W P W w

Ta định nghĩa lớp từ C như sau:

 Mỗi từ được định nghĩa như một lớp

 Mỗi từ dẫn xuất hình thái được định nghĩa như một lớp

 Mỗi loại kí hiệu khác nhau được định nghĩa như một lớp. Ví dụ các biểu thức thời gian thuộc về lớp TIME.

 Mỗi loại tên riêng thuộc về một lớp. Ví dụ tên người thuộc lớp PN (Personal Name).

Ta chuyển công thức trên qua các lớp từ:

) | ( ) ( max arg * C S P C P C c

Công thức trên là công thức cơ bản của mô hình Source-Chanel cho tách từ tiếng Trung Quốc. Mô hình giả định câu S được phát sinh như sau: đầu tiên, một người chọn một chuỗi khái niệm (ví dụ, lớp từ C) để xuất ra, theo xác suất P(C). Sau đó người đó cố gắng thể hiện các khái niệm đó bằng chuỗi các kí tự theo xác suất P(S|C).

Mô hình Source-Chanel có thể hiểu theo một cách khác: P(C) là mô hình thống kê dự đoán xác suất của chuỗi lớp từ. Nó chỉ ra khả năng một lớp từ xuất hiện, dựa trên một ngữ cảnh cho trước. Vậy P(C) còn được hiểu như mô hình ngữ cảnh. P(S|C) là mô hình phát sinh, dự đoán khả năng một chuỗi kí tự được phát sinh dựa trên lớp từ cho trước. Vậy P(S|C) còn được hiểu như mô hình lớp.

Mặc dù ngữ cảnh và mô hình lớp có thể được kết hợp bằng một phép nhân đơn giản. Tuy nhiên nếu thêm trọng số thì kết quả tốt hơn. Lí do là có một số mô hình lớp dự đoán kết quả rất không chính xác. Hơn nữa, các mô hình lớp của các lớp từ khác nhau được xây dựng theo những cách khác nhau. Vì vậy xác suất mô hình lớp khác nhau nhiều giữa các mô hình lớp. Một cách để cân bằng những xác suất này là thêm vào một trọng số CW cho mỗi mô hình lớp để điều chỉnh xác suất P(S|C) thành P(S|C)CW. Với mô hình đã có, thao tác tách từ bao gồm hai bước:

1. Cho chuỗi S, phát sinh mọi cách tách từ có thể có. Mỗi cách tách từ được gán nhãn lớp từ và xác suất lớp P(S'|C) , với S' là bất kỳ chuỗi con nào của S.

2. Dùng thuật toán tìm kiếm Viterbi để chọn cách tách từ có khả năng nhất theo công thức đã nêu trên.

Huấn luyện:

Nếu có một ngữ liệu đã được tách từ sẵn thì công việc trở nên rất dễ dàng. Tuy nhiên, việc xây dựng một ngữ liệu tách từ sẵn đủ lớn sẽ tốn rất nhiêu công sức (đặc biệt là các mô hình thống kê thường đòi hỏi lượng ngữ liệu cực kì lớn, lớn hơn rất nhiều so với các mô hình dựa trên luật). Để đơn giản vấn đề, ngữ liệu này được xây dựng tự động như sau:

1. Khởi đầu, sử dụng một bộ tách từ sẵn có (có thể áp dụng các thuật giải đơn giản, không cần huấn luyện như Longest Matching, Maximum Matching...)

2. Sử dụng mô hình đề nghị để tách từ ngữ liệu huấn luyện.

3. Tái huấn luyện mô hình dựa trên kết quả tách từ có được ở bước 2. Bước 2-3 có thể được lặp lại nhiều lần cho đến khi hiệu suất của mô hình không tăng.

4.2.3.2 Mô hình TBL

Mô hình TBL có thể được áp dụng cho nhiều bài toán khác nhau. Tuỳ theo các hành động cụ thể của mẫu luật cách áp dụng sẽ khác nhau. Mẫu luật áp dụng cho TBL sử dụng các hành động sau:

 Nối hai kí tự (tiếng)  Tách hai kí tự

 Trượt ranh giới từ sang kí tự kế bên.

4.3 Đề xuất mới

4.3.1 Từ điển

Từ điển được thành lập dựa trên một từ điển có sẵn. Như đã nói ở trên có nhiều định nghĩa khác nhau về từ, nhìn chung các từ ở đây được hiểu là [10]:

-Về hình thức, từ phải là một khối về cấu tạo (chính tả, ngữ âm...) -Về nội dung, từ phải có ý nghĩa hoàn chỉnh

-Về khả năng, từ có khả năng hoạt động tự do và độc lập về cú pháp

Có nhiều tiêu chí cho thành lập từ điển, do vậy ở đây một từ điển bao hàm toàn diện là không có. Từ điển của tôi được sưu tầm từ một số từ điển có sẵn như từ điển Lạc Việt, có biên tập và bổ sung từ vài nguồn từ điển khác.

Từ kết hợp với từ một cách có tổ chức và có ý nghĩa làm thành những tổ hợp từ, tức là kiến trúc lớn hơn từ. Tổ hợp từ có thể là một câu, có thể là một kiến trúc tương đương với câu nhưng chưa thành câu, cũng có thể là một đoạn có nghĩa của câu [2]. Đơn vị dùng làm chất liệu cơ sở để tạo ra câu không phải chỉ có từ. Ngoài từ ra còn có một loại đơn vị gọi là cụm từ cố định. Cụm từ cố định là đơn vị do một số từ hợp lại, tồn tại với tư cách một đơn vị có sẵn như từ, có thành tố cấu tạo và ngữ nghĩa cũng ổn định như từ. Chính vì thế cụm từ cố định được gọi là đơn vị tương đương với từ.[4].

sắt", "anh hùng rơm","ông chẳng bà chuộc".

Từ điển được thiết lập trong khảo sát này bao gồm 84.107 mục từ, trong đó số lượng các từ có 2 âm tiết là lớn nhất (60.467=71,9%). Thống kê phân bố các mục từ theo số lượng âm tiết có trong từ như sau:

5839 60467 8982 7463 608 566 101 76 4 0 10000 20000 30000 40000 50000 60000 70000 S l ư n g t 1 2 3 4 5 6 7 8 9

Số lượng tiếng trong từ

Hình 4.1 Biểu đồ phân bố từ theo số lượng tiếng trong từ

Dữ liệu trong từ điển được thu thập sao cho có mức độ đồng đều về nhiều thể loại để có thể bao quát nhiều lĩnh vực nhằm phục vụ tốt cho việc tách từ dựa theo từ điển. Đây là một điều cực kì khó khăn bởi từ trước đến nay chưa có một từ điển nào như vậy và cũng chưa ai làm được điều này. Trong phạm vi khảo sát, tôi sưu tập mục từ làm từ điển dựa trên các ngữ liệu trên Internet, vì đây là nguồn thông tin phong phú nhất cho nhiều lĩnh vực chuyên môn, hi vọng có thể đáp ứng được phần lớn các thể loại văn bản.

4.3.2 Các giả thiết

Qua khảo sát thấy rằng sự nhập nhằng về ranh giới từ chủ yếu xảy ra giữa từ ghép có hai tiếng với một từ đơn. Ví dụ trong các câu sau:

Tốc độ truyền thông tin số sẽ tăng cao ( truyền thông_tin hay truyền_thông tin) (1)

Cúm gia cầm đã xuất hiện tại một số tỉnh thành (xuất_hiện tại hay xuất hiện_tại) (2) Nếu áp dụng các giải pháp của MMM đều không giải quyết được nhập nhằng

này. Trong một chuỗi có 3 tiếng "C1 C2 C3", để quyết định lựa chọn đâu là từ cần phải xử lí nhập nhằng giữa : "C1 C2C3" và "C1C2 C3".

Để giải quyết vấn đề này cần có một yếu tố mới làm tiêu chí nhằm phân định rõ ràng để lựa chọn hoặc C1 hoặc C1C2. Một từ càng có nhiều tiếng (âm tiết) thì càng có khả năng được lựa chọn (theo mô hình so khớp tối đa), tức nó bền vững hơn trong việc phân tách từ. Nói cách khác là cường độ liên kết của một từ tỉ lệ thuận với số tiếng trong từ. Yếu tố mới ở đây chính là cường độ liên kết từ. Trong một chuỗi âm tiết cho trước: a-b-c-d-e-f ... thì a có vẻ là từ hơn khi tìm được bc là từ. Điều này càng chắc chắn hơn nếu tìm được bcd hay bcde là từ, vì rằng cường độ liên kết trong các từ bc, bcd hay bcde càng mạnh hơn, nó có vẻ rất mạnh để cô lập

a ra khỏi chuỗi âm tiết kể trên, tiến tới việc tách a là một từ có vẻ hợp lí hơn. Việc xét ab có phải là từ không cũng tương tự như ở trên.

Giả thiết ở đây là : từ càng có nhiều âm tiết càng có cường độ liên kết mạnh. Tức là:

L(ab)<L(abc)<L(abcd)...

Trong đó L cường độ liên kết của từ, với ab, abc,..là các từ thực sự.

Như đã đề cập ở trên, sự nhập nhằng về ranh giới từ chủ yếu xảy ra ở từ đơn 1 tiếng với từ ghép có 2 tiếng. Do vậy để giảm bớt việc tính toán cường độ liên kết trong một từ, ta cũng chỉ tính toán cường độ liên kết cho từ ghép có 2 tiếng. Một khó khăn là chưa có cơ sở khoa học nào để đưa ra cách tính toán giá trị cường độ liên kết giữa hai tiếng trong một từ ghép. Phương pháp thống kê có thể đưa ra một vài số liệu nhưng không đáng tin cậy.

Ta nhận thấy rằng có những từ rất bền vững trong mọi hoàn cảnh như ngốc ngếch, ngô nghê,.. nhưng cũng có từ dễ dàng bị phân tách trong các trường hợp khác nhau , ví dụ: nhà ăn -> nhà ăn ca; làm nông ->làm nông nghiệp. Đóchính là do cường độ liên kết trong từ mạnh hay yếu.

Giả thiết ở đây là : trong từ ghép có hai tiếng, tồn tại các cường độ liên kết có độ mạnh yếu khác nhau.

Qua quá trình khảo nghiệm, ở đây tôi xin đưa ra một phân loại mang tính chủ quan về việc xác định cường độ liên kết giữa hai tiếng trong một từ ghép. Phân loại bao gồm 4 loại theo cường độ liên kết giảm dần như sau:

+ Loại 1: Bền vững.

Đặc điểm của loại này là rất bền vững, không thể bị chia tách thành 2 từ đơn riêng biệt trong mọi hoàn cảnh của chuỗi từ đã cho, Các từ trong phân loại này là các từ láy: sặc sỡ, xum xuê... Tiếng Việt có lớp từ láy rất phong phú, hiện chưa có thuật toán nào có thể nhận dạng hoàn toàn các từ láy. Ta có thể sử dụng một số qui tắc hài thanh láy vần để nhận dạng một phần lớp từ này [4]:

-Láy toàn bộ từ : hao hao, lăm lăm, đùng đùng,...

-Láy toàn bộ nhưng đối nhau ở thanh điệu: đo đỏ, hơ hớ, sừng sững, ra rả...

-Láy toàn bộ đối nhau ở âm cuối theo qui luật dị hoá m-p; ng-c; n-t; nh-ch :

ăm ắp, chiêm chiếp, cầm cập, chan chát, khang khác, chênh chếch,...

-Láy phần vần chỉ có phụ âm đầu thay đổi: lèo tèo, lẩm bẩm, càu nhàu, hấp tấp...

-Láy bộ phận, chỉ có âm chính thay đổi: chúm chím, hổn hển,...

Phần còn lại của lớp từ này được nhận dạng một cách thủ công trong từ điển đã xây dựng.

+ Loại 2: Khá bền

Phân loại này có mức độ bền vững chỉ kém sau loại 1, nó chỉ có thể bị chia tách nếu đứng cạnh từ ghép loại 1. Trong phân loại này bao gồm các từ sau :

-Từ ghép mà trong đó có một tiếng bị phai nghĩa hoặc không có nghĩa mà không thể đứng một mình như một từ đơn được: của nả, dưa hấu, cửa rả, tre pheo, áo xống ...

-Các từ có nguồn gốc Ấn-Âu: xi phông, cờ lê, xà phòng...

-Các từ có cả hai tiếng đều có nguồn gốc Hán : triều đại, quốc gia, quốc tế, đại ca, lưu trữ, lưu thông...

-Một số từ thuần Việt bền vững khác: mặc kệ, mặc dầu,..

+ Loại 3: Hơi bền

Đặc điểm của loại này là khi đứng đầu trong chuỗi có 3 âm tiết C1C2C3 nó có thể bị tách ra hoặc không, ví dụ: thành công của- thành công chuyện; có thể hiện- có thể khí ,...Nghĩa là tính bền vững của nó kém hơn loại trên. Trong một số trường hợp nó vẫn có thể tồn tại ở đầu chuỗi 3 âm tiết.

+ Loại 4: Kém bền

Theo phân loại trên thì loại này là kém bền vững nhất. Trong một chuỗi từ ghép, nó luôn bị tách ra bởi các từ bền vững hơn. Ngay cả khi có sự nhập nhằng giữa hai từ ghép cùng loại này thì xu hướng tách từ luôn bị lệch sang bên phải. Ví dụ: giá bán lẻ-biểu giá bán, kẻ vạch mặt- vạch mặt cắt,...

Việc phân loại có thể được thực hiện theo thuật toán sau:

 Nhập vào một từ ghép 2 tiếng C1C2

 Tìm tất cả các từ ghép 2 tiếng bắt đầu là C2 ghép thành C1C2C3

 Nếu có một từ ghép C2C3 hợp lí mà C1 vẫn có thể đứng tự do được thì là loại 4.

Ví dụ: tính cách -> tính cách mạng -> loại 4

 Nếu là loại 4 mà tìm được một trường hợp C1C2 tồn tại hợp lí thì là loại 3

Ví dụ: có thể -> có thể hiện -> loại 4 có thể-> có thể khí-> loại 3

 Ngược lại C1C2 thuộc loại 2

Dựa trên sự phân loại về cường độ liên kết trên, ở đây có thể đưa ra qui tắc nhằm giải quyết nhập nhằng về ranh giới từ trong một chuỗi 3 âm tiết C1 C2 C3 như sau:

-Xác định loại liên kết của C1C2 và C2C3 lần lượt là L(C1C2) và L(C2C3) - Lựa chọn luôn ưu tiên cho loại có liên kết bền vững hơn.

- Nếu cả hai liên kết là cùng loại thì ưu tiên bên trái. Riêng nếu liên kết loại 4

Một phần của tài liệu Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt (Trang 55)

Tải bản đầy đủ (PDF)

(81 trang)