Một số phƣơng pháp tách từ trong văn bản tiếng Việt

Một phần của tài liệu Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 42)

3. Bố cục và cấu trúc của luận văn

4.3.3. Một số phƣơng pháp tách từ trong văn bản tiếng Việt

Phƣơng pháp khớp tối đa ( Maximum Matching)

Đây là phƣơng pháp khớp tối đa (Maximum Matching) hay còn gọi là khớp tối đa từ trái qua phải. Với phƣơng pháp này, trong văn bàn, ta sẽ duyệt một câu hay một cụm từ từ trái qua phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và thực hiện lặp nhƣ thế cho đến hết câu.

Nhận xét:

Ƣu điểm của phƣơng pháp này là thƣc hiện tách từ đơn giản, nhanh chóng và chỉ cần dựa vào từ điển để thực hiện. Dễ dàng tách chính xác các cụm từ hoặc các câu mà trong đó các từ kế tiếp nhau không có sự nhập nhằng.

Nhƣợc điểm của phƣơng pháp này là phụ thuộc hoàn toàn vào từ điển, tính đầy đủ và độ chính xác của từ điển. Ngoài ra phƣơng pháp này dễ dẫn đến tách sai với các cụm từ hay câu có chứa sự nhập nhằng.

Ví dụ:

Ông/ già đi/ nhanh qúa, hay Ông già/ đi/ nhanh quá Trên/ bàn là/ một/ đĩa/ hoa quả

Phƣơng pháp TBL ( Transformation based learning)

Phƣơng pháp này dựa trên tập dữ liệu mẫu đƣợc đánh đấu. Sau đó sử dụng học máy để xây dựng mô hình cho các câu mẫu trong tập dữ liệu đã đƣợc đánh dấu. Sau khi đã đƣợc huấn luyện, máy sẽ xác định đƣợc các tham số cần thiết cho việc nhận diện và tách từ.

Nhận xét:

Phƣơng pháp này dễ hiểu, nhờ việc luyện máy và máy sẽ tự rút ra qui luật của ngôn ngữ, sau đó máy sẽ tự áp dụng chính xác khi có nhƣng câu theo đúng quy luật mà máy đã rút ra.

Có khả năng khử đƣợc một số nhập nhằng, mà các mô hình ngôn ngữ theo kiểu thống kê thƣờng không xác định đƣợc. Nó còn có đầy đủ các ƣu điểm của phƣơng pháp dựa trên luật, vì thức chất nó cũng dựa trên luật đƣợc rút ra. Tuy nhiên phƣơng pháp này bớt đƣợc công đoạn, thời gian và công sức của chuyên gia nếu tự xây dựng luật.

Nhƣợc điểm: Phụ thuộc vào dữ liệu đánh dẫu mẫu, việc tạo bộ dữ liệu dánh dấu mẫu đầy đủ và chính xác cho tiếng Việt là hết sức khó khăn, đòi hỏi nhiều thời gian và công sức. Phƣơng pháp tốn thời gian huấn luyện lâu để sinh ra tập luật đầy đủ và việc cài đặt chƣơng trình là phức tạp.

Phƣơng pháp sử dụng WFST và mạng nơ ron

Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số (WFST) đã đƣợc áp dụng trong tách từ từ năm 1996. Ý tƣởng của phƣơng pháp này là áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho dữ liệu. Dùng WFST để duyệt các câu cần xét, và chọn ra từ là từ có trọng số lớn nhất. D. Dinh [19] đã sử dụng phƣơng pháp này kết hợp với mạng Neural để khử sự nhập nhằng của từ. Phƣơng pháp này gồm hai tầng, tầng WFST để xử lý tách

từ và tầng mạng Neural dùng để khử nhập nhằng ngữ nghĩa của từ sau khi tách.

Nhân xét:

Phƣơng pháp này theo [19] có độ chính xác cao 97%. Sử dụng thêm mạng neural kết hợp với từ điển để khử các nhập nhằng có thể có sau khi tách ra đƣợc nhiều từ trong một câu để loại bỏ đi các từ không phù hợp bằng cách kết hợp với từ điển.

Nhƣợc điểm của phƣơng pháp này cũng tƣơng tự nhƣ TBL là cần tập dữ liệu huấn luyện đầy đủ và chính xác.

Phƣơng pháp tách từ tiếng Việt dựa trên thông kê Internet và giải thuật di truyền

Phƣơng pháp này do H. Nguyễn đề xuất năm 2005 [18] và đƣợc T.H Nguyễn cải tiến [3], 2006. Hƣớng tiếp cận này không sử dụng tập dữ liệu huấn luyên mẫu hay tập dữ liệu đánh dấu. Nó sử dụng thuật toán di truyền và dữ liệu thống kê đƣợc lấy từ Internet làm cơ sở cho việc tách từ.

Phƣơng pháp này bao gồm: bộ thu thập dữ liệu trực tuyến (online extractor) và sử dụng thuật toán di truyền cho tách từ (GA engine) .

Bộ thu thập dữ liệu trực tuyến: có tác dụng lấy thông tin về tần số xuất hiện của từ trong văn bản băng cách sử dụng một công cụ tìm kiếm nhƣ Google, Yahoo hay MS Live Search.., rồi tính toán mức độ phụ thuộc lẫn nhau về mặt thông tin (Mutual Information) để làm cơ sở tính fitness cho GA Engine.

Xác xuất xuất hiện của từ trên Internet đƣợc tính theo công thức (4-1):

( ) ( ) df w p w MAX  (4-1) Và 1 2 1 2 ( ) ( ) df w w p w w MAX    (4-2) Trong đó:

- MAX là số văn bản tiếng Việt đã đƣợc lập chỉ mục, giá trị này đƣợc chon là 109 [19]

- df(w) là tần xuất văn bản, số lƣợng văn bản trên Internet đƣợc tìm thấy có chứa từ w

Xác suất độ phụ thuộc của một từ lên một từ khác đƣợc tính theo (4-3):

1 2 1 2 1 ( ) ( / ) ( ) p w w p w w p w   (4-3)

Độ đo thống kê mức độ thông tin tƣơng hỗ giữa các âm tiết trong từ ghép cw=w1w2..wn đƣợc tính theo (4-4) 1 2 1 2 1 ( ... ) ( ) ( ) ( ... ) n n i n i p w w w MI cw p w p w w w           (4-4)

GA engine: Không gian tìm kiếm của phân đoạn từ là rất rộng, bởi có nhiều cách kết hợp các âm tiết thành các từ. Dựa trên quy luật về tiến hóa và di truyền, thuật toán GA đƣa ra khả năng duyệt trong không gian tìm kiếm lớn một cách hiệu quả và tìm xấp xỉ tối ƣu toàn cục.

Bài toán phân đoạn từ có thể đƣợc phát biểu thành: Văn bản t có thể đƣợc biểu diễn bằng n âm tiết kế tiếp: t=s1s2…sn. Mục tiêu ở đây là tìm các cách tốt nhất để phân đoạn t thành m đoạn: t=w1w2…wm với wk=si…sj (1≤i,j≤n) là các từ đơn hay từ phức.

Quần thể (pop) là tập hợp các cá thể (id) đƣợc biểu diễn bởi xâu nhị phân. Mỗi bit tƣơng ứng với một âm tiết. Vậy một từ có nghĩa sẽ là một chuỗi các bit liên kề liên tiếp.

Ví dụ:

GA phát triển một số thế hệ, trong mỗi thế hệ sẽ chọn N cá thể tốt nhất sau khi thực hiện lai gép, đột biến và sản sinh.

Quá trình GA tiến hành việc cải tiến giá trị fitness của các cá thể, tức là chất lƣợng việc phân đoạn từ. Quá trình này sẽ dừng lại khi giá trị fitness của thế hệ kế tiếp là hội tụ hoặc đặt đến một ngƣỡng định nghĩa từ trƣớc.

Nhân xét:

Ƣu điểm của phƣơng pháp này là không sử dụng bất kỳ một tập huấn luyện hay từ điền nào, không tốn thời gian cho việc huấn luyện, cài đặt không quá phức tạp do phƣơng pháp này khá đơn giản và dễ hiểu.

Nhƣợc điểm của phƣơng pháp là độ chính xác thấp hơn và thời gian chạy chậm do việc tƣơng tác với công cụ tìm kiếm trƣc tuyến để lấy thông tin.

Phƣơng pháp dựa trên CRF

Phƣơng pháp này sử dụng CRF (Common Random Fields là một trong nhƣng phƣơng pháp thành công nhất của học thống kê trong NLP và nhận dạng mẫu. Phƣơng pháp này đƣợc H.X. Phan và C.T. Nguyễn ở JAIST áp dụng vào tách từ trong tiếng Việt, 2006 [21] dựa trên cách áp dụng trong tiếng Trung [22].

Đặc biệt, CRF đƣợc thiết kế cho bài toán gán nhãn và phân đoạn dữ liệu tuần tự do khả năng chuẩn hóa toàn cục và cân bằng giữa các biến trạng thái của chuỗi dữ liệu. CRF sử dụng phƣơng pháp học theo phân biệt, rất linh hoạt trong trong xử lý nhiều dạng thuộc tính khác nhau của dữ liệu đầu vào để tăng khả năng dự đoán.

Giả sử o=(o1,o2,…,ot) là chuỗi dữ liệu đƣợc quan sát, gọi F là tập hợp các trạng thái của máy trạng thái hữu hạn, FSM, mỗi một trạng thái tƣơng ứng với một nhãn l L, gọi s=(s1,s2,…,sn) là một dãy các trạng thái, khi đó CRF đƣa ra xác suất có điều kiện của của dãy trạng thái, khi cho trƣớc chuỗi quan sát theo công thức.

(4-5)

trong (4-5) có:

là tổng chuẩn hóa trên toàn bộ dãy nhãn, ƒk là hàm thuộc tính và klà trọng số học đƣợc liên kết với hàm ƒk, mỗi ƒk là một thuộc tính trạng thái hoặc một thuộc tính chuyển đổi:

(4-7)

(4-8)

với  biểu thị Kronecker- , thuộc tính trạng thái kết hợp nhãn l của trạng thái hiện tại st và một thành phần ngữ cảnh (context predicate), hàm ok(o,t) thu thập tính chất đặc trƣng của một chuỗi quan sát o tại vị trí thời gian t.

Trong phƣơng pháp này, bài toán tách từ trong tiếng Việt đƣợc xem nhƣ là một tác vụ gán nhãn liên tục. Các âm tiết tiếng Việt bắt đầu một từ đƣợc đánh dầu là B\_W, các âm tiết bên trong một từ đƣợc đánh dấu là I\_W, các

đối tƣợng khác nhƣ dấu chấm, dấu phảy đƣợc đánh dấu là O. Bài toán phát hiện biên của từ trong một câu đƣợc xem là việc gán nhãn các âm tiết trong câu đó với ba nhãn nhƣ trên.

Để thí nghiêm cho phƣơng pháp này, tác giả đã xây dựng một tập ngữ liệu với hơn 8000 câu đƣợc đánh dấu, ngoài ra sử dụng thêm một từ điển tiếng Việt, Lạc việt, cùng với danh sách hơn 2000 tên riêng, và một dánh sách gồm 700 tên địa phƣơng ở Viêt nam. Đây đƣợc coi là các từ điển phụ trợ đƣợc sử dụng để tìm kiếm trong các mô hình CRF.

Thuật toán sử dụng các mẫu thành phần ngữ cảnh sau

Liên kết âm tiết Syllable_Conjunction (-2,2) Xác định trong từ điển In_LacViet_Dictionary (-2,2) Sử dụng từ điển phụ trợ ngoài In_Personal_Name_List(0,0), In_Family_Name_List(0,0), In_Middle_Name_List(-2,2), In_Location_List(-2,2) Khác Is_Regular_Expression(0,0), Is_Initial_Capitalization(0,0), Is_All_Capitalization(0,0), Is_First_Observation(0,0), Is_Marks(0,0)

Phát hiện âm tiết tiếng Việt Is_Valid_Vietnamese_Syllable(0,0)

*Các giá trị trong ngoặc thể hiện kích thước cửa sổ bao quan vị trí hiện tại

Thực nghiệm của Phan, X.H., cho thấy đây là phƣơng pháp cho kết quả cao, 94%, và cho kết quả vƣợt trội so với phƣơng pháp khớp tối đa. [21]

Nhận xét:

Ƣu điểm của phƣơng pháp là độ chính xác cao, tận dụng đƣợc ƣu điểm của CRF là một trong các phƣơng pháp thành công nhất trong việc giải quyết bài toán gán nhãn cho dữ liệu tuần tự.

Nhƣợc điểm của phƣơng pháp là cũng phụ thuộc vào tập dữ luyện huấn luyện và tập dữ liệu đánh dấu, phụ thuộc từ điển và tốn thời gian huấn luyện.

Một phần của tài liệu Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 42)

Tải bản đầy đủ (PDF)

(119 trang)