Một số phƣơng pháp tách từ trong văn bản tiếng Việt

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 42 - 48)

3. Bố cục và cấu trúc của luận văn

4.3. Vấn đề tách từ trong văn bản tiếng Việt

4.3.3. Một số phƣơng pháp tách từ trong văn bản tiếng Việt

Phƣơng pháp khớp tối đa ( Maximum Matching)

Đây là phƣơng pháp khớp tối đa (Maximum Matching) hay cịn gọi là khớp tối đa từ trái qua phải. Với phƣơng pháp này, trong văn bàn, ta sẽ duyệt một câu hay một cụm từ từ trái qua phải và chọn từ cĩ nhiều âm tiết nhất cĩ mặt trong từ điển và thực hiện lặp nhƣ thế cho đến hết câu.

Nhận xét:

Ƣu điểm của phƣơng pháp này là thƣc hiện tách từ đơn giản, nhanh chĩng và chỉ cần dựa vào từ điển để thực hiện. Dễ dàng tách chính xác các cụm từ hoặc các câu mà trong đĩ các từ kế tiếp nhau khơng cĩ sự nhập nhằng.

Nhƣợc điểm của phƣơng pháp này là phụ thuộc hồn tồn vào từ điển, tính đầy đủ và độ chính xác của từ điển. Ngồi ra phƣơng pháp này dễ dẫn đến tách sai với các cụm từ hay câu cĩ chứa sự nhập nhằng.

Ví dụ:

Ơng/ già đi/ nhanh qúa, hay Ơng già/ đi/ nhanh quá Trên/ bàn là/ một/ đĩa/ hoa quả

Phƣơng pháp TBL ( Transformation based learning)

Phƣơng pháp này dựa trên tập dữ liệu mẫu đƣợc đánh đấu. Sau đĩ sử dụng học máy để xây dựng mơ hình cho các câu mẫu trong tập dữ liệu đã đƣợc đánh dấu. Sau khi đã đƣợc huấn luyện, máy sẽ xác định đƣợc các tham số cần thiết cho việc nhận diện và tách từ.

Nhận xét:

Phƣơng pháp này dễ hiểu, nhờ việc luyện máy và máy sẽ tự rút ra qui luật của ngơn ngữ, sau đĩ máy sẽ tự áp dụng chính xác khi cĩ nhƣng câu theo đúng quy luật mà máy đã rút ra.

Cĩ khả năng khử đƣợc một số nhập nhằng, mà các mơ hình ngơn ngữ theo kiểu thống kê thƣờng khơng xác định đƣợc. Nĩ cịn cĩ đầy đủ các ƣu điểm của phƣơng pháp dựa trên luật, vì thức chất nĩ cũng dựa trên luật đƣợc rút ra. Tuy nhiên phƣơng pháp này bớt đƣợc cơng đoạn, thời gian và cơng sức của chuyên gia nếu tự xây dựng luật.

Nhƣợc điểm: Phụ thuộc vào dữ liệu đánh dẫu mẫu, việc tạo bộ dữ liệu dánh dấu mẫu đầy đủ và chính xác cho tiếng Việt là hết sức khĩ khăn, địi hỏi nhiều thời gian và cơng sức. Phƣơng pháp tốn thời gian huấn luyện lâu để sinh ra tập luật đầy đủ và việc cài đặt chƣơng trình là phức tạp.

Phƣơng pháp sử dụng WFST và mạng nơ ron

Mơ hình mạng chuyển dịch trạng thái hữu hạn cĩ trọng số (WFST) đã đƣợc áp dụng trong tách từ từ năm 1996. Ý tƣởng của phƣơng pháp này là áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho dữ liệu. Dùng WFST để duyệt các câu cần xét, và chọn ra từ là từ cĩ trọng số lớn nhất. D. Dinh [19] đã sử dụng phƣơng pháp này kết hợp với mạng Neural để khử sự nhập nhằng của từ. Phƣơng pháp này gồm hai tầng, tầng WFST để xử lý tách

từ và tầng mạng Neural dùng để khử nhập nhằng ngữ nghĩa của từ sau khi tách.

Nhân xét:

Phƣơng pháp này theo [19] cĩ độ chính xác cao 97%. Sử dụng thêm mạng neural kết hợp với từ điển để khử các nhập nhằng cĩ thể cĩ sau khi tách ra đƣợc nhiều từ trong một câu để loại bỏ đi các từ khơng phù hợp bằng cách kết hợp với từ điển.

Nhƣợc điểm của phƣơng pháp này cũng tƣơng tự nhƣ TBL là cần tập dữ liệu huấn luyện đầy đủ và chính xác.

Phƣơng pháp tách từ tiếng Việt dựa trên thơng kê Internet và giải thuật di truyền

Phƣơng pháp này do H. Nguyễn đề xuất năm 2005 [18] và đƣợc T.H Nguyễn cải tiến [3], 2006. Hƣớng tiếp cận này khơng sử dụng tập dữ liệu huấn luyên mẫu hay tập dữ liệu đánh dấu. Nĩ sử dụng thuật tốn di truyền và dữ liệu thống kê đƣợc lấy từ Internet làm cơ sở cho việc tách từ.

Phƣơng pháp này bao gồm: bộ thu thập dữ liệu trực tuyến (online extractor) và sử dụng thuật tốn di truyền cho tách từ (GA engine) .

Bộ thu thập dữ liệu trực tuyến: cĩ tác dụng lấy thơng tin về tần số xuất hiện của từ trong văn bản băng cách sử dụng một cơng cụ tìm kiếm nhƣ Google, Yahoo hay MS Live Search.., rồi tính tốn mức độ phụ thuộc lẫn nhau về mặt thơng tin (Mutual Information) để làm cơ sở tính fitness cho GA Engine.

Xác xuất xuất hiện của từ trên Internet đƣợc tính theo cơng thức (4-1):

( ) ( ) df w p w MAX  (4-1) Và 1 2 1 2 ( ) ( ) df w w p w w MAX    (4-2) Trong đĩ:

- MAX là số văn bản tiếng Việt đã đƣợc lập chỉ mục, giá trị này đƣợc chon là 109 [19]

- df(w) là tần xuất văn bản, số lƣợng văn bản trên Internet đƣợc tìm thấy cĩ chứa từ w

Xác suất độ phụ thuộc của một từ lên một từ khác đƣợc tính theo (4-3): 1 2 1 2 1 ( ) ( / ) ( ) p w w p w w p w   (4-3)

Độ đo thống kê mức độ thơng tin tƣơng hỗ giữa các âm tiết trong từ ghép cw=w1w2..wn đƣợc tính theo (4-4) 1 2 1 2 1 ( ... ) ( ) ( ) ( ... ) n n i n i p w w w MI cw p w p w w w           (4-4)

GA engine: Khơng gian tìm kiếm của phân đoạn từ là rất rộng, bởi cĩ nhiều cách kết hợp các âm tiết thành các từ. Dựa trên quy luật về tiến hĩa và di truyền, thuật tốn GA đƣa ra khả năng duyệt trong khơng gian tìm kiếm lớn một cách hiệu quả và tìm xấp xỉ tối ƣu tồn cục.

Bài tốn phân đoạn từ cĩ thể đƣợc phát biểu thành: Văn bản t cĩ thể đƣợc biểu diễn bằng n âm tiết kế tiếp: t=s1s2…sn. Mục tiêu ở đây là tìm các cách tốt nhất để phân đoạn t thành m đoạn: t=w1w2…wm với wk=si…sj (1≤i,j≤n) là các từ đơn hay từ phức.

Quần thể (pop) là tập hợp các cá thể (id) đƣợc biểu diễn bởi xâu nhị phân. Mỗi bit tƣơng ứng với một âm tiết. Vậy một từ cĩ nghĩa sẽ là một chuỗi các bit liên kề liên tiếp.

Ví dụ:

GA phát triển một số thế hệ, trong mỗi thế hệ sẽ chọn N cá thể tốt nhất sau khi thực hiện lai gép, đột biến và sản sinh.

Quá trình GA tiến hành việc cải tiến giá trị fitness của các cá thể, tức là chất lƣợng việc phân đoạn từ. Quá trình này sẽ dừng lại khi giá trị fitness của thế hệ kế tiếp là hội tụ hoặc đặt đến một ngƣỡng định nghĩa từ trƣớc.

Nhân xét:

Ƣu điểm của phƣơng pháp này là khơng sử dụng bất kỳ một tập huấn luyện hay từ điền nào, khơng tốn thời gian cho việc huấn luyện, cài đặt khơng quá phức tạp do phƣơng pháp này khá đơn giản và dễ hiểu.

Nhƣợc điểm của phƣơng pháp là độ chính xác thấp hơn và thời gian chạy chậm do việc tƣơng tác với cơng cụ tìm kiếm trƣc tuyến để lấy thơng tin.

Phƣơng pháp dựa trên CRF

Phƣơng pháp này sử dụng CRF (Common Random Fields là một trong nhƣng phƣơng pháp thành cơng nhất của học thống kê trong NLP và nhận dạng mẫu. Phƣơng pháp này đƣợc H.X. Phan và C.T. Nguyễn ở JAIST áp dụng vào tách từ trong tiếng Việt, 2006 [21] dựa trên cách áp dụng trong tiếng Trung [22].

Đặc biệt, CRF đƣợc thiết kế cho bài tốn gán nhãn và phân đoạn dữ liệu tuần tự do khả năng chuẩn hĩa tồn cục và cân bằng giữa các biến trạng thái của chuỗi dữ liệu. CRF sử dụng phƣơng pháp học theo phân biệt, rất linh hoạt trong trong xử lý nhiều dạng thuộc tính khác nhau của dữ liệu đầu vào để tăng khả năng dự đốn.

Giả sử o=(o1,o2,…,ot) là chuỗi dữ liệu đƣợc quan sát, gọi F là tập hợp các trạng thái của máy trạng thái hữu hạn, FSM, mỗi một trạng thái tƣơng ứng với một nhãn l L, gọi s=(s1,s2,…,sn) là một dãy các trạng thái, khi đĩ CRF đƣa ra xác suất cĩ điều kiện của của dãy trạng thái, khi cho trƣớc chuỗi quan sát theo cơng thức.

(4-5)

trong (4-5) cĩ:

là tổng chuẩn hĩa trên tồn bộ dãy nhãn, ƒk là hàm thuộc tính và klà trọng số học đƣợc liên kết với hàm ƒk, mỗi ƒk là một thuộc tính trạng thái hoặc một thuộc tính chuyển đổi:

(4-7)

(4-8)

với  biểu thị Kronecker- , thuộc tính trạng thái kết hợp nhãn l của trạng thái hiện tại st và một thành phần ngữ cảnh (context predicate), hàm ok(o,t) thu thập tính chất đặc trƣng của một chuỗi quan sát o tại vị trí thời gian t.

Trong phƣơng pháp này, bài tốn tách từ trong tiếng Việt đƣợc xem nhƣ là một tác vụ gán nhãn liên tục. Các âm tiết tiếng Việt bắt đầu một từ đƣợc đánh dầu là B\_W, các âm tiết bên trong một từ đƣợc đánh dấu là I\_W, các

đối tƣợng khác nhƣ dấu chấm, dấu phảy đƣợc đánh dấu là O. Bài tốn phát hiện biên của từ trong một câu đƣợc xem là việc gán nhãn các âm tiết trong câu đĩ với ba nhãn nhƣ trên.

Để thí nghiêm cho phƣơng pháp này, tác giả đã xây dựng một tập ngữ liệu với hơn 8000 câu đƣợc đánh dấu, ngồi ra sử dụng thêm một từ điển tiếng Việt, Lạc việt, cùng với danh sách hơn 2000 tên riêng, và một dánh sách gồm 700 tên địa phƣơng ở Viêt nam. Đây đƣợc coi là các từ điển phụ trợ đƣợc sử dụng để tìm kiếm trong các mơ hình CRF.

Thuật tốn sử dụng các mẫu thành phần ngữ cảnh sau

Liên kết âm tiết Syllable_Conjunction (-2,2) Xác định trong từ điển In_LacViet_Dictionary (-2,2) Sử dụng từ điển phụ trợ ngồi In_Personal_Name_List(0,0), In_Family_Name_List(0,0), In_Middle_Name_List(-2,2), In_Location_List(-2,2) Khác Is_Regular_Expression(0,0), Is_Initial_Capitalization(0,0), Is_All_Capitalization(0,0), Is_First_Observation(0,0), Is_Marks(0,0)

Phát hiện âm tiết tiếng Việt Is_Valid_Vietnamese_Syllable(0,0)

*Các giá trị trong ngoặc thể hiện kích thước cửa sổ bao quan vị trí hiện tại

Thực nghiệm của Phan, X.H., cho thấy đây là phƣơng pháp cho kết quả cao, 94%, và cho kết quả vƣợt trội so với phƣơng pháp khớp tối đa. [21]

Nhận xét:

Ƣu điểm của phƣơng pháp là độ chính xác cao, tận dụng đƣợc ƣu điểm của CRF là một trong các phƣơng pháp thành cơng nhất trong việc giải quyết bài tốn gán nhãn cho dữ liệu tuần tự.

Nhƣợc điểm của phƣơng pháp là cũng phụ thuộc vào tập dữ luyện huấn luyện và tập dữ liệu đánh dấu, phụ thuộc từ điển và tốn thời gian huấn luyện.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt (Trang 42 - 48)

Tải bản đầy đủ (PDF)

(119 trang)