1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài tập lớn xử lý ngôn ngữ tự nhiên đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyền

26 3K 24

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 0,97 MB

Nội dung

Bài tập lớn xử lý ngôn ngữ tự nhiên đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyền

Trang 1

VIỆN CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

Bài t p l n: X lý ngôn ng t ập lớn: Xử lý ngôn ngữ tự ớn: Xử lý ngôn ngữ tự ử lý ngôn ngữ tự ữ tự ự

nhiên

Đề tài : Tìm hiểu phương pháp tách từ trong văn bản tiếng

việt theo hướng tiếp cận của giải thuật di truyền.

Giảng viên hướng dẫn: PGS.TS Lê Thanh Hương

Sinh viên thực hiện:

1- Nguyễn Thị Thúy 20082599 2- Lương Thị Hoài Thu 20082588 3- Nguyễn Đình Hưởng 20081338 4- Nguyễn Phước Thọ 20082562

Trang 2

HỆ THỐNG THÔNG TIN K53

Hà Nội, 04/2012

M C L C ỤC LỤC ỤC LỤC

I Tổng quan 3

1 Đặt vấn đề 3

2 Tách từ Tiếng Việt 3

II Các phương pháp tách từ hiện nay 4

1 Vấn đề tách từ Tiếng Việt 4

1.2 Nhận xét 4

2 Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt 5

2.1 Hướng tiếp cận dựa trên từ (Word-based approaches) 6

2.2 Hướng tiếp cận dựa trên kí tự 6

3 Một số phương pháp tách từ tiếng Việt hiện nay 7

3.1 So khớp từ dài nhất (Longest Matching) 7

3.2 Học dựa trên sự cải biến (Transformation-based Learning -TBL) 8

3.3 Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST) 8

3.4 Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC) 10

3.5 Học máy sử dụng mô hình Markov ẩn (Hidden Markov Models-HMM 11

4 Kết luận 13

III Giải thuật di truyền 13

1 Tổng quan về giải thuật di truyền 13

2 Cơ sở lý thuyết 13

IV Phương pháp tách từ dựa trên thống kê Internet theo hướng tiếp cận của giải thuật di truyền (IGATEC) 15

1 Nghiên cứu thống kê dựa trên Internet 15

Trang 3

2 Phương pháp tách từ dựa trên thống kê Internet theo hướng tiếp cận của giải thuật di

truyền(IGATEC) 16

2.1 Công cụ trích xuất thông tin từ Google 16

2.2 Công cụ tách từ dùng thuật toán di truyền (Genetic Alogorith) 17

3 Kết luận 21

V Tìm hiểu opensource Vntokenizer để tách từ trong văn bản tiếng việt 24

1 Giới thiệu chương trình 24

2 Hướng dẫn chạy chương trình 24

2.1 Dữ liệu 24

2.2 Chạy chương trình 25

VI- Tài Liệu Tham khảo… ………27

Trang 4

I Tổng quan

1 Đặt vấn đề

Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo nhất của tư duy và giao tiếp

Thực chất của xử lý ngôn ngữ tự nhiên là chuyển đổi âm thanh thành ngữ nghĩa Với mục đích là hiểu được ngôn ngữ, ý nghĩa

Các bước phân tích của XLNNTN:

 Phân tích hình thái học (Morphology): cách từ được xây dụng, các tiền tố hậu tố

 Phân tích cú pháp (Syntax): mối liên hệ về cấu trúc ngữ pháp giữa các từ

và ngữ

 Phân tích ngữ nghĩa (Semantics ): nghĩa của từ, cụm từ và cách diễn đạt

 Diễn ngôn (Discourse): quan hệ giữa các ý hoặc các câu

 Thực chứng: mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp

 Tri thức thế giới: Các chi thức về thế giới vá các tri thức ngầm

Trong phân tích hình thái học từng từ sẽ được phân tích và các ký tự không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ Trong tiếng Anh và nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách Tuy nhiên trong tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ Cùng với các ngôn ngữ như tiếng Trung,tiếng Hàn,tiếng Nhật, phân tách từ trong tiếng Việt là một công việc không

hề đơn giản

2 Tách từ Tiếng Việt

Đối với tiếng Anh hoặc các ngôn ngữ không đơn lập khác “từ là một nhómcác kí tự có nghĩa được tách biệt bằng khoảng trắng trong câu” do vậy việc tách từ trở nên rất đơn giản

Còn đối với ngôn ngữ đơn lập như tiếng Việt, tiếng Hán, tiếng Thái … lại là một bài toán khó Bởi những đặc tính chính của ngôn ngữ đơn lập như sau:

 Từ ở dạng nguyên thể , hình thức và ý nghĩa của từ độc lập với cú pháp

 Từ được cấu trúc từ tiếng

 Từ bao gồm từ đơn và từ phức (bao gồm từ láy và từ ghép)

Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải

di truyền – IGATEC (Internet and Genetics Algorithm based Text

Categorization for Documents in Vietnamese) do H Nguyễn đề xuất năm

2005 như một hướng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập ngữ liệu học nào

Trang 5

Vì vậy trong nội dung bài tập lớn này chúng em sẽ tìm hiểu về phương pháp IGATEC và demo phương pháp sử dụng open source Vntokenizer.

II Các phương pháp tách từ hiện nay

1. Vấn đề tách từ Tiếng Việt

1.1 So sánh giữa tiếng Anh và tiếng Việt.

Những đặc điểm chính của tiếng anh và tiếng Việt:

- Là ngôn ngữ đơn lập (isolate) hay còn

gọi là loại hình phi hình thái, không biến

hình, đơn âm tiết

- Từ không biến đổi hình thái, ý nghĩa

- Tồn tại loại từ đặc biệt “từ chỉ loại” hay

còn gọi là phó danh từ chỉ loại kèm theo

 - Từ có biến đổi hình thái, ý nghĩa ngữ pháp nằm ở trong từ

 - Phương thức ngữ pháp chủ yếu là phụ tố

 - Kết hợp giữa các hình vị là chặt chẽ, khó xác định, được nhận diện bằng khoảng trắng hoặc dấu câu

- Hiện tượng cấu tạo bằng từ ghép thêm phụ tố (affix) vào từ gốc là rất phổ biến

1.2 Nhận xét

 Tiếng Việt là loại hình phi hình thái nên việc phân loại từ (danh từ, động

từ, tính từ….) và ý nghĩa từ là rất khó khăn, cho dù có sử dụng từ điển

 Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức tạp với phần xử lý các hư từ, phụ từ, từ láy…

 Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác xuất xuất hiện của từ có thể không chính xác như mong đợi

 Ranh giới từ không được xác định mặc định bằng khoảng trắng Điều này khiến cho việc phân tích hình thái (tách từ) tiếng Việt trỏe nên khó khăn Việc nhận diện ranh giới từ là quan trọng và làm tiền đề cho các xử lý tiếp theo sau đó như: kiểm tra lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ

 Vì tiếng Anh và tiếng Việt có những điểm khác biệt nên chúng ta không thể áp dụng y nguyên các thuật toán tiếng Anh cho tiếng Việt

Trang 6

2 Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt

Dựa vào các kĩ thuật tách từ của tiếng Hán, và những điểm tương đồng giữa tiếng Việt và tiếng Hán Chúng ta có thể xây dựng sơ đồ các hướng tiếp cận của kĩ thuật tách từ tiếng Việt:

Hybrid

Vietnamese segmentation

Vietnamese segmentation

Full word/ Phrase Component

Trang 7

II.1 Hướng tiếp cận dựa trên từ (Word-based approaches)

Hướng tiếp cận dựa trên từ với mục tiêu tách được các từ hoàn chỉnh trong câu Hướng tiếp cận này có thể chia ra theo 3 hướng : dựa trên thống kê (statistics - based),dựa trên từ điển ( dictionary – based) và hydrid ( kết hợp nhiều phương pháp)

 Hướng tiếp cận dựa trên thống kê (statistic-based): dựa trên các thông tin như tần số xuất hiện của từ trong tập huấn luyện ban đầu

 Hướng tiếp cận dựa trên từ điển (dictionary- based): ý tưởng của hướng tiếp cận này là những cụm từ được tách rat ừ văn bản phải được

so khớp với các từ trong từ điển

Tùy thuộc vào loại từ điển sử dụng để so khớp lại có 2 hướng tiếp cận :full word/ pharse và component Trong đó full word/ pharse cần sử dụng một từ điển hoàn chỉnh Còn component thì sử dụng từ điển thành phần

Tùy theo cách chọn so khớp từ (match) hướng tiếp cận ‘full word/ pharse’ có thể chia ra làm 3 loại: so khớp dài nhất (longest match), so khớp ngắn nhất (shortest match) và so khớp kết hợp (overlap) Trong

so khớp kết hợp mỗi chuỗi được phát sinh từ văn bản có thể chồng lấp lên chuỗi khác nếu chuỗi đó có trong từ điển

Hiện nay thì hướng tiếp cận so khớp dài nhất được xem là phương pháp quan trọng và có hiệu quả nhất trong hướng tiếp cận dựa trên từ điển

 Hướng tiếp cận hybrid: Với mục đích kết hợp các hướng tiếp cận khác nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướngtiếp cận khác nhau nhằm nâng cao kết qủa Hướng tiếp cận này thường kết hợp giữa hướng dựa trên thống kê và dựa trên từ điển nhằmtận dụng các mặt mạnh của các phương pháp này Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý , không gian đĩa và đòi hỏi nhiều chi phí

II.2 Hướng tiếp cận dựa trên kí tự

Trong tiếng việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự trong bảng chữ cái Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định các tiếng trong văn bản như rút trích từ 1 ký tự (unigram) hay nhiều ký tự (n-gram) và cũng mang lại một số kết qủa nhất định được minh chứng thông qua một số công trìnhnghiên cứu đã được công bố , như của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phương pháp qui hoạch động để cựa đại hóa xác suất xuất hiện của các ngữ.Rồi công trình nghiên cứu của H Nguyễn[2005] làm theo hướng tiếp cận là thay vì sử dụng ngữ liệu thô , công trình tiếp cận theo hướng xem Internet như một kho ngữ liệu khổng lồ , sau đó tiến hành thống kê và sử dụng thuật giải di truyền để tìm cách tách từ tối ưu nhất , và một số công trình của một số tác giả khác.Khi so sánh kết qủa của tác giả Lê An Hà và H.Nguyễnt thì thấy công trình của H.Nguyễn cho được kết qủa tốt hơn khi tiến hành tách từ , tuy nhiên thời gian xử lý lâu hơn.Ưu điểm nổi bật của hướng tiếp cận dựa trên nhiều ký tự là tính đơn giản , dễ ứng dụng , ngoài ra còn có thuận lợi là ít tốn chi phí cho thao tác tạo chỉ mục và xử lýnhiều câu truy vấn.Qua nhiều công trình nghiên cứu của các tác giả đã được công bố ,

Trang 8

hướng tiếp cận tách từ dựa trên nhiều ký tự , cụ thể là cách tách từ hai ký tự được cho

là sự lựa chọn thích hợp

3 Một số phương pháp tách từ tiếng Việt hiện nay

3.1 So khớp từ dài nhất (Longest Matching)

Longest Matching là thuật toán dựa trên tử tưởng tham lam Nó xét các tiếng từ trái qua phải, các tiếng đầu tiên dài nhất có thể mà xuất hiện trong từ điển sẽ được tách ra làm một từ Thuật toán sẽ dừng khi xét hết các tiếng Thuật toán chỉ đúng khi không có

sự nhập nhằng những tiếng đầu của tù sau có thể ghép với từ trước tạo thành một từ có trong từ điển

Wmax= từ đầu danh sách V; // từ dài nhất

Foreach (v thuộc từ gồm các tiếng bắt đầu trong V)

If(length(v)> length(Wmax) and v thuộc T) then Wmax= v;

Loại đi các tiếng trong W max ở đầu danh sách V;

End.

Ví dụ : Tôi là sinh viên trường đại học Bách Khoa Hà Nội

Bước Từ dài nhất có thể Các tiếng còn lại

1 Tôi là sinh viên trường đại học Bách Khoa Hà Nội

2 Là sinh viên trường đại học Bách Khoa Hà Nội

3 Sinh viên trường đại học Bách Khoa Hà Nội

4 Trường đại học Bách Khoa Hà Nội

5 Đại học Bách Khoa Hà Nội

6 Bách Khoa Hà Nội

7 Hà Nội

Ưu điểm:

- Tách từ nhanh đơn giản chỉ cần dựa vào từ điển

- Độ chính xác tương đối cao

Trang 9

3.2 Học dựa trên sự cải biến (Transformation-based Learning -TBL)

Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu Theo cách tiếp cận này, để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta có thể cho máy “học” trên ngữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ đúng

Sau khi học xong, máy sẽ xác định được các tham số (các xác suất) cần thiết cho

mô hình nhận diện từ

Ưu điểm:

- Đặc điểm của phương pháp này là khả năng tự rút ra quy luật của ngôn ngữ

- Nó có những ưu điểm của cách tiếp cận dựa trên luật nhưng nó khác phục đượckhuyết điểm của việc xây dựng các luật một cách thủ công bởi các chuyên gia

- Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu của luật (dựa trên ngữ liệu huấn luyện)

- Có khả năng khử một số nhập nhằng của các mô hình ngôn ngữ theo kiểu thốngkê

Hạn chế:

- Phương pháp này “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động các quyluật đó” Mà việc xây dựng một tập ngữ liệu đạt được đầy đủ các tiêu chí của tập ngữ liệu trong tiếng Việt là điểu rất khó, tốn kém nhiều về mặt thời gian và công sức

- Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật tương đối đầy đủ

- Cài đặt phức tạp

3.3 Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST)

Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST đã được đề xuất năm 1996 Ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu Dùng WFST để duyệt qua câu cần xét Cách duyệt có trọng số lớn nhất sẽ là cách tách từ được chọn Phương pháp này cũng đã được sử dụng trong công trình đã được công bố của tác giả Đinh Điền [2001] , tác giả đã sử dụng WFST kèm với mạng Neural để khử nhập nhằng khi tách từ , trong công trình tác giả đã xây dựng hệ thống tách từ gồm tầng WFST để tách từ và xử lý các vấn đề liên quan đến một số đặc thù riêng của ngôn ngữ tiếng Việt như từ láy , tên riêng , và tầng mạng Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã tách từ (nếu có)

Sơ đồ các bước sử lý của WFST

 Tầng WFST: gồm 3 bước

Xây dựng từ điển trọng số: theo mô hình WFST, việc phân đoạn từ được xem như

một sự chuyển dịch trạng thái có xác suất (Stochastic Transduction) Chúng ta mien tả

từ điển D là một đồ thị biến độ trạng thái hữu hạn có trọng số Giả sử:

- H: là tập các từ chính tả tiếng Viêt (còn gọi là “tiếng”)

- P: là từ loại của từ (POS: part - Of – Speech)

Mỗi cung của D có thể là:

Trang 10

- Từ một phần từ của H tới một phần từ của H, hoặc

- Từ З (ký hiệu kết thúc từ) tới một phần từ của P

Các nhãn trong D biểu thị một chi phí ước lượng (estimated

cost) bằng công thức:

Cost = - log(f/N)

- Với f: tần số của từ, N: kích thước tập mẫu

Đối với các trường hợp từ mới chưa gặp, tác giả áp dụng xác

suất có điều kiện Goog – Turning (Baayen) để tính toán

trọng số

Xây dụng khả năng phân đoạn từ: để giảm bớt sự bùng nổ

tổ hợp khi sinh ra các dãy các từ có thể từ một dãy các

tiếng trong câu, tác giả đề xuất một phương pháp mới là

kết hợp dùng từ điển để hạn chế sinh ra các bùng nổ tổ

hợp Khi phát hiện thấy một cách phân đoạn từ nào đó

không phù hợp (không có trong từ điển, không phải là từ

láy, không phải là danh từ riêng…) thì tác giả loại bỏ các

nhánh xuất phát từ cách phân đoạn từ đó

Lựa chon khả năng phân đoạn từ tối ưu: Sau k hi được

một danh sách các cách phân đoạn từ có thể có của câu,

tác giả chọn trường hợp phân đoạn có trọng số bé nhất

(8.68 + 12.31 +7.33 +6.09 + 7.43 + 6.95 = 48.79)

Id(D)*D* = “ Tốc độ # truyền # thông tin # sẽ # tăng# cao.” 48.70

(8.68 + 12.31 +7.24 +6.09 + 7.43 + 6.95 = 48.70)

Do đó, ta có được phân đoạn tối ưu là “Tốc độ # truyền # thông tin # sẽ # tăng # cao.”

 Tầng mạng neural: mô hình mạng neural mà tác giả đề xuất được dùng để lượng giá 3dãy từ loại: NNV,NVN, VNN (N: Noun, V: Verb) Mô hình này được học bằng chínhcác câu mà cách phân đoạn từ vẫn còn nhập nhằng sau khi qua mô hình thứ nhất

Ưu điểm

Bắt đầu

Bắt đầu

Tiền xử lý Tiền xử lý

Tiền xử lý t<T0t<T0

Trang 11

- Độ chính xác trên 97% [Đinh Điền et al, 2001]

- Mô hình cho kết quả phân đoạn từ với độ tin cậy (xác suất) kèm theo

- Nhờ có tầng mạng neural nên mô hình có thể khử nhập nhằng các trường hợp tần WFST cho ra nhiều ứng viên có kết quả ngang nhau

- Phương pháp này cho kết quả với độ chính xác khá cao vì mục đích của tác giả muốn nhắm đến việc tách từ thật chính xác để là nền tảng cho việc dịch máy

Hạn chế

- Cũng tương tự như phương pháp TBL, việc xây dụng tập ngữ liệu là rất công phu,

nhưng thật sự cần rất cần thiết để phục vụ cho mục đích dịch máy sau này

3.4 Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền.(Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC)

Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải

di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) do H Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ điểnhay tập ngữ liệu học nào Trong hướng tiếp cận này , tác giả kết hợp giữa thuật toán

di truyền với dữ liệu thống kê được lấy từ Internet

Hệ thống bao gồm :2 phần

a Online Extractor : Thành phần này có tác dụng lấy thông tin về tần số xuất hiện của

các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng như Google hay Yahoo chẳng hạn Sau đó , tác giả sử dụng các công thức dưới đây để tính toán mức độphụ thuộc lẫn nhau (mutual information) để làm cơ sở tính fitness cho GA engine

segmentation Online Extractor

Trang 12

• Tính xác suất các từ xuất hiện trên Internet :

 

MAX

) w2

&

w1 count(

) w2

&

w1 p(

MAX

count(w) w

p

Trong đó MAX = 4 * 109

count(w) số lượng văn bản trên Internet được tìm thấy có chứa từ w hoặc cùng chứa w1

và w2 đối với count(w1&w2)

• Tính xác suất độ phụ thuộc của một từ lên một từ khác :

 w1

p

)w2

&

w1p(

)w2

|w1

) wn

w j p

) wn

MI(cw)

b GA Engine for Text Segmentation : mỗi cá thể trong quan thể được biểu diễn bởi

chuỗi các bit 0,1 , trong đó , mỗi bit đại diện cho một tiếng trong văn bản , mỗi nhóm bit cùng loại đại diện cho cho một segment Các cá thể trong quần thể được khởi tạo ngẫu nhiên , trong đó mỗi segment được giới hạn trong khoảng 5 GA engine sau đó thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng giá trị fitness của các

cá thể để đạt được cách tách từ tốt nhất có thể

Uu điểm:

- Không cần sử dụng bất cứ tập huấn luyện hoặc từ điển nào

- Phương pháp tương đối đơn giản

- Không tốn thời gian huấn luyện

- Chưa có thử nghiệm trên các tập dữ liệu đủ lớn

3.5 Học máy sử dụng mô hình Markov ẩn (Hidden Markov Models-HMM)

Phương pháp tách từ dựa trên HMM và từ điển:

Trang 13

Áp dụng mô hình Markov ẩn ta có thể mô hình hóa để đưa bài toán tách từ về một mô hình xác xuất dưới dạng một bài toán tối ưu Tiếp đó, thuật toán quy hoạch động Viterbi sẽ giải quyết bài toán tối ưu đó

- Trước hết ta sẽ đưa ra công thức để tính xác suất một phân hoạch

Đây cũng chính là công thức đo độ tốt của một phân hoạch Xác suất càng cao thì khả năng đúng của phân hoạch đó càng lớn Vì thế bài toán của ta đưa về bài toán tối ưu cho hàm mục tiêu là hàm xác suất của phân hoạch

- Ta ký hiện phân hoạch đang xét là W = W1 W¬2 W3 …Wm

- Hàm mục tiêu:

P(W) =П P(W1) = П P(Wi+j|W)

Trong đó: P(Wi): xác xuất của Wi

P(Wi + 1|Wi): Xác suất chuyển từ Wi sang Wi+1

Các xác suất này được tính từ dữ liệu thu thập được, ở đây là các văn bản bằng tiếng Việt Nếu ta hướng đến bài toán tách từ tổng quát thì các văn bản này phải đảm bảo không bị quá thiên lệch về một lĩnh vực nào Tất nhiên tùy vào mục tiêu sử dụng chương trình, nếu ta tập trung vào tách từ cho một lĩnh vực cụ thể thì khi thu thập dữ liệu ta sẽ tập trung vào lĩnh vực đó

Từ tưởng chính của thuật toán là phương pháp quy hoạch động:

Vòng lặp chính đi từ S1 tới S¬n tại mỗi vị trí it it a sẽ chỉ lưu lại các giá trị như sau:Dựa trên tính chất Markov, ta nhận thấy các xuacs suất chuyển chỉ lien quan đến từ liềntrước từ hiện tại Do đó tại vị trí it a chỉ quan tâm tới các vị trí j<=i sao cho (Wj…Wi)

là một từ điển trong từ điển Mỗi vị trí j tương ứng với một từ có khả năng là từ cuối cùng của đoạn đầu từ S1 đến Si

Ví dụ : ta đang xét đến i=2 trong câu “ học sinh học sinh học”

I=2 thì có 2 giá trị j tương ứng là : j=1 => từ cuối cùng là: “ học sinh”

- ứng với i=2 và j=1 từ cuối cùng là “học sinh” có xác suất cực đại là bao nhiêu

- ứng với i=2 và j=2 từ cuối cùng là “sinh” thì xác suất cực đại là bao bao nhiêu

Việc tính toán các xác suất tại i sẽ dựa trên các giá trị đã tính được tại các vị trí j-1 Cácxác suất chuyển và xác suất của từ đều đã biết

Đánh giá phương pháp

- Phương pháp tách từ tiếng Việt dựa trên mô hình Markov ẩn và từ điển là một phươngpháp xác suất Thực tế cho thấy đây là một phương pháp hiệu quả hơn so với

LongestWins (dài nhất thắng) và Maximal Matching (so khớp với cực đại hay còn gọi

là ít từ nhất) Nguyên nhân là do phương pháp này đã dựa trên mô hình xác suất phù hợp với thực tế của ngôn ngữ do đó tân dụng được các thông tin thống kê, thông tin xácsuất hỗ trợ cho quá trình tách từ

- Mặt khác, phương pháp này vẫn không giải quyết được sự nhập nhằng về ngữ nghĩa

do không xét tới ngữ cảnh

Ngày đăng: 22/10/2014, 19:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w