Phân tách từ vựng (Word Segmentation)

Một phần của tài liệu Học mối quan hệ trong trích rút thông tin tiếng việt (Trang 31)

Phân tách từ là cho một câu tiếng Việt bất kỳ, hãy tách câu đĩ thành những đơn vị từ vựng (từ), hoặc chỉ ra những âm tiết nào khơng cĩ trong từđiển (các tên riêng, ký hiệu, chữ viết tắt,…- phát hiện đơn vị từ vựng mới). Cơng việc này làm tiền đề cho việc mơ hình hĩa văn bản, là bài tốn cơ bản nhất trong các bài tốn xử lý ngơn ngữ tự nhiên.

Đối với các ngơn ngữ Latin giống như tiếng Anh và tiếng Pháp thì vấn đề này khơng phức tạp bằng các ngơn ngữ khác như tiếng Việt, tiếng Trung Quốc hay tiếng Nhật… do các từ của tiếng Anh hay tiếng Pháp được tách nhau bởi một hay nhiều dấu cách cịn trong tiếng Việt, Trung Quốc, Nhật… thì giữa các dấu cách khơng phải là từ mà là tiếng (chữ) - một đơn vị nhỏ hơn từ.

Ví dụ: Xét câu tiếng Anh sau :

We learn English.

Dựa vào dấu cách chúng ta cĩ thể phân tách được các từ dễ dàng :

We| learn| English

Tuy nhiên ta xem câu tiếng Việt tương ứng :

Chúng tơi học tiếng Anh

Rõ ràng chúng ta khơng thể dùng dấu cách để phân tách từ cho câu này. Kết quả phân tách thuật ngữđúng phải là như sau:

Chúng tơi| học| tiếng Anh

Chính vì sự khác biệt nĩi trên mà khi áp dụng mơ hình RAPIER vào tiếng Việt, cần cĩ bước tách từ mới so khớp chính xác được. Vấn đề này sẽđược người viết đề cập chi tiết ở Chương 3.

Ở Việt Nam, đã cĩ một số kết quả nghiên cứu nhất định về bài tốn tách từ tiếng Việt, trong đĩ cĩ hướng tiếp cận sử dụng giải thuật di truyền[7]; hướng tiếp cận dựa trên CRFs và SVMs[16]; hướng tiếp cận lai (Hybrid)[12]. Bảng 1.1 thể hiện kết quả

so sánh một số cơng cụ tách từ tiếng Việt[14]. Trong đĩ, bộ tách từ vnTokenizer được lựa chọn sử dụng trong nghiên cứu này.

Hệ thống Precision Recall F-measure

vnTokenizer 93.68% 94.42% 94.05% PVnSeg 96.89% 96.21% 96.55% JVnSegmenter (original) 85.22% 81.40% 83.27% JVnSegmenter (re-trained) 95.03% 93.82% 94.42% Bảng 1.1: Đánh giá một số hệ thống tách từ tiếng Việt 1.4.2. Gán nhãn từ loại (Part-of-speech tagger)

Bài tốn gán nhãn từ loại là thực hiện cơng việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngơn ngữ. Mỗi từ loại tương ứng với một hình thái và một vai trị ngữ pháp nhất định. Các bộ chú thích từ loại cĩ thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thơng tin ngơn ngữ cần khai thác trong các ứng dụng cụ thể. Mỗi từ trong một ngơn ngữ nĩi chung cĩ thể gắn với nhiều từ loại, và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nĩ được xác định đúng từ loại hay khơng.

Khi hệ thống văn bản đã được gán nhãn, hay nĩi cách khác là đã được chú thích từ loại thì nĩ làm tiền đề cho nhiều bài tốn trong xử lý ngơn ngữ tự nhiên như: phân tích cú pháp, nhận diện danh ngữ, chuyển đổi cú pháp, xem xét ngữ nghĩa và được ứng dụng rộng rãi trong các hệ thống tìm kiếm thơng tin thơng minh, hệ thống trích rút thơng tin, trong các hệ thống dịch máy…

Gán nhãn từ loại (POS tagger) cung cấp thơng tin cơ bản về cú pháp bằng cách ghi nhãn cho mỗi từ hoặc mỗi ký hiệu trong câu với các các nhãn từ loại (danh từ, động từ, tính từ, giới từ…). Cơng việc này khơng cung cấp nhiều thơng tin như bộ phân tích cú pháp, vì nĩ khơng nhận biết các mệnh đề hay các mối liên hệ giữa các phần của câu. Tuy nhiên, bộ gán nhãn cĩ đặc thù là nhanh và linh hoạt hơn các bộ phân tích cú pháp, đặc biệt là khi đối mặt với các văn bản khơng đúng ngữ pháp cũng như

thường được thấy trong các bài viết thảo luận nhĩm, các thơng điệp thưđiện tử, và phạm vi ít hơn như trong các bài viết dạng cung cấp tin nhanh trên Internet.

Trên thế giới hiện nay đã xuất hiện rất nhiều các mơ hình xử lý cho bài tốn gán nhãn từ loại và các mơ hình này ngày cành được phát triển hồn thiện qua việc áp dụng các giải thuật tiên tiến vào bài tốn gán nhãn từ loại cũng đã làm cho bài tốn này cĩ độ chính xác tăng lên đáng kể so với thời gian đầu. Các giải thuật được áp dụng vào lĩnh vực này mang lại kết quả khả quan cĩ thể kể đến các giải thuật: mơ hình Entropy cực đại (Maximum Entropy), Transformation-Based Learning (TBL), N-Gram, Mơ hình Markov ẩn (Hidden Markov Model - HMM), Mạng Neural… Trong đĩ các phương pháp áp dụng mơ hình Markov ẩn được sử dụng nhiều nhất. Các phương pháp như Bigram, Trigram hay Văn phạm phi ngữ cảnh (Context Free Grammar - CFG) đều thuộc loại này. Hiện nay một bộ gán nhãn từ loại (POS Tagger) chính xác nhất đạt được 98% từ gán nhãn đúng [8].

Bộ gán nhãn được sử dụng trong nghiên cứu RAPIER với tiếng Anh là của tác giả Eric Brill được huấn luyện trên ngữ liệu Wall Street Journal (Brill, 1994, 1995). Bộ này sử dụng 36 nhãn khác nhau loại trừ các dấu câu, cho nên phân biệt khá rõ ràng các trường hợp: chẳng hạn, nhận biết được sáu dạng động từ khác nhau cộng với các động từ tình thái; phân biệt các từ hạn định dạng wh-, đại từ, đại từ sở hữu và trạng từ với các từ hạn định, đại từ và trạng từ khác; phân biệt giới từ “to” với các các giới từ khác. Bộ gán nhãn này cũng đạt độ chính xác khá cao trên lĩnh vực mà nĩ được huấn luyện, đạt 96.6% trên ngữ liệu Penn Treebank Wall Street Journal (Brill, 1995). Tất nhiên, độ chính xác sẽ thấp hơn khi áp dụng trên lĩnh vực khác, nhưng nĩ cĩ lợi thế là cĩ thể huấn luyện thêm được.

Riêng đối với các văn bản tiếng Việt, việc gán nhãn từ loại cĩ nhiều khĩ khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề cịn nhiều tranh cãi, chưa cĩ một chuẩn mực thống nhất và để cho cơng việc gán nhãn được thực hiện một cách cĩ nền tảng khoa học và khách quan nhất thì trong mơ

hình bài tốn gán nhãn từ loại cho văn bản tiếng Việt khơng thể khơng đề cập tới các đặc trưng của tiếng Việt.

Một số bộ gán nhãn từ loại tiếng Việt được cơng bố gần đây bao gồm Cơng cụ VnQTag của nhĩm Nguyễn Thị Minh Huyền[8]; JVnTagger: Cơng cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields và Maximum Entropy[6]; bộ vnTagger của tác giả Lê Hồng Phương[11].

1.4.3. Từđiển từ vựng (Lexicon)

Các bộ từ vựng, đặc biệt là bộ từ vựng với hệ thống phân cấp ngữ nghĩa, cĩ thể cung cấp thơng tin lớp ngữ nghĩa. Trong mơ hình RAPIER bộ từ vựng khơng phụ thuộc lĩnh vực được sử dụng là WordNet (Miller, Beckwith, Fellbaum, Gross, & Miller, 1993; Fellbaum, 1998), một cơ sở dữ liệu từ vựng do Đại học Princeton phát triển. WordNet đã tạo ra một tập hợp từ vựng đồ sộ, theo đĩ các từ được sắp xếp trong dãy của những tập hợp đồng nghĩa, giúp cho việc xác định nghĩa của từ và để phân biệt được nghĩa đang xét với các nghĩa khác. Nguyên lí tổ chức chung của WordNet là mạng lưới quan hệ ngữ nghĩa. Đĩ là quan hệ đồng nghĩa (synonym): dog – domestic dog; quan hệ trái nghĩa (antonym): rich – poor; quan hệ cấp bậc (hyponym): maple – tree, parent – father; quan hệ bộ phận và tồn thể (meronym): body – limb; quan hệ kéo theo (entailment): snore – sleep (cho động từ); v.v

Mỗi mục riêng lẻ trong WordNet là các tập đồng nghĩa (synset) tương ứng với một nghĩa đơn. Một từ bất kỳ cĩ thể cĩ nhiều nghĩa (word meaning) và khi đĩ mỗi nghĩa của nĩ sẽ thuộc vào những tập đồng nghĩa khác nhau. Ngược lại, mỗi tập đồng nghĩa lại cĩ thể chứa một hoặc hơn một từ khác nhau.

Ví dụ, trong WordNet danh từletter cĩ 4 nghĩa thuộc vào 4 tập đồng nghĩa:

i) Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tương ứng là “lá thư”, “thư tín”.

ii) Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic character

với nghĩa tiếng Việt tương ứng “ký tự”, “chữ” hay “chữ cái”.

iii) Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”, “nghĩa mặt chữ”.

iv) Tập cuối cùng gồm hai từ: letter, varsity letter với nghĩa tiếng Việt tương ứng là “huy hiệu”, “danh hiệu” tặng cho những sinh viên cĩ thành tích thể thao đặc biệt ở trường.

Các loại quan hệ trong WordNet:

Trong WordNet các từđược sắp xếp vào thành các tập đồng nghĩa. Và giữa các tập đồng nghĩa này cĩ thể mang các mối quan hệ ngữ nghĩa với nhau. Các quan hệ chính được xây dựng bên trong WordNet bao gồm:

- Quan hệ đồng nghĩa (synonym): Các tập đồng nghĩa được gọi là cĩ quan hệ đồng nghĩa với nhau khi chúng cĩ thể thay thế cho nhau trong một số ngữ cảnh nào đĩ. Vì thế WordNet đã được chia thành nhĩm danh từ (noun), động từ (verb), tính từ (adjective), và trạng từ (adverb). Và những mối quan hệ đồng nghĩa chỉ tồn tại giữa các tập đồng nghĩa ở cùng dạng từ loại. Điều này cũng thật dễ hiểu, bởi vì các danh từ sẽ diễn tả những khái niệm thuộc về danh từ, động từ thì diễn tả những khái niệm chỉ hành động, cịn tính từ và trạng từ thì giúp ta cĩ thể diễn tả mức độ của những khái niệm trên.

- Quan hệ trái nghĩa (antonym): Một từ trái nghĩa của từ x thơng thường sẽ là not-x, nhưng khơng phải lúc nào cũng đúng như vậy. Chẳng hạn, ta cĩ từ rich (giàu) và poor (nghèo) là hai từ trái nghĩa, nhưng ta khơng thể nĩi rằng một người khơng giàu là một người nghèo. Quan hệ trái nghĩa là một quan hệ giữa các từ với nhau chứ khơng phải là quan hệ giữa các nghĩa của từ với nhau.

- Quan hệ cấp bậc (hyponym): Ngược với quan hệđồng nghĩa và trái nghĩa là các quan hệ giữa các từ với nhau, quan hệ cấp bậc là quan hệ giữa các nghĩa của từ. Cĩ thể hiểu hyponym/hypernym (nghĩa con/nghĩa cha) là một loại

quan hệ theo kiểu IS_A (là một). Một ý niệm tương ứng với synset {x, x, ...} được gọi là một hyponym của ý niệm tương ứng với synset {y, y, ...} khi chúng ta cĩ thể nĩi x là một (một dạng của) y - an x is (a kind of) y. Một nghĩa con nghĩa con (hyponym) kế thừa tất cả những tính chất của nghĩa cha đồng thời bổ sung thêm những thuộc tính mới phân biệt với những nghĩa con khác.

- Quan hệ bộ phận và tồn thể (meronym): Một loại quan hệ ngữ nghĩa khác được định nghĩa trong WordNet đĩ là quan hệ bộ phận và tồn thể (part- whole relation) cịn gọi là meronym/holonym. Một ý niệm tương ứng với synset {x, x, ...} được gọi là một meronym của ý niệm tương ứng với synset {y, y, ...} khi chúng ta cĩ thể nĩi “một y cĩ một x” (a y has an x) hoặc “một x là một phần của y” (an x is a part of a y).

Cĩ thể nĩi WordNet là một từ điển ngữ nghĩa hồn chỉnh nhất hiện nay. Hệ thống WordNet biểu diễn đầy đủ các quan hệ ngữ nghĩa, đã được xây dựng rất tốt cho tiếng Anh, là cơ sở để xây dựng WordNet tiếng Việt. Tuy nhiên, cho đến nay vẫn chưa cĩ một cơng trình nghiên cứu nào hồn thiện được cơng bố về việc xây dựng WordNet tiếng Việt để cĩ thểđưa vào sử dụng trong các bài tốn xử lý ngơn ngữ tự nhiên.

Để cĩ một WordNet tiếng Việt đểđưa vào mơ hình trích rút thơng tin trong nghiên cứu này, người viết tự xây dựng một mơ hình đơn giản dựa trên cây phân cấp ngữ nghĩa của Trung tâm từ điển học (Vietlex) và một từđiển tiếng Việt được cung cấp từ nghiên cứu [10].

1.4.4. Nhận dạng thực thể cĩ tên (Named-Entity Recognition)

Nhận dạng thực thể cĩ tên (Named-Entity Recognition – NER) nhằm mục đích phân loại các từ trong một văn bản vào các lớp thực thể được định nghĩa trước như con người, tổ chức, địa danh, biểu thức số học, ngày tháng, tiền tệ… Hiện tại, đây được

coi là cơng việc cơ bản cho nhiều tác vụ xử lý ngơn ngữ tự nhiên như thu thập thơng tin, dịch máy, trích rút thơng tin và hỏi đáp tựđộng.

Trong lĩnh vực tiếng Việt, gần đây đã cĩ một số cơng trình nghiên cứu nhằm giải quyết bài tốn nhận dạng thực thể cĩ tên. Các hướng tiếp cận chính bao gồm sử dụng mơ hình Support Vector Machine[13], mơ hình Conditional Random Fields[15], mơ hình Markov ẩn[9], và sử dụng văn phạm JAPE trong GATE[5]. Tuy nhiên, đến nay cũng chưa cĩ một cơng cụ hồn thiện nào được cơng bố.

Việc đưa chức năng nhận dạng thực thể cĩ tên vào khâu tiền xử lý trong mơ hình RAPIER sẽ làm cho tập luật cĩ mức khái quát cao hơn, bao phủ tốt hơn. Do chưa thể sử dụng lại các kết quả nghiên cứu (chưa cĩ cơng cụ hồn chỉnh) về bài tốn NER và thời gian nghiên cứu cĩ hạn nên việc tích hợp mơ đun NER chỉ mang tính giả định để đánh giá thực nghiệm, cụ thể là tác giả sẽ thực hiên cơng đoạn nhận dạng thực thể cĩ tên bằng tay. Điều này sẽđược đề cập chi tiết ở Chương 3.

1.5. Kết chương

Trong chương này, tác giảđã trình bày về bài tốn trích rút thơng tin và các bài tốn liên quan, về kỹ thuật học quan hệ dựa trên ký hiệu và về các nguồn lực xử lý ngơn ngữ tự nhiên. Trong phần giới thiệu kỹ thuật học quan hệ dựa trên ký hiệu, người viết đã nêu ra các lợi thế của kỹ thuật này, các vấn đề về thiết kế giải thuật tổng thể trong hệ thống học luật, đồng thời giới thiệu một số mơ hình học kiểu ILP mà mơ hình RAPIER đề cập trong nghiên cứu này đã khai thác. Trong phần các nguồn lực xử lý ngơn ngữ tự nhiên, người viết đề cập tới các bài tốn, các cơng cụ và các nguồn lực về xử lý ngơn ngữ tự nhiên cần cĩ với mơ hình RAPIER. Qua đĩ cho thấy việc áp dụng bài tốn trích rút thơng tin vào lĩnh vực tiếng Việt gặp rất nhiều khĩ khăn do đặc thù tiếng Việt và do điều kiện cơ sở cho nghiên cứu cịn rất hạn chế, đặc biệt là về từđiển ngữ nghĩa.

Trong chương sau, tác giả sẽđi vào một vấn đề nghiên cứu chính được đặt ra trong đề tài. Đĩ là kỹ thuật học mối quan hệ dựa trên so khớp mẫu – mơ hình RAPIER.

CHƯƠNG 2

HƯỚNG TIẾP CẬN RAPIER CHO BÀI TỐN TRÍCH RÚT THƠNG TIN NỘI DUNG: 2.1. Biểu diễn luật 2.2. Giải thuật học 2.2.1. Các lựa chọn thiết kế giải thuật 2.2.2. Tổng quan về giải thuật 2.2.3. Xây dựng tập luật khởi đầu 2.2.4. Cơ đọng tập luật

2.2.5. Tiêu chuẩn đánh giá luật

2.2.6. Tính tốn mẫu khái quát hĩa của hai mẫu 2.2.7. Pha chuyên biệt hĩa 2.2.7. Pha chuyên biệt hĩa

2.3. Áp dụng phương pháp học tích cực với RAPIER 2.4. Kết chương 2.4. Kết chương

RAPIER học các luật trích rút thơng tin từ các ví dụ huấn luyện bao gồm các văn bản ghép cặp với các mẫu đã điền kết quả. Chương này sẽ trình bày về cách biểu diễn luật và giải thuật học của RAPIER[2].

2.1. Biểu diễn luật

Cách biểu diễn luật của RAPIER sử dụng mẫu (pattern) giống như mẫu Eliza (Weizenbaum, 1966) cĩ thể tạo ra các thơng tin ràng buộc về cú pháp và ngữ nghĩa. Các luật được đánh chỉ số bởi tên khuơn mẫu (template name) tên trường thơng tin (slot name) và bao gồm ba phần: 1) một mẫu pre-filler để so khớp đoạn văn bản ngay trước thơng tin trích rút (mẫu filler), 2) một mẫu khớp thơng tin cần trích rút của trường và 3) một mẫu post-fillerđể so khớp với đoạn văn bản ngay sau thơng tin trích rút. Mỗi mẫu là một chuỗi (cĩ thể độ dài 0 trong trường hợp các mẫu pre- fillerpost-filler) các phần tử mẫu (element). Cĩ hai kiểu phần từ được sử dụng: dạng mục (pattern items) và dạng danh sách (pattern lists). Một mẫu dạng item so khớp chính xác một từ (word) hay một ký hiệu (symbol) từ văn bản thỏa các ràng buộc của item. Một mẫu dạng danh sách định rõ độ dài tối đa N và so khớp 0 đến N từ hoặc ký hiệu từ văn bản, mỗi từ hoặc ký hiệu đĩ phải thỏa các ràng buộc của danh sách. RAPIER sử dụng ba dạng ràng buộc trên các phần tử mẫu: các ràng buộc về các từ mà phần tử cĩ thể so khớp, về các nhãn từ loại (POS tag) được gán cho các từ mà phần tử cĩ thể so khớp và ràng buộc về lớp ngữ nghĩa (semantic class)

Một phần của tài liệu Học mối quan hệ trong trích rút thông tin tiếng việt (Trang 31)

Tải bản đầy đủ (PDF)

(117 trang)