1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs

55 954 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 1,56 MB

Nội dung

Trong nỗ lực xây dựng một cơ sở tri thức tiếng Việt thì các bài toán cơ bản như tách từ, gán nhãn từ loại, xác định cụm từ, phân tích cú pháp, … là những công việc không thể thiếu.. Nhu

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ HƯƠNG THẢO

PHÂN TÁCH CỤM DANH TỪ CƠ SỞ TIẾNG VIỆT

SỬ DỤNG MÔ HÌNH CRFs

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60 48 05

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.Nguyễn Phương Thái

Hà Nội – 2010

Trang 2

MỤC LỤC

Lời cảm ơn Error! Bookmark not defined Tóm tắt nội dung Error! Bookmark not defined Lời cam đoan Error! Bookmark not defined

Danh mục bảng số liệu iii

Danh mục hình vẽ iv

Lời mở đầu 1

Chương 1: Khái quát về bài toán phân tách cụm danh từ cơ sở 3

1.1 Giới thiệu bài toán 3

1.2 Một số nghiên cứu về bài toán phân tách cụm danh từ cơ sở 5

1.3 Một số phương pháp biểu diễn dữ liệu 7

1.4 Một số phương pháp giải quyết bài toán 8

1.4.1 Thuật toán học dựa vào biến đổi 9

1.4.2 Thuật toán máy vector hỗ trợ 10

1.4.3 Phương pháp tiếp cận của luận văn 12

Chương 2: Mô hình trường ngẫu nhiên có điều kiện 13

2.1 Mô hình đồ thị 14

Mô hình đồ thị vô hướng 14

2.2 Mô hình trường ngẫu nhiên có điều kiện 15

2.3 Ước lượng tham số và suy diễn CRFs 17

2.3.1 Ước lượng tham số cho CRFs 17

2.3.2 Suy diễn CRFs 19

Chương 3: Đặc điểm cụm danh từ tiêng Việt và phương pháp xây dựng tập dữ liệu 21

3.1 Đặc điểm cụm danh từ tiếng Việt 21

3.2 Phương pháp xây dựng tập dữ liệu 26

3.2.1 Phương pháp xây dựng tập dữ liệu tiếng Anh 26

3.2.2 Phương pháp xây dựng tập dữ liệu Tiếng Việt 26

Chương 4: Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs 33

4.1 Phân tách cụm từ tiếng Việt sử dụng mô hình CRFs 33

4.2 Thực nghiệm 34

Trang 3

4.2.1 Dữ liệu và chương trình 34

4.2.2 Kết quả thử nghiệm 36

4.2.2.1 Thực nghiệm 1: Đánh giá sự phục thuộc tập thuộc tính 36

4.2.2.2 Đánh giá sự phụ thuộc của kích thước tập dữ liệu huấn luyện 40

4.2.2.3 Đánh giá và phân tích lỗi 41

Kết luận 43

Tài liệu tham khảo 45

Phụ lục: Tập nhãn từ loại và nhãn cú pháp trong Viet Treebank 49

Tập nhãn từ loại: 49

Tập nhãn cú pháp 49

Tập nhãn mệnh đề: 50

Tập nhãn chức năng cú pháp: 50

Trang 4

Danh mục bảng số liệu

Bảng 1: Một số kết quả bài toán phân tách cụm danh từ cơ sở tiếng Anh 6

Bảng 2: Một số kết quả bài toán phân tách cụm danh từ cơ sở ngôn ngữ khác 6

Bảng 3: Ví dụ về các phương pháp biểu diễn dữ liệu 8

Bảng 4: Cấu trúc phần đầu của cụm danh từ tiếng Việt 23

Bảng 5: Cấu trúc phần đầu của cụm danh từ tiếng Việt 24

Bảng 6: Ví dụ về tệp dữ liệu được sử dụng trong thực nghiệm 34

Bảng 7: Một vài thống kê về tập dữ liệu 36

Bảng 8: Một số ví dụ về mẫu thuộc tính 37

Bảng 9: Chi tiết tập thuộc tính của thí nghiệm 7 39

Bảng 10: Kết quả của bộ phân tách cụm danh từ tiếng Việt 40

Trang 5

Danh mục hình vẽ

Hình 1: Quá trình huấn luyện của thuật toán TBL 9

Hình 2: Siêu phẳng có lề hẹp 11

Hình 3: Siêu phẳng có lề rộng 11

Hình 4: Dữ liệu có nhiễu 11

Hình 5: Dữ liệu không thể phân tách tuyến tính 11

Hình 6: Mô hình đồ thị CRFs 16

Hình 7: Ví dụ về biểu diễn dạng cây của một câu đã phân tích cú pháp 27

Hình 8: Ví dụ về nhánh NP có độ sâu bằng 1 hoặc 2 28

Hình 9: Ví dụ về nhánh NP có độ sâu lớn hơn 2 29

Hình 10: Nhánh NP có độ sâu lớn hơn 3 30

Hình 11: Nhánh QP có độ sâu bằng 1 30

Hình 12: Nhánh QP có độ sâu bằng 2 30

Hình 13: Nhánh QP có độ sâu bằng 3 và chứa NP 30

Hình 14: Nhánh QP có độ sâu lớn hơn 3 và chứa NP có độ sâu bằng 1 31

Hình 15: Ví dụ về cụm danh từ chứa liên từ “và” 31

Hình 16: Mô hình hoạt động của bộ tách cụm danh từ tiếng Việt 33

Hình 17: Sự tác động của tập thuộc tính đến độ chính xác của mô hình phân cụm 38

Hình 18: Kết quả bộ phân tách cụm danh từ theo kích thước tập dữ liệu huấn luyện 40

Trang 6

Lời mở đầu

Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội… Cùng với sự phát triển này, nhân loại đã tạo ra một lượng thông tin khổng lồ và phần lớn những thông tin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet World Wide Web (gọi tắt

là Web) đã trở thành một môi trường chuyển tải thông tin không thể thiếu trong thời đại Công nghệ thông tin ngày nay Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng Có thể nói xử lý ngôn ngữ tự động trên máy tính là một trong những vấn đề khó nhất của Công nghệ thông tin Cái khó nằm ở chỗ làm sao cho máy được hiểu ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản

Trong nỗ lực xây dựng một cơ sở tri thức tiếng Việt thì các bài toán cơ bản như tách từ, gán nhãn từ loại, xác định cụm từ, phân tích cú pháp, … là những công việc không thể thiếu Tùy từng ứng dụng sẽ cần phân tích thông tin ở các mức độ khác nhau Nhiều ứng dụng của xử lý ngôn ngữ tự nhiên (như dịch máy) yêu cầu thông tin

về cú pháp và các công cụ để phân tích cú pháp Tuy nhiên với tiếng Việt, hầu hết các nhà nghiên cứu hiện tại mới chỉ tập trung vào bài toán tách từ và gán nhãn từ loại (theo [21])

Quá trình xây dựng bộ công cụ và dữ liệu đã gán nhãn cho các bài toán nền tảng như phân tách cụm từ và phân tích cú pháp hiện đang được nghiên cứu, phát triển Đây

là một bước quan trọng cho các ứng dụng phát triển ngôn ngữ tự nhiên yêu cầu hiểu sâu hơn về ngôn ngữ Nhu cầu cần phải phát triển những công cụ như này là động lực thúc đẩy tôi nghiên cứu và tìm hiểu về bài toán phân tách cụm từ danh từ tiếng Việt, với mục tiêu phát triển được một công cụ cho bài toán này

Luận văn với đề tài “Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs” được tổ chức thành bốn chương mà nội dung chính của các chương được giới thiệu như dưới đây

Chương 1: Khái quát về bài toán phân tách cụm danh từ giới thiệu bài toán và

các nghiên cứu trước đó cũng như kết quả đã đạt được về bài toán này Chương này cũng trình bày một số thuật toán điển hình phân tách cụm danh từ, từ đó chọn ra

Trang 7

hướng tiếp cận với ngôn ngữ tiếng Việt Một số phương pháp biểu diễn dữ liệu cũng được giới thiệu trong chương này

Chương 2: Mô hình trường ngẫu nhiên có điều kiện trình bày cơ bản về CRFs -

mô hình học máy được đánh giá là môt trong những phương pháp tốt nhất cho bài toán gán nhãn dữ liệu dạng chuỗi

Chương 3 Đặc điểm cụm danh từ tiếng Việt và phương pháp xây dựng tập dữ liệu trình bày cấu trúc của cụm danh từ tiếng Việt, từ đó đề xuất phương pháp thích

hợp xây dựng tập dữ liệu tiếng Việt

Chương 4 Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs

trình bày các kết quả thực nghiệm khi áp dụng mô hình CRFs để phân tách cụm danh

từ tiếng Việt với bộ dữ liệu do luận văn xây dựng Một số nhận xét, đánh giá cũng được trình bày

Trang 8

Chương 1: Khái quát về bài toán phân tách cụm danh từ cơ sở 1.1 Giới thiệu bài toán

Trong những năm gần đây, nhiều ứng dụng xử lý ngôn ngữ tự nhiên như trích chọn thông tin, tóm tắt văn bản, hỏi đáp và dịch máy phát triển mạnh mẽ đem lại nhiều lợi ích thiết thực Trong các ứng dụng này, cụm danh từ cơ sở đóng một vai trò quan trọng Chính vì vậy, ngay từ những năm 1990, đã có nhiều nghiên cứu liên quan đến lĩnh vực này trên tiếng Anh và cho đến nay các nghiên cứu đó vẫn liên tục được cải tiến và đã đạt được một số kết quả khả quan nhất định Các ngôn ngữ khác như tiếng Trung, tiếng Hàn Quốc, tiếng Ấn Độ … cũng rất được quan tâm và nghiên cứu khá nhiều Nhiều công trình nghiên cứu và bài báo khoa học liên quan đến vấn đề này đã được công bố, điển hình phải kể đến hai hội nghị: Hội nghị về xử lý ngôn ngữ tự nhiên CoNLL1 năm 2000 với chủ đề chính là phân tách cụm từ và phân tách cụm danh từ; Hội nghị về phân tích sơ bộ các ngôn ngữ Nam Á SPSAL 20072 Đối với tiếng Việt, hiện nay hầu hết các nhà nghiên cứu mới chỉ tập trung vào bài toán tách từ và gán nhãn từ loại Phân tách cum danh từ cơ sở tiếng Việt vẫn còn là bài toán mở Các nghiên cứu về bài toán này rất ít và mới chỉ dừng ở mức thử nghiệm quy mô nhỏ, chưa được công bố rộng rãi

Phân tách các cụm từ là bài toán chia một câu thành các cụm sao cho các từ trong cùng một cụm có liên quan với nhau về mặt cú pháp Các cụm này không chồng lên nhau (non-overlapping) theo nghĩa một từ chỉ được phép thuộc một cụm duy nhất

Ví dụ câu tiếng Anh dưới đây sẽ được tách thành các cụm như sau:

[NP He] [VP reckons] [NP the current account deficit] [VP will narrow] [PP to] [NP only £ 1.8 billion]

Hoặc một câu tiếng Việt sẽ được tách thành các cụm như sau:

[NP Cô ấy] [VP học] [PP ở] [NP trường Đại học Công nghệ]

Ở đây, các cụm được biểu diễn như một nhóm các từ liền kề nhau nằm giữa hai dấu ngoặc vuông: Dấu ngoặc vuông mở biểu thị bắt đầu một cụm; Dấu ngoặc vuông đóng biểu thị kết thúc một cụm Các chữ viết hoa liền sau dấu ngoặc vuông mở là kí hiệu viết tắt biểu thị loại của các cụm, ví dụ NP là cụm danh từ, VP là cụm động từ, PP

là cụm giới từ Trong các loại cụm thì cụm danh từ chiếm tỷ lệ lớn nhất, tập dữ liệu

1 http://www.cnts.ua.ac.be/conll2000/

2

http://shiva.iiit.ac.in/SPSAL2007/

Trang 9

tiếng Anh WSJ 15-18 có tới 51% là cụm danh từ [12] Hơn nữa, trong nhiều ứng dụng

xử lý ngôn ngữ tự nhiên, việc tách các cụm danh từ là bước trung gian quan trọng để

xử lý các bước tiếp theo Vì vậy, phân tách cụm danh từ cũng đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên

Phân tách cụm danh từ là một phần của bài toán phân tách cụm từ, giải quyết việc nhận biết các cụm danh từ không đệ quy (non-recursive noun phrase) hay cụm danh từ không chồng nhau (non-overlappling noun phrase) trong câu Các cụm danh từ được phân tách ở đây là các cụm danh từ đơn giản, hay cụm danh từ cơ sở Đó là các cụm danh từ không đệ quy, tức là không chứa một cụm danh từ khác bên trong nó và không chứa thành phần bổ nghĩa là một cụm danh từ

Trong khuôn khổ luận văn này, tôi chỉ tập trung giải quyết bài toán tách cụm danh từ cơ sở tiếng Việt Tuy nhiên, do các đặc trưng ngôn ngữ của tiếng Việt nên cấu trúc của cụm danh từ cơ sở tiếng Việt sẽ khác cấu trúc cụm danh từ đơn giản trong các

xử lý trích cụm danh từ tiếng Anh Đặc trưng và cấu trúc cụm danh từ cơ sở tiếng Việt

sẽ được trình bày kỹ ở Chương 3

Một hệ thống phân tách cụm danh từ cơ sở tốt có thể được áp dụng trong nhiều bài toán như:

 Trong hệ thống tìm kiếm thông tin, thay vì tìm kiếm tài liệu chứa các từ riêng

lẻ, hệ thống sẽ tìm kiếm dựa vào các cụm từ Khi đó một số cụm từ và danh từ riêng sẽ rất hữu ích cho mục đích tìm kiếm tài liệu Phân tách các cụm từ cũng rất hữu ích cho các bài toán trích chọn thông tin, máy hỏi-đáp

 Hệ thống dịch máy dựa vào thống kê có thể gồm các hệ con có nhiệm vụ dịch các cụm như cụm danh từ, cụm động từ, cụm giới từ,… như một tác vụ nhỏ trong quá trình dịch Hệ dịch con có thể được huấn luyện trên tập dữ liệu học là các cụm danh từ, cụm động từ, cụm giới từ,… Với hệ dịch máy sử dụng tập dữ liệu huấn luyện song song, các cụm danh từ cũng được sử dụng để gióng hàng văn bản Các câu trong tập dữ liệu song song được gióng hàng bằng cách sử dụng các thông tin cụm từ và liên kết cụm ở ngôn ngữ nguồn với cụm ở ngôn ngữ đích

 Phân tách cụm danh từ có thể được sử dụng như một bước tiền xử lý trước khi phân tích cả câu Vì ngôn ngữ tự nhiên có tính nhập nhằng cao nên việc phân tích một câu có thể trở nên rất phức tạp Trong những trường hợp này, phân tách cụm từ có thể được sử dụng như một bước tiền xử lý giải quyết những nhập nhằng này

Trang 10

 Xác định đồng tham chiếu là bài toán xác định các cụm danh từ cùng tham chiếu tới một thực thể nào đó Xác định đồng tham chiếu là một trong những nghiên cứu cốt lõi trong xử lý ngôn ngữ tự nhiên, đóng vai trò quan trọng trong các lĩnh vực như máy hỏi-đáp, dịch tự động, tóm tắt văn bản Để giải quyết bài toán phải qua nhiều bước, nhưng bước quan trọng đầu tiên là phải xác định được các cụm danh từ trong từng câu Vì vậy, phân tách cụm danh từ là bài toán

cơ sở để xác định tham chiếu trong văn bản

 Trong hệ thống tự động sinh chỉ mục các thuật ngữ cho một cuốn sách, bước đầu tiên là phải xác định được các thuật ngữ để đánh chỉ mục Các thuật ngữ này thường là danh từ hoặc cụm danh từ Do đó, bài toán phát hiện và phân tách cụm danh từ sẽ là một bước quan trọng trong quá trình sinh chỉ mục tự động

1.2 Một số nghiên cứu về bài toán phân tách cụm danh từ cơ sở

Năm 1991, Stenven Abney đã đề xuất bài toán phân tích một câu đầu vào thành các cụm từ trong đó các từ trong cùng một cụm tương liên với nhau [7] Nghiên cứu của tác giả dựa vào kết quả nghiên cứu của hai nhà tâm lý học Gee và Grojean (1983), theo đó các cụm là những quãng ngắt khi đọc một câu Giả sử khi đọc một câu, ta không đọc liền mạch cả câu đó mà sẽ ngắt ra thành các cụm như sau:

[I begin] [with an intuition] : [when I read] [a sentence], [I read it] [a chunk] [at

a time]

Những cụm này được gọi là cụm  Cụm  điển hình gồm một từ nội dung, xung quanh là các từ chức năng Từ chức năng (function word) là những từ chứa ít nghĩa từ vựng hoặc nhập nhằng về ngữ nghĩa nhưng nó diễn tả quan hệ ngữ pháp với các từ khác trong một câu như giới từ, đại từ, …); Những từ không phải là từ chức năng được gọi là từ nội dung (content word)

Sau Abney, một số nghiên cứu khác tập trung chủ yếu vào phát hiện các cụm danh từ ở mức thấp, thường là trích chọn các thuật ngữ (Bourigault 1992, Voutilainen 1993) (theo [19]) bằng cách sử dụng văn phạm Phải đến năm 1995 khi Lance Ramshaw và Mitch Marcus đề xuất phương pháp phân tách cụm từ bằng phương pháp học máy thì bài toán này mới được biết đến rộng rãi và được nhiều nhà khoa học quan tâm Phương pháp học máy dựa vào biến đổi (Transformation-Based Learning - TBL) được Ramshaw và Marcus sử dụng và đem lại kết quả khả quan với F1 bằng 92.03% [19] Hai tác giả cũng xây dựng bộ dữ liệu chuẩn tiếng Anh mà hầu hết các nghiên cứu sau này thường sử dụng để so sánh, đánh giá kết quả Ba nhà nghiên cứu Abney, Ramshaw, Marcus được coi là những người đi tiên phong trong vấn đề này

Trang 11

Sau nghiên cứu của Ramshaw và Marcus, nhiều nhà nghiên cứu khác đã đi sâu tìm hiểu, giải quyết bài toán, trong đó phải kể tới hội nghị CONLL-2000 tập trung về phân tách cụm danh từ và các loại cụm từ khác Nhiều phương pháp học máy khác nhau đã được sử dụng để thử nghiệm và thu được kết quả khá tốt Có thể được chia thành bốn nhóm phương pháp: phương pháp học dựa vào luật, học dựa vào bộ nhớ, học thống kê và các hệ thống kết hợp Một số kỹ thuật mới được phát triển gần đây như mô hình trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRFs), phương pháp học cấu trúc, học bán giám sát,… cũng đã được áp dụng, phát triển Mặc

dù đã được nghiên cứu trong gần hai mươi năm qua nhưng đến nay nhiều nhà nghiên cứu vẫn quan tâm và tìm cách cải tiến Điều này chứng tỏ sự cần thiết và tầm quan trọng của một hệ thống phân tách cụm từ danh từ nói riêng và các cụm từ nói chung

Một số kết quả tốt nhất cho bài toán phân tách cụm danh từ cơ sở tiếng Anh được biểu diễn trong bảng 1

Bảng 1: Một số kết quả bài toán phân tách cụm danh từ cơ sở tiếng Anh

Hieu, Minh 2006 [25] Trường ngẫu nhiên có điều kiện 96.74

Kudo, Matsumoto 2001 [34] Máy vector hỗ trợ 95.77

Sha, Pereira 2003 [31] Trường ngẫu nhiên có điều kiện 94.38

Với các ngôn ngữ khác, hầu hết kết quả tách cụm danh từ thấp hơn khá nhiều so với tiếng Anh, do mỗi ngôn ngữ có những đặc trưng và khó khăn riêng Ngôn ngữ Trung Quốc đạt kết quả cao khi sử dụng phương pháp máy vector hỗ trợ và mô hình trường ngẫu nhiên có điều kiện [15] Ba ngôn ngữ của Ấn Độ là Bengali, Hindi và Telugu đạt kết quả phân tách cụm từ cao nhất khi sử dụng phương pháp CRFs [10] Ngôn ngữ Hàn Quốc cũng đạt kết quả rất cao với CRFs khi phân tách cụm danh từ cơ

sở Một số kết quả phân tách cụm danh từ của các ngôn ngữ khác được biểu diễn trong bảng 2

Bảng 2: Một số kết quả bài toán phân tách cụm danh từ cơ sở ngôn ngữ khác

Chen, Zang, Isahara 2006

[36]

Xu, Zong, Zhao 2006 [15] Kết hợp SVMs và CRFs Trung Quốc 89.27

Trang 12

Avinesh, Karthik 2007 [10] CRFs

(phân tách cụm từ)

Bengali (Ấn Độ) 82.74 Hindi (Ấn Độ) 80.97 Telugu (Ấn Độ) 79.15

Các nhà nghiên cứu xử lý ngôn ngữ tiếng Việt hiện vẫn đang nỗ lực trong quá trình xây dựng bộ công cụ và tập dữ liệu cho các bài toán nền tảng như phân tích cú pháp, phân tách cụm từ Tuy nhiên hiện nay vẫn chưa có một bộ dữ liệu chuẩn nào cho việc đánh giá và so sánh hệ thống tách cụm danh từ tiếng Việt, do việc xây dựng bộ dữ liệu này rất tốn kém về mặt thời gian cũng như công sức Hi vọng rằng trong thời gian gần sắp tới, chúng ta sẽ có được bộ dữ liệu chuẩn hỗ trợ trong việc nghiên cứu bài toán này

1.3 Một số phương pháp biểu diễn dữ liệu

Bài toán phân tách cụm danh từ tiếng Việt có thể được xem là bài toán gán nhãn hoặc phân lớp cho các từ trong câu Ví dụ, đối với bài toán xác định từ loại của các từ trong câu là gán nhãn các lớp từ loại cố định có sẵn (danh từ, động từ, tính từ, đại từ,

số từ, …) cho các từ trong câu Hay như bài toán xác định trọng âm của từ là xác định loại trọng âm nào tại mỗi ký tự trong từ, trong câu Như vậy, tùy theo tác vụ xử lý ngôn ngữ tự nhiên mà có thể gán nhãn giá trị của lớp trên mỗi ký tự hoặc trên mỗi từ trong câu Riêng đối với xác định cụm danh từ trong câu thì dữ liệu cần gán nhãn là nhóm các từ liên tục nhau và cần xác định xem mỗi từ có thuộc cụm danh từ hay không Tùy vào phương pháp biểu diễn, ta sẽ có tập các nhãn để gán cho các từ trong câu

Bộ dữ liệu do Ramshaw và Marcus xây dựng năm 1995 được biểu diễn theo phương pháp IOB, sử dụng tập nhãn là {I, O, B} Sau này khi Sang và Veenstra giới thiệu ba biến thể khác là IOB2, IOE1, IOE2 năm 1999 [35] thì phương pháp biểu diễn của Ramshaw và Marcus được gọi là IOB1 Bốn phương pháp biểu diễn dữ liệu này giống nhau ở cách gán nhãn cho từ không thuộc cụm – nhãn O; và khác nhau ở cách gán nhãn cho từ đầu tiên và từ cuối cùng của một cụm danh từ Cụ thể như sau:

 IOB1: Từ đầu tiên của một cụm danh từ cơ sở theo sau một cụm danh từ cơ sở khác được gán nhãn B

Trang 13

 IOB2: Từ đầu tiên của cụm danh từ cơ sở được gán nhãn B, những từ tiếp theo của cụm danh từ cơ sở được gán nhãn I, từ không thuộc cụm danh từ nào được gán nhãn là O

 IOE1: Từ cuối cùng của một cụm danh từ cơ sở đứng liền trước cụm danh từ khác được gán nhãn E

 IOE2: Từ cuối cùng của tất cả cụm danh từ cơ sở được gán nhãn E

Đây là một số phương pháp thường được sử dụng trong các hệ thống phân tách cụm danh từ cơ sở Ngoài ra còn một số phương pháp khác như [+], [+IO, IO+]

Ví dụ, câu “Tốc độ tăng trưởng GDP trên địa bàn TP đạt 12% năm 2005” sẽ được gán nhãn như sau:

Bảng 3: Ví dụ về các phương pháp biểu diễn dữ liệu

1.4 Một số phương pháp giải quyết bài toán

Phân tách cụm danh từ là một trong các bài toán xử lý ngôn ngữ tự nhiên có ứng dụng khá rộng rãi trong nhiều lĩnh vực khác nhau Chính vì vậy, ngay từ những năm 1990, đã có nhiều nghiên cứu liên quan đến bài toán này và cho đến nay các nghiên cứu đó vẫn tiếp tục được cải tiến, đạt được những kết quả khả quan và ngày càng được áp dụng trên nhiều ngôn ngữ khác nhau

Trang 14

Hiện nay tồn tại nhiều phương pháp giải quyết bài toán phân tách cụm danh từ

cơ sở, nhưng nhìn chung có thể chia thành bốn nhóm chính sau: học dựa trên luật (rule-based methods), học mẫu (memory-based methods), các phương pháp dựa vào thống kê (statistical methods) và các phương pháp kết hợp (combined methods)

Phần này sẽ trình bày hai thuật toán học máy là học dựa vào biến đổi và máy vector hỗ trợ Thuật toán học dựa vào biến đổi là phương pháp học máy đầu tiên được

áp dụng để xác định cụm danh từ tiếng Anh và đã thu được kết quả khá tốt Máy vector hỗ trợ hiện là một trong những phương pháp đem lại kết quả tốt nhất cho bài toán này

1.4.1 Thuật toán học dựa vào biến đổi

Học dựa vào biến đổi (based learning hay based error-driven learning, TBL) là phương pháp học máy dựa trên luật hiệu quả, được Brill giới thiệu năm 1993 [11] TBL là thuật toán linh hoạt, có thể dễ dàng mở rộng với nhiều bài toán và miền ứng dụng khác nhau TBL đã được áp dụng cho nhiều bài toán và đem lại kết quả khả quan như gán nhãn từ loại, phân tách cụm danh từ, phân đoạn và hiểu văn bản

Transformation-Ý tưởng cơ bản của TBL là học một tập các luật từ dữ liệu huấn luyện Tập luật này được sắp thứ tự và phát triển tăng dần dựa vào trạng thái hiện tại của tập dữ liệu học Tập luật đầu tiên được lựa chọn dựa vào thống kê đơn giản, sau đó các luật được học tăng dần để hiệu chỉnh những lỗi sai cho đến khi độ chính xác không thể tăng lên được nữa

Hình 1: Quá trình huấn luyện của thuật toán TBL

Dữ liệu huấn luyện

Hệ dự đoán cơ sở

Tập dữ liệu hiện tại

Đánh giá các luật ứng cử

Trang 15

Quá trình học được thực hiện như sau (hình 1): Đầu tiên, một hệ thống cơ sở (baseline system) được sử dụng để gán nhãn cho tập ví dụ học Hệ thống cơ sở thường dựa vào kinh nghiệm, có thể là nhãn phổ biến nhất trong tập dữ liệu huấn luyện, hoặc

có thể là kết quả của một bộ phân lớp khác Sau đó, với các ví dụ bị hệ thống cơ sở dự đoán sai, các mẫu luật sẽ được sử dụng để lựa chọn danh sách các luật ứng cử (candidate) Các luật ứng cử này được kiểm tra với các ví dụ còn lại, xác định số ví dụ

bị được gán đúng và số ví dụ bị gán sai khi áp dụng luật Luật nào có tỉ số (số ví dụ gán đúng trừ số ví dụ gán sai) lớn nhất sẽ được lựa chọn Luật này sẽ là luật đầu tiên trong danh sách luật được học Quá trình học này được lặp lại trên tập dữ liệu đã bị biến đổi: tìm tập luật ứng cử, đánh giá chúng và lựa chọn luật tốt nhất Quá trình này được lặp đi lặp lại, cho đến khi độ chính xác không thể tăng lên được nữa Kết quả của quá trình này ta sẽ được một tập các mẫu được sắp xếp theo thứ tự, luật nào được lựa chọn trước sẽ đứng trước, luật nào được lựa chọn sau sẽ đứng sau Để dự đoán một tài liệu, đầu tiên ta áp dụng hệ dự đoán cơ sở và sau đó áp dụng lần lượt từng luật trong tập luật trả về từ quá trình học

1.4.2 Thuật toán máy vector hỗ trợ

Máy vector hỗ trợ (Support Vector Machines – SVMs) được Vapnik giới thiệu lần đầu tiên năm 1995, là một hướng tiếp cận học máy mới dựa trên lý thuyết thống kê

để giải quyết các bài toán nhận dạng hai lớp SVMs được biết tới rộng rãi bởi độ chính xác cao khi áp dụng cho nhiều bài toán nhận dạng Gần đây, SVMs được ứng dụng trong nhiều bài toán xử lý ngôn ngữ tự nhiên như phân lớp văn bản, phân tách cụm danh từ [15,33,34] Đã có những kết quả lý thuyết cũng như thực nghiệm chỉ ra rằng SVM có thể đem lại kết quả tốt với không gian thuộc tính nhiều chiều mà không gặp phải hiện tượng quá khớp (over-fitting) dữ liệu huấn luyện

Về cơ bản, SVM là một bộ phân lớp tuyến tính giải quyết bài toán phân lớp nhị phân Bài toán được định nghĩa như sau:

Cho tập dữ liệu học D( ,x y i i),i 1, ,n với m

i

xRy i  1,1 là một số nguyên xác định x i là dữ liệu dương hay âm Một tài liệu x i được gọi là dữ liệu dương nếu nó thuộc lớp c i; x i được gọi là dữ liệu âm nếu nó không thuộc lớp c i Các ví dụ huấn luyện sẽ được phân tách thành hai miền âm và dương bởi siêu phẳng có dạng:

x f x: ( )w Tw0 0Trong đó m

wRw0R đóng vai trò là tham số của mô hình Hàm phân lớp nhị phân h R: m  0,1 có thể thu được bằng cách xác định dấu của f(x) :

Trang 16

Hình 2: Siêu phẳng có lề hẹp Hình 3: Siêu phẳng có lề rộng

Nếu dữ liệu được phân tách tuyến tính thì sẽ tồn tại nhiều siêu phẳng có khả năng phân tách dữ liệu thành hai miền Hai trong số những siêu phẳng được minh họa như trên hình 2 và hình 3 Câu hỏi đặt ra là trong hai siêu phẳng này thì siêu phẳng nào tốt hơn, và làm thế nào để xác định được siêu phẳng tối ưu?

Định nghĩa biên M của bộ phân lớp là khoảng cách giữa các siêu phẳng và các

dữ liệu học gần nhất Vapnik chứng minh rằng, siêu phẳng tối ưu nhất là siêu phẳng có biên lớn nhất, điều đó có nghĩa là chúng ta cần tìm siêu phẳng sao cho khoảng cách từ siêu phẳng đến những điểm gần nhất là lớn nhất Vapnik cũng chứng minh rằng khả năng overfitting với siêu phẳng tối ưu nhỏ hơn so với các siêu phẳng khác

Trang 17

Cực tiểu hóa 2

1

12

n

i i

1.4.3 Phương pháp tiếp cận của luận văn

Các kết quả nghiên cứu về phân tách cụm danh từ đối với tiếng Anh và một số ngôn ngữ khác như tiếng Trung, tiếng Hàn Quốc, và một số ngôn ngữ của Ấn Độ cho thấy, trường ngẫu nhiên có điều kiện (CRFs) là một trong những phương pháp cho kết quả cao nhất khi giải quyết bài toán này CRFs là phương pháp được các nhà nghiên cứu rất quan tâm hiện nay bởi những ưu điểm nổi trội như cho phép biểu diễn thuộc tính phụ thuộc vào các thành phần của dữ liệu quan sát, kết hợp nhiều thuộc tính phong phú từ dữ liệu một cách mềm dẻo Hơn nữa, huấn luyện CRFs thực hiện dựa trên việc tối ưu hoá hàm log-likelihood - bản chất là một hàm lồi, do đó cho phép thu được tối ưu toàn cục Xuất phát từ những lý do trên, luận văn lựa chọn mô hình trường ngẫu nhiên có điều kiện để giải quyết bài toán phân tách cụm danh từ tiếng Việt Chương sau sẽ trình bày kỹ hơn về mô hình này

Trang 18

Chương 2: Mô hình trường ngẫu nhiên có điều kiện

Bài toán phân tích dữ liệu dạng chuỗi hay gán nhãn dữ liệu dạng chuỗi trong ngôn ngữ học thường được mô tả như việc ánh xạ chuỗi dữ liệu đầu vào thành chuỗi nhãn tương ứng Ví dụ, một số bài toán trong xử lý ngôn ngữ tự nhiên như tách từ, phân tích cú pháp, nhận dạng thực thể tên, phân tách cụm từ, … Bài toán này cũng xuất hiện khá nhiều trong các lĩnh vực khác như tin sinh học, nhận dạng tiếng nói, trích chọn thông tin Một trong những phương pháp phổ biến để giải quyết bài toán gán nhãn và phân đoạn là sử dụng các mô hình Markov ẩn (Hidden Markov Models, HMMs) hoặc mô hình máy hữu hạn trạng thái dựa vào xác suất Mô hình Markov ẩn là một dạng của mô hình sinh, định nghĩa phân phối xác suất đồng thời p(X,Y) với X và

Y là các biến ngẫu nhiên biểu diễn chuỗi quan sát và chuỗi nhãn tương ứng Để tính xác suất đồng thời này, mô hình sinh phải liệt kê tất cả các chuỗi quan sát có thể; trong nhiều miền ứng dụng thì điều này là không thể thực hiện được trừ khi các thành phần được biểu diễn như những đơn vị riêng biệt, độc lập với các thành phần khác trong chuỗi quan sát Nói cách khác, tại một thời điểm, quan sát hiện tại chỉ phụ thuộc vào trạng thái tại thời điểm đó Giả thiết này chỉ phù hợp cho một vài tập dữ liệu đơn giản,

vì hầu hết các chuỗi quan sát trong thế giới thực đều được biểu diễn bởi nhiều thuộc tính có ảnh hưởng lẫn nhau và phụ thuộc vào nhiều quan sát

Đây là một trong những vấn đề cơ bản khi giải quyết bài toán gán nhãn dữ liệu dạng chuỗi Như vậy, rõ ràng một mô hình khắc phục được nhược điểm trên phải thoả mãn hai tiêu chí: thứ nhất, bài toán suy diễn trong mô hình có thể thực hiện được; thứ hai, loại bỏ được giả thiết độc lập của chuỗi quan sát Một cách để thoả mãn được hai tiêu chí này là sử dụng mô hình xác định phân phối có điều kiện p(Y|X) - là xác suất của chuỗi trạng thái với điều kiện đã biết chuỗi quan sát, thay vì tính xác suất đồng thời của chuỗi trạng thái và chuỗi quan sát như trên Vì mô hình là có điều kiện, phụ thuộc toàn cục vào X nên có thể sử dụng nhiều thuộc tính đa dạng, phong phú Ví dụ, trong các bài toán xử lý ngôn ngữ tự nhiêu, những thuộc tính hữu ích như các từ láng giềng, tiền tố, hậu tố, chữ viết hoa, và các thông tin ngữ nghĩa từ các nguồn như WordNet

Trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRFs) [18] được McCallum giới thiệu năm 2000 là một mô hình đồ thị vô hướng để gán nhãn và phân đoạn dữ liệu dạng chuỗi dựa theo hướng tiếp cận có điều kiện như trên Ưu điểm chính của CRFs so với mô hình Markov ẩn là bản chất có điều kiện của nó, cho phép biểu diễn được nhiều thuộc tính phong phú, và bài toán suy diễn có thể giải được Hơn nữa CRFs cũng tránh được vấn đề “bias”, nhược điểm của mô hình Markov entropy cực

Trang 19

đại (Maximum entropy Markov models, MEMMs) [18] và các mô hình Markov có điều kiện dựa trên mô hình đồ thị có hướng CRFs cho kết quả tốt hơn cả MEMMs và HMMs trong nhiều bài toán gãn nhãn chuỗi dữ liệu trong thế giới thực [8, 23]

Phần sau sẽ trình bày những nét khái quát về mô hình đồ thị, làm cơ sở để từ đó giới thiệu về mô hình CRFs

2.1 Mô hình đồ thị

Cho G( , )V E là một đồ thị với V là tập các đỉnh và E là tập các cạnh Trong

đó V X Y với X, Y là tập các biến ngẫu nhiên, được biểu diễn bằng các nút hình tròn X thường là tập các biến đầu vào mà ta quan sát được, và Y là tập các biến đầu ra

mà ta cần dự đoán Nếu giữa hai nút không có cạnh nối thì hai nút đó độc lập có điều kiện Độc lập có điều kiện nghĩa là hai biến ngẫu nhiên a, b độc lập với một biến ngẫu nhiên cho trước c nếu hai biến này độc lập với phân phối xác suất có điều kiện của chúng, hay p a b c( , | ) p a c p b c( | ) ( | ) Những đồ thị biểu diễn được tính chất độc lập có điều kiện của các phân phối cơ sở như này được gọi là đồ thị độc lập, vì đồ thị có thể biểu diễn tính chất độc lập có điều kiện của các phân phối cơ sở

Độc lập có điều kiện là một khái niệm quan trọng vì nó có thể được sử dụng để phân tích một phân phối xác suất phức tạp thành tích của các thừa số, trong đó mỗi thừa số chứa tập con các biến ngẫu nhiên tương ứng Khái niệm này giúp cho các tính toán phức tạp trở nên hiệu quả hơn

Kí hiệu các chữ thường đậm x, y, s, v… là vector biểu diễn chuỗi dữ liệu quan sát, vector biểu diễn chuỗi trạng thái.… Phân phối xác suất đồng thời sẽ được phân tích thành tích các thừa số svới vs là tập con các biến ngẫu nhiên tương ứng cấu thành nên thừa số snày

Mô hình đồ thị vô hướng

Khái niệm clique: Trong lý thuyết đồ thị, một clique trong một đồ thị vô hướng

G là một tập các đỉnh V thoả mãn: với mỗi cặp đỉnh thuộc V luôn tồn tại một cạnh nối

Trang 20

Do vậy một đồ thị con được tạo ra từ V sẽ là một đồ thị đầy đủ Kích thước của một clique là số đỉnh của nó

Một clique tối đa (maximal clique) là tập các đỉnh V sao cho đồ thị con được tạo ra từ V là một đồ thị con đầy đủ và không là tập đỉnh con của bất kỳ đồ thị đầy đủ lớn hơn nào khác

Kí hiệu C là tập clique tối đa của đồ thị Với mỗi clique cC, gọi c(vc) là hàm tiềm năng của các biến ngẫu nhiên vC Mô hình đồ thị vô hướng sẽ phân tích xác suất đồng thời p v( ) thành tích các hàm tiềm năng:

1

( )

c C Z

v

v Hệ số Z được tính theo công thức:

2.2 Mô hình trường ngẫu nhiên có điều kiện

Kí hiệu X là biến ngẫu nhiên tương ứng với chuỗi quan sát và Y là biến ngẫu nhiên tương ứng với chuỗi nhãn Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận trá trị trong tập hữu hạn các trạng thái S

Một CRF là một mô hình đồ thị vô hướng phụ thuộc toàn cục vào biến ngẫu nhiên biểu diễn chuỗi quan sát Một cách hình thức, định nghĩa G( , )V E là một đồ thị

vô hướng sao cho mỗi nút v V tương ứng với một biến ngẫu nhiên biểu diễn thành phần Yv của Y Nếu biến ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thị G - tức là xác suất của biến ngẫu nhiên Yv khi đã biết X và tất cả các biến ngẫu nhiên khác Y{u|uv, {u,v} V} bằng xác suất của biến ngẫu nhiên Yv khi đã biết X và các biến

ngẫu nhiên khác tương ứng với các đỉnh kề với đỉnh v trong đồ thị:

p(Yv | X, Yu, u v, {u,v}V) = p(Yv | X, Yu, (u,v) E)

Trang 21

thì (X, Y) là một trường ngẫu nhiên có điều kiện

Về lý thuyết, cấu trúc của đồ thị G có thể tuỳ ý sao cho có thể mô hình hoá tính chất độc lập có điều kiện của các thành phần trong chuỗi trạng thái; Tuy nhiên, khi mô hình hoá dữ liệu, cấu trúc đồ thị đơn giản và phổ biến nhất là cấu trúc dạng chuỗi tuyến tính; Tức là các nút tương ứng với các thành phần của Y tạo thành chuỗi bậc một đơn giản CRFs có cấu trúc như này được gọi là CRFs chuỗi tuyến tính, minh hoạ như hình vẽ sau:

y'

x, y y', x

=

1

( , )1

Đối với CRFs chuỗi tuyến tính, clique tối đa trong đồ thị gồm các đỉnh yi, yi-1 và x;

Tức là tập clique tối đa C  j(y y j, j1 , ) |x  j 1, ,n  Do đó công thức 2.6 trở thành:

Trang 22

Với thừa số chuẩn hóa:

n j j

chuỗi trạng thái k và k là các tham số được ước lượng từ dữ liệu huấn luyện

Thay vào (2.8) ta có xác suất của chuỗi trạng thái y khi biết chuỗi quan sát x là:

i i k

Z

)(

1)

|

x x

i i k

2.3 Ước lượng tham số và suy diễn CRFs

2.3.1 Ước lượng tham số cho CRFs

Hai phương pháp được sử dụng để ước lượng tham số cho mô hình từ tập dữ liệu huấn luyện là ước lượng bằng phương pháp cực đại hoá khả năng (Maximum Likelihood Estimation - MLE) và cực đại phân phối tiên nghiệm (Maximum a Priori Estimation - MPE) Phần này sẽ trình bày sơ lược về phương pháp cực đại hoá khả năng, phương pháp mà hiện nay được nhiều nhà nghiên cứu áp dung

Giả sử dữ liệu huấn luyện gồm một tập N cặp , mỗi că ̣p gồm mô ̣t chuỗi quan sát và một chuỗi trạng thái tương ứng , D={(x(i),y(i))} i 1 N Độ đo likel ihood

giữa tập huấn luyê ̣n và mô hình điều kiê ̣n tương ứng p(y|x,) là:

Trang 23

( , ) ,

x y

L    p y x  

Ở đây (1,2, ,1,2 ) là các tham số của mô hình và ~p(x,y)là phân phối

thực nghiê ̣m đồng thời của x,y trong tâ ̣p huấn luyê ̣n

Hai tính chất của hàm likelihood cho phép nó được sử dụng để đánh giá chất lượng của một mô hình ( | , )p y x là:

( ) 0

L  và ( )L  0khi và chỉ khi (p  x, y)0với mọi ( | , ) 1p y x  

MLE sử dụng hàm likelihood để xếp hạng các giá trị có thể của  Nguyên lý cực đại hoá entropy phát biểu rằng giá trị  sẽ được chọn sao cho nó làm cực đại hàm likelihood:

arg max ( )

   (2.13)

ML

 đảm bảo những dữ liệu mà chúng ta quan sát được trong tập huấn luyện

sẽ nhận được xác suất cao trong mô hình Nói cách khác, các tham số làm cực đại hàm likelihood sẽ làm phân phối trong mô hình gần nhất với phân phối thực nghiệm trong tập huấn luyện Vì việc tính teta dựa theo công thức (2.1) rất khó khăn nên thay vì tính toán trực tiếp, ta đi xác định teta làm cực đại logarit của hàm likelihood (thường được gọi tắt là log-likelihood):

Hàm logarit là hàm đơn điệu nên việc này không làm thay đổi giá trị của 

được chọn Thay p(y|x, ) của mô hình CRF vào công thức (2.3), ta có:

t y

~

*

*)

,(

~)

Ở đây, (1,2, n) và (1,2, ,m)là các vector tham số của mô hình, t là

vector các thuộc tính chuyển (t1(yi-1,yi,x),t2(yi-1,yi,x),…), s là vector các thuộc tính

trạng thái (s1(yi,x),s2(yi,x),…)

Hàm log-likelihood cho mô hình CRF là một hàm lồi và trơn trong toàn bộ không gian của tham số Bản chất hàm lồi của log-likelihood cho phép ta có thể tìm được giá trị cực đại toàn cục  bằng cách thiết lập các thành phần của vector gradient của hàm log-likelihood bằng không Mỗi thành phần trong vector gradient của hàm log-likelihood là đa ̣o hàm của hàm log -likelihood theo mô ̣t tham số của mô hình Đạo hàm hàm log – likelihood theo tham số k ta được:

Trang 24

Việc thiết lập phương trình trên bằng 0 tương đương với việc đưa ra một ràng buộc cho mô hình: giá trị kỳ vọng của tk theo phân phối ~p(x p) (y|x,) bằng giá trị kỳ vọng của tk theo phân phối thực nghiệm~p(x,y)

Về phương diê ̣n toán ho ̣c , bài toán ước lượng tham số cho một mô hình CRF chính là bài toán tìm cực đa ̣i của hàm log-likelihood Tuy nhiên, thiết lập phương trình trên bằng 0 và giải phương trình để tìm  không phải lúc nào cũng khả thi Do đó, các tham số làm cực đại hàm likelihood thường được chọn bằng cách sử dụng phương pháp lặp (IIS và GIS), các phương pháp tối ưu số (Conjugate Gradient, phương pháp Newton…)

2.3.2 Suy diễn CRFs

Ta xem xét hai vấn đề suy diễn trong CRFs chuỗi tuyến tính Thứ nhất, trong quá trình huấn luyện mô hình, để tính toán gradient cần phải tính phân phối lớn nhất

p(yt|x) Thứ hai, để gán nhãn cho chuỗi quan sát mới, chúng ta phải tính chuỗi trạng

thái phù hợp nhất với chuỗi trạng thái này Điều này tương đương với việc làm cực đại

phân phối xác suất giữa chuỗi trạng thái y và dữ liệu quan sát x Chuỗi trạng thái y*

mô tả tốt nhất chuỗi dữ liệu quan sát x sẽ là nghiệm của phương trình

* arg max{ ( | )}

Với CRFs chuỗi tuyến tính, cả hai bài toán suy diễn trên đều có thể giải quyết một hiệu quả và chính xác bởi các thuật toán quy hoạch động như thuật toán Viterbi, thuật toán tiến-lùi (Forward-Backward) Ngoài ra hướng tiếp cận dựa trên lấy mẫu sẽ hội tụ sau một số vòng lặp như chuỗi Markov Monte Carlo cũng được sử dụng, tuy không phổ biến Phần sau sẽ trình bày về thuật toán Viterbi, một trong những thuật toán điển hình và hiệu quả đã được áp dụng rộng rãi trong mô hình Markov ẩn

Gọi j( | )s x là xác suất lớn nhất của chuỗi trạng thái có độ dài j, kết thúc ở

trạng thái s:

1 2 , , ,

Trang 25

1 '

( ) arg max ( ') ( , ')

4 Chuỗi trạng thái tối ưu:

Tính toán chuỗi tối ưu bằng cách lần theo vết của t

y t* t1(y t*1) t n 1,n2, ,1 (2.22)

Trang 26

Chương 3: Đặc điểm cụm danh từ tiêng Việt và phương pháp

xây dựng tập dữ liệu 3.1 Đặc điểm cụm danh từ tiếng Việt

Tiếng Việt là ngôn ngữ của người Việt và là ngôn ngữ chính thống tại Việt Nam Tiếng Việt là ngôn ngữ có nguồn gốc bản địa, xuất thân từ nền văn minh nông nghiệp tại nơi mà ngày nay là khu vực phía bắc lưu vực sông Hồng và sông Mã của Việt Nam Do quá trình tiếp xúc lâu dài giữa tiếng Việt và tiếng Hán đã đưa vào tiếng Việt một khối lượng từ ngữ rất lớn của tiếng Hán Tỉ lệ vay mượn tiếng Hán trong tiếng Việt rất lớn nhưng đại đa số những từ đó đều đã được Việt hóa cho phù hợp với nhận thức của người Việt

Hệ thống chữ viết chính thức hiện nay của tiếng Việt là chữ Quốc Ngữ - được xây dựng dựa trên chữ cái Latin, thêm các chữ ghép và 9 dấu phụ trong đó có 4 dấu tạo ra các âm mới và năm dấu còn lại để thể hiện thanh điệu của từ

Giống như nhiều ngôn ngữ khác ở Đông Nam Á, tiếng Việt thuộc loại hình ngôn ngữ đơn lập Những ngôn ngữ thuộc loại hình này còn được gọi là các ngôn ngữ không có hình thái, ngôn ngữ không biến hình hoặc ngôn ngữ phân tiết Các đặc điểm chính của từ tiếng Việt là:

 Từ trong tiếng Việt được cấu tạo bằng một âm tiết hoặc là tổ hợp nhiều âm tiết được kết hợp theo các cách khác nhau Phụ thuộc vào sự kết hợp của các âm tiết, chúng ta có thể phân loại từ tiếng Việt thành ba nhóm: từ đơn, từ ghép, từ láy Với các từ được cấu tạo từ hai âm tiết trở lên, các âm tiết được phân cách nhau bởi dấu cách trống, ví dụ “Việt Nam”, “sinh viên”… Vì vậy, dấu cách trống không phải là dấu hiệu để nhận ra ranh giới giữa các từ Theo các nhà ngôn ngữ học thì tiếng Việt có đến 80% là các từ gồm hai âm tiết (theo [2])

 Từ không biến đổi hình thái: hình thái của từ không chỉ ra quan hệ giữa các từ trong câu Vì vậy, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và/hoặc bằng các hư từ

Ví dụ: Anh ấy đã cho tôi một cuốn sách (1)

Tôi cũng cho anh ấy hai cuốn sách (2)

Trang 27

Xét về mặt ngữ âm và sự thể hiện bằng chữ viết Anh ấy ở cả hai câu hoàn toàn không có sự thay đổi Tuy nhiên, về vai trò ngữ pháp trong câu, Anh ấy trong câu (1) đóng vai trò là chủ ngữ, ở câu (2) lại giữ vai trò bổ ngữ

 Vấn đề xác định từ loại cho từ trong tiếng Việt phức tạp hơn các tiếng châu Âu

do chúng ta không thể dựa vào các đặc tính đặc biệt về hình thái học của từ để xác định loại từ Trong tiếng anh, các danh từ chỉ các khái niệm phi sự vật thường dễ dàng được nhận diện một cách độc lập thông qua việc thêm các thành

tố phụ vào phía trước hoặc phía sau các động từ, tính từ tương ứng Ví dụ các từ: develop (phát triển) là động từ, thêm thành tố ment vào phía sau thành danh

từ development (sự phát triển); educate (giáo dục) là động từ, thêm thành tố ion vào phía sau thành danh từ education (sự giáo dục, nền giáo dục)… Tiếng Việt không có hiện tượng này nên việc xác định từ loại của các từ khó hơn vì chúng

có cùng vỏ ngữ âm và ý nghĩa diễn tả như các từ loại khác Ví dụ từ “thành công” khi xuất hiện trong các ngữ cảnh khác nhau sẽ có từ loại tương ứng khác nhau:

(1) Thành công của dự án đã tạo tiếng vang lớn (2) Anh ấy rất thành công trong nghiên cứu khoa học (3) Buổi biểu diễn đã thành công

Trong câu (1) từ „thành công‟ là một danh từ, trong câu (2) từ „thành công‟ là một động từ và trong câu (3) từ „thành công‟ lại là một tính từ Vì vậy, việc nhận dạng từ loại của từ tiếng Việt chủ yếu dựa vào ngữ cảnh xuất hiện, tức là dựa vào khả năng kết hợp giữa các từ với nhau

Cấu trúc của cụm danh từ tiếng Việt hiện cũng là một vấn đề còn nhiều tranh luận giữa các nhà ngôn ngữ học Cụm từ tiếng Việt và cụm danh từ tiếng Việt được nhiều nhà ngôn ngữ học trong và ngoài nước quan tâm nghiên cứu như Nguyễn Tài Cẩn, Nguyễn Kim Thản, Diệp Quang Ban, Tuong Hung Nguyen (theo [5])

Theo quan điểm của Nguyễn Tài Cẩn [4], cụm danh từ gồm có một bộ phận trung tâm do danh từ đảm nhiệm và các thành tố phụ Các thành tố này chia làm hai bộ phận: một số thành tố phụ đứng trước danh từ trung tâm tạo thành phần đầu của cụm danh từ, một số khác thì đứng sau danh từ trung tậm, tạo thành phần cuối của cụm danh từ Cụm danh từ có dạng đầy đủ gồm có ba phần: phần đầu, phần trung tâm, phần cuối; dạng không đầy đủ chỉ có hai phần, thí dụ:

Cụm danh từ đầy đủ: Ba học sinh này

Cụm không đầy đủ gồm phần đầu và danh từ trung tâm: Ba học sinh

Ngày đăng: 25/03/2015, 10:03

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Diệp Quang Ban và Hoàng Bân (2004), Ngữ pháp tiếng Việt, Nhà xuất bản Giáo dục, Hà Nội Sách, tạp chí
Tiêu đề: Ngữ pháp tiếng Việt
Tác giả: Diệp Quang Ban và Hoàng Bân
Nhà XB: Nhà xuất bản Giáo dục
Năm: 2004
[2] Đồng Thị Bích Thủy, Hồ Bảo Quốc (2008), “Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin văn bản tiếng Việt” Sách, tạp chí
Tiêu đề: Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin văn bản tiếng Việt
Tác giả: Đồng Thị Bích Thủy, Hồ Bảo Quốc
Năm: 2008
[3] Lại Thị Hạnh (2002), “Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống tra cứu thông tin đa ngôn ngữ”, Luận văn Thạc sĩ tại Đại học Khoa học Tự nhiên TP.HCM Sách, tạp chí
Tiêu đề: Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống tra cứu thông tin đa ngôn ngữ”
Tác giả: Lại Thị Hạnh
Năm: 2002
[4] Nguyễn Tài Cẩn (1999), Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Ngữ pháp tiếng Việt
Tác giả: Nguyễn Tài Cẩn
Nhà XB: Nhà xuất bản Đại học Quốc gia Hà Nội
Năm: 1999
[6] Trần Ngọc Tuấn, Phan Thị Tươi (2004), “Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất”, Tạp chí Bưu chính viễn thông.Tài liệu tham khảo tiếng Anh Sách, tạp chí
Tiêu đề: Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất”, "Tạp chí Bưu chính viễn thông
Tác giả: Trần Ngọc Tuấn, Phan Thị Tươi
Năm: 2004
[7] Abney, Steven (1991), Parsing by chunks, In Berwick, Abney, and Tenny, editors, Principle-Based Parsing, Kluwer Academic Publishers Sách, tạp chí
Tiêu đề: Parsing by chunks
Tác giả: Abney, Steven
Năm: 1991
[8] Andrew McCallum, Freitag, and Pereia (2000), “Maximum entropy markov models for information extraction and segmentation”, Proc. Interational Conference on Machine Learning Sách, tạp chí
Tiêu đề: Maximum entropy markov models for information extraction and segmentation”
Tác giả: Andrew McCallum, Freitag, and Pereia
Năm: 2000
[9] Andrew McCallum (2003), “Efficiently Inducing Features of Conditional Random Fields”, Conference on Uncertainty in Artificial Intelligence (UAI) Sách, tạp chí
Tiêu đề: Efficiently Inducing Features of Conditional Random Fields”
Tác giả: Andrew McCallum
Năm: 2003
[10] Akshar Bharathi, Prashanth R.Mannem (2007), “Introduction to the Shallow Parsing Contest for South Asia Languages”, Proceedings of the IJCAI-2007 Workshop on Shallow Parsing for South Asian languages Sách, tạp chí
Tiêu đề: Introduction to the Shallow Parsing Contest for South Asia Languages”
Tác giả: Akshar Bharathi, Prashanth R.Mannem
Năm: 2007
[11] Eric Brill (1993), A Corpus-Based Approach to Language Learning, phD thesis, University of Pennsylvania Sách, tạp chí
Tiêu đề: A Corpus-Based Approach to Language Learning
Tác giả: Eric Brill
Năm: 1993
[12] Erik F. Tjong Kim Sang, Sabine Buchholz (2000), “Introduction to the CoNLL-2000 Shared Task: Chunking”, Proceedings of CoNLL-2000 and LLL-2000, pp.127-132, Lisbon, Portugal Sách, tạp chí
Tiêu đề: Introduction to the CoNLL-2000 Shared Task: Chunking”, "Proceedings of CoNLL-2000 and LLL-2000
Tác giả: Erik F. Tjong Kim Sang, Sabine Buchholz
Năm: 2000
[13] Erik F. Tjong Kim Sang (2000), “Noun Phrase Representation by System Combination”, Proceedings of ANLP-NAACL 2000, Seattle, WA, USA Sách, tạp chí
Tiêu đề: Noun Phrase Representation by System Combination”
Tác giả: Erik F. Tjong Kim Sang
Năm: 2000
[14] Fabrizio Sebastiani (2002), “Machine Learning in Automated Text Categorization”, ACM Computing Survey, 34(1), pp.1-47 Sách, tạp chí
Tiêu đề: Machine Learning in Automated Text Categorization”, "ACM Computing Survey
Tác giả: Fabrizio Sebastiani
Năm: 2002
[15] Fang Xu, Chengqing Zong (2006), “A Hybrid Approach to Chinese Base Noun Phrase Chunking”, Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, pp.87–93 Sách, tạp chí
Tiêu đề: A Hybrid Approach to Chinese Base Noun Phrase Chunking”, "Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing
Tác giả: Fang Xu, Chengqing Zong
Năm: 2006
[16] Hanna M.Wallach (2004), “Conditional Random Fields: An Introduction”, University of Pennsylvania CIS Technical Report MS-CIS-04-21 Sách, tạp chí
Tiêu đề: Conditional Random Fields: An Introduction”
Tác giả: Hanna M.Wallach
Năm: 2004
[17] Hanna Wallach (2002), Efficient Training of Conditional Random Fields, Master of Science School of Cognitive Science Division of Informatics University of Edinburgh Sách, tạp chí
Tiêu đề: Efficient Training of Conditional Random Fields
Tác giả: Hanna Wallach
Năm: 2002
[18] Hong Shen and Anoop Sarkar, “Voting between Multiple Data Representations for Text Chunking”, Proceedings of the 18th Conference of the Canadian Society for Computational Studies of Intelligence Sách, tạp chí
Tiêu đề: Voting between Multiple Data Representations for Text Chunking”
[19] Lance A.Ramshaw, Mitchell P.Marcus (1995), “Text Chunking using Transformation-Based Learning”, Proceedings of the ACL 3rd Workshop on Very Large Corpora, pp. 82-94 Sách, tạp chí
Tiêu đề: Text Chunking using Transformation-Based Learning”, "Proceedings of the ACL 3rd Workshop on Very Large Corpora
Tác giả: Lance A.Ramshaw, Mitchell P.Marcus
Năm: 1995
[21] Le Minh Nguyen, Huong Thao Nguyen, Phuong Thai Nguyen, Tu Bao Ho, Akira Shimazu, “An empirical study of Vietnamese noun phrase chunking with discriminative sequence models”, Proceedings of the 7 th Workshop on Asian Language Resources, pp.9-16 Sách, tạp chí
Tiêu đề: An empirical study of Vietnamese noun phrase chunking with discriminative sequence models”, "Proceedings of the 7"th
[22] Michael I. Jordan (2004), Graphical Models, Statistical Science (Special Issue on Bayesian Statistics), 19, pp.140-155 Sách, tạp chí
Tiêu đề: Graphical Models
Tác giả: Michael I. Jordan
Năm: 2004

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w