các kỹ thuật xác định collocation và ứng dụng cho tiếng việt

Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xá

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Đồng Thị Ngân

CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ

ỨNG DỤNG CHO TIẾNG VIỆT

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin

HÀ NỘI - 2010

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Đồng Thị Ngân

CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ

ỨNG DỤNG CHO TIẾNG VIỆT

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin

Cán bộ hướng dẫn: TS Lê Anh Cường

HÀ NỘI - 2010

Trang 3

Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị và bạn bè đã luôn ở bên cạnh khuyến khích, động viên, giúp em vượt qua những khó khăn trong quá trình thực hiện luận văn

Hà Nội, ngày 21 tháng 5 năm 2010

Sinh viên thực hiện

ĐỒNG THỊ NGÂN

Trang 4

TÓM TẮT LUẬN VĂN

Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ Luận văn này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt

Trang 5

Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định nghĩa nào được coi là chính thống, hay chuẩn Định nghĩa và phương pháp trích chọn collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu Trong luận văn này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp tương đối cố định

Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23], biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25,

27, 29] Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự cần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngôn ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn

Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực khá mới mẻ Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ở mức độ rất hạn chế Luận văn này tập trung vào việc áp dụng một số phương pháp thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền

xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm;

từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương trình

Trang 6

Mục tiêu của luận văn:

 Khái quát về collocations trong tiếng Việt: trình bày chi tiết về định nghĩa, đặc trưng, phân loại, và một số ứng dụng của collocations trong dịch máy và các bài toán xử lý ngôn ngữ tự nhiên

 Trình bày một số phương pháp trích chọn collocation dựa trên thống kê Cụ thể hơn, trong giới hạn luận văn này, chúng tôi sẽ đi sâu vào bốn phương pháp: phương pháp dựa trên tần số, hai phương pháp kiểm định giả thuyết

và phương pháp dựa trên thông tin tương hỗ Với mỗi phương pháp, từ việc trình bày cơ sở lý thuyết liên quan, chúng tôi đi đến cách áp dụng chúng vào bài toán trích chọn collocations trong tiếng Việt, một số mô hình thực nghiệm, kết quả và đánh giá về việc áp dụng bốn phương pháp đó vào trích chọn collocations trong tiếng Việt

 Đề xuất một số phương pháp thống kê là kết hợp của ba hoặc bốn phương pháp đã được trình bày ở trên, xây dựng mô hình thực nghiệm, đánh giá kết quả và độ chính xác của chương trình

 Đề xuất một phương pháp kết hợp thống kê và thông tin cú pháp áp dụng cho trích chọn collocation có dạng cụm danh từ Từ việc trình bày cơ sở lý thuyết, chúng tôi xây dựng mô hình thực nghiệm, đánh giá kết quả thu được

và độ chính xác của chương trình dựa trên phương pháp này

Trang 7

MỤC LỤC

GIỚI THIỆU

1.1 ĐỊNH NGHĨA 1

1.2 ĐẶC TRƯNG 1

1.2.1 Được sử dụng lặp đi lặp lại trong văn bản 1

1.2.2 Có tính cứng nhắc: 2

1.2.3 Phụ thuộc vào lĩnh vực của văn bản 2

1.2.4 Có liên kết kết chặt chẽ về mặt từ vựng: 3

1.3 PHÂN LOẠI 3

1.4 ỨNG DỤNG 5

Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG KÊ 7 2.1 PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ 8

2.2 PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT 9

2.2.1 Phương pháp kiểm tra t 9

2.2.2 Phương pháp kiểm tra Pearson Chi bình phương 12

2.3 PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE MUTUAL INFORMATION (PMI)) 13

2.4 KẾT QUẢ THỰC NGHIỆM 15

2.4.1 Khái quát về dữ liệu sử dụng 15

2.4.2 Trích chọn bigrams 16

2.4.3 Các mô hình thử nghiệm 18

2.4.4 Kết quả thực nghiệm 19

Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ 25

3.1 GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM 26

3.1.1 Bước 1: Trích chọn bigram 26

3.1.2 Bước 2: Lọc các bigram không hợp lệ 27

3.2 GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CÓ DẠNG N-GRAM 28

3.2.1 Bước 1: 29

3.2.2 Bước 2: 29

Trang 8

3.2.3 Bước 3: 293.3 KẾT QUẢ THỰC NGHIỆM 30

Chương 4. KẾT LUẬN 33

TÀI LIỆU THAM KHẢO

PHỤ LỤC A

PHỤ LỤC B

Trang 9

DANH SÁCH HÌNH VẼ

Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 20Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn 21Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp 22Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào 22

Trang 10

DANH SÁCH BẢNG

Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt 4

Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh 8

Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt 9

Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t 11

Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương 12

Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi bình phương 13

Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ 14

Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger 15

Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 19

Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ loại 20

Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp 21

Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm 23

Bảng 3-1: Một số bigrams và thông tin về vị trí và tần suất xuất hiện của chúng 27

Bảng 3-2: Một số bigram là kết quả của giai đoạn 1 30

Bảng 3-3: Kết quả chạy chương trình ở giai đoạn 1 30

Bảng 3-4: Một số cụm danh từ cố định được trích chọn từ giai đoạn 2 31

Trang 11

Chương 1 KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT

Vì những nghiên cứu về collocations cho tiếng Việt còn ở mức độ hạn chế cả về

số lượng và chất lượng, khái niệm về collocations còn ít nhiều xa lạ với nhiều người, ngay cả đối với những người làm nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên Chương đầu tiên của luận văn này làm nhiệm vụ giới thiệu khái quát về collocation và liên hệ cho tiếng Việt, giúp người đọc hiểu hơn về collocations và sự cần thiết của việc xây dựng một hệ thống trích chọn collocations cho tiếng Việt Cụ thể hơn, nó có nhiệm vụ trả lời bốn câu hỏi chính: Collocations là gì? Đặc trưng của một collocation?

Có những loại collocations nào? Phải trích chọn collocations để làm gì? Phần còn lại của chương sẽ đi sâu vào trả lời bốn câu hỏi này

đi lặp lại các từ Như vậy, Firth thiên về góc độ từ vựng của collocation, còn Choueka lại thiên về chức năng cú pháp của collocation trong văn bản Định nghĩa của Benson

là một trong những định nghĩa hay được sử dụng nhất, tuy nhiên nó đã bỏ qua một số đặc trưng và thuộc tính của collocation ứng dụng trong dịch máy như không thể dịch một collocation trong tiếng Anh sang tiếng Việt theo cách đơn thuần dịch từ tương ứng với từ Đã có khá nhiều nghiên cứu về collocation cho tiếng Anh được tiến hành, tuy nhiên không có định nghĩa chuẩn nào về collocation được đưa ra, và định nghĩa về collocation phụ thuộc vào quan điểm và mục đích sử dụng của mỗi người làm nghiên cứu Trong luận văn này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí

và quan hệ ngữ pháp tương đối cố định

1.2 ĐẶC TRƯNG

Theo định nghĩa được nêu ra ở trên, một collocation có 4 đặc trưng chính:

1.2.1 Được sử dụng lặp đi lặp lại trong văn bản

Sự xuất hiện cùng nhau của các từ tạo thành collocation trong một văn bản không phải là một trường hợp đặc biệt, mà chúng được sử dụng lặp đi lặp lại trong một

ngữ cảnh nhất định Các cụm từ như “to make a decision, to hit a record, to perform

Trang 12

an operation” là các collocation thường gặp trong văn bản tiếng Anh, hay “nhiễm HIV/AIDS, chuyển_dịch cơ_cấu, học_hỏi kinh_nghiệm” là các collocation thường gặp trong văn bản tiếng Việt; và các cụm từ như “to buy short, to ease the jib” hoặc “tiêm vaccine, kiểm_thử phần_mềm”là các collocation đặc trưng cho các lĩnh vực chuyên

môn Cả hai loại collocation đều được sử dụng lặp đi lặp lại trong các ngữ cảnh nhất định

1.2.2 Có tính cứng nhắc:

Theo một nghĩa nào đó, nghĩa của một collocation mang tính thành ngữ, hay cố định Nghĩa của một collocation thường không thể trực tiếp được suy ra từ nghĩa của các từ cấu thành nên nó Trong hầu hết trường hợp, một collocation không thể được dịch theo kiểu từ đối từ từ một ngôn ngữ sang một ngôn ngữ khác Ví dụ, chúng ta có

thể dịch cụm từ “mở cửa” trong tiếng Việt sang tiếng Anh, tiếng Đức một cách dễ dàng, nhưng không thể dịch từ đối từ cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” từ tiếng Việt sang tiếng Anh hay tiếng Đức Một người học tiếng Việt không thể dễ dàng sử dụng cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” nếu họ không

biết trước nghĩa của cả cụm từ trước đó Dịch một văn bản từ ngôn ngữ này sang một ngôn ngữ khác không chỉ đòi hỏi kiến thức về các quy tắc ngữ pháp và ngữ nghĩa vì collocations có tính cứng nhắc, kho ngữ liệu song ngữ về collocations thực sự cần thiết cho một ứng dụng dịch máy hiệu quả

1.2.3 Phụ thuộc vào lĩnh vực của văn bản

Trong các văn bản chuyên ngành, tồn tại rất nhiều collocations Các thuật ngữ chuyên ngành thường ít nhiều xa lạ với những người không nghiên cứu, học tập trong lĩnh vực đó Thêm vào đó, có những từ quen thuộc với người đọc nhưng được sử dụng với nghĩa hoàn toàn khác nghĩa thông thường trong các văn bản chuyên ngành Ví dụ

trong ngành công nghệ thông tin các từ như “kỹ_nghệ phần_mềm, xử_lý bó, tài_nguyên hệ_thống…” hoàn toàn là những từ mới đối với những người học trong

ngành xã hội, hoặc kinh tế khác Bên cạnh đó, có rất nhiều cụm từ không chứa các thuật ngữ chuyên ngành nhưng nghĩa của nó vẫn không quen thuộc với những người

không thuộc chuyên ngành Ví dụ, trong văn bản tiếng Anh, “a dry suit” không phải là

một bộ comple khô, mà là một loại trang phục đặc biệt giúp người thủy thủ không bị ướt trong các điều kiện thời tiết khắc nghiệt Người bản xứ thường không ý thức được tính cứng nhắc của các collocation trong các văn bản thông thường, tuy nhiên, tính cứng nhắc của collocation trong các văn bản chuyên ngành cũng gây cho họ không ít khó khăn

Trang 13

1.2.4 Có liên kết kết chặt chẽ về mặt từ vựng:

Chúng ta thường không thể thay thế một thành phần tạo thành collocation bằng

từ đồng nghĩa của nó, vì việc thay thế có thể dẫn đến làm thay đổi hoàn toàn nghĩa của cụm từ ban đầu Tính chất này của collocation thường được sử dụng bởi các nhà thực hành và biên soạn từ điển khi sưu tập các collocations (Cowie[7]; Benson[2]) Các nhà thực hành và biên soạn từ điển dựa vào ý niệm ngôn ngữ của người khác để quyết định cụm từ nào là collocation và cụm từ nào không phải là collocation Họ thu thập thông tin dưới dạng bảng hỏi bao gồm các câu, mỗi câu đều bị lấy đi một từ Các từ khuyết

có thể dễ dàng được trả lời bởi người bản xứ, trong khi với người học ngôn ngữ (đó,

đó là việc không đơn giản Chính vì vậy, collocation có phân phối xác suất riêng

(Halliday[22]; Cruse[8]) Nói cách khác, ví dụ, xác suất cụm “red herring” xuất hiện liền nhau trong văn bản sẽ lớn hơn tích xác suất xuất hiện của “red” với xác suất xuất hiện của “herring”; hay chúng ta không thể coi hai từ đó là hai biến ngẫu nhiên độc

lập Dựa trên nhận định này, chúng ta xây dựng được tập các phương pháp trích chọn

và nhận dạng collocation từ các corpus dữ liệu lớn dựa trên thống kê

1.3 PHÂN LOẠI

Các nhà ngôn ngữ học và các nhà biên soạn từ điển đã tiến hành khá nhiều nghiên cứu nhằm đưa ra một hệ thống phân loại dành cho collocations Một hệ thống phân loại đã được đưa ra dựa trên quan hệ giữa hai từ thành phần Theo đó, có hai loại collocation chính là collocation có quan hệ về ngữ pháp và collocation có quan hệ về ngữ nghĩa Collocations có quan hệ về ngữ pháp thường bao gồm các giới từ, bao gồm

các cặp từ có cấu trúc dạng động từ + giới từ(ví dụ come to, put on), tính từ + giới từ (như afraid of, fond of) và danh từ + giới từ (ví dụ: by accident, witness to)

Collocations có quan hệ về mặt ngữ nghĩa là các cặp từ giới hạn về mặt từ vựng, không phải khi nào chúng ta cũng có thể thay thế một từ thành phần bằng từ đồng nghĩa của nó

Một hệ thống phân loại khác là thiên về cấu trúc của collocation Theo đó, có hai loại collocations: các collocations là các cụm từ ghép và các collocation có cấu trúc linh động hơn Collocations là các cụm từ ghép bao gồm các cặp từ xuất hiện liền nhau

trong văn bản, và với chức năng cú pháp cố định Cụm danh từ + danh từ là ví dụ về

loại collocation như thế Các collocation là các cặp từ linh động bao gồm các collocations có dạng chủ ngữ và động từ, và giữa chúng có thể có khoảng cách (hay xuất hiện các từ xen ngang)

Trang 14

Một hệ thống nữa được đưa ra bởi Smadja[19] trong bộ công cụ Xtract, theo đó, các collocation được chia làm 3 loại chính:

- Collocations có quan hệ cú pháp: là loại collocation có cấu trúc linh động nhất Chúng thường là các cặp từ không liền nhau trong văn bản, xuất hiện cùng nhau

lặp đi lặp lại với một cấu trúc ngữ pháp nhất định Ví dụ: “hostile-takeover”,

“make-decision” Bảng 1-1 minh họa một số collocations có quan hệ vị ngữ trong

với N là danh từ, V là động từ và A là tính từ

- Collocations là các cụm danh từ cố định: là loại collocation có cấu trúc cố định nhất Chúng bao gồm các cụm danh từ mang tính chất thuật ngữ trong các lĩnh vực

cụ thể, và các cụm danh từ mà nghĩa của nó không thể được suy ra từ nghĩa của các

từ thành phần Ví dụ: “stock market”, “foreign exchange”, “New York Stock Exchange”, “The Dow Jones average of 30 industrials” Bảng 1-2 minh họa một

số collocation có dạng cụm danh từ cố định trong tiếng Việt

Trang 15

Bảng 1-2:Một số collocations có dạng cụm danh từ cố định

Mức thuế_suất nhập_khẩu

Tình_hình kinh_tế chính_trị Khối đại_đoàn_kết toàn dân Quyền và nghĩa_vụ của công_dân

Cuộc chiến_tranh Đồn biên_phòng

- Collocations là các cụm từ khuôn mẫu: thường bao gồm các cụm từ mang tính chất thành ngữ, chứa một, một vài, hoặc không có chỗ trống nào Nếu tồn tại chỗ trống, các cụm từ khuôn mẫu cho phép xác định nhãn của các từ có thể được thêm vào

chỗ trống đó Ví dụ: “The average finished the week with a net loss of

*NUMBER*”

Bảng 1-3:Một số collocation có dạng cụm từ khuôn mẫu

Vận_tải hành_khách công_cộng quyền và lợi_ích hợp_pháp chính_đáng mối quan_hệ hợp_tác hữu_nghị giữa nhân kỷ_niệm * NUMBER * năm Hiệp_định Thương_mại * NOUN * ông * NOUN * - Phó_Giám đốc

1.4 ỨNG DỤNG

Collocations tồn tại rất nhiều trong văn bản Khái niệm về collocation bao trùm

từ các cụm từ hay đi liền nhau trong văn bản đến các cụm từ mang tính chất thành ngữ, các thuật ngữ chuyên ngành Có hai vấn đề chính cần được quan tâm khi nhắc đến collocation, cũng xuất phát từ chính định nghĩa của nó, đó là tính cứng nhắc và không thể tách rời về nghĩa giữa các cụm từ Có những cụm từ, không sai về cấu trúc ngữ pháp, cũng không sai về nghĩa hay vi phạm quy tắc từ vựng nào, nhưng vẫn không được coi là đúng, hay không được chấp nhận, chỉ đơn giản vì người bản xứ không nói như thế, không sử dụng một cụm từ được kết hợp như thế Vấn đề này chính là nguyên nhân của không ít khó khăn mà người mới học một ngôn ngữ gặp phải Chính vì vậy,

Trang 16

một nhu cầu tự nhiên, rất thường gặp trong đời sống hàng ngày là trích chọn các collocations cho một ngôn ngữ để giúp người học ngôn ngữ đó quen với cách dùng từ, kết hợp từ của người bản ngữ Một vấn đề thứ hai liên quan đến collocation chúng tôi muốn nhắc đến ở đây là vấn đề liên quan đến nghĩa của collocation Như đã nói ở trên, nghĩa của một collocation thường không được suy ra trực tiếp từ nghĩa của các từ thành phần Đặc trưng này có ảnh hưởng quan trọng đến một hệ thống dịch máy Yêu cầu người dùng đối với mỗi hệ thống dịch máy là văn bản đích đạt được một độ chính xác và một độ trôi chảy nhất định Sử dụng phương pháp dịch từ đối từ để dịch một collocation từ một ngôn ngữ này sang một ngôn ngữ khác không chỉ làm giảm độ chính xác của hệ thống mà còn ảnh hưởng không nhỏ tới độ trôi chảy của văn bản đích Chính vì vậy, một chương trình dịch máy có khả năng nhận dạng collocation và dịch, đồng thời cập nhật vào từ điển collocation song ngữ không chỉ làm tăng độ chính xác của chương trình mà còn làm tăng tính tự nhiên của văn bản Thêm vào đó, kho ngữ liệu song ngữ về collocation còn giúp ích không nhỏ cho các chương trình sinh ngôn ngữ và nhiều ứng dụng khác

Nói tóm lại, trong khi nhu cầu về các ứng dụng xử lý ngôn ngữ tự nhiên đang ngày càng tăng cao, việc trích chọn một collocation trong một ngôn ngữ là thực sự cần thiết

Nó không chỉ giúp tăng độ chính xác của các chương trình, mà còn làm cho kết quả (bản dịch hay ngôn ngữ được sinh ra…) gần với ngôn ngữ tự nhiên hơn

Trang 17

Chương 2 MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG

KÊ

Hướng tiếp cận cổ điển trong nghiên cứu về collocation là hướng tiếp cận của các nhà thực hành và biên soạn từ điển Theo Benson và Morton[2], các thành phần tạo thành collocation không thể tách ra xử lý một cách độc lập Do đó, quá trình trích chọn collocation là không theo một khuôn mẫu có sẵn nào, mà phải được trích chọn bằng tay, và thêm vào trong từ điển

Trong những năm gần đây, các cách tiếp cận dựa trên thống kê đã được áp dụng trong các nghiên cứu về ngôn ngữ và sự trích chọn các collocation Điều này một phần xuất phát từ thực tế rằng ngày càng có nhiều corpus dữ liệu lớn tồn tại dưới dạng máy tính có thể hiểu được Chouka[5] đã phát triển chương trình tự động trích chọn collocation từ văn bản sử dụng n-gram từ 2 đến 6 từ

Một phương pháp đơn giản để xác định các collocation trong corpus dữ liệu là dựa trên tần suất xuất hiện Nếu hai hay nhiều từ thường xuất hiện cùng nhau, chúng hoàn toàn có thể tạo thành collocation Tuy nhiên, n-grams có tần suất xuất hiện cao nhất đôi khi lại không phải là một collocation Ví dụ, nếu chúng ta xét các bigram trong

corpus dữ liệu như of the, in the, to the, etc Để giải quyết vấn đề này, Justeson và

Katz[28] đưa ra một phương pháp dựa trên kinh nghiệm để cải thiện độ chính xác chương trình, bằng cách cho các bigram đi qua một bộ lọc dựa trên nhãn từ loại Bộ lọc này chỉ cho đi qua các N-gram có cấu trúc xác định Một số mẫu được sử dụng để dọc như AN, NN, AAN, và ANN, với A tương ứng với tính từ, N tương ứng với danh

từ Mặc dù phương pháp dựa trên kinh nghiệm được đưa vào khá đơn giản, tuy nhiên

đã cải thiện đáng kể độ chính xác của chương trình

Phương pháp trích chọn dựa trên tần suất được áp dụng khá hiệu quả cho các cụm danh từ cố định Tuy nhiên, nó lại không thực sự hiệu quả với các collcation có cấu trúc linh động hơn, hay với các collcation có các từ thành phần không liền nhau trong văn bản Các phương pháp kiểm định giả thuyết và phương pháp dựa trên thông tin tương hỗ được đưa ra để cải thiện tình trạng này Tuy nhiên, mỗi phương pháp có một điểm mạnh và điểm yếu nhất định, và tùy vào bộ dữ liệu sử dụng, chúng ta quyết định phương pháp trích chọn nào là thích hợp nhất Phần còn lại của chương này, chúng tôi

đi sâu vào giới thiệu chi tiết bốn phương pháp cổ điển dựa trên thống kê thường được dùng trong trích chọn collocation: phương pháp dựa trên tần số, phương pháp kiểm tra

t, phương pháp kiểm tra Chi bình phương, và phương pháp sử dụng thông tin tương

hỗ

Trang 18

2.1 PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ

Phương pháp này dựa trên giả định: collocation là tổ hợp các từ thường xuất hiện cùng nhau trong văn bản Nếu hai từ (không phải là hư từ), xuất hiện cùng nhau nhiều lần hơn một ngưỡng nào nó, có thể coi chúng có quan hệ với nhau, hay có thể coi chúng là collocation Tuy nhiên, độ chính xác của phương pháp này rất hạn chế Ta có thể cải tiến phương pháp này bằng cách cho các cụm từ là bigram đi qua một bộ lọc

Bộ lọc này chủ yếu dựa trên nhãn từ loại của các từ trong cụm đưa vào, và chỉ cho qua các cụm từ mà nó cho là có thể là một cụm từ Justeson and Katz[28] đưa ra các mẫu cho các cụm từ như vậy cho tiếng Anh Bảng 2-1 minh họa bộ nhãn sử dụng cho tiếng Anh được đề xuất bởi Justeson and Katz[28] Tuy nhiên, do đặc thù của tiếng Việt là tính từ thường đi sau bổ nghĩa cho danh từ, vị trí động từ, tính từ và giới từ trong câu khác với tiếng Anh, chúng tôi đề xuất một mô hình nhãn từ loại cho tiếng Việt như trong bảng 2-2 Trong các mẫu này, A đại diện cho tính từ, P đại diện cho giới từ và N đại diện cho danh từ Khi tiến hành so sánh kết quả thực nghiệm, quả thật trích chọn các bigram theo mẫu sẵn có cải thiện đáng kể độ chính xác của chương trình trích chọn dựa trên tần số Phần cuối của chương sẽ trình bày chi tiết hơn về vấn đề này

Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh

Trong đó, A: tính từ, N: danh từ và P: giới từ

Trang 19

Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt

Đây là phương pháp đơn giản nhất để trích chọn collocations trong văn bản Tuy nhiên, phương pháp này đòi hỏi bộ dữ liệu vào lớn và độ chính xác của chương trình phụ thuộc nhiều vào độ lớn của corpus dữ liệu Thêm vào đó, nó chỉ trích chọn được các collocation là cặp từ cố định, trong khi đó, có rất nhiều collocation xuất hiện trong văn bản không đi liền nhau

2.2 PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT

Trong rất nhiều trường hợp, hai từ có thể ngẫu nhiên xuất hiện cùng nhau mà không lập thành collocation Với những trường hợp như vậy, chúng ta không thể áp dụng cách tiếp cận dựa trên tần số Vì thế, phương pháp kiểm định giả thuyết được đưa

ra Bản chất của phương pháp kiểm định giả thuyết là đưa ra kết luận chấp nhận hoặc bác bỏ giả thuyết rỗng Trong bài toán trích chọn collocations, phép kiểm định giả thuyết giúp chúng ta xác định xem hai từ xuất hiện cùng nhau một cách ngẫu nhiên hay đó là một collocation Giả thuyết ban đầu H0 là không có sự liên quan giữa các từ ngoài các sự xuất hiện ngẫu nhiên Từ giả thuyết rỗng này, chúng ta xác định các sự kiện xảy ra nếu H0 đúng Tính xác suất p xuất hiện sự kiện khi H0 đúng và loại H0 nếu

p quá thấp (thông thường p<0.05, 0.01, 0.005 hay 0.001) và giữ lại H0 trong các trường hợp khác

2.2.1 Phương pháp kiểm tra t

Kiểm tra t là một phương pháp kiểm định giả thuyết thường dùng Trong phép

kiểm tra t, phân phối xác suất của từ w i xung quanh từ gốc w được giả định là tuân

theo phân phối chuẩn Giả thuyết rỗng là tập mẫu có phân phối trung bình là µ, phép kiểm tra t xem xét sự sai khác giữa giá trị trung bình của tập mẫu và giá trị trung bình phân phối chuẩn của nó Nếu t lớn hơn một ngưỡng t0 nhất định, giả thuyết rỗng H0

được chấp nhận; ngược lại, H0 bị bác bỏ Giá trị t được tính dựa theo công thức:

Trang 20

Trong đó là giá trị trung bình mẫu (= count(w 1 , w 2) / N),  là trung bình phân phối

(trong bài toán này, ta coi  = P(w 1 w 2 ), 2 là phương sai mẫu (= p(1-p) ≈ p (với p rất nhỏ)) và N là cỡ mẫu Sau khi đã tính xong giá trị của t, chúng ta tra bảng phân phối của t ứng với độ lệch α tương ứng Nếu t lớn hơn giá trị t0 ứng với độ lệch  xác định,

ta có thể loại bỏ giả thuyết H0 với độ chính xác (1-)

Ví dụ áp dụng t-test:

Giả thuyết rỗng của chúng ta được phát biểu như sau: trung bình chiều cao của nam giới là 158cm Chúng ta xét một tập mẫu gồm chỉ số chiều cao của 200 nam giới, với = 169 và σ2 = 2600 và chúng ta muốn xác định tập mẫu này có được lấy từ tập dân số đang xét ở trên không, nói cách khác nó có tuân theo giả thuyết rỗng không Giá trị của t được tính như sau:

Tra bảng giá trị của t tương ứng với độ chính xác α = 0.005, chúng ta thấy giá trị

t0 = 2.576 Vì t = 3.05 > 2.576 = t0 nên chúng ta có thể bác bỏ giả thuyết rỗng với độ chính xác 99.5% Do đó, tập mẫu không được lấy từ tập dân số ở trên, và độ chính xác của phép kiểm tra lên đến 99.5%

Để minh họa việc sử dụng phép kiểm tra t trong trích chọn collocations, chúng ta

tính toán giá trị t cho cụm từ new companies Chúng ta coi corpus dữ liệu là một dãy

gồm N bigrams, và tập mẫu là một tập các biến ngẫu nhiên tương ứng với mỗi bigram, nhận giá trị bằng 1 khi bigram xuất hiện trong corpus dữ liệu, và nhận giá trị bằng 0 trong trường hợp ngược lại

Trong corpus dữ liệu của chúng ta, new xuất hiện 15,828 lần, companies xuất hiện 4675 lần, và có tất cả 14,307,668 bigrams Giá trị xác suất cho new và companies

được tính như sau:

P(new) =

Giả thuyết rỗng được phát biểu rằng new và companies xuất hiện độc lập với nhau Hay:

Trang 21

H0: P(new companies) = P(new) P(companies)

Nếugiả thuyết rỗng là đúng, quá trình sinh ngẫu nhiên các cặp bigrams và gán

các giá trị bằng 0 khi bigram được sinh ra là new companies và 0 trong các trường hợp

khác tuân theo phân phối Bernoulli với p = 3.615 x 10-7 là xác suất bigram được sinh

ra là new companies Giá trị trung bình phân phối: µ = 3.615 x 10-7 và độ lệch σ2 = p(1-p) ≈ p (do p có giá trị rất nhỏ)

Trong corpus dữ liệu đang xét, new companies xuất hiện 8 lần, có tất cả

14307668 bigrams Do đó, với corpus dữ liệu đang xét, chúng ta có giá trị trung bình mẫu = ≈ 5.591 x 10-7 Từ các giá trị xác suất tính được chúng ta tính được

giá trị t cho cặp từ new companies bằng:

Do t = 0.999932 < 2.576 = t0, ứng với độ chính xác α = 0.005, nên chúng ta

không thể bác bỏ giả thuyết rỗng rằng new companies xuất hiện độc lập với nhau và

không tạo thành collocation

Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t

w 1 w 2 w 1 w 2 freq w 1 freq w 2 freq t-score

Trang 22

2.2.2 Phương pháp kiểm tra Pearson Chi bình phương

Việc sử dụng phương pháp kiểm tra t gặp phải hạn chế vì nó giả định các xác suất được phân phối đều, tuy nhiên trong thực tế, điều kiện này rất khó đươc thỏa mãn Chính vì vậy, phương pháp kiểm tra Chi bình phương được đưa ra Trong trường hợp đơn giản nhất, phương pháp này được áp dụng cho hai từ ứng với bảng 2x2 như hình 2-4 Bản chất của phép kiểm tra này là so sánh tần suất quan sát được trong bảng với giá trị tần suất kỳ vọng Nếu độ lệch giữa tần suất được kỳ vọng và tần suất quan sát được lớn, chúng ta có thể bác bỏ giả thuyết rỗng về sự độc lập

Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương

Bảng 2-4 cho thấy các giá trị tần suất của new và companies trong corpus dữ liệu

C(new) = 15,828, C(companies) = 4,675, C(new companies) = 8 và có tất cả 14,307,668 bigrams Chỉ số Chi bình phương được tính bằng tổng bình phương hiệu của giá trị mỗi ô (i,j) với giá trị kỳ vọng của nó chia cho giá trị kỳ vọng Cụ thể, nó được xác định theo công thức:

Trong đó i là chỉ số hàng và j là chỉ số cột, N là cỡ mẫu, Eij là giá trị kỳ vọng tại

ô (i,j) Với bảng 2x2, Ei = (Ei1+Ei2)(E1j+E2j) / N

Phép kiểm tra Chi bình phương có thể áp dụng được cho bảng với bất kỳ kích

cỡ nào; với bảng 2x2 ta có công thức đơn giản để tính giá trị Chi bình phương như sau:

Theo công thức này, giá trị Chi bình phương cho bảng 2-4 được tính bằng:

Trang 23

Tra bảng ta thấy α = 0.05 tương ứng với χ = 3.841 > 1.55, do đó, chúng ta không

thể bác bỏ giả thuyết rỗng rằng new và companies xuất hiện độc lập với nhau Hay

new và companies không thể tạo thành collocation

Nhìn chung, với bài toán trích chọn collocation, phương pháp kiểm tra t và phương pháp Pearson Chi bình phương không có sự khác biệt lớn về kết quả Trong một số trường hợp, phương pháp kiểm tra Chi bình phương tỏ ra thích hợp hơn với các xác suất lớn, khi giả định phân phối chuẩn của phép kiểm tra t không được thỏa mãn Chính vì lý do đó, phương pháp kiểm tra Chi bình phương thường được áp dụng phổ biến hơn trong trích chọn collocation Bảng 2-5 minh họa một số kết quả thu được khi

áp dụng phương pháp kiểm tra Chi bình phương trong trích chọn collocation

Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi

Church và Hanks [6] định nghĩa một collocation được định nghĩa là một cặp các

từ xuất hiện cùng nhau trên mức tình cờ trong văn bản Phương pháp trích chọn collocations dựa trên thông tin tương hỗ xuất phát từ định nghĩa này Xét hai từ x và y,

có xác suất xuất hiện tương ứng là P(x) và P(y), thì thông tin tương hỗ I(x,y) của hai từ được xác định bằng:

( ) ( )

Trang 24

Thông tin tương hỗ giúp chúng ta xác định mức độ phụ thuộc về thông tin của 2 phần tử x, y Trong lý thuyết thông tin, thông tin tương hỗ thường được định nghĩa là thông tin thu được từ các biến ngẫu nhiên, không phải các giá trị của các biến ngẫu nhiên như chúng ta định nghĩa ở đây

Fano định nghĩa thông tin tương hỗ là: “Lượng thông tin thu được từ sự xuất hiện của sự kiện được biểu diễn bởi [y’] về sự xuất hiện của sự kiện được biểu diễn bởi [x’]”

Ví dụ, việc đo thông tin tương hỗ cho ta thấy lượng thông tin chúng ta có về sự

xuất hiện của Ayatollah tại vị trí i trong corpus dữ liệu tăng 18.38bit nếu chúng ta biết Ruhollah xuất hiện tại vị trí i+1 Hay, thông tin về sự xuất hiện của Ruhollah tại vị trí i+1 trong corpus dữ liệu tăng 18.38 bits nếu chúng ta biết Ayatollah xuất hiện tại vị trí

i Chúng ta cũng có thể nói răng độ không chắc chắn của chúng ta giảm 18.38bits Nói cách khác, chúng ta có thể chắc chắn hơn rằng Ruhollah sẽ xuất hiện tại ví trí tiếp theo nếu chúng ta biết rằng Ayatollah là từ đang xét

Có thể thấy rằng thông tin tương hỗ phản ánh khá tốt tính độc lập giữa hai sự kiện Giá trị thông tin tương hỗ tiệm cận 0 chứng tỏ hai sự kiện độc lập nhưng giá trị thông tin tương hỗ lớn hơn 0 không thực sự phản ánh được quan hệ phụ thuộc giữa hai biến vì quan hệ phụ thuộc còn phụ thuộc rất nhiều vào tần suất xuất hiện 2 sự kiện Nói cách khác, hai từ có giá trị thông tin tương hỗ lớn chưa hẳn đã là một collocation Một giải pháp cho vấn đề này được đưa ra đó là tách ngưỡng với một tần suất lớn hơn một giá trị ngưỡng Tuy nhiên, điều này vẫn chưa thực sự giải quyết được vấn đề đang tồn tại, mà chỉ giảm nhẹ tác động của nó Một hạn chế nữa của phương pháp này là do

nó dựa trên giả định là hai từ tạo thành collocation phải có quan hệ phụ thuộc lẫn nhau, tập kết quả thường bao gồm cả các cụm từ không phải là collocations nhưng có

quan hệ với nhau về nghĩa (ví dụ: doctor-nurse, doctor-dentist)

Như đã nói ở trên, thông tin tương hỗ không thực sự phản ánh khả năng có thể tạo thành collocation của 2 từ (x,y), do đó, phương pháp trích chọn collocations dựa trên thông tin tương hỗ thường chỉ tồn tại trong các nghiên cứu về lý thuyết và thường không được sử dụng trong các ứng dụng thực tế Bảng 2-6 minh họa một số collocations được trích chọn bằng phương pháp sử dụng thông tin tương hỗ

Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ

w 1 w 2 w 1 w 2 freq w 1 freq w 2 freq PMI – score

nền kinh_tế_thị_trường 67 1544 84 6.69599122813447