Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xá
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đồng Thị Ngân
CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ
ỨNG DỤNG CHO TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
HÀ NỘI - 2010
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đồng Thị Ngân
CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ
ỨNG DỤNG CHO TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: TS Lê Anh Cường
HÀ NỘI - 2010
Trang 3Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị và bạn bè đã luôn ở bên cạnh khuyến khích, động viên, giúp em vượt qua những khó khăn trong quá trình thực hiện luận văn
Hà Nội, ngày 21 tháng 5 năm 2010
Sinh viên thực hiện
ĐỒNG THỊ NGÂN
Trang 4TÓM TẮT LUẬN VĂN
Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ Luận văn này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt
Trang 5Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định nghĩa nào được coi là chính thống, hay chuẩn Định nghĩa và phương pháp trích chọn collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu Trong luận văn này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp tương đối cố định
Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23], biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25,
27, 29] Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự cần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngôn ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn
Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực khá mới mẻ Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ở mức độ rất hạn chế Luận văn này tập trung vào việc áp dụng một số phương pháp thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền
xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm;
từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương trình
Trang 6Mục tiêu của luận văn:
Khái quát về collocations trong tiếng Việt: trình bày chi tiết về định nghĩa, đặc trưng, phân loại, và một số ứng dụng của collocations trong dịch máy và các bài toán xử lý ngôn ngữ tự nhiên
Trình bày một số phương pháp trích chọn collocation dựa trên thống kê Cụ thể hơn, trong giới hạn luận văn này, chúng tôi sẽ đi sâu vào bốn phương pháp: phương pháp dựa trên tần số, hai phương pháp kiểm định giả thuyết
và phương pháp dựa trên thông tin tương hỗ Với mỗi phương pháp, từ việc trình bày cơ sở lý thuyết liên quan, chúng tôi đi đến cách áp dụng chúng vào bài toán trích chọn collocations trong tiếng Việt, một số mô hình thực nghiệm, kết quả và đánh giá về việc áp dụng bốn phương pháp đó vào trích chọn collocations trong tiếng Việt
Đề xuất một số phương pháp thống kê là kết hợp của ba hoặc bốn phương pháp đã được trình bày ở trên, xây dựng mô hình thực nghiệm, đánh giá kết quả và độ chính xác của chương trình
Đề xuất một phương pháp kết hợp thống kê và thông tin cú pháp áp dụng cho trích chọn collocation có dạng cụm danh từ Từ việc trình bày cơ sở lý thuyết, chúng tôi xây dựng mô hình thực nghiệm, đánh giá kết quả thu được
và độ chính xác của chương trình dựa trên phương pháp này
Trang 7MỤC LỤC
GIỚI THIỆU
1.1 ĐỊNH NGHĨA 1
1.2 ĐẶC TRƯNG 1
1.2.1 Được sử dụng lặp đi lặp lại trong văn bản 1
1.2.2 Có tính cứng nhắc: 2
1.2.3 Phụ thuộc vào lĩnh vực của văn bản 2
1.2.4 Có liên kết kết chặt chẽ về mặt từ vựng: 3
1.3 PHÂN LOẠI 3
1.4 ỨNG DỤNG 5
Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG KÊ 7 2.1 PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ 8
2.2 PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT 9
2.2.1 Phương pháp kiểm tra t 9
2.2.2 Phương pháp kiểm tra Pearson Chi bình phương 12
2.3 PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE MUTUAL INFORMATION (PMI)) 13
2.4 KẾT QUẢ THỰC NGHIỆM 15
2.4.1 Khái quát về dữ liệu sử dụng 15
2.4.2 Trích chọn bigrams 16
2.4.3 Các mô hình thử nghiệm 18
2.4.4 Kết quả thực nghiệm 19
Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ 25
3.1 GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM 26
3.1.1 Bước 1: Trích chọn bigram 26
3.1.2 Bước 2: Lọc các bigram không hợp lệ 27
3.2 GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CÓ DẠNG N-GRAM 28
3.2.1 Bước 1: 29
3.2.2 Bước 2: 29
Trang 83.2.3 Bước 3: 293.3 KẾT QUẢ THỰC NGHIỆM 30
Chương 4. KẾT LUẬN 33
TÀI LIỆU THAM KHẢO
PHỤ LỤC A
PHỤ LỤC B
Trang 9DANH SÁCH HÌNH VẼ
Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 20Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn 21Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp 22Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào 22
Trang 10DANH SÁCH BẢNG
Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt 4
Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh 8
Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt 9
Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t 11
Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương 12
Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi bình phương 13
Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ 14
Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger 15
Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 19
Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ loại 20
Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp 21
Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm 23
Bảng 3-1: Một số bigrams và thông tin về vị trí và tần suất xuất hiện của chúng 27
Bảng 3-2: Một số bigram là kết quả của giai đoạn 1 30
Bảng 3-3: Kết quả chạy chương trình ở giai đoạn 1 30
Bảng 3-4: Một số cụm danh từ cố định được trích chọn từ giai đoạn 2 31
Trang 11Chương 1 KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT
Vì những nghiên cứu về collocations cho tiếng Việt còn ở mức độ hạn chế cả về
số lượng và chất lượng, khái niệm về collocations còn ít nhiều xa lạ với nhiều người, ngay cả đối với những người làm nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên Chương đầu tiên của luận văn này làm nhiệm vụ giới thiệu khái quát về collocation và liên hệ cho tiếng Việt, giúp người đọc hiểu hơn về collocations và sự cần thiết của việc xây dựng một hệ thống trích chọn collocations cho tiếng Việt Cụ thể hơn, nó có nhiệm vụ trả lời bốn câu hỏi chính: Collocations là gì? Đặc trưng của một collocation?
Có những loại collocations nào? Phải trích chọn collocations để làm gì? Phần còn lại của chương sẽ đi sâu vào trả lời bốn câu hỏi này
đi lặp lại các từ Như vậy, Firth thiên về góc độ từ vựng của collocation, còn Choueka lại thiên về chức năng cú pháp của collocation trong văn bản Định nghĩa của Benson
là một trong những định nghĩa hay được sử dụng nhất, tuy nhiên nó đã bỏ qua một số đặc trưng và thuộc tính của collocation ứng dụng trong dịch máy như không thể dịch một collocation trong tiếng Anh sang tiếng Việt theo cách đơn thuần dịch từ tương ứng với từ Đã có khá nhiều nghiên cứu về collocation cho tiếng Anh được tiến hành, tuy nhiên không có định nghĩa chuẩn nào về collocation được đưa ra, và định nghĩa về collocation phụ thuộc vào quan điểm và mục đích sử dụng của mỗi người làm nghiên cứu Trong luận văn này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí
và quan hệ ngữ pháp tương đối cố định
1.2 ĐẶC TRƯNG
Theo định nghĩa được nêu ra ở trên, một collocation có 4 đặc trưng chính:
1.2.1 Được sử dụng lặp đi lặp lại trong văn bản
Sự xuất hiện cùng nhau của các từ tạo thành collocation trong một văn bản không phải là một trường hợp đặc biệt, mà chúng được sử dụng lặp đi lặp lại trong một
ngữ cảnh nhất định Các cụm từ như “to make a decision, to hit a record, to perform
Trang 12an operation” là các collocation thường gặp trong văn bản tiếng Anh, hay “nhiễm HIV/AIDS, chuyển_dịch cơ_cấu, học_hỏi kinh_nghiệm” là các collocation thường gặp trong văn bản tiếng Việt; và các cụm từ như “to buy short, to ease the jib” hoặc “tiêm vaccine, kiểm_thử phần_mềm”là các collocation đặc trưng cho các lĩnh vực chuyên
môn Cả hai loại collocation đều được sử dụng lặp đi lặp lại trong các ngữ cảnh nhất định
1.2.2 Có tính cứng nhắc:
Theo một nghĩa nào đó, nghĩa của một collocation mang tính thành ngữ, hay cố định Nghĩa của một collocation thường không thể trực tiếp được suy ra từ nghĩa của các từ cấu thành nên nó Trong hầu hết trường hợp, một collocation không thể được dịch theo kiểu từ đối từ từ một ngôn ngữ sang một ngôn ngữ khác Ví dụ, chúng ta có
thể dịch cụm từ “mở cửa” trong tiếng Việt sang tiếng Anh, tiếng Đức một cách dễ dàng, nhưng không thể dịch từ đối từ cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” từ tiếng Việt sang tiếng Anh hay tiếng Đức Một người học tiếng Việt không thể dễ dàng sử dụng cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” nếu họ không
biết trước nghĩa của cả cụm từ trước đó Dịch một văn bản từ ngôn ngữ này sang một ngôn ngữ khác không chỉ đòi hỏi kiến thức về các quy tắc ngữ pháp và ngữ nghĩa vì collocations có tính cứng nhắc, kho ngữ liệu song ngữ về collocations thực sự cần thiết cho một ứng dụng dịch máy hiệu quả
1.2.3 Phụ thuộc vào lĩnh vực của văn bản
Trong các văn bản chuyên ngành, tồn tại rất nhiều collocations Các thuật ngữ chuyên ngành thường ít nhiều xa lạ với những người không nghiên cứu, học tập trong lĩnh vực đó Thêm vào đó, có những từ quen thuộc với người đọc nhưng được sử dụng với nghĩa hoàn toàn khác nghĩa thông thường trong các văn bản chuyên ngành Ví dụ
trong ngành công nghệ thông tin các từ như “kỹ_nghệ phần_mềm, xử_lý bó, tài_nguyên hệ_thống…” hoàn toàn là những từ mới đối với những người học trong
ngành xã hội, hoặc kinh tế khác Bên cạnh đó, có rất nhiều cụm từ không chứa các thuật ngữ chuyên ngành nhưng nghĩa của nó vẫn không quen thuộc với những người
không thuộc chuyên ngành Ví dụ, trong văn bản tiếng Anh, “a dry suit” không phải là
một bộ comple khô, mà là một loại trang phục đặc biệt giúp người thủy thủ không bị ướt trong các điều kiện thời tiết khắc nghiệt Người bản xứ thường không ý thức được tính cứng nhắc của các collocation trong các văn bản thông thường, tuy nhiên, tính cứng nhắc của collocation trong các văn bản chuyên ngành cũng gây cho họ không ít khó khăn
Trang 131.2.4 Có liên kết kết chặt chẽ về mặt từ vựng:
Chúng ta thường không thể thay thế một thành phần tạo thành collocation bằng
từ đồng nghĩa của nó, vì việc thay thế có thể dẫn đến làm thay đổi hoàn toàn nghĩa của cụm từ ban đầu Tính chất này của collocation thường được sử dụng bởi các nhà thực hành và biên soạn từ điển khi sưu tập các collocations (Cowie[7]; Benson[2]) Các nhà thực hành và biên soạn từ điển dựa vào ý niệm ngôn ngữ của người khác để quyết định cụm từ nào là collocation và cụm từ nào không phải là collocation Họ thu thập thông tin dưới dạng bảng hỏi bao gồm các câu, mỗi câu đều bị lấy đi một từ Các từ khuyết
có thể dễ dàng được trả lời bởi người bản xứ, trong khi với người học ngôn ngữ (đó,
đó là việc không đơn giản Chính vì vậy, collocation có phân phối xác suất riêng
(Halliday[22]; Cruse[8]) Nói cách khác, ví dụ, xác suất cụm “red herring” xuất hiện liền nhau trong văn bản sẽ lớn hơn tích xác suất xuất hiện của “red” với xác suất xuất hiện của “herring”; hay chúng ta không thể coi hai từ đó là hai biến ngẫu nhiên độc
lập Dựa trên nhận định này, chúng ta xây dựng được tập các phương pháp trích chọn
và nhận dạng collocation từ các corpus dữ liệu lớn dựa trên thống kê
1.3 PHÂN LOẠI
Các nhà ngôn ngữ học và các nhà biên soạn từ điển đã tiến hành khá nhiều nghiên cứu nhằm đưa ra một hệ thống phân loại dành cho collocations Một hệ thống phân loại đã được đưa ra dựa trên quan hệ giữa hai từ thành phần Theo đó, có hai loại collocation chính là collocation có quan hệ về ngữ pháp và collocation có quan hệ về ngữ nghĩa Collocations có quan hệ về ngữ pháp thường bao gồm các giới từ, bao gồm
các cặp từ có cấu trúc dạng động từ + giới từ(ví dụ come to, put on), tính từ + giới từ (như afraid of, fond of) và danh từ + giới từ (ví dụ: by accident, witness to)
Collocations có quan hệ về mặt ngữ nghĩa là các cặp từ giới hạn về mặt từ vựng, không phải khi nào chúng ta cũng có thể thay thế một từ thành phần bằng từ đồng nghĩa của nó
Một hệ thống phân loại khác là thiên về cấu trúc của collocation Theo đó, có hai loại collocations: các collocations là các cụm từ ghép và các collocation có cấu trúc linh động hơn Collocations là các cụm từ ghép bao gồm các cặp từ xuất hiện liền nhau
trong văn bản, và với chức năng cú pháp cố định Cụm danh từ + danh từ là ví dụ về
loại collocation như thế Các collocation là các cặp từ linh động bao gồm các collocations có dạng chủ ngữ và động từ, và giữa chúng có thể có khoảng cách (hay xuất hiện các từ xen ngang)
Trang 14Một hệ thống nữa được đưa ra bởi Smadja[19] trong bộ công cụ Xtract, theo đó, các collocation được chia làm 3 loại chính:
- Collocations có quan hệ cú pháp: là loại collocation có cấu trúc linh động nhất Chúng thường là các cặp từ không liền nhau trong văn bản, xuất hiện cùng nhau
lặp đi lặp lại với một cấu trúc ngữ pháp nhất định Ví dụ: “hostile-takeover”,
“make-decision” Bảng 1-1 minh họa một số collocations có quan hệ vị ngữ trong
với N là danh từ, V là động từ và A là tính từ
- Collocations là các cụm danh từ cố định: là loại collocation có cấu trúc cố định nhất Chúng bao gồm các cụm danh từ mang tính chất thuật ngữ trong các lĩnh vực
cụ thể, và các cụm danh từ mà nghĩa của nó không thể được suy ra từ nghĩa của các
từ thành phần Ví dụ: “stock market”, “foreign exchange”, “New York Stock Exchange”, “The Dow Jones average of 30 industrials” Bảng 1-2 minh họa một
số collocation có dạng cụm danh từ cố định trong tiếng Việt
Trang 15Bảng 1-2:Một số collocations có dạng cụm danh từ cố định
Mức thuế_suất nhập_khẩu
Tình_hình kinh_tế chính_trị Khối đại_đoàn_kết toàn dân Quyền và nghĩa_vụ của công_dân
Cuộc chiến_tranh Đồn biên_phòng
- Collocations là các cụm từ khuôn mẫu: thường bao gồm các cụm từ mang tính chất thành ngữ, chứa một, một vài, hoặc không có chỗ trống nào Nếu tồn tại chỗ trống, các cụm từ khuôn mẫu cho phép xác định nhãn của các từ có thể được thêm vào
chỗ trống đó Ví dụ: “The average finished the week with a net loss of
*NUMBER*”
Bảng 1-3:Một số collocation có dạng cụm từ khuôn mẫu
Vận_tải hành_khách công_cộng quyền và lợi_ích hợp_pháp chính_đáng mối quan_hệ hợp_tác hữu_nghị giữa nhân kỷ_niệm * NUMBER * năm Hiệp_định Thương_mại * NOUN * ông * NOUN * - Phó_Giám đốc
1.4 ỨNG DỤNG
Collocations tồn tại rất nhiều trong văn bản Khái niệm về collocation bao trùm
từ các cụm từ hay đi liền nhau trong văn bản đến các cụm từ mang tính chất thành ngữ, các thuật ngữ chuyên ngành Có hai vấn đề chính cần được quan tâm khi nhắc đến collocation, cũng xuất phát từ chính định nghĩa của nó, đó là tính cứng nhắc và không thể tách rời về nghĩa giữa các cụm từ Có những cụm từ, không sai về cấu trúc ngữ pháp, cũng không sai về nghĩa hay vi phạm quy tắc từ vựng nào, nhưng vẫn không được coi là đúng, hay không được chấp nhận, chỉ đơn giản vì người bản xứ không nói như thế, không sử dụng một cụm từ được kết hợp như thế Vấn đề này chính là nguyên nhân của không ít khó khăn mà người mới học một ngôn ngữ gặp phải Chính vì vậy,
Trang 16một nhu cầu tự nhiên, rất thường gặp trong đời sống hàng ngày là trích chọn các collocations cho một ngôn ngữ để giúp người học ngôn ngữ đó quen với cách dùng từ, kết hợp từ của người bản ngữ Một vấn đề thứ hai liên quan đến collocation chúng tôi muốn nhắc đến ở đây là vấn đề liên quan đến nghĩa của collocation Như đã nói ở trên, nghĩa của một collocation thường không được suy ra trực tiếp từ nghĩa của các từ thành phần Đặc trưng này có ảnh hưởng quan trọng đến một hệ thống dịch máy Yêu cầu người dùng đối với mỗi hệ thống dịch máy là văn bản đích đạt được một độ chính xác và một độ trôi chảy nhất định Sử dụng phương pháp dịch từ đối từ để dịch một collocation từ một ngôn ngữ này sang một ngôn ngữ khác không chỉ làm giảm độ chính xác của hệ thống mà còn ảnh hưởng không nhỏ tới độ trôi chảy của văn bản đích Chính vì vậy, một chương trình dịch máy có khả năng nhận dạng collocation và dịch, đồng thời cập nhật vào từ điển collocation song ngữ không chỉ làm tăng độ chính xác của chương trình mà còn làm tăng tính tự nhiên của văn bản Thêm vào đó, kho ngữ liệu song ngữ về collocation còn giúp ích không nhỏ cho các chương trình sinh ngôn ngữ và nhiều ứng dụng khác
Nói tóm lại, trong khi nhu cầu về các ứng dụng xử lý ngôn ngữ tự nhiên đang ngày càng tăng cao, việc trích chọn một collocation trong một ngôn ngữ là thực sự cần thiết
Nó không chỉ giúp tăng độ chính xác của các chương trình, mà còn làm cho kết quả (bản dịch hay ngôn ngữ được sinh ra…) gần với ngôn ngữ tự nhiên hơn
Trang 17Chương 2 MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG
KÊ
Hướng tiếp cận cổ điển trong nghiên cứu về collocation là hướng tiếp cận của các nhà thực hành và biên soạn từ điển Theo Benson và Morton[2], các thành phần tạo thành collocation không thể tách ra xử lý một cách độc lập Do đó, quá trình trích chọn collocation là không theo một khuôn mẫu có sẵn nào, mà phải được trích chọn bằng tay, và thêm vào trong từ điển
Trong những năm gần đây, các cách tiếp cận dựa trên thống kê đã được áp dụng trong các nghiên cứu về ngôn ngữ và sự trích chọn các collocation Điều này một phần xuất phát từ thực tế rằng ngày càng có nhiều corpus dữ liệu lớn tồn tại dưới dạng máy tính có thể hiểu được Chouka[5] đã phát triển chương trình tự động trích chọn collocation từ văn bản sử dụng n-gram từ 2 đến 6 từ
Một phương pháp đơn giản để xác định các collocation trong corpus dữ liệu là dựa trên tần suất xuất hiện Nếu hai hay nhiều từ thường xuất hiện cùng nhau, chúng hoàn toàn có thể tạo thành collocation Tuy nhiên, n-grams có tần suất xuất hiện cao nhất đôi khi lại không phải là một collocation Ví dụ, nếu chúng ta xét các bigram trong
corpus dữ liệu như of the, in the, to the, etc Để giải quyết vấn đề này, Justeson và
Katz[28] đưa ra một phương pháp dựa trên kinh nghiệm để cải thiện độ chính xác chương trình, bằng cách cho các bigram đi qua một bộ lọc dựa trên nhãn từ loại Bộ lọc này chỉ cho đi qua các N-gram có cấu trúc xác định Một số mẫu được sử dụng để dọc như AN, NN, AAN, và ANN, với A tương ứng với tính từ, N tương ứng với danh
từ Mặc dù phương pháp dựa trên kinh nghiệm được đưa vào khá đơn giản, tuy nhiên
đã cải thiện đáng kể độ chính xác của chương trình
Phương pháp trích chọn dựa trên tần suất được áp dụng khá hiệu quả cho các cụm danh từ cố định Tuy nhiên, nó lại không thực sự hiệu quả với các collcation có cấu trúc linh động hơn, hay với các collcation có các từ thành phần không liền nhau trong văn bản Các phương pháp kiểm định giả thuyết và phương pháp dựa trên thông tin tương hỗ được đưa ra để cải thiện tình trạng này Tuy nhiên, mỗi phương pháp có một điểm mạnh và điểm yếu nhất định, và tùy vào bộ dữ liệu sử dụng, chúng ta quyết định phương pháp trích chọn nào là thích hợp nhất Phần còn lại của chương này, chúng tôi
đi sâu vào giới thiệu chi tiết bốn phương pháp cổ điển dựa trên thống kê thường được dùng trong trích chọn collocation: phương pháp dựa trên tần số, phương pháp kiểm tra
t, phương pháp kiểm tra Chi bình phương, và phương pháp sử dụng thông tin tương
hỗ
Trang 182.1 PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ
Phương pháp này dựa trên giả định: collocation là tổ hợp các từ thường xuất hiện cùng nhau trong văn bản Nếu hai từ (không phải là hư từ), xuất hiện cùng nhau nhiều lần hơn một ngưỡng nào nó, có thể coi chúng có quan hệ với nhau, hay có thể coi chúng là collocation Tuy nhiên, độ chính xác của phương pháp này rất hạn chế Ta có thể cải tiến phương pháp này bằng cách cho các cụm từ là bigram đi qua một bộ lọc
Bộ lọc này chủ yếu dựa trên nhãn từ loại của các từ trong cụm đưa vào, và chỉ cho qua các cụm từ mà nó cho là có thể là một cụm từ Justeson and Katz[28] đưa ra các mẫu cho các cụm từ như vậy cho tiếng Anh Bảng 2-1 minh họa bộ nhãn sử dụng cho tiếng Anh được đề xuất bởi Justeson and Katz[28] Tuy nhiên, do đặc thù của tiếng Việt là tính từ thường đi sau bổ nghĩa cho danh từ, vị trí động từ, tính từ và giới từ trong câu khác với tiếng Anh, chúng tôi đề xuất một mô hình nhãn từ loại cho tiếng Việt như trong bảng 2-2 Trong các mẫu này, A đại diện cho tính từ, P đại diện cho giới từ và N đại diện cho danh từ Khi tiến hành so sánh kết quả thực nghiệm, quả thật trích chọn các bigram theo mẫu sẵn có cải thiện đáng kể độ chính xác của chương trình trích chọn dựa trên tần số Phần cuối của chương sẽ trình bày chi tiết hơn về vấn đề này
Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh
Trong đó, A: tính từ, N: danh từ và P: giới từ
Trang 19Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt
Đây là phương pháp đơn giản nhất để trích chọn collocations trong văn bản Tuy nhiên, phương pháp này đòi hỏi bộ dữ liệu vào lớn và độ chính xác của chương trình phụ thuộc nhiều vào độ lớn của corpus dữ liệu Thêm vào đó, nó chỉ trích chọn được các collocation là cặp từ cố định, trong khi đó, có rất nhiều collocation xuất hiện trong văn bản không đi liền nhau
2.2 PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT
Trong rất nhiều trường hợp, hai từ có thể ngẫu nhiên xuất hiện cùng nhau mà không lập thành collocation Với những trường hợp như vậy, chúng ta không thể áp dụng cách tiếp cận dựa trên tần số Vì thế, phương pháp kiểm định giả thuyết được đưa
ra Bản chất của phương pháp kiểm định giả thuyết là đưa ra kết luận chấp nhận hoặc bác bỏ giả thuyết rỗng Trong bài toán trích chọn collocations, phép kiểm định giả thuyết giúp chúng ta xác định xem hai từ xuất hiện cùng nhau một cách ngẫu nhiên hay đó là một collocation Giả thuyết ban đầu H0 là không có sự liên quan giữa các từ ngoài các sự xuất hiện ngẫu nhiên Từ giả thuyết rỗng này, chúng ta xác định các sự kiện xảy ra nếu H0 đúng Tính xác suất p xuất hiện sự kiện khi H0 đúng và loại H0 nếu
p quá thấp (thông thường p<0.05, 0.01, 0.005 hay 0.001) và giữ lại H0 trong các trường hợp khác
2.2.1 Phương pháp kiểm tra t
Kiểm tra t là một phương pháp kiểm định giả thuyết thường dùng Trong phép
kiểm tra t, phân phối xác suất của từ w i xung quanh từ gốc w được giả định là tuân
theo phân phối chuẩn Giả thuyết rỗng là tập mẫu có phân phối trung bình là µ, phép kiểm tra t xem xét sự sai khác giữa giá trị trung bình của tập mẫu và giá trị trung bình phân phối chuẩn của nó Nếu t lớn hơn một ngưỡng t0 nhất định, giả thuyết rỗng H0
được chấp nhận; ngược lại, H0 bị bác bỏ Giá trị t được tính dựa theo công thức:
Trang 20Trong đó là giá trị trung bình mẫu (= count(w 1 , w 2) / N), là trung bình phân phối
(trong bài toán này, ta coi = P(w 1 w 2 ), 2 là phương sai mẫu (= p(1-p) ≈ p (với p rất nhỏ)) và N là cỡ mẫu Sau khi đã tính xong giá trị của t, chúng ta tra bảng phân phối của t ứng với độ lệch α tương ứng Nếu t lớn hơn giá trị t0 ứng với độ lệch xác định,
ta có thể loại bỏ giả thuyết H0 với độ chính xác (1-)
Ví dụ áp dụng t-test:
Giả thuyết rỗng của chúng ta được phát biểu như sau: trung bình chiều cao của nam giới là 158cm Chúng ta xét một tập mẫu gồm chỉ số chiều cao của 200 nam giới, với = 169 và σ2 = 2600 và chúng ta muốn xác định tập mẫu này có được lấy từ tập dân số đang xét ở trên không, nói cách khác nó có tuân theo giả thuyết rỗng không Giá trị của t được tính như sau:
Tra bảng giá trị của t tương ứng với độ chính xác α = 0.005, chúng ta thấy giá trị
t0 = 2.576 Vì t = 3.05 > 2.576 = t0 nên chúng ta có thể bác bỏ giả thuyết rỗng với độ chính xác 99.5% Do đó, tập mẫu không được lấy từ tập dân số ở trên, và độ chính xác của phép kiểm tra lên đến 99.5%
Để minh họa việc sử dụng phép kiểm tra t trong trích chọn collocations, chúng ta
tính toán giá trị t cho cụm từ new companies Chúng ta coi corpus dữ liệu là một dãy
gồm N bigrams, và tập mẫu là một tập các biến ngẫu nhiên tương ứng với mỗi bigram, nhận giá trị bằng 1 khi bigram xuất hiện trong corpus dữ liệu, và nhận giá trị bằng 0 trong trường hợp ngược lại
Trong corpus dữ liệu của chúng ta, new xuất hiện 15,828 lần, companies xuất hiện 4675 lần, và có tất cả 14,307,668 bigrams Giá trị xác suất cho new và companies
được tính như sau:
P(new) =
Giả thuyết rỗng được phát biểu rằng new và companies xuất hiện độc lập với nhau Hay:
Trang 21H0: P(new companies) = P(new) P(companies)
Nếugiả thuyết rỗng là đúng, quá trình sinh ngẫu nhiên các cặp bigrams và gán
các giá trị bằng 0 khi bigram được sinh ra là new companies và 0 trong các trường hợp
khác tuân theo phân phối Bernoulli với p = 3.615 x 10-7 là xác suất bigram được sinh
ra là new companies Giá trị trung bình phân phối: µ = 3.615 x 10-7 và độ lệch σ2 = p(1-p) ≈ p (do p có giá trị rất nhỏ)
Trong corpus dữ liệu đang xét, new companies xuất hiện 8 lần, có tất cả
14307668 bigrams Do đó, với corpus dữ liệu đang xét, chúng ta có giá trị trung bình mẫu = ≈ 5.591 x 10-7 Từ các giá trị xác suất tính được chúng ta tính được
giá trị t cho cặp từ new companies bằng:
Do t = 0.999932 < 2.576 = t0, ứng với độ chính xác α = 0.005, nên chúng ta
không thể bác bỏ giả thuyết rỗng rằng new companies xuất hiện độc lập với nhau và
không tạo thành collocation
Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t
w 1 w 2 w 1 w 2 freq w 1 freq w 2 freq t-score
Trang 222.2.2 Phương pháp kiểm tra Pearson Chi bình phương
Việc sử dụng phương pháp kiểm tra t gặp phải hạn chế vì nó giả định các xác suất được phân phối đều, tuy nhiên trong thực tế, điều kiện này rất khó đươc thỏa mãn Chính vì vậy, phương pháp kiểm tra Chi bình phương được đưa ra Trong trường hợp đơn giản nhất, phương pháp này được áp dụng cho hai từ ứng với bảng 2x2 như hình 2-4 Bản chất của phép kiểm tra này là so sánh tần suất quan sát được trong bảng với giá trị tần suất kỳ vọng Nếu độ lệch giữa tần suất được kỳ vọng và tần suất quan sát được lớn, chúng ta có thể bác bỏ giả thuyết rỗng về sự độc lập
Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương
Bảng 2-4 cho thấy các giá trị tần suất của new và companies trong corpus dữ liệu
C(new) = 15,828, C(companies) = 4,675, C(new companies) = 8 và có tất cả 14,307,668 bigrams Chỉ số Chi bình phương được tính bằng tổng bình phương hiệu của giá trị mỗi ô (i,j) với giá trị kỳ vọng của nó chia cho giá trị kỳ vọng Cụ thể, nó được xác định theo công thức:
Trong đó i là chỉ số hàng và j là chỉ số cột, N là cỡ mẫu, Eij là giá trị kỳ vọng tại
ô (i,j) Với bảng 2x2, Ei = (Ei1+Ei2)(E1j+E2j) / N
Phép kiểm tra Chi bình phương có thể áp dụng được cho bảng với bất kỳ kích
cỡ nào; với bảng 2x2 ta có công thức đơn giản để tính giá trị Chi bình phương như sau:
Theo công thức này, giá trị Chi bình phương cho bảng 2-4 được tính bằng:
Trang 23Tra bảng ta thấy α = 0.05 tương ứng với χ = 3.841 > 1.55, do đó, chúng ta không
thể bác bỏ giả thuyết rỗng rằng new và companies xuất hiện độc lập với nhau Hay
new và companies không thể tạo thành collocation
Nhìn chung, với bài toán trích chọn collocation, phương pháp kiểm tra t và phương pháp Pearson Chi bình phương không có sự khác biệt lớn về kết quả Trong một số trường hợp, phương pháp kiểm tra Chi bình phương tỏ ra thích hợp hơn với các xác suất lớn, khi giả định phân phối chuẩn của phép kiểm tra t không được thỏa mãn Chính vì lý do đó, phương pháp kiểm tra Chi bình phương thường được áp dụng phổ biến hơn trong trích chọn collocation Bảng 2-5 minh họa một số kết quả thu được khi
áp dụng phương pháp kiểm tra Chi bình phương trong trích chọn collocation
Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi
Church và Hanks [6] định nghĩa một collocation được định nghĩa là một cặp các
từ xuất hiện cùng nhau trên mức tình cờ trong văn bản Phương pháp trích chọn collocations dựa trên thông tin tương hỗ xuất phát từ định nghĩa này Xét hai từ x và y,
có xác suất xuất hiện tương ứng là P(x) và P(y), thì thông tin tương hỗ I(x,y) của hai từ được xác định bằng:
( ) ( )
Trang 24Thông tin tương hỗ giúp chúng ta xác định mức độ phụ thuộc về thông tin của 2 phần tử x, y Trong lý thuyết thông tin, thông tin tương hỗ thường được định nghĩa là thông tin thu được từ các biến ngẫu nhiên, không phải các giá trị của các biến ngẫu nhiên như chúng ta định nghĩa ở đây
Fano định nghĩa thông tin tương hỗ là: “Lượng thông tin thu được từ sự xuất hiện của sự kiện được biểu diễn bởi [y’] về sự xuất hiện của sự kiện được biểu diễn bởi [x’]”
Ví dụ, việc đo thông tin tương hỗ cho ta thấy lượng thông tin chúng ta có về sự
xuất hiện của Ayatollah tại vị trí i trong corpus dữ liệu tăng 18.38bit nếu chúng ta biết Ruhollah xuất hiện tại vị trí i+1 Hay, thông tin về sự xuất hiện của Ruhollah tại vị trí i+1 trong corpus dữ liệu tăng 18.38 bits nếu chúng ta biết Ayatollah xuất hiện tại vị trí
i Chúng ta cũng có thể nói răng độ không chắc chắn của chúng ta giảm 18.38bits Nói cách khác, chúng ta có thể chắc chắn hơn rằng Ruhollah sẽ xuất hiện tại ví trí tiếp theo nếu chúng ta biết rằng Ayatollah là từ đang xét
Có thể thấy rằng thông tin tương hỗ phản ánh khá tốt tính độc lập giữa hai sự kiện Giá trị thông tin tương hỗ tiệm cận 0 chứng tỏ hai sự kiện độc lập nhưng giá trị thông tin tương hỗ lớn hơn 0 không thực sự phản ánh được quan hệ phụ thuộc giữa hai biến vì quan hệ phụ thuộc còn phụ thuộc rất nhiều vào tần suất xuất hiện 2 sự kiện Nói cách khác, hai từ có giá trị thông tin tương hỗ lớn chưa hẳn đã là một collocation Một giải pháp cho vấn đề này được đưa ra đó là tách ngưỡng với một tần suất lớn hơn một giá trị ngưỡng Tuy nhiên, điều này vẫn chưa thực sự giải quyết được vấn đề đang tồn tại, mà chỉ giảm nhẹ tác động của nó Một hạn chế nữa của phương pháp này là do
nó dựa trên giả định là hai từ tạo thành collocation phải có quan hệ phụ thuộc lẫn nhau, tập kết quả thường bao gồm cả các cụm từ không phải là collocations nhưng có
quan hệ với nhau về nghĩa (ví dụ: doctor-nurse, doctor-dentist)
Như đã nói ở trên, thông tin tương hỗ không thực sự phản ánh khả năng có thể tạo thành collocation của 2 từ (x,y), do đó, phương pháp trích chọn collocations dựa trên thông tin tương hỗ thường chỉ tồn tại trong các nghiên cứu về lý thuyết và thường không được sử dụng trong các ứng dụng thực tế Bảng 2-6 minh họa một số collocations được trích chọn bằng phương pháp sử dụng thông tin tương hỗ
Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ
w 1 w 2 w 1 w 2 freq w 1 freq w 2 freq PMI – score
nền kinh_tế_thị_trường 67 1544 84 6.69599122813447