Tài liệu tham khảo công nghệ thông tin Nghiên cứu bài toán xác định collocation trong tiếng việt
Trang 1Fn H ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
HÀ NỘI - 2009
Trang 3Lời cảm ơn
Trước hết, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sỹ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh và Cử nhân Nguyễn Minh Tuấn, những người đã tận tình quan tâm, chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện Khóa luận tốt nghiệp
Tôi xin chân thành cảm ơn các thầy cô đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu tại Trường Đại học Công nghệ
Tôi cũng xin gửi lời cảm ơn tới các anh chị trong SIS Lab đã tận tình giúp đỡ, hỗ trợ cho tôi về kiến thức chuyên môn
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình, bạn bè, những người thân yêu luôn bên cạnh động viên, là nguồn cổ vũ để tôi hoàn thành Khóa luận tốt nghiệp
Tôi xin chân thành cảm ơn!
Trang 4Tóm tắt nội dung
Collocation là những cụm từ (gồm hai hay nhiều từ) thường được sử dụng với nhau Bài toán xác định collocation trong một kho ngữ liệu đã và đang nhận được nhiều sự quan tâm, nghiên cứu của các nhà khoa học trên thế giới Có rất nhiều phương pháp để giải quyết bài toán này, song hiện nay, các phương pháp thống kê đang được sử dụng phổ biến bởi những người làm trong lĩnh vực Xử lý ngôn ngữ tự nhiên
Khóa luận tốt nghiệp với đề tài “Nghiên cứu bài toán xác định collocation trong Tiếng Việt” tập trung nghiên cứu một số phương pháp thống kê điển hình (Tần suất, Kỳ
vọng và phương sai, Kiểm thử t, Kiểm thử khi-bình phương, Tỷ lệ likehood, Thông tin tương hỗ) để trích chọn collocation Khóa luận đã tiến hành thử nghiệm xác định collocation tiếng Việt cho kết quả tương ứng với các phương pháp kiểm thử thống kê nói trên Thông qua kết quả thử nghiệm, Khóa luận nhận thấy phương pháp Kiểm thử khi-bình phương phù hợp nhất để xác định collocation trong tiếng Việt
Trang 5Mục lục
Lời mở đầu 1
Chương 1 TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATION 3
1.1 Khái niệm collocation 3
1.1.1 Định nghĩa collocation 3
1.1.2 Đặc trưng của collocation 4
1.2 Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên 4
Chương 2 CÁC PHƯƠNG PHÁP XÁC ĐỊNH COLLOCATION 6
2.1 Phương pháp Tần suất (Frequency) 7
2.2 Phương pháp Kỳ vọng và Phương sai (Mean & Variance) 11
2.3 Kiểm thử Giả thuyết (Hypothesis testing) 16
2.3.1 Kiểm thử t (t test) 17
2.3.2 Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis testing of differences) 19
2.4 Kiểm thử khi-bình phương (Pearson’s chi-square test) 21
2.5 Các tỉ lệ likelihood (Likelihood ratios) 26
2.5.1 Tỉ lệ likelihood (Likelihood ratio) 26
2.5.2 Các tỉ lệ tần suất tương đối (Relative Frequency Ratios) 29
2.6 Thông tin tương hỗ MI (Mutual information) 30
Chương 3 COLLOCATION TRONG TIẾNG VIỆT 36
3.1 Đặc điểm từ vựng Tiếng Việt 36
3.1.1 Đơn vị cấu tạo từ 36
3.1.2 Phương thức cấu tạo từ 36
3.1.3 Biến thể của từ 37
3.1.4 Những quá trình diễn ra trong sự phát triển từ vựng Tiếng Việt 38
Trang 63.2 Khái niệm collocation trong Tiếng Việt 40
3.3 Bài toán xác định collocation trong Tiếng Việt 41
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 44
Tài liệu tham khảo 50
Tài liệu Tiếng Việt 50
Tài liệu Tiếng Anh 50
Phụ lục 53
1 Bảng phân phối t 53
2 Bảng phân phối 54
Trang 7Danh sách các bảng
Bảng 1 Tìm kiếm collocation dựa vào tần suất 7
Bảng 2 Các mẫu từ loại dùng cho việc lọc collocation 8
Bảng 3 Tìm kiếm collocation: bộ lọc từ loại của Justeson và Katz 9
Bảng 4 Các danh từ w xuất hiện thường xuyên nhất trong các mẫu strong w và powerful w 10
Bảng 5 Tìm kiếm collocation dựa vào Kỳ vọng và phương sai 15
Bảng 6 Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t 19
Bảng 7 Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất hiện có ý nghĩa với powerful và strong 20
Bảng 8 Bảng 2x2 chỉ ra sự phụ thuộc của sự xuất hiện new và companies 22
Bảng 9 Tương ứng của vache và cow trong hai kho ngữ liệu đã sắp xếp tương ứng 25
Bảng 10 Phép thử cho sự độc lập của các từ trong các kho ngữ liệu khác nhau, sử dụng 25
Bảng 11 Cách tính toán giá trị likelihood của Dunning 27
Bảng 12 Các bigram có chứa powerful với hạng cao nhất theo phép thử likelihood ratio của Dunning 28
Bảng 13 Phép thử tỉ lệ tần suất của Damerau 30
Bảng 14 Tìm kiếm collocation dựa vào thông tin tương hỗ 31
Bảng 15 Sự phù hợp của chambre và house, communes và house trong kho ngữ liệu 32
Bảng 16 Thông tin tương hỗ từ các dữ liệu rải rác 33
Bảng 17 Các định nghĩa khác nhau về thông tin tương hỗ 35
Bảng 18 Các collocation có giá trị khi-bình phương cao nhất 43
Bảng 19 Cấu hình phần cứng sử dụng trong thực nghiệm 45
Bảng 20 Giá trị ngưỡng cho các phương pháp xác định collocation 46
Trang 8Bảng 21 Đánh giá độ chính xác của các phương pháp xác định collocation 47Bảng 22 Một số collocation thu được từ thực nghiệm 48
Trang 9Danh sách các hình
Hình 1 Sử dụng cửa sổ collocation 3 từ để lấy được các bigram ở một khoảng cách 12Hình 2 Biểu đồ tần suất biểu diễn vị trí tương đối của strong với các “từ trung tâm”:
opposition, support, for 14
Hình 3 Phân loại cụm từ cố định Tiếng Việt 41
Trang 10Khóa luận với đề tài “Nghiên cứu bài toán xác định collocation trong Tiếng Việt”
tập trung nghiên cứu về collocation, các phương pháp xác định collocation từ các ngôn ngữ khác nhau và lựa chọn phương pháp, thi hành chương trình thực nghiệm để kiểm chứng tính khả thi của chúng trên kho ngữ liệu Tiếng Việt
Khóa luận gồm bốn chương, nội dung được mô tả sơ bộ như sau:
Chương 1 Tổng quan về bài toán xác định collocation giới thiệu khái niệm
collocation, đặc trưng của collocation Chương này cũng nêu lên tầm quan trọng cũng như ứng dụng của collocation trong lĩnh vực Xử lý ngôn ngữ tự nhiên
Chương 2 Các phương pháp xác định collocation phân tích các phương pháp
thống kê đang được sử dụng phổ biến để xác định collocation, một số đánh giá ưu nhược điểm cũng như mức độ phù hợp của từng phương pháp đối với mỗi loại collocation và dữ liệu khác nhau
Chương 3 Collocation trong Tiếng Việt trình bày đặc điểm của Tiếng Việt,
khái niệm collocation trong Tiếng Việt và phát biểu Bài toán xác định collocation trong Tiếng Việt
Chương 4 Thực nghiệm và đánh giá trình bày nội dung thử nghiệm sử dụng
các phương pháp Tần suất (Frequency), Kiểm thử t (t test), Kiểm thử bình phương (chi-square test), Tỉ lệ likelihood (Likelihood ratio), và Thông
Trang 11khi-tin tương hỗ (Mutual information) để xác định collocation trong tập văn bản
Tiếng Việt Qua đó, Khóa luận cũng đánh giá mức độ phù hợp của các phương pháp đó trong Tiếng Việt
Phần kết luận tổng kết và tóm lược nội dung chính của khóa luận
Trang 12Chương 1 TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATION
1.1 Khái niệm collocation 1.1.1 Định nghĩa collocation
Ngôn ngữ tự nhiên là một hệ thống giao tiếp mở và rất mềm dẻo Con người thường tự do truyền đạt nội dung họ muốn bằng những dạng ngôn ngữ khác nhau (nói, viết) và bằng những thứ ngôn ngữ khác nhau Mỗi thứ tiếng trên thế giới đều có những đặc trưng riêng về ngôn ngữ và những cách dùng từ cũng như kết hợp từ khác nhau Cách kết hợp từ hay cách dùng từ là những cách nhìn khái quát nhất về khái niệm collocation.
Collocation rất phổ biến trong ngôn ngữ tự nhiên và được gặp trong mọi tài liệu chuyên hoặc không chuyên Khái niệm collocation là một khái niệm khó hiểu đối với
những người không chuyên về ngôn ngữ học Có rất nhiều cách khác nhau để định nghĩa
collocation, tuy nhiên chưa có một định nghĩa thật đầy đủ và chính xác, đặc biệt là khi không có một ranh giới rõ ràng phân biệt giữa collocation và các cụm từ được kết hợp
ngẫu nhiên (cụm từ tự do) [17]
Một số tác giả trong lĩnh vực văn học và thống kê định nghĩa collocation như một
cụm từ gồm hai hay nhiều từ thường xuyên cùng xuất hiện theo một thói quen đặc biệt Ví dụ, Choueka đã đưa ra định nghĩa “Collocation là một chuỗi hai hay nhiều từ liên tiếp nhau, có các đặc trưng về cú pháp và ngữ nghĩa, và ý nghĩa của nó không thể được rút ra từ nghĩa của các thành phần cấu tạo nên nó” hay cũng vậy “Collocation có thể được hiểu là sự kết hợp các từ (hoặc các nhóm từ) thường xuyên được sử dụng cùng với nhau theo cách nói thông thường” [20]
Theo Firth [17], collocation là sự sắp xếp từ theo thói quen hoặc theo phong tục (the habitual or customary places of the word)
Benson và Morton [17] định nghĩa collocation là: sự kết hợp từ tùy ý và thường tái diễn (an arbitrary and recurrent word combination)
Theo Lin [19], collocation được định nghĩa là sự kết hợp từ theo thói quen
Trang 13Kết hợp các định nghĩa của nhiều nhà khoa học, có thể đưa ra một định nghĩa chung nhất về collocation như sau
Định nghĩa: Collocation là một cụm từ gồm hai hay nhiều từ trở lên thường đi liền
với nhau theo một trật tự nhất định (theo cách nói của người bản xứ)
trong một lĩnh vực đòi hỏi sự hiểu biết về các thuật ngữ có liên quan và các collocation trong lĩnh vực đó
c Tính “lặp lại” (Recurrent): các collocation là sự kết hợp từ được lặp lại thường xuyên trong ngữ cảnh xác định
d Tính “cụm từ cố kết” (Cohesive lexical cluster): đặc trưng này được hiểu như là sự xuất hiện của một hay một vài từ thường bao hàm sự xuất hiện của một collocation chứa nó
1.2 Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên
Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ như sinh ngôn ngữ tự nhiên, dịch máy, tóm tắt văn bản và xây dựng từ điển Chính vì tầm quan
trọng của collocation, nên người ta đặt ra một vấn đề là làm thế nào để xác định collocation
Bài toán xác định collocation (hay còn gọi là Bài toán trích chọn collocation – Collocation extraction) được phát biểu như sau “Xác định collocation là việc sử dụng
máy tính để trích chọn ra các collocation một cách tự động từ một kho ngữ liệu (copus)” Howarth và Nasi [16] cho rằng hầu hết trong các đoạn văn bản đều có chứa ít nhất một collocation
Trang 14Sinh ngôn ngữ tự nhiên (Natural language generation) là việc tạo câu hoặc văn bản từ một trình diễn phi ngôn ngữ Có thể nhìn nhận việc phân tích ngôn ngữ là dịch từ ngôn ngữ tự nhiên sang một kiểu trình diễn có ý nghĩa khác Vì vậy, cần xem xét việc sinh ngôn ngữ (language generation) như là phép dịch ngược lại từ một trình diễn có ý nghĩa sang ngôn ngữ tự nhiên Việc phân tích một bài luận khó hơn việc phân tích các câu riêng lẻ, việc sinh ra văn bản cũng khó hơn nhiều việc sinh ra chuỗi các câu độc lập Để có một văn bản dễ hiểu, phải dựa vào các nguyên tắc sắp xếp từ và câu theo đặc trưng riêng của mỗi loại ngôn ngữ [22]
Dịch tự động (Machine translation) được xem như là một trong những công việc khó khăn nhất trong xử lý ngôn ngữ tự nhiên, và trong trí tuệ nhân tạo Việc dịch đúng dường như là không thể nếu không có những hiểu biết về văn bản Theo Gitsaki [14], một collocation trong ngôn ngữ này khác với chính nó trong ngôn ngữ khác, vì thế việc dịch collocation là một việc không dễ
Thông tin về collocation cũng là chủ yếu trong các công việc tóm tắt văn bản (Text simplification task) Điều này đòi hỏi phải có những kỹ thuật để thay thế các từ khó bởi những từ đơn giản hơn Không có hiểu biết về collocation và các ràng buộc liên quan thì có thể dẫn đến những văn bản không dùng được
Collocation cũng quan trọng trong lĩnh vực xây dựng từ điển (Computational lexicography) Chúng được sử dụng để mô tả một cách đầy đủ các mục từ vựng Theo Richardson “đối với một phân tích từ điển chi tiết, chỉ các collocation có mặt trong từ điển mới cung cấp thêm các đặc điểm biểu diễn trực tiếp các mối quan hệ ngữ nghĩa trong các mục từ” [17]
Smith [25] xem xét các collocation để tìm ra các sự kiện liên quan đến thông tin ngày tháng và địa điểm trong văn bản không có cấu trúc
Trang 15Chương 2 CÁC PHƯƠNG PHÁP XÁC ĐỊNH COLLOCATION
Những năm gần đây, các phương pháp thống kê được sử dụng nhiều để giải quyết các bài toán về ngôn ngữ tự nhiên, trong đó có Bài toán xác định collocation [20] Trong ngôn ngữ học, có sự khác biệt lớn giữa các phép đo về sự kết hợp từ vựng được sử dụng trong việc phát hiện và trích ra (bán tự động) các collocation Có 3 nhóm số đo sau [16]:
a Các số đo dựa vào tần suất (dựa hoàn toàn vào tần suất của sự đồng xuất hiện các từ)
b Các số đo dựa vào thông tin lý thuyết: ví dụ, thông tin tương hỗ MI (mutual information), entropy
c Các số đo dựa vào thống kê: ví dụ, chi-square ( ), t-test, log-likelihood, hệ số Dice
Các độ đo trên cùng những tính chất toán học (Dunning, 1993; Manning & Schütze, 1999) [13][20] và sự phù hợp của chúng trong việc xác định collocation (Krenn & Evert, 2001) [18] đã được thảo luận rộng rãi trong lĩnh vực ngôn ngữ học Độ đo được lựa chọn sẽ gán cho mỗi cặp từ một điểm số để đánh giá sự kết hợp từ Điểm số này được tính toán dựa nhiều vào tần suất xuất hiện từ
Trong khi các số đo về sự kết hợp có giá trị thống kê trong việc phát hiện collocation, cần chú ý rằng có vài công việc cần làm với các đặc trưng của ngôn ngữ Vì thế, việc nghiên cứu, lựa chọn, tiến hành một phép đo phải được kết hợp chặt chẽ với các tiêu chuẩn về ngôn ngữ trong việc phát hiện collocation
Chương này sẽ trình bày một số phương pháp thống kê để xác định collocation, đó
là: Frequency – tần suất, Mean and variance - dựa vào Kỳ vọng và phương sai của khoảng cách giữa từ trung tâm và việc sắp xếp từ, Hypothesis testing – kiểm thử Giả thuyết, Likelihood ratio – Tỷ lệ likelihood, và Mutual information – thông tin tương hỗ
Kho ngữ liệu (corpus) được sử dụng trong các ví dụ minh họa là các ấn phẩm của tờ
New York Times (từ tháng 8 đến tháng 11 năm 1990) Kho ngữ liệu này có 115 MB dữ
liệu văn bản và khoảng 14 triệu từ Thông thường, cả những cụm từ cố định hay không cố định đều có thể là collocation [20]
Trang 162.1 Phương pháp Tần suất(Frequency)
Phương pháp đơn giản nhất để tìm kiếm collocation trong một tập văn bản là đếm số lần xuất hiện các từ Nếu hai từ cùng xuất hiện với nhau nhiều, thì đó là dấu hiệu cho thấy sự kết hợp của chúng mang một chức năng đặc biệt
Bảng 1 chỉ ra các bigram xuất hiện nhiều nhất trong copus và tần suất xuất hiện của
chúng Ngoại trừ New York, tất cả các biagram đều là các cặp từ chức năng
Bảng 1 Tìm kiếm collocation dựa vào tần suất
C(.) là tần suất của một từ trong kho ngữ liệu
Có một phương pháp rất đơn giản để cải thiện các kết quả (Justeson & Katz 1995): cho các cụm từ dự tuyển qua một bộ lọc từ loại [20] Bộ lọc này sẽ chỉ cho đi qua những mẫu có khả năng là một cụm từ (phrase) Justeson và Katz đã đưa ra các mẫu trong Bảng 2 Mỗi mẫu được đưa ra kèm theo một ví dụ lấy từ tập test
Trang 17Bảng 2 Các mẫu từ loại dùng cho việc lọc collocation
Đây là những mẫu đƣợc sử dụng bởi Justeson và Katz để xác định collocation dựa vào tần suất xuất hiện của từ
A: tính từ (Adjective), P: giới từ (Preposition), N: danh từ (Noun)
Bảng 3 biểu diễn những cụm từ đƣợc xếp hạng cao nhất sau khi đƣợc lọc Các kết
quả có đƣợc khá tốt York City là một lỗi nhận đƣợc qua bộ lọc Justeson & Katz Do đó
cần tìm kiếm một chuỗi dài nhất phù hợp với một trong các mẫu từ loại và tìm ra cụm từ
dài hơn có chứa York City, đó là New York City
Trang 18Bảng 3 Tìm kiếm collocation: bộ lọc từ loại của Justeson và Katz
Bảng 4 liệt kê hai mươi cụm từ hạng cao nhất có chứa strong và powerful có dạng AN (A là strong hoặc powerful)
Trang 19Bảng 4 Các danh từ w xuất hiện thường xuyên nhất trong các mẫu strong w và powerful w
Đối với một phương pháp đơn giản thế này, các kết quả tìm được lại chính xác một
cách bất ngờ Ví dụ phương pháp này đã xác định được chính xác strong challenges và powerful computers chứ không phải là powerful challenges và strong computers
Tuy nhiên, có thể nhìn thấy những hạn chế của phương pháp xác định collocation
dựa vào tần suất Ví dụ trong Bảng 4, các danh từ man và force được sử dụng với cả hai tính từ strong và powerful Cần phải có các phân tích tinh vi hơn trong những trường hợp
như thế này
Cả strong tea và powerful tea đều không xuất hiện trong kho ngữ liệu ví dụ (New York Times) Nhưng nếu tìm kiếm trên kho ngữ liệu rộng hơn, sẽ thấy 799 lần xuất hiện strong tea và 17 lần xuất hiện powerful tea, chứng tỏ rằng strong tea là cách dùng từ đúng
(việc tìm kiếm này được thực hiện trên AltaVista vào 28 tháng 3 năm 1998) [20]
Phương pháp tìm kiếm collocation của Justeson và Katz đã chứng minh một điều quan trọng: Một kỹ thuật định lượng đơn giản (trong trường hợp này là bộ lọc tần suất)
Trang 20kết hợp với một chút ít hiểu biết về ngôn ngữ học (về từ loại) trở thành một phương pháp khá hay
Có thể sử dụng thêm danh sách từ dừng (là các từ có tần suất xuất hiện cao, nhưng không phải là động từ, danh từ hay tính từ ) để nâng cao hiệu quả của phương pháp này
2.2 Phương pháp Kỳ vọng và Phương sai (Mean & Variance)
Phương pháp Tần suất làm việc khá hiệu quả với các cụm danh từ, và chỉ thực sự có
ích với các cụm từ cố định (fixed phrase) Tuy nhiên ở nhiều ngôn ngữ, có những
collocation bao gồm các từ đứng trong mối quan hệ mềm dẻo hơn với nhau Phương pháp
Kỳ vọng và phương sai (Mean & Variance) [24] khắc phục được điều này bằng cách tính
toán khoảng cách giữa hai từ và tìm ra chiều rộng của phân bổ khoảng cách ấy Nếu phân bổ hẹp (khoảng cách giữa cách đỉnh phân bổ nhỏ), thì có thể tìm ra collocation Nhưng nếu phương sai cao, các đỉnh được phân bổ ngẫu nhiên thì ko thể tìm được collocation
Xét động từ knock và một trong những từ có tần suất xuất hiện cao nhất cùng với nó là door Đây là một số ví dụ lấy từ kho ngữ liệu:
a She knocked on his door b They knocked at the door
c 100 women knocked on Donaldon’s door d A man knocked on the metal front door
Các từ xuất hiện ở giữa knocked và door là khác nhau và khoảng cách giữa hai từ
thay đổi, cho nên phương pháp Tần suất sẽ không sử dụng được ở đây Nhưng có đủ tính hợp thức trong các mẫu để cho phép chúng ta xác định được rằng trong tình huống này,
sử dụng knock là đúng, chứ không phải hit, beat, hay rap
Trang 21Hình 1 Sử dụng cửa sổ collocation 3 từ để lấy được các bigram ở một khoảng cách
Cần định nghĩa một cửa sổ collocation (collocational window), thông thường mỗi
cửa sổ từ 3 đến 4 từ, mỗi cặp từ sẽ làm thành một bigram (Hình 1) Sau đó, tiếp tục công việc tính toán như bình thường trên tập các bigram lớn hơn
Phương pháp Kỳ vọng và phương sai xét khoảng cách khác nhau giữa hai từ Để tìm
mối quan hệ giữa knocked và door, cần tính kỳ vọng và phương sai của các khoảng cách
giữa hai từ trong kho ngữ liệu
Kỳ vọng (trung bình mẫu) của các khoảng cách:
Phương sai đo độ lệch của các khoảng riêng so với trung bình Nó được ước lượng như sau:
n là số lần 2 từ cùng xuất hiện
là khoảng cách của lần cùng xuất hiện thứ i
Ví dụ, trung bình khoảng cách giữa knocked và door được tính như sau:
Câu:
Các bigram:
Trang 22(Giả sử rằng Donaldson’s là 3 từ tố Donaldson, ’, s) Nếu door xuất hiện trước knocked thì khoảng cách giữa hai từ là một số âm Ví dụ, nếu có the door that she knocked on thì khoảng cách giữa knocked và door là -3
Nếu khoảng cách là như nhau trong mọi trường hợp thì phương sai bằng 0 Nếu các khoảng cách được phân bổ ngẫu nhiên (trong trường hợp hai từ tình cờ xuất hiện cùng nhau) thì giá trị phương sai sẽ cao Thường thì độ lệch mẫu được sử dụng để
đánh giá sự biến đổi khoảng cách giữa hai từ Độ lệch cho các ví dụ về knocked door là:
Kỳ vọng và độ lệch mô tả phân bổ của các khoảng cách giữa hai từ trong một kho ngữ liệu Dựa vào điều này, ta có thể tìm ra collocation bằng cách tìm cặp từ có độ sai
lệch thấp nhất Độ lệch thấp có nghĩa là hai từ gần như thường xuất hiện ở cùng một khoảng cách Nếu độ lệch bằng 0 thì chứng tỏ hai từ xuất hiện chính xác ở cùng một
Trang 232b Vị trí của strong đối với support ( )
2c Vị trí của strong đối với for ( )
Hình 2 Biểu đồ tần suất biểu diễn vị trí tương đối của strong với các “từ
trung tâm”: opposition, support, for
Hình 2a Phân bổ của strong đối với opposition có một đỉnh ở vị trí -1 (strong
strong thường xuất hiện ở vị trí -1 so với opposition
Cần phải hạn chế các vị trí xung quanh từ trung tâm (bằng việc giới hạn kích thước cửa sổ collocation) vì các collocation về cơ bản là cách dùng từ mang tính chất địa phương
Hình 2b Phân bổ của strong đối với support được rút ra từ một số vị trí âm có tần
suất xuất hiện của cụm từ lớn Ví dụ, đếm được khoảng 20 cụm từ ở vị trí -2 (strong leftist support hay strong business support) Bởi vậy chúng ta nhận được phương sai cao hơn (s=1.07) và trung bình
Trang 24Hình 2c Sự xuất hiện của strong cùng với for là một phân bổ đều hơn Có xu hướng
hiện ở bất cứ vị trí nào xung quanh for Độ chênh lệch cao s = 2.15 đã chỉ ra sự thay đổi này Từ đó thấy rằng for và strong không tạo thành collocation
Bảng 5 đưa ra các collocation có thể được tìm thấy bằng phương pháp Kỳ vọng và phương sai
Bảng 5 Tìm kiếm collocation dựa vào Kỳ vọng và phương sai
Bảng này cho biết độ lệch mẫu s và trung bình mẫu của các khoảng cách giữa 12
cặp từ
Nếu trung bình gần với 1.0 và độ lệch thấp (như trường hợp từ New York), phương
pháp Kỳ vọng và phương sai cho kết quả tìm kiếm collocation không khác mấy so với
phương pháp Tần suất của Justeson và Katz
Nếu trung bình lớn hơn rất nhiều so với 1.0 thì độ lệch thấp sẽ cho biết các cụm từ nào đáng được quan tâm
Trang 25Độ lệch cao chỉ ra rằng hai từ không có mối quan hệ mật thiết với nhau Điều này được chứng minh qua nhóm thứ hai (gồm 4 cặp từ với giá trị phương sai cao) trong ví dụ ở Bảng 5
Phương pháp tìm kiếm collocation dựa vào giá trị kỳ vọng và phương sai được trình bày ở trên là của Smadja [24] Smadja chỉ ra rằng phương pháp của ông khá thành công trong việc trích ra các thuật ngữ (với độ chính xác ước lượng khoảng 80%) và trong việc
xác định các cụm từ phù hợp cho việc sinh ngôn ngữ – natural language generation
(Smadja và McKeown 1990 [23])
Tuy nhiên, sự kết hợp knocked / door không phải collocation ta muốn phân loại – mặc dù có thể nó rất có ích cho mục đích sinh văn bản (text generation) Phương pháp
phát hiện collocation dựa vào phương sai là một phương pháp phù hợp nếu chúng ta
muốn tìm kiếm kiểu kết hợp từ như knocked door
2.3 Kiểm thử Giả thuyết (Hypothesis testing)
Trong thực tế, có nhiều sự kết hợp từ mà giá trị tần suất cao và phương sai thấp Điều mà chúng ta cần tìm hiểu, đó là có hay không hai từ xuất hiện cùng với nhau thường xuyên mà không phải là sự xuất hiện ngẫu nhiên Việc đánh giá một biến cố có xảy ra hay không là một trong những bài toán kinh điển Nó thường bị ẩn đi trong các thuật ngữ của
Kiểm thử Giả thuyết (hypothesis testing) Có một giả thuyết được gọi là Giả thuyết Không (null hypothesis) , chỉ xét sự kết hợp từ ngẫu nhiên Ta sẽ tính toán xác suất p mà biến
cố sẽ xảy ra nếu đúng, và sau đó loại nếu p quá nhỏ (p < 0.05, 0.01, 0.005, 0.001,
thông thường người ta lấy ngưỡng là trong các thực nghiệm khoa học) hoặc giữ lại trong trường hợp ngược lại
Đây là một cách phân tích dữ liệu mà chúng ta phải xem xét cùng lúc hai việc Trước mắt, chúng ta sẽ đi tìm kiếm các mẫu đặc biệt trong dữ liệu, nhưng bên cạnh đó, cần phải tính toán được lượng dữ liệu đã được quan sát Thậm chí nếu có một mẫu rất tốt, thì chúng ta vẫn sẽ đánh giá thấp nó nếu như không có đủ dữ liệu quan sát để có thể chắc chắn rằng mẫu đó tồn tại không phải do ngẫu nhiên
Giả thuyết Không là đúng nếu hai từ không tạo thành một collocation Giả sử rằng mỗi từ và được sinh ra một cách hoàn toàn độc lập với nhau, vì vậy khả năng chúng xuất hiện cùng nhau là:
Trang 26Công thức cho thấy rằng xác suất cùng xuất hiện của hai từ chỉ là kết quả của các xác suất riêng của mỗi từ
2.3.1 Kiểm thử t (t test)
Cần phải có một phép thử thống kê để kiểm tra xác suất cùng xuất hiện của các từ
Phép thử được sử dụng rộng rãi trong việc tìm kiếm collocation là t test T test xem
xét trung bình và phương sai của một mẫu các phép đo, mà theo Giả thuyết Không, mẫu đó được rút ra từ một phân bổ với trung bình μ Phép thử xét sự khác nhau giữa trung bình được quan sát và trung bình kỳ vọng (được đo bằng phương sai của dữ liệu) sẽ cho chúng ta một giá trị trung bình và phương sai đặc biệt hơn, với giả thiết mẫu được rút ra từ một phân phối thông thường với trung bình μ
Để xác định được xác suất của một mẫu đặc biệt, cần tính toán giá trị thống kê t:
là trung bình mẫu là phương sai mẫu là kích thước mẫu
là trung bình của phân phối
Nếu t đủ lớn, chúng ta có thể loại bỏ Giả thuyết Không Chúng ta có thể tìm ra chính xác là t cần phải lớn như thế nào bằng cách tra cứu trong Bảng phân phối t (Phụ lục)
Để thấy rõ hơn việc sử dụng t test để tìm kiếm collocation, chúng ta sẽ tính giá trị t cho cụm từ new companies Vấn đề là chúng ta sẽ đo giá trị trung bình và phương sai của
một mẫu như thế nào Có một cách, là coi kho ngữ liệu như một chuỗi dài gồm N bigram, các mẫu sẽ được lấy bằng 1 nếu bigram đang kiểm tra xuất hiện, và bằng 0 trong trường hợp ngược lại
Các xác suất để new và companies xuất hiện trong kho ngữ liệu được tính như sau:
Trang 27Trong kho ngữ liệu ví dụ, new xuất hiện 15828 lần, companies xuất hiện 4675 lần,
và có tất cả 14307668 bigram
Giả thuyết Không quy ước rằng sự xuất hiện các biến cố new và companies phải độc
lập với nhau
Trung bình của phân phối này là và phương sai là
(xấp xỉ này được sử dụng cho tất cả các bigram có xác suất p nhỏ)
Cụm từ new companies xuất hiện 8 lần trên tổng số 14307668 bigram trong kho ngữ
liệu Vì thế, đối với mẫu này, chúng ta có trung bình mẫu là
Theo công thức tính t:
Vì số mẫu rất lớn nên có thể xem bậc tự do (degrees of freedom) df = ∞, với ngưỡng cho xác suất p là , tra trong Bảng phân phối t (Phụ lục) được giá trị 2.57583 Dễ thấy t < 2.57583 nên không thể loại bỏ Giả thuyết Không (Giả thuyết Không là đúng
vì new và companies tuy cùng xuất hiện nhưng vẫn độc lập với nhau), vì vậy new companies không phải là collocation
Bảng 6 cho thấy các giá trị t của 10 bigram xuất hiện với tần suất 20 lần trong kho ngữ liệu Đối với 5 bigram đầu tiên, chúng ta có thể loại bỏ Giả thuyết Không với , vì vậy các bigram này rất có thể là các collocation Phép tính t cho 5 bigram cuối cùng không cho kết quả tốt, vì vậy có khả năng chúng không phải là collocation
Trang 28Bảng 6 Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t
Chú ý rằng phương pháp Tần suất không thể xếp hạng được 10 bigram khi chúng
xuất hiện với tần suất bằng nhau Nhìn vào Bảng 6, có thể thấy phép thử t test tính số lần
cùng xuất hiện của hai từ trong bigram C( ) liên quan đến tần suất của các từ thành
phần Nếu tần suất của cả hai từ là cao (Ayatollah Ruhollah, videocassette recorder) hoặc ít nhất là tần suất của một trong hai từ (unsaled) trong bigram là rất cao thì giá trị t của
chúng cũng cao Đánh giá này dựa nhiều vào trực giác
Phép thử t test và các phép thử thống kê khác rất có ích trong một số phương pháp xếp hạng collocation (ranking collocation)
2.3.2 Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis testing of differences)
Trong lĩnh vực từ điển học, công thức t test không thể tìm ra các từ để phân biệt tốt nhất nghĩa của strong và powerful Church và Hanks (1989) [11] đã khắc phục điều này bằng việc đề xuất một công thức tính t khác
Bảng 7 liệt kê các từ đi cùng với powerful có ý nghĩa hơn là với strong (10 từ đầu), và các từ đi cùng với strong có ý nghĩa hơn là với powerful (10 từ cuối)
Trang 29Bảng 7 Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất
hiện có ý nghĩa với powerful và strong
Giá trị t trong trường hợp này được tính toán bằng cách sử dụng mở rộng của phép
thử t test để so sánh các trung bình của hai tập hợp:
Ở đây, Giả thuyết Không quy định rằng sai khác trung bình bằng 0 (μ = 0), vì thế ta có Mẫu số là tổng các giá trị phương sai riêng của hai tập hợp đang được so sánh
Các giá trị t trong Bảng 7 được tính toán như sau: Nếu w là một từ có ý nghĩa (ví dụ, computers hoặc symbol) và , là các từ chúng ta sẽ so sánh (ví dụ, powerful và
với p rất nhỏ):
Trang 30Rút gọn lại công thức trên, thu được:
C(x) là số lần x xuất hiện trong văn bản
Công thức tính t do Church và Hanks (1989) [10] xây dựng rất có ích cho việc biên soạn từ điển Khi biên soạn từ điển, ngoài việc nhìn vào ý nghĩa của từ, còn phải xem xét
đến những đặc trưng riêng về văn hóa Ví dụ, người ta thường nói strong tea, nhưng mặt khác lại nói powerful drugs, sự khác nhau đã nói cho chúng ta biết về thói quen dùng từ nhiều hơn là về ngữ nghĩa của hai tính từ strong và powerful (Church 1991) [11]
2.4 Kiểm thử khi-bình phương (Pearson’s chi-square test)
T test có nhược điểm là nó thừa nhận các xác suất được phân bổ theo cách xấp xỉ
thông thường, điều này trong thực tế là không đúng (theo Church và Mercer 1993) [7] Vào năm 1900, Karl Pearson đã phát triển một thống kê ( ) so sánh các giá trị được quan sát và kỳ vọng khi dữ liệu được chia thành các mục riêng biệt Các giá trị quan
sát (observed) và kỳ vọng (expected) có thể được giải thích trong phạm vi các giả thuyết kiểm tra (hypothesis testing) Tức là nếu dữ liệu được phân chia thành các mục riêng và
có định nghĩa Giả thuyết Không trên dữ liệu đó thì giá trị được kỳ vọng là giá trị của mỗi mục nếu như Giả thuyết Không là đúng, giá trị được quan sát là giá trị mỗi mục mà ta quan sát từ dữ liệu mẫu [17]
Kiểm thử khi-bình phương ( test) của Pearson là phép thử đáng tin cậy hơn phép
Kiểm thử t [17]
Trong trường hợp đơn giản nhất, phép thử khi-bình phương được sử dụng với bảng 2x2 như minh họa ở Bảng 8
Trang 31(e.g., old machines)
Bảng 8 Bảng 2x2 chỉ ra sự phụ thuộc của sự xuất hiện new và companies
Cụm new companies xuất hiện 8 lần trong kho ngữ liệu, có 4667 bigram mà từ thứ hai là companies và từ đầu tiên không phải là new, có 15820 bigram mà từ đầu tiên là new và từ thứ hai không phải là companies, và 14287181 bigram không chứa cả new và companies Bản chất của phép thử là so sánh các giá trị tần suất đƣợc quan sát trong bảng
với các giá trị tần suất đƣợc kỳ vọng cho sự độc lập Nếu sự sai khác giữa các giá trị này là lớn thì chúng ta có thể loại bỏ Giả thuyết Không về tính độc lập
Bảng 8 cho thấy phân phối của new và companies trong kho ngữ liệu Nhớ lại rằng
bigram trong kho ngữ liệu Điều đó có nghĩa là số lƣợng các bigram với từ tố đầu
tiên khác new và từ tố thứ hai là companies là 4667 = 4675 – 8 Hai ô ở hàng cuối cùng