LUẬN VĂN: CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT ppt

49 423 0
LUẬN VĂN: CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT ppt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATIONỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2010 LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành tới TS. Lê Anh Cường, người đã luôn theo sát giúp đỡ em trong quá trình hoàn thành luận văn này. Đồng thời, em cũng xin cảm ơn các thầy cô giáo trong bộ môn Khoa học máy tính nói riêng các thầy cô giáo trong khoa Công nghệ thông tin nói chung. Nếu không có các thầy, các khoa thì chắc chắn em không thể hoàn thành tốt khoá luận. Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị bạn bè đã luôn ở bên cạnh khuyến khích, động viên, giúp em vượt qua những khó khăn trong quá trình thực hiện luận văn. Hà Nội, ngày 21 tháng 5 năm 2010 Sinh viên thực hiện ĐỒNG THỊ NGÂN TÓM TẮT LUẬN VĂN Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh tiếng Đức đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán nhãn từ loại dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt. GIỚI THIỆU Trong tiếng Anh, người ta chỉ dùng “strong tea”, chứ không dùng “powerful tea”, mặc dù “strong” “powerful” tương đương với nhau về nghĩa, “powerful tea” không sai cả về cấu trúc ngữ pháp về nghĩa. Nhưng nó không được dùng đơn giản chỉ là bởi vì người bản xứ không quen dùng như vậy. Những sự kết hợp từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào như vậy được giới hạn trong một định nghĩa collocations. Như vậy, một collocation có thể được hiểu là một sự kết hợp các từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào cả. Xét về một số khía cạnh nào đó, collocations mang tính thành ngữ, cứng nhắc. Nghĩa của một collocation thường không được suy ra từ nghĩa của các từ thành phần, sự thay thế một từ thành phần bằng một từ đồng nghĩa có thể làm thay đổi hoàn toàn nghĩa của collocation đó. Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định nghĩa nào được coi là chính thống, hay chuẩn. Định nghĩa phương pháp trích chọn collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí quan hệ ngữ pháp tương đối cố định. Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23], biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25, 27, 29]. Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự cần thiết, nhằm nâng cao độ chính xác tính tự nhiên của các ứng dụng xử lý ngôn ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn. Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực khá mới mẻ. Chưa có nhiều nghiên cứu được tiến hành kết quả thu được vẫn còn ở mức độ rất hạn chế. Luận văn này tập trung vào việc áp dụng một số phương pháp thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm; từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương trình. Mục tiêu của luận văn:  Khái quát về collocations trong tiếng Việt: trình bày chi tiết về định nghĩa, đặc trưng, phân loại, một số ứng dụng của collocations trong dịch máy các bài toán xử lý ngôn ngữ tự nhiên.  Trình bày một số phương pháp trích chọn collocation dựa trên thống kê. Cụ thể hơn, trong giới hạn luận văn này, chúng tôi sẽ đi sâu vào bốn phương pháp: phương pháp dựa trên tần số, hai phương pháp kiểm định giả thuyết phương pháp dựa trên thông tin tương hỗ. Với mỗi phương pháp, từ việc trình bày cơ sở lý thuyết liên quan, chúng tôi đi đến cách áp dụng chúng vào bài toán trích chọn collocations trong tiếng Việt, một số mô hình thực nghiệm, kết quả đánh giá về việc áp dụng bốn phương pháp đó vào trích chọn collocations trong tiếng Việt.  Đề xuất một số phương pháp thống kê là kết hợp của ba hoặc bốn phương pháp đã được trình bày ở trên, xây dựng mô hình thực nghiệm, đánh giá kết quả độ chính xác của chương trình.  Đề xuất một phương pháp kết hợp thống kê thông tin cú pháp áp dụng cho trích chọn collocation có dạng cụm danh từ. Từ việc trình bày cơ sở lý thuyết, chúng tôi xây dựng mô hình thực nghiệm, đánh giá kết quả thu được độ chính xác của chương trình dựa trên phương pháp này. MỤC LỤC GIỚI THIỆU Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT 1 1.1. ĐỊNH NGHĨA 1 1.2. ĐẶC TRƯNG 1 1.2.1. Được sử dụng lặp đi lặp lại trong văn bản. 1 1.2.2. Có tính cứng nhắc: 2 1.2.3. Phụ thuộc vào lĩnh vực của văn bản. 2 1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: 3 1.3. PHÂN LOẠI 3 1.4. ỨNG DỤNG 5 Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG KÊ 7 2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ 8 2.2. PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT 9 2.2.1. Phương pháp kiểm tra t 9 2.2.2. Phương pháp kiểm tra Pearson Chi bình phương. 12 2.3. PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE MUTUAL INFORMATION (PMI)) 13 2.4. KẾT QUẢ THỰC NGHIỆM 15 2.4.1. Khái quát về dữ liệu sử dụng 15 2.4.2. Trích chọn bigrams 16 2.4.3. Các mô hình thử nghiệm 18 2.4.4. Kết quả thực nghiệm 19 Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ 25 3.1. GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM. 26 3.1.1. Bước 1: Trích chọn bigram 26 3.1.2. Bước 2: Lọc các bigram không hợp lệ 27 3.2. GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CÓ DẠNG N-GRAM. 28 3.2.1. Bước 1: 29 3.2.2. Bước 2: 29 3.2.3. Bước 3: 29 3.3. KẾT QUẢ THỰC NGHIỆM 30 Chương 4. KẾT LUẬN 33 TÀI LIỆU THAM KHẢO PHỤ LỤC A PHỤ LỤC B DANH SÁCH HÌNH VẼ Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 20 Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn 21 Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp 22 Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào 22 DANH SÁCH BẢNG Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt 4 Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh 8 Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt 9 Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t 11 Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương 12 Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi bình phương 13 Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ 14 Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger 15 Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 19 Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ loại 20 Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp 21 Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm 23 Bảng 3-1: Một số bigrams thông tin về vị trí tần suất xuất hiện của chúng 27 Bảng 3-2: Một số bigram là kết quả của giai đoạn 1 30 Bảng 3-3: Kết quả chạy chương trình ở giai đoạn 1 30 Bảng 3-4: Một số cụm danh từ cố định được trích chọn từ giai đoạn 2 31 [...]... của collocation Theo đó, có hai loại collocations: các collocations là các cụm từ ghép các collocation có cấu trúc linh động hơn Collocations là các cụm từ ghép bao gồm các cặp từ xuất hiện liền nhau trong văn bản, với chức năng cú pháp cố định Cụm danh từ + danh từ là ví dụ về loại collocation như thế Các collocationcác cặp từ linh động bao gồm các collocations có dạng chủ ngữ động từ, và. .. là collocation Tuy nhiên, độ chính xác của phương pháp này rất hạn chế Ta có thể cải tiến phương pháp này bằng cách cho các cụm từ là bigram đi qua một bộ lọc Bộ lọc này chủ yếu dựa trên nhãn từ loại của các từ trong cụm đưa vào, chỉ cho qua các cụm từ mà nó cho là có thể là một cụm từ Justeson and Katz[28] đưa ra các mẫu cho các cụm từ như vậy cho tiếng Anh Bảng 2-1 minh họa bộ nhãn sử dụng cho tiếng. .. của collocation trong văn bản Định nghĩa của Benson là một trong những định nghĩa hay được sử dụng nhất, tuy nhiên nó đã bỏ qua một số đặc trưng thuộc tính của collocation ứng dụng trong dịch máy như không thể dịch một collocation trong tiếng Anh sang tiếng Việt theo cách đơn thuần dịch từ tương ứng với từ Đã có khá nhiều nghiên cứu về collocation cho tiếng Anh được tiến hành, tuy nhiên không có định. .. được sử dụng trong công cụ Xtract[19] được Frank Smadja trình bày vào năm 1993 dựa chủ yếu trên nghiên cứu của Chouka, sử dụng các giả định thống kê dựa trên các đặc trưng của collocations kết hợp với sử dụng các thông tin về ngữ nghĩa Cụ thể hơn, chúng tôi sẽ trích chọn các collocations có quan hệ ngữ pháp giữa các từ thành phần, sẽ trích chọn các collocation có dạng n-gram xuất phát từ tập collocations... kinh_nghiệm” là các collocation thường gặp trong văn bản tiếng Việt; các cụm từ như “to buy short, to ease the jib” hoặc “tiêm vaccine, kiểm_thử phần_mềm”là các collocation đặc trưng cho các lĩnh vực chuyên môn Cả hai loại collocation đều được sử dụng lặp đi lặp lại trong các ngữ cảnh nhất định 1.2.2 Có tính cứng nhắc: Theo một nghĩa nào đó, nghĩa của một collocation mang tính thành ngữ, hay cố định Nghĩa... 2.4.2.2 Mô hình trích chọn bigrams cho bộ dữ liệu đã được gán nhãn Một số nghiên cứu cho tiếng Đức[15, 35] hay nghiên cứu cho tiếng Anh của Justeson Katz[28] đã khẳng định việc trích chọn các collocations theo các mẫu cho trước sẽ đem lại hiệu quả cao hơn Do đó, chúng tôi tiến hành thử nghiệm phương pháp này cho tiếng Việt, với các mẫu trích chọn có dạng: VN, VA, NA NN Trong đó N là danh từ, A là... KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT Vì những nghiên cứu về collocations cho tiếng Việt còn ở mức độ hạn chế cả về số lượng chất lượng, khái niệm về collocations còn ít nhiều xa lạ với nhiều người, ngay cả đối với những người làm nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên Chương đầu tiên của luận văn này làm nhiệm vụ giới thiệu khái quát về collocation liên hệ cho tiếng Việt, giúp... cho việc trích chọn bigram trong tiếng Việt, trong phạm vi luận văn này, chúng tôi cho window_size chạy từ 1 đến 5 5 file bigram được chiết xuất đều được dùng làm đầu vào cho các phương pháp được nêu ở chương 3 Thêm vào đó, qua thực nghiệm chúng tôi xác định được các từ được đưa ra trong điều kiện thứ 2 làm giảm đáng kể độ chính xác của chương trình trích chọn; do đó, chúng tôi quyết định loại bỏ các. .. Tính chất này của collocation thường được sử dụng bởi các nhà thực hành biên soạn từ điển khi sưu tập các collocations (Cowie[7]; Benson[2]) Các nhà thực hành biên soạn từ điển dựa vào ý niệm ngôn ngữ của người khác để quyết định cụm từ nào là collocation cụm từ nào không phải là collocation Họ thu thập thông tin dưới dạng bảng hỏi bao gồm các câu, mỗi câu đều bị lấy đi một từ Các từ khuyết có... chuẩn nào về collocation được đưa ra, định nghĩa về collocation phụ thuộc vào quan điểm mục đích sử dụng của mỗi người làm nghiên cứu Trong luận văn này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí quan hệ ngữ pháp tương đối cố định 1.2 ĐẶC TRƯNG Theo định nghĩa được nêu ra ở trên, một collocation . HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ. GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ. thiệu khái quát về collocation và liên hệ cho tiếng Việt, giúp người đọc hiểu hơn về collocations và sự cần thiết của việc xây dựng một hệ thống trích chọn collocations cho tiếng Việt. Cụ thể hơn,

Ngày đăng: 28/06/2014, 00:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan