1. Trang chủ
  2. » Luận Văn - Báo Cáo

Áp dụng học máy trong xử lý đồng tham chiếu danh từ trong văn bản tiếng việt

75 734 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 1,54 MB

Nội dung

 MỤC LỤC 1 DANH MỤC CÁC HÌNH VẼ 4 DANH MỤC CÁC BNG BIU 5 MỞ ĐẦU 6 1. Lý do chọn đề tài khóa luận 6 TỔNG QUAN VỀ ĐỒNG THAM CHIẾU DANH TỪ 9 CHƯƠNG 2 20 MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TRONG XỬ LÝ 20 ĐỒNG THAM CHIẾU DANH TỪ 20 CHƯƠNG 3 35 ÁP DỤNG PHƯƠNG PHÁP HỌC MÁY SVM TRONG XỬ LÝ 35 ĐỒNG THAM CHIẾU DANH TỪ TRONG VĂN BN TIẾNG VIỆT 35 KẾT LUẬN 73 TÀI LIỆU THAM KHO 75 1  2  !" #$%& Anaphora (danh từ) Từ đồng tham chiếu AR – Anaphora Resolution Xử lý đồng tham chiếu CC (Coordinating conjunction) Liên từ kết hợp (và, nhưng…) CRF (Conditional Random Fields) Là mô hình dựa trên xác suất điều kiện, thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ kí tự, ngôn ngữ tự nhiên. E (Preposition) Giới từ (ở, trên, dưới, ….) Factor Nhân tố, phần tử, thuộc tính HMM Mô hình Markov ẩn K – NN Thuật toán k láng giềng gần nhất Label bias Một vấn đề xảy ra được mô hình CRF giải quyết - sự chuyển trạng thái từ một trạng thái cho trước tới trạng thái tiếp theo chỉ xem xét xác suất dịch chuyển giữa chúng, chứ không xem xét các xác suất dịch chuyển khác trong mô hình. M (Numeral) Số, chữ số (Một, hai, ba…) MEMM Mô hình Markov cực đại hóa entropy Memory-Based Learner Bộ học dựa trên bộ nhớ N (Common noun) Danh từ thông dụng (họa sĩ, nhà, ) Nc (Classifier) Từ phân loại (cái, chiếc, ) Np (Proper noun) Danh từ riêng (HàNội, Hương, ) Np– anaphora Xử lý đồng tham chiếu danh từ One – anaphora Xử lý đồng tham chiếu số từ P (Pronoun) Đại từ (chị ấy, bà ta, .…) S – anaphora Đồng tham chiếu câu SVM (Support Vector Machine) Phương pháp máy vector hỗ trợ TiMBL (Nearest Neighbors algorithim) Học dựa bộ nhớ là kỹ thuật học máy có nguồn gốc từ phương pháp k – láng giềng gần nhất. V (Verb) Động từ (mua, bán, học, ) Vp – anaphora Xử lý đồng tham chiếu động từ 3 '( 4 )*+), 5 -./ 01234#5678&9:# Bài toán đồng tham chiếu danh từ trong văn bản là bài toán xác định các cụm danh từ trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu. Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for Computational Linguistics), IJCAI (International Joint Conference on Artifical intelligence) Vậy phương pháp nào là tối ưu và đem lại hiệu quả tốt? Ngày nay, việc ứng dụng công nghệ vào xử lý ngôn ngữ cũng hết sức phong phú. Chúng có thể giải quyết các bài toán như xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bản hoặc web (text and web mining), xử lý đồng tham chiếu trong văn bản Tất cả các bài toán đó đều đã được thực hiện bằng máy, tuy nhiên vấn đề đặt ra là làm thế nào để máy có thể xử lý một cách tự động lại là một bài toán khó. Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con người. Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, những câu hỏi thắc mắc rằng: phương pháp nào, cách nào mà máy có thể hiểu và xử lý được ngôn ngữ tự nhiên, đặc biệt là đối với một ngôn ngữ rất đa dạng và phong phú như tiếng Việt là lí do để em chọn đề tài “Áp dụng học máy trong xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt” làm đề tài khóa luận tốt nghiệp. Trong phạm vi khóa luận này em sẽ tìm hiểu về một số phương pháp học máy và chọn ra phương pháp phù hợp để cài đặt, giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt. 6 ;1<=8&9:# - Nghiên cứu, tìm hiểu bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt, các phương pháp tiếp cận để giải quyết bài toán. - Sử dụng một phương pháp tiếp cận phù hợp, áp dụng mô hình này vào xây dựng một chương trình chuyên biệt giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt. >1? <#$=#@ - Nghiên cứu các loại đồng tham chiếu trong tiếng Việt, đi sâu giải quyết đồng tham chiếu danh từ. - Đưa ra phương pháp tiếp cận phù hợp và chương trình cài đặt giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt. A1BCD#$EE#$=#@ • Phương pháp nghiên cứu tự luận: Đọc và nghiên cứu tài liệu, giáo trình có liên quan đến bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt. • Phương pháp tổng kết kinh nghiệm: Qua việc nghiên cứu, tham khảo tài liệu, giáo trình từ đó rút ra kinh nghiệm để áp dụng vào việc nghiên cứu. • Phương pháp lấy ý kiến chuyên gia: Lấy ý kiến của giảng viên trực tiếp hướng dẫn, các giảng viên khác để hoàn thiện về mặt nội dung và hình thức của khóa luận. F1.GCH#$ 7EI? #$=#@ • Đối tượng: - Cấu trúc ngữ pháp tiếng Việt. - Một số cách tiếp cận để giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt. 7 • Phạm vi: - Phương pháp học máy SVM. - Ngôn ngữ được nghiên cứu là văn bản tiếng Việt. J1#$%&3&4 Nghiên cứu các phương pháp học máy và các giải thuật thường sử dụng trong học máy. Đã sử dụng thành công phương pháp học máy vector hỗ trợ (SVM) vào bài toán phân giải đồng tham chiếu danh từ trong văn bản tiếng Việt. Học máy là phương pháp học tốn ít thời gian và đảm bảo tối đa hiệu quả công việc. Phương pháp này có ứng dụng rất cao trong việc trích xuất dữ liệu, phân loại văn bản, nhận dạng ngôn ngữ văn bản, nhận dạng tiếng nói và chữ viết, dịch tự động… Đây là kỹ thuật chưa được nghiên cứu phổ biến ở Việt Nam điều đó mở ra hướng nghiên cứu, ứng dụng mới trong tương lai. Đây còn là tài liệu tham khảo cho những ai quan tâm đến đề tài này. K1)G<567 Ngoài phần mở đầu, kết luận, tài liệu tham khảo, khóa luận được chia thành các chương như sau: CD#$0LM#$N&# 65O#$&?!2&#1 CD#$;LPQGECD#$EE4?RS3#$TU95O#$&? !2&#1 CD#$>LE2<#$ECD#$EE4?RVS3#$TU95O#$ &?!2&#S3#$ W#XY#!#$1 8 Z[+0 \+]^._+` 0101M#$N&# 6a#a##$=#@5O#$&?! - Ngoài nước: Vấn đề xử lý đồng tham chiếu đã được đề cập và nghiên cứu khá lâu. Nhiều cách tiếp cận khác nhau bởi nhiều tác giả đã được thực hiện trên nhiệm vụ xử lý đồng tham chiếu. Hơn nữa nhiều công việc đã được tập trung vào sử dụng học máy trong những năm gần đây. + Hobbs (1978): Cách tiếp cận dựa cú pháp mô tả bởi Hobbs dựa trên một tập quy tắc khá phức tạp để nghiên cứu kỹ lưỡng cú pháp của văn bản. Hệ thống của Hobbs tìm kiếm tiền ngữ trong cây phân tích cú pháp. + Lappin và Leass (1994): Cách tiếp cận dựa trên yếu tố/chỉ số đề ra bởi Lappin và Leass sử dụng một tập các yếu tố nổi bật (salience factors) để xác định tiền ngữ phù hợp nhất cho một từ thay thế cho trước. Một số yếu tố nổi bật được gán cho tiền ngữ tiềm năng: độ gần câu, nhấn mạnh chủ thể, đối tượng, nhấn mạnh sự tồn tại, danh từ đầu. + Cách tiếp cận thống kê hay học máy dựa trên tài liệu huấn luyện. Phương pháp này có thể được chia thành phương pháp giám sát và không giám sát tuỳ thuộc vào loại tài liệu huấn luyện mà chúng sử dụng. Phương pháp giám sát yêu cầu tài liệu huấn luyện đã được chú thích thông tin về các loại danh mục mà hệ thống xử lý trong khi điều này không cần thiết cho các phương pháp không giám sát. - Trong nước: Trong những năm gần đây, hệ thống xử lý đồng tham chiếu đã nhận được sự quan tâm của các nhà nghiên cứu về xử lý ngôn ngữ tự nhiên. Các giảng viên và sinh viên ở các trường Đại học như: Đại học Bách Khoa, Đại học Công nghệ… đang có những nghiên cứu về các hiện tượng 9 đồng tham chiếu xảy ra trong tiếng Việt, về các cách tiếp cận khác nhau để giải quyết đồng tham chiếu. Các nghiên cứu đang hướng tới sử dụng các phương pháp học máy khác nhau như: SVM, CRF, TiMBL,…Mỗi phương pháp có đặc thù riêng và việc đánh giá độ chính xác, tin cậy, hiệu suất cũng khác nhau.Tuy nhiên các nghiên cứu cho tiếng Việt vẫn còn rất nhiều hạn chế. 01;1#?5O#$&?! 1.2.1. Khái niệm Trong các bài toán liên quan tới xử lý ngôn ngữ tự nhiên trong văn bản thì việc xác định quan hệ đồng tham chiếu là một vấn đề quan trọng. Quan hệ đồng tham chiếu thể hiện tính liên kết giữa hai cụm từ trong văn bản nói riêng và giữa các câu chứa các cụm từ đó nói chung. Nếu xác định được sự liên kết này sẽ làm tăng chất lượng trích xuất thông tin tri thức từ tập văn bản.Vì vậy, chúng ta cần hiểu chính xác thế nào là đồng tham chiếu, để từ đó phát hiện và xử lý các hiện tượng đó một cách hiệu quả. Quan hệ đồng tham chiếu là một quan hệ ngữ nghĩa đặc biệt, có rất nhiều định nghĩa về quan hệ đồng tham chiếu đã được đưa ra. Theo Véronique Hoste định nghĩa về quan hệ đồng tham chiếu như sau: “Quan hệ đồng tham chiếu là quan hệ giữa hai hay nhiều cụm từ mà cùng chỉ tới một thực thể xác định trong thế giới thực.” Ví dụ: Hồ Hoài Anh là một giảng viên trường thanh nhạc. Anh ấy còn là một ca sĩ nổi tiếng. Trong ví dụ trên, đại từ “Anh ấy” và danh từ tên riêng “Hồ Hoài Anh” có quan hệ đồng tham chiếu vì cùng chỉ về một thực thể người có tên là “Hồ Hoài Anh”. Một cách định nghĩa khác về hiện tượng đồng tham chiếu như sau: Hiện tượng đồng tham chiếu là hiện tượng sử dụng một từ hay một cụm từ để thay thế cho một từ, một cụm từ, một phần câu đã được nhắc đến trước đó. 10 [...]... file:///D:/KHOA%20LUAN/K47_Nguyen_Trung_Kien_Thesis.pdf 34 CHƯƠNG 3 ÁP DỤNG PHƯƠNG PHÁP HỌC MÁY SVM TRONG XỬ LÝ ĐỒNG THAM CHIẾU DANH TỪ TRONG VĂN BẢN TIẾNG VIỆT Các chương trước đã đề cập đến các khái niệm liên quan đến bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt Các cách tiếp cận để xử lý đồng tham chiếu danh từ Trong chương này, sẽ trình bày mô hình cụ thể về bài toán đồng tham chiếu danh từ và lựa chọn phương pháp học máy SVM để giải... “Hạnh”, xong máy tính có thể hiểu là “Cô ấy” là từ thay thế cho Hoàng Từ hai ví dụ trên cho thấy: Đồng tham chiếu danh từ trong tiếng Việt rất đa dạng và khá phức tạp Đây là một dạng đồng tham chiếu cần được đi sâu nghiên cứu và xử lý 1.5 Cách tiếp cận để xử lý đồng tham chiếu danh từ 1.5.1 Xử lý đồng tham chiếu Quá trình xử lý đồng tham chiếu thường theo ba bước: Bước 1: Nhận diện các từ thay thế 15... hệ đồng tham chiếu • Nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một nhóm Mô hình giải quyết bài toán đồng tham chiếu, cụ thể là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt chia làm hai phần 21 chính: phần xây dựng bộ dữ liệu học và phần áp dụng mô hình học máy để xác định các nhóm đồng tham chiếu 2.1.2 Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn. .. hình hóa bài toán đồng tham chiếu danh từ 3.1.1 Phát biểu bài toán Tổng quát bài toán xử lý hiện tượng đồng tham chiếu danh từ trong văn bản tiếng Việt gồm các bước chính được miêu tả trong hình vẽ dưới đây: Input: văn bản tiếng Việt Qúa trình tách từ và gán nhãn từ loại Quá trình hậu xử lý tách từ Qúa trình pháthiện Np-anaphora Output: đoạn văn chứa câu đã hoàn thành xử lý Qúa trình xử lý hiện tượng Np-anphora... một danh từ đứng trước nó Xét ví dụ một câu hội thoại sau: - Anh định đặt mua năm chiếc Nokia Lumia 525 ạ? - Không, chỉ ba chiếc thôi 14 Ở đây số từ “ba” đã được dùng để thay thế cho từ “Nokia Lumia 525” 1.4 Đồng tham chiếu danh từ (Np-anaphora) Cũng như hiện tượng đồng tham chiếu nói chung, đồng tham chiếu danh từ là một trường hợp của hiện tượng đồng tham chiếu trong văn bản tiếng Việt Trong đồng tham. .. SVM Dưới đây là mô hình dữ liệu học: 22 Hình 2.1: Mô hình dữ liệu học 2.1.2.2 Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản tiếng Việt Từ ý tưởng của phương pháp học máy SVM, ta sẽ thiết lập được một mô hình trích chọn quan hệ đồng tham chiếu trong văn bản trong tiếng Việt bao gồm ba pha chính: pha tiền xử lý có vai trò nhận dạng và sinh tập các cụm từ tiềm năng, pha sinh vector đặc... đáng kể Trong việc xác định tiền ngữ đồng tham chiếu, việc sử dụng kết hợp một số yếu tố xử lý đồng tham chiếu với nhau sẽ cho độ tin cậy lớn hơn 19 CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TRONG XỬ LÝ ĐỒNG THAM CHIẾU DANH TỪ 2.1 Phương pháp máy vector hỗ trợ (SVM) 2.1.1 Định nghĩa và cơ sở của phương pháp SVM Phương pháp máy vector hỗ trợ SVM ra đời từ lý thuyết học thống kê do Vapnik và Chervonekis xây... thể tên, danh từ, đại từ kí hiệu là NPi thì các nhóm cụm từ đồng tham chiếu được kí hiệu là {NPi} Trong mỗi nhóm, mỗi cặp NPi đều là đồng tham chiếu của nhau Vì lý do này, bài toán bây giờ trở thành: tìm tất cả các cặp cụm từ tiềm năng có quan hệ đồng tham chiếu của nhau trong văn bản tiếng Việt Tuy nhiên, vấn đề quan trọng nhất vẫn là việc xác định tính chất đồng tham chiếu của một 20 cặp cụm từ tiềm... cụm từ tiềm năng và sinh tập các vector đặc trưng tương ứng, pha nhận dạng dựa trên bộ phân lớp SVM được học để xác định các cặp cụm từ đồng tham chiếu và gom nhóm chúng lại với nhau.Làm theo các bước đó ta có một mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt như sau: Hình 2.2: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt với mô hình SVM 23 a Pha tiền xử lý: ... sở bao gồm: danh từ riêng, cụm danh từ thuần túy, đại từ Trong đó các danh từ riêng đóng vai trò quan trọng trong mối quan hệ đồng tham chiếu Nó là nền tảng để xác định các cụm đồng tham chiếu trong văn bản a Danh từ riêng Gồm các tên và thực thể tên như: Tên người, tên tổ chức, tên địa danh Ví dụ: • Tên riêng: Hồ Chí Minh, Trường Chinh, Võ Nguyên Giáp… • Tên tổ chức: WTO, WHO… • Tên địa danh: Hà Nội, . tượng đồng tham chiếu trong văn bản tiếng Việt. Trong đồng tham chiếu danh từ, thì từ thay thế được dùng để thay thế cho một danh từ, hay một cụm danh từ đã được nhắc đến trước đó. Trong tiếng Việt, . bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt. 6 ;1<=8&9:# - Nghiên cứu, tìm hiểu bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt, các phương pháp tiếp. TRONG XỬ LÝ 20 ĐỒNG THAM CHIẾU DANH TỪ 20 CHƯƠNG 3 35 ÁP DỤNG PHƯƠNG PHÁP HỌC MÁY SVM TRONG XỬ LÝ 35 ĐỒNG THAM CHIẾU DANH TỪ TRONG VĂN BN TIẾNG VIỆT 35 KẾT LUẬN 73 TÀI LIỆU THAM KHO 75 1  2 

Ngày đăng: 20/12/2014, 21:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Lê Trung Hoa (2005), Họ và tên người Việt Nam, Nhà xuất bản Khoa học Xã hội Sách, tạp chí
Tiêu đề: Họ và tên người Việt Nam
Tác giả: Lê Trung Hoa
Nhà XB: Nhà xuất bảnKhoa học Xã hội
Năm: 2005
[2]. Lê Thanh Hương (10/2007), Một cách tiếp cận trong việc tự động sinh các biểu diễn tương đương của đoạn văn bản, Tạp chí Bưu chính viễn thông và Công nghệ thông tin Sách, tạp chí
Tiêu đề: Một cách tiếp cận trong việc tự độngsinh các biểu diễn tương đương của đoạn văn bản
[3]. Hà Quang Thụy (chủ biên), Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.Tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình khai phádữ liệu Web", Nhà xuất bản giáo dục Việt Nam
Tác giả: Hà Quang Thụy (chủ biên), Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú
Nhà XB: Nhà xuất bản giáo dục Việt Nam."Tiếng Anh
Năm: 2009
[4]. C. Cardie, K. Wagstaff (EMNLP 1999), Noun Phrase Coreference as Clustering, Empirical Methods in Natural Language Processing Conference Sách, tạp chí
Tiêu đề: Noun Phrase Coreferenceas Clustering
[5]. Z Dzunic, S Momcilovic, B Todorovic (2006), Coreference Resolution Using Decision Tree, Neural Network Applications in Electrical Engineering Sách, tạp chí
Tiêu đề: CoreferenceResolution Using Decision Tree
Tác giả: Z Dzunic, S Momcilovic, B Todorovic
Năm: 2006
[6]. Pascal Denis, Jason Baldridge (IJCAI 2007): A ranking approach to pronoun resolution. Proceedings of the 20th International Joint Conference on Artifical intelligence Sách, tạp chí
Tiêu đề: A ranking approachto pronoun resolution

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w