LUẬN VĂN: TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG TIẾNG VIỆT pdf

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	43
Dung lượng	0,97 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thu Thùy TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thu Thùy TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành HÀ NỘI – 2009 i Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn Trí Thành, những người đã tận tình hướng dẫn em trong suốt quá trình thực hiện khóa luận này. Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong bốn năm học qua, đã cho em những kiến thức quý báu để em có thể vững bước trên con đường đi của mình. Tôi xin gửi lời cảm ơn sâu sắc tới các bạn trong lớp K50 CA đã ủng hộ và khuyến khích tôi trong suốt quá trình học tập tại trường. Và lời cuối cùng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ và em trai tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt qua những khó khăn trong học tập cũng như trong cuộc sống. Xin chân thành cảm ơn! Sinh Viên Lê Thu Thùy ii Tóm tắt Trích chọn các loại thực thể nói chung, cũng như trích chọn tên người nói riêng là một bước cơ bản trong trích chọn thông tin từ văn bản và xử lý ngôn ngữ tự nhiên. Nó được ứng dụng nhiều trong dịch tự động, tóm tắt văn bản, hiểu ngôn ngữ tự nhiên, nhận biết tên thực thể trong sinh/y học và đặc biệt ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ môi trường Web vào các ontology ngữ nghĩa và các cơ sở tri thức. Trong khóa luận này, em trình bày một giải pháp trích chọn thực thể tên người cho các văn bản tiếng Việt trên môi trường Web. Sau khi xem xét các hướng tiếp cận khác nhau, em đã lựa chọn phương pháp dựa trên giải thuật mở rộng quan hệ mẫu đối ngẫu lặp lại (Dual Interative Pattern Relation Expansion - DIPRE) [17] mà Brin đã đề xuất. Đây là phương pháp sử dụng học bán giám sát (semi-supervised), dựa trên các ngữ cảnh (occurrences) xung quanh các thực thể để trích chọn quan hệ mẫu, từ đó đưa ra được danh sách các thực thể cần nhận biết. iii Mục lục Lời cảm ơn i Tóm tắt ii Mục lục iii Bảng từ viết tắt v Danh sách hình vẽ vi Mở đầu 1 Chương 1. Bài toán trích chọn 3 thực thể tên người 3 1.1. Trích chọn thông tin 3 1.2. Tổng quan về bài toán trích chọn thực thể tên 4 1.3. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường web 5 1.4. Ý nghĩa của bài toán trích chọn thực thể tên người 7 Chương 2. Các hướng tiếp cận trong trích chọn thông tin 9 2.1. Phương pháp dựa trên học máy 9 2.1.1. Mô hình Markov ẩn (HMM) 9 2.1.1.1. Tổng quan về HMM 9 2.1.1.2. Hạn chế của mô hình HMM 11 2.1.2. Mô hình Markov cực đại hóa Entropy (MEMM) 11 2.1.2.1. Tổng quan về mô hình MEMM 11 2.1.2.2. Vấn đề Label Bias 12 2.1.3. Mô hình trường điều kiện ngẫu nhiên (CRF) 13 2.1.3.1. Tổng quan về mô hình CRF 13 2.1.3.2. Hàm tiềm năng của mô hình CRF 14 2.2. Phương pháp tiếp cận dựa trên hệ luật 16 2.2.1 Tổng quan về tiếp cận dựa trên hệ luật 16 2.2.2 Giải thuật DIPRE 16 2.2.1.1. Tổng quan về học bán giám sát 16 2.2.1.2. Giải thuật DIPRE 18 2.3 Tổng kết chương 21 Chương 3. Hệ thống trích chọn tên người trong văn bản tiếng Việt trên môi trường Web 22 3.1 Hướng giải quyết bài toán 22 3.2 Thực nghiệm 27 3.2.1. Môi trường thực hiện 27 3.2.2 Thu thập dữ liệu 27 3.3. Khảo sát và xây dựng thủ công các tập dữ liệu từ điển ban đầu 27 3.3.1. Tập dữ liệu từ điển ban đầu và tập mẫu 27 3.3.2. Giới hạn vòng lặp 29 3.4 Đánh giá hệ thống nhận dạng thực thể 29 3.4.1. Kết quả 30 3.4.2. Đánh giá 31 iv Kết luận 32 Tài liệu tham khảo 34 v Bảng từ viết tắt Từ hoặc cụm từ Viết tắt Condition Random Field CRF Dual Interative Pattern Relation Expansion DIPRE Hidden Markov Model HMM Maximum Entropy Markov Model MEMM Name Entity Recognition NER vi Danh sách hình vẽ 1 Mở đầu Trích chọn thực thể tên (Name Entity Extraction), đặc biệt là trích chọn tên người ngày càng trở nên quan trọng hơn đối với sự phát triển ngày càng cao các ứng dụng của xử lý ngôn ngữ tự nhiên. Tuy nhiên, việc trích chọn tên người cũng như sử dụng chúng một cách triệt để vẫn là một vấn đề không hề đơn giản. Thừa nhận rằng, một trong những cách tốt nhất để xác định tên người là sử dụng thông tin ngữ cảnh xuất hiện xung quanh tên người. Do đó, vấn đề chính sẽ là làm thế nào để tìm ra các ngữ cảnh mà tại đó, tên người xuất hiện. Các phương pháp có thể là thủ công, sử dụng hệ luật (rule-based) hay tự động… Hiện nay, hầu hết các hệ thống nhận dạng tên thực thể đều dựa vào một tập nhỏ các loại thực thể tên thông thường. Mặc dù đã có một vài đề xuất được đưa ra nhằm mở rộng các cấp của các loại thực thể tên nhưng nó vẫn cố định một số lượng nhất định các loại thực thể tên. Vấn đề áp dụng bài toán trích chọn các loại thực thể cho các miền dữ liệu có tính chất đặc trưng riêng khác với những dữ liệu bình thường, điều này rất đáng được quan tâm. Trong khi đó, với những ứng dụng quan trọng trong web ngữ nghĩa, hay trong hệ thống hỏi đáp tự động, …thì các miền dữ liệu tên người cũng là một trong những miền dữ liệu được nhắc tới nhiều nhất. Ý thức được những lợi ích mà các bài toán trích chọn thực thể nói chung và trích chọn tên người nói riêng, em đã chọn hướng nghiên cứu nhằm giải quyết bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường Web làm đề tài luận văn của mình. Luận văn được tổ chức thành các chương như sau: Chương 1 giới thiệu tổng quan về bài toán trích chọn thông tin, bài toán trích chọn thực thể tên người cho văn bản tiếng Việt trên môi trường Web cùng những ứng dụng thực tế của nó. Chương 2 trình bày một số hướng tiếp cận nhằm giải quyết bài toán trích chọn thực thể như phương pháp dựa trên hệ luật, phương pháp học máy như HMM, MEMM, CRF. Đối với phương pháo dựa trên hệ luật, khóa luận sẽ giới thiệu về một số hệ thống liên quan tới trích chọn thực thể. Cụ thể đó chính là giải thuật DIPRE [17], một giải thuật được đề xuất bởi Brin, sử dụng tập dữ liệu ban đầu (seed) để tìm ra các 2 mẫu (patterns). Phương pháp này đều đã có những kết quả thực nghiệm hết sức khả quan. Chương 3 trình bày hệ thống trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường Web dựa trên giải thuật DIPRE (Dual Interative Pattern Relation Expansion)[17] mà Brin (1998) đã đề xuất kết hợp với một số luật mang những đặc điểm cơ bản của tên người trong tiếng Việt và đưa ra một số kết quả thực nghiệm. [...]... thể tên người có thể đóng vai trò là một thành phần cơ bản cho các bài toán trích chọn thông tin phức tạp hơn, phụ thuộc vào mục đích sử dụng của con người  Trước khi đọc một tài liệu, người dùng có thể đọc lướt qua các tên người mà họ quan tâm Hệ thống trích chọn thực thể tên người cho tiếng Việt cũng sẽ làm tiền đề cho việc giải quyết các bài toán về trích chọn thông tin từ các tài liệu tiếng Việt. .. đầu Từ điển Họ Trích chọn tên người Trích chọn tên người với mẫu mới Ứng cử Tên người Kho văn bản Lọc Tập mẫu mới Tên người Sinh ứng cử mẫu và lọc ra các mẫu tốt Hình 6: Mô hình trích chọn tên người Giải thích mô hình: 1 Bắt đầu từ một tập luật mẫu ban đầu, dựa vào 2 từ điển chức danh (ví dụ: ông, giáo sư,…) hệ thống sẽ trích chọn ra tập các ứng cử cho tên người 3 Từ tập ứng cử tên người, thủ tục lọc... hệ giữa các thực thể để thực hiện trích rút thì ta phải nhận biết được thực thể cần trích chọn Việc trích chọn thực thể tên người đòi hỏi phải nhận biết được các thành phần cơ bản và đặc trưng của dữ liệu tên người, ví dụ như các chức danh luôn đi kèm với tên người trong văn bản: ông, bà, học sinh, anh, chị, thầy giáo, cô giáo, giám đốc, tổng giám đốc, …dựa vào sự xuất hiện của các thực thể, thuật toán... đề đặt ra đối với thực thể tên người trong tiếng Việt cũng như việc tìm kiếm để sinh ra các mẫu khác nhau Cụ thể về cách giải quyết bài toán sẽ được trình bày chi tiết ở chương 3 1.4 Ý nghĩa của bài toán trích chọn thực thể tên người Trích chọn thông tin luôn là bước đi đầu tiên của nhiều ứng dụng thực tế và việc trích chọn, nhận biết tên người cũng tương tự như vậy Tên người là một thành phần chủ... chương 2 1.3 Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường web Các thực thể đóng vai trò quan trọng rất nhiều trong ứng dụng xử lý ngôn ngữ tự nhiên Hiện nay, hầu hết các hệ thống nhận dạng thực thể tên đều dựa vào một tập nhỏ các loại thực thể tên thông thường Mặc dù đã có một vài đề xuất được đưa ra nhằm mở rộng các cấp của các loại thực thể tên nhưng nó vẫn cố định... khóa luận nhằm đưa ra một phương pháp trích chọn thực thể tên người từ văn bản tiếng Việt trên môi trường Web Thực thể tên người luôn song hành, gắn bó với cuộc sống của mỗi con người từng giờ, từng phút, đóng một vai trò quan trọng đối với mỗi cá nhân Nó không chỉ có 5 chức năng phân biệt người này với người khác mà còn có chức năng thẩm mỹ nên đối với người Việt Nam, tên người cũng thường được chọn. ..Chương 1 Bài toán trích chọn thực thể tên người Chủ đề chính của khóa luận là áp dụng phương pháp dựa trên hệ luật (rule-based) kết hợp với giải thuật DIPRE (Dual Interative Pattern Relation Expansion)[17] do Brin đề xuất Chương này sẽ giới thiệu tổng quan về trích chọn thông tin, về bài toán trích chọn thực thể nói chung, chi tiết về bài toán trích chọn thực thể tên người nói riêng cũng như... khóa luận này hướng tới phương pháp trích chọn thực thể tên người mà không sử dụng bất cứ công cụ nào đối với việc tiền xử lý dữ liệu Đặc biệt, toàn bộ hệ thống sẽ xử lý trên dữ liệu thô Để có thể làm được việc đó, hướng tiếp cận mà khóa luận này muốn hướng tới là dựa theo giải thuật DIPRE [17] mà Brin đã đề ra để thực hiện mở rộng quan hệ mẫu, từ đó trích chọn ra thực thể tên người trong tiếng Việt. .. ở chương 1, việc trích chọn thực thể tên người đòi hỏi phải nhận biết được các thành phần cơ bản và đặc trưng của dữ liệu tên người Đối với người Việt Nam, tên người có một số đặc trưng cơ bản nhất như là các chức danh luôn đi kèm với tên người trong văn bản: ông, bà, học sinh, anh, chị, thầy giáo, cô giáo, giám đốc, tổng giám đốc, …Dựa theo giải thuật DIPRE, để trích chọn được tên người, ta phải dựa... như ứng dụng, ý nghĩa của bài toán trích chọn thực thể tên người 1.1 Trích chọn thông tin Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu văn bản, thực hiện việc trích rút các thông tin có cấu trúc từ các văn bản không có cấu trúc Cụ thể hơn, một hệ thống trích chọn thông tin sẽ trích ra những thông tin đã được định nghĩa trước về các thực thể và mối quan hệ giữa chúng từ một . toán trích chọn 3 thực thể tên người 3 1.1. Trích chọn thông tin 3 1.2. Tổng quan về bài toán trích chọn thực thể tên 4 1.3. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt. các bài toán trích chọn thực thể nói chung và trích chọn tên người nói riêng, em đã chọn hướng nghiên cứu nhằm giải quyết bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi. về trích chọn thông tin, về bài toán trích chọn thực thể nói chung, chi tiết về bài toán trích chọn thực thể tên người nói riêng cũng như ứng dụng, ý nghĩa của bài toán trích chọn thực thể tên

Ngày đăng: 27/06/2014, 22:20

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[20] William Cohen. Integration of heterogeneous databases without common domains using queries based on textual similarity. In Proceedings of the 1998 ACM International Conference on Management of Data (SIGMOD’98), 1998

Sách, tạp chí

Tiêu đề:	Proceedings of the 1998 ACM International Conference on Management of Data (SIGMOD’98)

[5] Website tiếng Việt nói về xử lý ngôn ngữ tự nhiên: http://xulyngonngu.com/ Tài liệu tham khảo tiếng Anh

Link

[1] Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến. Cơ sở ngôn ngữ học và tiếng Việt. Nxb Giáo dục, H., 1997, trang 142–152

Khác

[2] Nguy ễn Việt Cường. Bài toán lọc và phân lớp nội dung Web tiếng Việt với hướng tiếp cận Entropy cực đại. Luận văn tốt nghiệp ĐHCN 2005

Khác

[3] Trần Thị Oanh. Thuật toán Self-Training và Co-Training ứng dụng trong phân lớp văn bản. Luận văn tốt nghiệp ĐHCN năm 2006

Khác

[4] Nguy ễn Cẩm Tú. Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể. Luận văn tốt nghiệp ĐHCN 2005

Khác

[6] A. McCallum, D. Freitag, and F. Pereia. Maximum entropy markov models for information extraction and segmentation. In Proc. Interational Conference on Machine Learning, 2000

Khác

[7] Adam Berger. The Improved Iterative Scaling Algorithm: A gentle Introduction. School of Computer Science, Carnegie Mellon University [8] Andrew McCallum. Efficiently Inducing Features of Conditional RandomFields. Computer Science Department. University of Massachusetts

Khác

[11] Hana Wallach. Efficient Training of Conditional Random Fields. M.Sc. thesis, Division of Informatics, University of Edinburgh, 2002

Khác

[12] J. Lafferty, A. McCallum, and F. Pereia. Conditional ramdom fields: probabilistic models for segmenting and labeling sequence data. In International Conference on Machine Learning, 2001

Khác

[13] Ralph Grishman. Information extraction: Techniques and challenges. In Information Extraction (International Summer School SCIE-97). Springer- verlag, 1997

Khác

[14] Ronald Schoenberg. Optimization with the Quasi-Newton Method, September 5, 2001

Khác

[15] Cvetana Krstev, Du_sko Vitas and Sandra Gucul. Recognition of Personal Names in Serbian Texts. Faculty of Philology, University of Belgrade , Studentski trg 3, Faculty of Mathematics, University of Belgrade, Studentski trg 16, Belgrade, Serbia & Montenegro

Khác

[16] Feng Zhang, Liu Wenyin, Zheng Chen. A New Statistical Approach to Personal Name Extraction

Khác

[17] Serey Brin Extracting Patterns and Relation from World – Wide –Web. In Proceedings of the 1998 International Work-shop in the Web and Databased, March

Khác

[18] Sunita Sarawagi, William W. Cohen. Semi-Markov Conditional Random Fields for Information Extraction

Khác

[19] Trausti Kristjansson, Aron Cullota, Paul viola, Adrew McCallum. Interactive Information Extraction with Constrained Conditionial Random Fields

Khác

[21] Yi-Feng Lin, Tzong-Han Tsai, Wen-Chi Chou, Kuen-Pin Wu, Ting-Yi Sung and Wen-Lian Hs. A Maximum Entropy Approach to Biomedical Named Entity Recognition. Institute of Information Science, Academia Sinica, 2004

Khác

[22] Ying Yu, Xiao-Long Wang, Yi Guan. Information Extraction for Chinese Free Based Pattern Match Combine with Heuristic Information. School of Computer Science and Technology, Harbin Institude of Technology, Harbin150006, China

Khác

Xem thêm