Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
0,97 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thu Thùy TRÍCHCHỌNTHỰCTHỂTÊNNGƯỜITRONGTIẾNGVIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thu Thùy TRÍCHCHỌNTHỰCTHỂTÊNNGƯỜITRONGTIẾNGVIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành HÀ NỘI – 2009 i Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn Trí Thành, những người đã tận tình hướng dẫn em trong suốt quá trình thực hiện khóa luận này. Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong bốn năm học qua, đã cho em những kiến thức quý báu để em có thể vững bước trên con đường đi của mình. Tôi xin gửi lời cảm ơn sâu sắc tới các bạn trong lớp K50 CA đã ủng hộ và khuyến khích tôi trong suốt quá trình học tập tại trường. Và lời cuối cùng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ và em trai tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt qua những khó khăn trong học tập cũng như trong cuộc sống. Xin chân thành cảm ơn! Sinh Viên Lê Thu Thùy ii Tóm tắt Tríchchọn các loại thựcthể nói chung, cũng như tríchchọntênngười nói riêng là một bước cơ bản trongtríchchọn thông tin từ văn bản và xử lý ngôn ngữ tự nhiên. Nó được ứng dụng nhiều trong dịch tự động, tóm tắt văn bản, hiểu ngôn ngữ tự nhiên, nhận biết tênthựcthểtrong sinh/y học và đặc biệt ứng dụng trong việc tích hợp tự động các đối tượng, thựcthể từ môi trường Web vào các ontology ngữ nghĩa và các cơ sở tri thức. Trong khóa luận này, em trình bày một giải pháp tríchchọnthựcthểtênngười cho các văn bản tiếngViệt trên môi trường Web. Sau khi xem xét các hướng tiếp cận khác nhau, em đã lựa chọn phương pháp dựa trên giải thuật mở rộng quan hệ mẫu đối ngẫu lặp lại (Dual Interative Pattern Relation Expansion - DIPRE) [17] mà Brin đã đề xuất. Đây là phương pháp sử dụng học bán giám sát (semi-supervised), dựa trên các ngữ cảnh (occurrences) xung quanh các thựcthể để tríchchọn quan hệ mẫu, từ đó đưa ra được danh sách các thựcthể cần nhận biết. iii Mục lục Lời cảm ơn i Tóm tắt ii Mục lục iii Bảng từ viết tắt v Danh sách hình vẽ vi Mở đầu 1 Chương 1. Bài toán tríchchọn 3 thựcthểtênngười 3 1.1. Tríchchọn thông tin 3 1.2. Tổng quan về bài toán tríchchọnthựcthểtên 4 1.3. Bài toán tríchchọnthựcthểtênngườitrong văn bản tiếngViệt trên môi trường web 5 1.4. Ý nghĩa của bài toán tríchchọnthựcthểtênngười 7 Chương 2. Các hướng tiếp cận trongtríchchọn thông tin 9 2.1. Phương pháp dựa trên học máy 9 2.1.1. Mô hình Markov ẩn (HMM) 9 2.1.1.1. Tổng quan về HMM 9 2.1.1.2. Hạn chế của mô hình HMM 11 2.1.2. Mô hình Markov cực đại hóa Entropy (MEMM) 11 2.1.2.1. Tổng quan về mô hình MEMM 11 2.1.2.2. Vấn đề Label Bias 12 2.1.3. Mô hình trường điều kiện ngẫu nhiên (CRF) 13 2.1.3.1. Tổng quan về mô hình CRF 13 2.1.3.2. Hàm tiềm năng của mô hình CRF 14 2.2. Phương pháp tiếp cận dựa trên hệ luật 16 2.2.1 Tổng quan về tiếp cận dựa trên hệ luật 16 2.2.2 Giải thuật DIPRE 16 2.2.1.1. Tổng quan về học bán giám sát 16 2.2.1.2. Giải thuật DIPRE 18 2.3 Tổng kết chương 21 Chương 3. Hệ thống tríchchọntênngườitrong văn bản tiếngViệt trên môi trường Web 22 3.1 Hướng giải quyết bài toán 22 3.2 Thực nghiệm 27 3.2.1. Môi trường thực hiện 27 3.2.2 Thu thập dữ liệu 27 3.3. Khảo sát và xây dựng thủ công các tập dữ liệu từ điển ban đầu 27 3.3.1. Tập dữ liệu từ điển ban đầu và tập mẫu 27 3.3.2. Giới hạn vòng lặp 29 3.4 Đánh giá hệ thống nhận dạng thựcthể 29 3.4.1. Kết quả 30 3.4.2. Đánh giá 31 iv Kết luận 32 Tài liệu tham khảo 34 v Bảng từ viết tắt Từ hoặc cụm từ Viết tắt Condition Random Field CRF Dual Interative Pattern Relation Expansion DIPRE Hidden Markov Model HMM Maximum Entropy Markov Model MEMM Name Entity Recognition NER vi Danh sách hình vẽ 1 Mở đầu Tríchchọnthựcthểtên (Name Entity Extraction), đặc biệt là tríchchọntênngười ngày càng trở nên quan trọng hơn đối với sự phát triển ngày càng cao các ứng dụng của xử lý ngôn ngữ tự nhiên. Tuy nhiên, việc tríchchọntênngười cũng như sử dụng chúng một cách triệt để vẫn là một vấn đề không hề đơn giản. Thừa nhận rằng, một trong những cách tốt nhất để xác định tênngười là sử dụng thông tin ngữ cảnh xuất hiện xung quanh tên người. Do đó, vấn đề chính sẽ là làm thế nào để tìm ra các ngữ cảnh mà tại đó, tênngười xuất hiện. Các phương pháp có thể là thủ công, sử dụng hệ luật (rule-based) hay tự động… Hiện nay, hầu hết các hệ thống nhận dạng tênthựcthể đều dựa vào một tập nhỏ các loại thựcthểtên thông thường. Mặc dù đã có một vài đề xuất được đưa ra nhằm mở rộng các cấp của các loại thựcthểtên nhưng nó vẫn cố định một số lượng nhất định các loại thựcthể tên. Vấn đề áp dụng bài toán tríchchọn các loại thựcthể cho các miền dữ liệu có tính chất đặc trưng riêng khác với những dữ liệu bình thường, điều này rất đáng được quan tâm. Trong khi đó, với những ứng dụng quan trọngtrong web ngữ nghĩa, hay trong hệ thống hỏi đáp tự động, …thì các miền dữ liệu tênngười cũng là một trong những miền dữ liệu được nhắc tới nhiều nhất. Ý thức được những lợi ích mà các bài toán tríchchọnthựcthể nói chung và tríchchọntênngười nói riêng, em đã chọn hướng nghiên cứu nhằm giải quyết bài toán tríchchọnthựcthểtênngườitrong văn bản tiếngViệt trên môi trường Web làm đề tài luận văn của mình. Luận văn được tổ chức thành các chương như sau: Chương 1 giới thiệu tổng quan về bài toán tríchchọn thông tin, bài toán tríchchọnthựcthểtênngười cho văn bản tiếngViệt trên môi trường Web cùng những ứng dụng thực tế của nó. Chương 2 trình bày một số hướng tiếp cận nhằm giải quyết bài toán tríchchọnthựcthể như phương pháp dựa trên hệ luật, phương pháp học máy như HMM, MEMM, CRF. Đối với phương pháo dựa trên hệ luật, khóa luận sẽ giới thiệu về một số hệ thống liên quan tới tríchchọnthực thể. Cụ thể đó chính là giải thuật DIPRE [17], một giải thuật được đề xuất bởi Brin, sử dụng tập dữ liệu ban đầu (seed) để tìm ra các 2 mẫu (patterns). Phương pháp này đều đã có những kết quả thực nghiệm hết sức khả quan. Chương 3 trình bày hệ thống tríchchọnthựcthểtênngườitrong văn bản tiếngViệt trên môi trường Web dựa trên giải thuật DIPRE (Dual Interative Pattern Relation Expansion)[17] mà Brin (1998) đã đề xuất kết hợp với một số luật mang những đặc điểm cơ bản của tênngườitrongtiếngViệt và đưa ra một số kết quả thực nghiệm. [...]... thểtênngười có thể đóng vai trò là một thành phần cơ bản cho các bài toán tríchchọn thông tin phức tạp hơn, phụ thuộc vào mục đích sử dụng của con người Trước khi đọc một tài liệu, người dùng có thể đọc lướt qua các tênngười mà họ quan tâm Hệ thống tríchchọnthựcthểtênngười cho tiếngViệt cũng sẽ làm tiền đề cho việc giải quyết các bài toán về tríchchọn thông tin từ các tài liệu tiếng Việt. .. đầu Từ điển Họ TríchchọntênngườiTríchchọntênngười với mẫu mới Ứng cử Tênngười Kho văn bản Lọc Tập mẫu mới Tênngười Sinh ứng cử mẫu và lọc ra các mẫu tốt Hình 6: Mô hình tríchchọntênngười Giải thích mô hình: 1 Bắt đầu từ một tập luật mẫu ban đầu, dựa vào 2 từ điển chức danh (ví dụ: ông, giáo sư,…) hệ thống sẽ tríchchọn ra tập các ứng cử cho tênngười 3 Từ tập ứng cử tên người, thủ tục lọc... hệ giữa các thựcthể để thực hiện trích rút thì ta phải nhận biết được thựcthể cần tríchchọn Việc trích chọnthựcthể tên người đòi hỏi phải nhận biết được các thành phần cơ bản và đặc trưng của dữ liệu tên người, ví dụ như các chức danh luôn đi kèm với tênngườitrong văn bản: ông, bà, học sinh, anh, chị, thầy giáo, cô giáo, giám đốc, tổng giám đốc, …dựa vào sự xuất hiện của các thực thể, thuật toán... đề đặt ra đối với thựcthểtênngườitrongtiếngViệt cũng như việc tìm kiếm để sinh ra các mẫu khác nhau Cụ thể về cách giải quyết bài toán sẽ được trình bày chi tiết ở chương 3 1.4 Ý nghĩa của bài toán tríchchọnthựcthểtênngườiTríchchọn thông tin luôn là bước đi đầu tiên của nhiều ứng dụng thực tế và việc trích chọn, nhận biết tênngười cũng tương tự như vậy Tênngười là một thành phần chủ... chương 2 1.3 Bài toán trích chọnthựcthể tên ngườitrong văn bản tiếngViệt trên môi trường web Các thựcthể đóng vai trò quan trọng rất nhiều trong ứng dụng xử lý ngôn ngữ tự nhiên Hiện nay, hầu hết các hệ thống nhận dạng thựcthểtên đều dựa vào một tập nhỏ các loại thựcthểtên thông thường Mặc dù đã có một vài đề xuất được đưa ra nhằm mở rộng các cấp của các loại thựcthểtên nhưng nó vẫn cố định... khóa luận nhằm đưa ra một phương pháp trích chọnthựcthể tên người từ văn bản tiếngViệt trên môi trường Web Thựcthểtênngười luôn song hành, gắn bó với cuộc sống của mỗi con người từng giờ, từng phút, đóng một vai trò quan trọng đối với mỗi cá nhân Nó không chỉ có 5 chức năng phân biệt người này với người khác mà còn có chức năng thẩm mỹ nên đối với ngườiViệt Nam, tênngười cũng thường được chọn. ..Chương 1 Bài toán trích chọnthựcthể tên người Chủ đề chính của khóa luận là áp dụng phương pháp dựa trên hệ luật (rule-based) kết hợp với giải thuật DIPRE (Dual Interative Pattern Relation Expansion)[17] do Brin đề xuất Chương này sẽ giới thiệu tổng quan về tríchchọn thông tin, về bài toán tríchchọnthựcthể nói chung, chi tiết về bài toán tríchchọnthựcthểtênngười nói riêng cũng như... khóa luận này hướng tới phương pháp tríchchọnthựcthểtênngười mà không sử dụng bất cứ công cụ nào đối với việc tiền xử lý dữ liệu Đặc biệt, toàn bộ hệ thống sẽ xử lý trên dữ liệu thô Để có thể làm được việc đó, hướng tiếp cận mà khóa luận này muốn hướng tới là dựa theo giải thuật DIPRE [17] mà Brin đã đề ra để thực hiện mở rộng quan hệ mẫu, từ đó tríchchọn ra thựcthểtênngườitrongtiếng Việt. .. ở chương 1, việc tríchchọnthựcthểtênngười đòi hỏi phải nhận biết được các thành phần cơ bản và đặc trưng của dữ liệu tênngười Đối với ngườiViệt Nam, tênngười có một số đặc trưng cơ bản nhất như là các chức danh luôn đi kèm với tênngườitrong văn bản: ông, bà, học sinh, anh, chị, thầy giáo, cô giáo, giám đốc, tổng giám đốc, …Dựa theo giải thuật DIPRE, để tríchchọn được tên người, ta phải dựa... như ứng dụng, ý nghĩa của bài toán tríchchọnthựcthểtênngười 1.1 Trích chọn thông tin Tríchchọn thông tin là một lĩnh vực quan trọngtrong khai phá dữ liệu văn bản, thực hiện việc trích rút các thông tin có cấu trúc từ các văn bản không có cấu trúc Cụ thể hơn, một hệ thống tríchchọn thông tin sẽ trích ra những thông tin đã được định nghĩa trước về các thựcthể và mối quan hệ giữa chúng từ một . toán trích chọn 3 thực thể tên người 3 1.1. Trích chọn thông tin 3 1.2. Tổng quan về bài toán trích chọn thực thể tên 4 1.3. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt. các bài toán trích chọn thực thể nói chung và trích chọn tên người nói riêng, em đã chọn hướng nghiên cứu nhằm giải quyết bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi. về trích chọn thông tin, về bài toán trích chọn thực thể nói chung, chi tiết về bài toán trích chọn thực thể tên người nói riêng cũng như ứng dụng, ý nghĩa của bài toán trích chọn thực thể tên