trích chọn thực thể tên người trong tiếng việt

43 372 0
trích chọn thực thể tên người trong tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thu Thùy TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thu Thùy TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành HÀ NỘI – 2009 i Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn Trí Thành, những người đã tận tình hướng dẫn em trong suốt quá trình thực hiện khóa luận này. Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong bốn năm học qua, đã cho em những kiến thức quý báu để em có thể vững bước trên con đường đi của mình. Tôi xin gửi lời cảm ơn sâu sắc tới các bạn trong lớp K50 CA đã ủng hộ và khuyến khích tôi trong suốt quá trình học tập tại trường. Và lời cuối cùng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ và em trai tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt qua những khó khăn trong học tập cũng như trong cuộc sống. Xin chân thành cảm ơn! Sinh Viên Lê Thu Thùy ii Tóm tắt Trích chọn các loại thực thể nói chung, cũng như trích chọn tên người nói riêng là một bước cơ bản trong trích chọn thông tin từ văn bản và xử lý ngôn ngữ tự nhiên. Nó được ứng dụng nhiều trong dịch tự động, tóm tắt văn bản, hiểu ngôn ngữ tự nhiên, nhận biết tên thực thể trong sinh/y học và đặc biệt ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ môi trường Web vào các ontology ngữ nghĩa và các cơ sở tri thức. Trong khóa luận này, em trình bày một giải pháp trích chọn thực thể tên người cho các văn bản tiếng Việt trên môi trường Web. Sau khi xem xét các hướng tiếp cận khác nhau, em đã lựa chọn phương pháp dựa trên giải thuật mở rộng quan hệ mẫu đối ngẫu lặp lại (Dual Interative Pattern Relation Expansion - DIPRE) [17] mà Brin đã đề xuất. Đây là phương pháp sử dụng học bán giám sát (semi-supervised), dựa trên các ngữ cảnh (occurrences) xung quanh các thực thể để trích chọn quan hệ mẫu, từ đó đưa ra được danh sách các thực thể cần nhận biết. iii Mục lục Lời cảm ơn i Tóm tắt ii Mục lục iii Bảng từ viết tắt v Danh sách hình vẽ vi Mở đầu 1 Chương 1. Bài toán trích chọn 3 thực thể tên người 3 1.1. Trích chọn thông tin 3 1.2. Tổng quan về bài toán trích chọn thực thể tên 4 1.3. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường web 5 1.4. Ý nghĩa của bài toán trích chọn thực thể tên người 7 Chương 2. Các hướng tiếp cận trong trích chọn thông tin 9 2.1. Phương pháp dựa trên học máy 9 2.1.1. Mô hình Markov ẩn (HMM) 9 2.1.1.1. Tổng quan về HMM 9 2.1.1.2. Hạn chế của mô hình HMM 11 2.1.2. Mô hình Markov cực đại hóa Entropy (MEMM) 11 2.1.2.1. Tổng quan về mô hình MEMM 11 2.1.2.2. Vấn đề Label Bias 12 2.1.3. Mô hình trường điều kiện ngẫu nhiên (CRF) 13 2.1.3.1. Tổng quan về mô hình CRF 13 2.1.3.2. Hàm tiềm năng của mô hình CRF 14 2.2. Phương pháp tiếp cận dựa trên hệ luật 16 2.2.1 Tổng quan về tiếp cận dựa trên hệ luật 16 2.2.2 Giải thuật DIPRE 16 2.2.1.1. Tổng quan về học bán giám sát 16 2.2.1.2. Giải thuật DIPRE 18 2.3 Tổng kết chương 21 Chương 3. Hệ thống trích chọn tên người trong văn bản tiếng Việt trên môi trường Web 22 3.1 Hướng giải quyết bài toán 22 3.2 Thực nghiệm 27 3.2.1. Môi trường thực hiện 27 3.2.2 Thu thập dữ liệu 27 3.3. Khảo sát và xây dựng thủ công các tập dữ liệu từ điển ban đầu 27 3.3.1. Tập dữ liệu từ điển ban đầu và tập mẫu 27 3.3.2. Giới hạn vòng lặp 29 3.4 Đánh giá hệ thống nhận dạng thực thể 29 3.4.1. Kết quả 30 3.4.2. Đánh giá 31 iv Kết luận 32 Tài liệu tham khảo 34 v Bảng từ viết tắt Từ hoặc cụm từ Viết tắt Condition Random Field CRF Dual Interative Pattern Relation Expansion DIPRE Hidden Markov Model HMM Maximum Entropy Markov Model MEMM Name Entity Recognition NER vi Danh sách hình vẽ 1 Mở đầu Trích chọn thực thể tên (Name Entity Extraction), đặc biệt là trích chọn tên người ngày càng trở nên quan trọng hơn đối với sự phát triển ngày càng cao các ứng dụng của xử lý ngôn ngữ tự nhiên. Tuy nhiên, việc trích chọn tên người cũng như sử dụng chúng một cách triệt để vẫn là một vấn đề không hề đơn giản. Thừa nhận rằng, một trong những cách tốt nhất để xác định tên người là sử dụng thông tin ngữ cảnh xuất hiện xung quanh tên người. Do đó, vấn đề chính sẽ là làm thế nào để tìm ra các ngữ cảnh mà tại đó, tên người xuất hiện. Các phương pháp có thể là thủ công, sử dụng hệ luật (rule-based) hay tự động… Hiện nay, hầu hết các hệ thống nhận dạng tên thực thể đều dựa vào một tập nhỏ các loại thực thể tên thông thường. Mặc dù đã có một vài đề xuất được đưa ra nhằm mở rộng các cấp của các loại thực thể tên nhưng nó vẫn cố định một số lượng nhất định các loại thực thể tên. Vấn đề áp dụng bài toán trích chọn các loại thực thể cho các miền dữ liệu có tính chất đặc trưng riêng khác với những dữ liệu bình thường, điều này rất đáng được quan tâm. Trong khi đó, với những ứng dụng quan trọng trong web ngữ nghĩa, hay trong hệ thống hỏi đáp tự động, …thì các miền dữ liệu tên người cũng là một trong những miền dữ liệu được nhắc tới nhiều nhất. Ý thức được những lợi ích mà các bài toán trích chọn thực thể nói chung và trích chọn tên người nói riêng, em đã chọn hướng nghiên cứu nhằm giải quyết bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường Web làm đề tài luận văn của mình. Luận văn được tổ chức thành các chương như sau: Chương 1 giới thiệu tổng quan về bài toán trích chọn thông tin, bài toán trích chọn thực thể tên người cho văn bản tiếng Việt trên môi trường Web cùng những ứng dụng thực tế của nó. Chương 2 trình bày một số hướng tiếp cận nhằm giải quyết bài toán trích chọn thực thể như phương pháp dựa trên hệ luật, phương pháp học máy như HMM, MEMM, CRF. Đối với phương pháo dựa trên hệ luật, khóa luận sẽ giới thiệu về một số hệ thống liên quan tới trích chọn thực thể. Cụ thể đó chính là giải thuật DIPRE [17], một giải thuật được đề xuất bởi Brin, sử dụng tập dữ liệu ban đầu (seed) để tìm ra các 2 mẫu (patterns). Phương pháp này đều đã có những kết quả thực nghiệm hết sức khả quan. Chương 3 trình bày hệ thống trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường Web dựa trên giải thuật DIPRE (Dual Interative Pattern Relation Expansion)[17] mà Brin (1998) đã đề xuất kết hợp với một số luật mang những đặc điểm cơ bản của tên người trong tiếng Việt và đưa ra một số kết quả thực nghiệm. [...]... thể tên ngườithể đóng vai trò là một thành phần cơ bản cho các bài toán trích chọn thông tin phức tạp hơn, phụ thuộc vào mục đích sử dụng của con người  Trước khi đọc một tài liệu, người dùng có thể đọc lướt qua các tên người mà họ quan tâm Hệ thống trích chọn thực thể tên người cho tiếng Việt cũng sẽ làm tiền đề cho việc giải quyết các bài toán về trích chọn thông tin từ các tài liệu tiếng Việt. .. đầu Từ điển Họ Trích chọn tên người Trích chọn tên người với mẫu mới Ứng cử Tên người Kho văn bản Lọc Tập mẫu mới Tên người Sinh ứng cử mẫu và lọc ra các mẫu tốt Hình 6: Mô hình trích chọn tên người Giải thích mô hình: 1 Bắt đầu từ một tập luật mẫu ban đầu, dựa vào 2 từ điển chức danh (ví dụ: ông, giáo sư,…) hệ thống sẽ trích chọn ra tập các ứng cử cho tên người 3 Từ tập ứng cử tên người, thủ tục lọc... đề đặt ra đối với thực thể tên người trong tiếng Việt cũng như việc tìm kiếm để sinh ra các mẫu khác nhau Cụ thể về cách giải quyết bài toán sẽ được trình bày chi tiết ở chương 3 1.4 Ý nghĩa của bài toán trích chọn thực thể tên người Trích chọn thông tin luôn là bước đi đầu tiên của nhiều ứng dụng thực tế và việc trích chọn, nhận biết tên người cũng tương tự như vậy Tên người là một thành phần chủ... chương 2 1.3 Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường web Các thực thể đóng vai trò quan trọng rất nhiều trong ứng dụng xử lý ngôn ngữ tự nhiên Hiện nay, hầu hết các hệ thống nhận dạng thực thể tên đều dựa vào một tập nhỏ các loại thực thể tên thông thường Mặc dù đã có một vài đề xuất được đưa ra nhằm mở rộng các cấp của các loại thực thể tên nhưng nó vẫn cố định... hệ giữa các thực thể để thực hiện trích rút thì ta phải nhận biết được thực thể cần trích chọn Việc trích chọn thực thể tên người đòi hỏi phải nhận biết được các thành phần cơ bản và đặc trưng của dữ liệu tên người, ví dụ như các chức danh luôn đi kèm với tên người trong văn bản: ông, bà, học sinh, anh, chị, thầy giáo, cô giáo, giám đốc, tổng giám đốc, …dựa vào sự xuất hiện của các thực thể, thuật toán... đưa ra một phương pháp trích chọn thực thể tên người từ văn bản tiếng Việt trên môi trường Web Thực thể tên người luôn song hành, gắn bó với cuộc sống của mỗi con người từng giờ, từng phút, đóng một vai trò quan trọng đối với mỗi cá nhân Nó không chỉ có 5 chức năng phân biệt người này với người khác mà còn có chức năng thẩm mỹ nên đối với người Việt Nam, tên người cũng thường được chọn lựa khá kỹ về mặt... ở chương 1, việc trích chọn thực thể tên người đòi hỏi phải nhận biết được các thành phần cơ bản và đặc trưng của dữ liệu tên người Đối với người Việt Nam, tên người có một số đặc trưng cơ bản nhất như là các chức danh luôn đi kèm với tên người trong văn bản: ông, bà, học sinh, anh, chị, thầy giáo, cô giáo, giám đốc, tổng giám đốc, …Dựa theo giải thuật DIPRE, để trích chọn được tên người, ta phải dựa... như ứng dụng, ý nghĩa của bài toán trích chọn thực thể tên người 1.1 Trích chọn thông tin Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu văn bản, thực hiện việc trích rút các thông tin có cấu trúc từ các văn bản không có cấu trúc Cụ thể hơn, một hệ thống trích chọn thông tin sẽ trích ra những thông tin đã được định nghĩa trước về các thực thể và mối quan hệ giữa chúng từ một... ban đầu chứa tên thực thể người Tập dữ liệu này được xây dựng một cách thủ công Do định dạng chuẩn của tên người Việt Nam là nên tập này có thể có dạng , hoặc ở dạng , hoặc ở dạng chuẩn như trên Ví dụ như: Nam, hoặc Trần Quang Khải hoặc Quang Minh,… tập này sẽ được sử dụng tương tự như trong giải thuật DIPRE đã nói ở trên Vì tên người rất phổ...Chương 1 Bài toán trích chọn thực thể tên người Chủ đề chính của khóa luận là áp dụng phương pháp dựa trên hệ luật (rule-based) kết hợp với giải thuật DIPRE (Dual Interative Pattern Relation Expansion)[17] do Brin đề xuất Chương này sẽ giới thiệu tổng quan về trích chọn thông tin, về bài toán trích chọn thực thể nói chung, chi tiết về bài toán trích chọn thực thể tên người nói riêng cũng như . toán trích chọn 3 thực thể tên người 3 1.1. Trích chọn thông tin 3 1.2. Tổng quan về bài toán trích chọn thực thể tên 4 1.3. Bài toán trích chọn thực thể. trích chọn thực thể nói chung và trích chọn tên người nói riêng, em đã chọn hướng nghiên cứu nhằm giải quyết bài toán trích chọn thực thể tên người trong

Ngày đăng: 18/02/2014, 00:50

Hình ảnh liên quan

Bảng từ viết tắt - trích chọn thực thể tên người trong tiếng việt

Bảng t.

ừ viết tắt Xem tại trang 7 của tài liệu.
Ta có thể mơ hình hóa HMM dưới dạng một đồ thị có hướng như sau: - trích chọn thực thể tên người trong tiếng việt

a.

có thể mơ hình hóa HMM dưới dạng một đồ thị có hướng như sau: Xem tại trang 18 của tài liệu.
2.1.1.2. Hạn chế của mô hình HMM - trích chọn thực thể tên người trong tiếng việt

2.1.1.2..

Hạn chế của mô hình HMM Xem tại trang 19 của tài liệu.
Trong một số trường hợp đặc biệt, các mơ hình MEMM và các mơ hình định - trích chọn thực thể tên người trong tiếng việt

rong.

một số trường hợp đặc biệt, các mơ hình MEMM và các mơ hình định Xem tại trang 20 của tài liệu.
Hình 5: Đồ thị vô hướng mô tả CRF - trích chọn thực thể tên người trong tiếng việt

Hình 5.

Đồ thị vô hướng mô tả CRF Xem tại trang 22 của tài liệu.
Hình 5: Mơ hình học bán giám sát - trích chọn thực thể tên người trong tiếng việt

Hình 5.

Mơ hình học bán giám sát Xem tại trang 25 của tài liệu.
Giải thích mơ hình: - trích chọn thực thể tên người trong tiếng việt

i.

ải thích mơ hình: Xem tại trang 31 của tài liệu.
Bảng 1: Bảng các tập dữ liệu từ điển ban đầu - trích chọn thực thể tên người trong tiếng việt

Bảng 1.

Bảng các tập dữ liệu từ điển ban đầu Xem tại trang 35 của tài liệu.
Bảng 2: Các giá trị đánh giá một hệ thống nhận dạng thực thể 3.4.1. Kết quả  - trích chọn thực thể tên người trong tiếng việt

Bảng 2.

Các giá trị đánh giá một hệ thống nhận dạng thực thể 3.4.1. Kết quả Xem tại trang 38 của tài liệu.
Ý nghĩa của các giá trị correct, incorrect, missing và được định nghĩa ở bảng 2. - trích chọn thực thể tên người trong tiếng việt

ngh.

ĩa của các giá trị correct, incorrect, missing và được định nghĩa ở bảng 2 Xem tại trang 38 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan