Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
0,98 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thu Thùy TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG TIẾNG VIỆT KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thu Thùy TRÍCH CHỌN THỰC THỂ TÊN NGƯỜI TRONG TIẾNG VIỆT KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: TS Nguyễn Trí Thành HÀ NỘI – 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến thầy giáo, TS Nguyễn Trí Thành, người tận tình hướng dẫn em suốt q trình thực khóa luận Em xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo giảng dạy em bốn năm học qua, cho em kiến thức quý báu để em vững bước đường Tơi xin gửi lời cảm ơn sâu sắc tới bạn lớp K50 CA ủng hộ khuyến khích tơi suốt q trình học tập trường Và lời cuối cùng, tơi xin bày tỏ lịng chân thành biết ơn vơ hạn tới cha mẹ em trai tôi, người ln bên cạnh tơi lúc tơi khó khăn nhất, giúp tơi vượt qua khó khăn học tập sống Xin chân thành cảm ơn! Sinh Viên Lê Thu Thùy i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt Trích chọn loại thực thể nói chung, trích chọn tên người nói riêng bước trích chọn thông tin từ văn xử lý ngôn ngữ tự nhiên Nó ứng dụng nhiều dịch tự động, tóm tắt văn bản, hiểu ngơn ngữ tự nhiên, nhận biết tên thực thể sinh/y học đặc biệt ứng dụng việc tích hợp tự động đối tượng, thực thể từ môi trường Web vào ontology ngữ nghĩa sở tri thức Trong khóa luận này, em trình bày giải pháp trích chọn thực thể tên người cho văn tiếng Việt môi trường Web Sau xem xét hướng tiếp cận khác nhau, em lựa chọn phương pháp dựa giải thuật mở rộng quan hệ mẫu đối ngẫu lặp lại (Dual Interative Pattern Relation Expansion - DIPRE) [17] mà Brin đề xuất Đây phương pháp sử dụng học bán giám sát (semi-supervised), dựa ngữ cảnh (occurrences) xung quanh thực thể để trích chọn quan hệ mẫu, từ đưa danh sách thực thể cần nhận biết ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Lời cảm ơn i Tóm tắt ii Mục lục iii Bảng từ viết tắt v Danh sách hình vẽ .vi Mở đầu Chương Bài tốn trích chọn .3 thực thể tên người 1.1 Trích chọn thơng tin 1.2 Tổng quan tốn trích chọn thực thể tên 1.3 Bài tốn trích chọn thực thể tên người văn tiếng Việt môi trường web 1.4 Ý nghĩa tốn trích chọn thực thể tên người Chương Các hướng tiếp cận trích chọn thơng tin 2.1 Phương pháp dựa học máy 2.1.1 Mơ hình Markov ẩn (HMM) .9 2.1.1.1 Tổng quan HMM 2.1.1.2 Hạn chế mơ hình HMM .11 2.1.2 Mơ hình Markov cực đại hóa Entropy (MEMM) 11 2.1.2.1 Tổng quan mơ hình MEMM 11 2.1.2.2 Vấn đề Label Bias .12 2.1.3 Mơ hình trường điều kiện ngẫu nhiên (CRF) 13 2.1.3.1 Tổng quan mơ hình CRF .13 2.1.3.2 Hàm tiềm mơ hình CRF 14 2.2 Phương pháp tiếp cận dựa hệ luật 16 2.2.1 Tổng quan tiếp cận dựa hệ luật 16 2.2.2 Giải thuật DIPRE 16 2.2.1.1 Tổng quan học bán giám sát 16 2.2.1.2 Giải thuật DIPRE .18 2.3 Tổng kết chương 21 Chương Hệ thống trích chọn tên người văn tiếng Việt môi trường Web 22 3.1 Hướng giải toán 22 3.2 Thực nghiệm 27 3.2.1 Môi trường thực 27 3.2.2 Thu thập liệu 27 3.3 Khảo sát xây dựng thủ công tập liệu từ điển ban đầu .27 3.3.1 Tập liệu từ điển ban đầu tập mẫu 27 3.3.2 Giới hạn vòng lặp 29 3.4 Đánh giá hệ thống nhận dạng thực thể 29 3.4.1 Kết 30 3.4.2 Đánh giá 31 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận .32 Tài liệu tham khảo .34 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng từ viết tắt Từ cụm từ Viết tắt Condition Random Field CRF Dual Interative Pattern Relation Expansion DIPRE Hidden Markov Model HMM Maximum Entropy Markov Model MEMM Name Entity Recognition NER v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở đầu Trích chọn thực thể tên (Name Entity Extraction), đặc biệt trích chọn tên người ngày trở nên quan trọng phát triển ngày cao ứng dụng xử lý ngôn ngữ tự nhiên Tuy nhiên, việc trích chọn tên người sử dụng chúng cách triệt để vấn đề không đơn giản Thừa nhận rằng, cách tốt để xác định tên người sử dụng thông tin ngữ cảnh xuất xung quanh tên người Do đó, vấn đề làm để tìm ngữ cảnh mà đó, tên người xuất Các phương pháp thủ công, sử dụng hệ luật (rule-based) hay tự động… Hiện nay, hầu hết hệ thống nhận dạng tên thực thể dựa vào tập nhỏ loại thực thể tên thơng thường Mặc dù có vài đề xuất đưa nhằm mở rộng cấp loại thực thể tên cố định số lượng định loại thực thể tên Vấn đề áp dụng tốn trích chọn loại thực thể cho miền liệu có tính chất đặc trưng riêng khác với liệu bình thường, điều đáng quan tâm Trong đó, với ứng dụng quan trọng web ngữ nghĩa, hay hệ thống hỏi đáp tự động, …thì miền liệu tên người miền liệu nhắc tới nhiều Ý thức lợi ích mà tốn trích chọn thực thể nói chung trích chọn tên người nói riêng, em chọn hướng nghiên cứu nhằm giải tốn trích chọn thực thể tên người văn tiếng Việt môi trường Web làm đề tài luận văn Luận văn tổ chức thành chương sau: Chương giới thiệu tổng quan tốn trích chọn thơng tin, tốn trích chọn thực thể tên người cho văn tiếng Việt môi trường Web ứng dụng thực tế Chương trình bày số hướng tiếp cận nhằm giải tốn trích chọn thực thể phương pháp dựa hệ luật, phương pháp học máy HMM, MEMM, CRF Đối với phương pháo dựa hệ luật, khóa luận giới thiệu số hệ thống liên quan tới trích chọn thực thể Cụ thể giải thuật DIPRE [17], giải thuật đề xuất Brin, sử dụng tập liệu ban đầu (seed) để tìm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com mẫu (patterns) Phương pháp có kết thực nghiệm khả quan Chương trình bày hệ thống trích chọn thực thể tên người văn tiếng Việt môi trường Web dựa giải thuật DIPRE (Dual Interative Pattern Relation Expansion)[17] mà Brin (1998) đề xuất kết hợp với số luật mang đặc điểm tên người tiếng Việt đưa số kết thực nghiệm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Với mẫu tìm dạng biểu thức quy trên, hệ thống tìm nhiều tài liệu khác Giả sử như: “Sir Arthur Conan Doyle wrote Speckled Band in 1982, that is around 672 years apart which would make the stories” Trích chọn quan hệ mới: (Arthur Conan Doyle, Speckled Band) Quan hệ lưu vào tập seed ban đầu tiếp tục lặp lại thuật toán với quan hệ vừa tìm Đó ví dụ cụ thể mà Brin sử dụng giải thuật DIPRE để thực trích chọn thực thể (tác giả, tên sách) Vấn đề khó khăn DIPRE Vấn đề hiệu suất vấn đề mà DIPRE gặp phải Việc sử dụng tập mồi nhỏ để từ trích chọn mẫu lại trích qua hệ mới, tốc độ DIPRE chậm, đặc biệt trường hợp tập seed chứa liệu có xuất ít, tập liệu phải thực hiên tìm kiếm lớn Khi đó, u cầu đặt phải quét hết số lượng lớn mẫu kho liệu vơ lớn Và liệu DIPRE có lưu giữ liệu bị phân tách từ kết chung mở rộng quan hệ mẫu Điều không kéo theo tốc độ giảm mà kết thấp 2.3 Tổng kết chương Chương giới thiệu hướng tiếp cận nhằm giải bào tốn trích chọn thơng tin nói chung trích chọn thực thể nói riêng: hướng tiếp cận dựa hệ luật (giải thuật DIPRE), hướng tiếp cận học máy (HMM, MEMM, CRF) Có thể thấy, hướng tiếp cận có ưu nhược điểm khác giải thuật DIPRE có hiệu suất khơng cao, tốc độ xử lý chậm, HMM khơng thể tích hợp thuộc tính phong phú chuỗi liệu quan sát vào trình phân lớp, MEMM gặp phải vấn đề “label bias” Sau lại tiếp tục nâng lên mơ hình cao sử dụng CRF để khắc phục nhược điểm mà HMM MEMM gặp phải CRF có khả xử lý liệu dạng mạnh so với mơ hình học máy khác HMM hay MEMM Tuy nhiên, nhược điểm mơ hình CRF thời gian tính tốn tương đối chậm trường hợp liệu huấn luyện tương đối lớn Thêm liệu đầu vào mơ hình phải sử dụng công cụ để xử lý liệu phân tách, gán nhãn dựa theo giải thuật DIPRE Brin cơng việc tiền xử lý liệu hồn tồn khơng phải thực Chi tiết phương pháp sử dụng cho hệ thống trích chọn tên người dựa giải thuật DIPRE đề cập chương 21 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Hệ thống trích chọn tên người văn tiếng Việt môi trường Web Từ chương 2, ta thấy rằng, việc sử dụng mơ hình HMM, MEMM, CRF có ưu nhược điểm định Một nhược điểm vấn đề tiền xử lý liệu Cả mơ hình phải sử dụng công cụ để thực phân lớp liệu trước đưa chúng vào xử lý, việc khiến cho hệ thống phần trở nên cồng kềnh, tốn nhiều cơng sức, thời gian Do đó, khóa luận hướng tới phương pháp trích chọn thực thể tên người mà không sử dụng công cụ việc tiền xử lý liệu Đặc biệt, toàn hệ thống xử lý liệu thơ Để làm việc đó, hướng tiếp cận mà khóa luận muốn hướng tới dựa theo giải thuật DIPRE [17] mà Brin đề để thực mở rộng quan hệ mẫu, từ trích chọn thực thể tên người tiếng Việt Các phần chương đề cập tới hướng giải 3.1 Hướng giải tốn Như nói chương 1, việc trích chọn thực thể tên người đòi hỏi phải nhận biết thành phần đặc trưng liệu tên người Đối với người Việt Nam, tên người có số đặc trưng chức danh kèm với tên người văn bản: ông, bà, học sinh, anh, chị, thầy giáo, cô giáo, giám đốc, tổng giám đốc, …Dựa theo giải thuật DIPRE, để trích chọn tên người, ta phải dựa vào xuất thực thể tên tập nhỏ ban đầu (tập seed), thuật toán đưa giữ lại ngữ cảnh xung quanh thực thể tên để từ trích chọn quan hệ mẫu, cuối cùng, dựa vào mẫu trích chọn để tiếp tục đưa thực thể tên người cần trích chọn Bài tốn xây dựng dựa sở giải thuật DIPRE Tuy nhiên, đề cập tới giải thuật chương 2, Brin ban đầu sử dụng từ tập nhỏ liệu (tập seed) ban đầu để từ trích mẫu, đưa quan hệ thực thể Chính điều khiến cho giải thuật gặp vấn đề hiệu suất, tốc độ chậm Do đó, khóa luận dựa tư tưởng Brin từ tập mẫu trích tên thực thể ngược lại từ thực thể trích mẫu Do đó, hướng giải cho tốn trích chọn tên người tiếng Việt minh họa hình trình bày chi tiết 22 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Từ điển chức danh Mẫu ban đầu Từ điển Họ Trích chọn tên người Trích chọn tên người với mẫu Ứng cử Tên người Kho văn Lọc Tập mẫu Tên người Sinh ứng cử mẫu lọc mẫu tốt Hình 6: Mơ hình trích chọn tên người Giải thích mơ hình: Bắt đầu từ tập luật mẫu ban đầu, dựa vào từ điển chức danh (ví dụ: ơng, giáo sư,…) hệ thống trích chọn tập ứng cử cho tên người Từ tập ứng cử tên người, thủ tục lọc loại bỏ ứng cử tên không xác để thu tập hợp tên người Nếu tập tên người thu tập rỗng giải thuật dừng Dựa vào tập tên người thu được, thủ tục sinh mẫu sinh ứng cử mẫu cách khai thác kho văn có Sau ứng cử mẫu lọc để loại ứng cử bị trùng có độ xác thấp Kết đầu thủ tục ta thu tập mẫu Nếu tập mẫu thu tập rỗng giải thuật dừng 23 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Từ tập mẫu từ điển họ, thủ tục trích chọn thứ tìm ứng cử tên Giải thuật quay lại bước Phần mô tả chi tiết khái niệm, thủ tục trình bày hình Xây dựng thủ cơng tập ban đầu Trong tiếng Việt, tên người thường sau chức danh như: ông, bà, anh, chị, giám đốc, tổng giám đốc, giáo viên, học sinh,…do đó, xây dựng tập từ điển ban đầu, cách xây dựng thủ công Tương tự giải thuật DIPRE làm, xây dựng tập nhỏ liệu (tập seed) ban đầu trình tìm xuất trích chọn bộ, lưu giữ ngữ cảnh (ngữ cảnh từ đằng trước, đằng sau thực thể), từ sinh mẫu, từ mẫu lại trích quan hệ mới, thực thể mới, thực thể lại lưu vào tập seed vòng lặp lại tiếp tục khơng cịn quan hệ tạo Như vậy, hệ thống có thêm tập liệu ban đầu chứa tên thực thể người Tập liệu xây dựng cách thủ công Do định dạng chuẩn tên người Việt Nam nên tập có dạng , dạng , dạng chuẩn Ví dụ như: Nam, Trần Quang Khải Quang Minh,… tập sử dụng tương tự giải thuật DIPRE nói Vì tên người phổ biến dễ dàng đưa nên đưa tập từ điển khác có người như: Nguyễn, Lê, Trần, Dương, Phùng, Đinh… Bởi rõ ràng nhận văn xuất từ thuộc người chắn sau từ khơng có có tên người Ví dụ: “Bạn Nguyễn Minh Châu đạt học sinh giỏi năm học này.” (8) “Dòng họ Nguyễn dòng họ tiếng khắp vùng truyền thống hiếu học” (9) Ở câu (8), “Nguyễn Minh Châu” tên người câu (9), “Nguyễn” dòng họ Chi tiết, cụ thể hơn, xây dựng tập từ điển tên người chứa đầy đủ đó, hệ thống việc đối chiếu, so sánh tập từ điển với liệu văn bản, mẫu (pattern) trích nhanh nhiều Tuy nhiên, làm việc thời gian, tốn cơng sức nhiều phương pháp thực 24 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com thủ công, lại thêm thừa bởi, thực chất cần tập chứa tên người đủ để giải toán cách nhanh chóng Vấn đề mà từ ngữ tiếng Việt hay xảy nhập nhằng Tên người trùng với tên địa danh, tên tổ chức Do đó, để giảm bớt tỉ lệ lỗi hệ thống, cần xây dựng tập từ điển từ có mang nghĩa bắt đầu địa danh, tổ chức là: công ty, công ty TNHH, tỉnh, thành phố, huyện, làng, xã, nước, quốc gia, ….những từ ngữ hồn tồn khơng phải q nhiều, việc xây dựng thủ công tương đối nhẹ nhàng đơn giản Các tập mẫu thực thể tên người tiếng việt Với tên người thường có giới hạn xâu mang nghĩa như: ông, bà, anh, chị, …và xâu thuộc như: chạy, nói, học, lái xe, đàn, hát, nhảy,… Do đó, mẫu phù hợp trích q trình trích chọn mẫu gồm có: prefix, personal name, suffix Trong đó: prefix: thường chức danh người, từ thường đứng trước tên người văn suffix: thường động từ, từ thường đứng sau tên người văn personal name: tên thực thể người xuất văn Tên người tiếng Việt giới hạn chữ bảng chữ tiếng Việt bao gồm: [A-Ya-y] Viết dạng biểu thức quy là: *prefix, personal name, suffix* Xây dựng tập mẫu dựa xuất tập nhỏ thực thể ban đầu từ tập từ điển dựng sẵn, biểu diễn mẫu dạng biểu thức quy Đây xử lý quan trọng hệ thống mẫu có xác thì tỉ lệ lỗi trình trích chọn giảm nhiêu Việc sinh mẫu làm sau: Xác minh lại xem thành phần prefix suffix tất xuất thực thể tên người có giống khơng Nếu khơng khơng thể tạo 25 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com mẫu phù hợp với tên người Ngược lại, lưu tập prefix suffix vào tập prefix suffix ban đầu Thiết lập tập prefix (là prefix trích từ xuất thực thể ban đầu) với suffix ban đầu để tìm mẫu ngược lại Thiết lập tập prefix (là prefix trích từ xuất thực thể ban đầu) với suffix ban đầu để tìm mẫu Ví dụ: Một mẫu tạo thành có prefix là: giáo sư suffix giảng dạy Trong đó: tập prefix ban đầu có: tiến sĩ tập suffix ban đầu có: nghiên cứu Như vậy, có vài mẫu sinh ra, có: Prefix là: giáo sư – suffix là: nghiên cứu Prefix là: tiến sĩ – suffix là: giảng dạy Một số đặc trưng riêng tên người cần ý Tên người dạng chuẩn văn thường trình bày dạng viết hoa chữ đầu câu như: Nguyễn Minh Ngọc, Uyên, Tiến Dũng,… Tên người Việt Nam thường tối đa xâu gồm khoảng từ Mỗi tên thể mặt thẩm mỹ, đó, loại bỏ từ không vô nghĩa, nghĩa không hay xử lý văn bản, như: đất, ận, bẩn, mèo, chuột, … Thuật tốn trích chọn mẫu từ tập mẫu Trước tiên phải xác nhận xem prefix suffix tất lần xuất có giống hay khơng? Nếu khơng khơng thể tạo mẫu Nhóm lần xuất thực thể tập seed ban đầu theo prefix suffix Kết đưa nhóm mẫu 26 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Với mẫu nhóm trên, tạo mẫu dựa prefix mẫu với suffix mẫu ban đầu ngược lại, suffix mẫu ban đầu với prefix mẫu Nếu mẫu tạo trùng với mẫu ban đầu loại bỏ mẫu ngược lại, lấy mẫu thực trích chọn thực thể từ liệu, lại lặp lại bước không sinh mẫu dừng 3.2 Thực nghiệm 3.2.1 Môi trường thực Phần cứng: Máy Celeron III, chip 768 MHz, Ram 512 MB Cơng cụ lập trình: Eclipse Ngơn ngữ lập trình: Java 3.2.2 Thu thập liệu Sử dụng công cụ teleport download liệu tự động bao gồm 150 báo lấy từ nguồn http://www.vnexpress.net 3.3 Khảo sát xây dựng thủ công tập liệu từ điển ban đầu 3.3.1 Tập liệu từ điển ban đầu tập mẫu Dựa theo ngôn ngữ tiếng Việt, em tìm đặc trưng liệu tiến hành xây dựng cấu trúc file input phù hợp Cụ thể sau: Tên tập liệu Nội dung prefix.txt Ông|bà|tổng giám đốc… suffix.txt Chạy|nhảy|nói|… ho_diction.txt Nguyễn, Trần, Lê, discard.txt Thành phố, đất nước, công ty, công ty TNHH,… seed.txt Lan, Nguyễn Công Minh,… chucdanh.txt Anh, chị, ông, bà, sinh viên, học sinh, giáo sư,… Bảng 1: Bảng tập liệu từ điển ban đầu 27 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Luật prefix.txt Trong prefix.txt chứa từ, cụm từ viết theo dòng file, thường hay đứng trước tên người Khi mẫu sinh ra, chúng gồm có prefix suffix Khi đó, prefix lưu vào prefix.txt Chúng sử dụng để kết hợp từ cụm từ với từ cụm từ prefix để sinh mẫu phù hợp Để từ trích chọn tên thực thể phù hợp Luật suffix.txt Tương tự prefix.txt, xâu suffix.txt, viết theo dòng file, thường động từ miêu tả hành động người, thường hay đứng sau tên người Các xâu kết hợp với xâu prefix.txt để đưa mẫu để trích chọn thực thể tên người Ví dụ: prefix.txt có: ông, bà,… Trong suffix.txt có: tập thể dục, chạy Từ đây, ta có mẫu sinh là: [ông, personal name, tập thể dục] [ông, personal name, chạy bộ] [bà, personal name, tập thể dục] [bà, personal name, chạy bộ] Luật họ_diction.txt Đây tập từ điển họ tên người Tập có tác dụng giúp cho q trinh trích chọn tên nhanh chóng hơn, khơng thời gian tìm kiếm q lâu phụ thuộc vào tập nhỏ seed.txt Ví dụ, xử lý liệu văn bản, hệ thống tìm thấy họ “Nguyễn” tên “Nguyễn Văn Ba” trích tên ln khơng cần thiết phải thực tìm kiếm theo tên có tập nhỏ liệu ban đầu Luật discard.txt Tập nhằm giải trình lọc tên thực thể tránh nhập nhằng ngơn ngữ, xuất nhiều người có tên trùng với tên địa danh, tên tổ chức 28 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ví dụ: “Tổng thống Mỹ Obama có chuyến viếng thăm đất nước ta vào ngày 29/10/2009.” Khi đó, duyệt thấy từ tổng thống, chắn hệ thống trích tên người “Mỹ Obama” Nên để tránh tình trạng trên, ta buộc phải duyệt qua discard.txt để lọc, bỏ qua tên riêng “Mỹ” chọn tên “Obama” Lúc lại áp dụng lặp lại luật prefix.txt Luật chucdanh.txt Với từ hay cụm từ dựng sẵn từ prefix.txt, luật sử dụng để thực duyệt liệu văn bản, kiểm tra xem sau từ cụm từ đó, có từ viết hoa đầu chữ khơng Nếu có duyệt tiếp bắt gặp từ có chữ viết thường Sau trích từ có chữ viết hoa đó, đem so sánh với tập seed.txt Nếu chưa có ta thêm liệu tên vào tập Nếu có giữ lấy ngữ cảnh tiếp tục duyệt tiếp Việc giữ lại ngữ cảnh để tiếp tục so sánh với tên khác, xét mối quan hệ chúng sau lọc mẫu, lưu vào file Luật seed.txt Nội dung seed.txt danh sách số tên người, tập liệu nhỏ ban đầu để hệ thống xử lý ban đầu đọc liệu từ văn Từ thông tin tập nhỏ ban đầu này, dựa theo phương pháp nói đến phần trên, hệ thống tìm xuất chúng văn Từ sinh mẫu 3.3.2 Giới hạn vòng lặp Vòng lặp dừng duyệt hết đoạn văn thực thể mẫu không sinh thêm 3.4 Đánh giá hệ thống nhận dạng thực thể Các hệ thống nhận biết loại thực thể đánh giá chất lượng thơng qua ba độ đo: độ xác (precision), độ hồi tưởng (recall) độ đo F (F-messure) Ba độ đo tính tốn theo cơng thức sau: 29 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Rec = correct correct + incorrect + missing Pre = correct correct + incorrect F= * Pre * Rec Pre + Rec Ý nghĩa giá trị correct, incorrect, missing định nghĩa bảng Giá trị Ý nghĩa Correct Số trường hợp gán Incorrect Số trường hợp gán sai Missing Số trường hợp gán thiếu Bảng 2: Các giá trị đánh giá hệ thống nhận dạng thực thể 3.4.1 Kết Kết kiểm tra, thực 150 trang web, kết trích chọn thực thể tên người đưa khả quan Kết thu cụ thể sau: Độ đo (%) 50 100 150 P 67.74 78.59 83.56 R 65.68 76.23 80.35 F 66.69 77.39 81.9 Số văn 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4.2 Đánh giá Qua kết quả, em nhận thấy tăng dần văn để xử lý trích chọn độ đo (P,R,F) tăng lên Tuy nhiên mức độ tăng lên độ đo chưa caonhư mong muốn Khi tăng số văn lên 150 độ đo đạt giá trị cao (Độ xác P: 83.56%, Độ đo F-measure: 81.9%) Độ xác hệ thống nhận dạng thực thể tên người em chưa đạt kết cao mong muốn, phần chương trình cịn nhiều thiếu sót, phần khác cấu trúc văn phức tạp thay đổi liên tục nên việc áp dụng luật q trình sinh mẫu cịn gây nhiều trường hợp nhập nhằng 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Những vấn đề giải luận văn Khóa luận hệ thống hóa số vấn đề lý thuyết trích chọn thơng tin, tốn trích chọn thực thể nói chung trích chọn tên người tiếng Việt nói riêng Đồng thời khóa luận trình bày, phân tích, đánh giá số hướng tiếp cận toán nhận biết loại thực thể Khóa luận nêu số vấn đề giải pháp toán nhận biết thực thể tên người văn tiếng Việt môi trường Web dựa giải thuật DIPRE Brin , thực nghiệm thu số kết chưa mong muốn Sau số nét mà luận văn tập trung giải Chương đưa nhìn khái qt trích chọn thơng tin, tốn nhận biết loại thực thể nói chung tốn trích chọn thực thể tên người nói riêng cho văn tiếng Việt môi trường Web ứng dụng thực tế Chương xem xét hướng tiếp cận khác để nhằm giải toán nhận diện loại thực thể, phương pháp thủ công, phương pháp HMM, phương pháp MEMM Chương sâu vào phân tích đánh giá phương pháp, cho thấy thiếu linh hoạt phương pháp thủ cơng, nghèo nàn thuộc tính chọn mơ hình HMM vấn đề “label bias” mà mơ hình MEMM gặp phải Đồng thời sâu vào tìm hiểu giải thuật DIPRE, ưu nhược điểm để áp dụng vào giải vấn đề liên quan tới khóa luận Chương trình bày hệ thống trích chọn tên người văn tiếng Việt Chương đưa kết hệ thống nhận diện loại thực thể tiếng Việt qua số lần thực nghiệm Công việc nghiên cứu tương lai Mặc dù kết phân loại thực thể hệ thống tốt thời gian có hạn nên em dừng lại số F1 81%, thời gian tới, em tiếp tục nghiên cứu nhằm cải thiện hệ thống, em tin kết tăng lên mức cao Trên sở hệ thống nhận diện loại thực thể tiếng Việt nay, em dự định mở rộng nghiên cứu thêm nhiều hướng nghiên cứu khác văn tiếng Việt, chẳng hạn ngồi việc trích chọn tên người, ta trích chọn thêm chức danh 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com người văn Ví dụ: từ câu “Giáo sư Ngơ Thúc Lanh vừa …” cặp thơng tin hữu ích trích chọn < “Ngơ Thúc Lanh”, “Giáo sư”> Hoặc hướng tới trích chọn tên người nước ngồi văn Việt Nam định dạng tên người nước ngồi khác với tên người Việt Nam Ví dụ: Richard C Wang, Xiao-Long Wang, … Vì tên người Việt khơng có kèm theo dấu ngắt câu cách mà người nước ngồi viết tên, đó, vấn đề vấn đề đáng để quan tâm 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Tài liệu tham khảo tiếng Việt [1] Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến Cơ sở ngôn ngữ học tiếng Việt Nxb Giáo dục, H., 1997, trang 142–152 [2] Nguyễn Việt Cường Bài toán lọc phân lớp nội dung Web tiếng Việt với hướng tiếp cận Entropy cực đại Luận văn tốt nghiệp ĐHCN 2005 [3] Trần Thị Oanh Thuật toán Self-Training Co-Training ứng dụng phân lớp văn Luận văn tốt nghiệp ĐHCN năm 2006 [4] Nguyễn Cẩm Tú Nhận biết loại thực thể văn tiếng Việt nhằm [5] hỗ trợ Web ngữ nghĩa tìm kiếm hướng thực thể Luận văn tốt nghiệp ĐHCN 2005 Website tiếng Việt nói xử lý ngơn ngữ tự nhiên: http://xulyngonngu.com/ Tài liệu tham khảo tiếng Anh [6] A McCallum, D Freitag, and F Pereia Maximum entropy markov models for information extraction and segmentation In Proc Interational [7] [8] [9] [10] [11] [12] [13] Conference on Machine Learning, 2000 Adam Berger The Improved Iterative Scaling Algorithm: A gentle Introduction School of Computer Science, Carnegie Mellon University Andrew McCallum Efficiently Inducing Features of Conditional Random Fields Computer Science Department University of Massachusetts Andrew McCallum, Khashayar Rohanimanesh, and Charles Sutton Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences Department of Computer Science, University of Massachusetts H M Wallach Efficient training of conditional random fields Master’s thesis, University of Edinburgh, 2002 Hana Wallach Efficient Training of Conditional Random Fields M.Sc thesis, Division of Informatics, University of Edinburgh, 2002 J Lafferty, A McCallum, and F Pereia Conditional ramdom fields: probabilistic models for segmenting and labeling sequence data In International Conference on Machine Learning, 2001 Ralph Grishman Information extraction: Techniques and challenges In Information Extraction (International Summer School SCIE-97) Springerverlag, 1997 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [14] Ronald Schoenberg Optimization with the Quasi-Newton Method, September 5, 2001 [15] Cvetana Krstev, Du_sko Vitas and Sandra Gucul Recognition of Personal Names in Serbian Texts Faculty of Philology, University of Belgrade, Studentski trg 3, Faculty of Mathematics, University of Belgrade, Studentski trg 16, Belgrade, Serbia & Montenegro [16] Feng Zhang, Liu Wenyin, Zheng Chen A New Statistical Approach to Personal Name Extraction [17] Serey Brin Extracting Patterns and Relation from World – Wide –Web In Proceedings of the 1998 International Work-shop in the Web and Databased, March [18] Sunita Sarawagi, William W Cohen Semi-Markov Conditional Random Fields for Information Extraction [19] [20] [21] [22] Trausti Kristjansson, Aron Cullota, Paul viola, Adrew McCallum Interactive Information Extraction with Constrained Conditionial Random Fields William Cohen Integration of heterogeneous databases without common domains using queries based on textual similarity In Proceedings of the 1998 ACM International Conference on Management of Data (SIGMOD’98), 1998 Yi-Feng Lin, Tzong-Han Tsai, Wen-Chi Chou, Kuen-Pin Wu, Ting-Yi Sung and Wen-Lian Hs A Maximum Entropy Approach to Biomedical Named Entity Recognition Institute of Information Science, Academia Sinica, 2004 Ying Yu, Xiao-Long Wang, Yi Guan Information Extraction for Chinese Free Based Pattern Match Combine with Heuristic Information School of Computer Science and Technology, Harbin Institude of Technology, Harbin150006, China 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... quan trích chọn thơng tin, tốn trích chọn thực thể nói chung, chi tiết tốn trích chọn thực thể tên người nói riêng ứng dụng, ý nghĩa tốn trích chọn thực thể tên người 1.1 Trích chọn thơng tin Trích. .. tốn trích chọn .3 thực thể tên người 1.1 Trích chọn thơng tin 1.2 Tổng quan tốn trích chọn thực thể tên 1.3 Bài tốn trích chọn thực thể tên người văn tiếng. .. hai tốn con: trích chọn thực thể trích chọn quan hệ Bởi vì, trước xác định quan hệ thực thể để thực trích rút ta phải nhận biết thực thể cần trích chọn Việc trích chọn thực thể tên người đòi hỏi