Nghiên cứu mô hình nhận dạng thực thể trong văn bản tiếng việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN MINH SƠN NGHIÊN CỨU MƠ HÌNH NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Nghệ An, tháng 6/2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN MINH SƠN NGHIÊN CỨU MƠ HÌNH NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT Chuyênngành: Côngnghệthông tin Mãsố: 60.48.02.01 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS TrầnXuân Sang Nghệ An, tháng 6/2017 LỜI CẢM ƠN Với lòng biết ơn sâu sắc, em xin gửi lời cảm ơn chân thành đến thầy cô khoa Công nghệ Thông tin – trường Đại học Vinh dùng tri thức tâm huyết để truyền đạt cho chúng em vốn kiến thức quý báu suốt thời gian học tập trường Đặc biệt em xin chân thành cảm ơn TS Trần Xuân Sang tận tâm chi bảo hướng dẫn để đề tài hồn thành Vì thời gian kiến thức hạn chế nên luận văn em khơng tránh khỏi thiếu sót Em mong nhận góp ý chân thành thầy bạn bè Cuối em xin chân thành cảm ơn tới gia đình, bạn bè đồng nghiệp giúp đỡ em trình học tập nghiên cứu hoàn thành luận văn Vinh ngày 15 tháng 05 năm 2017 Học viên Nguyễn Minh Sơn LỜI CAM ĐOAN Tơi xin cam đoan cơng trình tìm hiểu nghiên cứu tơi, có hỗ trợ giáo viên hướng dẫn Các nghiên cứu kết đề tài trung thực chưa công bố Vinh ngày 15 tháng 05 năm 2017 Học viên Nguyễn Minh Sơn MỤC LỤC Sự cần thiết vấn đề nghiên cứu Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát 2.2 Mục tiêu cụ thể Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu Nội dung nghiên cứu 5.Tổng quan tình hình nghiên cứu 5.1 Tình hình nghiên cứu giới 5.2 Tình hình nghiên nghiên cứu nước Kết cấu luận văn Chương Tổng quan 1.1 Đặt vấn đề 1.2 Tổng quan hệ thống nhận dạng thực thể 1.2.1 Cơ sở lý luận toán 1.2.2 Cơ sở thực tiễn toán 1.2.3 Các phương pháp để nhận dạng thực thể có văn 1.3 Trích chọn thơng tin 1.4 Bài toán nhận biết loại thực thể 1.5 Mơ hình hố tốn nhận biết loại thực thể tiếng Việt 1.6 Ý nghĩa toán Chương Các hướng tiếp cận để giải toán nhận dạng thực thể tiếng Việt 2.1 Giới thiệu 10 2.2 Các hướng tiếp cận để giải toán 11 2.2.1 Phương pháp dựa hệ luật 11 2.2.2 Phương pháp tiếp cận lai 12 2.2.3 Phương pháp sử dụng mơ hình học máy 12 2.3 Mơ hình Markov 13 2.4 Mơ hình Markov ẩn 15 2.5 Các tốn mơ hình Markov ẩn 17 Chương Thiết kế hệ thống nhận dạng loại thực thể văn tiếng Việt 3.1 Mô tả toán nhận dạng thực thể văn tiếng Việt 28 3.2 Hướng giải toán 29 3.3 Dữ liệu thực nghiệm tập nhãn từ loại 35 3.4 Các mẫu ngữ cảnh toán nhận dạng thực thể 35 3.4.1 Các mẫu ngữ cảnh thể đặc điểm từ 35 3.4.2 Các mẫu ngữ cảnh dạng từ điển 36 3.4.3 Các mẫu ngữ cành dạng biểu thức quy 37 3.6 Phần thực nghiệm 38 Kết luận 41 Tài liệu tham khảo 43 MỞ ĐẦU Sự cần thiết vấn đề nghiên cứu Nhận dạng thực thể văn toán quan trọng nhóm tốn trích rút thơng tin Nó có nhiệm vụ nhận dạng phân loại thực thể như: người, tổ chức, địa điểm Việc trích chọn thực thể sử dụng cách rộng rãi nhiều lĩnh vực xử lý ngôn ngữ, thu thập thông tin, dịch tự động Việc nhận dạng loại thực thể văn đóng vai trị quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên, bước tiền xử lý nhiều tốn số hệ thống thơng minh khác, nhiên việc nghiên cứu Việt Nam giai đoạn ban đầu nên nhu cầu lý thuyết ứng dụng lớn Đối với văn tiếng Việt việc trích chọn thực thể cịn gặp nhiều khó khăn việc phân loại từ tiếng Việt chưa có chuẩn mực thống Việc thực nghiệm văn tiếng Việt cho kết khả quan tuỳ vào đặc trưng mơ hình, thời gian xử lý độ xác Các vấn đề luận văn góp phần hữu ích việc lựa chọn phương pháp thích hợp để giải toán để phục vụ cho việc tiến hành nghiên cứu mức cao Hiện hầu hết hệ thống nhận dạng thực thể dựa vào tập hữu hạn gồm loại thực thể thơng thường Trong thực tế trích chọn thực thể văn phần giúp cho hình dung cách tổng quát nội dung văn Từ thực tế tơi hướng tới việc nghiên cứu mơ hình nhận dạng thực thể văn tiếng Việt Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát Nghiên cứu việc gán nhãn thực thể dựa vào phương học máy sử dụng mơ hình Markov ẩn văn tiếng Việt 2.2 Mục tiêu cụ thể + Nghiên cứu tổng quan toán nhận dạng thực thể + Nghiên cứu phương pháp học máy sử dụng mơ hình Markov ẩn + Nghiên cứu giải toán mơ hình Markov ẩn + Nghiên cứu thuật tốn Vierbi để tìm nhãn thực thể tối ưu cho toán Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu Trích chọn thực thể có tên cơng việc xử lý ngơn ngữ tự nhiên máy tính Nhiệm vụ tìm kiếm phân lớp từ vào nhóm đối tượng như: Tên người, địa điểm, ngày tháng năm, tiền tệ… loại thực thể không thuộc dạng kể Để thực việc trích chọn thơng tin hệ thống phải có khả thực số cơng việc đơn giản trích chọn thực thể yêu cầu hầu hết hệ thống Để xác định mối quan hệ thực thể trước hết ta phải xác định đâu thực thể tham gia đó, tốn trích chọn thực thể tốn trước tính đến giải toán phức tạp 3.2 Phạm vi nghiên cứu Có nhiều phương pháp sử dụng để giải tốn trích chọn thực thể từ phương pháp dựa hệ luật đến phương pháp học máy như: Mơ hình Markov ẩn, mơ hình cực đại hóa Entropy, mơ hình trường điều kiện ngẫu nhiên CRF… Mỗi phương pháp cho kết khác trường hợp cụ thể Do thời gian hiểu biết có giới hạn nên luận văn tập trung nghiên cứu mơ hình nhận dạng thực thể văn tiếng Việt sử dụng mơ hình Markov ẩn Nội dung nghiên cứu Nội dung nghiên cứu luận văn áp dụng mơ hình Mavkov cho tốn nhận biết loại thực thể văn tiếng Việt Tổng quan tình hình nghiên cứu 5.1 Tình hình nghiên cứu giới Mơ hình Markov ẩn giới thiệu nghiên cứu vào cuối năm 1960 đầu năm 1970 Trong phương pháp nhận dạng loại thực thể dựa mơ hình áp dụng thành công cho văn tiếng Anh với độ xác 90% Tiêu biểu phương pháp gán nhãn TnT tác giả Thorsten Brant sử dụng phương pháp Tri-gram cho kết 96.7% với tập nhãn Penn TreeBank ngữ liệu WallStreet tiếng Anh QTGA gán nhãn dựa mơ hình Markov ẩn nhóm nghiên cứu Corpus Research thuộc trường đại học Birmingham phát triển cho mục đích nghiên cứu, đặc điểm bật xây dựng cho tiếng Anh huấn luyện để sử dụng cho ngơn ngữ khác, ví dụ tốn gãn nhãn từ loại tiếng Trung Quốc sử dụng mơ hình HMM đạt 93.5%, tiếng Bồ Đào Nha đạt kết 93.48% hai tác giả Fa’bino N.Kepler Marcelo Finger 5.2 Tình hình nghiên cứu nước Tại Việt Nam tính đến có số cơng bố thức liên quan đến toán nhận biết loại thực thể Trong tiêu biểu sản phẩm nhóm VLSP với công cụ gán nhãn sử dụng mô hình học máy MEM CRF huấn luyện tập gồm 20.000 câu tiếng Việt có độ xác 93% Nhóm nghiên cứu tác giả Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ đề xuất phương án gán nhãn cho từ loại tiếng Việt dựa văn phong tính xác suất với kho ngữ liệu gồm 75.000 từ tiếng Việt từ điển gồm 80.000 mục từ , nhóm tác giả xây dựng hệ thống kết hợp gán nhãn Trigram dựa văn phong, thực chất vào cách thể văn ngữ cảnh cụ thể để xác định từ loại đạt tới độ xác 80% Nhóm nghiên cứu tác giả Nguyễn Thị Minh Huyền tiến hành nghiên cứu sửa đổi phần mềm QTAG (do trường đại học tổng hợp Birmingham phát triển) xây dựng cho tiếng Anh để thích nghi với văn tiếng Việt Nhóm tác giả tiến hành kiểm thử số loại văn khác bao gồm 64.000 lượt từ có nhãn từ vựng 10 nhãn cho loại ký hiệu đạt độ xác gần 94% Nhóm nghiên cứu tác giả Phan Xuân Hiếu, Nguyễn Cẩm Tú dựa mơ hình MEM CRF cài đặt ngơn ngữ lập trình Java huấn luyện liệu khoảng 10.000 câu Viet Treebank tập nhãn đạt kết 91.03% Kết cấu luận văn Luận văn tổ chức thành chương sau: Chương 1: Giới thiệu tổng quan tốn trích chọn thơng tin, tốn trích chọn thực thể văn tiếng Việt ứng dụng Chương 2: Trình bày số hướng tiếp cận đề giải tốn trích chọn thực thể phương pháp học máy, phương pháp dựa hệ luật, phương pháp lai Chương tập trung nghiên cứu tốn mơ hình Markov ẩn thuật tốn kèm theo Chương 3: Thiết kế hệ thống nhận dạng loại thực thể sử dụng mơ hình Markov ẩn Chương nghiên cứu việc gán nhãn loại thực thể nhận biết hướng phát triển luận văn thời gian tới 29 Do chất toán nhận dạng thực thể trường hợp cụ thể toán gán nhãn cho liệu dạng chuỗi, để giải toán ta cần thực qua giai đoạn sau đây: Giai đoạn 1: Phân tách từ đoạn văn Trong tiếng Việt dấu cách không mang ý nghĩa phân tách từ mà mang ý nghĩa phân tách âm tiết với Ví dụ từ “đất nước” tạo từ âm tiết “đất” “nước”, hai âm tiết có nghĩa riêng đứng độc lập với nhau, ghép lại mang ý nghĩa khác Do đặc điểm toán tách từ trở thành toán tiền đề cho ứng dụng xử lý ngôn ngữ tự nhiên khác phân loại văn bản, tóm tắt văn bản, dịch tự động… Quá trình phân tách từ chia thành bước cụ thể sau: Bước 1: Xây dựng automat âm tiết đoán nhận tất âm tiết tiếng Việt Input: Từ điển âm tiết Output: Các automat âm tiết đốn nhận Mơ tả thuật tốn: B1: Đặt trạng thái khởi đầu q0 B2: Duyệt vòng lặp hết chuỗi đầu vào, lấy âm tiết Giả sử âm tiết ký hiệu là: co,c1,….,cn-1 p:=qo; i:=0; While (i≤ n-1) BEGIN 30 Lấy ký tự ci Xét cung chuyển từ trạng thái p mà có ký tự ci Nếu có Begin: i : = i+1; p:=q end; exit END; For j = i to (n-1) Begin + Tạo trạng thái q, ghi nhận q trạng thái chưa kết thúc + Bổ sung thêm cung chuyển trạng thái(p,q) phía ghi ký tự cj + Gán: p: = q; End; Ghi nhận trạng thái q trạng thái kết thúc chuỗi đốn nhận Giai đoạn đơn giản hay phức tạp tùy theo ngôn ngữ và quan niệm đơn vị từ vựng, ví dụ ngơn ngữ tiếng Anh hay tiếng Pháp việc phân tách từ chủ yếu dựa vào ký tự trắng Tuy nhiên thực tế tồn số lượng lớn từ ghép hay cụm từ cơng cụ cịn gây nhiều tranh cãi cách xử lý Đối với văn tiếng Việt ký 31 tự trắng dấu hiệu để xác định ranh giới từ vựng việc xuất từ ghép lớn Bước 2: Xây dựng automat từ vựng đoán nhận tất từ vựng tiếng Việt Input: Từ điển từ vựng, automat âm tiết Output: Automat từ vựng Các bước thực sau: B1: Đặt trạng thái khởi đầu qo B2: Duyệt vòng lặp hết tập liệu đầu vào, lấy mục từ giả sử âm tiết từ là: so, s1,….,sn-1; B3: Sử dụng automat âm tiết đoán nhận âm tiết trên, ta ký hiệu số hiệu trạng thái là: mo, m1,….,mn-1 p :=qo; i:=0; WHILE (i ≤ n-1) Begin Lấy số mi; Tìm cung chuyển từ trạng thái p mà có ghi m i Nếu thoả mãn Begin i :=i+1; p:=q; End; 32 {exit} // Kết thúc khỏi vòng lặp END; For j= i to n-1 Begin - Tạo trạng thái q ghi nhận q trạng thái chưa kết thúc - Bổ sung thêm cung chuyển (p,q) ghi mj; - Gán p:=q End; Ghi nhận q trạng thái kết thúc Giả sử câu ban đầu dãy gồm n+1 âm tiết s0, s1….sn Ta xây dựng đồ thị có n +2 đỉnh v0, v1….vn, vn-1 thứ tự đường thẳng từ trái sang phải: đó, từ đỉnh vi đến đỉnh vj có (i

Định dạng
Số trang	49
Dung lượng	872,88 KB

Tài liệu tham khảo	Loại	Chi tiết
1. Diệp Quang Ban, (2004), Ngữ pháp Việt Nam, Nxb Đại học sư phạm 2. Nguyễn Văn Châu, Phan Thị Tươi, Cao Hoàng Trụ,(2006),” Gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính xác suất”, Tạp chí KH&CN, tập 9 số	Khác
3. Nguyễn Việt Cường. Bài toán lọc và phân lớp nội dung Web tiếng Việt với hướng tiếp cận Entropy cực đại. Luận văn tốt nghiệp ĐHCN 2005	Khác
4. Trần Thị Oanh. Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt. Luận văn cao học trường đại học Công nghệ, Đại học quốc gia Hà Nội, 2008.II. Tài liệu tham khảo bằng tiếng Anh	Khác
1. A.McCallum,D.Freitag, and F.Pereia. Maximum entropy Markov models for information extraction and segmentation. In Proc. Interrational Conference on Machine learning,2000	Khác
2. Adam Berger. The improved Iterative Scaling Algorithm: A gentle introduction. School of Coputer Science.Carnegie Mellon Unversity	Khác
3. H.M.Wallach. Efficient training of conditional random fields. Master’s thesis, University of Edinburgh,2002	Khác
4. Hana Wallach. Efficient Training of Conditional Random Fields. M.Sc. thesis, University of Edinburgh,2002	Khác
5. Ralph Grishman. Information extraction: Techniques and challenges. In Information Extraction ( Ingernational Summer School SCIE-97). Springer verlag,1997	Khác