1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu về phương pháp và thuật toán xây dựng kho ngữ liệu thô tiếng Việt từ Internet

26 563 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 397,93 KB

Nội dung

1 PHẦN MỞ ĐẦU Những năm gần đây, xử lí ngôn ngữ tự nhiên trở thành lĩnh vực khoa học công nghệ coi mũi nhọn, với loạt ứng dụng liên quan đến Internet Web, tìm kiếm trích chọn thông tin Web, khai phá văn bản, v.v Vấn đề phân tích hiểu tự động văn vấn đề lớn phức tạp việc hiểu ngôn ngữ tự nhiên, tích hợp hầu hết ứng dụng xử lí văn tự động Quá trình thường chia thành mức bản: mức ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa, mức ngữ dụng mức diễn ngôn Để giải vấn đề trên, nhiều kho ngữ liệu lớn đời phục vụ cho việc huấn luyện mô hình xử lý ngôn ngữ Hiện liệu Internet nhiều mô hình thống kê dựa liệu cho thấy tính vượt trội so với cách tiếp cận dựa luật Hiện tại, kho ngữ liệu lớn phục vụ cho tiếng Việt Vì việc xây dựng, chuẩn hóa khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt cần thiết Mục tiêu Xây dựng, chuẩn hóa khai thác kho ngữ liệu tiếng Việt: - Xây dựng kho ngữ liệu thô có kích thước lớn (hàng GB) từ Internet - Xây dựng chuẩn hóa mô hình giải tiếng Việt - Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng - Khai thác kho ngữ liệu giải cú pháp phục vụ toán phân tích cú pháp tiếng Việt Phạm vi nghiên cứu luận án Để đạt mục đích trên, phạm vi nghiên cứu luận án tập trung vào mức hình thái mức cú pháp, cụ thể là: - Nghiên cứu phương pháp thuật toán xây dựng kho ngữ liệu thô tiếng Việt từ Internet - Nghiên cứu xây dựng triển khai số chuẩn hóa mô hình giải phát triển tiểu ban kỹ thuật ISO/TC 37/SC cho tiếng Việt phục vụ việc phân phối trao đổi ngữ liệu - Khai thác kho ngữ liệu thô xây dựng quan hệ ngữ pháp - Nghiên cứu phát triển thuật toán trích rút tự động luật văn phạm từ kho ngữ liệu giải cú pháp phục vụ cho phân tích cú pháp sử dụng hệ hình thức văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) văn phạm kết nối (TAG) Nghiên cứu xây dựng công cụ phân tích cú pháp tự động cho tiếng Việt Bố cục luận án: Luận án chia thành năm chương: Chương Tổng quan kho ngữ liệu; Chương Xây dựng kho ngữ liệu thô từ Internet; Chương Chuẩn hóa mô hình giải tiếng Việt; Chương Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt; Chương Khai thác kho ngữ liệu có giải cho phân tích cú pháp tiếng Việt; Cuối phần kết luận luận án CHƯƠNG TỔNG QUAN VỀ KHO NGỮ LIỆU 1.1 Kho ngữ liệu văn Kho ngữ liệu tập hợp lớn văn bản.Thông tin ngôn ngữ sở tri thức ngôn ngữ học, sử dụng việc phân tích thống kê kiểm tra giả thiết ngôn ngữ, kiểm tra xuất xác nhận quy tắc ngôn ngữ Kho ngữ liệu chứa văn ngôn ngữ (kho ngữ liệu đơn ngữ) chứa văn nhiều ngôn ngữ (kho ngữ liệu đa ngữ) Các văn dạng thô- chưa tách từ giải ngôn ngữ tách từ, giải ngôn ngữ (mức từ loại, mức cú pháp) Các kho ngữ liệu giải mức cú pháp gọi ngân hàng cú pháp (treebank) Kho ngữ liệu thu thập từ nhiều nguồn tạp chí, sách báo, báo điển tử, sách giáo khoa, Ineternet thông qua trang web 1.2 Xây dựng kho ngữ liệu văn Qua khảo sát số kho ngữ liệu lớn có giải giới cho thấy việc xây dựng kho ngữ liệu thực thông qua hai phương pháp chính: Thứ nhất: Thủ công bán thủ công, thực qua hai bước chính: Bước 1.Thu thập kho văn thô: Nguồn gốc thu thập liệu từ tạp chí, sách báo, báo điển tử, sách giáo khoa Bước Chú giải ngôn ngữ: Công việc thực thủ công sử dụng công cụ tồn Thứ hai Xây dựng tự động từ Internet, thực qua bước chính: Bước 1.Lựa chọn danh sách từ hạt giống có tần suất xuất trung bình Bước 2.Thu thập liệu từ Web cách sử dụng từ hạt giống để tạo truy vấn thông qua cổng tìm kiếm Yahoo Google tải trang kết Bước 3.Làm văn bản, loại bỏ thông tin quảng cáo thông tin nhiễu khác Bước 4.Loại bỏ văn trùng lặp Bước 5.Chú giải ngôn ngữ chuẩn hóa 1.3 Chuẩn hoá kho ngữ liệu Vấn đề chuẩn hoá mô hình giải kho ngữ liệu vấn đề quan trọng, nhằm mở rộng đến mức tối đa phạm vi sử dụng khai thác tài nguyên đặc biệt máy tính, vấn đề quan tâm tiểu ban kĩ thuật ISO/TC 37/SC Một số mô hình giải kho ngữ liệu phát triển tiểu ban kĩ thuật ISO/TC 37/SC như mô hình giải hình thái cú pháp (MAF Morphosyntactic Annotation Framework), mô hình giải cú pháp (SynAF - Syntactic Annotation Framework), mô hình giải ngôn ngữ (LAF - Linguistic Annotation Framework), mô hình giải ngữ nghĩa (SemAF – Semantic Annotation Framework) 1.4 Khai thác kho ngữ liệu Kho ngữ liệu nguồn tài nguyên quan trọng việc nghiên cứu xử lý ngôn ngữ tự nhiên Với kho ngữ liệu văn bản, tách từ kho ngữ liệu giải mức cú pháp, khai thác làm liệu huấn luyện liệu đánh giá cho cho mô hình công cụ học máy phục vụ cho xử lý ngôn ngữ, khai thác cho văn phạm phục vụ cho việc phân tích cú pháp khai thác cho việc xây dựng từ điển (đơn ngữ, đa ngữ), dịch tự động v.v 1.5 Xây dựng, chuẩn hóa khai thác kho ngữ liệu tiếng Việt Xây dựng: Nghiên cứu từ vựng đòi hỏi xây dựng kho ngữ liệu có kích thước lớn tốt Ý tưởng chủ đạo phương pháp xây dựng kho ngữ liệu thu thập tự động kho ngữ liệu văn từ Internet thông qua địa trang web (URL) Phương pháp sử dụng giống phương pháp sử dụng cho tiếng Anh số ngôn ngữ phổ biến khác, chi thành bước Vấn đề quan trọng cần làm lập danh sách từ hạt giống cho ngôn ngữ.Trong đó, để phù hợp với trang web tiếng Việt, thuật toán bước phát triển lựa chọn, đặc biệt thuật toán trích rút tự động nội dung văn trang web cải tiến nhằm giảm thiểu liệu nhiễu nội dung văn cần lấy Chuẩn hoá kho ngữ liệu: Hiện nay, mô hình giải ngôn ngữ MAF, SynNaf, LAF chưa nghiên cứu biểu diễn cho tiếng Việt Trong luận án đưa mô hình MAF để biểu diễn giải hình thái cú pháp từ mô hình SynNaf để biểu diễn giải cú pháp câu cho tiếng Việt Khai thác kho ngữ liệu: Trong luận án tác giả sâu vào khai thác kho ngữ liệu cho nghiên cứu từ vựng phân tích cú pháp tiếng Việt: - Luận án lựa chọn nghiên cứu hệ thống truy vấn kho ngữ liệu Sketch Engine phục vụ cho việc nghiên cứu từ vựng, hai lý do; Thứ nhất: Skech Engine - Hệ thống truy vấn kho ngữ liệu cho phép người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp cung cấp thống kê tần suất xuất từ theo quan hệ ngữ pháp, tra cứu từ đồng phản nghĩa, so sánh thông tin hai từ tương tự nha v.v Hệ thống sử dụng cho nhiều ngôn ngữ khác chưa sử dụng cho tiếng Việt Thứ 2: Đối với tiếng Việt, nhà làm từ điển thường có công cụ để tra cứu ngữ cảnh từ kho ngữ liệu, chưa có thống kê tự động để so sánh, chọn lọc ngữ cảnh Việc sử dụng công cụ hệ thống Sketch Engine hữu ích, giúp cải thiện quy mô chất lượng từ điển - Mọi phân tích cú pháp cần luật cú pháp, hay gọi văn phạm, biểu diễn hệ văn phạm hình thức cụ thể Đối với tiếng Việt, với dự án KC01.01/06-10 tồn số kho ngữ liệu tiếng Việt ngân hàng câu giải cú pháp (VietTreeBank), từ điển điện tử…Trong luận án sâu vào nghiên cứu xây dựng thuật toán trích rút tự động văn phạm phi ngữ cảnh (CFG) văn phạm kết nối (TAG) từ VietTreebank từ điển cho tiếng Việt lý sau: Thứ nhất, từ điển VietTreebank có sở ngôn ngữ học vững chắc, bao gồm lý thuyết văn phạm cảm sinh khởi xướng Chomsky lý thuyết ngữ pháp chức Đây lý thuyết có ảnh hưởng lớn nghiên cứu ngôn ngữ học lẫn ngôn ngữ học tính toán Trong tiếng Việt, ảnh hưởng thể điển hình qua nghiên cứu Vũ Dũng Cao Xuân Hạo Thứ hai, văn phạm CFG văn phạm tiêu biểu sử dụng toán phân tích cú pháp thành phần lần đề xuất Chomsky Đây văn phạm đơn giản, làm tảng đặc trưng cho cú pháp thành phần.Thứ ba, văn phạm TAG - lớp văn phạm cảm ngữ cảnh yếu, tức có khả sinh mạnh văn phạm phi ngữ cảnh, độ phức tạp thời gian phân tích cú pháp TAG đa thức (O(n6)) Văn phạm hình thức LTAG phù hợp với ứng dụng ngôn ngữ học Khả chuyển đổi văn phạm LTAG sang hệ hình thức văn phạm hợp khác LFG (Lexical Functional Grammar) hay HPSG (Head-driven Phrase Structure Grammar) chứng minh 1.6 Kết luận Chương trình bày tổng quan kho ngữ liệu, số kho ngữ liệu tiêu biểu giới, nghiên cứu việc xây dựng khai thác kho ngữ liệu chuẩn, mô hình chuẩn hóa kho ngữ liệu theo tiêu chí tiểu ban kỹ thuật ISO/TC 37/SC Trên sở xác định mục tiêu cho việc xây dựng khai thác kho ngữ liệu từ Internet cho tiếng Việt CHƯƠNG XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET 2.1 Giới thiệu Chương trình phương pháp xây dựng kho ngữ liệu thô tiếng Việt từ Internet, phương pháp sử dụng phát triển từ phương pháp xây dựng cho tiếng Anh số tiếng phổ biến khác 2.2 Xây dựng kho ngữ liệu thô Phương pháp thu thập kho ngữ liệu sử dụng dựa phương pháp Aidan Finn A.Kilgarriff, thuật toán thu thập kho ngữ liệu chi tiết bước lựa chọn phát triển để phù hợp phù hợp với tiếng Việt Về bản, trình thu thập kho ngữ liệu từ Internet phát triển bước giới thiệu mục 1.5 2.2.1 Lựa chọn danh sách từ hạt giống Từ hạt giống đóng vai trò từ khóa tìm kiếm việc thu thập kho ngữ liệu văn ngôn ngữ Đây phải từ đặc trưng cho ngôn ngữ, tức phải có tần suất xuất đáng kể có tính phân biệt so với từ ngôn ngữ khác Đối với tiếng Việt, danh sách từ hạt giống thu thập từ việc phân đoạn từ câu trang Wiki tiếng Việt Thuật toán phân đoạn từ đơn giản sử dụng duyệt theo câu từ trái sang phải, chọn ranh giới từ cho từ thu có nhiều âm tiết so sánh với danh sách từ từ tiếng Việt (word list) Cách lựa chọn rõ ràng xác, sai số chấp nhận cho mục đích lập danh sách tần suất từ; Sau lựa chọn từ hạt giống từ danh sách tần suất; tiêu chí chọn từ hạt giống ngôn ngữ khác nhau, tiếng Việt tiêu chí chọn từ hạt giống phải có kí tự Unicode không thuộc phạm vi ASCII, từ khác không xét, chữ số mục kí tự bị loại trừ Danh sách từ hạt giống, xếp theo chiều giảm dần tần suất, 1000 từ có tần suất cao bỏ qua chúng thường coi từ dừng (stop word) máy tìm kiếm, 5000 từ danh sách tần suất thuộc nhóm từ có tần suất trung bình sử dụng làm từ hạt giống 2.2.2 Thu thập địa URL Về bản, trình thu thập thực qua bước Bước1 Sinh truy vấn: Lựa chọn ngẫu nhiên số từ số từ hạt giống để tạo nên truy vấn Bước 2.Thu thập URL: Gửi truy vấn tới máy tìm kiếm Tải tất tài liệu kết máy tìm kiếm lưu lại Quá trình lặp lặp lại nhiều lần kho ngữ liệu đủ lớn Nếu nhiều URL giống loại bỏ giữ lại URL 2.2.3 Lọc nội dung trang web (URLs) Chỉ thu lấy trang HTML có dung lượng lớn KB (để xác suất tệp chứa văn liên quan lớn hơn) Các tệp có dung lượng lớn MB loại bỏ để tránh tệp thuộc miền đặc biệt thống trị thành phần kho ngữ liệu, tập tin có độ lớn thường xuyên đăng nhập vào tập tin văn kết nối khác; Những trang tải bao hàm dấu HTML, văn ‘boilerplate’ menu, quảng cáo Đó phần tài liệu không hợp pháp, tạm gọi phần đánh dấu.Thuật toán rút trích phần thân văn BTE (Body Text Extraction) (Thuật toán 2.5) phát triển từ thuật toán gốc Aidan Fin - loại bỏ phần đánh dấu trích rút văn kết nối Độ phức tạp thuật toán O (n2) Sau bước thuật toán: Bước 0: Mỗi trang web tương ứng với tệp định dạng HTML Làm mã HTML cách loại bỏ thẻ, đoạn mã HTML chắn không chứa thông tin liên quan đến nội dung thẻ , , , ,, … phần nội dung HTML nằm bên cặp thẻ trang web Bước 1: Đối với phần trang web lại, xây dựng hai mảng, binary_tokens[] tokens[]; Binary_tokens[] gồm phần tử (thẻ HTML) -1 (dấu hiệu văn bản);Tokens[] mảng gồm phần tử dấu hiệu văn bản/thẻ tương ứng với phần tử binary_tokens[]; Gộp phần tử liền có giá trị giống mảng binary_tokens[] lại làm thành phần tử lưu vào mảng encode[]; Bước 2: Xác định vị trí hai điểm i, j từ mảng binary.tokens[]vừa thu bước cho số phần tử -1 (tương ứng với dấu hiệu văn bản) [i,j] lớn số phần tử (tương ứng với thẻ) khoảng [i,j] lớn Tiến hành bóc tách liệu đoạn [i,j] loại bỏ thẻ HTML Chỉ thu thập nội dung văn trang web có đủ độ lớn kiểm tra tính kết nối.Các trang web thu kiểm tra xem có độ lớn thỏa mãn (>5KB Trong VietTreebank nhãn từ loại từ vựng cần thống lại theo tiêu chí chung (sử dụng từ loại chung hay tiểu từ loại) Thuật toán xây dựng sở (khởi tạo) từ từ điển phụ trợ chưa xây dựng, từ điển giải thành phần phụ cho mục từ tương đối đơn giản Trong từ điển giải cú pháp cho vị từ động từ, chưa giải hết trường hợp khác nên số sinh chưa bao phủ nhiều VietTreebank, cần bổ sung thêm khung vị từ khác (danh từ, tính từ, giới từ) vào từ điển Danh sách thu có VietTreebank từ điển cung cấp tri thức ngôn ngữ để lọc số không hợp lệ với quy tắc ngữ pháp trích rút từ VietTreebank (do phần mềm trích rút tự động văn phạm LTAG), ví dụ, (VP (A tạm)); (S (VP (N nói)) (+NP)); (VP (N tai nạn) (+n));(VP (N nước)), có số VietTreebank có nhiều đối (nhiều có nhiều đối) sở từ điển có đối nhiều Từ điển tiếng Việt cho máy tính xây dựng từ chuyên gia ngôn ngữ, thông tin cú pháp từ vựng trích rút từ xác Bởi tốt cho phân tích cú pháp kết hợp văn phạm LTAG thu từ từ điển văn phạm LTAG thu VietTreebank 23 5.5 Kết luận Trong chương luận án xây dựng thuật toán, hệ thống trích rút tự động luật văn phạm PCFG từ VietTreebank, đồng thời xây dựng hệ thống phân tích cú pháp câu tiếng Việt theo phương pháp thống kê văn phạm PCFG, thuật toán phân tích cú pháp cải tiến từ thuật toán PCYK D.Jurafsky and Martin, hệ thống có tên VNNLP; Nghiên cứu văn phạm LTAG, thuật toán trích rút tự động luật văn phạm LTAG Thực trích rút tập cú pháp LTAG tiếng Việt Triển khai xây dựng thuật toán trích rút LTAG từ từ điển tiếng Việt So sánh, đánh giá tập trích rút từ VietTreebank, lọc không hợp lệ với cấu trúc ngữ pháp tiếng Việt KẾT LUÂN 1.Các kết đạt Kết nghiên cứu luận án có ý nghĩa khoa học thực tiễn với đóng góp sau: - Phát triển thuật toán thu thập văn tiếng Việt từ web để xây dựng kho ngữ liệu Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có tên Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ Internet (100 triệu từ) - Xây dựng mô hình giải mức hình thái-cú pháp (MAFMorphosyntactic Annotation Framework) mô hình giải mức cú pháp (SynAF-Syntactic Annotation Framework) cho kho ngữ liệu tiếng Việt - Xây dựng quan hệ ngữ pháp tiếng Việt (37 quan hệ ngữ pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ liệu xây dựng từ Internet (kho ngữ liệu thô tách từ gán nhãn từ loại cách sử dụng công cụ sẵn có) quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng Việt vào hệ thống nghiên cứu từ vựng Sketch Engine, kết cho thấy quan hệ ngữ pháp phù hợp với kho ngữ liệu tiếng Việt thu thập từ Internet hệ thống Sketch Engine 24 - Xây dựng thuật toán, hệ thống trích rút tự động luật văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) từ kho văn gán nhãn cú pháp VietTreebank Đồng thời xây dựng hệ thống phân tích cú pháp câu tiếng Việt theo phương pháp thống kê văn phạm PCFG, thuật toán phân tích cú pháp cải tiến từ thuật toán PCYK Martin Tham gia triển khai thuật toán trích rút văn phạm kết nối (TAG) từ VietTreebank Xây dựng, triển khai thuật toán trích rút cho văn phạm TAG từ từ điển tiếng Việt So sánh tập trích rút từ VietTreebank từ điển tiếng Việt để lọc không hợp lệ với cấu trúc ngữ pháp tiếng Việt đánh giá độ tốt VietTreebank từ điển Hướng nghiên cứu - Triển khai mô hình bán giám sát kết hợp sử dụng kho ngữ liệu gán nhãn kho ngữ liệu thô có kích thước lớn để xây dựng công cụ gán nhãn từ loại tiếng Việt đạt hiệu suất cao - Mở rộng VietTreebank tìm hiểu thêm số văn phạm cho vấn đề phân tích cú pháp Nghiên cứu triển khai hệ thống phân tích cú pháp văn phạm LTAG kết hợp xác suất - Nghiên cứu xây dựng khai thác kho ngữ liệu ngôn ngữ mức cao ngữ nghĩa - Ứng dụng chuẩn quốc tế giải ngữ liệu cho tiếng Việt mức hình thái-cú pháp, cú pháp, ngữ nghĩa, v.v DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN [1] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Lưu Văn Tăng, Xây dựng sơ đồ mã hóa công cụ trợ giúp gán nhãn tiếng Việt, Proceedings of ICT.rda'08 Hanoi Aug 8-9, 2008 [2] Lê H.Phương, Ng.T.M Huyền, Nguyễn Phương Thái, Phan thị Hà, Trích rút tự động văn phạm LTAG cho tiếng Việt, Tạp chí Tin học Điều khiển học, Tập 26 số 2, 2010 [3] Phan Thị Hà, Nguyễn Thị Minh Huyền, Rút trích tự động văn phạm CFG từ VietTreebank cho phân tích câu tiếng Việt, Tạp chí Khoa học Công nghệ trường đại học, Số 80, 2011 [4] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam Kilgarriff, Siva Reddy, Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine, Tạp chí Tin học Và Điều khiển học, Tập 27 số 3, 2011 [5] Phan Thị Hà, Trịnh thị Vân Anh, Một số vấn đề phân tích tự động cú pháp tiếng Việt, Hội thảo Khoa học công nghệ, Học viện CNBCVT, Hà nội 16-9, 2011 [6] Phan Thị Hà, Hà Hải Nam, Automatic main text extraction from web pages, Tạp chí Khoa học Công nghệ, Viện Khoa Học Việt Nam, Tập 51, Số 1, 2013

Ngày đăng: 21/11/2016, 02:53

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w