1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt

84 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 2,73 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ XUÂN HƢƠNG ỨNG DỤNG NGÔN NGỮ TRUY VẤN PML-TQ TRONG TRUY VẤN TREEBANK TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội – 2013 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ XUÂN HƢƠNG ỨNG DỤNG NGÔN NGỮ TRUY VẤN PML-TQ TRONG TRUY VẤNTREEBANK TIẾNG VIỆT Ngành: Công Nghê ̣ Thông Tin Chuyên ngành: Hệ Thống Thông Tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ HƢỚNG DẪN KHOA HỌC: TS NGUYỄN PHƢƠNG THÁI Hà Nội – 2013 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU MỞ ĐẦU CHƢƠNG 1.1 1.2 Các tốn xử lý ngơn ngữ tự nhiên Kho ngữ liệu, treebank ứng dụng CHƢƠNG TIN 2.1 2.2 2.3 4.1 4.2 TRUY VẤN DỮ LIỆU VIETTREEBANK VỚI PML-TQ Giới thiệu công cụ TrEd Chuyển đổi VietTreebank sang định dạng PML Truy vấn liệu với PML-TQ CHƢƠNG 8 12 XÂY DỰNG TREEBANK VÀ VẤN ĐỀ TRUY VẤN THÔNG 15 Xây dựng treebank Các định dạng treebank số ngôn ngữ khác Ngôn ngữ truy vấn PML-TQ CHƢƠNG 3.1 3.2 3.3 TỔNG QUAN KẾT QUẢ THỰC NGHIỆM Môi trƣờng thực nghiệm Một số đánh giá 15 22 29 32 32 33 35 58 58 59 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 63 PHỤ LỤC I 65 PHỤ LỤC II 79 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT  Treebank: Kho ngữ liệu  TrEd: Phần mềm Tree Editor  PML (Prague Markup Language): Lƣợc đồ mã hóa treebank dựa định dạng XML  PML-TQ (Prague Markup Language - Tree Query): Ngôn ngữ truy vấn cho kho ngữ liệu đƣợc mã hóa dƣới dạng PML  POS (Part of speech): Từ loại (Ví dụ nhƣ: danh từ, tính từ, động từ…)  VLSP: Đề tài "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt" – Mã số: KC01.01/06-10 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC HÌNH VẼ Hình Ứng dụng treebank toán dịch tự động 14 Hình Ví dụ minh họa định dạng Penn Treebank 24 Hình Ví dụ minh họa định dạng VietTreebank 24 Hình Ví dụ phần đầu định dạng mã hóa Tiger-XML 25 Hình Ví dụ phần thân định dạng mã hóa Tiger-XML 26 Hình Ví dụ định dạng CoNLL ST 27 Hình Ví dụ minh họa định dạng Penn Arabic Treebank 29 Hình Dữ liệu đƣợc thể dƣới dạng đồ họa hình 31 Hình Giao diện làm việc công cụ TrEd 32 Hình 10 Lƣu đồ giải thuật chuyển đổi sang PML 34 Hình 11 Cụm danh từ đầy đủ chủ ngữ 39 Hình 12 Cụm danh từ có bốn phần tử trung tâm 40 Hình 13 Cụm từ số lƣợng có phụ từ số từ 42 Hình 14 Câu trần thuật tít báo 44 Hình 15 Câu hỏi có – không 48 Hình 16 động từ Câu có tân ngữ trực tiếp tân ngữ gián tiếp bổ nghĩa cho 50 Hình 17 Câu ghép song song 52 Hình 18 Cấu trúc câu đơn có trạng ngữ nguyên nhân 53 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC BẢNG BIỂU Bảng Tổng hợp bƣớc xây dựng treebank 15 Bảng Tập nhãn từ loại VietTreebank 17 Bảng Tập nhãn cụm từ 18 Bảng Tập nhãn mệnh đề 18 Bảng Tập nhãn chức cú pháp 19 Bảng Các công cụ hỗ trợ xây dựng treebank tiếng Việt 21 Bảng Bảng nhãn từ loại Penn Treebank 22 Bảng Bảng nhãn cú pháp Penn Treebank 23 Bảng Ví dụ câu dạng VietTreebank 31 Bảng 10 Ví dụ liệu đƣợc chuyển sang định dạng PML 31 Bảng 11 Bảng so sánh cấu trúc Penn với PML tƣơng ứng 33 Bảng 12 Tổng hợp cấu trúc câu trần thuật 44 Bảng 13 Tổng hợp nhãn chức kèm với nhãn SBAR 46 Bảng 14 Tổng hợp nhãn chức có SBAR làm bổ ngữ 47 Bảng 15 Mẫu Câu có tân ngữ trực tiếp, gián tiếp bổ nghĩa cho động từ 50 Bảng 16 Danh sách nhãn chức cú pháp số lần đƣợc gán 55 Bảng 17 Danh sách nhãn phân loại số lần đƣợc gán 56 Bảng 18 Danh sách nhãn từ loại số lần đƣợc gán 56 Bảng 19 Các từ số lần xuất 57 Bảng 20 Các mã lệnh truy vấn độ lớn 59 Bảng 21 So sánh treebank tiếng Việt với ngôn ngữ khác 61 TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Kho ngữ liệu với giải cú pháp (treebank) thành phần đóng vai trị quan lĩnh vực xử lý ngôn ngữ tự nhiên Trong lĩnh vực xử lý ngơn ngữ tự nhiên có nhiều toán cần đến kho ngữ liệu nhƣ: dịch tự động, phân tích liệu văn bản, nhận dạng tiếng nói, tìm kiếm thơng tin, Để xây dựng đƣợc kho ngữ liệu, nhà khoa học thực qua hai pha Pha xây dựng liệu tự động Tại pha nhà khoa học thƣờng sử dụng ứng dụng, chƣơng trình máy tính để thực tự động tác vụ nhƣ: tách câu, tách từ, gán nhãn cú pháp Pha 2: Tinh chỉnh liệu Tuy nhiên để có đƣợc kho ngữ liệu hữu dụng nhà khoa học cần phải đầu tƣ nhiều thời gian, công sức để tinh chỉnh lại liệu đƣợc tạo pha Một khó khăn việc tinh chỉnh kho ngữ liệu phƣơng pháp tìm kiếm thông tin hiệu kho ngữ liệu cơng cụ hỗ trợ để tìm kiếm Luận văn nỗ lực việc đề xuất giải pháp tìm kiếm kho ngữ liệu việc chuyển đổi sử dụng định dạng PML sử dụng ngôn ngữ truy vấn PML-TQ công cụ hỗ trợ việc tìm kiếm TrEd Ƣu điểm giải pháp tìm kiếm nhiều định dạng Treebank khác theo cách thống Đồng thời luận văn đƣa racác đặc điểm ngữ pháp tiếng Việt, đặc trƣng mặt ngữ pháp với câu hỏi truy vấn liên quan đƣợc phát biểu dƣới dạng khơng hình thức ngơn ngữ tự nhiên Sau câu hỏi đƣợc chuyển đổi thành câu lệnh truy vấn hình thức ngơn ngữ PML-TQ để thực tìm kiếm thơng tin với cơng cụ TrEd TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG TỔNG QUAN 1.1 Các tốn xử lý ngơn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên lĩnh vựcliên ngành bao gồm khoa học máy tính, trí tuệ nhân tạo, ngôn ngữ học để giải vấn đề tƣơng tác, trao đổi thông tin ngƣời với hệ thống máy tính thơng qua ngơn ngữ tự nhiên Do xử lý ngơn ngữ tự nhiên liên quan tới lĩnh vực tƣơng tác ngƣời-máy Xử lý ngơn ngữ tự nhiên cịn nhiều khó khăn,thách thức cần giải vấn đề liên quan tới việc hiểu ngôn ngữ tự nhiên – có nghĩa cho phép máy tính hiểu đƣợc ý nghĩa mà ngƣời cần truyền đạt văn đầu vào khác ngôn ngữ tự nhiên Lịch sử xử lý ngôn ngữ tự nhiên bắt đầu vào thập niên 1950 Vào năm 1950, Alan Turing xuất báo với tựa đề “Máy tính tính thơng minh” theo ơng đề xuất thủ tục gọi Bộ kiểm tra Turing để phục vụ việc phân loại, đánh giá mức độ thơng minh máy tính Kể từ đến có nhiều phƣơng pháp, giải thuật đƣợc nghiên cứu, đề xuất để giải toán liên quan đến vấn đề xử lý ngôn ngữ tự nhiên Một phƣơng pháp điển hình phƣơng pháp máy học Dƣới số tốn điển hình lĩnh vực xử lý ngơn ngữ tự nhiên:  Tóm tắt tự động: Sinh tóm tắt nội dung có nghĩatừ chuỗi văn Bài tốn thƣờng đƣợc áp dụng để sinh tóm tắt từ văn với khuôn dạng định sẵn nhƣ: viết mục tài tờ báo  Dịch tự động: Tự động dịch văn từ ngôn ngữ sang ngôn ngữ khác Đây tốn khó, thuộc vào phân lớp “trí tuệ nhân tạo tồn diện” (AI-complete) vì để thực đƣợc cần nhiều kiến thức có liên quan tới việc nhận thức ngƣời nhƣ: ngữ pháp, ngữ nghĩa, thực hiển nhiên giới thực… TIEU LUAN MOI download : skknchat@gmail.com  Nhận dạng chữ (OCR): Đây toán giúp biến đổi từ văn dạng hình ảnh thành dạng văn chữ thơng thƣờng  Nhận dạng giọng nói: Cho đoạn âm ngƣời nói, xác định câu văn lời nói Bài tốn ngƣợc với tốn chuyển đổi văn thành lời nói thuộc tốn cực khó lớp tốn “Trí tuệ nhân tạo tồn diện” Đối với lời nói tự nhiên hầu nhƣ khơng có điểm dừng nói, phân tách lời nói tốn nằm tốn nhận dạng giọng nói Thêm vào nói từ bị trộn vào có luyến âm việc biến đổi từ tín hiệu tƣơng tự thành từ đơn lẻ công việc khó  Trả lời câu hỏi tự động: Cho câu hỏi dƣới dạng ngôn ngữ tự nhiên đƣa câu trả cho câu hỏi Các câu hỏi thơng thƣờng thƣờng có câu trả lời xác định nhƣ “Thủ Việt Nam tên gì?” nhiên cần phải xử lý câu hỏi mở nhƣ “Ý nghĩa đời gì?”  Phân tích mối liên hệ: tốn liên quan đến loạt toán nhỏ Một tốn việc xác định cấu trúc đoạn văn đƣợc nối với Ví dụ nhƣ mối liên hệ câu nhƣ:câu bổ nghĩa,câu giải thích, câu đối lập Một tốn khác nhận diện phân loại câu chuỗi văn nhƣ: câu hỏi có-khơng, câu hỏi nội dung, câu trần thuật, câu khẳng định…  Phân tíchhình thái từ (morphological segmentation): Chia tách từ thành đơn vị từ nguyên tử (morpheme) xác định phân loại cho đơn vị từ Mức độ khó vấn đề phụ thuộc nhiều vào độ phức tạp hình thái từcủa ngơn ngữ cụ thể (cấu trúc từ ví dụ).Đối với tiếng Anhthì hình thái từ tƣơng đối đơn giản Ví dụ từ “open” có hình thái từ nhƣ “open, opens, opened, openning” Do tốn xử lý tiếng Anh tƣơng đối đơn giản mơ hình hóa hình vị từ thành từ riêng lẻ Tuy nhiên ngơn ngữ khác, ví dụ ngơn ngữ Thổ Nhĩ Kỳ, cách tiếp cận khơng thể từ có có hàng ngàn hình dạng từ khác TIEU LUAN MOI download : skknchat@gmail.com 10  Nhận dạng tên riêng: Giả sử có chuỗi văn bản, cần xác định xem thành phần văn tƣơng ứng với tên riêng, ví dụ nhƣ tên ngƣời hay tên địa điểm, đồng thời xác định phân loại cho thành phần đó, ví dụ nhƣ ngƣời, địa điểm, tổ chức Trong tiếng Anh việc sử dụng thông tin tên riêng thƣờng đƣợc bắt đầu chữ viết hoa để nhận dạng thành phần tên riêng nhiên thông tin dùng để xác định phân loại cho tên riêng Trong số ngơn ngữ khác nhƣtiếng Trung Quốc, tiếng Ả-rập khơng có chữ viết hoa Thêm có ngơn ngữ nhƣ tiếng Đức thì dùng thông tin chữ viết hoa để làm thông tin nhận dạng thành phần tên riêng tiếng Đức tất danh từ bắt đầu chữ hoa, mà khơng quan tâm danh từ có liên quan đến tên riêng hay không  Gán nhãn từ loại: Cho câu, xác định từ loại từ câu Tuy nhiên thực tế tùy vào ngôn ngữthì từ từ loại từ loại khác tùy vào ngữ cảnh Ví dụ tiếng Việt từ “đá” mang nghĩa động từ danh từ Do tốn có nhiều khó khăn phải xử lý vấn đề nhập nhằng ngơn ngữ  Phân tích cú pháp: Xây dựng cú pháp câu cho trƣớc Do ngữ pháp ngôn ngữ tự nhiên thƣờng chứa đựng yếu tố nhập nhằng câu văn thƣờng có nhiều ý nghĩa Vì thực tế, câu có hàng ngàn cách phân tích cú pháp  Phân tích tính cảm xúc: Trích xuất thơng tin quan trọng từ tập văn để xác định “tính phân cực” (chiều hƣớng cảm xúc, ý nghĩ) đối tƣợng cụ thể Điều đặc biệt hữu ích việc xác định xu hƣớng ý kiến đƣợc cơng khai mạng xã hội giúp ích cho hoạt động tiếp thị  Phân tách nhận dạng chủ đề: Cho chuỗi văn bản, tách thành văn theo chủ đề xác định chủ đề văn  Phân tách từ: Phân tách chuỗi văn liên tục thành từ riêng lẻ Đối với ngôn ngữ nhƣ tiếng Anh, thì việc đơn giản, từ TIEU LUAN MOI download : skknchat@gmail.com 70 21 Tìm cụm giới từ( PP) nonterminal $p := [ cat = 'PP']; Hƣớng dẫn tìm cụm giới từ 22 Tìm cụm từ số lƣợng phụ từ số từ nonterminal $p := [ cat = 'QP', * [ pos in {'R', 'M'} ] ]; Hƣớng dẫn tìm cụm từ số lƣợng có hai thành phần phụ số từ 23 Tìm cụm từ số lƣợng phụ từ số từ Hƣớng dẫn tìm cụm từ số lƣợng có hai thành phần phụ từ số từ 24 Tìm ngữ tình thái nonterminal $p := [ cat = 'QP', * [ pos = 'R', sibling * [ pos = 'M' ] ] ]; nonterminal $p := [ cat = 'MDP' ]; >> give count() 25 Tìm câu trần thuật (S), liệt kê cấu trúc câu trần thuật nonterminal $p := [ cat = 'S', child $c ]; 17 12130 S -> NP VP 7083 S -> NP VP 2022 S -> NP-SUB * $c := [ ]; VP >> give 1535 S -> PP , NP VP $p,$p.cat,first_defined ($c.cat,$c.pos) 1480 S -> S , S >> give $2 & " -> " & 1300 S -> NP , NP VP concat($3," " over $1 ) >> for $1 give 1185 S -> VP , NP VP count(),$1 sort by $1 desc ……………………… …… Hƣớng dẫn tìm ngữ tình thái Hƣớng dẫn tìm mẫu câu cụ thể, câu trần thuật TIEU LUAN MOI download : skknchat@gmail.com 71 2 1 1 26 Tìm câu trần thuật có chủ ngữ cụm chủ vị nonterminal $p := [ cat = 'S', child $c ]; S -> PP UCP S -> N-H SBAR S -> WHNP S -> WHRP S -> P S -> N-H S -> X 129 Hƣớng dẫn tìm câu trần thuật với điều kiện cụ thể 5144 Khơng có nhãn chức 992 PRP Phụ ngữ mục đích lý 437 DOB Chức tân ngữ gián tiếp 133 CND Phụ ngữ điều kiện 26 PRD Chức vị ngữ cụm động từ 18 CNC Phụ ngữ ý nhƣợng 10 IOB Tân ngữ Hƣớng dẫn tìm chức một thành phần câu nonterminal $c := [ functions = 'SUB', child $d ]; 27 Thống kê chức cú pháp thành phần bổ kết nonterminal $d := [ functions = 'SUB', sibling nonterminal [ cat ~ '[AVN]P' ] ]; nonterminal $p := [ cat = 'SBAR' ]; >> give $p.functions >> for $1 give count(),$1 sort by $1 desc TIEU LUAN MOI download : skknchat@gmail.com 72 gián tiếp 10 TMP Chỉ thời gian TH Thành phần thuyết câu (nhãn không dùng nữa) MNR Chỉ cách thức ADV Trạng ngữ TPC Chủ đề SUB Chủ ngữ PRR Khơng có tập nhãn 28 Thống kê nhãn nonterminal $p := mà có SBAR làm [ nonterminal thành phần bổ nghĩa [ cat = 'SBAR' ] ]; >> give $p.cat >> for $1 give count(),$1 sort by $1 desc 3082 VP Cụm động từ 1335 NP Cụm danh từ 329 S Câu trần thuật 153 AP Cụm tính từ 37 PP Cụm phó từ SQ Câu hỏi QP Cụm từ số lƣợng XP Cụm từ chƣa đƣợc phân loại WHRP Cụm danh từ Hƣớng dẫn thống kê thành phần câu quan tâm TIEU LUAN MOI download : skknchat@gmail.com 73 nghi vấn hỏi thời gian, nơi chốn SBAR Thành phần bổ kết WHNP Cụm danh từ nghi vấn (ai, gì, ) WHPP Cụm giới từ nghi vấn (với ai, cách ) 29 Câu hỏi có chƣa cụm từ nghi vấn [WH] nonterminal $p := [ cat = 'SQ', * [ cat ~ 'WH' ] ]; 30 Câu hỏi có-khơng: nonterminal $p := [ cat = 'SQ', child $vp ]; * $vp := [ child $r1, child $r2 ]; 1 * $r1 := [ pos = 'R' ]; 1 * $r2 := [ (pos = 'R' and lbrothers() > 1) ]; >> give Hƣớng dẫn tìm loại câu có khơng chƣa không không lên lại cịn có cịn đƣợc Hƣớng dẫn tìm cấu trúc thành phần câu TIEU LUAN MOI download : skknchat@gmail.com 74 lower($r1.form) & " " & lower($r2.form) >> for $1 give count(),$1 sort by $1 desc 31 Câu hỏi „có‟… „khơng‟ 1 1 khơng đƣợc khơng Hƣớng dẫn tìm loại câu cụ thể có từ cụ thể câu nonterminal $p := [ cat = 'SQ', child $vp ]; * $vp := [ child $r1, child $r2 ]; * $r1 := [ pos = 'R', form = 'có' ]; * $r2 := [ form = 'không', (pos = 'R' and lbrothers() > 1) ]; nonterminal [ cat='S',functions='EX C']; >>give count() 32 Tìm câu cảm thán 33 Tìm câu mệnh lệnh (S-CMD) nonterminal [ cat='S',functions='CM D']; >>give count() 12 34 Tìm hiểu cấu trúc câu đặc biệt = cách nonterminal $p := [ functions = 'SPL', 120 54 Hƣớng dẫn tìm câu cảm thán 46 S -> NP S -> VP Hƣớng dẫn tìm mẫu câu TIEU LUAN MOI download : skknchat@gmail.com 75 liệt kê thành phần cấu tạo nên câu 35 Tìm câu tít báo (TTL) 36 Tìm câu có nhãn chức chủ ngữ tân ngữ trực tiếp tân ngữ gián tiếp bổ nghĩa cho động từ (S (NP-SUB (P-H Tôi)) (VP (V-H tặng) (NP-DOB (N-H bạn)) (NP-IOB (Nc-H quyển) (N sách))) child $c ]; 24 S -> NP 18 S -> AP * $c := [ ]; 15 S -> C NP >> give 14 S -> NP , NP , $p,$p.cat,first_defined NP , NP , NP , NP C ($c.cat,$c.pos) NP >> give $2 & " -> " & S -> AP concat($3," " over $1 ) S -> SBAR >> for $1 give S -> QP count(),$1 sort by $1 S -> WHNP desc * 386 [ functions = 'TTL' ]; >> give count() nonterminal $p := [ cat = 'VP', child $c ]; VP -> NP-DOB 372 VP -> NP-DOB * $c := VP-IOB [ functions ~ 'OB$' ]; 352 VP -> NP-DOB >> give PP-IOB $p,$p.cat,first_defined 227 VP -> SBAR($c.cat & "-" & DOB $c.functions ,$c.pos ) 116 VP -> PP-IOB >> give $2 & " -> " & 102 VP -> PP-IOB concat($3," " over $1 ) NP-DOB >> for $1 give 68 VP -> NP-DOB count(),$1 sort by $1 NP-DOB desc 44 VP -> NP-DOB NP-IOB ………… Hƣớng dẫn tìm câu tít báo Hƣớng tìm mẫu câu TIEU LUAN MOI download : skknchat@gmail.com 76 37 Tìm câu có nhãn chức chủ ngữ tân ngữ trực tiếp tân ngữ gián tiếp bổ nghĩa cho động từ 38 Tìm thành phần khởi ngữ nhãn có chứa thành phần nonterminal $p := [ cat = 'VP', child $c, child $d ]; * $c := [ functions ~ 'DOB' ]; * $d := [ functions ~ 'IOB' ]; >> give $p,$p.cat,first_defined ($c.cat & "-" & $c.functions ,$c.pos),first_defined( $d.cat & "-" & $d.functions ,$d.pos) >> give $2 & " -> " & concat($3," " over $1)& ", "&concat($4," " over $1) >> for $1 give count(),$1 sort by $1 desc nonterminal $p := [ functions = 'TPC' ]; >> give $p.cat >> for $1 give count(),$1 sort by $1 desc 227 VP -> NP-DOB, PP-IOB 186 VP -> NP-DOB, VP-IOB ………… Tìm mẫu câu với điều kiện cụ thể 275 92 68 14 3 Hƣớng dẫn tìm thành phần với chức cụ thể tần suất sử dụng NP PP VP S AP QP SBAR WHNP TIEU LUAN MOI download : skknchat@gmail.com 77 39 Tìm câu ghép song song (là câu có trở lên) Hƣớng dẫn tìm câu ghép nonterminal $p := [ cat ~ '^S', child $s1 ]; * $s1 := [ cat ~ '^S', sibling $s2 ]; * $s2 := [ cat ~ '^S' ]; 40 Phân biệt câu ghép với câu đơn có thành phần trạng ngữ nguyên nhân: 41 Tìm cấu trúc có nếu… thì… * $p := [ * [ pos = 'C' ], * [ cat = 'S' ], * [ pos = 'C' ], * [ cat = 'S' ] ]; Nguyên tắc: Nếu câu ko có liên từ có liên từ thì câu đơn * $p := [ * [ pos = 'C', form = 'nếu' ], * [ cat = 'S' ], * [ pos = 'C', form = 'thì' ], * [ cat = 'S' ] ]; Nói tóm lại già chƣa duyệt thì chƣa đƣợc bán Hƣớng dẫn phân biệt câu ghép với câu đơn Nếu thông tin bà vợ ông Học thì ông chƣơng vợ đồn tụ bình thƣờng Hƣớng dẫn tìm câu có xuất dạng „nếu‟… „thì‟ TIEU LUAN MOI download : skknchat@gmail.com 78 42 Các thành phần rỗng * [ form in {'*T*','*E* ','*0*'} ]; >> give count() 521 43 Tìm từ „đi, số lần xuất từ, vai trò câu từ * $p := [ form = 'đi' ]; >> give $p.pos >> for $1 give $1,count() sort by $2 T V R V-H 44 Liệt kê từ chƣa * đƣợc phân loại [ pos = 'X' ]; >> give count() 369 Hƣớng dẫn tìm thành phần rỗng 77 108 785 Hƣớng dẫn tìm từ cụ thể chức từ câu Hƣớng dẫn tìm từ chƣa đƣợc phân loại TIEU LUAN MOI download : skknchat@gmail.com 79 PHỤ LỤC II HƢỚNG DẪN CÀI ĐẶT PHẦN MỀM TRED I Thiết lập môi trƣờng cho công cụ TrEd Windows Cài đặt phần mềm Perl Tiến trình cài đặt thƣ viện Strawberry Perl Cài đặt phần mềm TrEd Cài đặt TrEd TIEU LUAN MOI download : skknchat@gmail.com 80 Vì Viet-Treebank dựa định dạng Penn Treebank nên cần Update phần mở rộng để thao tác đƣợc với định dạng Penn Treebank Chạy TrEd Vào Setup/ Manage Extensions/ Get New Extensions/ Chọn phần mở rộng Penn Treebanks PML-TQ/ Install Selected Penn Treebanks: dùng cho việc làm việc với định dạng Penn PML-TQ: dùng cho truy vấn Cài đặt phần mở rộng TrEd Sau tải thành công phần mở rộng, giao diện TrEd chọn đƣợc định dạng này: Giao diện sau cài phần mở rộng TIEU LUAN MOI download : skknchat@gmail.com 81 Chuyển đổi liệu Viet-Treebank sang định dạng PML Vì TrEd sử dụng định dạng PML để làm việc nên phải chuyển toàn VietTreebank PML Trên windows, vào Start/ cmd/ perl penn2pml.pl -g 49_schema.xml 49.prd Ý nghĩa dòng là: sử dụng chƣơng trình perl, chạy script penn2pml.pl để chuyển file 49.prd định dạng PML (trong trình chạy sinh file 49_schema.xml) Nếu khơng tạo file bat để chạy tự động copy vào ổ C:\, cần copy file 49.prd penn2pml.pl vào ổ C:\ để chạy Chuyển đổi file định dạng VietTreebank PML Mở File 49.pml TrEd Một số lƣu ý làm việc với file PML Để convert từ ptb prd sang pml, file cần convert phải UTF-8 without Signature (BOM) không bị lỗi font tiếng Việt Mọi câu bắt đầu cách lùi đầu dòng Những dòng câu phải đƣợc lùi đầu dòng dòng TIEU LUAN MOI download : skknchat@gmail.com 82 Một số thao tác hay dùng với công cụ TrEd Mở file: Vào File/ Chọn Open/ Chọn đến file PML vừa convert Mở file PML Giao diện làm việc TrEd Trên giao diện muốn xem đƣợc định dạng Penn mức chuẩn nên chọn bên phải Penn_Treebank (hình dƣới) Giao diện làm việc với file PML Shift + F7: Tạo nút từ vị trí đứng F8: Xóa nút vị trí đứng (chỉ xóa đƣợc nút, ko xóa đƣợc cây) TIEU LUAN MOI download : skknchat@gmail.com 83 >Trên bàn phím: Next tree - chuyển đến file

Ngày đăng: 27/06/2022, 17:25

HÌNH ẢNH LIÊN QUAN

Bảng 1. Tổng hợp các bƣớc xây dựng một treebank - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 1. Tổng hợp các bƣớc xây dựng một treebank (Trang 15)
Bảng 2. Tập nhãn từloại trong VietTreebank - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 2. Tập nhãn từloại trong VietTreebank (Trang 17)
Bảng 3. Tập nhãn cụm từ - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 3. Tập nhãn cụm từ (Trang 18)
Bảng 4. Tập nhãn mệnh đề - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 4. Tập nhãn mệnh đề (Trang 18)
Bảng 5. Tập nhãnchức năng cú pháp - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 5. Tập nhãnchức năng cú pháp (Trang 19)
Bảng 6. Các công cụ hỗ trợ xây dựng treebank tiếng Việt - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 6. Các công cụ hỗ trợ xây dựng treebank tiếng Việt (Trang 21)
a) Bảngnhãn từloại - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
a Bảngnhãn từloại (Trang 22)
Bảng 8. Bảngnhãn cú pháp trong Penn Treebank - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 8. Bảngnhãn cú pháp trong Penn Treebank (Trang 23)
2.2.5 Định dạng Penn Arabic Treebank - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
2.2.5 Định dạng Penn Arabic Treebank (Trang 27)
Liberman năm 1999). Annotation Graph là một bộ khung hình thức đƣợc đề xuất, phát triển và áp dụng cho việc gán nhãn thông tin ngôn ngữ, theo đó việc  mã hóa từ vựng, vấn đề phân tích hình thái từ đƣợc thực hiện thông qua một tập  các quy tắc toán học tƣơ - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
iberman năm 1999). Annotation Graph là một bộ khung hình thức đƣợc đề xuất, phát triển và áp dụng cho việc gán nhãn thông tin ngôn ngữ, theo đó việc mã hóa từ vựng, vấn đề phân tích hình thái từ đƣợc thực hiện thông qua một tập các quy tắc toán học tƣơ (Trang 28)
Bảng 9. Ví dụ câu ở dạngVietTreebank - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 9. Ví dụ câu ở dạngVietTreebank (Trang 31)
Lƣu đồ giải thuật của chƣơng trình chuyển đổi đƣợc thể hiện ở hình vẽ dƣới đây.  - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
u đồ giải thuật của chƣơng trình chuyển đổi đƣợc thể hiện ở hình vẽ dƣới đây. (Trang 34)
Bảng 12. Tổng hợp các cấu trúc câu trần thuật - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 12. Tổng hợp các cấu trúc câu trần thuật (Trang 44)
Bảng 13. Tổng hợp cácnhãn chức năng đi kèm với nhãn SBAR - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 13. Tổng hợp cácnhãn chức năng đi kèm với nhãn SBAR (Trang 46)
Bảng 14. Tổng hợp cácnhãn chức năng có SBAR làm bổ ngữ 3.3.3.3 Câu hỏi   - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 14. Tổng hợp cácnhãn chức năng có SBAR làm bổ ngữ 3.3.3.3 Câu hỏi (Trang 47)
Bảng 15. Mẫu Câu có tân ngữ trực tiếp, gián tiếp bổnghĩa cho động từ  - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 15. Mẫu Câu có tân ngữ trực tiếp, gián tiếp bổnghĩa cho động từ (Trang 50)
Bảng 16. Danh sách nhãnchức năng cú pháp và số lần đƣợc gán - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 16. Danh sách nhãnchức năng cú pháp và số lần đƣợc gán (Trang 55)
Bảng 17. Danh sách nhãn phân loại và số lần đƣợc gán Nhãn từ loại (part of speech - pos)  Số lần đƣợc gán  - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 17. Danh sách nhãn phân loại và số lần đƣợc gán Nhãn từ loại (part of speech - pos) Số lần đƣợc gán (Trang 56)
Bảng 19. Các từ và số lần xuất hiện - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 19. Các từ và số lần xuất hiện (Trang 57)
Bảng 20. Các mã lệnh truy vấn độ lớn của cây - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 20. Các mã lệnh truy vấn độ lớn của cây (Trang 59)
Bảng 21. So sánh treebank tiếng Việt với các ngôn ngữ khác - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng 21. So sánh treebank tiếng Việt với các ngôn ngữ khác (Trang 61)
I. Bảng tổng hợp các lệnh truy vấn liên quan đến độ lớn của VietTreebank  - (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt
Bảng t ổng hợp các lệnh truy vấn liên quan đến độ lớn của VietTreebank (Trang 65)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w