Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
1,35 MB
Nội dung
Đại học Quốc gia Thành Phố Hồ Chí Minh Trường Đại học Cơng nghệ Thơng tin Học viên: Dương Hồng Thanh Mã số: CH0901050 Lớp Cao học CNTTQM – Khóa Giảng viên: TS Nguyễn Tuấn Đăng Tháng 04/2011 MỤC LỤC GIỚI THIỆU MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU 2.1 Tình hình nghiên cứu câu giới 2.1.1 2.1.2 Từ cuối kỷ XIX đến đầu kỷ XX 2.1.3 2.2 Thời cổ đại Từ đầu kỷ XX đến Tình hình nghiên cứu câu Việt Nam 2.2.1 2.2.2 Từ sau Cách mạng tháng Tám đến 1960 2.2.3 Từ 1960 đến 1990 2.2.4 Từ năm 1930 đến trước Cách mạng tháng Tám Từ 1990 đến CÂU TIẾNG VIỆT 3.1 Câu 3.2 Các đặc trưng câu 3.2.1 3.2.2 4.1 4.2 Nội dung câu 3.2.3 Chức câu Hình thức câu TÌM HIỀU DỰ ÁN GATE Tổng quan GATE GATE Developer 11 4.2.1 Cửa sổ GATE Developer 12 4.2.2 Nạp xem tài liệu 13 4.2.3 Tạo xem tập tài liệu 16 4.2.4 Làm việc với thích 18 4.2.5 Sử dụng Plugin CREOLE 19 4.2.6 Nạp sử dụng tài nguyên xử lý 20 4.2.7 Tạo vận hành ứng dụng 20 4.2.8 4.3 Lưu trữ ứng dụng tài nguyên ngôn ngữ 20 GATE Embedded 21 CÁC CÔNG CỤ XỬ LÝ NGÔN NGỮ CỦA GATE 22 5.1 Hệ thống chiết xuất thông tin ANNIE 22 5.2 Biểu thức quy JAPE 23 5.2.1 5.3 Mô tả hình thức JAPE 24 Chú thích phụ thuộc ngữ cảnh ANNIC 27 5.3.1 5.3.2 5.4 Khởi tạo SDD 29 Tìm kiếm kho liệu 29 Các phân tích 30 5.4.1 5.4.2 Bộ phân tích SUPPLE 32 5.4.4 6.1 Bộ phân tích RASP 31 5.4.3 Bộ phân tích MiniPar 30 Bộ phân tích Standford 33 PHÂN TÍCH CÚ PHÁP CÂU TIẾNG VIỆT 33 Xây dựng phân tích cú pháp tiếng Việt 33 6.1.1 6.1.2 6.2 Tuỳ biến plugin SUPPLE parser 34 Xây dựng quy tắc ngữ pháp tiếng Việt cho JAPE 34 Xây dựng sở liệu từ vựng tiếng Việt 34 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 34 DANH SÁCH HÌNH ẢNH Hình 1: Giao diện cửa sổ GATE Developer 12 Hình 2: Tạo tài liệu 14 Hình 3: Bộ soạn thảo tài liệu 15 Hình 4: Bộ soạn thảo tài liệu với tập thích danh sách thích 16 Hình 5: Bộ soạn thảo tập tài liệu 17 Hình 6: Bộ soạn thảo thích 19 Hình 7: Giao diện lập trình ứng dụng GATE 21 Hình 8: ANNIE LaSIE 23 Hình 9: Khung nhìn Kho liệu Thứ tự Có khả tìm kiếm 28 Hình 10: Một văn thích MiniPar 31 DANH SÁCH BẢNG BIỂU Bảng 1: BNF ngữ pháp JAPE 27 Bảng 2: Đoạn mã khởi tạo SDD 29 Bảng 3: Đoạn mã tìm kiếm kho liệu 30 DANH SÁCH TỪ VIẾT TẮT Từ viết tắt ANNIC ANNIE API CMS CPSL GATE IE IR JAPE LHS LR PR RHS SDD Ý nghĩa ANNotations-In-Context: Chú thích Phụ thuộc Ngữ cảnh A Nearly-New Information Extraction system: Hệ thống Chiết xuất Thông tin Tương đối Mới Application Programming Interface: Giao diện lập trình ứng dụng Content Management System: Hệ thống Quản lý Nội dung Common Pattern Specification Language: Ngôn ngữ Mô tả Mẫu Thông dụng General Architecture for Text Engineering: Kiến trúc Tổng quát cho Công nghệ Xử lý văn Information Extraction: Chiết xuất Thơng tin Information Retrieval: Tìm kiếm Thơng tin Java Annotation Patterns Engine: Động xử lý Mẫu Chú thích Java Left Hand Side: Vế trái Language Resource: Tài nguyên Ngôn ngữ Processing Resource: Tài nguyên Xử lý Right Hand Side: Vế phải Searchable Serial Data-store: Kho liệu Thứ tự Có khả tìm kiếm Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh GIỚI THIỆU Chế tạo hệ thống máy tính có khả giao tiếp với người ngôn ngữ tự nhiên vốn mục tiêu theo đuổi nhiều nhà khoa học suốt thời gian dài tận Tuy chưa có hệ thống máy tính thực điều này, việc nghiên cứu khám phá xử lý ngôn ngữ tự nhiên máy tính đem lại nhiều kinh nghiệm hữu ích cho người để biến ước mơ thành thực GATE dự án tham vọng muốn tạo công cụ xử lý ngôn ngữ đa năng, giúp nhà nghiên cứu ngơn ngữ tập trung vào nghiên cứu chuyên sâu loay hoay giải toán kỹ thuật Tuy ưa chuộng khắp giới, GATE lại chưa hỗ trợ việc phân tích tiếng Việt Do đó, đề tài nhằm tìm hiểu dự án GATE phương hướng áp dụng cơng cụ vào việc phân tích cú pháp câu tiếng Việt MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU 2.1 Tình hình nghiên cứu câu giới 2.1.1 Thời cổ đại Các nhà ngữ pháp Ấn Độ giải thích: “Câu đơn vị ngơn ngữ, có câu diễn đạt tư tưởng” Thế kỉ III – II TCN, Alêchxanđria định nghĩa: “Câu tổng hợp từ, biểu thị tư tưởng tương đối trọn vẹn” 2.1.2 Từ cuối kỷ XIX đến đầu kỷ XX Ngơn ngữ nói chung câu nói riêng nghiên cứu theo quan điểm khuynh hướng, trường phái Đáng ý có khuynh hướng sau: a Khuynh hướng logic – ngữ pháp (ở Nga) Khuynh hướng nyaf với quan điểm câu trùng với phán đoán logic, nên định nghĩa “Câu phán đoán biểu thị từ” b Khuynh hướng lịch sử - tâm lí Khuynh hướng lịch sử - tâm lý phản đối quan niệm trên, cho “Câu (ngữ pháp) không trùng không song song với phán đốn logic” c Khuynh hướng hình thức ngữ pháp GVHD: TS Nguyễn Tuấn Đăng Trang Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh Do q thiên hình thức ngơn ngữ, khuynh hướng hình thức ngữ pháp định nghĩa “Câu tổ hợp từ với ngữ điệu kết thúc” 2.1.3 Từ đầu kỷ XX đến Trên giới xuất trường phái ngôn ngữ học tiếng sau: a Trường phái miêu tả Mĩ (còn gọi chủ nghĩa miêu tả, chủ nghĩa phân bố) Với đại diện L Bloomfield, Z Harris, R Wells, trường phái xuất gắn liền với nhiệm vụ có tính chất lịch sử nhà ngôn ngữ học Mĩ: nghiên cứu, miêu tả ngôn ngữ thổ dân da đỏ Mĩ Trường phái ảnh hưởng chủ nghĩa hành vi mong muốn miêu tả ngôn ngữ cách khách quan, chủ trương xây dựng hệ thống kỹ thuật thủ tục để xử lý khối ngữ liệu ngôn ngữ Câu đơn vị ngôn ngữ khác miêu tả theo phương pháp: dựa vào chu cảnh, phân bố thành hợp tố trực tiếp: L Bloomfield, thủ lĩnh trường phái cho câu cấu trúc hình vị kết hợp theo quy tắc định, gọi cách ngắn gọn thành tố trực tiếp Với trường phái miêu tả, nghĩa bị gạt bỏ khỏi ngôn ngữ, không coi đối tượng nghiên cứu mà vận dụng phép thử để xác định yếu tố ngôn ngữ b Trường phái ngữ vị học Copenhague – Đan Mạch Người khởi xướng xây dựng sở lí luận trường phái Hjelmslev Chịu ảnh hưởng phương pháp cấu trúc luận F de Saussuer, Hjelmslev cho nhiệm vụ ngôn ngữ học cấu trúc luận nghiên cứu ngữ hàm – hàm số ngôn ngữ (cũng tức quan hệ) kiểu loại chúng Ngôn ngữ học phải phát ngữ hàm (quan hệ) cần đủ để miêu tả hệ thống tín hiệu nào, ngơn ngữ cách đơn giản Đóng góp Hjelmslev cho ngơn ngữ học nói chung cho ngữ pháp học nói riêng ơng phát ba loại ngữ hàm (quan hệ) chung nhất: quan hệ hai chiều hay lệ thuộc (như quan hệ chủ ngữ với vị ngữ), quan hệ lệ thuộc chiều hay quan hệ quy định (như quan hệ động từ với bổ ngữ; danh từ với định ngữ), quan hệ lệ thuộc tự hay gọi quan hệ liên hợp (ngồi ba quan hệ trên, Hjelmslev cịn nói đến quan hệ giao hốn, ln hốn thay thế) Đó quan hệ ngữ pháp để phân tích quan hệ GVHD: TS Nguyễn Tuấn Đăng Trang Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh ngữ pháp thành phần cụm từ, câu Hjelmslev người khởi xướng xây dựng lý thuyết phạm trù cách ngữ pháp (như chủ cách, tặng cách, cách cập vật) Lý thuyết mở đường cho phương pháp phân tích nghĩa thành thành tố ngữ nghĩa câu sau c Trường phái cấu trúc – chức luận (hay câu lạc ngôn ngữ học Praha) Năm 1026, Câu lạc Ngữ học Praha thành lập Tiệp Khắc sáng kiến nhà ngôn ngữ học V Mathesius, tập hợp nhiều nhà nghiên cứu ngôn ngữ ngữ văn học Slavơ German B Havrane’k, J Mukaroxski… Tham gia vào câu lạc cịn có N.S Trubetskoy, R Jakobson A Martinet – nhà cấu trúc – chức luận cổ điển ngôn ngữ học Pháp Thành tưu hồn chỉnh nhà ngơn ngữ học Praha âm vị học Ngoài âm vị học, trường pháp Praha nghiên cứu chức giao tiếp ngôn ngữ Các nhà nghiên cứu trường phái – thuộc lớp người đầu (cụ thể R Jakobson) việc nghiên cứu ngôn ngữ hoạt động giao tiếp R Jakobson đề sơ đồ tương đối hoàn chỉnh nhân tố giao tiếp, quan hệ nhân tố chức ngơn ngữ đảm nhận q trình giao tiếp Thành tựu nghiên cứu cú pháp trường phái Praha, đáng ý có: - Lý thuyết phân đoạn thực Mathesius Lý thuyết ứng dụng vào việc nghiên cứu cú pháp (như phân tích thành phần câu) nhiều ngơn ngữ cụ thể giới - Quan điểm câu tối thiểu biện pháp triển khai (mở rộng) câu tối thiểu Martinet Nhà cấu trúc – chức luận cổ điển ngôn ngữ học Pháp không tán thành quan niệm phân tích câu theo thành tố trực tiếp Bloomfield – thủ lĩnh trường phái miêu tả Mĩ Ơng cho thành phần câu khơng có vị trí ngang cần phân tích chúng thành thành tố trực tiếp Theo Martinet, vị ngữ thành phần chủ yếu câu, trung tâm liên kết thành phần khác câu Tất thành phần khác xác định nhờ quan hệ với vị ngữ Nhưng vai trị thành phần có liên quan đến vị ngữ không ngang Trong số thành phần đó, chủ ngữ chiếm vị trí đặc GVHD: TS Nguyễn Tuấn Đăng Trang Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh biệt bật, chủ ngữ thành phần triển khai vị ngữ để kết hợp chủ ngữ – vị ngữ thành câu Các thành phần khác khơng có vai trị đó, chúng bị loại bỏ mà lõi lại khơng tính chất câu – câu tối thiểu Ba trường phái ngôn ngữ học đầu kỷ XX giới thiệu chịu ảnh hưởng trực tiếp hay gián tiếp học thuyết tính hệ thống F de Saussuere, khác nhiều điểm, có chung xuất phát điểm Đó tư tưởng tính hệ thống, tức tính cấu trúc ngơn ngữ Vì mà lịch sử ngôn ngữ học, ba trường phái mệnh danh trường phái cấu trúc luận d Ngữ pháp tạo sinh (Generative Grammar) Ngữ pháp tạo sinh, học thuyết ngôn ngữ học Mĩ mà người sáng lập Noam Chomsky, đời từ năm 1957, lúc đầu nhằm phê phán mặt hạn chế chủ nghĩa miêu tả Mĩ Sau đó, với thành tựu mình, thực có sức hút mạnh mẽ ngôn ngữ học giới, tạo “cách mạng” tư phương pháp luận ngơn ngữ học Đóng góp lớn ngữ pháp tạo sinh phân biệt ngữ với ngữ thi: Ngữ hiểu biết người sử dụng ngôn ngữ có ngơn ngữ; ngữ thi sử dụng thực tế hoàn cảnh cụ thể ngữ Từ phân biệt đó, ngữ pháp tạo sinh cho rằng: ngữ pháp ngôn ngữ chế hợp thành ngữ năng, nhiệm vụ hàng đầu ngôn ngữ học phát thứ ngữ pháp đó; đối tượng hàng đầu ngữ pháp câu Theo Chomsky, đặc điểm ngữ nhờ mà hiểu tạo số lượng vơ hạn câu Đó sở tạo sinh ngữ pháp tạo sinh Tạo sinh tạo lập đơn vị - từ sở cho trước theo cấu trúc định Ngữ pháp tạo sinh ngữ pháp nhờ tạo lập vơ hạn câu ngữ pháp dựa vào sở định Một cách khái quát hơn, ngữ pháp tạo sinh hiểu ngữ pháp có khả tạo số lượng vô hạn câu ngữ pháp gán cho câu miêu tả cấu trúc Với đặc điểm đó, ngữ pháp tạo sinh đánh giá ngữ pháp có tính dự đốn (khi GVHD: TS Nguyễn Tuấn Đăng Trang Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh Lưu phục hồi tài ngun ngơn ngữ kho liệu Lưu trạng thái ứng dụng tập tin Lưu ứng dụng với tài ngun (ví dụ: GATECloud.net) 4.3 GATE Embedded Hình 7: Giao diện lập trình ứng dụng GATE Nhúng xử lý ngôn ngữ dựa GATE vào ứng dụng khác sử dụng GATE Embedded (GATE API) đơn giản: Thêm $GATE_HOME/bin/gate.jar tập tin JAR $GATE_HOME/lib vào CLASSPATH Java ($GATE_HOME thư mục gốc GATE) Báo cho Java biết GATE Unicode Kit mở rộng: -Djava.ext.dirs=$GATE_HOME/lib/ext Khởi tạo GATE với gate.Gate.init(); Lập trình cho framework API GVHD: TS Nguyễn Tuấn Đăng Trang 21 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh Ví dụ, đoạn mã sau tạo hệ thống chiết xuất thông tin ANNIE: // initialise the GATE library Gate.init(); // load ANNIE as an application from a gapp file SerialAnalyserController controller = (SerialAnalyserController) PersistenceManager.loadObjectFromFile(new File(new File( Gate.getPluginsHome(), ANNIEConstants.PLUGIN_DIR), ANNIEConstants.DEFAULT_FILE)); Bảng 1: Đoạn mã khởi tạo ANNIE Nếu muốn sử dụng tài nguyên từ plugin nào, cần phải nạp plugin trước gọi createResource: 10 11 Gate.init(); // need Tools plugin for the Morphological analyser Gate.getCreoleRegister().registerDirectories( new File(Gate.getPluginsHome(), "Tools").toURL() ); ProcessingResource morpher = (ProcessingResource) Factory.createResource("gate.creole.morph.Morph"); Bảng 2: Đoạn mã nạp plugin khởi tạo tài nguyên Thay sử dụng Factory tạo tài nguyên xử lý cách riêng rẽ, ta tạo ứng dụng GATE Developer, lưu tuỳ chọn ‘save application state’ nạp trạng thái lưu từ mã lệnh Điều giúp nạp tự động plugin nạp lưu trạng thái, ta không cần phải nạp tay Gate.init(); CorpusController controller = (CorpusController) PersistenceManager.loadObjectFromFile(new File("savedState.xgapp")); // loadObjectFromUrl is also available Bảng 3: Đoạn mã nạp trạng thái lưu CÁC CÔNG CỤ XỬ LÝ NGÔN NGỮ CỦA GATE 5.1 Hệ thống chiết xuất thông tin ANNIE GATE ban đầu xây dựng bối cảnh nghiên cứu phát triển hệ thống chiết xuất thông tin (IE) Nhiều hệ thống chiết xuất thông tin với nhiều ngơn ngữ, hình dạng, kích thước tạo sử dụng GATE với thành phần IE phân phối chung với GATE phân phối với công cụ chiết xuất thông tin gọi ANNIE, A Nearly-New IE system: hệ thống chiết GVHD: TS Nguyễn Tuấn Đăng Trang 22 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh xuất thơng tin gần (được phát triển Hamish Cunningham, Valetin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov người khác) ANNIE dựa giải thuật trạng thái hữu hạn ngôn ngữ JAPE Các thành phần ANNIE gắn kết thành luồng Hình Hình 8: ANNIE LaSIE 5.2 Biểu thức quy JAPE JAPE động xử lý mẫu thích Java JAPE cung cấp biến đổi trạng thái hữu hạn thích dựa vào biểu thức quy JAPE phiên CPSL – Common Pattern Specification Language: Ngôn ngữ Mô tả Mẫu Thông dụng JAPE cho phép ta nhận dạng biểu thức thông dụng thích tài liệu Tuy nhiên, biểu thức thông dụng áp dụng cho chuỗi, dãy tuyến tính đơn giản chứa mục, mơ hình thích GATE lại dựa đồ thị Kết việc số trường hợp, quy trình so khớp khơng thể xác định (ví dụ: kết dựa nhân tố ngẫu GVHD: TS Nguyễn Tuấn Đăng Trang 23 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh nhiên địa mà liệu lưu trữ máy ảo): có cấu trúc đồ thị so khớp, địi hỏi nhiều sức mạnh nhận dạng tự động thông thường Một ngữ pháp JAPE bao gồm tập vế, vế bao gồm tập quy luật mẫu hành động Các vế vận hành thiết lập lớp di truyền trạng thái hữu hạn Vế trái (LHS) quy luật bao gồm mô tả mẫu thích Vế phải (RHS) bao gồm lệnh thao tác thích Các thích khớp với vế trái luật tham chiếu đến vế phải ý nghĩa nhãn gắn vào yếu tố mẫu 5.2.1 Mơ tả hình thức JAPE JAPE tương tự CPSL (a Common Pattern Specification Language – Ngôn ngữ Chỉ định Mẫu Thông dụng, phát triển chương trình TISPTER Doug Appelt người khác) với vài ngoại lệ Sau ví dụ luật vế trái: Rule: KiloAmount ( ({Token.kind == "containsDigitAndComma"}):number {Token.string == "kilograms"} ):whole Một định ràng buộc xuất hai dấu ngoặc nhọn cung cấp kết hợp ký hiệu thích/ thuộc tính/ giá trị Các ký hiệu phải thoả điểm xác định đồ thị thích Một định ràng buộc phức hợp xuất dấu ngoặc đơn gắn với nhãn tốn tử ‘:’; nhãn có hiệu lực vế phải để truy cập đến thích khớp ràng buộc phức hợp Các ràng buộc phức hợp áp dụng toán tử Kleene (*, +, ?) Một dãy ràng buộc thể kết hợp tuần tự; phân chia thể ràng buộc phân cách ‘|’ Được chuyển hoá thành định dạng chấp nhận sinh phân tích JavaCC LL, phân đoạn quan trọng ngữ pháp CPSL (được mô tả Appelt, dựa hướng dẫn gốc từ nhóm làm việc TISPER điều hành Boyan Onyshkevych) trở thành sau: constraintGroup > (patternElement)+ ("|" (patternElement)+ )* patternElement > "{" constraint ("," constraint)* "}" | "(" constraintGroup ")" (kleeneOp)? (binding)? GVHD: TS Nguyễn Tuấn Đăng Trang 24 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Tại đây, dòng hai ràng buộc phức hợp patternElement Dương Hồng Thanh ràng buộc bản, dịng thứ Một ví dụ luật hồn chỉnh: Rule: NumbersAndUnit ( ( {Token.kind == "number"} )+:numbers {Token.kind == "unit"} ) > :numbers.Name = { rule = "NumbersAndUnit" } Luật nói ‘so khớp dãy số theo sau đơn vị, tạo thích Name số với thuộc tính luật mang giá trị NumbersAndUnit’ Bảng sau cung cấp mô tả BNF (Backus-Naur Format) ngữ pháp JAPE: MultiPhaseTransducer ::= ( )? ( ( ( JavaImportBlock ) ( ( ControllerStartedBlock ) | ( ControllerFinishedBlock ) | ( ControllerAbortedBlock ) )* ( SinglePhaseTransducer )+ ) | ( ( )+ ) ) SinglePhaseTransducer ::= ( ( ( )* ) | ( ( ( | ) )* ) )* ( ( Rule ) | MacroDef | TemplateDef )* JavaImportBlock ::= ( ConsumeBlock )? ControllerStartedBlock ::= ( ConsumeBlock ) ControllerFinishedBlock ::= ( ConsumeBlock ) ControllerAbortedBlock ::= ( ConsumeBlock ) Rule ::= ( )? LeftHandSide " >" RightHandSide MacroDef ::= ( PatternElement | Action ) TemplateDef ::= AttrVal LeftHandSide ::= ConstraintGroup ConstraintGroup ::= ( PatternElement )+ ( ( PatternElement )+ )* GVHD: TS Nguyễn Tuấn Đăng Trang 25 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh PatternElement ::= ( | BasicPatternElement | ComplexPatternElement ) BasicPatternElement ::= ( ( Constraint ( Constraint )* ) | ( ) ) ComplexPatternElement ::= ConstraintGroup ( KleeneOperator )? ( ( | ) )? KleeneOperator ::= ( ) | ( ( ( )? ) ) Constraint ::= ( )? ( ( FeatureAccessor AttrVal ) | ( AttrVal ) | ( ( ( Constraint ) | ( Constraint ) ) ) )? FeatureAccessor ::= ( ) AttrVal ::= ( ( | | | | ) ) | ( TemplateCall ) TemplateCall ::= ( AttrVal ( )? )* RightHandSide ::= Action ( Action )* Action ::= ( NamedJavaBlock | AnonymousJavaBlock | AssignmentExpression | ) NamedJavaBlock ::= ConsumeBlock AnonymousJavaBlock ::= ConsumeBlock AssignmentExpression ::= ( | ) ( ( AttrVal | ( ( ( ( | ) ) | ( ) ) ) ) ( )? )* appendSpecials ::= java code GVHD: TS Nguyễn Tuấn Đăng Trang 26 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh ConsumeBlock ::= java code Bảng 4: BNF ngữ pháp JAPE 5.3 Chú thích phụ thuộc ngữ cảnh ANNIC ANNIC (ANNotations-In-Context, thích phụ thuộc ngữ cảnh) hệ thống đánh mục tìm kiếm thích đầy đủ tính ANNIC cung cấp mở rộng Kho Dữ liệu Thứ tự, gọi Kho Dữ liệu Thứ tự Có khả Tìm kiếm (SDD, Searchable Serial Data-store) ANNIC đánh mục tài liệu thuộc định đạng hỗ trợ hệ thống GATE (ví dụ XML, HTML, RTF, e-mail, text, …) So với hệ thống truy vấn khác, ANNIC cịn có thêm tính xác định vấn đề đánh mục mở rộng thông tin ngôn ngữ gắn với nội dung tài liệu, độc lập định dạng tài liệu Hệ thống cho phép đánh mục chiết xuất thơng tin từ thích yếu tố chồng lấn Giao diện đồ hoạ tiên tiến cung cấp khung nhìn đồ hoạ cho dấu thích văn bản, với khả xây dựng truy vấn cách tương tác Hơn nữa, ANNIC cịn sử dụng bước đầu việc phát triển luật cho hệ thống xử lý ngơn ngữ tự nhiên cho phép tìm kiếm kiểm thử mẫu tập tài liệu GVHD: TS Nguyễn Tuấn Đăng Trang 27 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh Hình 9: Khung nhìn Kho liệu Thứ tự Có khả tìm kiếm ANNIC xây dựng Apache Lucene [10] – động tìm kiếm đầy đủ tính hiệu suất cao Java, hỗ trợ đánh mục tìm kiếm tập hợp tài liệu kích thước lớn Động IR lựa chọn khả tuỳ biến Lucene Như giải thích trên, SDD mở rộng kho liệu thứ tự Bên cạnh vị trí cố định, SDD yêu cầu người sử dụng cung cấp thêm thông tin dùng cho việc đánh mục tài liệu Một SDD khởi tạo, người dùng thêm/ bớt tài liệu/ tập tài liệu vào SDD theo cách với kho liệu khác Khi tài liệu thêm vào SDD, hệ thống cố gắng đánh mục chúng cách tự động Nó cập nhật mục có thay đổi tài liệu lưu trữ SDD loại bỏ tài liệu khỏi mục bị xố khỏi SDD Chú ý có tập thích, kiểu yếu tố cung cấp từ đầu thời gian SDD khởi tạo cập nhật thêm/ bớt tài liệu vào cở sở liệu GVHD: TS Nguyễn Tuấn Đăng Trang 28 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh 5.3.1 Khởi tạo SDD Đoạn mã sau minh hoạ việc khởi tạo SDD ngôn ngữ GATE Embbed: 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 // create an instance of datastore LuceneDataStoreImpl ds = (LuceneDataStoreImpl) Factory.createDataStore("gate.persist.LuceneDataStoreImpl", dsLocation); // we need to set Indexer Indexer indexer = new LuceneIndexer(new URL(indexLocation)); // set the parameters Map parameters = new HashMap(); // specify the index url parameters.put(Constants.INDEX_LOCATION_URL, new URL(indexLocation)); // specify the base token type // and specify that the tokens should be created automatically // if not found in the document parameters.put(Constants.BASE_TOKEN_ANNOTATION_TYPE, "Token"); parameters.put(Constants.CREATE_TOKENS_AUTOMATICALLY, new Boolean(true)); // specify the index unit type parameters.put(Constants.INDEX_UNIT_ANNOTATION_TYPE, "Sentence"); // specifying the annotation sets ”Key” and ”Default Annotation Set” // to be indexed List setsToInclude = new ArrayList(); setsToInclude.add("Key"); setsToInclude.add(""); parameters.put(Constants.ANNOTATION_SETS_NAMES_TO_INCLUDE, setsToInclude); parameters.put(Constants.ANNOTATION_SETS_NAMES_TO_EXCLUDE, new ArrayList()); // all features should be indexed parameters.put(Constants.FEATURES_TO_INCLUDE, new ArrayList()); parameters.put(Constants.FEATURES_TO_EXCLUDE, new ArrayList()); // set the indexer ds.setIndexer(indexer, parameters); // set the searcher ds.setSearcher(new LuceneSearcher()); Bảng 5: Đoạn mã khởi tạo SDD 5.3.2 Tìm kiếm kho liệu Đoạn mã sau minh hoạ việc tìm kiếm kho liệu ngôn ngữ GATE Embbed: // obtain the searcher instance GVHD: TS Nguyễn Tuấn Đăng Trang 29 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Dương Hoàng Thanh Searcher searcher = ds.getSearcher(); Map parameters = new HashMap(); // obtain the url of index String indexLocation = new File(((URL) ds.getIndexer().getParameters() get(Constants.INDEX_LOCATION_URL)).getFile()).getAbsolutePath(); ArrayList indexLocations = new ArrayList(); indexLocations.add(indexLocation); // corpus2SearchIn = mention corpus name that was indexed here // the annotation set to search in String annotationSet2SearchIn = "Key"; // set the parameter parameters.put(Constants.INDEX_LOCATIONS,indexLocations); parameters.put(Constants.CORPUS_ID, corpus2SearchIn); parameters.put(Constants.ANNOTATION_SET_ID, annotationSet); parameters.put(Constants.CONTEXT_WINDOW, contextWindow); parameters.put(Constants.NO_OF_PATTERNS, noOfPatterns); // search String query = "{Person}"; Hit[] hits = searcher.search(query, parameters); Bảng 6: Đoạn mã tìm kiếm kho liệu 5.4 Các phân tích 5.4.1 Bộ phân tích MiniPar MiniPar phân tích bề mặt Trong phiên chuyển giao parser này, nhận câu làm liệu đầu vào xác định quan hệ từ câu MiniPar phân tích câu rút thông tin như: Bổ đề (lemma) cho từ Từ loại từ Phần đầu (head) hiệu chỉnh từ Tên quan hệ phụ thuộc từ phần đầu Bổ đề cho phần đầu Trong phiên MiniPar tích hợp vào GATE (plugin ‘Parser_Minipar’), tạo thích thuộc kiểu ‘DepTreeNode’ thích kiểu ‘[relation]’ tồn phần đầu nút Tài liệu yêu cầu phải có thích thuộc kiểu ‘Sentence’, thích bao gồm chuỗi câu GVHD: TS Nguyễn Tuấn Đăng Trang 30 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh Minipar lấy câu thời điểm làm liệu đầu vào xuất dấu hiệu (token) thuộc kiểu ‘DepTreeNode’ Sau đó, gán liên hệ dấu hiệu Mỗi DepTreeNode bao gồm yếu tố gọi ‘từ’: văn thực từ Với thích thuộc kiểu ‘[Rel]’, ‘Rel’ obj, pred…, tên quan hệ phụ thuộc từ từ Mỗi thích ‘[Rel]’ gán bốn đặc điểm: child_word: văn thích child_id: Các định danh thích tác động lên từ (nếu có) head_word: văn thích phần đầu head_id: định danh thích tác động lên từ (nếu có) Hình 10: Một văn thích MiniPar 5.4.2 Bộ phân tích RASP RASP (Robust Accurate Statistical Parsing – Bộ phân tích dựa thống kê Chính xác cao) hệ thống phân tích mạnh mẽ cho tiếng Anh, GVHD: TS Nguyễn Tuấn Đăng Trang 31 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh phát triển nhóm Ngơn ngữ Tự nhiên Ngơn ngữ học Máy tính trường Đại học Sussex Plugin ‘Parser_RASP’ phát triển DigitalPebble, cung cấp bốn PR bao bọc gọi RASP module ứng dụng ngoài, thành phần JAPE làm nhiệm vụ dịch kết xuất cho ANNIE POS Tagger RASP2 Tokenizer: PR đòi hỏi thích Sentence tạo thích Token với yếu tố string Lưu ý việc phân tách câu phải tiến hành trước dấu hiệu hố; phân tách câu RegEx thích hợp cho việc (Ngồi ra, cịn dùng ANNIE Tokenizer tiếp đến phân tách câu ANNIE; đầu chúng tương thích với PR khác plugin này) RASP POS Tagger: PR đòi hỏi thích Token tạo thích WordForm với yếu tố pos, probability string RASP2 Morphological Analyser: PR địi hỏi thích WordForm (từ POS Tagger) thêm vào yếu tố lema suffix RASP2 Parser: PR địi hỏi kiểu thích tạo nhiều thích Dependency để biểu diễn phân tích ứng với câu RASP POS Converter: PR địi hỏi thích Token với yếu tố category sinh ANNIE POS Tagger tạo thích WordForm theo định dạng RASP ANNIE POS Tagger chuyển đổi dùng chung thay cho RASP2 POS Tagger 5.4.3 Bộ phân tích SUPPLE SUPPLE phân tích từ lên SUPPLE xây dựng cú pháp hình thức logic cho câu tiếng Anh Bộ phân tích hồn chỉnh theo nghĩa phân tích theo ngữ pháp tạo Trong phiên tại, có phân tích ‘tốt nhất’ chọn cuối q trình phân tích Ngữ pháp tiếng Anh cài đặt đưới dạng ngữ pháp phi ngữ cảnh giá trị thuộc tính, bao gồm ngữ pháp phụ cho danh ngữ (NP), động ngữ (VP), giới ngữ (PP), quan hệ ngữ (R) câu (S) Ngữ nghĩa gắn với quy tắc ngữ pháp cho phép phân tích sinh hình thức logic hợp thành vị từ đơn để biểu thị thực thể kiện (ví dụ: chase(e1), run(e2)) vị từ hai cho thuộc tính (ví dụ: lsubj(e1, e2)) Các (ví dụ: e1, e2) sử dụng để diễn đạt định GVHD: TS Nguyễn Tuấn Đăng Trang 32 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh danh thực thể kiện Vỏ bọc GATE SUPPLER chứa thông tin cú pháp sinh phân tích tài liệu GATE dạng thích parse chứa diễn đạt phân tích dấu ngoặc vng; thích semantics chứa hình thức logic sinh phân tích Nó sinh thích SyntaxTreeNode cho phép xem phân tích câu 5.4.4 Bộ phân tích Standford Bộ phân tích Standford hệ thống phân tích cài đặt Java nhóm Xử lý Ngôn ngữ Tự nhiên trường Đại học Standford Các tập tin liệu cung cấp từ Standford cho việc phân tích tiếng A-rập, tiếng Trung Quốc, tiếng Anh tiếng Đức Plugin ‘Parser_Standford’ phát triển đội ngũ GATE cung cấp PR (gate.stanford.Parser) hoạt động vỏ bọc xung quanh phân tích Standford diễn dịch thích GATE thành từ cấu trúc liệu phân tích Plugin cung cấp với tập tin jar thay đổi tập tin liệu nhận từ Standford Bản thân phần mềm Standford hướng tới quyền GPL hoàn toàn Bản thân phân tích huấn luyện tập văn ngôn ngữ khác, ghi website, plugin không cung cấp nghĩa Các tập tin liệu huấn luyện khơng tương thích cách cần thiết phiên khác phân tích Khơng thể tạo nhiều đối tượng PR JVM – với tập tin mơ hình ngơn ngữ Đặc biệt, PR khơng an tồn dùng mơi trường đa luồng PHÂN TÍCH CÚ PHÁP CÂU TIẾNG VIỆT GATE khơng hỗ trợ tiếng Việt Tuy nhiên, ta mở rộng công cụ cho riêng tiếng Việt Công việc cần tiến hành qua hai bước bản: 6.1 Xây dựng phân tích cú pháp tiếng Việt Có hai hướng để tạo phân tích cú pháp cho tiếng Việt, tận dụng plugin phân tích cú pháp sẵn có xây dựng dựa JAPE GVHD: TS Nguyễn Tuấn Đăng Trang 33 Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh 6.1.1 Tuỳ biến plugin SUPPLE parser Trong plugin giới thiệu plugin SUPPLE có khả định nghĩa ngữ pháp thơng qua tập tin cấu hình, nhờ tuỳ biến cho ngữ pháp tiếng Việt 6.1.2 Xây dựng quy tắc ngữ pháp tiếng Việt cho JAPE Khi tuỳ biến plugin sẵn có, ta khơng thể vượt qua giới hạn vốn có Vì thế, giải pháp tồn diện xây dựng quy tắc ngữ pháp tiếng Việt cho JAPE nhằm cung cấp khả phân tích câu tiếng Việt cho GATE 6.2 Xây dựng sở liệu từ vựng tiếng Việt Bộ phân tích cú pháp hoạt động hiệu với sở liệu từ vựng bên Việc xây dựng sở liệu trình lâu dài tốn nhiều cơng sức Do đó, ta cần phải cân nhắc việc xây dựng từ đầu kế thừa từ sở liệu sẵn có TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN GATE hệ thống xử lý ngơn ngữ tự nhiên mạnh mẽ hồn tồn thích hợp cho việc phát triển ứng dụng phân tích cú pháp câu tiếng Việt Tuy nhiên, cần tuỳ biến lại GATE để làm việc Do đó, cơng việc tiếp đến phải thực hố ý tưởng GVHD: TS Nguyễn Tuấn Đăng Trang 34 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Cao Xuân Hạo (1991), Tiếng Việt – Sơ khảo ngữ pháp chức năng, Quyển 1, Nhà xuất Khoa học Xã hội [2] Diệp Quang Ban (2000), Ngữ pháp tiếng Việt, Nhà xuất Giáo dục [3] Diệp Quang Ban (2004), Ngữ pháp tiếng Việt, Nhà xuất Ðại học Sư phạm [4] Diệp Quang Ban (2004), Ngữ pháp Việt Nam, Phần Câu, Nhà xuất Đại học Sư phạm [5] Nguyễn Thị Lương (2009), Câu Tiếng Việt, Nhà xuất Đại học Sư phạm [6] Nguyễn Thiện Giáp, Đoàn Thiện Thuật, Nguyễn Minh Thuyết (2009), Dẫn luận Ngôn ngữ học, Nhà xuất Giáo dục Tiếng Anh [7] GATE project team (2011), The GATE product family, The University of Sheffield, [Online] available at http://gate.ac.uk/family/ [8] Hamish Cunningham, Diana Maynard, Kalina Bontcheva, Valentin Tablan, Niaj Aswani, Ian Roberts, Genevieve Gorrell, Adam Funk, Angus Roberts, Danica Damljanovic, Thomas Heitz, Mark A Greenwood, Horacio Saggion, Johann Petrak, Yaoyong Li, Wim Peters et al (2011), Developing Language Proccessing Components with GATE Version (a User Guide), The University of Sheffield, Department of Computer Science [9] Kalina Bontcheva, Marin Dimitrov, Diana Maynard, Valentin Tablan, Hamish Cunningham (2002), Shallows Methods for Named Entitiy Corereference Resolution, Department of Computer Science, University of Sheffield [10] The Apache Software Foundation (2010), Welcome to Apache Lucene, [Online] available at http://lucene.apache.org ... việc phân tích tiếng Việt Do đó, đề tài nhằm tìm hiểu dự án GATE phương hướng áp dụng cơng cụ vào việc phân tích cú pháp câu tiếng Việt MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU 2.1 Tình hình nghiên cứu câu. .. Đó quan hệ ngữ pháp để phân tích quan hệ GVHD: TS Nguyễn Tuấn Đăng Trang Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh ngữ pháp thành phần cụm từ, câu Hjelmslev... Tuấn Đăng Trang Tìm hiểu GATE ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hồng Thanh Khi nói, câu có ngữ điệu kết thúc (hạ giọng câu trần thuật, cao giọng câu hỏi) Với tiếng Việt, người nói