TRƯỜNG ĐẠI HỌC KIÊN GIANG KHOA THÔNG TIN & TRUYỀN THÔNG BÁO CÁO HỌC PHẦN TRÍ TUỆ NHÂN TẠO ĐỀ TÀI Phân tích một câu trong tiếng Việt (Nó mua một cuốn sách rấy hay) Sinh viên thực hiện Mony Rithyr[.]
TRƯỜNG ĐẠI HỌC KIÊN GIANG KHOA THÔNG TIN & TRUYỀN THÔNG - - BÁO CÁO HỌC PHẦN TRÍ TUỆ NHÂN TẠO ĐỀ TÀI: Phân tích câu tiếng Việt (Nó mua sách rấy hay) Sinh viên thực hiện: Mony Rithyrattanak (2006206112) Tom Inthaphannha(200620611) Ae Phommaxay(2006206113) GVHD: Ths Nhan Thanh Nhã THÁNG 11 NĂM 2022 i h NHẬN XÉT GIẢNG VIÊN Giảng viên nhận xét (Ký rõ ghi rõ họ tên) ii h Mục lục LỜI CẢM ƠN CHƯƠNG1 BIỂU DIỄN TRI THỨC SỬ DỤNG PHÂN TÍCH CÂU TRONG TIẾNG VIỆT 1.Giới thiệu về cách phân tích câu: 1.1.Lý chọn đề tài 1.2.Tính 1.2.1.Tách từ 1.2.2.Gán nhãn từ loại 1.2.3.Nhân dạng tên thực thể 1.2.4.Sửa lỗi tả 1.3 Sơ lược ngôn ngữ 1.4 Xử lý ngôn ngữ 1.4.1 Ngơn ngữ hình thức – Formal Language 1.5 Các khái niệm 1.6 Văn Phạm – Grammar : G = { N, Σ, P, S} 1.7 Giải thuật phân tích cú pháp Earley 1.7.1 Giải thuật: 1.7.2 Ví dụ: 1.8 Xử lý tiếng Việt 1.9 Các ứng dụng xử lý ngôn ngữ để phân tích câu Lời kết 10 CHƯƠNG2.CƠ SỞ LÝ THUYẾT 11 2.1Về phương pháp phân tích câu theo cấu trúc vị từ - tham thể 11 2.2Những kết luận chính: 11 2.3Về phương pháp phân tích câu theo cấu trúc vị từ - tham thể 11 Đặt vấn đề 11 iii h 2.4Nội dung 12 2.5Tham thể bắt buộc (TTBB) tham thể mở rộng (TTMR) .13 2.6Tên gọi tham thể 13 CHƯƠNG3.NỘI DUNG THỰC HIỆN 18 CHƯƠNG4 KẾT QUẢ ĐẠT ĐƯỢC 25 CHƯƠNG HƯỚNG PHÁT TRIỂN 31 6.TÀI LIỆU THAM KHẢO 32 iv h LỜI CẢM ƠN Chúng em xin chân thành cảm ơn Khoa Công Nghệ Thông Tin trường đại học Kiên Giang tạo điều kiện thuận lợi cho chúng em học tập thực đề tài nhóm chúng em xin bày tỏ lòng biết ơn sâu sắc tới thầy Nhan Thanh Nhã tận tình hướng dẫn bảo nhóm chúng em trình thực đề tài Chúng em xin chân thành cảm ơn quý thầy cô khoa Công nghệ Thơng tin tận tình giảng dạy, trang bị cho chúng em kiến thức quý báu năm vừa qua Chúng xin chân thành cảm ơn ông bà, cha mẹ động viên ủng hộ vật chất lẫn tinh thần suốt thời gian qua Nhóm chúng em xin cảm ơn quan tâm giúp đỡ ủng hộ anh, chị, bạn bè q trình thực khóa đề tài Mặc dù cố gắng hoàn thành báo cáo phạm vi khả cho phép chắn không tránh khỏi thiếu sót Nhóm chúng em mong nhận thơng cảm, góp ý tận tình bảo quý thầy cô bạn Trân thành cảm ơn! v h CHƯƠNG1 BIỂU DIỄN TRI THỨC SỬ DỤNG PHÂN TÍCH CÂU TRONG TIẾNG VIỆT 1.Giới thiệu về cách phân tích câu: 1.1.Lý chọn đề tài Đối với nhiềi quan điểm cú pháp đại, câu đối tượng trung tâm cú pháp Câu tiếng Việt đơn vị cấu trúc lớn tổ chức ngữ pháp câu ngữ Việt Ở tiếng Việt từ trước đến hướng phân tích câu phổ biến hướng phân tích ngứ pháp theo cấu trúc chủ-vị ( chủ ngữ - vị ngữ ) Hướng xuất phát từ góc độ cấu trúc hình thức, vào hình thức biển vai trị cú pháp phận câu để phận câu để phân biệt thành phần chính, thành phần phụ Tuy nhiên, tiếng Việt thứ tiếng phi hình thái, thuộc loại hình ngơn ngữ đơn lập, việc nhận diện thành phần câu bên cạnh tiêu chí hình thức cịn dùng tiêu chí nghĩa Xét cách tổng quát, phương pháp phân tích câu theo cấu trúc chủ - vị lộ ưu nhược điểm định, cụ thể tính trạng nhập nhằng , khơng rõ ràng vài thành phần câu Do hướng nghiên cứu ngày sâu cấu trúc chủ vvij ( chủ ngữ - vị ngữ ) ngữ pháp truyền thống bính diện lý thuyết thơng tin cịn xuất phát triển hướng phân tích câu theo cấu trúc nêu – báo Có thể nói ngơn ngữ phương tiện giáo tiệp trọng yếu người Trong giao tiếp, người thực hoạt động truyền tin nhận tin Do việc nắm thông tin chính, thơng tin giao tiếp có ý nghĩa vô cúng quan trọng Việc nghiên cứu nêu – báo liên quan mật thiết việc nghiên cứu ngơn ngữ hoạt động giao tiếp Vì hoạt động giao tiếp, người ta ý đến việc xử lý thông tin Do vậy, việc nghiên cứu phương pháp phân tích câu bình diện lý thuyết thơng tin quan trọng Xuất pháp từ nhu cầu lý luận thực tiễn, chọn đề tài “Phân tích câu tiếng Việt< Nó mua sách hay>” 1.2.Tính 1.2.1.Tách từ Xác định ranh giới từ câu Đây bước xử lý quan trọng đầu vào cho pha xử lý hệ thống xử lý ngôn ngữ tự nhiên Tách từ áp dụng vào hệ thống khai phá liệu, tìm kiếm trích chọn thơng tin 1.2.2.Gán nhãn từ loại Xác định nhãn thẻ từ loại từ câu danh từ, động từ, tính từ, đại từ, định từ,… Đây bước xử lý quan trọng sau tách từ, sở để hiểu ý nghĩa từ, đầu vào pha xử lý h xử lý ngôn ngữ tự nhiên Gán nhãn từ loại áp dụng vào hệ thống tìm kiếm trích chọn thơng tin 1.2.3.Nhân dạng tên thực thể Xác định phân loại tự động thành phần văn vào loại cho trước tổ chức, tên người, tên địa điểm, thời gian, tiền tệ,… Bài toán sử dụng nhiều hệ thống khai phá liệu, hỏi đáp, dịch máy, tóm tắt văn bản,… 1.2.4.Sửa lỗi tả Sửa lỗi tả câu Bước phát từ sai người viết sửa lỗi, giúp hệ thống xử lý ngôn ngữ tự nhiên có thơng tin góp phần tăng độ xác hệ thống khai phá liệu, tìm kiếm trích chọn thơng tin Xử lý ngơn ngữ tự nhiên (Natural Language Processing – NLP) nhánh khó trí tuệ nhân tạo Bởi lẽ ngôn ngữ hệ thống phức tạp để giao tiếp động vật bậc cao hay có lực tư người Nếu NLP giải thành cơng đồng nghĩa với việc máy tính hiểu sử dụng ngơn ngữ tự nhiên để giao tiếp 1.3 Sơ lược ngôn ngữ Ngôn ngữ tự nhiên không giống với ngôn ngữ nhân tạo ngơn ngữ máy tính (C, PHP, …) Trên giới có khoảng 7000 loại ngơn ngữ Có nhiều cách để phân loại, số cách phân loại ngôn ngữ phổ biến dựa vào: nguồn gốc, đặc điểm, … PHÂN LOẠI NGÔN NGỮ THEO NGUỒN GỐC Loạ Ấn – Âu i Xê-mít (Semite) Thổ Hán Tạng Nam Phương (Tạng-Miến) Ví Dịng Ấn độ, Dịng Semite, Do Thổ Nhĩ Dòng Hán, Tạng- Dòng Namdụ Hy lạp, Thái, Ả Rập, Ai Kỳ Miến… Thái, Nam Á German… cập, Kusit , (Tiếng Việt) h PHÂN LOẠI NGƠN NGỮ THEO ĐẶC ĐIỂM Loạ Hịa kết Chắp dính Đơn lập Tổng hợp i (Flexional) (Agglutinate) (Isolate) (Polysynthetic) Ví Đức, dụ Nga… Anh, Thổ Nhĩ Kỳ, Nhật Tiếng Bản, Triều Tiên… Việt, Hán… Chukchi,Aniu… Do tiếng Việt xếp vào loại đơn lập – tức phi hình thái, khơng biến hình Cùng với đó, tiếng Việt viết theo trật tự S – V – O (subject (S), verb (V) and object (O)) Một vài so sánh cách xếp trật tự câu Các cách xếp trật tự câu 1.4 Xử lý ngôn ngữ 1.4.1 Ngôn ngữ hình thức – Formal Language Ngơn ngữ hình thức (Formal Language) tập chuỗi (string) xây dựng dựa bảng chữ (alphabet), ràng buộc luật (rule) văn phạm (grammar) định nghĩa trước Alphabet tập ký tự ngôn ngữ tự nhiên (Natural Language) tập tự định nghĩa ký tự Mơ hình ngơn ngữ tự nhiên tuân theo quy luật chuỗi Markov hình thức hóa Noam Chomsky gọi ‘Mơ hình phân cấp Chomsky’ Sau mơ hình dùng để tạo ngơn ngữ lập trình ứng dụng nghiên cứu dịch tự động h Tiền đề việc xây dựng lý thuyết Automata ngơn ngữ hình thức Mơ hình phân cấp Chomsky h 1.5 Các khái niệm Bộ chữ (Alphabet Set): tập ký hiệu (vơ hạn hữu hạn) Ví dụ: Tập 26 chữ Roman alphabet, Tập ∑ ={0,1}, … Chuỗi (String) từ (Word): chuỗi chữ Alphabet Ví dụ ‘abc ‘; ‘0101110’ ; … Chuỗi rỗng (không chứa ký tự Alphabet). (ký hiệu ԑ , |ԑ| = 0) Ngôn ngữ rỗng (Empty Language): ngôn ngữ không chứa câu gọi ngơn ngữ rỗng (ký hiệu: ∅) Một ngôn ngữ chữ Σ tập chuỗi Σ Σ* tập chứa tất chuỗi Σ bao gồm ԑ Ví dụ với Σ = {0,1} thì: Σ* = { ԑ, 0, 1,00, 01, 10, 11, 000, 001,…} Ngơn ngữ L tập chuỗi có chiều dài hữu hạn chữ hữu hạn Σ Nễu ngơn ngữ L hữu hạn ta cần liệt kê tất chuỗi để biểu diễn trường hợp xét ngữ nghĩa cho trường hợp, ngơn ngữ tự nhiên vơ hạn nên ta cần văn phạm để xét nghĩa 1.6 Văn Phạm – Grammar : G = { N, Σ, P, S} N: tập từ vựng phụ trợ, phạm trù ngữ pháp, kí hiệu khơng kết thúc (non-terminal) S: tập từ ngôn ngữ, gọi ký hiệu kết thúc (terminal) P: tập luật văn phạm, gọi luật sản sinh (Production), N S : yếu tố nguyên thủy ngữ pháp, S ∈ N Σ = ∅ Một luật P có dạng : a → b (a, b ∈ N Σ) X tập phần tử chuỗi Xi tập chuỗi có chiều dài i Nếu P văn phạm có dạng: X → a (X ∈ N, a ∈ N phạm gọi là phi ngữ cảnh (Context-Free Grammar: CFG) Σ), văn 1.7 Giải thuật phân tích cú pháp Earley Earley biểu diễn luật P thơng qua dấu chấm “•”. Dấu chấm “•” siêu ký hiệu (metasymbol) khơng thuộc về N hay Σ Vị trí dấu thay đổi theo trạng thái xét Ví dụ luật sản sinh P ở trạng thái S(j) : (A → α • β, i) h