1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án phần mềm từ vựng tiếng việt

63 473 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 1,01 MB

Nội dung

LỜI NÓI ĐẦU Xử lý ngôn ngữ tự nhiên nói chung và phân tích cú pháp ngôn ngữ tự nhiên nói riêng là những vấn đề quan trọng của trí tuệ nhân tạo, được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu trong suốt 50 năm qua. Các ứng dụng trong lĩnh vực này rất phong phú. Ta có thể điểm qua một số ứng dụng chính như dịch máy, kiểm tra và chữa lỗi văn bản, chuyển giao diện người – máy sang ngôn ngữ tự nhiên, nhận dạng chữ viế t, thiết kế người máy có khả năng hiểu và nói được tiếng của con người… Bài toán phân tích cú pháp ngôn ngữ tự nhiên bằng máy tính là bài toán lớn và phức tạp. Với tiếng Việt - một ngôn ngữ rất phức tạp thì dường như bài toán này lại càng khó khăn hơn. Chúng ta đã có một số công trình nghiên cứu về xử lý tiếng Việt và đã đạt được một số thành công nhất định. Tuy nhiên, cho đến nay bài toán phân tích cú pháp tiếng Việt v ẫn chưa được giải quyết triệt để. Một trong những lý do chính là vì chúng ta chưa nghiên cứu một cách có hệ thống ngữ pháp tiếng Việt và cơ sở lý thuyết về xây dựng những trình phân tích cú pháp cho tiếng Việt còn tương đối ít và chưa hoàn chỉnh. Các mô hình văn phạm phi ngữ cảnh và mạng chuyển được sử dụng rộng rãi trong mô tả cú pháp không chỉ của các ngôn ngữ lập trình mà cả các ngôn ngữ tự nhiên. Trong khoá luậ n này, em sẽ tập trung nghiên cứu việc vận dụng các mô hình này cho bài toán cụ thể là phân tích cú pháp tiếng Việt. Ngôn ngữ Việt có nhiều điểm khác so với các ngôn ngữ phổ biến, đã được nghiên cứu nhiều như tiếng Anh hay tiếng Pháp. Do đó, chúng ta không thể áp dụng hoàn toàn những kết quả đã đạt được đối với các ngôn ngữ này vào tiếng Việt. Khoá luận trình bày các vấn đề sau: • Khái quát vấn đề phân tích văn bản • Vận dụng các mô hình văn phạm phi ngữ cảnh và mạng chuyển đệ quy để mô tả ngôn ngữ tự nhiên • Nghiên cứu các thuật toán phân tích đối với các văn phạm phi ngữ cảnh và các mạng chuyển • Nghiên cứu một cách hệ thống các đặc điểm của ngữ pháp tiếng Việt • Xây dựng một trình phân tích câu tiếng Anh đơn giản • Xây dựng một trình phân tích câu tiếng Vi ệt đơn giản Khoá luận tốt nghiệp 1 • Đánh giá kết quả đã đạt được và hướng phát triển Để thực hiện được đề tài này, em đã vận dụng những kiến thức được học trong giai đoạn đại cương và chuyên ngành, đồng thời học hỏi và nghiên cứu thêm lĩnh vực ngôn ngữ học và tiếng Việt. Để tạo ra một sản phẩm phần mềm tương đối khả quan cần có sự nghiên cứu lâu dài và có hệ thống trên cả ba lĩnh vực toán học, tin học và ngôn ngữ học. Nếu chỉ có những kiến thức tin học thì sản phẩm tạo ra sẽ không thể mang ứng dụng trong thực tế. Vì vậy, việc đồng thời trau dồi những kiến thức toán học, tin học và ngôn ngữ học là rất cần thiết. Những công việc em đã thực hiện mới chỉ là bước đầu trong việc xử lý các văn bản tiếng Việt. Em rất mong muốn tiếp tục nhận được sự hỗ trợ và chỉ bảo tận tình của các thầy cô giáo, các nhà chuyên môn cùng toàn thể các bạn sinh viên quan tâm, yêu thích công việc xử lý ngôn ngữ tự nhiên, vốn rất khó khăn và phức tạp, cần có lòng kiên trì và say mê cao độ. Em xin được bày tỏ lòng cảm ơn sâu sắc tới TS. Lương Chi Mai và ThS. Nguyễn Thị Minh Huyền đã tận tình hướng dẫ n và giúp đỡ, tạo mọi điều kiện thuận lợi về tài liệu và phương tiện để em hoàn thành khoá luận này. Trong quá trình thực hiện khoá luận, em còn nhận được sự ủng hộ, giúp đỡ và động viên của các anh chị ở Phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin, Trung tâm Khoa học Tự nhiên và Công nghệ Quốc gia, nơi em thực tập trong thời gian qua. Em xin chân thành cảm ơn. Em xin chân thành cảm ơn các thầy cô giáo trong và ngoài Khoa Toán-Cơ-Tin học đã truyền đạt cho em những kiến thức, trang bị cho em những hành trang quý giá trước khi em ra trường. Em xin chân thành cảm ơn các thầy cô giáo trong Bộ môn Tin học đã tạo điều kiện cho em được thực hiện một số xêmina khoa học liên quan đến đề tài, và đóng góp nhiều ý kiến quý báu, kịp thời. Xin cảm ơn các bạn sinh viên đã động viên, giúp đỡ tôi thực hiện đề tài này. Hà Nội, ngày 10 tháng 5 năm 2002 Sinh viên Lê Hồng Phươ ng Khoá luận tốt nghiệp 2 Mục lục LỜI NÓI ĐẦU 1 Danh mục hình 5 Danh mục bảng 5 Chương 1. Mở đầu 7 1.1. Tổng quan về vấn đề phân tích văn bản 7 1.2. Bài toán phân tích cú pháp 7 1.3. Nội dung khoá luận 8 Chương 2. Văn phạm phi ngữ cảnh 9 2.1. Văn phạm và ngôn ngữ sinh bởi văn phạm 9 2.2. Văn phạm phi ngữ cảnh 10 2.3. Biểu diễn cấu trúc câu 11 2.4. Phân tích từ trên xuống 14 2.5. Phân tích từ dưới lên 15 2.6. Đánh giá hai phương pháp phân tích trên 20 2.7. Phương pháp phân tích tổng hợp 21 Chương 3. Các mạng chuyển 27 3.1. Văn phạm và ôtômát 27 3.2. Các yếu tố cơ sở của mạng chuyển đệ quy 29 3.3. Tính thủ tục của các RTN 33 3.4. Phân tích từ trên xuống cho mạng chuyển đệ quy 34 Chương 4. Xây dựng văn phạm tiếng Việt 37 4.1. Xây dựng tập từ loại tiếng Việt 37 4.2. Xây dựng văn phạm tiếng Việt 38 Khoá luận tốt nghiệp 3 4.2.1. Danh ngữ 39 4.2.2. Động ngữ 41 4.2.3. Tính ngữ 44 4.2.4. Câu đơn hai thành phần 45 4.2.5. Văn phạm tiếng Việt 47 Chương 5. Cài đặt chương trình 49 5.1. Cấu trúc dữ liệu 49 5.2. Cài đặt thuật toán 51 5.3. Thể hiện kết quả phân tích 52 5.4. Đánh giá kết quả 57 Phụ lục 58 Bài toán tách từ vựng tiếng Việt 58 1. Đặt bài toán 58 2. Các bước giải quyết 58 3. Đánh giá kết quả 60 Tài liệu tham khảo 63 Khoá luận tốt nghiệp 4 Danh mục hình Hình 1. Phân loại văn phạm của Chomsky 11 Hình 2. Cây biểu diễn câu John ate the cat 14 Hình 3. Biểu đồ sau khi tìm thấy một ADJ tại vị trí 2 16 Hình 4. Sau khi phân tích can là NOUN 18 Hình 5. Biểu đồ sau khi thêm hold 19 Hình 6. Biểu đồ sau khi tìm được tất cả các NP 19 Hình 7. Biểu đồ cuối cùng 20 Hình 8. Vị trí và biểu đồ ban đầu 22 Hình 9. Biểu đồ sau khi phân tích cụm NP đầu tiên 24 Hình 10. Sau khi phân tích khả năng thứ hai của NP đầu tiên 25 Hình 11. Sau khi tìm kiếm một S theo quy tắc 1 bị thất bại 25 Hình 12. Cấu trúc của câu cần phân tích 26 Hình 13. Mạng chuyển đệ quy làm ví dụ trong phân tích từ trên xuống 35 Hình 14. Giao diện chương trình phân tích cú pháp tiếng Anh 53 Hình 15. Phương pháp xây dựng ôtômát âm tiết 59 Hình 16. Phương pháp xây dựng ôtômát từ vựng 59 Hình 17. Một tình huống nhập nhằng 60 Hình 18. Các phương án phân tích cho một câu tiếng Việt nhập nhằng 62 Hình 19. Cây phân tích ứng với cách tách từ đúng 62 Danh mục bảng Bảng 1. Phân tích từ trên xuống, ưu tiên chiều sâu cho văn phạm phi ngữ cảnh 15 Bảng 2. Một văn phạm phi ngữ cảnh đơn giản 20 Bảng 3. Quá trình phân tích từ trên xuống 35 Bảng 4. Phân tích từ trên xuống kết hợp quay lui cho mạng chuyển đệ quy 36 Khoá luận tốt nghiệp 5 Bảng 5. Tập luật của văn phạm tiếng Việt 48 Bảng 6. Tập luật của văn phạm tiếng Anh 50 Khoá luận tốt nghiệp 6 Chương 1. Mở đầu Khoá luận tốt nghiệp Chương 1. Mở đầu 1.1. Tổng quan về vấn đề phân tích văn bản Phân tích và kiểm tra tính chính xác của văn bản là một vấn đề lớn và phức tạp. Quá trình này thường được chia thành 4 giai đoạn chính: phân tích từ vựng, phân tích cú pháp, phân tích ngữ nghĩa và phân tích thực chứng. • • • • Phân tích từ vựng. Là quá trình phân tích hình thái các từ vựng tạo nên văn bản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ. Phân tích cú pháp. Là quá trình đưa ra mô tả quan hệ về vai trò ngữ pháp của các từ, các cụm từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu. Phân tích ngữ nghĩa. Mục đích của phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu có mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic về nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn. Phân tích thực chứng. Là quá trình phân tích nhằm xác định ý nghĩa của câu dựa trên mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc rất nhiều vào ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân tích này rất khó thực hiện được bằng máy tính. Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ nghĩa, còn việc phân tích thực chứng do người dùng tự quyết định. 1.2. Bài toán phân tích cú pháp Phân tích cú pháp đưa ra mô tả về quan hệ và vai trò ngữ pháp của các từ, các cụm từ (hoặc ngữ) trong câu, đồng thời đưa ra hình thái của câu. Đầu vào của giai đoạn này là câu đã được phân tách từ, trong đó mỗi từ có đặc điểm hình thái xác định. Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ ở đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước dựng lên cấ u trúc cú pháp (cây phân tích) của câu. Kết quả cần đạt được là hình thái của câu. Cú pháp là chủ đề nghiên cứu của hai cộng đồng gồm những người làm ngôn ngữ và những người làm tin học. Với những người làm ngôn ngữ thì ngôn ngữ là đối tượng nghiên cứu, cú pháp là một trong các cấp độ phải mô tả. Với những người làm tin học thì cần làm cho máy tính phân tích được cú pháp với hai mục tiêu là xây dựng các ứng dụng, qua đó phục vụ vi ệc nghiên cứu ngôn ngữ; đối tượng nghiên cứu của họ là các hệ hình thức và các thuật toán. Chương 1. Mở đầu Khoá luận tốt nghiệp 8 Khi xét về cấu trúc cú pháp có hai khía cạnh, một là thứ tự của các từ, trong đó có những ràng buộc về cấu tạo câu đúng và chức năng của các thành phần trong câu (chủ ngữ, vị ngữ ); hai là những biến tố (về hình thái, ví dụ các thì, số ít, số nhiều, giống ) quy định ràng buộc về cấu tạo và chức năng ngữ pháp. Với tiếng Việt, không có khía cạnh thứ hai. Để phân tích cấu trúc của một câu ta cần đến hai thứ: Thứ nhất là ngữ pháp của ngôn ngữ, là đặc tả hình thức cấu trúc của ngôn ngữ và thứ hai là các kỹ thuật phân tích, là các phương thức phân tích để tìm ra cấu trúc ngữ pháp của câu, hoặc kết luận câu sai ngữ pháp. Để đặc tả ngữ pháp, người ta đưa ra các mô hình cú pháp của ngôn ngữ. 1.3. Nội dung khoá luận Khoá luận gồm hai nội dung chính. Nội dung thứ nhất là trình bày hai mô hình truyền thống dùng để phân tích cú pháp của ngôn ngữ tự nhiên, gồm các văn phạm phi ngữ cảnh và các mạng chuyển đệ quy. Trong khuôn khổ của khoá luận, em chỉ thực hiện phần nghiên cứu, cài đặt các thuật toán phân tích cho văn phạm phi ngữ cảnh và mạng chuyển đệ quy nhằm nắm chắc và làm chủ các kỹ thuật phân tích, các phần khác là triển vọng nghiên cứu trong t ương lai gần. Có ba kỹ thuật phân tích được nghiên cứu là phân tích từ trên xuống, phân tích từ dưới lên và phân tích tổng hợp. Ðể tiện trong việc trình bày, toàn bộ các thuật toán được giải thích và minh hoạ trên bộ văn phạm đơn giản của tiếng Anh. Nội dung thứ hai là xây dựng tập từ loại và văn phạm đơn giản cho tiếng Việt, thiết kế cấu trúc dữ liệu và cài đặt các thuật toán phân tích, đánh giá kết quả. Vì khuôn khổ của khoá luận có hạn, nên em chỉ trình bày phần cài đặt thuật toán phân tích từ trên xuống cho văn phạm phi ngữ cảnh. Kết quả cần đạt được là hoàn thiện một chương trình phân tích cú pháp tiếng Việt đơn giản viết bằng ngôn ngữ lập trình Java, thể hiện kết quả phân tích bằng giao diện đồ hoạ dạng cây. Phần phụ lục của khoá luận trình bày bài toán tách từ vựng tiếng Việt - vấn đề tiền xử lý quan trọng trước khi bước vào phân tích cú pháp. Chương 2. Văn phạm phi ngữ cảnh Khoá luận tốt nghiệp Chương 2. Văn phạm phi ngữ cảnh 2.1. Văn phạm và ngôn ngữ sinh bởi văn phạm Một tập hợp Χ ≠ φ (vô hạn hoặc hữu hạn) các đối tượng được gọi là một bảng chữ cái. Mỗi phần tử thuộc tập Χ được gọi là một chữ cái hay một ký hiệu. Ví dụ, bảng chữ cái tiếng Việt là Σ = {a, b, c, , y}. Mỗi dãy ký hiệu các phần tử của Χ: α = a i1 a i2 a it , a ij ∈ Χ, 1 ≤ j ≤ t được gọi là một từ hay một xâu trên bảng chữ cái Χ. Ví dụ ba, ca, con, Tổng số vị trí của tất cả các ký hiệu xuất hiện trong từ α được gọi là độ dài của α, ký hiệu là |α|. Từ có độ dài bằng 0 được gọi là từ rỗng (trống), được ký hiệu là ε. Gọi Σ* là tập hợp gồ m tất cả các từ trên bảng chữ cái Σ, kể cả từ rỗng. Mỗi một tập con của tập Σ* được gọi là một ngôn ngữ trên bảng chữ cái Σ. Tập rỗng cũng là một ngôn ngữ trên bảng chữ cái tuỳ ý, được ký hiệu bằng φ. Giả sử có bảng chữ cái Σ, một văn phạm là một bộ bốn G = (Σ, V, σ, P), trong đó: ¾ Σ là bảng chữ cái chính hay bảng chữ cái từ hay tập ký hiệu kết ¾ V là bảng chữ cái phụ hay bảng chữ cái làm việc hay tập ký hiệu không kết ¾ σ ∈ V là một ký hiệu phụ, gọi là tiền đề hay ký hiệu xuất phát hay ký hiệu khởi đầu ¾ P = {ϕ → ψ⎪ϕ∈( Σ ∪V)*\{e}, ψ ∈(Σ ∪V)*, → ∉ (Σ ∪V)} gọi là tập quy tắc sinh hay tập quy tắc thế của văn phạm G. r = ϕ → ψ là một quy tắc sinh hay quy tắc thế của văn phạm G, ϕ, ψ theo thứ tự được gọi là vế trái và vế phải của quy tắc r. Ví dụ, G = ({a, b, c}, {S, A, B}, S, P), trong đó P là S → ABBA AB → BAA AA → BcBa BcB → Aab A → B B → A B → C Chương 2. Văn phạm phi ngữ cảnh Khoá luận tốt nghiệp 10 Từ xâu ban đầu α = ΑΒ, bằng các quy tắc sinh đã cho ta có α = AB → β = BAA → γ = BBcBa. Ta nói rằng xâu α dẫn trực tiếp ra xâu β, dẫn gián tiếp ra xâu γ và viết là α ⇒ β. Tổng quát, giả sử α = α 1 ϕα 2 , β = α 1 ψα 2 , ϕ → ψ ∈ P thì ta nói rằng xâu α dẫn trực tiếp ra xâu β hoặc xâu β được dẫn trực tiếp từ xâu α. Một dãy từ ω 0 , ω 1 , , ω i , ω i+1 , , ω m được gọi là một dẫn xuất trong văn phạm G nếu ∀i, ω i ⇒ ω i+1 . Ta nói rằng xâu α dẫn gián tiếp ra xâu β hay xâu β được dẫn gián tiếp từ α trong văn phạm G, và viết là α β nếu hoặc α = β hoặc tồn tại một dẫn xuất ω mà từ đầu tiên là α và từ cuối cùng là β. * ⇒ Tập {x ∈ Σ* | σ x} gồm tất cả các từ thuộc bảng chữ cái chính mà mỗi từ này được dẫn gián tiếp từ tiền đề gọi là ngôn ngữ sinh bởi văn phạm G, ký hiệu là L(G). * ⇒ Để việc trình bày được ngắn gọn và phân biệt ý nghĩa của các ký hiệu trong văn phạm, ta quy ước: dùng các chữ cái in hoa để chỉ các ký hiệu không kết, các chữ cái thường để chỉ các ký hiệu kế t và dùng các ký tự Hy Lạp để chỉ các xâu. 2.2. Văn phạm phi ngữ cảnh Theo cách phân loại của Chomsky, văn phạm được chia thành ba loại, gồm ¾ Văn phạm cảm ngữ cảnh, hoặc văn phạm biến đổi. Độ dài của xâu α bên trái mỗi quy tắc phải nhỏ hơn hoặc bằng độ dài của xâu β bên vế phải của quy tắc đó. Nghĩa là mọi sản xuất đều có dạng λAρ → λαρ, trong đó λ và ρ là các xâu bất kỳ (có thể rỗng). λ và ρ có thể coi như vế trái và vế phải của văn cảnh ở đó ký hiệu không kết A được viết lại thành xâu không rỗng α, chính vì vậy nên văn phạm loại này được gọi là cảm ngữ cảnh. Các quy tắc sinh cảm ngữ cảnh có thể dùng để chuyển một câu từ dạng chủ động sang dạng bị độ ng tương ứng. ¾ Văn phạm phi ngữ cảnh, hay văn phạm cấu trúc cụm. Mọi quy tắc đều có dạng A → α, trong đó A là ký hiệu không kết và α là xâu bất kỳ. ¾ Văn phạm chính quy, hay văn phạm tuyến tính phải. Mọi quy tắc đều có một trong hai dạng sau: A → t hoặc A → tN, trong đó A và N là các ký hiệu không kết, t là ký hiệu kết. Các văn phạ m chính quy không đủ mạnh để mô tả ngôn ngữ tự nhiên (thậm chí cả các ngôn ngữ lập trình). Chúng thường được dùng để mô tả các bộ phận của ngôn ngữ và có thế mạnh là tốc độ phân tích nhanh. [...]... diễn một từ loại Thông thường, một từ có nhiều kiểu từ loại khác nhau, ví dụ, từ can có thể là VERB hoặc NOUN Có hai phương pháp điển hình dùng để phân tích văn phạm phi ngữ cảnh, là phân tích từ trên xuống và phân tích từ dưới lên Phân tích từ trên xuống: Xuất phát từ ký hiệu đầu S, áp dụng các suy dẫn tiến hành từ trái qua phải thử tạo ra câu cần phân tích Phân tích từ dưới lên: Xuất phát từ chính... thứ nhất từ 1 đến 4 được xây dựng từ quy tắc 2, NP thứ hai từ 2 đến 4 được xây dựng từ quy tắc 4 Hai NP này bây giờ nằm trên đỉnh của ngăn xếp các khoá • Vào NP1: NP từ 1 tới 4 Thêm cung S → NP ο VP từ 1 tới 4 • Vào NP2: NP từ 2 tới 4 Thêm cung S → NP ο VP từ 2 tới 4 Bây giờ biểu đồ có dạng như Hình 4 Hình 4 Sau khi phân tích can là NOUN Bây giờ xét tới các từ loại khác của can • Vào AUX1: (can từ 3 đến... → AUX ο VERB NP từ 3 tới 4 • Vào VERB1: (can từ 3 đến 4) Thêm cung VP → VERB ο NP từ 3 tới 4 Từ tiếp theo lại là can và NOUN2, AUX2, VERB2 được tạo ra • Vào NOUN2: (can từ 4 đến 5) Không cung nào được thêm vào • Vào AUX2: (can từ 4 đến 5) Thêm cung VP → AUX ο VERB NP từ 4 tới 5 • Vào VERB2: (can từ 4 đến 5) Thêm cung VP → VERB ο NP từ 4 tới 5, thêm cung VP → AUX VERB ο NP từ 3 tới 5 Từ tiếp theo là... thành phần: ART1, ADJ1 và 4 cung hoạt động; 2 NP bắt đầu bằng ART từ 1 đến 2, 1 NP bắt đầu bằng ART ADJ từ 1 đến 3, 1 NP bắt đầu bằng ADJ từ 2 đến 3 Thuật toán phân tích cụ thể như sau: Có hai cấu trúc dữ liệu là biểu đồ và danh sách khoá biểu đồ: lưu tất cả các thông tin về các thành phần hoàn chỉnh và các cung hoạt động danh sách khoá: là một ngăn xếp các thành phần hoàn chỉnh đã được đưa vào biểu đồ. .. (hold từ 5 đến 6) Không cung nào được thêm vào Khoá luận tốt nghiệp 18 Chương 2 Văn phạm phi ngữ cảnh • Vào VERB3: (hold từ 5 đến 6) Thêm cung VP → VERB ο NP từ 5 tới 6, thêm cung VP → AUX VERB ο NP từ 4 tới 6 Ta được biểu đồ như Hình 5 Hình 5 Biểu đồ sau khi thêm hold • Vào ART2: (the từ 6 đến 7) Thêm cung NP → ART ο ADJ NOUN từ 6 tới 7, thêm cung NP → ART ο NOUN từ 6 tới 7 • Vào NOUN4: (water từ 7... Biểu đồ cuối cùng như Hình 7 Hình 7 Biểu đồ cuối cùng 2.6 Đánh giá hai phương pháp phân tích trên Phân tích từ dưới lên và phân tích từ trên xuống đều có những ưu nhược điểm riêng Với phân tích từ trên xuống, ưu điểm là ta không cần quan tâm rằng trong câu đúng cú pháp không thể có những từ loại nằm sai vị trí Nguyên nhân của ưu điểm này là do trình phân tích bắt đầu từ một từ loại và kiểm tra xem từ. .. water, với từ điển sau: the ART large ADJ can AUX, NOUN, VERB hold NOUN, VERB water NOUN, VERB Ban đầu danh sách khoá là rỗng, do đó từ the được đọc và thành phần ART1 được đặt vào danh sách • Vào ART1: (the từ 1 tới 2) Thêm cung NP → ART ο ADJ NOUN từ 1 tới 2, thêm cung NP → ART ο NOUN từ 1 tới 2; Cả hai cung này được thêm vào tại bước 2 của thuật toán Sau đó từ large được đọc, tạo ra thành phần ADJ1... trạng thái trong phân tích từ dưới lên được lưu dưới dạng một cấu trúc gọi là biểu đồ (chart) Biểu đồ là một bản ghi vị trí của các từ và các cấu trúc mới phát sinh từ câu đang phân tích Các cung trên biểu đồ lưu giữ các quy tắc đã so khớp trước đó nhưng chưa hoàn thiện Ví dụ, sau khi đã biết một ART và sau đó là một ADJ trong ví dụ trên, ta sẽ có biểu đồ sau (Hình 3): Hình 3 Biểu đồ sau khi tìm thấy một... các qui tắc từ Khoá luận tốt nghiệp 11 Chương 2 Văn phạm phi ngữ cảnh vựng (chứa ít nhất một ký hiệu kết thúc) và các qui tắc ngữ đoạn (không chứa ký hiệu kết thúc nào) Với mỗi từ trong từ vựng có một tập các qui tắc sinh chứa từ này trong vế phải Một cây dẫn xuất cũng được gọi là cây cú pháp cho một phân tích của một ngữ đoạn thành các thành phần kế tiếp Với lớp câu kể đơn giản nhất trong tiếng Anh,... → ART NOUN 3 NP → NAME 4 PP → PREP NP 5 VP → VERB 6 VP → VERB NP 7 VP → VERB NP NP 8 VP → VERB PP Trong đó, các ký hiệu và từ loại tương ứng được cho trong bảng sau: Ký hiệu Từ loại tương ứng S Câu NP cụm danh từ VP cụm động từ PP cụm giới từ NOUN danh từ ART mạo từ VERB động từ NAME tên riêng Theo văn phạm này thì một số câu như John saw the cat by the pond The dog barked in the house là chấp nhận . 33 3.4. Phân tích từ trên xuống cho mạng chuyển đệ quy 34 Chương 4. Xây dựng văn phạm tiếng Việt 37 4.1. Xây dựng tập từ loại tiếng Việt 37 4.2. Xây dựng văn phạm tiếng Việt 38 Khoá luận. các ký hiệu và từ loại tương ứng được cho trong bảng sau: Ký hiệu Từ loại tương ứng S Câu NP cụm danh từ VP cụm động từ PP cụm giới từ NOUN danh từ ART mạo từ VERB động từ NAME tên riêng. chính: phân tích từ vựng, phân tích cú pháp, phân tích ngữ nghĩa và phân tích thực chứng. • • • • Phân tích từ vựng. Là quá trình phân tích hình thái các từ vựng tạo nên văn bản, từ đó kiểm

Ngày đăng: 14/08/2014, 15:39

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Margaret King, Parsing Natural Language, Academic Press Inc, London, 1983 Sách, tạp chí
Tiêu đề: Parsing Natural Language
[2] Christopher D. Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, Massachusetts Institute of Technology, USA, 1999 Sách, tạp chí
Tiêu đề: Foundations of Statistical Natural Language Processing
[3] Emmanuel Roche and Yves Schabes, Finite-State Language Processing, The MIT Press, Massachusetts, USA, 1997 Sách, tạp chí
Tiêu đề: Finite-State Language Processing
[4] Đỗ Đức Giáo, Đặng Huy Ruận, Văn phạm và ngôn ngữ hình thức, NXB Khoa học và kỹ thuật, Hà Nội, 1991 Sách, tạp chí
Tiêu đề: Văn phạm và ngôn ngữ hình thức
Nhà XB: NXB Khoa học và kỹ thuật
[5] Lê Thanh Hương, Phân tích cú pháp tiếng Việt, Luận văn tốt nghiệp cao học, Hà Nội, 1999 Sách, tạp chí
Tiêu đề: Phân tích cú pháp tiếng Việt
[6] Diệp Quang Ban, Hoàng Văn Thung, Ngữ pháp tiếng Việt (2 tập), NXB Giáo dục, Hà Nội, 1999 Sách, tạp chí
Tiêu đề: Ngữ pháp tiếng Việt
Nhà XB: NXB Giáo dục
[7] Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến, Cơ sở ngôn ngữ học và tiếng Việt, NXB Giáo dục, Hà Nội, 2000 Sách, tạp chí
Tiêu đề: Cơ sở ngôn ngữ học và tiếng Việt
Nhà XB: NXB Giáo dục
[8] Nguyễn Thiện Giáp, Đoàn Thiện Thuật, Nguyễn Minh Thuyết, Dẫn luận ngôn ngữ học, NXB Giáo dục, Hà Nội, 2001 Sách, tạp chí
Tiêu đề: Dẫn luận ngôn ngữ học
Nhà XB: NXB Giáo dục
[9] Ngữ Pháp Tiếng Việt, NXB Khoa học xã hội, 1983 Sách, tạp chí
Tiêu đề: Ngữ Pháp Tiếng Việt
Nhà XB: NXB Khoa học xã hội
[10] Hoàng Phê, Từ điển tiếng Việt, NXB Khoa học xã hội - Trung tâm từ điển học, Hà Nội, 2000 Sách, tạp chí
Tiêu đề: Từ điển tiếng Việt
Nhà XB: NXB Khoa học xã hội - Trung tâm từ điển học
[11] Bruce Eckel, Thinking in Java, 2nd edition, Revision 11, 2000 Sách, tạp chí
Tiêu đề: Thinking in Java
[12] Sun Microsystem, The Java Tutorial, CDROM, 2000 Sách, tạp chí
Tiêu đề: The Java Tutorial

HÌNH ẢNH LIÊN QUAN

Hình 1. Phân loại văn phạm của Chomsky - Đồ án phần mềm từ vựng tiếng việt
Hình 1. Phân loại văn phạm của Chomsky (Trang 11)
Hình 2. Cây biểu diễn câu John ate the cat - Đồ án phần mềm từ vựng tiếng việt
Hình 2. Cây biểu diễn câu John ate the cat (Trang 14)
Bảng 1. Phân tích từ trên xuống, ưu tiên chiều sâu cho văn phạm phi ngữ cảnh - Đồ án phần mềm từ vựng tiếng việt
Bảng 1. Phân tích từ trên xuống, ưu tiên chiều sâu cho văn phạm phi ngữ cảnh (Trang 15)
Hình 3. Biểu đồ sau khi tìm thấy một ADJ tại vị trí 2 - Đồ án phần mềm từ vựng tiếng việt
Hình 3. Biểu đồ sau khi tìm thấy một ADJ tại vị trí 2 (Trang 16)
Hình 4. Sau khi phân tích  can  là NOUN - Đồ án phần mềm từ vựng tiếng việt
Hình 4. Sau khi phân tích can là NOUN (Trang 18)
Hình 6. Biểu đồ sau khi tìm được tất cả các NP - Đồ án phần mềm từ vựng tiếng việt
Hình 6. Biểu đồ sau khi tìm được tất cả các NP (Trang 19)
Hình 5. Biểu đồ sau khi thêm  hold - Đồ án phần mềm từ vựng tiếng việt
Hình 5. Biểu đồ sau khi thêm hold (Trang 19)
Hình 7. Biểu đồ cuối cùng - Đồ án phần mềm từ vựng tiếng việt
Hình 7. Biểu đồ cuối cùng (Trang 20)
Hình 8. Vị trí và biểu đồ ban đầu - Đồ án phần mềm từ vựng tiếng việt
Hình 8. Vị trí và biểu đồ ban đầu (Trang 22)
Hình 9. Biểu đồ sau khi phân tích cụm NP đầu tiên - Đồ án phần mềm từ vựng tiếng việt
Hình 9. Biểu đồ sau khi phân tích cụm NP đầu tiên (Trang 24)
Hình 11. Sau khi tìm kiếm một S theo quy tắc 1 bị thất bại - Đồ án phần mềm từ vựng tiếng việt
Hình 11. Sau khi tìm kiếm một S theo quy tắc 1 bị thất bại (Trang 25)
Hình 10. Sau khi phân tích khả năng thứ hai của NP đầu tiên - Đồ án phần mềm từ vựng tiếng việt
Hình 10. Sau khi phân tích khả năng thứ hai của NP đầu tiên (Trang 25)
Hình 12. Cấu trúc của câu cần phân tích - Đồ án phần mềm từ vựng tiếng việt
Hình 12. Cấu trúc của câu cần phân tích (Trang 26)
Hình 13. Mạng chuyển đệ quy làm ví dụ trong phân tích từ trên xuống - Đồ án phần mềm từ vựng tiếng việt
Hình 13. Mạng chuyển đệ quy làm ví dụ trong phân tích từ trên xuống (Trang 35)
Bảng 3. Quá trình phân tích từ trên xuống - Đồ án phần mềm từ vựng tiếng việt
Bảng 3. Quá trình phân tích từ trên xuống (Trang 35)
Bảng 4. Phân tích từ trên xuống kết hợp quay lui cho mạng chuyển đệ quy - Đồ án phần mềm từ vựng tiếng việt
Bảng 4. Phân tích từ trên xuống kết hợp quay lui cho mạng chuyển đệ quy (Trang 36)
Bảng băm này cũng tiện dụng khi biểu diễn các nút của cây chứa kết quả phân tích. - Đồ án phần mềm từ vựng tiếng việt
Bảng b ăm này cũng tiện dụng khi biểu diễn các nút của cây chứa kết quả phân tích (Trang 49)
Bảng 6. Tập luật của văn phạm tiếng Anh - Đồ án phần mềm từ vựng tiếng việt
Bảng 6. Tập luật của văn phạm tiếng Anh (Trang 50)
Hình 14. Giao diện chương trình phân tích cú pháp tiếng Anh - Đồ án phần mềm từ vựng tiếng việt
Hình 14. Giao diện chương trình phân tích cú pháp tiếng Anh (Trang 53)
Hình 14 là giao diện của chương trình và thể hiện cây phân tích của câu "The - Đồ án phần mềm từ vựng tiếng việt
Hình 14 là giao diện của chương trình và thể hiện cây phân tích của câu "The (Trang 53)
Hình 15. Phương pháp xây dựng ôtômát âm tiết - Đồ án phần mềm từ vựng tiếng việt
Hình 15. Phương pháp xây dựng ôtômát âm tiết (Trang 59)
Hình 16. Phương pháp xây dựng ôtômát từ vựng - Đồ án phần mềm từ vựng tiếng việt
Hình 16. Phương pháp xây dựng ôtômát từ vựng (Trang 59)
Hình 17. Một tình huống nhập nhằng - Đồ án phần mềm từ vựng tiếng việt
Hình 17. Một tình huống nhập nhằng (Trang 60)
Hình 18. Các phương án phân tích cho một câu tiếng Việt nhập nhằng - Đồ án phần mềm từ vựng tiếng việt
Hình 18. Các phương án phân tích cho một câu tiếng Việt nhập nhằng (Trang 62)
Hình 19. Cây phân tích ứng với cách tách từ đúng - Đồ án phần mềm từ vựng tiếng việt
Hình 19. Cây phân tích ứng với cách tách từ đúng (Trang 62)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w