Phân tích từ trên xuống cho mạng chuyển đệ quy

Một phần của tài liệu Luận văn tốt nghiệp Xử lý các văn bản tiếng Việt (Trang 34)

Trạng thái phân tích tại một thời điểm nào đó được biểu diễn như sau: ¾ Vị trí hiện tại. Lưu lại phần nào của câu đã được phân tích rồi

¾ Nút hiện tại. Nút ta đang dừng lại để phân tích

¾ Ðiểm quay lại (trở về). Ta đang nằm trong một mạng (B) bởi lời gọi từ

một nút nào đó của mạng (A). Khi đó điểm trở về là nút của mạng A, để khi quay ra ta lại tiếp tục quá trình phân tích.

Trước hết, ta xét thuật toán đơn giản tìm kiếm trên một mạng chuyển đệ quy. Giả sử rằng nếu ta có thể đi qua một cung nào đó thì cung đó sẽ là đúng đắn trong phân tích cuối cùng; và giả sử ta chỉ xét các cung cat, push, và pop. Sau đó ta sẽ sửa đổi thuật toán này để tìm tất cả các đường đi bằng kỹ thuật quay lui.

Giả sử ta đang đứng ở một nút trung gian nào đó và biết 3 thông tin đã qua. Ta thử đi theo một cung để ra khỏi nút hiện tại. Có các trường hợp sau xảy ra

¾ Nếu cung này là cung cat và từ kế tiếp trong câu thuộc vào lớp từ loại đó, thì

- cập nhật lại vị trí hiện tại là từ kế tiếp;

- cập nhật lại nút hiện tại là đích của cung này; ¾ Nếu cung này là cung push đẩy tới một mạng N thì

- đưa đích của cung này vào danh sách các điểm trở về; - cập nhật lại nút hiện tại là nút bắt đầu của mạng N;

¾ Nếu cung này là cung pop và danh sách các điểm trở về chưa rỗng thì cập nhật nút hiện tại là điểm đầu tiên trong danh sách này;

¾ Nếu cung này là cung pop, danh sách các điểm trở về là rỗng và không còn từ nào cả thì việc phân tích là thành công;

Hình 13. Mạng chuyển đệ quy làm ví dụ trong phân tích từ trên xuống cùng với bộ từ vựng

ART the, a

NUMBER one PRONOUN one

ADJ wild, green

NOUN dogs, man, saw, green

VERB cried, saw, broke, faded, man Khi đó, câu

1 The 2 wild 3 dogs 4 cried 5

sẽ được phân tích như trên Bảng 3.

Bước Nốt hiện tại Vị trí hiện tại Ðiểm trả về Cung được đi

1. S 1 nil S/1 2. NP 1 {S1} NP/1 3. NP1 2 {S1} NP1/1 4. NP1 3 {S1} NP1/2 5. NP2 4 {S1} NP2/1 6. S1 4 nil S1/1 7. S2 5 nil N2/1

Câu The green faded sẽ không thể phân tích tích được bằng văn phạm này, bởi đầu tiên trình phân tích coi green là một tính từ, cho nên sau đó nó không tìm được một danh từ.

Xét câu

1 One 2 saw 3 the 4 man 5,

Ban đầu, trình phân tích thử phân tích câu với cụm danh từ one saw, nhưng sau đó thất bại khi tìm một động từ tiếp theo, nó quay lại và tìm ra cách phân tích thành công với cụm danh từ là one. Quá trình phân tích như trên Bảng 4.

Bước Trạng thái hiện tại Ði theo cung Các trạng thái được lưu lại

1. (S,1,nil) S/1 nil

2. (NP,1,{S1}) NP/2 (và NP/3 để lưu) nil

3. (NP1,2,{S1}) NP1/2 {NP2,2, {S1}}

4. (NP2,3,{S1}) NP2/1 {NP2,2, {S1}} (adsbygoogle = window.adsbygoogle || []).push({});

5. (S1,3,{nil}) không thể đi theo cung nào cả {NP2, 2, {S1}} 6. (NP2,2,{S1}) NP2/1 nil 7. (S1,2,nil) S1/1 nil 8. (S2,3,nil) S2/2 nil 9. (NP,3,{S2}) NP/1 nil 10. (NP1,4,{S2}) NP1/2 nil 11. (NP2,5,{S2}) NP2/1 nil 12. (S2,5,nil) S2/1 nil

13. phân tích thành công nil

Bảng 4. Phân tích từ trên xuống kết hợp quay lui cho mạng chuyển đệ quy

Trong bước 2, có hai cung ra khỏi nút NP có thể chấp nhận one. Cung NP/2 coi

one là một số (number) và sinh ra nút kế tiếp; đồng thời one cũng là một đại từ (pronoun), nên trình phân tích lưu lại khả năng đi qua cung NP/3 để đến nút NP2, như thế trình phân tích lưu trạng thái (NP2,2,{S1}). Tại bước 6, nó dùng lại trạng thái này, bởi nhận thấy rằng không có cung nào đi ra khỏi S1 chấp nhận từ the.

Với những ví dụ phức tạp hơn, sẽ có cả một danh sách các điểm được lưu. Tuỳ theo danh sách này được tổ chức theo thứ tự ra sao, trình phân tích sẽ sinh ra những thứ tự phân tích khác nhau.

Chương 4. Xây dng văn phm tiếng Vit 4.1. Xây dựng tập từ loại tiếng Việt

Ngữ pháp tiếng Việt hết sức phức tạp. Việc xây dựng một bộ văn phạm hoàn chỉnh cho tiếng Việt là rất khó khăn. Ngay cả về vấn đề từ loại của tiếng Việt hiện nay vẫn còn chưa hoàn toàn thống nhất. Sau khi tham khảo nhiều tài liệu chuyên ngành cơ sở ngôn ngữ học và tiếng Việt, nhóm nghiên cứu đã quyết định sử dụng trước mắt cách phân loại từ tiếng Việt theo cuốn Ngữ Pháp tiếng Việt (nhà xuất bản KHXH, 1983) và đề nghị bộ nhãn chi tiết như danh sách dưới đây:

1. Danh từ (N) a. Danh từ riêng Np b. Danh từ đơn thể Nc c. Danh từ tổng thể Ng d. Danh từ loại thể Nt e. Danh từ đơn vị Nu

f. Danh từ trừu tượng Na g. Danh từ số lượng Nn h. Danh từ vị trí Nl 2. Động từ (V) a. Động từ ngoại động Vt b. Động từ nội động Vit c. Động từ cảm nghĩ Vim d. Động từ phương hướng Vo e. Động từ tồn tại Vs f. Động từ biến hoá Vb g. Động từ ý chí Vv h. Động từ tiếp thụ Va i. Động từ so sánh Vc j. Động từ “là” Vla 3. Tính từ (A) a. Tính từ hàm chất Aa b. Tính từ hàm lượng Am 4. Đại từ (P)

a. Đại từ xưng hô Pp

b. Đại từ không gian, thời gian Pd

c. Đại từ số lượng Pn

5. Phụ từ (J) a. Phụ từ thời gian Jt b. Phụ từ mức độ Jd c. Phụ từ so sánh Jr d. Phụ từ khẳng định, phủ địnhJa e. Phụ từ mệnh lệnh Ji 6. Kết từ (C) a. Kết từ chính phụ Cm b. Kết từ liên hợp Cc 7. Trợ từ M 8. Cảm từ I 4.2. Xây dựng văn phạm tiếng Việt

Mục tiêu của ta là xây dựng được một văn phạm vừa đủ để giải quyết bài toán phân tích. Nếu văn phạm quá rộng thì vừa không cần thiết vừa làm phức tạp thêm vấn đề. Nhưng nếu văn phạm quá hẹp thì không thể bao quát được hết cấu trúc của các câu cần phân tích, do đó không đủ mạnh để giải quyết bài toán.

Khi xây dựng câu tiếng Việt, ta triển khai xây dựng theo từng bước từ → ngữ → câu. Ngữ pháp truyền thống chia ra các loại ngữ sau đây:

Tên ngữ Nhãn Đặc trưng

Danh ngữ (noun phrase) NP Danh từ làm trung tâm Động ngữ (verb phrase) VP Động từ làm trung tâm Tính ngữ (adjectival phrase) AP Tính từ làm trung tâm Giới ngữ (prepositional phrase) PP Giới từ làm trung tâm

Nói chung, mỗi ngữ đều có ba bộ phận: phần phụ trước đứng trước thành tố chính,

phần trung tâm chứa thành tố chính và phần phụ sau đứng sau thành tố chính.

Thành tố chính của ngữ giữ vai trò quan trọng về mặt ngữ pháp đối với ngữ, cần thiết về mặt tổ chức của ngữ, sự có mặt của nó là bắt buộc, không thể lược bỏ. Thành tố chính đại diện cho toàn bộ ngữ trong mối liên hệ với các yếu tố khác nằm ngoài ngữ, chi phối các thành tố khác và quyết định chức vụ ngữ pháp của tất cả các thành tố phụ có liên quan.

Xét về vị trí, thành tố phụ của ngữ đứng trước hay sau phần trung tâm. Trong cùng một loại ngữ, những từ có khả năng khi thì làm thành tố phụ sau, khi thì làm thành tố phụ trước không nhiều. Xét về từ loại, thành tố phụ có thể thuộc lớp từ hư

hoặc thuộc lớp từ thực. Trong tiếng Việt, tồn tại những lớp từ hư chuyên làm thành tố phụ trong từng loại ngữ nhất định. Chúng được dùng để nhận biết từ loại của từ làm thành tố chính. Ví dụ:

• hãy | đừng | chớ + động từ

• rất | hơi | khí + tính từ

• tính từ + lắm | quá

• hãy | đừng | chớ | rất | hơi | khí + động từ ý chí - tâm trạng

Thành tố phụ trước thường là những từ riêng lẻ, ta ít gặp những cụm từ chính phụ hay chủ vị tại vị trí trước trung tâm. Về mặt từ loại thì đó thường là những phụ từ chuyên dụng, có thể thống kê thành từng nhóm nhỏ có cùng kiểu ý nghĩa khái quát và chuyên đi kèm với những từ loại nhất định.

Thành tố phụ sau rất đa dạng và phức tạp về cấu tạo, về từ loại và về nghĩa. Tại vị trí này có thể là từ rời hoặc các loại cụm từ. Khái quát về từ loại, có thể chia các thành tố phụ sau ra thành 2 lớp lớn là lớp các từ có tính chất từ hư và lớp gồm các thực từ. Trong phạm vi khoá luận này, để hạn chế tính phức tạp của các cấu trúc ngữ nói riêng và cấu trúc câu nói chung, em chỉ xem xét thành tố phụ sau về mặt từ loại và dưới dạng từ rời.

Thành tố chính rất quan trọng về mặt tổ chức ngữ pháp của ngữ. Nhưng về ý nghĩa thì trong phần lớn các trường hợp, thành tố phụ là yếu tố mang trọng lượng nghĩa lớn nhất. Trong lời nói, nhiều khi chỉ cần dùng một mình thành tố phụ đã đủ đưa ra thông tin. Ví dụ: (adsbygoogle = window.adsbygoogle || []).push({});

- Anh đã đọc quyển sách này chưa?

- Đã.

Bây giờ em xin trình bày sơ lược về các danh ngữ, động ngữ và tính ngữ, tập trung vào mặt cấu tạo của chúng nhằm mục đích xây dựng các quy tắc sinh cho văn phạm tiếng Việt.

4.2.1. Danh ngữ

Danh ngữ gồm ba phần: phần trung tâm, phần phụ trước và phần phụ sau.

Phần trung tâm là một danh từ hoặc một danh từ chỉ loại cùng với một danh từ chỉ sự vật hay một động từ, tính từ chỉ hoạt động, trạng thái, tính chất, cả hai cùng gộp lại để chỉ một sự vật. Ví dụ: cái nhà, cây tre, con mèo, người thợ, niềm vui, cuộc họp, vẻ đẹp...

Trong danh ngữ không có phần phụ trước, bất kỳ một loại danh từ nào cũng đều có thể làm thành tố chính mà không kèm thêm điều kiện nào (trừ về ý nghĩa). Trong danh ngữ có phần phụ trước, danh từ làm thành tố chính đòi hỏi những điều kiện khá chặt chẽ. Ví dụ, có những lớp con danh từ chỉ có thể đứng ở phần trung tâm sau một danh từ loại thể.

Phần phụ trước có 3 vị trí khác nhau, sắp xếp theo một trật tự nhất định, chuyên dùng để chỉ mặt số lượng của sự vật nêu ở trung tâm. Có hai vị trí có trật tự ổn định, thường dùng để chỉ mặt chất lượng của sự vật nêu ở trung tâm. Ví dụ:

tất cả những cái con mèo đen ấy

-3 -2 -1 0 1 2

Vị trí chỉ xuất (-1) nằm sát trung tâm, thường gặp là từ cái, từ chỉ xuất bao giờ cũng là một danh từ loại thể.

Vị trí từ chỉ số lượng (-2) được chia làm các hạng sau: • số từ xác định (số đếm) một, hai,...

• số từ phỏng định: vài, ba...

• từ hàm ý phân phối mỗi, từng, mọi... • quán từ những, các, một...

• từ mấy

Vị trí chỉ tổng lượng (-3), thường gặp những từ tất cả, hết thảy, tất thảy, tất cả,

cả...

Phần phụ sau của cụm danh từ có hai vị trí.

Phần trung tâm Vị trí 1 Vị trí 2

con mèo đen

của nhà bạn Nam tôi mới xin hôm qua

ấy

Vị trí 1 nêu đặc trưng miêu tả, về mặt từ loại ta nhận thấy có nhiều kiểu từ loại khác nhau

danh từ phòng tạp chí

động từ phòng đọc

số từ phòng mười bốn

đại từ phòng chúng tôi

Vị trí từ chỉ định 2 là yếu tố đánh dấu đường biên giới sau cùng của danh ngữ. Các từ chỉ định thường gặp là: này, kia, nọ, ấy, đấy, đó.

Tóm lại, ta có cấu tạo đầy đủ của danh ngữ như sau:

Phụ tố tổng thể Phụ tố số lượng Phụ tố loại thể, đơn vị Chính tố ở trung tâm Phụ tố hạn định Phụ tố chỉ định Det1 (Determiner) (adsbygoogle = window.adsbygoogle || []).push({});

Det2 Det3 N AP/VP/NP/PP DP (demonstrative

pronoun)

Tất cả ba cái bàn gỗ ấy

Những bán hàng này

Tư tưởng tiến bộ đó

Toàn thể đồng bào cả nước

Trong khuôn khổ khoá luận ta chỉ xét trường hợp đơn giản với các qui tắc sinh danh ngữ như sau

1) NP → N

2) NP → Det1 Det2 Det3 N DP 3) Det1 → Ng (Danh từ tổng thể) 4) Det2 → Nn (Danh từ số lượng)

5) Det3 → Nt | Nu (Danh từ loại thể/danh từ đơn vị) 6) DP → Pd (Đại từ không gian/thời gian)

4.2.2. Động ngữ

Về mặt cấu tạo, động ngữ cũng có ba thành phần: phần trung tâm, phần phụ trước và phần phụ sau.

Phần trung tâm có thể là một động từ (ví dụ, đang viết thư, đã mắc bệnh), một ngữ khứ hồi (ví dụ, vừa đi Nam Định về hôm qua) hoặc một thành ngữ (ví dụ, cứ chỉ tay năm ngón hoài). Trong phạm vi khoá luận này, em chỉ xét phần trung tâm là một động từ, bởi vì kiểu thành tố chính là một động từ là kiểu có tính chất tiêu biểu, có tác dụng nhiều nhất đối với việc xác định tính chất động từ cho một từ cũng như đối với việc

Khi xem xét kiểu thành tố chính là một động từ, ta cần phân biệt hai loại động từ độc lập và không độc lập. Trong điều kiện sử dụng bình thường, động từ độc lập có thể tự thân làm thành tố chính, còn động từ không độc lập đòi hỏi phải có một từ khác đi sau để bổ sung ý nghĩa. Động từ không độc lập được chia làm các nhóm:

• động từ tình thái, ví dụ, cần, nên, phải, có thể, không thể, định, toan, dám,

chịu, mong, muốn, chúc, bị, được, mắc, phải...

• động từ tiếp diễn, chấm dứt, ví dụ, bắt đầu, tiếp tục, hết, thôi...

Các động từ độc lập điển hình là các động từ chỉ hoạt động vật lý, hoặc trạng thái tâm lý như: đọc, thực hiện, lấy, đi, lo, kính nể, vui...

Thực tiễn sử dụng ngôn ngữ cho thấy tại phần phụ trước của động ngữ có thể gặp hai lớp từ khác nhau rõ rệt:

• Những từ mang nhiều ý nghĩa ngữ pháp, chuyên đi kèm động từ (hoặc tính từ), có thể gọi chung là những phụ từ.

• Một số từ rõ nghĩa từ vựng, những thực từ.

Số lượng phụ từ làm thành tố phụ trước trong động ngữ chỉ khoảng vài chục từ, chia làm các nhóm con

• chỉ sự tiếp diễn, tương tự của hoạt động, trạng thái, như đều, cũng vẫn, cứ,

còn...

• chỉ quan hệ thời gian của hoạt động, trạng thái như từng, đã, vừa, mới,

đang, sẽ...

• chỉ tần số (số lần) khái quát của sự xuất hiện hoạt động trạng thái, như

thường, hay, năng, ít, hiếm...

• chỉ mức độ của trạng thái như rất, hơi, khí, quá...

• nêu lên ý khẳng định hay phủ định như , không, chưa, chẳng... (adsbygoogle = window.adsbygoogle || []).push({});

• nêu ý sai khiến, khuyên nhủ như hãy, đừng, chớ...

Tại phần phụ trước cụm động từ, ta gặp hai kiểu thực từ thành tố phụ sau đây: 1. Những từ tượng thanh tượng hình và một số tính từ có tác dụng miêu tả hành động, trạng thái nêu ở động từ - thành tố chính. Ví dụ, ào ào chảy, lác đác rơi, khẽ

2. Kiến trúc gồm một kết từ với một danh từ chỉ điểm xuất phát. Kiến trúc này thường đứng trước các động từ chỉ hướng (ra, vào, lên, xuống), các kết từ thường gặp là từ, , dưới, trên, trong, ngoài... Ví dụ, từ quê ra, Bắc vô, dưới Hải Phòng lên...

Cũng giống như trong tổ chức của danh ngữ, phần phụ sau của động ngữ phức tạp hơn về nhiều phương diện so với phần phụ trước. Chỉ xét riêng về phương diện từ loại, thành tố phụ sau của động ngữ có thể là những yếu tố thuộc mọi từ loại có thể có, chẳng hạn danh từ đọc sách động từ ăn đứng tính từ đi nhanh số từ chia ba đại từ hỏi ai chỉ định từ lại đây phụ từ hiểu rồi

Ở động ngữ, phụ từ làm thành tố phụ sau có thể được chia thành những nhóm nhỏ với những ý nghĩa ngữ pháp riêng, như sau:

Một phần của tài liệu Luận văn tốt nghiệp Xử lý các văn bản tiếng Việt (Trang 34)