Mục tiêu của hệ thống phân tích, khai phá dữ liệu văn bản là để trợ giúp cho việc người dùng đáp ứng nhu càu thông tin của họ. Trong một số trường hợp có thể xác định rõ ràng một câu hỏi nào đó càn được trả lời hay một văn bản nào đó càn được tìm kiếm. Ngược lại, trong những trường hợp khác, người ta lại muốn có một cái nhìn tổng quát về một chủ đề nào đó. Đôi khi nhu cầu chỉ đơn thuần là tìm vài thứ quan tâm, hay đạt được một sự hiểu biết chung chung, hay để tìm ra những thông tin mới lạ nào đó ngoài mong đợi. Hơn nữa nhu cầu có thể được người dùng hiểu một cách không rõ ràng, và trong nhiều trường hợp thì khó diễn đạt bằng ngôn ngữ tự nhiên
Những công việc chính liên quan đến các nhu cầu thông tin khác nhau có thể được xem như các chức năng tìm kiếm, khảo duyệt, và hiển thị trực quan mà một hệ thống khai phá dữ liệu văn bản có thể cung cấp.
Tìm kiếm thông tin: trong tiếp cận tìm kiếm, người dùng đặc tả một yêu cầu thông tin bằng các từ dưới dạng truy vấn và yêu càu hệ thống xác định những văn bản thích hợp với truy vấn. Những cơ chế tìm kiếm trên Internet là ví dụ quen thuộc về những công cụ đặc biệt cho công việc này. Mô hình tìm kiếm là một dạng rất khiêm tốn của Khai phá dữ liệu văn bản, cho rằng người dùng đã biết khá rõ về những gì càn phải tìm thấy, và bắt buộc họ cũng phải khéo léo trong việc diễn đạt nhu càu thông tin. Tuy nhiên, nhu cầu có thể là mơ hồ, hay lĩnh vực chưa biết, hoặc đặc biệt khó khăn trong việc sử dụng thuật ngữ để biểu đạt truy vấn.
Khảo duyệt thông tín: trong khi duyệt thông tin, người dùng tự định hướng trong việc chọn lựa văn bản, ví dụ thông qua những liên kết giữa các văn bản như trong WWW, hay thông qua vài cấu trúc phân cấp như thu mục nội dung của một cuốn sách, hay những cấu trúc chủ đề của website.
Cách thức duyệt thông tin cho phép nhu cầu thông tin là mờ hơn hay không biết, bắt nguồn từ việc không yêu cầu có sự mô tả nhu cầu rõ ràng. Thay vì vậy, nhu càu được truyền đạt ngầm qua những chọn lựa được thực hiện lúc duyệt.
Trong cả hai hướng tiếp cận tìm kiếm và duyệt thông tin, giả sử khi nhu cầu thông tin là rất mơ hồ, hay chung chung, thì việc cung cấp truy cập đến hàu hết những văn bản thích ứng vẫn không thể được đáp ứng. Trong những trường hợp như thế thông tin dạng tổng quát có thể là thích hợp và hữu dụng hơn.
Hiển thị trực quan: có những nhu cầu thông tin đòi hỏi phải đạt đến kết quả là sự đánh giá và chuyển đạt được tính chất tương tự, cũng như sự khác
biệt, sự chồng lấn và những mối quan hệ khác giữa các thành phần trong tập dữ liệu
2.3.3. Các vấn đề về phân tích cú pháp trong Tiếng Việt
a. Nhập nhằng - vấn đề chính của xử lý ngôn ngữ tự nhiên:
Trước tiên, ta lấy một câu làm ví dụ: "Con ngựa đá con ngựa đá". Trong câu này, từ "đá" xuất hiện hai lần, từ đá thứ nhất là động từ chỉ hành động sử dụng chân tác động vào vật khác, từ "đá" thứ hai lại là tính từ thể hiện chất liệu của con ngựa thứ hai.
Có một số nhập nhằng trong xử lý ngôn ngữ tự nhiên như là
- Nhập nhằng trong việc phân đoạn từ (word segmentation): ví dụ câu học sinh học sinh học, việc phân đoạn từ chính xác sẽ là học_sinh học sinh_học, nhưng có thể gặp tách như học_sinh học_sinh học, hoặc học sinh_học sinh_học. Có thể thấy việc phân đoạn từ các từ đều chính xác nhưng trong hai cách tách từ cuối đều không chấp nhận được vì các cụm từ này không có ý nghĩa.
- Nhập nhằng trong gán nhãn từ loại: giống như ví dụ "con ngựa đá con ngựa đá" từ "đá" thứ hai có thể được gán nhãn là V (nhãn chỉ động từ) trong khi nó là một tính từ thể hiện chất liệu.
- Nhập nhằng trong phân tích cú pháp: Đối với phân tích cú pháp ta có thể thấy hai loại như sau:
+ Nhập nhằng do việc xác định từ bổ nghĩa: Ví dụ: "Tôi nhìn cô gái với ống nhòm"
Hình 2.2. Cây cú pháp của câu "tôi nhìn cô gái với chiếc ống nhòm”
Cây cú pháp bên trái miêu tả trường hợp "với ống nhòm" bổ nghĩa cho từ "cô gái", trong trường hợp này câu được hiều là "tôi" "nhìn" "cô gái với ống nhòm" (tôi nhìn thấy cố gái và cô gái ấy có một cái ống nhòm). Còn hình bên phải miêu ta trường hợp "với ống nhòm" bổ nghĩa cho động từ "nhìn". Câu này có thể hiểu là "tôi" "nhìn" "cô gái" "với ống nhòm" (tôi dùng ống nhòm để nhìn cô gái).
+ Nhập nhằng thứ hai là hiện tượng liên kết từ: Nhập nhằng này xảy ra trong một câu mà một từ có thể liên kết với từ trước hay từ đằng sau nó tạo thành một câu có ý nghĩa hoàn toàn khác nhau. Ví dụ như câu sau: "Nam hiểu Trung hơn Thành". Nếu như từ "Thành" liên kết với từ "Trung" ta có thể hiểu câu này là Nam hiểu Trung nhiều hơn là Nam hiểu Thành, nhưng ta có thể hiểu câu này theo một cách khác là Nam hiểu Trung nhiều hơn Thành hiểu Trung.
b. Phân tích cú pháp trong tiếng Việt
Mặc dù phân tích cú pháp có vai trò trung tâm trong các ứng dụng xử lý ngôn ngữ tự nhiên, nhưng những nghiên cứu về phân tích cú pháp cho tiếng
Việt còn rất hạn chế và chưa có bộ phân tích cú pháp nào được công bố rộng rãi. Một số bộ phân tích cú pháp đi theo hướng tiếp cận cũ (knowledge-base) thực hiện việc xây dựng luật ngữ pháp thủ công và không sử dụng thống kê trong đó. Do việc xây dựng luật ngữ pháp thủ công nên độ chính xác của bộ phân tích cú pháp này còn chưa cao, chỉ phân tích được một số lượng hữu hạn câu do văn phạm sinh ra. Một số hướng tiếp cận phân tích cú pháp đã được nghiên cứu nhưng còn sơ lược và đặc biệt là chưa có kết quả thực nghiệm.
Sau đây chúng tôi giới thiệu một số phương pháp phân tích cây cú pháp cổ điển.
Phân tích top - down
Cây cú pháp sinh ra bởi bộ phân tích top - down là kết quá của quá trình xây dựng cây bằng việc xuất phát từ một ký tự bắt đầu(gốc của cây), sử dụng các luật trong văn phạm phi ngữ cảnh để đi từ gốc đến là (ký tự kết thúc - nằm trong chuỗi cần phân tích). Đối với các luật có cùng vế trái, việc lựa chọn luật có thể đơn giản dựa theo độ lớn của xâu về phải (so sánh giữa các xâu về phải) hoặc đơn giản là thứ tự của các xâu vế phải trong bộ luật. Trong trường hợp phân tích top - dowm chưa kết thúc (chưa phát triển được toàn bộ xâu đầu vào) thì ta thực hiện quay lui để tìm luật khai triển phù hợp.
Đầu vào: văn phạm phi ngữ cảnh không đệ quy trái (nếu văn phạm đệ quy trái thì khi phân tích sẽ xảy ra hiện tượng lặp vô hạn) và chuỗi từ cần phân tích.
Đầu ra: là các cây cú pháp của chuỗi từ cân phân tích.
- Bước 1: Ta gọi gốc của cây là S (ký tự bắt đầu). Ta sử dụng một con trỏ chỉ vào xâu cần phân tích. Từ vào hiện tại là từ trong xâu vào được con trỏ trỏ đến. Vị trí đầu tiên của con trỏ là từ trái nhất của xâu.
- Bước 2: Giả sử A là ký tự đỉnh hiện tại và con trỏ đang trỏ vào ký tự x của xâu đầu vào (đỉnh hiện tại là đỉnh sẽ được xây dựng tiếp theo)
+ Nếu A thuộc tập ký tự không kết thúc thì chọn luật mà vế trái là A, giả sử luật này có dạng A→ X1X2..Xk thì ta chọn nút X1 làm nút đang xét. Nếu như k = 0 thì đỉnh phân tích tiếp theo sẽ là ký tự bên phải của A.
+ Nếu A thuộc tập ký tự kết thúc thì thực hiện so sánh với từ vào hiện tại. Nếu trùng nhau thì lấy ký tự bên phải A là đỉnh phân tích tiếp và con trỏ dịch sang phải một ký tự. Nếu như khác nhau thì quay lại bước 2a, chọn luật kế tiếp bắt đầu bằng A.
Sau một số hữu hạn bước ta sẽ phân tích được hết xâu vào, lúc đó sẽ có trường hợp sau:
- Xây dựng được cây cú pháp với đầu vào là văn phạm và xâu - Không xây dựng được cây cú pháp
Ví dụ Ta sử dụng văn phạm sau: S → NP VP (1) NP → N (2) N → “ tôi” (3) N → “bò” (4) N → “cỏ” (5) VP → V(6) VP → V PP (7) V → "ăn" (8) V → "bò" (9) PP → N(10)
Ta thực hiện việc phân tích câu "tôi bò". Sau đây là dẫn xuất của quá trình phân tích
Hình 2.3. Dẫn xuất phân tích top - down
Quá trình phân tích từ trái qua phải, tìm dẫn xuất của ký tự không kết thúc trái nhất, ưu tiên luật từ trên xuống dưới, ở đây từ dẫn xuất d → e ta thấy xâu "tôi" "ăn" không chính xác nên quay lui, ta có được dẫn xuất f khi sử dụng luật 9. Cuối cùng ta thu được xâu cần phân tích.
Khác hẳn với phân tích top - down, bộ phân tích bottom - up xuất phát từ một câu đầu vào, sử dụng hai hành động chính là đẩy vào (shift) và thu gọn (reduce) để thu gọn chuỗi đầu vào thành ký tự bắt đầu (gốc của cây cú pháp). Sử dụng một ngăn xếp, ta tiến hành đẩy các từ đầu vào vào ngăn xếp theo chiều từ trái sang phải (shift), nếu như ngăn xếp có thể thu gọn (reduce - ngăn xếp lúc này chứa vế phải của một luật và những ký tự này có thể được thay bằng vế trái của luật đó). Cũng giống như trong phân tích top - down, khi xảy ra lỗi, hoặc không phân tích được, chúng ta thực hiện hành động quay lui để phát triển theo một luật khác. Quá trình này tiếp tục cho đến khi ta không thể quay lui được nữa, lúc này nếu ngăn xếp không được thu gọn về trạng thái bắt đầu thì bộ phân tích bottom - up không thể phân tích chuỗi từ đầu vào.
Ví dụ: Ta sử dụng lại văn phạm đã định nghĩa ở trên để phân tích câu "bò ăn cỏ" S → NP VP (1) NP → N (2) N → “ tôi” (3) N → “bò” (4) N → “cỏ” (5) VP → V(6) VP → V PP (7) V → "ăn" (8) V → "bò" (9) PP → N(10) Ta có cây phân tích :
Hình 2.4. Dẫn xuất phân tích bottom - up
Ta thấy có quá trình tích khi đến trạng thái (e) có lỗi xảy ra nên thực hiện quay lui, chú ý ở đây có trường hợp N → bò, và V → bò, tuy nhiên với cách sắp xếp luật như trên nên trường hợp này không bị phân tích lỗi, tuy nhiên khi có lỗi xảy ra có thể vẫn quay lui về cây cú pháp đúng này.
Cả hai phương pháp này đều có những ưu điểm và nhược điểm riêng. Chiến lược phân tích top - down không lãng phí thời gian để duyệt các cây không là kết quả đối với gốc S, khi mà nó bắt đầu được sinh ra bởi những cây này. Điều đó có nghĩa là nó cũng không bao giờ thăm các cây con mà không thể tìm được vị trí trong các gốc cây S. Ngược lại, đối với chiến lược bottom -
với bất kỳ nốt liền kề nào đó, mà được sinh ra một cách ngẫu nhiên. Cách tiếp cận có những nhược điểm nhất định. Trong khi không lãng phí thời gian với nhưng cây không bắt đầu bởi S, bộ phân tích lại dành quá nhiều nỗ lực vào cây S mà không phù hợp với đầu vào. Điểm yếu này của bộ phân tích là do việc sinh cây diễn tra trước khi kiểm tra về đầu vào.
CHƯƠNG 3
XÂY DỰNG HỆ THỐNG RÚT GỌN VĂN BẢN VÀ CHUYỂN ĐỔI CÚ PHÁP NGÔN NGỮ KÝ HIỆU VIỆT NAM.
3.1. Môi trường thực nghiệm hệ thống rút gọn văn bản và chuyển đổi cú pháp
Trong đề tài này tôi sử dụng môi trường Microsoft Visual Studio và ngôn ngữ lập trình C# để triển khai các thuật toán thực nghiệm cho hệ thống rút gọn văn bản và chuyển đổi cú pháp.