Đặt bài toán

Một phần của tài liệu Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng (Trang 50 - 56)

Cho văn bản tiếng Việt, sau khi xử lý chương trình sẽ tự động phân loại được văn bản đó thuộc loại văn bản nào, nơi nào ban hành, ngày ban hành, thuộc lĩnh vực nào. Sau đó tự động lưu văn bản vào cơ sở dữ liệu và lưu tệp văn bản lên máy chủ.

Người dùng có thể tìm kiếm văn bản theo một hoặc nhiều tiêu chí sau: Loại văn bản, nơi ban hành, khoảng thời gian ban hành, lĩnh vực và đặc biệt tìm theo các từ khóa mà người dùng nhớ có xuất hiện trong trích yếu.

3.2.3. Giải quyết bài toán

Hình 3.1. Mô hình tổng quát của quá trình xử lý

3.2.3.1. Mô tả quy trình tách từ tiếng Việt

Tách từ là vấn đề quan trọng nhất của chương trình, nó quyết định chương trình có thực hiện đúng và chính xác việc phân loại hay không là nhờ kết quả của việc tách từ đúng hay sai. Do đặc điểm tiếng Việt, trong đó đặc điểm tiếng Việt không thể tách từ bằng khoảng trắng và nhập nhằng trong tiếng Việt nên việc tách từ gặp nhiều khó khăn.

Mỗi phương pháp tách từ có ưu, nhược điểm riêng. Phương pháp so khớp cực đại là cách tách từ đơn giản, dễ hiểu và chạy nhanh. Hơn nữa chúng ta chỉ cần một tập từ điển đầy đủ là có thể tiến hành tách các văn bản. Do đó, trong

ĐẦU RA ĐẦU VÀO QUÁ TRÌNH XỬ LÝ Người dùng Tách từ Văn bản tiếng Việt Phân loại Văn bản đã được giải quyết

Lưu trữ

Tra cứu, tìm kiếm

luận văn này chúng tôi lựa chọn phương pháp so khớp cực đại để xây dựng ứng dụng của mình.

Hình 3.2. Quy trình tách từ

Đầu vào là một câu, một văn bản

Đầu ra là chuỗi từ, cụm từ đã được tách.

Chúng ta bắt đầu duyệt từ đầu chuỗi, xác định đâu là từ. Đầu tiên chúng ta sẽ kiểm tra xem từ đầu tiên có phải là từ có trong kho dữ liệu không, sau đó kiểm tra tiếp chữ kế tiếp có trong kho dữ liệu hay không, nếu chữ đầu tiên và chữ kế tiếp có trong kho dữ liệu thì chương trình sẽ đọc chữ tiếp theo, cứ như vậy cho đến khi đọc chữ tiếp theo mà dãy chữ đó không có trong kho dữ liệu thì sẽ dừng lại và lấy từ là dãy chữ đã đọc được, tức là chương trình sẽ duyệt một ngữ hoặc một câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và đánh dấu từ đó. Sau đó tiếp tục quá trình trên với tất các các từ kế tiếp cho đến hết câu.

Ví dụ 1:

V/v thành lập Đoàn giám sát tình hình triển khai thực hiện Nghị quyết của HĐND tỉnh về phát triển du lịch tỉnh Phú Yên

Tách từ: V/v | thành lập | Đoàn | giám sát | tình hình | triển khai | thực hiện | Nghị quyết | của | HĐND| tỉnh | về | phát triển | du lịch | tỉnh | Phú Yên

Văn bản

Tách từ

Kho dữ liệu

* Ví dụ 2: V/v bổ sung kinh phí để thay thế, sửa chữa nâng cấp hệ thống máy tính phục vụ bạn đọc của Thư viện tỉnh Phú Yên.

Tách từ: V/v | bổ sung | kinh phí | để | thay thế| sửa chữa | nâng cấp | hệ thống | máy tính | phục vụ | bạn đọc | của | Thư viện | tỉnh | Phú Yên.

3.2.3.2. Mô tả quy trình phân loại và lưu trữ văn bản

Hình 3.3. Quy trình phân loại và lưu trữ văn bản

* Ví dụ 1: Cho văn bản: Tệp văn bản: “QD HDND.doc”; Số: 15/QĐ-HĐND; Lưu Trang người dùng Lưu Số/Ký hiệu Trích yếu Nơi lưu trữ Trang xử lý Nhập bằng tay Cơ sở dữ liệu Loại văn bản Nơi ban hành Ngày ban hành Lĩnh vực Văn bản Tải lên Văn bản Tách từ Số/Ký hiệu Ngày ban hành Trích yếu Tra cứu Tìm kiếm

Ngày ban hành: Ngày 27 tháng 11 năm 2014;

Trích yếu: Thành lập Đoàn giám sát tình hình triển khai thực hiện Nghị quyết của HĐND tỉnh về phát triển du lịch tỉnh Phú Yên;

Chương trình ứng dụng kỹ thuật tách từ sẽ xử lý dữ liệu trên như sau:

Loại văn bản: QĐ-> Quyết định;

Cơ quan ban hành: HĐND -> Hội đồng nhân dân; Ngày ban hành: 27/11/2014;

Tách từ: Thành lập | Đoàn | giám sát | tình hình | triển khai | thực hiện | Nghị quyết | của | HĐND| tỉnh | về | phát triển | du lịch | tỉnh | Phú Yên;

Gợi ý cho người quản trị lĩnh vực của văn bản: du lịch -> du lịch;

Sau khi phân loại xong, người quản trị kiểm tra lại dữ liệu nếu đúng thì văn bản sẽ được lưu vào cơ sở dữ liệu, tệp văn bản sẽ được tải lên máy chủ.

* Ví dụ 2:Cho văn bản:

Tệp văn bản: “CV HDND.doc”; Số: 150/HĐND-KTNS;

Ngày ban hành: Ngày 20 tháng 01 năm 2015;

Trích yếu: Bổ sung kinh phí để thay thế, sửa chữa nâng cấp hệ thống máy tính phục vụ bạn đọc của Thư viện tỉnh Phú Yên.

Chương trình ứng dụng kỹ thuật tách từ sẽ xử lý dữ liệu trên như sau:

Loại văn bản: Công văn (không có ký hiệu loại văn bản); Cơ quan ban hành: HĐND -> Hội đồng nhân dân;

Ngày ban hành: 20/01/2015;

Tách từ: Bổ sung | kinh phí | để | thay thế| sửa chữa | nâng cấp | hệ thống |

máy tính | phục vụ | bạn đọc | của | Thư viện | tỉnh | Phú Yên. Gợi ý cho người quản trị lĩnh vực của văn bản:

- Máy tính -> CNTT; - Thư viện -> Giáo dục;

Sau khi phân loại xong, người quản trị kiểm tra lại dữ liệu nếu đúng thì văn bản sẽ được lưu vào cơ sở dữ liệu, tệp văn bản sẽ được tải lên máy chủ.

3.2.3.3. Mô tả quy trình tra cứu và tìm kiếm văn bản

Hình 3.4. Quy trình tra cứu và tìm kiếm văn bản

Ví dụ: Giả sử có 5 văn bản có trích yếu như sau:

Văn bản 1: Kết quả giám sát tình hình triển khai thực hiện các Chương trình mục tiêu Quốc gia về lĩnh vực văn hóa - xã hội trên địa bàn tỉnh Phú Yên, giai đoạn 2012-2014.

Văn bản 2: Quy định về xét tặng danh hiệu “Nhà giáo Nhân dân”, “Nhà

giáo Ưu tú”.

Văn bản 3: Thực hiện tự kiểm tra và gửi văn bản quy phạm pháp luật

thuộc lĩnh vực quản lý nhà nước của Bộ Y tế.

Văn bản 4: Về việc tăng cường công tác đảm bảo trật tự, an toàn giao

thông năm 2015. Từ, cụm từ tìm kiếm CSDL Chuỗi từ tìm kiếm Các VB cần tìm Tách từ Tra vào Cho ra

Văn bản 5: Kết quả giám sát về tình hình triển khai thực hiện Chương trình mục tiêu Quốc gia về nước sạch và vệ sinh môi trường nông thôn trên địa bàn tỉnh giai đoạn 2012 – 2014.

Với chuỗi từ tìm kiếm là: “giám sát thực hiện”;

Chương trình sẽ ứng dụng kỹ thuật tách từ để tách chuỗi từ trên thành các từ: “giám sát” và “thực hiện”;

Sau đó chương trình sẽ tìm kiếm và đưa ra các văn bản có xuất hiện các từ này trong trích yếu. Chương trình sắp xếp tự động theo thứ tự ưu tiên cho những văn bản gần với nội dung tìm kiếm nhất (xuất hiện các từ tìm kiếm nhiều lần nhất), đồng thời sẽ tô đậm và tô đỏ các từ tìm kiếm đó trong kết quả tìm kiếm;

Kết quả: Tìm kiếm được 3 văn bản trong 5 văn bản trên thỏa điều kiện

tìm kiếm và được sắp xếp như sau:

Kết quả giám sát tình hình triển khai thực hiện các Chương trình mục tiêu Quốc gia về lĩnh vực văn hóa - xã hội trên địa bàn tỉnh Phú Yên, giai đoạn 2012- 2014

Kết quả giám sátvề tình hình triển khai thực hiện Chương trình mục tiêu Quốc gia về nước sạch và vệ sinh môi trường nông thôn trên địa bàn tỉnh giai đoạn 2012 – 2014

Thực hiệntự kiểm tra và gửi văn bản quy phạm pháp luật thuộc lĩnh vực

quản lý nhà nước của Bộ Y tế.

Một phần của tài liệu Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng (Trang 50 - 56)

Tải bản đầy đủ (PDF)

(67 trang)