Giao diện chính trang người dùng
Giao diện chính trang quản trị
Hình 3.6. Giao diện chính trang quản trị
3.5.1. Một số chức năng chính của ứng dụng * Phần người dùng:
Hiển thị văn bản theo Loại văn bản; Nơi ban hành; Lĩnh vực; Hiển thị chi tiết một văn bản;
Lọc văn bản: có thể lọc nhanh văn bản theo nhiều tiêu chí kết hợp như: loại văn bản, nơi ban hành và lĩnh vực;
Tìm kiếm theo từ khóa: có thể nhập chuỗi từ cần tìm, và kết quả là các văn bản có xuất hiện các từ đó, văn bản nào có nội dung gần nhất với chuỗi từ cần tìm sẽ được hiển thị lên trước;
Tìm kiếm chi tiết: có thể kết hợp nhiều yếu tố tìm kiếm như số/ký hiệu văn bản, loại văn bản, nơi ban hành, khoảng thời gian ban hành,…
* Phần quản trị:
Phân loại và lưu trữ: Chức năng này dùng để phân loại và lưu trữ văn bản vào cơ sở dữ liệu, tệp văn bản lên máy chủ
Chức năng Thêm: Loại văn bản, nơi ban hành, lĩnh vực, từ tiếng Việt
Chức năng Quản lý: Loại văn bản, nơi ban hành, lĩnh vực
Kiểm tra từ tiếng Việt: Kiểm tra và quản lý các từ tiếng Việt
3.5.2. Chi tiết các chức năng của chương trình ứng dụng kỹ thuật tách từ
* Chức năng phân loại và lưu trữ văn:
Người quản trị chọn tệp văn bản tải lên, nhập số, ký hiệu, ngày ban hành, trích yếu sau đó chọn chức năng xử lý.
Hình 3.7. Nhập các thông tin cần thiết cho việc phân loại và lưu trữ văn bản
Sau khi xử lý văn bản sẽ được phân loại thành: Loại văn bản, nơi ban hành, ngày tháng ban hành, trích yếu, từ trích yếu chương trình ứng dụng kỹ thuật tách từ để xác định các từ khóa và gợi ý cho người quản trị văn bản trên thuộc lĩnh vực nào.
Hình 3.8. Sau khi nhấn nút xử lý
Những lĩnh vực được gợi ý sẽ được đưa lên trên, những lĩnh vực khác sẽ ở dưới dấu “---” để người quản trị dễ dàng chọn lựa.
Người quản trị kiểm tra lại kết quả phân loại và chọn lưu văn bản thì văn bản sẽ được tải lên và lưu trữ trên máy chủ, đường dẫn lưu văn bản sẽ phụ thuộc vào loại văn bản và nơi ban hành của văn bản, nếu trùng tên với một tệp đã có sẵn cùng thư mục thì chương trình tự động thêm các số 1,2,3,… vào sau tên tệp cho đến khi có được tên tệp không trùng; đồng thời văn bản cũng được lưu vào cơ sở dữ liệu để phục vụ cho việc tìm kiếm và tra cứu.
Hình 3.10. Lưu văn bản thành công
* Chức năng tìm kiếm theo từ khóa.
Ví dụ: Khi người dùng nhập từ cần tìm là “giám sát thực hiện” vào ô tìm kiếm, rồi bấm nút tìm kiếm thì chương trình ứng dụng kỹ thuật tách từ để tìm ra tất cả những văn bản nào có từ “giám sát”, từ “thực hiện” trong phần trích yếu. Chương trình sắp xếp tự động theo thứ tự ưu tiên cho những văn bản gần với nội dung tìm kiếm nhất (xuất hiện các từ tìm kiếm nhiều lần nhất), đồng thời sẽ tô đậm và tô đỏ các từ tìm kiếm đó trong kết quả tìm kiếm.
Hình 3.11. Giao diện chức năng tìm kiếm theo từ khóa dùng kỹ thuật tách từ
3.6. Tổng kết chương
Ứng dụng chương trình hệ hỗ trợ phân loại và tìm kiếm văn bản CBCC cơ quan Văn phòng HĐND tỉnh có thể dễ dàng phân loại tự động các văn bản theo từng loại văn bản, cơ quan, đơn vị ban hành, lĩnh vực văn bản. Hơn thế nữa, chương trình này sẽ góp phần thuận lợi trong việc bảo quản, lưu trữ tài liệu, hồ sơ một cách khoa học, nhanh chóng.
Đồng thời, giúp CBCC cơ quan có thể tìm kiếm văn bản theo một hoặc nhiều tiêu chí sau: Loại văn bản, nơi ban hành, thời gian ban hành, lĩnh vực. Đặc biệt có thể tìm kiếm theo các từ khóa mà người dùng nhớ có xuất hiện trong trích yếu văn bản.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1. Kết luận
Qua quá trình thực hiện đề tài “Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng”, luận văn đã đạt được các kết quả như sau:
Tìm hiểu các khái niệm và các bước để xử lý ngôn ngữ tự nhiên, các kỹ thuật và các bài toán liên quan đến xử lý ngôn ngữ tự nhiên. Các đặc trưng ngôn ngữ tiếng Việt, tách từ tiếng Việt với các hướng tiếp cận dựa trên từ điển, tiếp cận dựa trên thống kê từ và các hiện tượng nhập nhằng trong tiếng Việt. Ngoài ra, còn tìm hiểu một số phương pháp tách từ tiếng Việt như: So khớp cực đại, mô hình Markov ẩn, chuyển dịch trạng thái hữu hạn có trọng số và mô hình chuỗi xác suất có điều kiện.
Trên cơ sở đó, luận văn đã xây dựng được một chương trình hệ hỗ trợ phân loại và tìm kiếm văn bản tự động.Vì thời gian còn hạn chế nên các tính năng của chương trình chưa thực sự hoàn thiện, nhưng chương trình đã ứng dụng kỹ thuật tách từ bằng phương pháp so khớp cực đại để phân loại và tìm kiếm văn bản số hóa tại HĐND tỉnh Phú Yên.
2. Hướng phát triển đề tài
Qua quá trình nghiên cứu và thực hiện đề tài, bên cạnh các kết quả đạt được thì vẫn còn tồn tại một số hạn chế. Do đó, hướng nghiên cứu tiếp theo của đề tài này là:
Tự động đọc và nhận dạng được ký hiệu, thời gian ban hành và trích yếu của tệp văn bản lưu dưới dạng Word (.doc, .docx) và PDF (.pdf);
Hoàn thiện kho dữ liệu từ tiếng Việt để kết quả phân tích của chương trình có độ chính xác cao hơn;
Hoàn thiện và nâng cấp các chức năng để chương trình xử lý tốt hơn (xử lý lỗi nội dung cần lấy của tệp văn bản, xử lý lỗi từ người dùng,…).
TÀI LIỆU THAM KHẢO Tiếng Việt
1. Hồ Tú Bảo, Lương Chi Mai (2008), “Về xử lý tiếng Việt trong công nghệ thông tin”, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ tiên tiến Nhật Bản.
2. Nguyễn Thiện Giáp (2005), Lược sử Việt ngữ học (tập 1), Nhà xuất bản Giáo dục, trang 63-66.
3. Nguyễn Hữu Quỳnh. (2001), Ngữ Pháp Tiếng Việt, Nhà xuất bản từ điển Bách khoa.
4. Đồng Thị Bích Thủy, Hồ Bảo Quốc (2001), “Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin văn bản tiếng Việt”, Khoa Công Nghệ Thông Tin - Đại học Khoa học tự nhiên Thành phố Hồ Chí Minh Laboratoire CLIP IMAG, Grenoble.
Tiếng Anh
5. Chen, K. J., & Liu, S. H. (1992). “Word identification for Mandarin Chinese sentences”. Proceedings of the Fifteenth International Conference on Computational Linguistics, Nantes: COLING-92.
6. Eric Brill. (1995), “Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging”,
Computational Linguistics, 21(4), pp. 543-565.
7. Phil Blunsom (2004), Hidden Markov Models, pp. 1-7.
8. Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001). “Vietnamese Word Segmentation”. The sixth 6th Natural Language Processing Pacific Rim Symposium Tokyo, Japan, pp. 749 -756.
9. Le An Ha (2003), A method for word segmentation in Vietnamese. In
10. John Lafferty, Andrew McCallum, Fernando Pereira (2001).
Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data.
11. Xuan- Hieu, Phan Le- Minh, Nguyen Cam- Tu Nguyen, Trung- Kien Nguyen and Quang- Thuy Ha (2005), Vietnamese word segmentation with crfs and svms: An investigation. In Proceeding of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), pages 215-222. Wuhan, China.
12. Chih-Hao Tsai (2000). MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm.