Yêu cầu thực tếTách từ và xác định từ khóa là một phần rất quan trọng trong quá trình xử lí văn bản.. Kết quả của việc tách từ có thể sử dụng để thực hiện một số công việc xử lí văn bả
Trang 1Đề tài:
Tách từ và xác định từ khóa trong văn
bản tiếng Việt
Thành viên:
Đoàn Trung Kiên - 20086096
Phạm Trí Dũng - 20086081
Phạm Văn Chí - 20086077
Phạm Tiến Dũng – 20086080
Trang 2Nội dung trình bày
1. Yêu cầu thực tế
2. Giới thiệu về chương trình
3. Các bước tiến hành
4. Sử dụng chương trình
5. Demo chương trình
Trang 31 Yêu cầu thực tế
Tách từ và xác định từ khóa là một phần rất quan trọng trong quá trình xử lí văn
bản
Kết quả của việc tách từ có thể sử dụng để thực hiện một số công việc xử lí văn bản cao hơn như phân loại văn bản, tóm tắt
văn bản, xác định ngữ nghĩa của văn bản
Trang 42 Giới thiệu về chương trình
được sử dụng để xác định từ khóa
và tính trọng số từ các văn bản
tiếng Việt (mã hóa bằng bảng mã Unicode UTF-8)
Chương trình có sử dụng công cụ tách từ của Lê Hồng Phương
(vnTokenizer)
Trang 53 Các bước tiến hành
1 Tìm hiểu công cụ tách từ của Lê Hồng
Phương để tách từ (vnTokenizer)
2 Loại bỏ các từ tầm thường (stop word)
trong tập các từ đã được tách (từ tầm thường
là các từ xuất hiện nhiều nhưng không mang ngữ nghĩa của văn bản)
3 Loại bỏ các từ trùng lặp sau khi tách từ
Trang 63 Các bước tiến hành (2)
4 Tính trọng số TF*IPF của tất cả các từ trên theo công thức sau:
Trong đó tf là số lần xuất hiện từ i trong
đoạn, N là tổng số đoạn trong văn bản, ni là
số đoạn chứa từ i
Trang 73 Các bước tiến hành (3)
5 Sắp xếp các từ theo chiều giảm dần của
điểm IF*IPF đã tính ở bước trước Một số phần trăm nhất định của các từ có điểm
IF*IPF cao nhất sẽ được chọn làm từ khóa (Sử dụng thuật toán Quick sort)
Trang 84 Sử dụng chương trình
• Dữ liệu cần cung cấp cho chương trình gồm 1 tệp văn bản tiếng Việt
• Kết quả: Một tệp văn bản kết quả được ghi dưới định dạng XML Tệp kết quả chứa tất cả các từ trong văn bản và được sắp xếp theo
chiều giảm dần của chỉ số TF*IPF
Trang 94 Sử dụng chương trình (2)
• java -jar KeywordDetermining.jar -i
<tệp-input> -o <tệp-output>
• Hai tùy chọn -i và -o là bắt buộc
• Ví dụ: java -jar
KeywordDetermining.jar -i samples/ 5.txt -o samples/5.xml
• Tìm từ khóa tệp samples/5.txt và ghi kết quả vào tệp samples/5.xml
Trang 105 DEMO
java -jar KeywordDetermining.jar -i samples/3.txt -o samples/3.xml