1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên tách từ và xác định từ khóa trong văn bản tiếng việt

10 608 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 101,27 KB

Nội dung

Yêu cầu thực tếTách từ và xác định từ khóa là một phần rất quan trọng trong quá trình xử lí văn bản.. Kết quả của việc tách từ có thể sử dụng để thực hiện một số công việc xử lí văn bả

Trang 1

Đề tài:

Tách từ và xác định từ khóa trong văn

bản tiếng Việt

 Thành viên:

 Đoàn Trung Kiên - 20086096

 Phạm Trí Dũng - 20086081

 Phạm Văn Chí - 20086077

 Phạm Tiến Dũng – 20086080

Trang 2

Nội dung trình bày

1. Yêu cầu thực tế

2. Giới thiệu về chương trình

3. Các bước tiến hành

4. Sử dụng chương trình

5. Demo chương trình

Trang 3

1 Yêu cầu thực tế

Tách từ và xác định từ khóa là một phần rất quan trọng trong quá trình xử lí văn

bản

Kết quả của việc tách từ có thể sử dụng để thực hiện một số công việc xử lí văn bản cao hơn như phân loại văn bản, tóm tắt

văn bản, xác định ngữ nghĩa của văn bản

Trang 4

2 Giới thiệu về chương trình

được sử dụng để xác định từ khóa

và tính trọng số từ các văn bản

tiếng Việt (mã hóa bằng bảng mã Unicode UTF-8)

Chương trình có sử dụng công cụ tách từ của Lê Hồng Phương

(vnTokenizer)

Trang 5

3 Các bước tiến hành

1 Tìm hiểu công cụ tách từ của Lê Hồng

Phương để tách từ (vnTokenizer)

2 Loại bỏ các từ tầm thường (stop word)

trong tập các từ đã được tách (từ tầm thường

là các từ xuất hiện nhiều nhưng không mang ngữ nghĩa của văn bản)

3 Loại bỏ các từ trùng lặp sau khi tách từ

Trang 6

3 Các bước tiến hành (2)

4 Tính trọng số TF*IPF của tất cả các từ trên theo công thức sau:

Trong đó tf là số lần xuất hiện từ i trong

đoạn, N là tổng số đoạn trong văn bản, ni là

số đoạn chứa từ i

Trang 7

3 Các bước tiến hành (3)

5 Sắp xếp các từ theo chiều giảm dần của

điểm IF*IPF đã tính ở bước trước Một số phần trăm nhất định của các từ có điểm

IF*IPF cao nhất sẽ được chọn làm từ khóa (Sử dụng thuật toán Quick sort)

Trang 8

4 Sử dụng chương trình

• Dữ liệu cần cung cấp cho chương trình gồm 1 tệp văn bản tiếng Việt

• Kết quả: Một tệp văn bản kết quả được ghi dưới định dạng XML Tệp kết quả chứa tất cả các từ trong văn bản và được sắp xếp theo

chiều giảm dần của chỉ số TF*IPF

Trang 9

4 Sử dụng chương trình (2)

• java -jar KeywordDetermining.jar -i

<tệp-input> -o <tệp-output>

• Hai tùy chọn -i và -o là bắt buộc

• Ví dụ: java -jar

KeywordDetermining.jar -i samples/ 5.txt -o samples/5.xml

• Tìm từ khóa tệp samples/5.txt và ghi kết quả vào tệp samples/5.xml

Trang 10

5 DEMO

 java -jar KeywordDetermining.jar -i samples/3.txt -o samples/3.xml

Ngày đăng: 23/10/2014, 23:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w