- C1C2 C3C4 C5 C1C2 C3C4 C5C
2.5.1. Tiền xử lý văn bản
- Trước tiờn đưa tập mẫu văn bản đó phõn lớp bằng tay vào mụdun tiền xử lý văn bản
- Lọc nhiễu: loại bỏ kớ tự thừa, vụ nghĩa, lỗi chớnh tả, lựa chọn văn bản.doc, txt, chữ viết hoa đồng nghĩa với chữ viết thường…
- Tỏch từ khúa nhờ bộ từ điển - Loại bỏ từ dừng nhở bộ từ dừng
+ Từ điển là nơi lưu trữ cỏc từ khúa dựng trong quỏ trỡnh phõn tớch văn bản. Căn cứ vào từ điển chỳng ta sẽ tỏch được ra cỏc từ khúa trong văn bản. Học viờn đó xõy dựng được bộ tự điển thống kờ gồm hơn 51.000 từ xếp theo thứ tự abc…và đỏnh chỉ số từ. Từ điển được lưu trong cơ sở dữ liệu theo mảng sau:
Id (chỉ số từ) Từ
Tuy nhiờn, gọi là bộ tự điển thực chất là một tập hợp từ mang tớnh thụng kờ. Quỏ trỡnh xõy dựng tự điển bỏn tự động. Bộ tự điển cú được là một thành cụng, song khụng khỏi cũn thiếu sút, chưa thật đầy đủ và chớnh xỏc về từ.
Kết quả Phõn lớp
Hỡnh 2.3. Mụ hỡnh tiếp cận bài toỏn phõn lớp tự độngvăn bản tiếng Việt về tài nguyờn và mụi trường
…..… … … … Tập văn bản mẫu đó phõn lớp bằng tay Văn bản chưa phõn lớp Tỏch từ Loại Từ dừng Từ điển Từ dừng Biểu diễn vec tơ văn bản theo mụ hỡnh vector thưa (chỉ số văn bản, chỉ số từ khúa, trọng số TFxIDF ….. … … … …. Bộ tiền xử lý Lọc nhiễu Chỉ số từ theo từ điển Bộ vecto húa - Tớnh độ liờn quan cụng thức cụsin - Thuật toỏn phõn lớp knn Tớnh trọng số TFxIDF Lựa chọn tập đặc trưng theo chủ đề Danh sỏch từ, tần số xuất hiện
+ Một bộ từ dừng cũng bố cục và lưu trong cơ sở dữ liệu Id (chỉ số từ dừng) Từ dừng
+ Tỏch từ: học viờn lựa chọn thuật toỏn tỏch từ như sau:
1. Phõn chia văn bản theo cỏc dấu như ".", ", ", ";", ":", "/", "?", "-", "!", (), … để thu được một tập hợp cỏc đoạn văn bản nhỏ hơn.
2. Coi mỗi đoạn văn bản là tập hợp cỏc tiếng, mỗi tiếng được ngăn cỏch với nhau bởi ký tự trắng. Lần lượt xột từng phần của đoạn văn bản (đầu tiờn là toàn bộ), kiểm tra xem tập hợp cỏc tiếng đang xột theo thứ tự cú tạo thành một từ trong từ điển khụng? Nếu khụng ta loại dần từng tiếng từ phớa bờn phải (trỏi), nếu cú ta xỏc định một từ và tiếp tục kiểm tra phần cũn lại của đoạn văn bản xem cú từ nào khụng. Cứ như vậy cho đến khi kiểm tra hết mọi tiếng của đoạn văn bản.
Hỡnh 2.4. Sơ đồ của thuật toỏn tỏch từ
Kết thỳc Chia văn bản thành cỏc
đoạn văn bản nhỏ hơn
Là từ ? Bỏ qua 1 tiếng ở bờn phải (trỏi)
Cắt từ khỏi đoạn văn bản
đoạn văn bản rỗng Bắt đầu
Dựa vào cỏc kớ tự ",;. ? !:"
Xột lần lượt từng đoạn văn bản (tập cỏc ‘tiếng’) S
T
S
Đ
3. Lặp lại quỏ trỡnh cho mọi đoạn văn bản của văn bản gốc cho tới khi kết thỳc văn bản. Ta thu được một tập cỏc từ thụ.
+ Từ tập cỏc từ thụ đó được tỏch, ta tiếp tục loại bỏ cỏc từ dừng thụng qua một danh sỏch cỏc từ dừng cú sẵn để dữ lại cỏc từ cú ý nghĩa. Cỏc từ mang ớt ý nghĩa là cỏc liờn từ, phú từ như: cú thể, thỡ, hầu như, vỡ thế,… Việc lập một danh sỏch đầy đủ cỏc từ dừng và độ chớnh xỏc của từ điển, tạo hiệu quả cho việc tỏch từ trong tiếng Việt và tăng tớnh chớnh xỏc của bài toỏn.
Sau khi tỏch từ và loại bỏ từ dừng, thu được một tập từ thụ cho mỗi văn bản, cỏc từ này cú chỉ số id từ trong từ điển thống kờ. Tập hợp từ này được lưu vào trong cơ sở dữ liệu để sử dụng về sau. Mảng lưu như sau:
Id văn bản Id từ khúa Tần số xuất hiện