Biểu diễn văn bản dưới dạng vector

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter (Trang 30 - 33)

Trong không gian:

Khi đã lựa chọn được các đặc trưng của văn bản thì văn bản của chúng ta sẽ được biểu diễn bằng một vector n chiều mỗi chiều là một đặc trưng của văn bản. Dưới dạng không gian nhiều chiều văn bản sẽ được biểu diễn như sau:

Hình vẽ 2.2.1: Biểu diễn văn bản bằng hai đặc trưng đồng thời

Hình vẽ 2.2.2: văn bản biểu diễn bằng ba đặc trưng C-E-D

Lược đồ biểu diễn đặc trưng x Lược đồ biểu diễn đặc trưng y

Trong máy tính: văn bản được biểu diễn là một vector có không gian là các từ (word) xuất hiện trong văn bản đó. Những từ này cũng đã được lựa chọn nhờ vào hai thông số là DF (document Frequency) và IDF (Inverse Document Frequency).

Bước đầu tiên trong chuyển văn bản sang không gian vector là tạo một thư mục để biểu diễn tài liệu. Để thực hiện, bạn cần chọn tất cả các từ trong tài liệu và chuyển nó sang một chiều trong không gian vector, nhưng bạn biết rằng có một số loại của từ mà được biểu diễn trong hầu hết các văn bản và việc chúng ta đang làm là trích xuất những đặc trưng quan trọng của văn bản nên những từ như "the, is, at, on..." sẽ không giúp chung ta nhiều nên chúng ta sẽ bỏ qua chúng khi trích xuất. Hãy lấy đoạn văn bản bên dưới để xác định không gian tài liệu của chúng ta: Train Document Set - Tập huấn luyện:

- d1: Cough and fever are the symptoms of the flu. - d2: Sore throat and headache are the symptoms of flu. Test Document Set- Tập kiểm tra:

- d3: This weather caused me to Sore throat and headache. - d4: I've got a headache, a bad headache and cough.

Bây giờ, việc chúng ta cần làm là tạo ra một từ điển chỉ số của những từ trong tập dữ liệu huấn huyện. Dùng d1 và d2 từ tập huấn luyện, chúng ta sẽ có từ điện chỉ số như trong hình kí hiệu

Chú ý rằng những từ như "are" và "the" bị bỏ qua như được trích dẫn trước đó. Bây giờ chúng ta có một từ điển chỉ số, chúng ta có thể chuyển văn bản kiểm tra thành một không gian vector nơi mà mỗi từ của vector được chỉ rõ như là tự vựng chỉ số. Bây giờ chúng ta sẽ chùng term-frequency để biểu diễn

mỗi từ trong không gian vector của chúng ta. TF là thước đo số lần xuất hiện của từ trong từ điển E(t). Chúng ta xác định TF bằng một hàm đếm:

Nơi mà fr(x,t) là một hàm đơn giản:

fr(x,t) =

Vì về, hàm tf(t,d) sẽ trả về số lần từ t xuất hiện trong văn bản d. Ví dụ, tf("headache, d4)= 2 vì từ "headache" xuất hiện hai lần trong d4. Bây giờ bạn đã hiểu cách hoạt động của tf, bây giờ chúng ta sẽ tạo một vector văn bản, được biểu diễn bởi phương trình dưới:

vdn= (tf(t1,dn),tf(t2,dn),tf(t3,dn),....tf(tn,dn)

Mỗi chiều của vector văn bản được biểu diễn bằng tần xuất của từ. Ví dụ, tf(t1,d2) biểu diễn số lần xuất hiện của từ t1("headache") trong văn bản d2. vd3 = tf(t1,d3) ,tf(t2,d3),tf(t3,d3),....,tf(tn,d3)

vd4 = (tf(t1,d4),tf(t2,d4),tf(t3,d4),....,tf(tn,d4) từ công thức, ta có: vd3 = (0,0,1,1)

vd4 = (0,2,1,0)

Từ kết quả ta thấy, trong văn bản d3 không có từ "Cough" và "fever", những từ "Sore throat", "headache" xuất hiện 1 lần. Tương tự với d4

Bởi vì dữ liệu là tập hợp của các văn bản, mỗi văn bản được biểu diễn dưới dạng vector nên chúng ta kết hợp chúng thành một ma trận kích thước D x F trong đó D là số văn bản ta có và F kích thước của tập từ vựng.

Đã có rất nhiều tiến trình xử lí văn bản được đề xuất bởi các nhà nghiên cứu quá trình tìm kiếm và mang lại thông tin. Chẳng hạn như là: tìm kiếm và thu

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter (Trang 30 - 33)

Tải bản đầy đủ (PDF)

(61 trang)