3. Bố cục luận văn
3.4. Trích chọn đặc trưng
Trong học máy, máy tính khơng thể hiểu trực tiếp ngơn ngữ tự nhiên mà chỉ hiểu được ngơn ngữ khi chúng được biểu diễn dưới dạng khơng gian vector. Các chiều thuộc tính đầu vào sẽ được biểu diễn dưới dạng ma trận vector, cĩ nhiều phương pháp để biểu diễn văn bản sang dạng ma trận vector chẳng hạn: cách truyền thống như mơ hình Bag of Word, N-gram và mơ hình TF-IDF, mơ hình chủ đề hay các cách cải tiến như các mơ hình Word2Vec, GloVe, FastTex (Sarkar, 2019). Trong nghiên cứu này, chúng tơi áp dụng các phương pháp là Bag of Word, N-grams và TF-IDF để thử nghiệm mơ hình và biểu diễn dữ liệu.
Mơ hình Bag of word (BOW): Là kỹ thuật đơn giản nhất giúp chúng ta
chuyển đổi các câu văn bản thành các vectơ đặc trưng. Giống như bản thân thuật ngữ, chúng ta cĩ thể biểu diễn một câu dưới dạng một túi từ vectơ (một chuỗi số). Mơ hình BoW tập hợp tất cả các từ dạng một từ duy nhất, khơng chứa các cụm từ gồm nhiều từ ghép lại. Mơ hình Bag of Words là một cách rất đơn giản để biểu diễn dữ liệu văn bản cho một thuật tốn học máy cĩ thể hiểu được. Nĩ đã được chứng minh là rất hiệu quả trong các lĩnh vực NLP như phân loại tài liệu.
Ví dụ, xem xét hai bình luận sau đây
(1) “đồ ăn ngon quá”, “phục vụ quá tệ”, (2) “đồ ăn khơng ngon”.
Dựa vào ví dụ trên thì tập từ điển được xây dựng là tập hợp tất cả các từ cĩ trong 2 câu bình luận là 8 từ khác nhau trong kho ngữ liệu văn bản: [“đồ”, “ăn”,
Rất tích cực 36% Tích cực 34% Trung tính 15% Tiêu cực 12% Rất tiêu cực 3% Tỷ lệ tập dữ liệu
Rất tích cực Tích cực Trung tính Tiêu cực Rất tiêu cực
“ngon”, “quá”, “phục”, “vụ”, “tệ”, “khơng”].
Dựa trên tập từ điển xây dựng được, bây giờ chúng ta chỉ cần đếm tần suất xuất hiện của các từ trong mỗi câu và kết quả nhận được là vectơ số, đĩ là ý tưởng cốt lõi đằng sau mơ hình BoW.
(1) [1,1,1,2,1,1,1,0] (2) [1,1,1,0,0,0,0,1]
Nhận xét rằng với cách mơ hình hĩa bằng BoW thì sẽ khơng quan tâm đến thứ tự xuất hiện của từ mà chỉ quan tâm đến tần suất xuất hiện. Do đĩ, hai câu như “uống sữa rất thích” và “rất thích uống sữa” được vector hĩa là như nhau.
Mơ hình N-Grams được hiểu đơn giản là tần suất xuất hiện của n kí tự (từ)
liên tiếp xuất hiện trong ngữ liệu tùy thuộc vào nhu cầu.
Unigram, n=1 là mơ hình được sử dụng với tần suất xuất hiện của một kí tự (từ), như: "k", "a",...
Bigram với mơ hình n=2 , được sử dụng nhiều trong việc phân tích các hình thái cho ngơn ngữ
Trigram với n-3, với n càng lớn thì độ chính xác càng cao tuy nhiên đi kèm với đĩ thì độ phức tạp cũng khĩ hơn
Để xây dựng một mơ hình n-gram, ban đầu người ta dựa trên một tập dữ liệu huấn luyện (Tranning set). Sau khi mơ hình được xây dựng, tiến hành kiểm tra mơ hình dựa trên một tập dữ liệu kiểm thử. Việc kiểm thử tốt nhất là sử dụng một tập dữ liệu khơng cĩ trong tập huấn luyện. Dựa vào việc kiểm thử này mà ta cĩ thể biết được mơ hình cĩ tốt hay khơng.
Mơ hình Term Frequency – Inverse Document Frequency (TF-IDF):
Kỹ thuật chuyển đổi các câu văn bản thành vectơ đặc trưng. Với mơ hình BoW và n-grams gặp một vài vấn đề đối với tập dữ liệu lớn, đĩ là các từ cĩ tần suất xuất hiện nhiều ở đa số các đoạn văn bản, nhưng khơng cĩ ý nghĩa phân lớp, ví dụ như các từ “này”, “đĩ”, “rất”, “cửa hàng”. Khi đĩ TF-IDF là trọng số của một từ trong văn bản thu được thơng qua thống kê thể hiện mức độ quan trọng của từ này trong một văn bản. Mơ hình TF-IDF làm nổi bật các từ chỉ xuất hiện ở một vài văn bản. Bên cạnh đĩ là các từ xuất hiện càng nhiều ở các văn bản thì càng giảm giá trị của các từ này
Xuất hiện nhiều trong văn bản
Xuất hiện ít trong cả tập ngữ liệu Bước 1: Tính TF theo cơng thức
Bước 2: Tính IDF theo cơng thức
Bước 3: Tính TF-IDF theo cơng thức
Ta thấy hàm IDF(t,D) đảm bảo tính chất nêu trên của từ quan trọng. Một từ xuất hiện ở nhiều văn bản thì mẫu của hàm log lớn dẫn đến log tiến về 0 tương đương với từ này kém giá trị. Ngược lại, số từ sử dụng trong các văn bản càng ít thì log sẽ tiến về giá trị lớn hơn. Sử dụng phương pháp TF-IDF sẽ mơ tả được vector của tập ngữ liệu kích thước bằng số lượng văn bản x số lượng từ trong ngữ liệu. Mơ hình TF-IDF đã cải tiến hơn mơ hình Bag of Words ở gĩc độ nhấn mạnh được các từ quan trọng