Tiền xử lý

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 43 - 47)

Tiền xử lý là một nhiệm vụ quan trọng và bước quan trọng trong khai phá dữ liệu, xử lý ngôn ngữ tự nhiên (Nature Language Proccess) và truy xuất thông tin (Information Retrieve). Trong lĩnh vực khai phá văn bản, dữ liệu tiền xử lý được sử dụng để trích xuất kiến thức đáng quan tâm từ dữ liệu văn bản phi cấu trúc. Các lợi ích của việc tiền xử lý dữ liệu bao gồm

- Làm sạch: loại bỏ những thành phần dư thừa, ít có tính hữu dụng từ đó giảm kích thước của tập dữ liệu sẽ làm tăng tính hiệu quả của hệ thống. Phương pháp cụ thể áp dụng như loại bỏ Stopword, xử lý viết hoa.

- Cấu trúc hóa dữ liệu: sau khi tiền xử lý dữ liệu sẽ được biểu diễn dưới những dạng phù hợp để việc huấn luyện dễ dàng hơn.

- Chuẩn hóa: ánh xạ những thuật ngữ khác nhau nhưng có chung ý nghĩa để giảm độ phức tạp về mặt ngôn ngữ học thông qua các kỹ thuật như biến đổi từ gốc (Stemming), Lemmazation…

- Phân tích: biến đổi tập dữ liệu đầu vào thu thập các thông tin về mặt thống và tổng quát hóa dữ liệu phục vụ cho việc phân tích đặc trưng

- Ngoài một số kỹ thuật đặc thù cho dữ liệu Twitter như loại bỏ URL, hashtag, mention tag,.. cũng giúp việc phân loại sự kiện được hiệu quả hơn.

2.2.1.1 Phân chia từ Tokenization

Tokenization là quá trình phân chia một dòng văn bản thành các từ, cụm từ, ký hiệu hoặc các yếu tố có ý nghĩa khác được gọi là token. Mục đích của việc phân chia này là khám phá các từ trong câu. Danh sách token trở thành dữ liệu đầu vào cho các nhiệm vụ khác như phân tích cú pháp hoặc khai thác văn bản. Tokenization hữu ích cả về ngôn ngữ học (trong đó nó là một dạng phân đoạn văn bản) và trong khoa học máy tính. Tất cả các quy trình trong truy xuất thông tin yêu cầu các từ của tập dữ liệu. Do đó, yêu cầu đối với trình phân tích cú pháp là tài liệu ở dạng token. Hơn nữa,

IN:

"APPLE CEO Steve Jobs has passed away." OUT:

token có thể đảm bảo cho tính nhất quán trong các tài liệu. Mục tiêu chính của token là xác định các từ khóa có ý nghĩa. Sự không nhất quán có thể là các định dạng số lượng và thời gian khác nhau.

2.2.1.2 Chuẩn hóa

Biến đổi từ gốc (Stemming) là quá trình kết hợp các dạng biến thể của một từ thành một biểu diễn duy nhất. Đây là một quy trình được sử dụng rộng rãi trong việc xử lý văn bản để truy xuất thông tin . Việc biến đổi này được thực hiện bằng cách cực kỳ đơn giản là loại bỏ 1 số ký tự nằm ở cuối từ mà nó nghĩ rằng là biến thể của từ. Ví dụ: các từ: “presentation”, “presented”, “presenting” đều có thể được rút gọn thành “present” do chỉ khác nhau các hậu tố như –ed, -ving.

Chúng ta có thể nhận thấy rằng việc biến đổi từ gốc có thể sinh ra những từ gốc thực sự không tồn tại. Bên cạnh đó nó còn gặp phải hai vấn đề khác là biến đổi quá mức (over stemming) khi hai từ không liên quan bị biến đổi về một dạng và thiểu biến đổi (under-stemming) khi hai từ có nghĩa tương tự lại không được biến đổi về cùng một dạng.

Lemmazation là một cách tiếp cận khác của stemming để loại bỏ việc chia cấu trúc từ theo các thì hay số lượng. Khác với stemming là xử lý bằng cách loại bỏ các ký tự cuối từ một cách rất heuristic, lemmatization sẽ xử lý thông minh hơn bằng một bộ từ điển hoặc một bộ ontology nào đó. Điều này sẽ đảm bảo rằng các từ như “goes“, “went” và “go” sẽ chắc chắn có kết quả trả về là như nhau. Đây là một quá trình xử lý chuyên sâu hơn nhưng cũng chính xác hơn.

IN:

["It never once occurred to me that the fumbling might be a mere mistake."]

OUT:

['it','never','onc','occur','to','me','that','the','fumbl','might','be ','a','mere','mistake.'],

The stemmed form of leafs is: leaf The stemmed form of leaves is: leav The lemmatized form of leafs is: leaf The lemmatized form of leaves is: leaf

2.2.1.3 Loại bỏ Stopword

Stopword là những từ cần được loại bỏ trước khi tiếp tục xử lý văn bản. Đây là những từ phổ biến trong từng ngôn ngữ và không đóng góp nhiều giá trị về mặt ngữ nghĩa cũng như việc phân loại văn bản. Ví dụ như một số stopword tiếng Anh “a”, “an”,”the”…Việc loại bỏ những từ này cũng rất đơn giản bằng việc so sánh với một danh sách stopword đã được định nghĩa sẵn.

2.2.1.4 Biểu diễn văn bản bằng Bag of Words (BOW)

Mô hình Bag of Words (BoW) là một mô hình được sử dụng phổ biến trong lĩnh vực phân loại văn bản để trích xuất những đặc trưng được sử dụng trong các mô hình học máy. Mô hình này thường sử dụng để xử lý ngôn ngữ tự nhiên và dùng để biểu diễn tài liệu. Tài liệu là một tập hợp các từ (words) mà không quan tâm đến thứ tự cũng như cấu trúc cú pháp của chúng. Một văn bản được biểu diễn dạng véc-tơ (có n thành phần là các từ tương ứng) mà giá trị thành phần thứ j là tần số xuất hiện từ thứ j trong văn bản. Nếu xét tập D gồm m văn bản và tự điển có n từ vựng, thì D có thể được biểu diễn thành bảng D kích thước m x n, dòng thứ i của bảng là véc-tơ biểu diễn văn bản thứ i tương ứng. Biểu diễn này có thể điều chỉnh đơn giản hoặc phức tạp tùy ý. Độ phức tạp của nó phụ thuộc vào cách thiết kế việc phân chia token hoặc cách đo đếm sự xuất hiện của những từ đã biết.

Giả sử có hai văn bản đơn giản

Dựa trên hai văn bản này chúng ta sẽ xây dựng được từ điển với 10 từ như sau

IN:

['He','did','not','try','to','navigate','after','the','first', 'bold', 'flight',',','for','the','reaction','had','taken','something','out', 'of','his','soul','.']

OUT:

['try', 'navigate', 'first', 'bold', 'flight', ',', 'reaction', 'taken', 'something', 'soul', '.']

(1) John likes to watch movies. Mary likes movies too.

(2) John also likes to watch football games.

["John", "likes", "to", "watch", "movies", "also", "football", "games", "Mary", "too"]

Với mỗi văn bản, ta sẽ tạo ra một vector đặc trưng có số chiều bằng 10, mỗi phần tử đại diện cho số từ tương ứng xuất hiện trong văn bản đó. Với hai văn bản trên, ta sẽ có hai vector đặc trưng là:

Trong thực tế có rất nhiều từ trong từ điển không xuất hiện trong một văn bản. Như vậy các vector đặc trưng thu được thường có rất nhiều phần tử bằng 0. Các vector có

nhiều phần tử bằng 0 được gọi là sparse vector. Để việc lưu trữ được hiệu quả hơn, ta không lưu cả vector đó mà chỉ lưu vị trí của các phần tử khác 0 và giá trị tương ứng. Bên cạnh đó nhược điểm lớn nhất của BoW là nó không mang thông tin về thứ tự của các từ. Cũng như sự liên kết giữa các câu, các đoạn văn trong văn bản. Ví dụ, hai câu sau đây: “This is good”, “Is this good” khi được trích chọn đặc trưng bằng BoW sẽ cho ra hai vector giống hệt nhau mặc dù ý nghĩa khác hẳn nhau.

Sau khi đã xác định được từ điển huấn luyện thì sự xuất hiện của một từ được đánh giá thông qua một vài cách khác nhau như

- Đếm số lần xuất hiện của từ.

- Tần số xuất hiện của từ trong văn bản.

Tuy nhiên nếu sử dụng cách đánh giá đơn giản như vậy sẽ xảy ra tình trạng một số từ thường xuyên xuất hiện nhưng không mang nhiều ý nghĩa về mặt thông tin làm cho mô hình huấn luyện không còn chính xác nữa. Để khắc phục vấn đề này chúng ta sẽ sử dụng trọng số Term Frequency-Inverse Document Frequency (TF-IDF) dùng để xác định tầm quan trọng của một từ trong một văn bản dựa trên toàn bộ văn bản trong cơ sở dữ liệu. Trong đó Term Frequency là tần số xuất hiện của một từ trong văn bản đang xét và Inverse Document Frequency mức độ hiếm của một từ trong toàn bộ văn bản huấn luyện.

𝑇𝐹(𝑡) =số lần từ t xuất hiện trong văn bản

tổng số từ trong văn bản

𝐼𝐷𝐹(𝑡) = log ( tổng số văn bản

tổng số văn bản có chứa từ t )

(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

Do đó TF-IDF = TF(t) * IDF(t)

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 43 - 47)

Tải bản đầy đủ (PDF)

(65 trang)