Quá trình tiền xử lý dữ liệu

Tập dữ liệu huấn luyện trong các kĩ thuật học máy giám sát luơn địi hỏi phải được làm sạch trước khi đưa vào huấn luyện. Trên Internet cĩ rất nhiều thơng tin xuất hiện dưới dạng khác nhau. Để lọc nhiễu cho dữ liệu huấn luyện, chúng ta cần bỏ đi những thơng tin dưới dạng hình ảnh, âm thanh, quảng cáo, thơng tin khơng nằm trong nội dung của trang web, các thẻ html, …

Từ dừng là các từ mà khơng cĩ ý nghĩa hồn chỉnh, ví dụ như từ “và, như, là …”. Việc phân lớp dữ liệu trên các từ dừng là hồn tồn vơ nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi dữ liệu. Sau khi loại bỏ các từ dừng, cơ sở dữ liệu sẽ nhỏ hơn, các thuật tốn áp dụng sẽ trở lên dễ dàng hơn, chính xác hơn. Việc loại bỏ từ dừng, ta phải xây dựng tập hợp các từ dừng vào file sau đĩ loại bỏ chúng ra khỏi cơ sở dữ liệu mà mình xét.

Do đĩ, cơng việc sau khi cho dữ liệu qua module tách câu, tách từ là phải làm sạch dữ liệu thơng qua loại bỏ từ dừng, loại bỏ số, chuyển tất cả các kí tự hoa về dạng chữ thường và một số kí tự đặc biệt (_-!@#$%^&*()[]{}\|:;’”?/.,`~).

a. Phương pháp biểu diễn văn bản

Trong bài tốn phân lớp văn bản, biểu diễn văn bản đĩng vai trị vơ cùng quan trọng. Mỗi tài liệu được biểu diễn dưới dạng một tập hợp các từ, mỗi từ được xem như một đặc trưng (feature) và văn bản tương ứng với một vector đặc trưng. Đặc trưng này cĩ thể là từ đơn hay nĩ được biểu diễn bằng các cụm từ. Theo các nghiên cứu về các phương pháp biểu diễn văn bản khác nhau, đặc biệt là khi so sánh ảnh hưởng và hiệu quả của nĩ thì khơng cĩ cách biểu diễn văn bản nào tốt hơn cách biểu diễn bằng tập các từ riêng biệt được lấy ra từ văn bản gốc.

Sau khi xác định được các đặc trưng, chúng ta cần tính giá trị đặc trưng (hoặc trọng số từ khĩa) cho mỗi văn bản. Mỗi từ mục li trong một tài liệu được gán một trọng số wi

và mỗi tài liệu được biểu diễn như một vector. Trọng số từ khĩa cĩ thể khác nhau. Cách đơn giản nhất là gán trọng số bằng một giá trị nhị phân chỉ ra từ mục cĩ mặt hay khơng cĩ mặt trong văn bản. Ở đây, khĩa luận sử dụng phương pháp độ đo tần số Term

Nguyễn Thị Thảo 24 Khĩa luận tốt nghiệp Frequency (TF): tần số xuất hiện của từ, cụm từ trong một văn bản hay một lớp. Nghĩa là, khĩa luận tổng hợp tất cả các từ trong văn bản, sau đĩ lấy ra 2000 từ cĩ tần số lớn xuất hiện lớn nhất làm đặc trưng. Và mỗi văn bản thành một vector đặc trưng theo dạng sau:

<đặc trưng> <giá trị đặc trưng>, <đặc trưng> <giá trị đặc trưng>, <đặc trưng> <giá trị đặc trưng> … <đặc trưng> <giá trị đặc trưng>.

Trong đĩ:

 <đặc trưng> được biểu diễn bằng số nguyên dương, tham chiếu đến tập đặc trưng được lựa chọn trong quá trình tiền xử lý dữ liệu.

 <giá trị đặc trưng> được biểu diễn độ quan trọng của thuộc tính trong tập dữ liệu học. mỗi giá trị thuộc tính là một số nguyên dương

b. Quá trình lựa chọn đặc trưng

Khi tập văn bản cĩ kích thước rất lớn, ví dụ gần 3000 tài liệu, tập hợp các tài liệu cĩ số lượng các từ mục khác nhau vơ cùng lớn. Do đĩ, lựa chọn đặc trưng là rất quan trọng cho tập văn bản rất lớn. Lựa chọn đặc trưng là chọn ra những từ, cụm từ mang nhiều thơng tin và loại bỏ những từ, cụm từ chứa lượng thơng tin thấp. Đối với bài tốn phân lớp đa nhãn, số lượng nhãn và các từ rất lớn nên việc quản lý chúng trở nên khĩ khăn, đồng thời làm cho việc xử lý dữ liệu và thời gian học các bộ phân lớp tăng lên đáng kể. Hướng giải quyết là lựa chọn đặc trưng: chọn nhãn, chọn từ theo tần suất văn bản (Document Frequency). Tần suất văn bản là số tài liệu mà một từ mục xuất hiện. Để lựa chọn từ mục theo phương pháp tần suất văn bản, ta cần phải tính tần suất văn bản với mỗi từ mục trong tập dữ liệu học. Sau đĩ, ta loại bỏ những từ mục cĩ tần suất nhỏ hơn một ngưỡng nào đĩ (ví dụ 2000 từ mục) để thu được khơng gian từ mục nhỏ hơn. Đây là kĩ thuật mà khĩa luận áp dụng để làm giảm số lượng tập đặc trưng.

Phân tích chủ đề ẩn LDA