CHƯƠNG 2 ỨNG DỤNG THU THẬP LẤY TIN TỰ ĐỘNG TRÊN
2.3 Quy trình lấy tin tự động
Với các loại dữ liệu khác nhau, quá trình lấy tin tự động thông thường đều được thực hiện qua các bước như sau:
Bước 1: Tìm hiểu về lĩnh vực và xác định các vấn đề có liên quan.
Bước 2: Thu thập và tiền xử lý dữ liệu. Đây là bước rất quan trọng, chiếm phần lớn thời gian và sức lực (70 80%) trong cả tiến trình.
Bước 3: Lấy tin tự động trích chọn ra các mẫu, các thông tin có ý nghĩa.
Bước này gồm các phương thức để tạo ra các thông tin hữu ích từ dữ liệu.
Bước 4: Đưa các thông tin ra hiển thị.
Ở bước 2: Tiền xử lý dữ liệu chính là quá trình làm sạch dữ liệu và chuyển dịch các tài liệu thành các dạng biểu diễn thích hợp dữ liệu. Giai đoạn này bao
gồm các công việc sau: Chuẩn hóa văn bản, xóa bỏ các từ dừng, kết hợp các từ có cùng nguồn gốc, số hóa và biểu diễn văn bản,…
a.Chuẩn hóa văn bản
Là giai đoạn chuyển văn bản thô về dạng văn bản sao cho việc xử lý sau này được dễ dàng, đơn giản, thuận tiện, chính xác so với việc xử lý trực tiếp trên văn bản thô mà ảnh hưởng ít đến kết quả xử lý. Bao gồm:
Xóa các thẻ trong HTML và các loại thẻ khác để trích ra các từ/cụm từ.
Chuyển các ký tự hoa thành các ký tự thường . Xóa bỏ các dấu câu, xóa các ký tự trắng dư thừa…
b.Xóa bỏ các từ dừng
Trong văn bản có những từ mang ít thông tin trong quá trình xử lý, những từ có tần số xuất hiện thấp, những từ có tần số xuất hiện lớn nhưng không quan trọng cho quá trình xử lý. Theo một số nghiên cứu gần đây [2] cho thấy việc loại bỏ các từ dùng có thể giảm bớt được khoảng 20-30% tổng số từ trong văn bản.
Có rất nhiều từ xuất hiện với tần số lớn nhưng nó không hữu ích cho quá trình KPDL. Ví dụ trong tiếng anh các từ như a, an, the, of, and, to, on, by…
trogn tiếng Việt như các từ “thì”, “là”, “và”, “hoặc”,…Những từ xuất hiện với tần số quá lớn cũng sẽ được loại bỏ.
Để đơn giản trong ứng dụng thực tế, ta có thể tổ chức thành một danh sách các từ hoặc sử dụng định luật Zipf để xóa bỏ các từ có tần số xuất hiện thấp hoặc quá cao.
c. Kết hợp các từ có cùng nguồn gốc
Hầu hết các ngôn ngữ đều có cùng chung nguồn gốc với nhau, chúng mang ý nghĩa tương tự nhau, do đó để giảm bởi số chiều trong biểu diễn văn bản , ta sẽ kết hợp các từ có cùng gốc thành một từ. Theo một số nghiên cứu việc kết hợp sẽ giảm được khoảng 40-50% kích thước chiều trong biểu diễn văn bản.
Ví dụ trong tiếng anh: Từ user, users,used,using có cungd từ gốc sẽ quy về use; từ engineering, engineered,engineer có cùng từ gốc sẽ được quy về engineer.
Ví dụ xử lý từ gốc trong tiếng Anh”
-Nếu một từ kết thúc bằng “ing” thì xóa “ing”, ngoại trừ trường hợp sau khi xóa còn lại 1 ký tự hoặc còn lại “th”.
-Nếu một từ kết thúc bằng ies nhưng không phải eies hoặc aies thì thay thế ies bằng “y”….
-Nếu một từ kết thúc bằngmột phụ âm khác ”s” mà theo sau bởi “s” thì xóa s.
-Nếu một từ kết thúc bằng “ed” mà trước đó nó là một phụ âm thì xóa “ed” ngoại trừ sau khi xóa từchỉ còn lại một ký tự, nếu đứng trước là nguyên âm”i” thì đổi
“ied” thành “y”.
d. Xây dựng từ điển
Việc xây dựng từ điển là một công việc rất quan trọng trong quá trình vector hóa văn bản, từ điển sẽ gồm các từ/cụm từ riêng biệt trong toàn bộ tập dữ liệu. Từ điển sẽ gồm một bảng các từ , chỉ số của nó trong từ điển và được sắp xếp theo thứ tự.
Một số bài báo đề xuất rằng để nâng cao chất lượng phân cụm dữ liệu cần xem xét đến việc xử lý các cụm từ trong các ngữ cảnh khác nhau. Theo đề xuất của Zemir [12][19] xây dựng từ điển có 500 phần tử.
e. Tách từ, số hóa văn bản và biểu diễn tài liệu
Tách từ là công việc hết sức quan trọng trong biểu diễn văn bản, quá trình tách từ và vector hóa tài liệu là quá trình tìm kiếm các từ và thay thế nó bởi chỉ số của từ đó trong từ điển .
Ở đây ta có thể sử dụng một trong các mô hình toán học TF,IDF,TF- IDF,… để biểu diễn văn bản.
Ta sử dụng mảng W(trọng số) hai chiều có kích thước m x n, với n là số các tài liệu, m là số các thuật ngữ trong từ điển (số chiều), hàng thứ j là một
vector biểu diễn tài liệu thứ j trong cơ sở dữ liệu, cột thứ i là thuật ngữ thứ i trong từ điển. Wij là giá trị trọng số của thuật ngữ i đối với tài liệu j.
Giai đoạn này thực hiện thống kê tần số thuật ngữ tj xuất hiện trong tài liệu dj và số các tài liệu chứa ti. Từ đó xây dựng bảng trọng số của ma trận W theo công thức sau:
Công thức tính trọng số IF-IDF:
Wij=
0
) / log(
)].
log(
1 [
.idfij fij n hj
fij
Trong đó :
Fij là tấn số xuất hiện của ti trong tài liệu dj
Idfij là nghịch đảo tần số xuất hiện của ti trong tài liệu dj. Hi là số các tài liệu mà ti xuất hiện.
N là tổng số tài liệu.