CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ
3.2. TIẾN HÀNH THỰC NGHIỆM
Thành phần Chỉ số
CPU Intel core i3 1.8Ghz
RAM 8 GB
HDD 512 GB
OS Windows 7 Ultimate
3.2.2. Thành phần
- NumPy: là thƣ viện cần thiết trong lập trình bằng Python.
- NLTK (natural language toolkit): là một thƣ viện đƣợc viết bằng Python, nó giúp cho việc xử lý ngôn ngữ tự nhiên đƣợc dễ dàng và nhanh chóng hơn.
- Module phân loại văn bản: biểu diễn các vector văn bản và tính tóan độ tương đồng, so sánh và phân loại văn bản.
- Module học máy: lưu trữ các văn bản theo từng thể loại đã được phân loại trước để phục vụ quá trình phân cụm và xếp hạng văn bản.
Chương trình Demo được viết bằng ngôn ngữ lập trình Python, lưu trữ dữ liệu bằng các tập tin txt, csv.
3.2.3. Kết quả thực nghiệm
3.2.3.1. Tạo tập tin dữ liệu đầu vào Bước 1: Cài đặt thư viện
- Để cài các gói thư viện, trước tiên cần cài đặt python. Python là một ngôn ngữ lập trình thông dịch do Guido van Rossum tạo ra năm 1990. Python hoàn toàn tạo kiểu tự động và dùng cơ chế cấp phát bộ nhớ tự động; do vậy nó tương tự như Perl, Ruby
… Python đƣợc phát triển trong một dự án mã mở, do tổ chức phi lợi nhuận Python Software Foundation quản lí.
- Theo đánh giá của Eric S.Raymond, Python là ngôn ngữ có hình thức sáng sủa, cấu trúc rõ ràng, thuận tiện cho người học lập trình. Cấu trúc của Python còn cho
phép người sử dụng viết mã lệnh với số lần gõ phím tối thiểu.
- Cài đặt Python: truy cập vào link https://www.python.org/downloads/ để dowload source và tiến hành cài đặt.
Hình 3.1. dowload python.
Hình 3.2. Cài đặt python.
- Để cài đặt các thƣ viện, chỉ cần mở trình easy_install trong thƣ mục Scrripts của thƣ mục cài python bằng CMD. Nhập cú pháp và tên thƣ viện muốn cài đặt.
Bước 2: Lấy dữ liệu đầu vào, tải một số loại từ tập huấn luyện. Ở bước này chương trình sẽ lấy dữ liệu đầu vào cần phân cụm và một số loại từ ở tập huấn luyện.
3.2.3.2. Tiền xử lý văn bản
Bước này tiến hành bỏ bớt những dữ liệu trùng lắp, không cần thiết, tinh chỉnh
lại cấu trúc dữ liệu và mã hóa chúng để tiện cho quá trình xử lý.
Thông thường một tệp dữ liệu có chiều (n) khá lớn sẽ sinh ra một lượng dữ liệu khổng lồ (vd: với n chiều ta sẽ có 2n tổ hợp). Do đó, đây là một bước quan trọng để giúp giảm đáng kể hao tổn tài nguyên trong quá trình xử lý tri thức.
Bằng cách chia dữ liệu đầu vào thành nhiều phần, tức mảng nhiều chiều. Sau đó, đánh số các phần trong mảng, thực hiện việc lấy dữ liệu tại mảng cần lấy thông tin với nội dung đã đƣợc chuẩn hóa. Điều này là khá cần thiết để xử lý và làm sạch dữ liệu.
3.2.3.3. Tìm đặc trưng cho từng thể loại
Dựa vào các đối tƣợng và các khía cạnh của đối tƣợng dẫn tới mức khía cạnh phát hiện chính xác đặc trƣng cho toàn bộ đối tƣợng.
3.2.3.4. Phân cụm văn bản
- Vector hóa văn bản: Mỗi văn bản tài liệu sẽ được biểu diễn dưới dạng vector n chiều. Mỗi chiều là 1 từ khóa và độ lớn là số lần xuất hiện từ khóa đó trong văn bản.
- TF-IDF: Là viết tắt của tần số tài liệu đảo ngƣợc tần số, là số liệu thống kê phản ánh mức độ quan trọng của từ trong tài liệu, là phương pháp trọng số phổ biến nhất đƣợc sử dụng để mô tả tài liệu trong Mô hình không gian Vector. Số lần một thuật ngữ xảy ra trong một tài liệu đƣợc gọi là tần suất của nó. Có thể tính toán tần suất cụm từ cho một từ là tỷ lệ số lần từ xuất hiện trong tài liệu với tổng số từ trong tài liệu. Tần suất tài liệu nghịch đảo là thước đo liệu thuật ngữ đó có phổ biến hay hiếm trên tất cả các tài liệu. Nó thu đƣợc bằng cách chia tổng số tài liệu cho số lƣợng tài liệu chứa thuật ngữ, và sau đó lấy logarit của thương đó. Id tf * của thuật ngữ t trong tài liệu d đƣợc tính nhƣ sau:
- Từ điển key words và stop words: Key words là tập các danh từ có ý nghĩa trong ngôn ngữ tiếng Việt, thuật toán sẽ dựa vào tập từ khóa này để biểu diễn 1 tài liệu văn bản dưới dạng 1 vector nhiều chiều, thể hiện những đặc trưng của văn bản đó.
Stop words là những từ chức năng, nó không mang nội dung mà chủ yếu chứa thông tin cú pháp trong câu.
3.2.3.5. Trực quan hóa kết quả
Dưới đây là một số hình ảnh trực quan về dữ liệu đầu vào, quá trình thực hiện chương trình và biểu đồ kết quả:
Hình 3.3. Kết quả thực nghiệm trực quan