Huấn luyện SVM

Một phần của tài liệu Đồ án tốt nghiệp XÂY DỰNG ỨNG DỤNG TRÍCH rút THỜI GIAN, địa điểm từ dữ LIỆU TIN NHẮN (Trang 45 - 49)

- Viết hoa chữ cái đầu tiên của tên riêng, tên người, địa danh.

3 https://github.com/cjlin1/libsvm

3.3.3. Huấn luyện SVM

Bước 1: Xây dựng dữ liệu huấn luyện

Với mục đích sử dụng SVM để phân loại và nhận dạng ra hội thoại gần nhất trong lịch sử tất cả tin nhắn giữa 2 người, do đó, dữ liệu gốc được thiết kế dưới dạng tập hợp các hội thoại. Mỗi hội thoại được ngăn cách nhau bởi một dòng trắng:

Hình 3.3.Dữ liệu nguyên thủy

Sau đó, ta xây dựng một không gian đặc trưng chứa danh sách tất cả các từ xuất hiện trong file dữ liệu gốc này. Bằng cách duyệt và thêm lần lượt các từ chưa có vào file, ta thu được file “wordmap.txt” như sau:

Hình 3.4.Không gian đặc trưng

Sau khi tìm được không gian đặc trưng, công việc tiếp theo là biểu diễn mỗi câu trong tập dữ liệu nguyên thủy dưới dạng vectơ để tạo ra file chứa dữ liệu huấn luyện. File dữ liệu thu được sẽ có định dạng:

[label] [index1]:[value1] [index2]:[value2] ... [label] [index1]:[value1] [index2]:[value2] ... Trong đó:

- [label] nhận giá trị +1 hoặc -1, lần lượt tương ứng với nhãn phân loại cho 2 trường hợp: “câu mở đầu hội thoại” và “câu nằm trong hội thoại”.

- [index] được tính từ 1, tăng dần tới giá trị tối đa là kích cỡ của không gian đặc trưng.

- [value] thứ index nhận giá trị khi so sánh với các đặc trưng trong không gian đặc trưng:

Hình 3.5. Bộ dữ liệu huấn luyện SVM

Bước 2: Tạo mô hình huấn luyện

Sau khi thu được file huấn luyện, việc tiếp theo là tạo một tập tin lưu lại mô hình của những bộ huấn luyện đó. Để thực hiện việc này, ta sử dụng lệnh trong công cụ LibSVM:

svm-train SVM_train.txt model

LibSVM sử dụng công cụ svm-train.exe đọc dữ liệu từ file SVM_train.txt và tạo ra một mô hình miêu tả bộ huấn luyện, từ đó ta có thể sử dụng file model này để kiểm nghiệm các dữ liệu đầu vào:

Một phần của tài liệu Đồ án tốt nghiệp XÂY DỰNG ỨNG DỤNG TRÍCH rút THỜI GIAN, địa điểm từ dữ LIỆU TIN NHẮN (Trang 45 - 49)

Tải bản đầy đủ (DOCX)

(61 trang)
w