Cấu hình thử nghiệm

Một phần của tài liệu TỰ ĐỘNG NHẬN BIẾT NGÔN NGỮ dựa vào học sâu (Trang 47 - 49)

a) Cấu hình phần cứng:

Bảng 3.1 Cấu hình phần cứng máy tính

CPU Intel Core i5-10210U

RAM 8GB LPDDR3 2133MHz

GPU Intel UHD Graphics

Storage 512GB SSD M.2 NVMe

OS Windows 11

b) Về dữ liệu

Bài toán nhận biết ngôn ngữ tự động dựa vào học sâu sử dụng 2 nguồn dữ liệu: 1. Dữ liệu về tin tức trên các trang web được trích xuất từ website, xây dựng

và gán nhãn thủ công cho 4 ngôn ngữ (Trung, Việt, Lào, Campuchia) với 72352 mẫu.

2. Dữ liệu dùng cho 10 ngôn ngữ (Trung, Việt, Lào, Campuchia, Anh, Đài Loan, Pháp, Tây Ban Nha, Nhật Bản, Nga) được trích xuất từ tập dữ liệu Wikipedia chuyên về đánh giá các hệ thống xác định ngôn ngữ (WiLI- 2018)6 với 175.000 mẫu/240 ngôn ngữ. Trích xuất 50000 mẫu cho 10 ngôn ngữ trên, 20000 mẫu cho kiểm thử.

Tin x lý d liu:

Tiền xử lý dữ liệu và gán nhãn là một trong những bước quan trọng nhất trong phân tích, khai thác dữ liệu, đặc biệt là trong khai thác dữ liệu văn bản vì có rất nhiều sự khác biệt về nội dung văn bản của các ngôn ngữ khác nhau trên các website khi chúng ta trích xuất.

Dữ liệu thu thập về sẽ có dạng thô, chưa qua xử lý nên có thể dữ liệu bị rỗng, dữ liệu sai chính tả, dữ liệu quá ngắn, quá dài hoặc chứa các ký tự đặc biệt, chúa các biểu tượng vv... Điều này sẽ gây ảnh hưởng đến kết quả của việc phân tích.

Dữ liệu thô sẽ được tiền xử lý như là loại bỏ các ký tự đặc biệt như ( [ \ \\ \ / : * « `\ ' ? ¿ " ; ! < > , .| ] ' “ ), xóa bỏ các dòng trống, đưa văn bản về chữ thường, tách văn bản thành các câu.

Dữ liệu lấy mẫu được chia thành 2 nhóm: tập dữ liệu huấn luyện (training data), và tập dữ liệu kiểm thử (test data) với tỉ lệ 82% và 28%. Tập dữ liệu huấn luyện được sử dụng để thiết lập các mô hình học máy, bộ dữ liệu xác nhận được sử dụng để lặp lại và tinh chỉnh các mô hình được chọn, chúng tôi dựa trên kết quả phân lớp chính xác trên tập dữ liệu kiểm thử để tìm ra mô hình học máy phù hợp nhất.

Gán nhãn cho d liu

Tiến hành gán nhãn cho 10 ngôn ngữ. Gán nhãn theo bộ có 3 ký tự và các nhãn số tương ứng. Kết quả tiến hành gán nhãn cho 10 ngôn ngữ như bảng 3.2.

Bảng 3.2 Gán nhãn cho 10 ngôn ngữ

Ngôn ngữ Nhãn ký tự Nhãn số

Lào 'lao' 0

Campuchia 'khm' 1

Việt Nam 'vie' 2

Trung Quốc 'zho' 3

Anh "eng" 4

Taiwan "nan" 5

Pháp "fra" 6

Tây Ban Nha "spa" 7 Nhật Bản "jpn" 8

Nga "rus" 9

c) Về công cụ thử nghiệm

▪ Ngôn ngữ sử dụng: Python 3.9

▪ Môi trường thử nghiệm: Google colab.

▪ Các thư viện được sử dụng:

1. Thư viện Numpy: Là một thư viện toán học phổ biến và mạnh mẽ của

Python. Nó cho phép làm việc hiệu quả với ma trận và mảng lớn với tốc độ xử lý nhanh hơn nhiều lần khi chỉ sử dụng “core Python” đơn thuần.

2. Thư viện Pandas: Thư viện này được dùng để quản lý và phân tích dữ

liệu, được thiết kế để làm việc với dữ liệu được gán nhãn. Nó cung cấp các cấu trúc dữ liệu và các phép toán để thao tác với các bảng số, chuỗi

thời gian và khả năng import dữ liệu từ nhiều nguồn khác nhau như csv, txt.

3. Thư viện Keras và Tensorflow: Thư viện này cung cấp các mô hình huấn

luyện, các layer cho tiền xử lý dữ liệu cũng như dùng trong các mô hình huấn luyện, các đánh giá chính xác (accuracy) cho bài toán.

4. Thư viện Sklearn: Thư viện này dùng để đánh giá mô hình và đưa ra các

giá trị precision, recall, và F1-score.

5. Thư viện matplotlib: Thư viện này dùng để vẽ các biểu đồ.

Một phần của tài liệu TỰ ĐỘNG NHẬN BIẾT NGÔN NGỮ dựa vào học sâu (Trang 47 - 49)

Tải bản đầy đủ (PDF)

(58 trang)