Phương ngữ Bắc Trung Nam
Bắ c 6227 13 8
Trung 40 6204 4
Nam 22 8 6160
Bảng 3.18 cho thấy kết quả thử nghiệm nhận dạng với k = 5 có tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bình cho 3 phương ngữ là 99,5%.
So với trường hợp k = 1 đạt 99,1%, tỷ lệ nhận dạng đúng trung bình với k=5 là
99,5% cao hơn 0.4%. Điều này cho thấy kết quả nhận dạng đúng có tăng khi tăng số láng giềng gần nhất. Có thể giải thích kết quả này như sau. Khi so sánh với nhiều mẫu có cùng thuộc tính, khả năng ảnh hưởng của các mẫu nhiễu khác thuộc tính song số lượng ít hơn sẽ giảm đi vì khi đó mẫu được lựa chọn sẽ được phân vào lớp nào có số mẫu nhiều hơn. Bên cạnh đó, tỷ lệ tăng khơng cao (0,4%) cũng cho thấy bộ ngữ liệu VDSPEC có độ phân biệt cao giữa các phương ngữ.
3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron MultilayerPerceptron
3.4.1. Bộ phân lớp MultilayerPerceptron trong Weka
Với Weka [69], MultilayerPerceptron là bộ phân lớp sử dụng mạng nơ-ron lan truyền ngược lỗi để huấn luyện. Việc xây dựng mạng có thể thực hiện bằng bằng tay, sử dụng thuật giải hoặc kết hợp cả hai phương pháp. Mạng có thể được theo dõi, chỉnh sửa trong quá trình huấn luyện. Tất cả các nút trong mạng điều dùng hàm sigmoid ngoại trừ trường hợp lớp là một số, trường hợp nút đầu ra trở thành các đơn vị tuyến tính khơng giới hạn.
3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt
Trường hợp này cũng dùng công cụ Weka với 384 tham số như đã trình bày ở mục 3.2.3. Mạng nơ-ron có cấu hình như sau:
1. Lớp đầu vào có 384 nơ-ron tương ứng với 384 tham số.
2. Lớp đầu ra có 3 nơ-ron tương ứng với ba phương ngữ cần nhận dạng.
3. Lớp ẩn có số nơ-ron = 194, là trung bình cộng của số nơ-ron của lớp đầu vào và lớp đầu ra.
Ma trận khởi tạo được gán các giá trị ngẫu nhiên trong phạm vi từ 0 đến 1 với các tín hiệu học bao gồm 384 tham số đầu vào.
Thời gian huấn luyện mơ hình vào khoảng 6,48 giờ. Kết quả nhận dạng được trình bày trên Bảng 3.19. Bảng 3.20 là ma trận sai nhầm tương ứng.
97