Phân chia và chuẩn hóa dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng mạng neural xây dựng mô hình đánh giá sự hài lòng của các nhà quảng cáo đối với công ty quảng cáo (Trang 62 - 64)

CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU

4.4. Phân tích mơ hình mạng neural

4.4.1.1. Phân chia và chuẩn hóa dữ liệu

Đầu vào (Input) là 30 biến độc lập (16 biến của thang đo chất lượng dịch vụ và 14 biến của thang đo chất lượng mối quan hệ). Đầu ra (Ouput) là 3 biến phụ thuộc để đo Sự hài lòng khách hàng.

Theo nghiên cứu của Kaastra, Ị & Boyd, M. (2005), việc phân chia dữ liệu là quá trình chia dữ liệu thành các tập: huấn luyện (training), kiểm tra (testing) và kiểm định (validation). Tập huấn luyện thường là tập lớn nhất được sử dụng để huấn luyện cho mạng. Tập kiểm tra thường chứa khoảng 10% đến 30% tổng tập dữ liệu, được sử dụng để kiểm tra mức độ tổng quát hóa của mạng sau khi huấn luyện. Tiêu chí để chọn lựa mơ hình mạng là hệ số hiệu quả dựa trên tập huấn luyện và tập kiểm trạ Tập kiểm định khơng tham gia vào q trình huấn luyện. Kích thước của tập kiểm định được chọn sao cho có đủ số mẫu để có thể kiểm định lại mạng sau khi huấn luyện nhưng phải đảm bảo các mẫu còn lại trong tập huấn luyện và kiểm tra phải đủ lớn để không làm giảm tính tổng qt hóa của quá trình huấn luyện trước đó. Do đó, tập kiểm định thường có kích thước nhỏ hơn hoặc bằng tập kiểm trạ

Trong số 222 mẫu thu thập, bài nghiên cứu chọn ngẫu nhiên 70% số mẫu được sử dụng để huấn luyện (training sample) xác định giá trị các trọng số mơ hình, 15% số mẫu được sử dụng để kiểm tra quá trình học (testing sample), 15% số mẫu cịn lại dùng để kiểm định và đánh giá mơ hình neural sau khi đã được huấn luyện (validation sample). Cách lấy ngẫu nhiên này tránh được tình trạng tập dữ liệu được chọn có thể chỉ điển hình cho một tính chất của dữ liệu (đang tăng hoặc đang giảm).

Đầu vào được chuẩn hóa để chuyển đổi dữ liệu về khuôn dạng phù hợp đối với đầu vào của mạng neural. Người ta thường sử dụng một hàm toán học để biến đổi các biến đầu vào sao cho phần lớn các giá trị của biến đầu vào phân bố tập trung trong khoảng (0,1) đối với các dữ liệu đơn cực hoặc nằm trong khoảng (-1,1) đối với các

dữ liệu lưỡng cực. Việc chuẩn hóa dữ liệu rất cần thiết vì các hàm chuyển (hàm sigmoid hoặc tanh) trong mỗi neural chỉ hoạt động hiệu quả trong khoảng (0,1)hoặc (-1,1).

Các hàm dùng để chuẩn hóa phổ biến là:

Biến đổi theo phân phối chuẩn: =

Với là giá trị trung bình và là độ lệch chuẩn. Biến đổi chuẩn hóa trong khoảng (0,1): x’ = Biến đổi chuẩn hóa trong khoảng (-1,1): x’ =

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng mạng neural xây dựng mô hình đánh giá sự hài lòng của các nhà quảng cáo đối với công ty quảng cáo (Trang 62 - 64)

Tải bản đầy đủ (PDF)

(111 trang)