Các bước chính trong quá trình thiết kế và xây dựng

Một phần của tài liệu Một số kỹ thuật mô hình hóa và áp dụng cho bài toán dự báo kết quả tuyển sinh đại học (Trang 46 - 52)

Trước hết, ta cần nêu ra các bước chính trong quá trình thiết kế và xây dựng một ứng dụng dựa trên mạng nơron nhiều lớp sử dụng thuật toán lan truyền ngược áp dụng cho bài toán “Dự báo kết quả tuyển sinh Đại học”

Thu thập và kiểm tra tính hợp lệ của dữ liệu

Shool_Clas: Việc đánh giá chất lượng đào tạo của các trường THPT là một vấn đề, tuy nhiên nhìn chung các trường chuyên, lớp chọn có đầu vào cao hơn nên các bạn học sinh học tại các trường chuyên, lớp chọn thường có nền tảng kiến thức tương đối vững hơn so với những bạn không học trong điều kiện này. Giải thiết Shool_Clas nhận giá trị 1 nếu các bạn học tại trường chuyên, lớp chọn, và 0, nếu không học trường chuyên, lớp chọn, kỳ vọng mang dấu dương.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

TIME_X: là biến thực đo lượng thời gian tự học (dành cho những môn thi Đại học) trong mọt tuần, tính bằng giờ. Thời gian tự học càng nhiều thì điểm thi càng cao, kỳ vọng mang dấu dương.

TIME_Y: là biến thực đo lượng thời gian học thêm (dành cho những môn thi Đại học) trong một tuần, tính bằng giờ. Cũng như thời gian tự học, học thêm là thời gian để các bạn học sinh học tập kinh nghiệm cũng như tích lũy thêm kiến thức có định hướng từ thầy cô, kỳ vọng mang dấu dương.

PRESSURE: là biến đo mức độ áp lực tới thí sinh dự thi Đại học; Áp lực này có thẻ từ phía gia đình, thầy cô, bạn bè hay bản thâm mỗi người,.. được xếp từ 1 đến 3 theo mức độ tăng dần, kỳ vọng mang dấu dương.

SMART: là biến đo lường mức độ tiếp thu bài của các bạn học sinh, được xếp từ 1 đến 3 theo mức độ tăng dần, kỳ vọng mang dấu dương.

POINT_Scholl: là biến thực (tổng điểm học 3 môn thi Đại học THPT) Mark (tổng điểm thi tuyển sinh Đại học)

Với những kỳ vọng như trên ta có thể chỉ ra:

- Mô hình hồi quy tuyến tính đơn giản sau: yi = α + βxi + εi

trong đó yi là biến phụ thuộc, α là hằng số, β là độ dốc, xi là biến độc lập và ε là sai số. 2 tham số α và β còn gọi là hệ số hồi quy.

- Mô hình hồi quy tuyến tính đa biến:

Yi = α + β1x1i + β2x2i + … βkxki + εi trong đó (x1i, x2i, …, xki) là các điến độc lập và (β1, β2, …, βk) là các độ dốc.

Khi những dữ liệu thô đã được thu thập, chúng cần phải được chuyển đổi sang khuân dạng phù hợp để có thể vào luyện mạng. Ở bước này, ta cần thực hiện các công việc sau:

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Chọn lựa các biến:

Tại bước này, trong quá trình thiết kế, điều cần quan tâm đó là các dữ liệu thô từ đó có thể phát triển thành các chỉ số quan trọng. Các chỉ số này sẽ tạo ra các đầu vào cho mạng.

Cụ thể bài toán gồm các biến sau: Scholl_clas (trường, lớp học); TIME_X (thời gian tự học); TIME_Y (thời gian học thêm); SMART (mức độ tiếp thu bài); POINT_School (tổng điểm học 3 môn thi Đại học THPT); Mark (tổng điểm thi tuyển sinh); Group (Phân loại điểm theo nhóm).

Bảng 3.1 Dữ liệu thu thập được

STT Trường/lớp học HPT Thời gian tự học Thời gian học thêm Mức độ tiêp thu bài Tổng điểm 3 môn học THPT dự thi Đại học Tổng điểm 3 môn thi đầu vào

Đại học 0 1 19 18 3 23.7 21.5 1 1 19 19 3 21.5 21.5 2 1 19 18 3 22.6 21 3 1 18 19 3 22.8 21 4 1 18 18 3 24 21 5 1 19 17 3 23.6 21 6 1 19 18 3 21.4 21 7 1 19 16 3 22.5 20.5 8 1 18 18 3 21.2 20.5 9 1 17 19 3 21.3 20.5 .. .. .. .. … .. .. 147 1 19 16 2 19.6 19.5 148 1 16 15 3 18.7 19.5 153 1 17 16 3 15.5 19 154 1 17 18 2 19.5 19 155 1 17 13 3 19.3 19 .. .. .. .. .. .. .. 669 1 11 11 2 19.8 17 670 0 19 19 2 19.5 17 671 0 16 16 3 21.2 17 672 0 14 17 3 22.9 17 673 1 13 11 2 16.7 17 674 1 10 13 2 18.6 17 .. … … … … .. ..

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Tiền xử lý dữ liệu

Tiền xử lý dữ liệu liên quan đến việc phân tích và chuyển đổi giá trị các tham số đầu vào, đầu ra của mạng để tối thiểu hóa nhiễu, nhấn mạnh các đặc trưng quan trọng và cân bằng phân bổ dữ liệu. Các đầu vào, đầu ra của mạng nơron ít khi được đưa trực tiếp vào mạng. Chúng thường được chuẩn hóa vào khoảng giữa cận trên và cận dưới của hàm chuyển (thường là giữa đoạn [0; 1] hoặc [-1; 1]).[4]

Các phương pháp phỏ biến là:

SV = ((0.9 – 0.1)/(MAX_VAL – MIN_VAL)) * (OV – MIN_VAL) hoặc đưa về khoảng giữa giá trị min và max:

SV = TFmin +((TFmax – TFmin)/(MAX-VAL – MIN_VAL))*(OV- MIN_VAL)

Trong đó:

SV: Giá trị sau khi biến đổi

MAX_VAL: Giá trị lớn nhất của dữ liệu MIN_VAL: Giá trị nhỏ nhất của dữ liệu TFMAX: Giá trị lớn nhất của hàm chuyền TFMIN: Giá trị nhỏ nhất của hàm chuyền OV: Giá trị ban đầu.

Với mô hình này ta có thể tự xây dựng một hàm nào đó để biến đổi giá trị đầu vào và đầu ra của mạng: Ở đây ta sử dụng hàm tuyến tính Linear.

SV = linear(OV).

Phân chia tập dữ liệu thành các tập: huấn luyện, kiểm tra, kiểm định

Kiểm tra tính hợp lệ dữ liệu:

Việc kiểm tra tính hợp lệ sẽ phát hiện ra các dữ liệu không thể chấp nhận được mà nếu sử dụng chúng thì sẽ cho ra các kết quả không tốt. Ví dụ: Ta kiêm tra khoảng hợp lệ của dữ liệu về Tổng điểm dự thi chẳng hạn. ta mong muốn các giá trị nằm trong khoảng từ điểm sàn cho đến 30 điểm, cho

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

đó các giá trị nằm ngoài khoảng này rõ ràng là không hợp lệ và không thể chấp nhận được. Nếu có các thành phần quyết định không mong muốn như là biến mang tính học tủ thì chúng ta cần loại bỏ.

Phân hoạch dữ liệu

Phân hoạch là quá trình chia dữ liệu thành các tập huấn luyện, kiểm định và kiểm tra. Theo định nghĩa, tập huấn luyện được sử dụng để xác định kiến trúc của mạng thường dùng là tập lớn nhất; các tập kiểm định được dùng để cập nhật trọng số của mạng thường là từ 10% đến 30% tập dữ liệu huấn luyện; các tập kiểm tra được dùng để kiểm tra hiệu năng của mạng sau khi luyện. Ta cần phải đảm bảo:

Tập huấn luyện chứa đủ dữ liệu, các dữ liệu đó phải phân bổ phù hợp sao cho có thể biểu diễn các thuộc tính mà ta mong muốn mạng sẽ học được.

Không có dữ liệu trùng nhau hay tương tự nhau của các dữ liệu trong tập dữ liệu.

Có hai cách để thực hiện xác định tập kiểm tra. Một là lấy ngẫu nhiên các mẫu từ tập huấn luyện ban đầu; ưu thế của cách này là có thể tránh được nguy cơ khi mà đoạn dữ liệu được chọn có thể chỉ điển hình cho một tính chất của dữ liệu (đang tăng hoặc đang giảm). Hai là chỉ lấy các dữ liệu ở phần sau của tập huấn luyện, trong trường hợp các dữ liệu gần với hiện tại là quan trọng hơn các dữ liệu quá khứ.

Xác định cấu trúc mạng

Các bước tiến hành thực hiện xây dựng mạng nơron bao gồm xác định liên kết giữa các nơron đồng thời bao gồm:

Số đầu vào. Số lớp ẩn.

Số nơron trong lớp ẩn. Số nơron đầu ra.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Xác định tiêu chuẩn đánh giá (hàm lỗi).

Hàm được sử dụng để đánh giá mạng là hàm trung bình bình phương lỗi. Các hàm khác cũng có thể được sử dụng là hàm độ lệch nhỏ nhất, hiệu phần trăm, bình phương nhỏ nhất bất đối xứng, …

Huấn luyện mạng.

Huấn luyện mạng học các dữ liệu bằng cách lấy lần lượt các mẫu vào cùng với những giá trị mong muốn. Mục tiêu của việc huấn luyện mạng là tìm ra tập các trọng số cho ta giá trị nhỏ nhất toàn cục của chỉ số hiệu năng hay hàm lỗi.

Vấn để đặt ra là khi nào ngừng huấn luyện. Có hai quan điểm trong vấn đề này. Quan điểm thứ nhất cho rằng chỉ nên ngừng huấn luyện chừng nào không có tiến triển nào của hàm lỗi nữa đối với dữ liệu dựa trên một tập các tham số của mạng được chọn ngẫu nhiên. Nói cách khác là xác định được khả năng đạt đến điểm cực tiểu toàn cục lớn nhất. Quan điểm thứ hai cho rằng cần thực hiện xem xét thường xuyên khả năng tổng quát hóa của mạng, sau đó lại tiếp tục quá trình huấn luyện.

Cả hai quan điểm này đều chung rằng là kết quả kiểm tra trên tập kiểm tra là chính xác nhất bởi lẽ nó thể hiện trực tiếp kết quả trả lời của mạng sau khi được huấn luyện.

Một phương pháp khác là thực hiện vẽ đồ thị để có thể theo dõi trạng thái lỗi của mạng, từ đó có thể quan sát được các vùng mà mạng có trạng thái không thay đổi đối với dữ liệu vào. Thông thường, số lần tối đa thực hiện huấn luyện mạng thường có khoảng biến thiên khá lớn: từ vài nghìn cho đến vài chục nghìn chu kỳ.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Thực thi trong thực tế.

Trong khi thực hiện, không nhất thiết phải theo thứ tự các bước mà có thể quay lại các bước trước đó, đặc biệt là ở bước huấn luyện và lựa chọn các biến.

Việc xác định khả năng sẵn có của dữ liệu, xác định hàm lỗi sử dụng và thời gian huấn luyện đều là những đặc trưng của môi trường mà mạng sẽ được triển khai. [4],[7],[8]

Một phần của tài liệu Một số kỹ thuật mô hình hóa và áp dụng cho bài toán dự báo kết quả tuyển sinh đại học (Trang 46 - 52)

Tải bản đầy đủ (PDF)

(67 trang)