Phân khoảng sử dụng phân cụm K-means

Tiểu mục này thuật toán phân cụm K-means được kết hợp với mô hình dự báo FTS một nhân tố đề xuất trong Mục 2.2.1 (Đặt tên là mô hình dự báo KM-FTS-1NT), trong đó K-Means được sử dụng để tìm các tâm cụm và từ đó xác định các khoảng phân chia tập nền. Từ các khoảng thu được bởi K-means, mô hình thực hiện lần lượt các bước từ Bước 3 đến Bước 7 của mô hình FTS-1NT trong Mục 2.2.1 để có được kết quả và độ chính xác dự báo.

Để tiện so sánh với các mô hình trước đây và đảm bảo số lượng khoảng không quá lớn hay quá nhỏ thì mô hình KM-FTS-1NT đưa ra số cụm ban đầu lần lượt là 7 và 14. Nội dung của đề xuất này được công bố trong công trình [P7]. Các bước phân khoảng tập nền dựa vào phân cụm K-means được thược hiện như sau:

Bước 1- Áp dụng K-means với số cụm C cho trước là 7 và 14 thu được giá trị của các cụm như Bảng 2.16:

Bảng 2.16: Kết quả phân cụm trên tập dữ liệu tuyển sinh sử dụng K-means

C = 7 cụm C = 14 cụm 𝑐1= {13055, 13563}; 𝑐2 = {13867} 𝑐3 = {14696, 15145, 15163} 𝑐4 = {15460, 15311, 15603, 15433, 15497} 𝑐5 = {15861, 16388, 15984} 𝑐6 = {16807, 16919, 16859} 𝑐7 = {18150, 18970, 19328, 19337, 18876} 𝑐1 = {13055}; 𝑐2 = {13563, 13867}; 𝑐3 = {14696, 15145, 15163};𝑐4 = {15311}; 𝑐5 = {15433, 15460, 15497};𝑐6= {15603};𝑐7 = {15861, 15984}; 𝑐8 = {16388}; 𝑐9 = {16807};𝑐10 = {16859}; 𝑐11 ={16919};𝑐12 = {18150}; 𝑐13={18970, 18876}; 𝑐14 = {19337, 19328}

Ngoài ra, số lượng cụm có thể được chọn bất kỳ sao cho không vượt quá tổng số lượng dữ liệu trong chuỗi thời gian.

Bước 2- Điều chỉnh các cụm thành các khoảng liên tiếp với độ dài khác nhau ✓ Tính tâm của mỗi cụm theo công thức (2.9)

v𝒌= ∑ 𝑑𝑖

𝑛 𝑖=1

𝑛

Trong đó, 𝑑𝑖 là dữ liệu thứ i trong cụm k.

Dựa vào các tâm cụm thu được, luận án đưa ra các quy tắc sau đây để điều chỉnh các cụm thành các khoảng liên tiếp với độ dài khác nhau.

✓ Giả sử 𝑣𝑘 và 𝑣𝑘+1 (1 ≤ k ≤ C-1) là hai tâm cụm liên tiếp và mỗi cụm 𝐶𝑙𝑢𝑠𝑡𝑒𝑟𝑘 được gán thành các khoảng 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑘, sau đó cận trên và cận dưới của khoảng thứ k tương ứng là 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝑈𝐵𝑘 , 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝐿𝐵𝑘+1được xác theo các công thức (2.10) và (2.11) như sau:

𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝑈𝐵𝑘= vk+ vk+1

2 (2.10)

𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝐿𝐵𝑘+1= 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝑈𝐵𝑘 (2.11) Hai giá trị thuộc cận dưới của khoảng đầu tiên và cận trên của khoảng cuối cùng được tính theo các công thức (2.12) và (2.13) như sau:

𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝐿𝐵1= 𝑉1− (𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝑈𝐵1− 𝑉1) (2.12) 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝑈𝐵𝐶= 𝑉𝐶+ (𝑉𝐶 − 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙_𝐿𝐵𝐶) (2.13) Dựa trên các quy tắc này, ta thu được các khoảng tương ứng với các cụm trong Bảng 2.16 và được liệt kê trong Bảng 2.17. Để thấy rõ sự chênh lệch về độ dài trên mỗi khoảng có thể biểu diễn các khoảng như Hình 2.10 dưới đây:

Bảng 2.17: Giá trị của các khoảng từ tập dữ liệu tuyển sinh sử dụng K-means 7 Khoảng (𝑢1, ..., 𝑢7) 14 Khoảng (𝑣1, ..., 𝑣14) 𝑢1 = (13030, 13588] 𝑣1 = (12725, 13385] 𝑢2 = (13588, 14434] 𝑣2 = (13385, 14358] 𝑢3 = (14434, 15231] 𝑣3 = (14358, 15156] 𝑢4 = (15231, 15770] --- 𝑢5 = (15770, 16470] 𝑣12 = (17534.5, 18536.5] 𝑢6 = (16470, 17897] 𝑣13 = (18536.5, 19127.5] 𝑢7 = (17897, 19967] 𝑣14 = (19127.5, 19536.5]

Hình 2.10: Minh hoạ các khoảng trên tập dữ liệu tuyển sinh sử dụng K-means

Giai đoạn kiểm thử (Giai đoạn dự báo)

Mô hình dự báo của Song và Chissom [8,9]