CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.4. PHƯƠNG PHÁP THU GIẢM SỐ CHIỀU DỰA VÀO ĐIỂM QUAN TRỌNG - PIP
Phần này trình bày cơ sở lý thuyết về một phương pháp thu giảm số chiều trên một tập dữ liệu dựa trên việc đánh giá mức độ quan trọng của tất cả các điểm dữ liệu (gọi tắt là điểm) trong tập dữ liệu đó.
Cách thức đánh giá độ quan trọng (importance) của điểm dữ liệu (data point) được giới thiệu, đầu tiên là để chọn ra những điểm phù hợp để làm dữ liệu nhập (input) cho việc dự báo. Đây cũng là bước chuẩn bị phần dữ liệu nhập của mạng thần kinh nhân tạo.
Khái niệm PIPs –PerceptuallyImportantPoints có liên quan đến mức độ quan trọng
của các điểm dữ liệu về mặt ý niệm. PIPs là các điểm dữ liệu đã được tính toán mức độ quan trọng của nó. Một điểm dữ liệu đã xác định mức độ quan trọng của nó, được gọi là một PIP, chứ không gọi là một điểm (dữ liệu) nữa. Vì vậy, khi nói đến PIP(s), giá trị PIP,…là muốn nói trong một ngữ cảnh có liên quan đến việc đánh giá mức độ quan trọng của các điểm dữ liệu trong một tập dữ liệu nào đó.
Mức độ quan trọng của một PIP được thể hiện bằng giá trị PIP (PIP value) của PIP đó. Giá trị PIP là số nguyên dương (1, 2, 3,…). Giá trị PIP càng nhỏ thì PIP càng quan trọng.
Mức độ quan trọng của một PIP thể hiện mức độ lồi, hay nhô ra tại vị trí của PIP đó trên tổng thể tập dữ liệu. Độ quan trọng càng cao thì PIP càng ở vị trí càng lồi, càng nhô ra trên tập dữ liệu và ngược lại. Nói một cách khác, độ quan trọng càng cao (giá trị PIP càng nhỏ) thì PIP càng ở những vị trí quan trọng. Vị trí quan trọng là những vị trí thể hiện hình dạng tổng thể (overall shape) của tập dữ liệu, thể hiện sự biến thiên hay sự dao động lên xuống (fluctuation) của tập dữ liệu.
Hình 2.10 PIPs thể hiện hình dạng tập dữ liệu
Hình 2.11 là mã giả minh họa quá trình xác địnhnPIPs từ một tập Pcó chiều dàim
điểm dữ liệu [2].
Hình 2.11 Mã giả xác định n PIPs từ một tập P có chiều dài m điểm dữ liệu
Tập dữ liệu đầu vào là tập m điểm dữ liệu ban đầu: P[1..m], gọi tắt là tập điểm.
Tập dữ liệu đầu ra là tậpnPIPs:SP[1..n],gọi tắt là tập PIPs.
Ví dụ về 8 PIPs trong tập
dữ liệu
Hình dáng và xu hướng chung của tập dữ liệu Giá trị PIP càng nhỏ thì PIP càng quan trọng vì
nằm ở vị trí quan trọng, thể hiện tốt nhất hình dạng tổng thể và sự dao động của tập dữ liệu.
Chương 2. Cơ sở lý thuyết 25
Khởi tạo: PIP đầu tiên (SP[1]) là điểm đầu tiên của tập điểm P[1],có giá trị PIP là 1. PIP cuối cùng(SP[n]) là điểm cuối cùng của tập điểm P[m], có giá trị PIP là 2.
Vòng lặp n-2 lần để xác định n-2 PIPs còn lại: một điểm dữ liệu chưa được xác định là PIP, sẽ được xác định là PIP tiếp theo khi nó là điểm có khoảng cách xa nhất đến 2 PIPs đã được xác định trước đó. Giá trị PIP của PIP mới được xác định này tăng thêm 1 đơn vị tính từ giá trị PIP lớn nhất trước đó.
Hình 2.12 cho thấy quá trình xác định các PIPs theo thứ tự, bắt đầu từ 1, 2,… [1].
Hình 2.12 Quá trình xác định các PIPs Có ba loại “khoảng cách” từ một điểm đến hai PIPs trước đó:
- Khoảng cách Euclidean (Euclidean distance - ED) - Khoảng cách vuông góc (Perpendicular distance - PD) - Khoảng cách thẳng đứng (Vertical distance - VD)
Tương ứng với mỗi loại khoảng cách trên, ta có một phương pháp tìm PIP khác nhau là:
- Phương pháp PIP-ED - Phương pháp PIP-PD
2.4.1. Phương pháp thu giảm số chiều PIP-ED
Phương pháp PIP-ED sử dụng khoảng cách Euclide (euclidean distance) từ điểm đang được kiểm tra p3=(x3, y3) đến hai PIPs trước đó p1=(x1, y1) và p2=(x2, y2).
Khoảng cách Euclide được tính theo công thứcED(p3,p1,p2)như sau:
Điểm đang được kiểm tra nào có khoảng cách Euclide lớn nhất so với các điểm được kiểm tra khác, sẽ trở thành PIP mới tiếp theo. Hình 2.13 cho thấy khoảng cách Euclide từp3đến hai PIPsp1, p2trước đó.
Hình 2.13 Khoảng cách Euclide (a+b) từ điểm đang được kiểm tra p3 đến hai PIPs p1, p2
được xác định trước đó Khoảng cách Euclide trong trường hợp này thật ra tổng khoảng cách “theo đường chim bay” từ điểm kiểm tra đến hai PIPs trước đó:ED(p3,p1,p2)= b+a.
Chương 2. Cơ sở lý thuyết 27
2.4.2. Phương pháp thu giảm số chiều PIP-PD
Phương pháp PIP-PD sử dụng khoảng cách vuông góc từ giữa điểm đang được kiểm tra (test point) tới đường thẳng nối 2 PIPs trước đó. Khoảng cách này được gọi là khoảng cách PD.
Khoảng cách PD từ điểm đang được kiểm tra p3=(x3, y3) đến hai PIPs trước đó
p1=(x1, y1) và p2=(x2, y2) được tính theo công thức PD(p3, pc) sau đây, trong đó
pc=(xc, yc) là điểm trung gian nằm trên đoạn thẳng nối (connection) hai điểm p1 và p2:
Điểm đang được kiểm tra nào có khoảng cách PD lớn nhất so với các điểm được kiểm tra khác, sẽ trở thành PIP mới tiếp theo. Hình 2.14 cho thấy khoảng cách PD từ
p3đến hai PIPsp1, p2trước đó.
Hình 2.14 Khoảng cách PD (d) từ điểm đang được kiểm tra p3 đến hai PIPs p1, p2 được xác
định trước đó
Phương pháp PIP-VD sử dụng khoảng cách theo phương thẳng đứng (vertical distance) giữa điểm đang được kiểm tra (test point) và đường thẳng nối 2 PIPs trước đó. Khoảng cách này được gọi là khoảng cách VD.
Khoảng cách VD từ điểm đang được kiểm tra p3=(x3, y3) đến hai PIPs trước đó
p1=(x1, y1) và p2=(x2, y2) được tính theo công thức VD(p3, pc) sau đây, trong đó
pc=(xc, yc) là điểm trung gian nằm trên đoạn thẳng nối (connection) hai điểm p1 và
p2:
Điểm đang được kiểm tra nào có khoảng cách VD lớn nhất so với các điểm được kiểm tra khác, sẽ trở thành PIP mới tiếp theo. Hình 2.15 cho thấy khoảng cách VD từ
p3đến hai PIPsp1, p2trước đó.
Hình 2.15 Khoảng cách VD (d) từ điểm đang được kiểm tra p3 đến hai PIPs p1, p2 được xác
định trước đó
Nhận xét sơ bộ: Qua phần trình bày ba cách thức PIP-ED, PIP-PD, PIP-VD của phương pháp thu giảm số chiều PIP bên trên, chúng ta có thể có vài nhận xét như sau:
- Phương PIP-PD và PIP-VD là tương đối giống nhau.
Chương 2. Cơ sở lý thuyết 29
- Do cách thức tính khoảng cách của điểm kiểm tra khác nhau, nên thứ tự xác định các PIP trong cùng một tập dữ liệu của PIP-ED, PIP-PD, PIP-VD khác nhau.
2.4.4. So sánh các phương pháp thu giảm số chiều PIP
Bằng thực nghiệm trên dữ liệu chứng khoán 2500 điểm [1] Fu và các cộng sự đã cho thấy:
- Với số lượng PIP khác nhau, kể cả ở số lượng 100 PIPs (tương ứng với hệ số thu giảm 25) thì lỗi ở cả ba phương pháp đều ở mức tương đối thấp.
- Với số lượng PIP khác nhau (201, 501, 801,…) tương ứng với hệ số thu giảm khác nhau (12.5, 5, 3.1,…) thì PIP-VD có lỗi nhỏ nhất.
- Và ở hệ số nén 250, thì phương pháp PIP-VD thể hiện hình dạng chuỗi dữ liệu ban đầu tốt hơn PIP-ED và PIP-PD.
Kết hợp những số liệu bên trên, PIP-VD được xem là phương pháp được ưa chuộng hơn để tính toán PIP trong hầu hết các trường hợp.
Trong đề tài này, chúng tôi cũng chọn phương pháp PIP-VD làm tiêu biểu cho các phương pháp thu giảm PIP. Vì vậy, kể từ đây, khi nói đến phương pháp thu giảm PIP là chúng tôi muốn nói đến phương pháp PIP-VD.
Chúng tôi vừa giới thiệu hai cách thức thu giảm số chiều của dữ liệu: phương pháp PIP hoặc PAA. Vấn đề thường được quan tâm là thu giảm như thế nào, bao nhiêu lần là hợp lý. Việc thu giảm dữ liệu bao nhiêu lần được diễn đạt bằng hệ số thu giảm.
Tiếp theo chúng trình bày về hệ số thu giảm đó.