Cán bộ chấm nhận xét 2: TS Phạm Văn Chung
5. Uỷ viên: PGS TS Dương Tuấn Anh
3.3 Mở rộng và cải tiến giải thuật
3.3.7 Hiện thực giải thuật mở rộng EMD|HT
Giải thuật EMD|HT được hiện thực dựa trên nền tảng của giải thuật EMD|DTW.
Tuy nhiên chúng tôi đã áp dụng kỹ thuật cải tiến bằng cách áp dụng phép vị tự kết hợp với độ đo Euclid để tính khoảng cách giữa hai chuỗi con bất kỳ thay vì sử dụng hàm tính khoảng cách xoắn thời gian động. Kỹ thuật này được áp dụng như sau,
trước khi tính khoảng cách của mỗi cặp thể hiện của ứng viên motif, cần xác định
xem hai thể hiện này có cùng chiều dài hay khơng. Nếu chúng khơng có cùng chiều dài thì thực hiện phép vị tự trên thể hiện motif có chiều dài lớn hơn để thu được một thể hiện motif có chiều dài bằng với thể hiện motif kia. Sau đó, sử dụng hàm tính
khoảng cách Euclid để tính khoảng cách giữa chúng.
Một số điểm cần lưu ý khi hiện thực giải thuật
a. Cách dịch chuyển cửa sổ phân tích: khi dịch chuyển cửa sổ phân tích, chúng
tơi cho dịch chuyển một đoạn bằng chiều dài của một phân đoạn (segment), mỗi
phân đoạn có chiều dài bằng chiều dài của mỗi ký hiệu SAX. Ví dụ, ký hiệu SAX a có chiều dài 8 thì khi di chuyển sẽ dịch cửa sổ phân tích một độ dài bằng 8.
b. Kỹ thuật cắt tỉa thể hiện của ứng viên motif: khi hiện thực giải thuật
EMD|DTW hoặc EMD|HT, thì cả hai giải thuật này đều làm việc trên chuỗi ký hiệu hành vi đã được chỉnh sửa (Modified Behavior Symbol - MBS) nên chúng tôi đã áp dụng kỹ thuật cắt tỉa chuỗi con để không bỏ qua các ứng viên motif thực sự.
Giả sử với mỗi ký hiệu hành vi bằng 3 ký hiệu SAX, ví dụ A = abc, mỗi ký hiệu SAX có chiều dài bằng 8 điểm, xét chuỗi MBS sau đây
Chuỗi MBS A B C D A B C …
Chiều dài BS 1 1 2 1 2 1 1 …
Vị trí bắt đầu 1 9 17 33 41 57 65 …
Rõ ràng, mẫu ứng viên motif ABC có hai thể hiện ABC (bắt đầu tại vị trí 1) và
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 51
đó hai thể hiện ABC này vi phạm ràng buộc chồng lấp lên nhau. Chúng tôi đã áp
dụng kỹ thuật cắt tỉa đuôi của thể hiện thứ nhất và đầu của thể hiện thứ hai để kiểm tra xem hai thể hiện này có cịn bị vi phạm ràng buộc chồng lấp lên nhau nữa khơng. Nếu khơng, thì hai thể hiện này sẽ nằm trong tập thể hiện của mẫu ứng viên motif. Kỹ thuật cắt tỉa được mô tả như sau
- Cắt tỉa đuôi của thể hiện thứ nhất: Xét ký hiệu cuối cùng của thể hiện thứ
nhất, nếu chiều dài BS bằng 1 thì khơng thể giảm chiều dài của thể hiện này
được. Nếu chiều dài BS này lớn hơn 1, thì bắt đầu giảm từng điểm của thể
hiện thứ nhất cho đến khi hai thể hiện không vi phạm ràng buộc chồng lấp
lên nhau hoặc cho đến khi chiều dài BS của ký hiệu cuối cùng đúng bằng 1. - Cắt tỉa đầu của thể hiện thứ hai: Nếu thực hiện cắt tỉa đuôi của thể hiện thứ
nhất đã làm cho hai thể hiện khơng cịn bị vi phạm ràng buộc chồng lấp lên nhau thì khơng cần thực hiện việc cắt tỉa này. Ngược lại, tiến hành cắt tỉa đầu của thể hiện thứ hai. Xét ký hiệu đầu tiên của thể hiện thứ hai, nếu chiều dài BS của ký hiệu này bằng 1 thì khơng thể giảm chiều dài của thể hiện này
được. Ngược lại, bắt đầu giảm chiều dài thể hiện thứ hai bằng cách tăng vị trí
bắt đầu của thể hiện này lên 1 cho tới khi hai thể hiện này không vi phạm
ràng buộc chồng lấp lên nhau hoặc cho tới khi chiều dài BS của ký hiệu đầu tiên đúng bằng 1.
Áp dụng kỹ thuật cắt tỉa lên mẫu ứng viên motif ABC như sau: vì chiều dài của thể hiện ABC thứ nhất là 48 trong khi đó vị trí bắt đầu của thể hiện ABC thứ hai là 41 nên hai thể hiện này vi phạm ràng buộc chồng lấp lên nhau. Chúng tôi tiến hành việc cắt tỉa như sau
- Cắt tỉa đuôi của thể hiện thứ nhất: vì chiều dài BS của ký hiệu C là 2 và
chiều dài của mỗi ký hiệu SAX là 8, nên chỉ có thể giảm tối đa 8 điểm của
thể hiện thứ nhất. Bắt đầu giảm từng điểm của thể hiện thứ nhất, khi vừa
giảm đến điểm thứ 8 cũng là lúc chiều dài của thể hiện thứ nhất là 40 và
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 52
hai là 41 nên hai thể hiện này thoả mãn ràng buộc chồng lấp lên nhau, nên không cần tiến hành bước cắt tỉa đầu của thể hiện thứ hai.
- Cắt tỉa đầu của thể hiện thứ hai: không cần thực hiện. Lúc này, mẫu ứng viên motif ABC sẽ có hai thể hiện như sau:
- Thể hiện thứ nhất bắt đầu tại vị trí 1, có chiều dài là 40. - Thể hiện thứ hai bắt đầu tại vị trí 41, có chiều dài là 48.
Chương 4: Hiện thực và thử nghiệm GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 53
CHƯƠNG 4
HIỆN THỰC VÀ THỬ NGHIỆM
Chương này sẽ hiện thực các giải thuật MD, EMD|DTW và EMD|HT. Sau đó chúng tơi tiến hành thực nghiệm các giải thuật phát hiện motif trên các tập dữ liệu chuỗi thời gian khác nhau dựa vào các giải thuật sau
• Giải thuật Brute-Force
• Giải thuật chiếu ngẫu nhiên.
• Giải thuật MD.
• Giải thuật mở rộng kết hợp với độ xoắn thời gian EMD|DTW.
• Giải thuật mở rộng kết hợp với phép vị tự EMD|HT. Tập dữ liệu chuỗi thời gian được thực nghiệm bao gồm
• Dữ liệu ECG (điện tâm đồ) 512 điểm [22].
• Dữ liệu ECG (điện tâm đồ) 8000 điểm [22].
• Dữ liệu ECG (điện tâm đồ) 144000 điểm [22].
• Dữ liệu Power 35040 điểm [23].
• Dữ liệu Memory 6875 điểm [23].
• Dữ liệu EEG (điện não đồ) 512 điểm [23].
• Dữ liệu ERP 6400 điểm [23].
Để tăng tính chính xác của các kết quả thu được, chúng tôi đã tiến hành thực
nghiệm 5 lần cho mỗi giải thuật đối với mỗi tập dữ liệu, sau đó lấy kết quả trung
bình của 5 lần thực nghiệm này. Các thực nghiệm sẽ được tập trung so sánh dựa vào các khía cạnh sau
• Tính chính xác của các giải thuật phát hiện motif.
• Thời gian thực thi của giải thuật.
Chương 4: Hiện thực và th
Nguyễn Văn Nhất_100704
Ngoài ra chương với các giải thuật MD, phép vị tự đối với giải
Chương trình đư
2010, chạy trên máy P 4.00GB, hệ điều hành W Giao diện của chương t
• Nút lệnh ‘Brows • Nút lệnh ‘Load
thời gian lên khu • Nút lệnh ‘EMD chuỗi thời gian đ instances’.
thử nghiệm GVHD: PSG.
0490
ương này cịn trình bày về tính hiệu quả của
D, tính hiệu quả của giải thuật EMD|DTW i thuật EMD|HT.
được thực hiện bằng ngơn ngữ lập trình
y PC Intel® Core™ i3 CPU 550 @ 3.20G h Window 7, 32 bít.
ơ g trình phát hiện motif như Hình 4.1
Hình 4.1 Giao diện chương trình phát hiện motif
wse…’: dùng để chỉ định tập tin dữ liệu chu ad Data’: dùng để tải dữ liệu chuỗi thời gia khung thứ nhất ‘Time series’.
D|HT’: thực hiện giải thuật phát hiện m an đã được chọn và hiển thị kết quả lên kh
G. TS. Dương Tuấn Anh
Trang 54
a nguyên lý MDL đối và tính hiệu quả của
nh C# - Visual studio 0GHz 3.20GHz, RAM
chuỗi thời gian.
ian và vẽ đồ thị chuỗi
motif EMD|HT trên khung thứ hai ‘Motif
Chương 4: Hiện thực và thử nghiệm GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 55
• Nút lệnh ‘EMD|DTW’: thực hiện giải thuật phát hiện motif EMD| DTW trên chuỗi thời gian đã được chọn và hiển thị kết quả lên khung thứ hai ‘Motif
instances’.
• Nút lệnh ‘Zoom Motif’: xem motif kết quả dưới dạng kích thước phóng lớn. • Khung thứ ba ‘Parameters’ cho phép nhập các giá trị đầu vào và hiển thị thời
gian chạy của chương trình.