.3 Giải thuật Sequitur [5] trong tìm kiếm motif

Một phần của tài liệu So sánh tìm kiếm motif trên chuỗi thời gian của hai giải thuật sequitur và hashing (luận văn thạc sĩ) (Trang 43 - 44)

Giải thuật Sequitur 1 2 3 4 5 6 7 8 9 10 11 12

Khi mỗi biểu tượng đầu vào mới được xem xét, thì thêm nó vào ch̃i S. Mỗi khi khoảng cách được tạo ra giữ hai ký tự

Nếu biểu đồ mới được lặp lại ở nơi khác và các lần lặp lại không trùng lắp, Nếu biểu đồ khác là một quy luật trùng lắp,

Thì thay thế biểu đồ mới bằng ký hiệu không phải là ký hiệu không kết thúc (nonterminal symbol) đứng đầu của quy luật, ngược lại,

Hình thành quy luật mới và thay thế cả hai đoạn biểu đồ bằng ký hiệu không phải là ký hiệu không kết thúc đứng đầu

ngược lại,

Chèn biểu đồ vào chỉ mục

Mỗi khi một biểu đồ được thay thế bằng một ký hiệu không phải là ký hiệu không kết thúc đứng đầu

Nếu một trong hai ký hiệu là một ký hiệu không phải là ký hiệu không kết thúc chỉ xuất hiện một lần ở nơi khác,

Loại bỏ quy luật đó, thay thế nợi dung của nó vào vị trí của ký hiệu khơng kết thúc khác.

Để việc trực quan hóa motif tìm kiếm trong giải thuật Sequitur dễ dàng thì sau mỡi lần tìm ra văn phạm nên ghi nhận lại đợ dài của văn phạm và vị trí bắt đầu của văn phạm đó.

3.4.4 Giải thuật Hashing

Dữ liệu chuỗi thời gian thô ban đầu được đưa vào chuẩn hóa bằng phương pháp chuẩn hóa trung bình Zero. Sau đó tiến hành xác định đợ dài của các chuỗi con và cắt chuỗi dữ liệu lớn ban đầu thành tập hợp chuỗi con với độ dài phù hợp. Tập chuỗi con tiếp tục được thu giảm số chiều bằng phương pháp gộp từng đoạn xấp xỉ. Thu giảm số chiều để giảm số lượng dữ liệu cần tính nhưng vẫn giữ ngun các đặc trưng vốn có của ch̃i. Sau khi đã được xử lý sơ bộ tập hợp các chuỗi con thực

30

hiện rời rạc hóa dữ liệu. Phương pháp rời rạc hóa được áp dụng đó là thu gợp xấp xỉ ký tự. Dữ liệu chuỗi thời gian ban đầu đã trở thành nguồn dữ liệu đầu vào. Từ nguồn dữ liệu này tiến hành xây dựng giải thuật Hashing tìm kiếm motif. Giải thuật Hashing được mô tả bằng mã giả được trình bày (bảng 3.2) với T: là những chuỗi dữ liệu đã rời rạc hóa, w: là kích thước cửa sổ trượt do người dùng định nghĩa, HashTable là cấu trúc bảng băm dùng để chứa các đặc trưng.

Một phần của tài liệu So sánh tìm kiếm motif trên chuỗi thời gian của hai giải thuật sequitur và hashing (luận văn thạc sĩ) (Trang 43 - 44)

Tải bản đầy đủ (PDF)

(73 trang)