3 Các kỹ thuật tính toán xấp xỉ khoảng cách 56
3.2.3 Thuật toán phát sinh 61
Thuật toán phát sinh ( hay Genetic Algorithms - Tìm kiếm phát sinh) (Goldberg, 1989), giống như thuật toán mô phỏng quá trình xử lý nhiệt trên đây, cũng được thúc đẩy bằng ý tưởng từ vật lý học, là cách thiết lập tổng quát của các kỹ thuật tìm kiếm theo kinh nghiệm dựa trên những ý tưởng của thuyết tiến hóa sinh vật học. Bản chất của ý tưởng này là biểu diễn mô phỏng như những chuỗi nhiễm sắc thể - NST (thường được mã hóa dưới dạng các mảng nhị phân), và làm “tiến hóa” một mẫu của các nhiễm sắc thể này bằng cách lựa chọn ra các cặp nhiễm sắc thể để tạo nên một thế hệ nối tiếp. Các nhiễm sắc thểđược ghép đôi dựa trên “độ ăn khớp” giữa chúng (ởđây là mức độ tương đồng) nhằm thúc đẩy việc tìm kiếm các cặp nhiễm sắc thể có chất lượng tốt hơn để có thể “sống sót” từ thế hệ này đến thế hệ tiếp theo (chỉ có một số lượng giới hạn các cặp NST có thể tồn tại từ thế hệ này đến thế hệ kế tiếp). Hiện nay có rất nhiều phiên bản thay đổi của đề tài khá phổ biến này song ý tưởng chủđạo của thuật toán phát sinh bao gồm:
Việc duy trì tập các NST dễ dàng hơn là quản lý từng NST riêng biệt, cho phép thuật toán tìm kiếm khảo sát được cùng một lúc nhiều khu
vực khác nhau trong không gian tìm kiếm.
Tạo ra NST mới cho quá trình khảo sát, dựa trên sự kết hợp của các NST đang có, cho phép giải thuật của chương trình có thể “nhảy” đến các khu vực khác nhau trong không gian tìm kiếm và thực thi một cách hiệu quả.
Tìm kiếm phát sinh có thểđược coi là một dạng đặc biệt của phương pháp tìm kiếm theo kinh nghiệm, do vậy nó có thể hoạt động tốt trong một số trường hợp cụ thể nhưng cũng bộc lộ một số hạn chế trong một số trường hợp khác. Không thể khẳng định rằng đây là một thuật toán luôn cung cấp cách thực thi hiệu quả hơn, trong một số trường hợp đặc biệt, so với các phương pháp đơn giản khác như tìm kiếm theo khu vực với việc khởi tạo ngẫu nhiên. Nhược điểm trong thực tế của phương pháp tiếp cận này là nó thường tạo ra rất nhiều tham số thuật toán (như số lượng các NST, các đặc tả cách thức kết hợp các NST, …), hơn thế các tham số này đều phải được định nghĩa và nó có thể không rõ ràng khi đặt ra câu hỏi: Đâu là sự thiết lập lý tưởng cho các tham số này phù hợp với vấn đềđang được đặt ra?
Chú thích
[1] Minkowski – Minkowski space: Không gian khoảng cách Minkowski là khái
niệm trong vật lý và toán học, bao gồm các quy tắc toán học trong đó các tính chất ba chiều thông thường của không gian được kết hợp với chiều không gian đơn lẻ nữa
để tạo nên một không gian toán học bốn chiều (four-dimensinal manifold) biểu diễn
các mô hình toán học kết hợp giữa không gian và thời gian. Minkowski là tên đặt
theo tên là toán học người Đức - Hermann Minkowski.
[2] Benchmark:
[3] B - Tree: Là cấu trúc dữ liệu phù hợp cho việc lưu trữ ngoài do R.Bayer và
E.M.McCreight đưa ra năm 1972 và hiện vẫn đang được sử dụng phổ biến trong CSDL và hệ thống file.
Bên trong mỗi nút, dữ liệu được xếp thứ tự một cách tuần tự bởi khoá, cấu trúc của B-tree tương tự như cây 2-3-4, ngoại trừ có nhiều mục dữ liệu trên một node và nhiều liên kết đến node con hơn. Bậc của B-tree là số các node con mà mỗi node có
thể có.
[4] tuple-identifier : Nhận dạng bộ dữ liệu – xác định bộ dữ liệu có thuộc tầng nào trong cấu trúc cây thư mục, kiểu dữ liệu…
Tuples ( bộ dữ liệu chứa n đối tượng từ n tập dữ liệu thỏa mãn biểu đồ truy vấn).
CHƯƠNG 3
MỘT SỐ ỨNG DỤNG CỦA BÀI TOÁN TÍNH TOÁN XẤP XỈ KHOẢNG CÁCH TRONG THỰC TẾ
một số kỹ thuật xấp xỉ quan trọng và các thuật toán liên quan đã và đang được sử dụng trong quy trình xử lý các truy vấn thực hiện trên CSDL không gian. Xuất phát từ việc nghiên cứu các thuật toán xấp xỉ khoảng cách trong các truy vấn thực hiện trên CSDL không gian chúng ta có thể nhận thấy vai trò quan trọng của các nghiên cứu này trong thực tiễn. Thành tựu của nó mang lại những kết quả to lớn không chỉ về mặt lý luận đơn thuần trong cuộc cách mạng hóa về bản đồ và bài toán tìm kiếm thông tin địa lý kỹ thuật số. Trong dòng chảy của công nghệ, các nhà khoa học, kỹ sưđang không ngừng cải tiến các kỹ thuật, các thuật toán cũng như tìm kiếm giảp pháp tích hợp tốt nhất cho các ứng dụng GIS, tất cảđều có chung một mục tiêu đó là hướng đến một giải pháp hoàn thiện nhất, có thể tối thiểu hóa thấp nhất thời gian đáp ứng của hệ thống đối với một yêu cầu xử lý truy vấn cũng như giới hạn tối đa số lượng các phép tính phức tạp cần phải thực hiện, trong khi vẫn đảm bảo đưa ra cho khách hàng những kết quả truy xuất tốt nhất, chính xác nhất.
Dưới đây là khái quát một số trong rất nhiều các nghiên cứu và ứng dụng có liên quan trong lĩnh vực này