DSpace at VNU: Phát triển một số kỹ thuật trong đối sánh mẫu

15 97 0
DSpace at VNU: Phát triển một số kỹ thuật trong đối sánh mẫu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THUỶ KHÁNH PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG ĐỐI SÁNH MẪU LUẬN VĂN THẠC SĨ Hà Nội - 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THUỶ KHÁNH PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG ĐỐI SÁNH MẪU Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TSKH NGUYỄN XUÂN HUY Hà Nội - 2007 LỜI CẢM ƠN Em xin gửi lời biết ơn chân thành đến PGS.TSKH Nguyễn Xuân Huy, người tận tình hướng dẫn em suốt trình thực luận văn, cho em nhiều lời động viên dẫn quý báu để em thực tốt đề tài Bên cạnh đó, em xin chân thành cảm ơn thầy khoa Cơng Nghệ Thơng Tin hết lòng cơng tác giảng dạy, tận tình cung cấp nhiều kiến thức cần thiết suốt năm học trường Trong q trình thực đề tài, khơng thể khơng kể đến giúp đỡ, đóng góp ý kiến lời động viên bạn bè xung quanh, điều thật giúp cho nhiều Xin chân thành cám ơn bạn Và cuối cùng, xin gửi đến bố mẹ gia đình lòng biết ơn vơ bờ bến Cơng lao dưỡng dục bố mẹ, niềm tin mãnh liệt vào bố mẹ giúp vượt qua phút khó khăn nhất, khắc phục trở ngại lớn lao để hoàn thành đề tài MỞ ĐẦU Trong năm gần đây, phát triển công nghệ thông tin ngành công nghiệp phần cứng làm cho khả thu thập lưu trữ liệu hệ thống thông tin tăng nhanh Bên cạnh việc tin học hố hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ lớn Nhiều sở liệu sử dụng hoạt động sản xuất, kinh doanh, quản lí , có sở liệu cực lớn cỡ Gigabyte, chí Terabyte Sự gia tăng dẫn tới yêu cầu cần có kĩ thuật cơng cụ để phân tích, dự đốn dự báo thơng tin dựa khối liệu Do vậy, kĩ thuật đối sánh trở thành vấn đề quan tâm CNTT giới Đối sánh mẫu (pattern matching) chủ đề quan trọng lĩnh vực xử lý văn Bài toán đối sánh mẫu (chính xác) tổng quát phát biểu là: Cho xâu mẫu P độ dài m xâu (văn bản) S độ dài n bảng chữ A Tìm (hoặc tất cả) xuất mẫu P S Nhiều phương pháp kinh điển giải toán đối sánh mẫu giới thiệu chi tiết [4,5] Ngày nay, đối sánh mẫu hay mở rộng tìm kiếm đối sánh mẫu liệu ứng dụng rộng rãi nhiều lĩnh vực như: xử lý văn bản, tài thị trường chứng khốn, thương mại, giáo dục, y tế, sinh học, bưu viễn thơng ,… Với lĩnh vực khoa học cơng nghệ dự đốn dự báo có nhiều triển vọng tương lai, phù hợp với xu áp dụng công nghệ thông tin vào lĩnh vực đời sống, nên em chọn hướng “Phát triển số kỹ thuật đối sánh mẫu liệu” cho luận văn Với lĩnh vực lại có cách biểu diễn mẫu liệu cho lĩnh vực đó, việc tìm kiếm đối sánh dựa cách biểu diễu mẫu để có phương pháp tìm kiếm đối sánh phù hợp Trong khuôn khổ luận văn, em lựa chọn nghiên cứu dựa mẫu liệu theo thời gian Dữ liệu theo thời gian dãy giá trị, đại diện cho số đo đại lượng khoảng thời gian khác Hình 0.1 - Ví dụ liệu theo thời gian Mở rộng ra, sở liệu theo thời gian sưu tập với số lượng lớn liệu theo thời gian Ví dụ: - Cơ sở liệu chứa tất vận động giá cổ phiếu thị trường chứng khoán - Cơ sở liệu doanh số bán hàng theo thời gian - Cơ sở liệu nhiệt độ lưu lượng dòng chảy, độ mặn mức độ xâm nhập mặn sông Mekong - Cơ sở liệu nhiệt độ hàng ngày - Cơ sở liệu điện tâm đồ - … Khi biểu diễn dãy liệu theo thời gian, dễ dàng nhận thấy dãy có dáng điệu riêng tùy thuộc vào thay đổi giá trị dãy Bài toán đối sánh mẫu chất tốn tìm kiếm mẫu liệu tương đương liệu theo thời gian Việc tìm kiếm mẫu thích hợp liệu theo thời gian đóng vai trò quan trọng ứng dụng thuộc hầu hết lĩnh vực khoa học, kinh tế kỹ thuật tìm kiếm giai điệu, tìm mẫu giá chứng khốn q khứ để dự đốn khuynh hướng giá tương lai, số lượng sản phẩm bán ra, dự báo mức độ ô nhiễm môi trường, lũ lụt hay dự báo thời tiết,… Nội dung luận văn gồm chương mục sau: Chƣơng 1: Cơ sở lý thuyết Trình bày lý thuyết quan trọng liên quan Chƣơng 2: Một số kỹ thuật đối sánh mẫu Mô tả kỹ thuật đối sánh cách áp dụng vấn đề lý thuyết nêu Chƣơng 3: Cài đặt, kết thử nghiệm Cài đặt chương trình, lược cách sử dụng, kết thử nghiệm Phụ lục: Phụ lục A: Danh mục hình vẽ Phụ lục B: Bộ liệu nguồn 1.1 1.2 Chương 1.2.1.1.1 CƠ SỞ LÝ THUYẾT 1.1 BIỂU DIỄN DỮ LIỆU TUẦN TỰ THEO THỜI GIAN Cũng hầu hết vấn đề khác khoa học máy tính, việc biểu diễn liệu chìa khóa mở giải pháp đạt hiệu cao Đối với liệu theo thời gian, số phương pháp biểu diễn liệu theo thời gian cấp cao đề xuất, bao gồm phép biến đổi Fourier, Wavelets (sóng nhỏ), ánh xạ tự/biểu tượng biểu diễn tuyến tính Piecewise (PLR) Trong đó, phương pháp biểu diễn sử dụng phổ biến xấp xỉ tuyến tính Piecewise Cách biểu diễn nhiều nhà nghiên cứu khác sử dụng để hỗ trợ gom cụm, phân lớp, mục khai mỏ luật kết hợp liệu theo thời gian Liên quan đến phương pháp này, có nhiều thuật tốn đời Tuy nhiên, theo [8], tất thuật tốn có thiếu sót khơng tránh khỏi đứng phương diện khai thác liệu Các thuật toán phân đoạn phân thành loại: theo lơ hay trực tuyến Trong [8] phân tích thuật toán để phân đoạn liệu: - Cửa sổ trượt (Sliding Windows): phân đoạn lớn dần lên vượt giới hạn sai số Q trình lặp lại với điểm liệu không phân đoạn xấp xỉ - Trên - Dưới (Top-Down): liệu theo thời gian chia cách đệ quy gặp điều kiện dừng - Dưới lên (Bottom-Up): xấp xỉ có khả tốt nhất, phân đoạn trộn gặp điều kiện dừng Các tác giả [8] tiến hành thực nghiệm, nhận thấy thuật toán cửa sổ trượt thuật tốn trực tuyến, thực Vấn đề với thuật tốn cửa sổ trượt khơng bao qt “offline” Các cách tiếp cận Bottom-Up Top-Down cho kết tốt hơn, “offline” yêu cầu quét qua toàn tập liệu Đây thực tế, nhiều trường hợp khơng thực ngữ cảnh khai mỏ liệu Thách thức liệu theo thời gian là: tìm kiếm khác tương đương liệu theo thời gian (trong lĩnh vực) Ví dụ cho liệu X=x1, x2,…, xn Y= y1, y2,…, yn cho biết X Y tương đương hay khác nhau? Vấn đề thật khó thường có khái niệm chủ quan tương đương, tương đương phụ thuộc vào khách thể, vào lĩnh vực công việc cụ thể Phần Để giải vấn đề phải có độ đo tương đương cho phép đối sánh liệu mức độ xấp xỉ, ngồi sử dụng thuật toán như: mục, phân lớp, gom cụm, phân đoạn liệu,…để tìm mẫu tập liệu theo thời gian tương ứng chúng Phần Thách thức thứ hai liệu theo thời gian việc lập mục: cho hai liệu theo thời gian X=x1, x2, …, xn Q Tìm liệu X mà tương đương với Q Để giải vấn đề cách hiệu ta lập mục liệu X Phần Một liệu theo thời gian có chiều dài n (n ghi, hay đối tượng n thời điểm khác nhau) coi không gian n chiều Lập mục trực tiếp cho khơng gian khơng hợp lý có số chiều lớn (có thể hàng triệu hàng tỷ chiều) Ý tưởng việc cải tiến sử dụng kỹ thuật để giảm bớt số chiều không gian biến đổi Fourier biến đổi Cosine rời rạc, tức ánh xạ liệu theo thời gian có độ dài n vào khơng gian thấp có k chiều (k

Ngày đăng: 18/12/2017, 05:53

Tài liệu cùng người dùng

Tài liệu liên quan