1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kỹ thuật tìm kiếm dựa trên giai điệu

79 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH THỊ KHÁNH DUYÊN KỸ THUẬT TÌM KIẾM DỰA TRÊN GIAI ĐIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2011 CƠNGTRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌCQUỐC GIA TP HỒ CHÍMINH Cán hướng dẫn khoa học: TS Quản Thành Thơ … Cán chấm nhận xét 1: PGS TS Đỗ Phúc Cán chấm nhận xét 2: TS Nguyễn Thanh Bình Luận văn thạc sĩ ñược bảo vệ tại: HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 07 tháng 01 năm 2012 Thành phần hội ñồng ñánh giá luận văn thạc sĩ gồm: PGS TS Dương Tuấn Anh PGS TS Đỗ Phúc TS Quản Thành Thơ TS Nguyễn Thanh Bình TS Nguyễn Thanh Hiên TRƯỜNGĐẠI HỌC QUỐC GIA TPHCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆTNAM Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày tháng năm NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: HUỲNH THỊ KHÁNH DUYÊN Phái: Nữ Ngày, tháng, nămsinh: 04/02/1983 Nơi sinh: Phan Thiết – Bình Thuận Chuyên ngành: Khoa Học Máy Tính MSHV: 09070429 1- TÊN ĐỀ TÀI: KỸ THUẬT TÌM KIẾM DỰA TRÊN GIAI ĐIỆU 2- NHIỆM VỤ LUẬNVĂN: Xây dựng hệ thống tìm kiếm dựa giai ñiệu ñược ngân nga người thông qua phương pháp xử lý chuỗi thời gian 3- NGÀY GIAO NHIỆM VỤ: 14/02/2011 4- NGÀY HOÀN THÀNH NHIỆM VỤ: 02/12/2011 5-HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN:TS.Quản Thành Thơ Nội dung ñề cương Luận văn thạcsĩđã Hội Đồng Chun Ngành thơng qua CÁNBỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN KHOA QL CHUYÊN NGÀNH (Họ tên chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) LỜI CAM ĐOAN Tơi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn ñược nộp ñể lấy cấp trường trường khác Ngày 22 tháng 02 năm 2012 Huỳnh Thị Khánh Duyên Tìm kiếm dựa giai ñiệu LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc ñến TS.Quản Thành Thơ, người thầy tận tình hướng dẫn tơi suốt q trình học Cao học tạo điều kiện để tơi hồn thành luận văn Tơi xin cảm ơn gia đình, bạn bè động viên tạo điều kiện tốt để tơi tiếp tục theo ñuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho Cha Mẹ Nhờ công lao dưỡng dục Người mà chúng có thành ngày hôm Con xin hứa tiếp tục cố gắng phấn ñấu ñể vươn cao Page ii Tìm kiếm dựa giai điệu TĨM TẮT LUẬN VĂN Trong năm gần đây, bùng nổ cơng nghệ thơng tin làm cho việc thu thập lưu trữ liệu ngày phát triển mạnh mẽ phức tạp Việc khai phá liệu địi hỏi phải đáp ứng nhu cầu Trong đó, liệu có liên quan đến thời gian quan trọng cần thiết Kỹ thuật tìm kiếm liệu chuỗi thời gian có ứng dụng nhiều lĩnh vực từ khoa học kỹ thuật ñến kinh tế tài Trong ứng dụng này, việc tìm kiếm dựa vào câu truy vấn ñã ñặt nhiều toán liên quan cần phải giải Bên cạnh giải thuật so trùng chuỗi thời gian, cịn có tốn gom cụm, phân loại, tìm motif, phát mẫu bất thường, Dữ liệu chuỗi thời gian thường lớn phức tạp nên gặp nhiều khó khăn việc khai phá liệu, ñặc biệt vấn ñề lập mục Đối với loại liệu khác u cầu tốn đặt mà áp dụng giải thuật ñiều chỉnh liệu khác Đề tài nhằm áp dụng phát triển kỹ thuật chuỗi thời gian việc tìm kiếm giai điệu, hát giống Đề tài ñã áp dụng phương pháp việc khai phá liệu chuỗi thời gian ñể cải tiến việc tìm kiếm liệu âm Page iii Tìm kiếm dựa giai điệu ABSTRACT In recent years, the explosion of information technology has made data collection and data storage grow rapidly and complexly For that reason, data mining is required as necessary In particular, data related to time is important and necessary Techniques on time series are applied in many fields of science technology as well as financial economics In such applications, searching based on queries brought many related problems to be resolved In addition to the matching algorithm for time series, there are the problems of clustering, classification, motif finding, detecting abnormal patterns, Because time series are often large and complex, we have encountered many difficulties in data mining, especially indexing It is necessary to have a suitable representation method for each kind of datasets and each kind of application which aims to improve the speed and the accuracy of the data mining solutions This thesis applied and developed time series techniques in finding the similar melodies It also gives some suitable method to improve similarity search in query by humming Page iv Tìm kiếm dựa giai điệu MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii ABSTRACT iv DANH MỤC HÌNH viii Chương 1: Giới thiệu ñề tài 1.1 Dữ liệu chuỗi thời gian 1.2 Biểu diễn chuỗi thời gian toán so trùng mẫu 1.3 Biểu diễn giai ñiệu dạng chuỗi thời gian 1.4 Mục tiêu giới hạn ñề tài 1.5 Tóm lược kết ñạt ñược 1.6 Cấu trúc luận văn Chương 2: Tổng thuật cơng trình liên quan 2.1 Các cơng trình độ ño tương tự 2.1.1 Độ ño Minkowski 2.1.2 Độ ño xoắn thời gian ñộng (Dynamic Time Warping –DTW) 10 2.1.3 Phương pháp chuỗi chung dài (Longest Common Subsequence – LCS) 13 2.2 Các cơng trình biểu diễn chuỗi thời gian 14 2.2.1 Phương pháp biến ñổi Fourier rời rạc DFT (Discrete Fourier Transform) 16 2.2.2 Phương pháp biến ñổi Wavelet rời rạc DWT (Discrete Wavelet Transform) 17 2.2.3 Phương pháp xấp xỉ gộp ñoạn PAA (Piecewise Aggregate Approximation) 17 2.2.4 Phương pháp xấp xỉ đoạn thích nghi APCA (Adaptive Piecewise Constant Approximation) 19 Page v Tìm kiếm dựa giai điệu 2.2.5 Phương pháp xấp xỉ tuyến tính đoạn PLA (Piecewise Linear Approximation) 19 2.2.6 Phương pháp xấp xỉ gộp ký hiệu hóa SAX (Symbolic Aggregate Approximation) 20 2.2.7 Phương pháp ESAX (Extended SAX) 21 2.2.8 Phương pháp SAX khả mục iSAX (Indexable SAX) 22 2.3 Các cấu trúc mục 23 2.3.1 Cấu trúc mục hậu tố 23 2.3.2 Cấu trúc mục R-tree 24 2.3.3 Framework GEMINI (GEneric Multimedia INdexIng) 25 2.4 Kỹ thuật tìm kiếm dựa giai ñiệu 26 2.4.1 Các hướng tiếp cận 26 2.4.2 Phương pháp tỉ lệ (scale) tịnh tiến (shifting) 28 2.4.3 Hàm chận khoảng cách 29 Chương 3: Những sở lý thuyết tảng 31 3.1 Thu giảm số chiều phương pháp PAA 31 3.2 Rời rạc hóa liệu phương pháp SAX 31 3.3 Xây dựng hàm cận khoảng cách 33 3.4 Xây dựng mục cậy hậu tố 35 Chương 4: Phương pháp giải vấn ñề hệ thống ứng dụng 38 4.1 Đặt vấn ñề 38 4.2 Phương pháp giải vấn ñề 40 4.2.1 Q trình chuẩn hóa liệu 40 4.2.2 Thu giảm số chiều phương pháp PAA 42 4.2.3 Xây dựng hàm cận khoảng cách 43 4.2.4 Xây dựng mục dựa hậu tố 45 Page vi Tìm kiếm dựa giai ñiệu Chương 5: Thực nghiệm 51 5.1 So sánh phương pháp cận 51 5.2 Tỷ lệ thu giảm truy xuất (pruning power) 52 5.3 Giải thuật tìm kiếm với kích thước liệu 53 5.4 Thời gian truy suất toàn hệ thống 54 Chương 6: Kết luận 56 6.1 Tổng kết 56 6.2 Những đóng góp đề tài 57 6.3 Hướng phát triển 58 Tài liệu tham khảo 59 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG Page vii Tìm kiếm dựa giai điệu Để tính P ta thực nghiệm sau Đầu tiên ta lấy ngẫu nhiên câu truy vấn Q Sau ta tìm xem chuỗi chuỗi ban đầu S có tồn chuỗi S’ hay không Và liệu 1500 tập liệu với kích thước 3.92MB Qua thực nghiệm chúng tơi thấy P dao động từ 0.33 < P < 0.7 Như với phương pháp PPA , SAX cấu trúc mục hậu tố cho ta kết tương ñối chấp nhận ñược việc xây dựng mục cho tập liệu 5.3 Giải thuật tìm kiếm với kích thước liệu Với giải thuật tìm kiếm hậu tố mục, chúng tơi gần 1000 miliseconds cho việc tìm kiếm chuỗi thời gian 1500 tập liệu Với giải pháp tìm kiếm hậu tố w-postfix làm tăng thời gian tìm kiếm giải tốn người sử dụng nhập vào đoạn nhạc có tơng q dài Và cách thực hợp lý với tốn tìm đoạn nhạc tương tự kho liệu âm nhạc Dưới ñây kết thực nghiệm phương pháp tìm kiếm hậu tố trước phương phương tìm kiếm giải thuật Chiều dài chuỗi ban ñầu Giải thuật tìm kiếm Giải thuật tìm kiếm hậu tố (miliseconds) w-postfix (miliseconds) S = 20 171 312 S= 40 546 812 53 Tìm kiếm dựa giai điệu Hình 5.2 : So sánh thời gian tìm kiếm giải thuật Với tập liệu kiểm nghiệm chúng tơi, điều chỉnh k , hệ số thể số ký tự chuỗi chấp nhận tương đồng, chúng tơi thấy k lớn tập liệu trả nhỏ độ xác cao K 10 20 Số lượng chuỗi tương ñồng trả 10

Ngày đăng: 29/08/2021, 17:43

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w