Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
268,79 KB
Nội dung
Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 1 CHUỖI VÀ CÁC BÀI TOÁN TRÊN CHUỖI Chuỗi (string) là một loại dữ liệu cơ bản thường được sử dụng trong rất nhiều các hệ thống và là thành phần cơ bản trong các hệ thống xử lý văn bản (word- processing-system), các hệ thống này cung cấp cho ta rất nhiều khả năng để xử lý văn bản. Ngoài ra một vài các hệ thống đồ hoạ trên máy tính (computer graphics system) biểu diễn các hình ảnh như là các chuỗi nhị phân. Các thao tác trên chuỗi chúng ta thường gặp một số các phép toán cơ bản như: - Phép tìm kiếm một chuỗi con trong một chuỗi. - Phép thay thế một chuỗi con của một chuỗi bởi một chuỗi khác. - Phép chen chuỗi con vào một chuỗi. - Phép loại bỏ một chuỗi con của một chuỗi. Trong các phép toán nêu trên thì phép tìm kiếm trên chuỗi là phép toán quan trọng và thường gặp , vì vậy ta chỉ tìm hiểu các giải thuật liên quan đến phép toán này đó là : 1. Giải thuật Brute-Force. 2. Giải thuật Knuth-Morris-Pratt. 3. Giải thuật Boyer-Moore. $1. Các khái niện cơ bản về chuỗi 1.1. Chuỗi và phân chia chuỗi a. Định nghĩa chuỗi Chuỗi là một dãy các ký tự được chứa trong một vùng liên tục của bộ nhớ. Các ký tự này có thể là ký tự chữ, ký tự số hoặc ký tự đặc biệt. Chuỗi ký tự (text string) có thể được xem như là dãy các chữ, các số và các ký tự đặc biệt. Một loại chuỗi khác là chuỗi nhị phân (binary string), đó là một dãy các kí tự 0 và 1. Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 2 b. Độ dài chuỗi. Số ký tự của chuỗi được gọi là chiều dài của chuỗi. Mỗi ký tự chiếm 1 byte. Một chuỗi có thể có chiều dài bằng 0 gọi là chuỗi rỗng(null string ), ký hiệu là “ Một chuỗi có thể được chia làm nhiều phần, mỗi phần là một chuỗi con (sub string ). Các chuỗi con có thể có chiều dài bằng nhau hoặc khác nhau. 1.2. Cách phân chia chuỗi a. Dùng ký tự đặc biệt. Dùng ký tự trống ( blank) để phân chia chuỗi con. Khi đó các chuỗi con có thể khác nhau. Để truy xuất một chuỗi con trong chuỗi thì ta phải tìm kiếm từ đầu chuỗi. Do đó tốc độ truy xuất của phương pháp này chậm. b. Dùng chiều dài cố định. Ta chia các chuỗi con thành các phần bằng nhau. Để truy xuất một chuỗi con trong một chuỗi thì ta dùng công thức tính địa chỉ. Do đó tốc độ truy xuất của phương pháp này rất nhanh. c. Dùng chỉ điểm (pointer). - Dùng chỉ điểm đầu: Chỉ điểm đầu chỉ vào ký tự đầu tiên của chuỗi con. Ta sử dụng biến Last để cho biết địa chỉ của ký tự cuối cùng của chuỗi. Gọi: n- số chuỗi con a i -địa chỉ của ký tự đầu tiên của chuỗi con thứ i b i - địa chỉ của ký tự cuối cùng của chuỗi con thứ i Ta có : a i = pointer[i] b i = pointer[i+1]-1 , nếu i<n = last , nếu i=n - Dùng chỉ điểm cuối : Chỉ điểm cuối chỉ vào ký tự cuối cùng của chuỗi con. Ta sử dụng biến First để cho biết địa chỉ của ký tự đầu tiên của chuỗi. Ta có : a i = First , nếu i=1 Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 3 = pointer[i-1] ,nếu i>1 b i = pointer[i] $2.Các giải thuật tìm kiếm trên chuỗi Bài toán: Tìm kiếm chuỗi p có chiều dài là m trong chuỗi a có chiều dài n. Có hai trường hợp xảy ra sau khi tìm kiếm đó là: - Nếu không tìm thấy chuỗi p trong chuỗi a thì kết quả là 0. - Nếu tìm thấy chuỗi p trong chuỗi a thì kết quả là vị trí của ký tự đầu tiên của lần tìm thấy đầu tiên. Sau đây chúng ta lần lượt đi vào phân tích từng giải thuật cụ thể : 2.1. Giải thuật Brute- Force. a. Nội dung của giải thuật - Đối với vị trí kí tự thứ i của chuỗi a (i=1,2,…,n-m+1) ta so sánh các ký tự tương ứng từ trái qua phải: p[1] với a[i] p[2] với a[i+1] …………. p[m] với a[i+m+1] - Gọi: i - chỉ số của chuỗi a. j - chỉ số của chuỗi p. Nếu a[i] = p[j] thì ta tăng chỉ số i và j lên 1(xét đến ký tự tiếp theo) Nếu a[i]<>p[j] thì ta cho j chỉ về đầu chuỗi p (j=1) và i chỉ về vị trí ký tự kế tiếp khi bắt đầu tìm kiếm lần cuối cùng (i = i-j+2). Giải thuật kết thúc khi j>m hoặc i>n. - Ta khai báo : Type St =string[255]; Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 4 Index = 1 255; c. Giải thuật: Chương trình thực hiện giải thuật này như sau: program Brute_Force; uses crt; type st=string[50]; var a,p:st; {a chứa chuỗi nguồn , p là chuỗi đích, n độ dài chuỗi a ,m là độ dài chuỗi p} procedure init; var i,j:integer; begin writeln('Nhập chuỗi a:'); readln(a); writeln('Nhập chuỗi p:'); readln(p); end; procedure Result; begin writeln('Chuỗi cần tìm là:',p) end; Function Brutesearch(p,a:st):integer; var i,j,m,n:integer; begin m:=length(p); n:=length(a); i:=1; j:=1; repeat if a[i]=p[j] then begin i:=i+1; j:=j+1; Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 5 end else begin i:=i-j+2; j:=1; end; until(j>m)or (i>n); if j>m then Brutesearch:=i-m; else Brutesearch:=0; end; begin clrscr; Init; Brutesearch(a,p); write('Vị trí của ký tự đầu của chuỗi p trong a là:',Brutesearch(p,a):2); writeln; Result; readln; end. Ví dụ: Ta xét một ví dụ cụ thể sau: Cho chuỗi a=’ 0101101001110011101011100’ n=27, chuỗi p=’ 010011’ m=6 stt So sánh 2 giá trị Chí số mới của i và j Chú thích 1 a[1]=p[1] i=2;j=2 2 a[2]=p[2] i=3;j=3 3 a[3]=p[3] i=4;j=4 4 a[4]<>p[4] i=2,j=1 i=i-j+2 5 a[2]<>p[1] i=3;j=1 - 6 a[3]=p[1] i=4;j=2 Tăng i và j lên 1 7 a[4]=p[2] i=5;j=3 - 8 a[5]<>p[3] i=4;j=1 i=i-j+2 Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 6 9 a[4]<>p[1] i=5;j=1 - 10 a[5]<>p[1] i=6;j=1 - 11 a[6]=p[1] i=7;j=2 tăng i và j lên 1 12 a[7]=p[2] i=8;j=3 - 13 a[8]=p[3] i=9;j=4 - 14 a[9]=p[4] i=10;j=5 - 15 a[10]=p[5] i=11;j=6 - 16 a[11]=p[6] i=12;j=7 giải thuật kết thúc do j>m Đến đây giải thuật kết thúc giá trị trả về ở đây là 6 của lần tìm thấy đầu tiên a=’ 0101101001110011101011100’ p=’ 010011’ d. Phân tích giải thuật Trường hợp xấu nhất của giải thuật này là trường hợp cả hai chuỗi p và a đều gồm các số 0 và kết thúc là số 1. Khi đó với n-m +1 lần tìm kiếm ta phải so sánh m ký tự của chuỗi p với các ký tự tương ứng của chuỗi a. Số lần so sánh : C max =m*(n-m+1) Ta có thể cải tiến giải thuật này bằng giải thuật Knuth- Morris-Pratt. 2.2. Giải thuật Knuth- Morris- Pratt. a. Nội dung của giải thuật - Trong giải thuật Brute-Force ta nhận thấy khi so sánh đến ký tự p[j]<>a[i] thì ta đã có j -1 kí tự đầu tiên của chuỗi p bằng với các j-1 ký tự cuối cùng trước a[i] của chuỗi a. Ví dụ : Võ Minh Phổ Bổ môn Khoa học máy tính 7 chui a l :1010100111 chui p l :10100111 - Ta nhn thy a[5] v p[5] khỏc nhau. Khi ú ta khụng cn cho j=1 na m cho j v 3 so sỏnh vỡ ta nhn thy 3 ký t u tiờn ca chui p bng vi 3 ký t ang xột cui cựng ca ca chui a. Do ú ta khụng cn cho i quay v v trớ trc na m vn tip tc cho i tng. Ta s dng mng next[1m] ghi nhn giỏ tr j quay v . Phn t next[j] s cho giỏ tr mi ca j khi phỏt hin hai ký t khỏc nhau. Mng next[1m] c xỏc nh nh sau : - S dng chui p1 hon ton ging p. Cho chui p1 di chuyn t trỏi qua phi ng thi so sỏnh vi chui p v dng li khi cỏc kớ t u tiờn ca chui p1 trựng vi cỏc kớ t ca chui p. Cỏc kớ t trựng ny s xỏc nh giỏ tr ca next. - Nu s khỏc nhau ny c phỏt hin p[j] thỡ next[j] :=1+s ký t trựng nhau +.vi j=1 next[j]=0 +.vi j>1 next[j] := là số lớn nhất k<j sao cho k-1 ký tự đầu tiên của p1 trùng với k-1 ký tự cuối cùng của j-1 (tại thời điểm đang xét) ký tự đầu tiên của p. - Khi xác định next [j] việc di chuyên p1 qua phải dừng lại khi phát hiện các ký tự đi trớc của chuỗi p1 trùng với các ký tự của chuỗi p hoặc khi p1[1]=p[j]. - Khi xỏc nh next[j] vic di chuyn chui p1 qua phi s dng li khi phỏt hin cỏc kớ t i trc ca chui p1 bng vi cỏc kớ t ca chui p hoc khi p1[1] gp p[j]. b. Gii thut : program Knuth_Morris_Pratt; uses crt; type st=string[50]; Index=1 50; var a,p:st;{a cha chui ngun, p l chui ớch;n l di ca a;m la di ca p} Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 8 procedure init; var i,j:integer; begin writeln('Nhập chuỗi a:'); readln(a); writeln('Nhập chuỗi p:'); readln(p); end; procedure Result; begin writeln('Chuỗi cần tìm là:',p); end; Function Kmsearch(p,a:st):integer; var i,j,m,n:integer; next:array[index]of integer; procedure Initnext; begin i:=1; j:=0; next[1]:=0; repeat if(j=0)or(p[i]=p[j])then begin i:=i+1; j:=j+1; next[i]:=j; end; else j:=next[j]; Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 9 until i=m; end; begin m:=length(p); n:=length(a); {Tạo mảng next} Initnext; i:=1; j:=1; repeat if (j=0) or (a[i]=p[j]) then begin i:=i+1; j:=j+1; end; else begin j:=next[j]; end; until(j>m)or (i>n); if j>m then Kmsearch:=i-m else Kmsearch:=0; end; begin clrscr; Init; Kmsearch(a,p); write('Vị trí của ký tự đầu của chuỗi p trong a là:',Kmsearch(p,a):2); writeln; Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 10 Result; readln; end. c. Ví dụ cụ thể Cho chuỗi a : 101'01.0'011'1 i =10 p : 101'00.1'11 j =8 Các bước sẽ được thể hiện trong bảng sau : j next[j] chuỗi 2 1 101’001’11 (p) 101’001’11 (p1) 3 1 101’001’11 101’001’11 4 2 101’001’11 101’001’11 5 3 101’001’11 1 01’001’11 6 1 101’001’11 1 01’001’11 7 2 101’001’11 1 01’001’11 8 101’001’11 101’001’11 [...]... với giải thuật Knuth-Morris-Pratt Đối với giải thuật Boyer, ta xét chuỗi p1 từ phải qua trái trong khi ta so sánh chuỗi p với chuỗi a Cách xây dựng mảng next của giải thuật Boyer-Moore là phần tử next[j] là số vị trí kí tự mà chuỗi p sẽ di chuyển qua phải đối với chuỗi p1 để có được vị trí khác nhau ở kí tự thứ j kể từ phải qua trái của chuỗi p b Giải thuật: Để xác định vị trí mới của j khi có sự so sánh... bộ ký tự (đánh số từ 1) Khi đó skip[c]=m nếu c không phải là một ký tự của chuỗi p skip[c]=m-j nếu c là kí tự thứ j của chuỗi p Ta có giải thuật : Program Boyer-Moore; Use crt; Type St=string[50]; Const Charno=255; procedure init; begin writeln(‘ hay nhap chuoi a:’); readln(a); writeln(‘nhap chuoi p:’); readln(p); end; procedure result; Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 11 . 10 1’0 01 11 10 1’0 01 11 5 3 10 1’0 01 11 1 01 0 01 11 6 1 1 01 0 01 11 1 01 0 01 11 7 2 10 1’0 01 11 1 01 0 01 11 8 10 1’0 01 11 10 1’0 01 11 Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 11 Số lần. =10 p : 10 1'00 .1& apos ;11 j =8 Các bước sẽ được thể hiện trong bảng sau : j next[j] chuỗi 2 1 1 01 0 01 11 (p) 10 1’0 01 11 (p1) 3 1 1 01 0 01 11 10 1’0 01 11 4 2 10 1’0 01 11 10 1’0 01 11 . tiên a=’ 010 110 10 011 10 011 1 010 111 00’ p=’ 010 011 ’ d. Phân tích giải thuật Trường hợp xấu nhất của giải thuật này là trường hợp cả hai chuỗi p và a đều gồm các số 0 và kết thúc là số 1. Khi đó