Qua luận văn này, chúng tôi đã trình bày những tìm hiểu nghiên cứu về các thành phần của một hệ thống tìm kiếm Web và bước đầu chúng tôi trình bày quá trình tự xây dựng một công cụ tìm kiếm cho MP3. Một hệ thống tìm kiếm là bao gồm nhiều thành phần và mỗi thành phần đều khá phức tạp. Để làm nên một hệ thống tìm kiếm tốt, cần phải có nhiều người và có nhiều nghiên cứu về tất cả các thành phần của một hệ tìm kiếm vì ở mỗi thành phần ấy đều có rất nhiều bài toán đặt ra để giải quyết. Chúng tôi cho rằng muốn nâng cao chất lượng của kết quả tìm kiếm ta chỉ có cách làm tốt và liên tục cải tiến từng thành phần của cả hệ thống, cần phải đưa ra những giải pháp nhanh hơn, chính xác hơn với từng thành phần của hệ thống mà thôị

Chúng tôi đã áp dụng những kiến thức ấy với dữ liệu Mp3 và chúng tôi thấy nó dễ dàng hơn là dữ liệu Web rất nhiềụ Có hiện tượng như vậy bởi vì tuy rằng tìm kiếm Mp3 là một bài toán tìm kiếm đầy đủ nhưng do dữ liệu Mp3 là rất nhỏ so với dữ liệu Web nên chúng tôi không phải giải quyết các bài toán rất khó của Web về tổ chức dữ liệu, tìm kiếm…Từ đó chúng tôi đưa ra kết luận là bài toán tìm kiếm với từng loại loại dữ liệu khác nhau sẽ có những cách giải quyết khác nhaụ Những đánh giá về chương trình chúng tôi đã trình bày ở mục 3.2.5 nằm ngay trước phần kết luận.

Sau khi tự mình xây dựng một Search Engine nhỏ, đề tài này đã giúp tôi thu được những kiến thức vô cùng quý báu về một lĩnh vực khá hấp dẫn là tổ chức và khai phá dữ liệụ Chúng tôi tin tưởng rằng, việc tập hợp đầy đủ về lý thuyết tìm kiếm và chỉ ra những khó khăn của công việc tìm kiếm được trình bày ở chương 1 sẽ là tài liệu tham khảo cho nhiều người khi muốn tìm hiểu, nghiên cứu về bài toán tìm kiếm.


Với sản phẩm này, chúng tôi thấy là hoàn toàn có thể cải tiến thêm cho chương trình theo hướng hiểu ngôn ngữ Việt hơn nữa, hiểu truy vấn người Việt để có thể trả lời chính xác truy vấn người dùng.

Chẳng hạn, trong trường hợp người dùng muốn tìm “Trịnh Công Sơn” thì chương trình phải hiểu đó là tên của nhạc sỹ chứ không phải là một bài hát có từ “Trịnh Công Sơn” trong đó.

Nâng cao hơn nữa, khi người sử dụng muốn truy vấn là “nhạc Trịnh” thì ý của người dùng là muốn có kết quả là nhạc do “Trịnh Công Sơn” sáng tác hoặc là những bài hát nổi tiếng của Trịnh Công Sơn. Nếu chúng ta đã có một WordNet tiếng Việt mà trong đó sự liên quan giữa 2 từ khóa này là rất cao thì ta có thể suy ra từ khóa này từ từ khóa kiạ

Trong trường hợp người sử dụng gõ truy vấn là “Trịnh Côn Sơn” thì chương trình cũng phải hiểu đó là người dùng gõ sai, kết quả chương trình vẫn phải truy vấn tên là “Trịnh Công Sơn”.

Muốn có những kết quả tốt hơn như vậy, chúng tôi cho rằng cần phải đầu tư nhiều thời gian hơn nữa vào việc nghiên cứu những Module tiếng Việt và phần Ranking kết quả.


Nguồn: http://vịwikipediạorg/wiki/S%E1%BA%AFp_x%E1%BA%BFp_vun_ %C4%91%E1%BB%91ng

Đống (Heap)

Mỗi mảng a[1..n] có thể xem như một cây nhị phân gần đầy (có trọng số là các

giá trị của mảng), với gốc ở phần tử thứ nhất, con bên trái của đỉnh a[i] là a[2*i] con

bên phải là a[2*i+1] (nếu mảng bắt đầu từ 1 còn nếu mảng bắt đầu từ 0 thì 2 con là

a[2*i+1] và a[2*i+2] ) (nếu 2*i<=n hoặc 2*i+1<=n, khi đó các phần tử có chỉ số lớn

hơn không có con, do đó là lá).

Ví dụ mảng (45, 23, 35, 13, 15, 12, 15, 7, 9) là một đống

Môt cây nhị phân, được gọi là đống cực đại nếu khóa của mọi nút không nhỏ

hơn khóa các con của nó. Khi biểu diễn một mảng a[] bởi một cây nhi phân theo thứ

tự tự nhiên điều đó nghĩa là a[i]>=a[2*i] và a[i]>=a[2*i+1] với mọi i =1..int(n/2). Ta

cúng sẽ gọi mảng như vậy là đống. Như vậy trong đống a[1] (ứng với gốc của cây) là

phần tử lớn nhất. Mảng bất kỳ chỉ có một phần tử luôn luôn là một đống.

Một đống cực tiểu được định nghĩa theo các bất đẳng thức ngược lại:

a[i]<=a[2*i] và a[i]<=a[2*i+1]. Phần tử đứng ở gốc cây cực tiểu là phần tử nhỏ nhất.

Vun đống

Việc sắp xếp lại các phần tử của một mảng ban đầu sao cho nó trở thành đống

được gọi là vun đống.

Nếu hai cây con gốc 2 * i và 2 * i + 1 đã là đống thì để cây con gốc i trở thành

đống chỉ việc so sánh giá trị a[i] với giá trị lớn hơn trong hai giá trị a[2 * i] và

a[2 * i + 1], nếu a[i] nhỏ hơn thì đổi chỗ chúng cho nhaụ Nếu đổi chỗ cho a[2 *

i], tiếp tục so sánh với con lớn hơn trong hai con của nó cho đên khi hoặc gặp

đỉnh lá. (Thủ tục DownHeap trong giả mã dưới đây)

Vun một mảng thành đống

Để vun mảng a[1..n] thành đống ta vun từ dưới lên, bắt đầu từ phần tử a[j]với j

=Int(n/2) ngược lên tới a[1]. (Thủ tục MakeHeap trong giả mã dưới đây)

Sắp xếp bằng vun đống

Đổi chỗ (Swap): Sau khi mảng a[1..n] đã là đống, lấy phần tử a[1] trên đỉnh

