Các nghiên cứu về tìm kiếm Web đã bắt đầu từ những năm 1990. Cùng với sự cải tiến không ngừng của các công cụ tìm kiếm Web, các thuật toán tính hạng trang cũng nhận được sự quan tâm sâu sắc tại các hội nghị quốc tế. Sự ra đời của thuật toán PageRank [30] đã đánh dấu một bước phát triển nhảy vọt của các máy tìm kiếm Web mà điển hình của nó là Google, một trong số các máy tìm kiếm hàng đầu hiện nay. Kéo theo đó là sự ra đời của một loạt các thuật toán tính hạng trang khác [9] [23] [32] [35] nhằm cải tiến thuật toán PageRank.
Phần lớn các nghiên cứu tìm kiếm Web là tập trung vào tìm kiếm các trang Web (tài liệu dạng văn bản) và chỉ một số ít trong đó là về tìm kiếm các thông tin đa phương tiện trên Web (ảnh, video, MP3…). Tuy nhiên, trong những năm gần đây, vấn đề tìm kiếm và xếp hạng các đối tượng đa phương tiện trên Web (đặc biệt là vấn đề tìm kiếm và xếp hạng ảnh) đang trở thành một vấn đề thu hút được rất nhiều sự quan tâm của các nhà khoa học trên thế giới. Bằng chứng là ngày càng có nhiều các công trình nghiên cứu về các thuật toán tính hạng ảnh được công bố [17] [29] [30] [34] [36] [38] [39][40]. Bên cạnh đó là sự ra đời của các máy tìm kiếm ảnh và các máy tìm kiếm thông thường cũng có xu hướng tích hợp thêm dịch vụ tìm kiếm ảnh.
Một hướng phát triển mới cho các máy tìm kiếm Web đang rất được chú ý đó là các máy tìm kiếm lớp trên (Meta-search engine). Đã có một số công trình nghiên cứu về máy tìm kiếm lớp trên [11] [14] [18] [28] được công bố cũng như đã có một số máy tìm kiếm lớp trên (Dogpile, Clussty, KartOO, Google CSE…) được mang vào sử dụng trong thực tiễn. Tuy nhiên, những công cụ tìm kiếm này vẫn chưa mang lại được thành tựu nổi bật và chưa cạnh tranh được với Google.
Ở Việt Nam, nghiên cứu và ứng dụng tìm kiếm và xếp hạng Web cũng đang nhận được nhiều sự quan tâm. Hiện tại, cũng có một số công ty làm về máy tìm kiếm như Bamboo, Zing, Xalo, Socbay…. Thứ trưởng Bộ TT-TT Nguyễn Minh Hồng1 cho rằng, các máy tìm kiếm trực tuyến ra đời là sự đóng góp lớn cho nền công nghiệp
21
CNTT Việt Nam. Tuy nhiên, những sản phẩm này vẫn chưa thể vượt qua các công cụ tìm kiếm của các “đại gia” nước ngoài trên thị trường nội địa. Theo ông Lê Ngọc Quang1, Giám đốc Phát triển Kinh doanh và Công nghệ của IDG Ventures Vietnam, công cụ tìm kiếm của Việt Nam hiện nay gần như bỏ không, không tạo doanh thu, rất ít người dùng và như vậy là một sự lãng phí. Ngoài các máy tìm kiếm còn có một số công trình nghiên cứu về tìm kiếm và xếp hạng đã được công bố. Một số công trình nghiên cứu bước đầu như cải tiến thuật toán tính hạng trang của Nguyễn Hoài Nam [2], mô hình học xếp hạng của Nguyễn Thu Trang [4], xây dựng công cụ tìm kiếm MP3 cho tiếng Việt của Nguyễn Hoàng Trung [5].
Công trình nghiên cứu của Nguyễn Hoài Nam [2] dựa trên cơ sở một số phương pháp tìm kiếm và xếp hạng trang cơ bản, từ đó đưa ra những đề xuất cải tiến cho thuật toán PageRank theo chủ đề. Phương pháp mà [2] đưa ra là gán các giá trị quan trọng khác nhau đối với các liên kết để làm chính xác hơn các kết quả tìm kiếm. Cụ thể như những liên kết từ các trang trong cùng chủ đề đối với trang được liên kết có thể mang tới cho trang đó giá trị nhiều hơn những trang không nằm trong cùng chủ đề. Phương pháp này đã được áp dụng thử nghiệm cho máy tìm kiếm Vietseek và bước đầu đã mang lại hiệu quả.
Một nghiên cứu khác cũng về vấn đề xếp hạng là nghiên cứu về học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu của Nguyễn Thu Trang [4]. Công trình của [4] thực hiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện nay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể trong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãn cho cụm tài liệu. Các kết quả thu được đã chứng minh vai trò và hiệu quả của học xếp hạng áp dụng vào máy tìm kiếm.
Nguyễn Hoàng Trung [5] đã tiến hành xây dựng thử nghiệm một thành phần tìm kiếm MP3 cho tiếng Việt cho máy tìm kiếm Socbay. Hệ thống này tìm kiếm các file MP3 dựa vào các trường mô tả file. Phần mềm tìm kiếm này cho kết quả tương đối chính xác đối với cả những tìm kiếm tiếng Việt không dấu và có dấu trong thời gian cho phép.
Qua quá trình tìm hiểu về tình hình nghiên cứu trong và ngoài nước, nhận thấy yêu cầu của thực tế đặt ra là rất cần thiết và cấp bách, trong khóa luận này, tôi tập trung nghiên cứu về các thuật toán tính hạng ảnh và sau đó áp dụng vào việc xây dựng
22
một mô hình máy tìm kiếm lớp trên thử nghiệm cho ảnh. Tôi tin rằng những nghiên cứu của mình là rất thiết thực và sẽ là nền tảng cho những nghiên cứu tiếp theo của mình.
Tóm tắt chương một
Trong chương một, khóa luận đã tập trung khảo sát, phân tích một số thuật toán tính hạng trang điển hình đang được sử dụng rộng rãi hiện nay. Đồng thời khóa luận cũng đã trình bày sơ bộ về vấn đề xếp hạng đối tượng nói chung và xếp hạng ảnh nói riêng. Trong chương tiếp theo, khóa luận sẽ giới thiệu chi tiết hơn về các thuật toán tính hạng ảnh theo nội dung hiển thị.
23
Chương 2. Một số thuật toán tính hạng ảnh phổ biến