Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
0,93 MB
Nội dung
Luận văn tốt nghiệp
Một sốgiảiphápchobàitoántìm
kiếm trongCSDLHypertext
Một sốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext
Phạm Thị Thanh Nam Luậnvăn cao học
1
Phần mở đầu.2
Chơng I. Tổng quan về web-mining 9
1.1 Giới thiệu về cơ sở dữ liệu Fulltext và Hypertext 9
1.1.1 Cơ sở dữ liệu Fulltext 9
1.1.2 Cơ sở dữ liệu Hypertext 12
1.1.3 So sánh đặc điểm của dữ liệu Fulltext và dữ liệu trang web 15
1.2 Tổng quan về phơng pháp biểu diễn văn bản trong cơ sở dữ liệu trang web 16
1.2.1 Giới thiệu sơ bộ về các phơng pháp biểu diễn trang web 17
1.2.2 Cách tiếp cận theo web site 19
Kết luận chơng một 28
Chơng II. Mộtsố phơng pháp biểu diễn trang web và giảipháp kết
hợp. 29
2.1 Phơng pháp biểu diễn trong các máy tìmkiếm 30
2.1.1 Cấu trúc cơ bản và hoạt động của một máy tìmkiếm 31
2.1.2 Phơng pháp biểu diễn dữ liệu trong các máy tìmkiếm 34
2.2 Phơng pháp biểu diễn trang web theo mô hình vector 45
2.2.1 Phơng pháp biểu diễn vector 45
2.2.2 Phơng pháp biểu diễn trang web theo mô hình vector 48
2.3 Đề xuất giảipháp biểu diễn vector trong máy tìmkiếm 55
Kết luận chơng 2 59
Chơng III. máy tìmkiếm vietseek và thử nghiệm Thuật toántìmkiếm
theo nội dung 61
3.1 Máy tìmkiếm VietSeek 61
3.1.1 Các đặc điểm cơ bản của Vietseek 61
3.1.2 Cơ sở dữ liệu của Vietseek 62
3.2 Đề xuất thuật toántìmkiếm mới cho máy tìmkiếm VietSeek 69
3.2.1 Những cơ sở để đề xuất thuật toán 69
3.2.2 Thuật toán 71
Kết luận chơng 3 74
Phần kết luận75
tài liệu tham khảo.77
Một sốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext
Phạm Thị Thanh Nam Luậnvăn cao học
2
Phần mở đầu
Trong những năm gần đây, trên cơ sở phát triển và ứng dụng công nghệ Internet,
khối lợng dữ liệu trên máy tính đã tăng trởng không ngừng theo cả hai phơng diện
tạo mới và thu thập. Sự mở rộng các dữ liệu khoa học về địa lý, địa chất, khí tợng do
vệ tinh thu thập, sự giới thiệu quảng bá mã vạch đối với hầu hết các sản phẩm thơng
mại, việc tin học hoá sâu rộng các thơng vụ và giao dịch, sự phát triển việc ứng dụng
CNTT trong quản lý hành chính nhà nớc đã phát sinh ra một khối lợng dữ liệu
khổng lồ. Mặt khác, trong bối cảnh nền tảng chomột xã hội thông tin, nhu cầu nhận
đợc thông tin một cách nhanh chóng, chính xác cũng nh nhu cầu thu nhận đợc "tri
thức" từ khối lợng thông tin khổng lồ nói trên đã trở nên cấp thiết. Bối cảnh đó đã đòi
hỏi những phơng pháp tiếp cận mới mà trong đó điển hình nhất là các phơng pháp
thuộc lĩnh vực khai phá dữ liệu và khám phá tri thức trong các cơ sở dữ liệu [7,9]. Sự
tăng trởng hàng năm về số lợng công trình đợc công bố, về hội thảo khoa học quốc
tế liên quan đến việc nghiên cứu, giải quyết từng bớc nhiều bàitoán điển hình thuộc
lĩnh vực này đã thể hiện đầy đủ sự phát triển vợt bậc của lĩnh vực nói trên. Các bài
toán biểu diễn dữ liệu, lu trữ dữ liệu, tìmkiếm dữ liệu, phân lớp dữ liệu, phân cụm dữ
liệu [2-4,6,8-14] là những bàitoán điển hình nhất.
Trong xu thế tăng trởng không ngừng nguồn dữ liệu, thông qua sự phát triển của
công nghệ Web, dạng dữ liệu phi cấu trúc và nửa cấu trúc (điển hình là hệ thống các
trang web trên Internet) càng tăng trởng theo tốc độ nhảy vọt. Đây là dạng dữ liệu gần
nhất với con ngời, mà qua chúng con ngời mong muốn lu trữ thông tin, tri thức hoặc
chuyển tải nó cho nhiều ngời khác. Trong những năm gần đây WWW đã trở thành
một kênh thông tin quan trọng nhất cho việc phân tán các thông tin về cá nhân, khoa
học và thơng mại. Một lý do của việc WWW phát triển nhanh chóng là giá cả cho việc
tạo và xuất bản các trang web rất rẻ. So sánh với các phơng pháp khác nh sản xuất tờ
rơi hay quảng cáo trên báo và tạp chí thì trang web rẻ hơn rất nhiều và lại đợc cập nhật
thờng xuyên hơn đến hàng tỷ ngời sử dụng, vì vậy mà ngay cả các công ty rất nhỏ
cũng có khả năng đa các sản phẩm và dịch vụ của họ lên WWW. Hơn nữa có rất nhiều
Một sốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext
Phạm Thị Thanh Nam Luậnvăn cao học
3
các công ty hoạt động bán hàng trực tuyến trên Internet, vì vậy mà nhu cầu đa các
thông tin lên WWW là hoàn toàn tự nhiên. Nhng với việc tăng không ngừng các site
thì việc tìm ra một trang hay thậm chí một site mà mỗi cá nhân đang cần lại thực sự là
một vấn đề ngày càng khó khăn.
Việc nghiên cứu các bàitoán liên quan đến hệ thống các dữ liệu dạng này (biểu
diễn văn bản, tìmkiếm và phân lớp văn bản) cùng với việc đề xuất những giảipháp đối
với các bàitoán đó luôn là những vấn đề khoa học và công nghệ thời sự [1-4,6,8-14].
Chẳng hạn, vấn đề phát hiện ra một website mới thực sự thú vị cho ngời sử dụng là
một vấn đề cha đợc quan tâm đúng mức. Các hệ tìmkiếm trên Internet hiện nay nh
Yahoo, Altavista, Google là những hệ triển khai để giải quyết bàitoántìmkiếm và
đợc sử dụng khá phổ biến hiện nay. Tuy nhiên vẫn còn có các vấn đề cha thoả mãn
đợc nhu cầu thực tế của ngời sử dụng. Đó là khi sử dụng dịch vụ tìmkiếm trên các
site này thì chỉ có thể tìm đợc các trang thông tin theo những điều kiện tìmkiếm hết
sức giản đơn. Thêm vào đó, có rất nhiều trờng hợp mục từ là không trọn vẹn và đôi khi
quá hạn vì không đợc cập nhật thờng xuyên. Hơn nữa các dịch vụ tìmkiếm này
không cung cấp tất cả các lĩnh vực chuyên sâu hơn, nhất là các lĩnh vực hẹp chomộtsố
ngời sử dụng đặc biệt. Các hệ này cũng cha cho phép khai thác những thông tin truy
nhập của ngời sử dụng vì vậy không có cơ chế phản hồi thông tin để sử dụng kết quả
tìm kiếm trớc đây vào lần tìmkiếm tiếp theo. Cơ chế này là cần thiết vì làm đợc nh
vậy hiệu quả và độ chính xác tìmkiếm chắc chắn đợc nâng cao. Mộtvấn đề nữa là các
hệ tìmkiếm này thờng xử lý các yêu cầu tìmkiếm dới dạng các từ khoá tìm kiếm.
Khi có nhiều hơn một từ khoá thì hệ tìmkiếm xử lý các từ khoá này theo cùng một
cách thức mà không có cơ chế cho phép ngời sử dụng xác định độ quan trọng khác
nhau cho các từ khoá tìm kiếm. Cũng nh vậy, các hệ tìmkiếm điển hình hiện nay cha
quan tâm đến vấn đề đồng nghĩa và đa nghĩa của từ khóa, vì vậy trong quá trình tìm
kiếm có thể đã bỏ qua rất nhiều các kết quả tìm kiếm. Nhiều nghiên cứu liên quan đã
đề xuất mộtsố phơng pháp biểu diễn văn bản cho phép thi hành đợc những khía cạnh
đã đề cập trên đây [2-4,8-14].
Một sốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext
Phạm Thị Thanh Nam Luậnvăn cao học
4
Từ việc tìm hiểu và phân tích u, nhợc điểm của các phơng pháp tiếp cận khác
nhau, dựa trên ý tởng nâng cao hiệu quả tìm kiếm, luậnvăn đề cập việc sử dụng mô
hình vector biểu diễn trang web trong các máy tìmkiếm để cho phép dễ dàng bổ sung
trọng sốcho các từ khoá tìmkiếm và tăng cờng đợc ngữ nghĩa nội dung văn bản vào
quá trình tìm kiếm.
Với mục tiêu đề xuất một phơng pháp biểu diễn vector cho các trang web trong
các máy tìmkiếm để nâng cao hiệu quả tìm kiếm, nội dung của luậnvăn đợc định
hớng vào các vấn đề sau:
- Giới thiệu, phân tích và đánh giá mộtsố phơng pháp biểu diễn trang web điển
hình,
- Trên cơ sởmộtsố phơng pháp biểu diễn văn bản trang web theo mô hình
vector, luậnvăn nghiên cứu việc cải tiến các phơng pháp biểu diễn đó để nhận đợc
một phơng pháp mới biểu diễn trang web,
- Nghiên cứu, đề xuất việc bổ sung thêm biểu diễn vector cho trang web trong các
máy tìmkiếm theo phơng pháp mới, đồng thời bổ sung chức năng tìmkiếm trang Web
"theo nội dung" cho hệ tìmkiếm Vietseek.
Luận văn bao gồm Phần mở đầu, ba chơng nội dung và Phần kết luận mà nội
dung các chơng đợc trình bày nh dới đây.
Chơng 1 với tiêu đề là Tổng quan về web-mining giới thiệu sơ bộ những nội
dung tổng quan nhất về cơ sở dữ liệu Fulltext, cơ sở dữ liệu Hypertext, cơ sở dữ liệu
trang web và phơng pháp biểu diễn vector. Trong chơng này cách tiếp cận theo
website đợc trình bày khá chi tiết về cả khía cạnh biểu diễn website lẫn giảiphápcho
bài toántìmkiếm theo website. Luậnvăn còn đề xuất một thuật toán xây dựng cây
website theo cách tiếp cận này.
Tiêu đề của chơng 2 là Mộtsố phơng pháp biểu diễn dữ liệu web và giảipháp
kết hợp. Nội dung của chơng này xem xét và đánh giá mộtsố ph
ơng pháp biểu diễn
trang web điển hình. Đầu tiên luậnvăn giới thiệu về biểu diễn trang web trong các máy
tìm kiếm, sau đó luậnvăn giới thiệu cách tiếp cận theo mô hình vector để biểu diễn
Một sốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext
Phạm Thị Thanh Nam Luậnvăn cao học
5
trang web và một đề xuất về một cách biểu diễn trang web. Phần cuối cùng của chơng
này trình bày đề xuất của luậnvăn bổ sung cách biểu diễn mới cho trang web vào máy
tìm kiếm và sơ bộ về thuật toántìmkiếm theo nội dung.
Chơng 3 Máy tìmkiếm VietSeek và thử nghiệm thuật toántìmkiếm theo nội
dung giới thiệu chi tiết về máy tìmkiếm VietSeek, thiết kế lôgic về dữ liệu theo biểu
diễn vector và thuật toántìmkiếm theo nội dung trên cơ sở do luậnvăn đề xuất.
Phần kết luận tổng hợp những kết quả nghiên cứu chính của luận văn, chỉ ra một
số hạn chế cha hoàn thiện cài đặt thực sự. Đồng thời luậnvăn cũng đề xuất mộtsố
hớng nghiên cứu cụ thể tiếp theo của tác giả luận văn.
Một sốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext
Phạm Thị Thanh Nam Luậnvăn cao học
6
Lời cảm ơn
Em xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới Thầy giáo Tiến sĩ Hà Quang
Thuỵ, ngời đã tận tình hớng dẫn luậnvăncho em.
Em xin cảm ơn các Thầy Cô trong khoa Công nghệ, Đại học Quốc Gia Hà Nội,
và nhóm Xemina chuyên môn "Data Mining và KDD" thuộc bộ môn Các Hệ thống
Thông tin, khoa Công nghệ, những ngời đã giúp đỡ cho em trong suốt quá trình học
tập và nghiên cứu, đặc biệt là các bạn Bùi Quang Minh và Đoàn Sơn.
Em xin bày tỏ lòng biết ơn sâu sắc tới gia đình, các đồng nghiệp ở Viện Công
nghệ Thông tin, Đại học Quốc gia Hà Nội, và các bạn bè đã giúp đỡ và động viên em
trong suốt quá trình học tập, nghiên cứu và làm việc.
H
à Nội ngày 15/04/2003
Học viên
Phạm Thị Thanh Nam
Một sốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext
Phạm Thị Thanh Nam Luậnvăn cao học
7
bảng chú giảimộtsố cụm từ viết tắt
CSDL: Cơ sở dữ liệu (DataBase)
CNTT: Công nghệ thông tin (Information Technology)
kNN: k Nearest Neighbour
KPDL: Khai phá dữ liệu (Data Mining)
KPTTCSDL: Khám phá tri thức trongCSDL (Knowledge Discovery in Databases)
SVM: Support Vector Machine
WWW: Hệ thống trang Web (World Wide Web)
bảng chú giảimộtsố thuật ngữ tiếng việt
Bayes tự nhiên: Naive Bayes
k ngời láng giềng gần nhất: k Nearest Neighbour
Mạng nơron: Neural Net
Máy tìm kiếm: Search engine
Bộ điều khiển tìm duyệt: Crawl Control
Bộ tìm duyệt: Crawler
Bộ tạo chỉ mục: Indexer Module
Bộ phân tích tập: Collection Analysis Modele
Bộ truy vấn: Query Engine
Bộ xếp hạng: Ranking
Bộ phân tích URL: URLresolver
Chỉ mục cấu trúc: Structure Index
Chỉ mục liên kết ngợc: Inverted Index
Chỉ mục nội dung: Text Index
Chỉ mục tiện ích: Utility Index
Hạng hiển thị: Rank
Hạng trang web (Hạng): Page Rank
Kho trang web: Page Repository
Tải trang: Download
Máy vector trợ giúp: Support Vector Machine
Một sốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext
Phạm Thị Thanh Nam Luậnvăn cao học
8
Mô hình (không gian) vector: Vector (Space) Model
Siêu liên kết: Hyperlink
Siêu văn bản: Hypertext
Tìm kiếm theo nội dung: text-based retrieval
Trang web: web page, HTML page, HTML document
Một sốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext
Phạm Thị Thanh Nam Luậnvăn cao học
9
1 Chơng I. Tổng quan về web-mining
1.1 Giới thiệu về cơ sở dữ liệu Fulltext và Hypertext
1.1.1 Cơ sở dữ liệu Fulltext
Giới thiệu chung
Cơ sở dữ liệu Fulltext là cơ sở dữ liệu phi cấu trúc mà dữ liệu chứa trong đó bao
gồm các nội dung text và các thuộc tính về tài liệu văn bản với nội dung đó. Dữ liệu
trong cơ sở dữ liệu Fulltext thờng đợc tổ chức nh một sự kết hợp giữa hai phần:
phần cơ sở dữ liệu thông thờng quản lý thuộc tính của các tài liệu, và phần tập hợp nội
dung các tài liệu đợc quản lý. Chúng ta có thể hình dung một cơ sở dữ liệu Fulltext
đợc tổ chức nh sau:
Trong những trờng hợp phổ biến, nội dung tài liệu đợc lu giữ gián tiếp trong
cơ sở dữ liệu theo nghĩa hệ thống chỉ quản lý các con trỏ (địa chỉ ) trỏ tới các địa chỉ
chứa nội dung tài liệu (một ví dụ dễ thấy nhất là mạng Internet, các trang web thờng
lu giữ các địa chỉ chỉ tới nơi có lu nội dung các trang thông tin cụ thể mà ngời sử
dụng muốn xem). Còn các con trỏ (địa chỉ) và các thuộc tính khác về nó thì đợc lu
trực tiếp trong cơ sở dữ liệu bằng hệ quản trị có cấu trúc.
Cơ sở dữ liệu Fulltext
CSDL về thuộc tính tài liệu Tập hợp nội dung các tài liệu
H
ình 1.1
M
ô hình tổ chức của cơ sở dữ liệu Fulltext
[...]... phơng pháp biểu diễn trang web đơn là đối tợng nghiên cứu của luậnvăn mà sẽ đợc khảo sát kỹ lỡng trong các chơng sau của luận văn, nên trong phần dới đâyluận văn trình bày một cách sơ lợc những nội dung này Phạm Thị Thanh Nam Luậnvăn cao học 17 MộtsốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext 1.2.1 Giới thiệu sơ bộ về các phơng pháp biểu diễn trang web Phơng pháp biểu diễn trang web trong. .. trang web trong các máy tìmkiếmTrong hầu hết các máy tìmkiếm hiện nay đều không sử dụng mô hình vector để biểu diễn các trang web Nhằm giải quyết bàitoántìmkiếm theo cụm từ, các máy tìmkiếm hiện nay sử dụng phơng pháp biểu diễn văn bản trang web theo xâu các từ khóa xuất hiện trongvăn bản đó Trongmộtsốtrờng hợp, để phục vụ cho việc tìmkiếm nhanh các văn bản chứa một từ do ngời dùng đa vào,... cho website Theo phơng pháp này, mỗi một website tơng ứng với một vector có số thành phần (số chiều) bằng số lợng chủ đề trong tập chủ đề đã đợc khám phá (trong ví dụ Phạm Thị Thanh Nam Luậnvăn cao học 25 MộtsốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext nói trên, vector biểu diễn website có 10 thành phần) Mỗi thành phần của vector biểu diễn website có giá trị số là số lợng các trang web... website chomột website Chúng tôi đề xuất thuật toán cụ thể sau đây (Thuật toán 1.1) nhằm giải quyết bàitoán xây dựng cây website T tởng của thuật toán dựa trên quá trình "loang" dần các trang web trong website đó Mặt khác, các URL chỉ dẫn tới trang web không thuộc website nói trên đợc bỏ qua Phạm Thị Thanh Nam Luậnvăn cao học 27 MộtsốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext Thuật toán. ..10 MộtsốgiảiphápchobàitoántìmkiếmtrongCSDLHypertext Tuy nhiên, trongmộtsốtrờng hợp (đặc biệt là đối với các máy tìmkiếm trên Internet nh Yahoo, Google, AltaVista ), để cung cấp nội dung văn bản nhanh chóng, ngời ta lại tổ chức lu trữ các văn bản ngay trong hệ thống (dới dạng vùng cache) Nội dung của dữ liệu Fulltext (văn bản) không có cấu trúc nội tại, đợc coi nh một là dãy các... học 18 Một sốgiảipháp cho bàitoántìmkiếmtrongCSDLHypertext trang đó và lu trữ để làm cơ sởcho việc tìmkiếm theo nội dung Trong khi phân tích các từ trong trang web thì các máy tìmkiếm đều ghi lại các thông tin chung nhất về từ nh: vị trí xuất hiện trong trang, chữ hoa hay chữ thờng nên có thể sử dụng đợc các thông tin tiềm ẩn mà ngời viết các trang web đó muốn diễn đạt Các máy tìmkiếm còn... gần với nội dung của trang web hiện thời vào máy tìmkiếm Phạm Thị Thanh Nam Luậnvăn cao học 29 Một sốgiảipháp cho bàitoántìmkiếmtrongCSDLHypertext 2 Chơng II Mộtsố phơng pháp biểu diễn trang web và giảipháp kết hợp Biểu diễn dữ liệu là một công việc rất quan trọng đối với các bàitoántìm kiếm, lu trữ, phân lớp hay phân cụm dữ liệu Bất cứ là công việc gì thực hiện với dữ liệu thì vấn đề... tiến các phơng pháp biểu diễn của Seán Slattery, chúng tôi cũng đề xuất bổ sung thêm một phơng pháp biểu diễn khác Mộtsố tác giả khác đa ra cách cải tiến định hớng vào việc cách liệt kê thêm các từ khóa từ các trang web láng giềng bằng cách chỉ bổ sung các từ khóa xuất hiện trong Phạm Thị Thanh Nam Luậnvăn cao học 19 Một sốgiảipháp cho bàitoántìmkiếmtrongCSDLHypertext đoạn văn bản lân cận... trang Fulltext Phạm Thị Thanh Nam Luậnvăn cao học 16 Một sốgiảipháp cho bàitoántìmkiếmtrongCSDLHypertext 1.2 Tổng quan về phơng pháp biểu diễn văn bản trong cơ sở dữ liệu trang web Cùng với sự phát triển nhanh chóng của số lợng các trang web trên mạng máy tính toàn cầu Internet, cũng nh số lợng ngời dùng mạng Internet trong những năm gần đây thì việc xử lý văn bản trang web cũng nhận đợc mối... Phạm Thị Thanh Nam Luậnvăn cao học 23 Một sốgiảipháp cho bàitoántìmkiếmtrongCSDLHypertext Cách đơn giản nhất để phân lớp website là mở rộng phơng pháp phân lớp trang web sao cho phù hợp với định nghĩa về website Cách đơn giản là chỉ cần xây dựng các vector đặc trng đơn để đếm tần số các từ trong tất cả các trang web nằm trongtoàn bộ website, nghĩa là có thể coi website là một siêu trang (superpage) .
Luận văn tốt nghiệp
Một số giải pháp cho bài toán tìm
kiếm trong CSDL Hypertext
Một số giải pháp cho bài toán tìm kiếm trong CSDL. Đồng thời luận văn cũng đề xuất một số
hớng nghiên cứu cụ thể tiếp theo của tác giả luận văn.
Một số giải pháp cho bài toán tìm kiếm trong CSDL Hypertext