Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,13 MB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Lê Mạnh Hùng
Tra CứuVănBảnTiếngViệtDựaTrênKỹThuậtPhânCụm
Chuyên Ngàng: Truyền Dữ Liệu Và Mạng Máy Tính
Mã số: 10B60.48.15-0079
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2012
Luậnvănđượchoànthànhtại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Ngườihướngdẫnkhoahọc: TS Nguyễn Hữu Quỳnh
Phảnbiện 1: ………………………………………………………………
Phảnbiện 2: ………………………………………………………………
LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưu
chínhViễnthông
Vàolúc: giờ ngày tháng năm
Cóthểtìmhiểuluậnvăntại:
- ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông
1
MỞ ĐẦU
Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên
mọi lĩnh vực. Hằng ngày có hàng triệu văn bản, trang web được đưa lên hệ thống
máy chủ, làm phong phú hệ thống tài nguyên khổng lồ này. Tuy nhiên, chúng ta
không thể sử dụng thông tin trong hệ thống thông tin khổng lồ này nếu không tổ chức
và khai thác nguồn tài nguyên này hiệu quả.
Kỹthuậttracứu thông tin đã và đang được nghiên cứu, phát triển trong nhiều
lĩnh vực khác nhau như y tế, giáo dục, kinh tế Những kiến thức liên quan đến tra
cứu thông tin là rất rộng và tổng hợp, bao gồm thuật toán, cấu trúc dữ liệu, cơ sở dữ
liệu, các hệ thống phân tán, tính toán song song, tổ chức tệp (file), khai phá dữ liệu
(data mining). Do đó, việc nghiên cứu về tracứu thông tin sẽ rất hữu ích.
Các nghiên cứu đối với tiếng Anh đã có một số công trình công bố và một số
hệ thống được đưa vào ứng dụng []. Tuy nhiên đối với tiếng Việt, hiên nay chỉ có một
số các công trình được công bố [9,10,19] mà chưa có ứng dụng cụ thể đối với tracứu
tiếng Việt. Vấn đề này chính là động lực để luận văn chọn đề tài “Tra cứuvănbản
tiếng Việtdựatrênkỹthuậtphân cụm”. Các đóng góp của luận văn
- Nghiên cứu, cải tiến một số phương pháp tracứu đối với vănbảntiếng
Anh áp dụng cho tiếng Việt.
- Sử dụng kỹthuật xử lý ngôn ngữ tự nhiên nhằm nâng cao hiệu năng của
hệ thống tracứuvănbảntiếng Việt.
- Trên cơ sở phương pháp đã được nghiên cứu, luận văn tiến hành xây
dựng hệ thống tracứu thông tin và ứng dụng trong tracứu thông tin tiếng Việt.
Cấu trúc luận văn gồm có ba chương:
Chương 1: Giới thiệu tổng quan về tracứuvăn bản.
Chương 2: Trình bày kỹthuậttracứu thông tin sử dụng kỹthuậtphân cụm.
Chương 3: Trình bày hệ thống tracứu thông tin và ứng dụng vào tracứu thông
tin tiếng Việt.
2
Chương 1. TỔNG QUAN VỀ TRACỨUVĂNBẢN
1.1 Tracứu thông tin
1.1.1 Giới thiệu
Tracứu thông tin là một nhánh của khoa học máy tính nhằm mục tiêu lưu trữ và cho
phép truy cập nhanh một lượng thông tin lớn. Thông tin này có thể là văn bản, đa phương
tiện hoặc âm thanh [14, 16]. Lược đồ một hệ thống tracứu thông tin được thể hiện như Hình
1. 1.
Hinh 1.1 Tổng quan hệ thống tracứu thông tin.
1.1.2 Các mô hình tracứu thông tin
Mô hình Boole vẫn là một mô hình được sử dụng phổ biến nhất trong các hệ thống
tra cứu thông tin thương mại. Mô hình này dựatrên lý thuyết tập hợp. Các tài liệu được biểu
diễn bởi các tập các thuật ngữ và chiến lược tìm kiếm Boole tracứu các tài liệu khối với
truy vấn (có giá trị true).
Mô hình không gian véc tơ dựatrên giải thích không gian của cả các truy vấn và các
tài liệu. Một cải tiến của biểu diễn tài liệu trên mô hình Boole thu được bởi việc kết hợp mỗi
thuật ngữ chỉ số với một giá trị số, gọi là trọng số thuật ngữ chỉ số, biểu thị độ quan trọng
mà thuật ngữ tổng hợp nội dung thông tin của tài liệu.
3
Mô hình xác suất [21] phân hạng các tài liệu theo thứ tự giảm dần của xác suất liên
quan của các tài liệu với nhu cầu thông tin của người sử dụng. 1.1.3 Một số phương pháp
tra cứu thông tin vănbản
1.1.3.1 Quét toàn bộ vănbản
Cách đơn giản nhất để định vị các tài liệu chứa xâu (thuật ngữ) tìm kiếm nào đó là
tìm kiếm tất cả các tài liệu với xâu được chỉ ra (kiểm tra xâu con). “Xâu” là một chuỗi các
ký tự. Nếu truy vấn là một biểu diễn Boole phức hợp bao gồm nhiều xâu tìm kiếm, chúng ta
cần thêm một bước để xác định các đối sánh thuật ngữ có được tìm thấy bởi các kiểmtra
chuỗi con thỏa mãn biểu diễn Boole hay không.
1.1.3.2 Các tệp dấu hiệu
Cách tiếp cận tệp dấu hiệu đã thu hút nhiều sự quan tâm. Trong phương pháp này,
mỗi tài liệu sinh ra một xâu bít (‘dấu hiệu’), sử dụng bảng băm trên các từ. Các dấu hiệu tài
liệu sinh ra được lưu trữ tuần tự trong một tệp rời rạc - tệp dấu hiệu (nhỏ hơn tệp gốc rất
nhiều) và có thể được tìm kiếm nhanh hơn nhiều.
1.1.3.3 Phép đảo
Mỗi tài liệu có thể được biểu diễn bởi một danh sách các từ (các từ khóa), mô tả các
nội dung tài liệu cho mục tiêu tra cứu. Tracứu nhanh có thể thu được nếu chúng ta đảo các
từ khóa đó. Các từ khóa được lưu trữ, theo thứ tự alphabet, trong tệp chỉ số; với mỗi từ khóa
chúng ta duy trì một danh sách các con trỏ đến các tài liệu đủ điều kiện. Phương pháp này
có trong hầu hết tất cả các hệ thống thương mại [21].
1.2 Các hệ thống tracứu thông tin dựa vào phâncụm
1.2.1 Các hệ thống tracứu thông tin dựa vào phâncụm
Tìm kiếm dựa vào phâncụm cần thỏa mãn một truy vấn hiệu quả bởi nhận biết và chỉ
tra cứu các cụm đó. Phâncụm cải tiến độ chính xác của tracứu như sinh ra kết quả tracứu
có số tài liệu liên quan cao [14,16].
1.2.2 Các phương pháp phâncụm
Phương pháp phâncụmphân cấp
Một thuật toán phân cấp có thể bắt đầu bởi xem xét tất cả các tài liệu như một cụm và
sau đó tách nó thành các cụm nhỏ hơn (phân cụm chia nhỏ). Thuật toán có thể bắt đầu với
các tài liệu riêng lẻ và nhóm chúng lại với nhau thành các cụm lớn hơn (phân cụm gộp).
4
Phâncụm Heuristic
Thuật ngữ “Heuristic” được sử dụng bởi các tác giả như Rijsbergen [22] đối với các
phương pháp mô tả nhận các phím tắt để thu được hiệu quả lớn hơn về mặt đòi hỏi không
gian và thời gian.
Phâncụm gia tăng
Các phương pháp gia tăng sử dụng một độ đo tương tự nhưng các phương pháp
không đòi hỏi các độ tương tự tính toán trước cho tất cả các cặp tài liệu. Tất cả các cặp tài
liệu chưa sẵn có khi khởi tạo, bởi theo xác định, các phương pháp phâncụm một dòng các
tài liệu đến. Các độ tương tự được tính toán bằng các tài liệu trong hệ thống phâncụm gia
tăng [22].
1.3 Đánh giá tracứu thông tin
1.3.1 Đánh giá hệ thống tracứu thông tin
Để đo độ chính xác tracứu thông tin theo cách chuẩn, chúng ta cần một tập kiểm tra
gồm ba thứ:
1. Một tập tài liệu
2. Một bộ kiểm tra nhu cầu thông tin, có thể biểu diễn như các truy vấn.
3. Một tập các đánh giá liên quan, một đánh giá nhị phân hoặc liên quan hoặc không
liên quan cho mỗi cặp tài liệu truy vấn.
Một tài liệu là liên quan nếu nó nói đến nhu cầu thông tin đã được nêu, không phải vì
nó vừa xảy ra để chứa tất cả các từ trong truy vấn. Điều khác biệt này thường bị hiểu lầm
trong thực hành, bởi vì nhu cầu thông tin không được công khai.
1.3.2 Các tập kiểm tra chuẩn
Đây là một danh sách các tập kiểm tra và các chuỗi đánh giá chuẩn. Chúng tôi tập
trung vào các tập kiểm tra cho đánh giá hệ thống tracứu thông tin đặc biệt, những cũng đề
cập đến một cặp tập kiểm tra tương tự cho phân lớp văn bản.
1.3.3 Đánh giá các tập tracứu không được phân hạng
Những thành phần này được cho trước, độ chính xác hệ thống đo như thế nào? Hai
độ đo cơ sở và thường được sử dụng nhất cho độ chính xác tracứu là triệu hồi và chính xác.
Đây là lần đầu tiên được xác định cho trường hợp đơn giản nơi một hệ thống tracứutrả về
một tập các tài liệu cho một truy vấn.
5
Độ chính xác của P - Precision (P) là phần của các tài liệu được tracứu có liên quan
cuu tra duoc muc cac sotong
cuu tra duoc quan lien muc cac so
Precision
(1-4)
Triệu hồi của R - Recall(R) là phần của các tài liệu liên quan được tracứu
cuu tra muc cac sotong
cuu tra duoc quan lien muc cac so
ecallR
(1-5)
Một độ đo mà khác dựatrên độ chính xác và triệu hồi là F measure, đó là trung bình
điều hòa có trọng số của chính xác và triệu hồi:
1)1(
1
)1(
1
1
2
2
2
do trong
RP
PR
Rp
F (1-8)
Hình 1.2 Biểu đồ so sánh trung bình điều hòa của các trung bình khác nhau
1.4 Đặc điểm của vănbảntiếngViệt
Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời
nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ
âm, từ vựng, ngữ pháp.
1.4.1 Đặc điểm ngữ âm
Trong tiếngViệt có một loại đơn vị đặc biệt gọi là "tiếng". Về mặt ngữ âm, mỗi tiếng là
một âm tiết.
6
1.4.2 Đặc điểm từ vựng
Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn
vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự
vật, hiện tượng , chủ yếu nhờ phương thức ghép và phương thức láy.
1.4.3 Đặc điểm ngữ pháp
Từ của tiếngViệt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ
pháp khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếngViệt rất coi trọng phương
thức trật tự từ và hư từ.
1.5 Kết luận chương 1
Trong chương này, luận văn đã trình bày về tổng quan về khai phá dữ liệu văn bản,
các phương pháp khai phá vănbản và các phương pháp, các kỹthuật và quy trình tracứu
văn bảntiếng việt. Ngoài ra ở chương 1 luận văn cũng trình bày về các đặc điểm của văn
bản tiếng việt. Từ những kiến thức tổng quan này chương hai luận văn sẽ lựa trình bày chi
tiết về trích rút vănbảntiếngviệt với một phương pháp cụ thể.
Chương 2. TRACỨUVĂNBẢNTIẾNGVIỆTDỰATRÊNKỸ
THUẬT PHÂN CỤM.
Trong chương này, luận văn giới thiệu các phương pháp biểu diễn văn bản, đồng thời
trình bày chi tiết một phương pháp biểu diễn vănbảntiếngViệt có sử dụng giảm chiều
vector. Dựatrên phương pháp biểu diễn này, luận văn sử dụng phương pháp phâncụmtiếng
Việt dựatrênthuật toán cây phân cấp và hệ thống tracứuvănbảntiếngViệtdựatrên tập dữ
liệu vănbảntiếngViệt đã được phân cụm.
2.1 Phương pháp biểu diễn vănbản
2.1.1 Khái niệm
Biểu diễn vănbản là phương pháp mô tả nội dung hoặc đặc trưng của vănbản [1].
Khi biểu diễn vănbản dưới dạng véc tơ, người ta thường sử dụng thành phần véc tơ biểu
diễn tương ứng với các đặc trưng là các từ (thuật ngữ). Với giá trị của mỗi đặc trưng này gọi
là trọng số của từ (thuật ngữ), mô tả tần suất của từ (thuật ngữ) xuất hiện trong vănbản [1].
7
2.1.1.1 Một số phương pháp biểu diễn vănbản
Mô hình không gian vector
Cách biểu diễn vănbản thông dụng nhất là thông qua vector biểu diễn theo mô hình
không gian vector (Vector Space Model). Đây là một cách biểu diễn tương đối đơn giản và
hiệu quả. Trong các cơ sở dữ liệu văn bản, mô hình vector là mô hình biểu diễn vănbản
được sử dụng phổ biến nhất hiện nay. Mối quan hệ giữa các trang vănbản được thực hiện
thông qua việc tính toán trên các vector biểu diễn vì vậy được thi hành khá hiệu quả.
Hình 2.1 Mô hình không gian vector.
Mô hình Boolean
Một mô hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị
đúng và sai (true và false, hoặc 0 và 1) gọi là mô hình Boolean. Hàm f tương ứng với từ
khóa t
i
sẽ cho ra giá trị đúng nếu và chỉ nếu từ khóa t
i
xuất hiện trong vănbản đó.
Mô hình phân tích cú pháp
Trong mô hình này, mỗi vănbản đều phải được phân tích cú pháp và trả lại thông tin
chi tiết về chủ đề của vănbản đó. Sau đó, người ta tiến hành đánh chỉ số các chủ đề của
từng văn bản. Cách đánh chỉ số trên chủ đề cũng giống như khi đánh chỉ số trênvănbản
nhưng chỉ đánh chỉ số trên các từ xuất hiện trong chủ đề.
Mô hình tần suất
Trong mô hình tần suất, ma trận W = {w
ij
} được xác định dựatrên tần số xuất hiện
của từ khóa t
i
trong vănbản d
j
hoặc tần số xuất hiện của từ khóa t
i
trong toàn bộ cơ sở dữ
liệu. Sau đây là một số phương pháp phổ biến:
- Phương pháp dựatrên tần số từ khóa (TF – Term Frequency)
8
- Phương pháp dựatrên nghịch đảo tần số vănbản (IDF – Inverse Document
Frequency)
2.1.1.2 Phương pháp tính trọng số của từ
Trong các cách tiếp cận tính toán trọng số của từ để biểu diễn vănbản hiện nay.
Phương pháp tính trọng số dựatrên tần suất xuất hiện của từ (thuật ngữ) được sử dụng phổ
biến hiện nay.
2.1.2 Kỹthuật giảm chiều vector biểu diễn trong vănbảntiếngViệt
2.1.2.1 Kỹthuật giảm chiều véc tơ
Xem xét một số ứng dụng ví dụ như trong một hệ thống xử lý dữ liệu (tín hiệu tiếng
nói, ảnh hoặc nhận dạng mẫu nói chung) tập các đặc trưng nếu coi là tập hợp các vec tơ giá
trị thực. Giả thiết rằng, hệ thống chỉ hiệu quả nếu số chiều của mỗi véc tơ riêng lẻ không
quá lớn. Vấn đề của giảm chiều xuất hiện khi dữ liệu có số chiều lớn hơn khả năng xử lý
của hệ thống [17
Hình 2.5 .Mô hình giảm chiều véc tơ.
2.1.2.2 Kỹthuật giảm chiều véc tơ trong biểu diễn vănbảntiếngViệt
Khái niệm giảm chiều lần đầu được công bố bởi Bellman (1961). Bellman cho rằng
sẽ rất khó khăn khi tính toán số các đặc trưng khi số lượng từ quá nhiều.
[...]... liệu vănbảntiếngViệt 3.1 Kiến trúc tổng quát của hệ thống Hệ thống tracứu văn bảntiếngViệt dựa trênkỹthuậtphâncụm được chia thành hai pha chính: Pha phâncụm và pha tracứu - Pha phân cụm: Pha thực hiện phâncụmvănbản thành các cụm riêng biệt Đồng thời từ đó có thể dựatrên đại diện biểu diễn của từng cụm để gán chủ đề cho cụm đó - Pha tra cứu: Pha thực hiện tracứu trực tuyến trên nền... đã được trình bày ở mục 2.2.2.1, luận văn trình bày phương pháp phâncụmvănbảntiếngViệt ứng dụng thuật toán phân cấp thành các bước như sơ đồ sau: Hình 2.15 Hệ thống phâncụmvănbản 13 2.3 Tracứu văn bảntiếngViệt dựa trênkỹthuậtphâncụmphân cấp Một hệ thống tracứuvănbản thông thường cần liên quan tới các yếu tố sau - Câu truy vấn - Kho dữ liệu vănbản - Quy trình xử lý và phản hồi kết... rút gọn đặc trưng vănbản 2.2 Kỹthuậtphâncụm văn bảntiếngViệt dựa trênthuật toán phân cấp 2.2.1 Phâncụmvănbản 2.2.1.1 Khái niệm phâncụmvănbản Định nghĩa: Thuật toán phâncụm nhóm tập các vănbản vào các tập con hoặc các cụm Mục đích của thuật toán là tạo ra các nhóm có sự liên kết bên trong, nhưng khác biệt rõ ràng với các nhóm khác Một cách khác các vănbản trong một cụm có thể có độ tương... luận văn sẽ thực hiện quá trình cài đặt được mô tả ở chương tiếp theo Chương 3 XÂY DỰNG ỨNG DỤNG TRACỨUVĂNBẢNTIẾNGVIỆTDỰATRÊNKỸTHUẬTPHÂNCỤM Trong chương này, luận văn trình bày phương pháp lựa chọn dữ liệu, lưu trữ và xây dựng hệ thống ứng dụng tracứu văn bảntiếngViệt dựa trênkỹthuậtphân cụm, đồng thời luận văn cũng có các thử nghiệm, đánh giá phương pháp được cài đặt với tập dữ liệu văn. .. hệ thống tracứuvănbảndựatrênkỹthuậtphâncụm Hình 2.16 Hệ thống tracứu ứng dụng phâncụmvănbảnThuật toán trong hình 2.17 dưới đây tính toán trọng số của một danh từ thuộc tập vănbản D Hình 2.17 Thuật toán tính trọng số của từ phụ thuộc tập vănbản 14 Hình 2.18 dưới đây mô tả thuật toán biểu diễn vănbản Mỗi vănbản được biểu diễn bởi tập các danh từ và trọng số của nó Hình 2.18 Thuật toán... D gồm 6 vănbản d1, d2, d3, d4, d5, d6 Bước 1: Khởi tạo Mỗi cụmvănbản ci được gán tương ứng là một vănbản di (xem Hình 2.11) Hình 2.11 Khởi tạo các cụm Bước N: Bước cuối ta sẽ nhận được kết quả cây phân cấp tương ứng được chỉ ra trong Hình 2.14 12 Hình 2.14 Cây phân cấp thu được sau quá trình phâncụm 2.2.2.2 PhâncụmvănbảntiếngViệtdựatrênthuật toán phân cấp Dựatrênthuật toán phân cấp... Chức năng tracứuvănbản Trong chức năng tracứuvănbản có bao gồm hai tính năng tracứu chính là tính năng tracứu theo câu hỏi (query) và tính năng tracứu theo vănbản (file) Hình 3.3 dưới đây mô tả biểu đồ use case trường hợp tracứu với hai tính năng đã được mô tả 18 System cau hoi truy vanvanbantracuu Quan tri Nguoi dung Hình 3.3 Biểu đồ ca sử dụng tracứu Hình 3.4... câu hỏi tracứu Hình 3.10 Kết quả tracứu với câu truy vấn Hình 3.12 dưới đây mô tả kết quả tracứu của hệ thống 22 Hình 3.12 Kết quả tracứu với vănbản 3.3.3.2 Quản lý phâncụmPhần này mô tả một số giao diện trong phần xử lý phâncụmvănbản Hình 3.14 dưới đây mô tả chức năng quản lý lấy dữ liệu từ trong máy tính để tiến hành phâncụm dữ liệu Hình 3.14 Tính độ tương tự giữa các cặp vănbản trong... vấn và biểu diễn được đại diện cho mỗi cụm, việc thực hiện đối sánh giữa câu truy vấn với cơ sở dữ liệu để tìm ra độ tương đồng nhất giữa câu truy vấn và cụmvănbản 2.4 Kết luận chương 2 Trong chương này, luận văn đã trình bày được phương pháp tracứu văn bảntiếngViệt dựa trênphâncụmphân cấp, đồng thời cũng mô tả chi tiết các thuật toán dùng trong phâncụm và phương pháp thể hiện biểu diễn câu... biểu diễn vănbản Hình 2.19 dưới đây mô tả thuật toán tính độ tương tự giữa từng cặp vănbản trong cả tập vănbản đầu vào D Hình 2.19 Thuật toán tính độ tương đồng giữa các vănbản trong tập D Sau khi mỗi vănbản được gom thành các cụm, luận văn sử dụng phương pháp tính trọng tâm để tính biểu diễn đại diện cho các cụm Đối với mỗi cụm, việc tìm đại diện biểu diễn được mô tả như sau: 15 Hình 2.20 Thuật toán . đặc trưng văn bản
2.2 Kỹ thuật phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp
2.2.1 Phân cụm văn bản
2.2.1.1 Khái niệm phân cụm văn bản
Định. luận văn sử dụng phương pháp phân cụm tiếng
Việt dựa trên thuật toán cây phân cấp và hệ thống tra cứu văn bản tiếng Việt dựa trên tập dữ
liệu văn bản tiếng
1.1.2
Các mơ hình tra cứu thơng tin (Trang 4)
Hình 1.2
Biểu đồ so sánh trung bình điều hịa của các trung bình khác nhau (Trang 7)
Hình 2.5
Mơ hình giảm chiều véc tơ (Trang 10)
Hình 2.8.
Một ví dụ về tập dữ liệu với cấu trúc phân cụm (Trang 11)
Hình 2.7.
Một mơ hình rút gọn đặc trưng văn bản (Trang 11)
Hình 2.10.
Thuật tốn HAC (Trang 13)
t
thuật tốn HAC đơn giản được đưa ra trong hình 2.10 (Trang 13)
Hình 2.15
Hệ thống phân cụm văn bản (Trang 14)
Hình 2.14.
Cây phân cấp thu được sau quá trình phân cụm (Trang 14)
Hình 2.16
Hệ thống tra cứu ứng dụng phân cụm văn bản (Trang 15)
Hình 2.16
dưới đây mơ tả qui trình hoạt động của một hệ thống tra cứu văn bản dựa trên kỹ thuật phân cụm (Trang 15)
Hình 2.18.
Thuật tốn biểu diễn văn bản (Trang 16)
Hình 2.18
dưới đây mơ tả thuật tốn biểu diễn văn bản. Mỗi văn bản được biểu diễn bởi tập các danh từ và trọng số của nó (Trang 16)
Hình 2.20.
Thuật tốn tìm đại diện biểu diễn từng cụm (Trang 17)
rong
hình 2.20 là thuật tốn mơ tả việc tìm đại diện biểu diễn cho mỗi cụm dựa trên phương pháp tính tâm cụm (Trang 17)
Hình 3.2
dưới đây mơ tả biểu đồ ca sử dụng tổng quát của hệ thống tra cứu (Trang 19)
Hình 3.1
Sơ đồ chức năng hệ thống tra cứu văn bản tiếng Việt (Trang 19)
Hình 3.4
dưới đây mơ tả chức năng tra cứu thông tin của người dùng (Trang 20)
Hình 3.3.
Biểu đồ ca sử dụng tra cứu (Trang 20)
Hình 3.5
dưới đây mô tả một biểu đồ hoạt động của hệ thống (Trang 21)
Hình 3.8
dưới đây mô tả cơ sở dữ liệu của hệ thống tra cứu văn bản tiếng Việt (Trang 22)
Hình 3.9.
Giao diện trang chủ của hệ thống (Trang 23)
Hình 3.10
dưới đây mơ tả giao diện khi người dùng nhập câu hỏi tra cứu (Trang 23)
h
ần này mô tả một số giao diện trong phần xử lý phân cụm văn bản. Hình 3.14 dưới đây mô tả chức năng quản lý lấy dữ liệu từ trong máy tính để tiến hành phân cụm dữ liệu (Trang 24)
Hình 3.12
Kết quả tra cứu với văn bản. 3.3.3.2 Quản lý phân cụm (Trang 24)
Hình 3.16
Kết quả phân cụm với ngưỡng bằng 0.9 (Trang 25)
5.
Máy tính bảng nhẹ nhất 78 0.26 (Trang 26)
Bảng 3.3
Độ triệu hồi khi thực hiện các truy vấn. TT Các truy vấn Số văn bản liên (Trang 26)