Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
724,77 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Minh Tuấn
PHÂN LỚPCÂUHỎIHƯỚNGTỚITÌMKIẾMNGỮ
NGHĨA TIẾNGVIỆTTRONGLĨNHVỰCYTẾ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2008
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Minh Tuấn
PHÂN LỚPCÂUHỎIHƯỚNGTỚITÌMKIẾMNGỮ
NGHĨA TIẾNGVIỆTTRONGLĨNHVỰCYTẾ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành
: Công nghệ thông tin
Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: Th.S Nguyễn Việt Cường
HÀ NỘI - 2008
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến
sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Việt Cường, người đã tận tình chỉ bảo và hướng
dẫn tôitrong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập và
nghiên cứu tại tr
ường Đại Học Công Nghệ.
Tôi xin gửi lời cảm ơn chân thành tới Thạc Sỹ Nguyễn Cẩm Tú và Cử Nhân Nguyễn Thu
Trang những đã tận tình hỗ trợ về kiến thức chuyên môn, giúp đỡ tôi hoàn thành khóa
luận.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ
liệu” đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gửi lời cả
m vô hạn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh và động viên tôitrong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !
Sinh viên
Nguyễn Minh Tuấn
i
Tóm tắt
Cùng với sự ra đời của Web ngữnghĩa và các Ontology, nhu cầutìmkiếmngữ
nghĩa ngày càng nhận được nhiều sự quan tâm trong cộng đồng nghiên cứu về khai phá
dữ liệu Web/Text. Mặt khác, phân lớpcâuhỏi là một trong những thành phần cơ bản
nhưng quan trọng nhất trong kiến trúc tổng thể của hầu hết các máy tìmkiếmngữ nghĩa.
Đây cũng là thành phần chịu nhiều sự ảnh hưởng củ
a các đặc trưng ngôn ngữ và giữ vai
trò nền tảng cho các bước xử lý nhằm hướngtớitìmkiếmngữ nghĩa.
Khóa luận này tập trung nghiên cứu phương pháp phân loại câuhỏitronglĩnhvựcy
tế tiếngViệt dựa trên hướng tiếp cận cực đại hóa Entropy (maxent). Dựa trên việc khảo
sát các đặc trưng tiếngViệt và các hướng tiếp cận trong phân lớpcâuhỏi trên tiếng Anh,
khóa luận đã tích hợp các đặ
c trưng này vào quá trình phân lớp với Maxent và thu được
kết quả khả quan. Những nội dung này có thể coi là những nghiên cứu đầu tiên trong vấn
đề này trên tiếng Việt.
ii
Mục lục
Tóm tắt i
Mục lục ii
Danh sách các bảng iv
Danh sách các hình v
Lời mở đầu 1
Chương I. Tổng quan về tìmkiếmngữnghĩa 2
1.1. Nhu cầu về máy tìmkiếmngữnghĩa 2
1.2. Cấu trúc tổng thể của một máy tìmkiếmngữnghĩa 2
1.2.1. Nền tảng cho tìmkiếmngữnghĩa 2
1.2.2.1. Web ngữnghĩa 3
1.2.2.2. Ontology 4
1.2.2. Kiến trúc cơ bản của một máy tìmkiếmngữnghĩa 9
1.2.2.3. Giao diện ng
ười dùng 10
1.2.2.4. Kiến trúc bên trong 10
Chương 2. TìmkiếmngữnghĩatrongtiếngViệt 14
2.1. Tổng quan về cơ sở cho tìmkiếmngữnghĩatiếngViệt 14
2.2. Một số đặc trưng của tiếngViệt 15
2.2.1 Đặc điểm ngữ âm 15
2.2.2 Đặc điểm từ vựng: 15
2.2.3 Đặc điểm ngữ pháp 16
2.3. Tìmkiếmngữnghĩatronglĩnhvựcytế 16
2.3.1. Ontology YtếtrongtiếngViệt 16
2.3.2. Bộ phân lớpcâuhỏiYtếtrongtiếngViệt 18
Chương 3. Các phương pháp phân lớpcâuhỏi 19
3.1. Giới thiệu về phân lớpcâuhỏi 19
3.2. Các phương pháp phân lớpcâuhỏi 19
3.3. Hướng tiếp cận dựa trên xác suất 20
3.3.2 Các hướng tiếp cận theo phương pháp học máy 21
iii
3.3.1.1 Support Vector Machines (SVM) 21
3.3.1.2 Một số phương pháp khác 27
3.3.1.3 Thực nghiệm khi tiến hành phân lớpcâuhỏi 28
3.3.3 Hướng tiếp cận dựa trên mô hình hình ngôn ngữ 31
3.3.3.1 Hướng tiếp cận Entropy cực đại 33
Chương 4. Thực nghiệm và đánh giá 37
4.1 Dữ liệu của thực nghiệm 37
4.2 Thiết kế thử nghiệm 38
4.3 Kết quả thực nghiệm 39
4.4 Đánh giá kết quả thực nghiệm 43
Kết luận 45
Tài liệu tham khảo 46
Tiếng Việt 46
Tiếng Anh 46
iv
Danh sách các bảng
Bảng 1: taxonomy của tập lớpcâuhỏi thử nghiệm của Zhang 28
Bảng 2. Độ chính xác trên năm phân lớp Cha với các giải thuật khác nhau trong học
máy, sử dụng vector đặc trưng bag-of-words. 29
Bảng 3. Độ chính xác trên năm phân lớp Cha với các giải thuật khác nhau trong học
máy, sử dụng vector đặc trưng bag-of-Ngrams 30
Bảng 4. Độ chính xác trên các phân lớp con với các giải thuật khác nhau trong học
máy, sử dụng vector đặc trưng bag-of-words. 30
Bảng 5. Độ chính xác trên các phân lớp con với các giải thuật khác nhau trong học
máy, sử dụng vector đặc trưng bag-of-Ngrams 31
Bảng 6.Tập dữ liệu huấn luyện 37
Bảng 7. Tập dữ liệu kiểm tra 38
Bảng 8. Tham số huấn luyện mô hình SVM 39
Bảng 9. Tham số huấn luyện mô hình Entropy cực đại 39
Bảng 10. kết quả huấn luyện với SVM 39
Bảng 11. Kết quả 10 lần huấn luyện với Entropy cực đại 40
Bảng 12. Kết quả của bước lặp thứ 6 41
v
Danh sách các hình
Hình 1. Ví dụ về Web ngữnghĩa 3
Hình 2. Ví dụ về Ontology Ytế 6
Hình 3. Sơ đồ của máy tìmkiếmngữnghĩa 9
Hình 5. Mối quan hệ giữa các siêu phẳng phân cách 23
Hình 6. Siêu phẳng tối ưu và biên. 24
Hình 7. Sơ đồ phân lớpcâuhỏi với SVM 26
Hình 8. Đồ thị biểu diễn sự phụ thuộc của F1 vào số lần lặp 42
Hình 9. Tổng hợp độ đo 10 lần huấn luyện 42
1
Lời mở đầu
Sự ra đời của Web ngữnghĩa và các Ontology dẫn tới sự ra đời của các hệ thống tìm
kiếm với sự hộ trợ của dạng thông tin mới này – hệ thống tìmkiếmngữ nghĩa. Một hệ
thống tìmkiếmngữnghĩa thông thường được xây dựng trên một miền và ngôn ngữ cụ
thể. Cấu trúc nội tại của một hệ thống tìmkiếmngữ nghĩ
a điển hình bao gồm hai thành
phần quan trọng mang đặc trưng ngôn ngữ đó là: (1) phân lớpcâuhỏi và (2) cơ sở dữ liệu
tri thứ (mạng ngữ nghĩa). Trong vài năm gần đây nhiều công trình nghiên cứu giải quyết
bài toán phân lớpcâuhỏi đã được công bố [16], [15], [19], [36], [42].
Ta có thể chia các thuật toán phân lớpcâuhỏi thành hai hướng tiếp cận chính:
(1) hướng tiếp cận theo regular expression (biểu thức chính qui) [35] và (2) hướng tiếp
cận dựa trên xác su
ất [16], [15], [19], [36], [42]. Mỗi hướng tiếp cận có những ưu và
nhược điểm riêng và sẽ được xem xét trong các phần sau đây.
Khóa luận này tiến hành phân tích cấu trúc tổng thể của một máy tìmkiếmngữ
nghĩa. Qua đó chỉ ra các module ảnh hưởng bởi đặc trưng ngôn ngữ và tiến hành khảo sát
các phương pháp giải quyết bài toán phân lớpcâuhỏi phổ biến hiện nay. Từ đó đề xuất
giải pháp thích hợp khi áp d
ụng vào tiếngViệt .
Khóa luận gồm bốn chương nội dung được mô tả sơ bộ dưới đây:
Chương 1. Tổng quan về tìmkiếmngữnghĩa giới thiệu những thành phần cơ
bản về một hệ thống tìmkiếmngữ nghĩa: nhu cầu về tìmkiếmngữnghĩa và
các nền tảng cho tìmkiếmngữnghĩa hình thành. Đồng thời, chương này
c
ũng giới thiệu kiến trúc tổng thể của một hệ thống tìmkiếmngữnghĩa và
chỉ ra các module chịu ảnh hưởng bởi đặc trưng của ngôn ngữ.
Chương 2. TìmkiếmngữnghĩatrongtiếngViệt trình bày về hiện trạng của tìm
kiếm ngữnghĩatrongtiếngViệt hiện nay. Qua đó, chỉ ra những cơ sở cần
thiết để xây dựng m
ột hệ thống tìmkiếmngữnghĩatrongtiếng Việt. Đồng
thời, chương này cũng giới thiệu quá trình phân tích và xây dựng hai
module mang đặc trưng ngôn ngữ, tạo tiền đề xây dựng mộ hệ thống tìm
kiếm ngữnghĩatronglĩnhvựcYtếtiếng Việt.
Chương 3. Các phương pháp phân lớpcâuhỏi khảo sát và phân tích kỹ lưỡng
các thuật toán cho bài toán phân lớpcâu hỏi, chỉ ra ưu nhược đ
iểm của từng
phương pháp. Qua đó lựa, chọn phương pháp tốt nhất để thử nghiệm trong
tiếng Việt.
Chương 4. Thực nghiệm và đánh giá hai thuật toán Support Vector Machine
và nguyên lý Entropy cực đại trên tập dữ liệu câuhỏiYtếtiếng Việt. Kết
quả thử nghiệm cho thấy hiệu của của từng phương pháp và chỉ rõ phương
pháp nào thích hơn khi áp dụng cho tiếng Việt.
Ph
ần kết luận tổng kết và tóm lược nội dung chính của khóa luận.
2
Chương I. Tổng quan về tìmkiếmngữnghĩa
1.1. Nhu cầu về máy tìmkiếmngữnghĩa
Lượng thông tin khổng lồ và phát triển mạnh mẽ theo từng ngày trên World Wide
Web (thường được gọi tắt là Web) đưa ra thách thức để khai thác được thông tin trên Web
một cách hiệu quả. Các máy tìmkiếm như Google, Yahoo… ra đời nhằm hỗ trợ người
dùngtrong quá trình tìmkiếm và sử dụng thông tin. Tuy kết quả trả về của các máy tìm
kiếm này ngày càng được cải thiện về chất và lượng nhưng vẫn đơn thuần là danh sách
các tài liệu chứa những t
ừ xuất hiện trongcâu truy vấn. Những thông tin từ các kết quả trả
về này chỉ được hiểu bởi con người, máy tính không thể “hiểu” được, điều này gây những
khó khăn cho quá trình xử lý thông tin tìmkiếm được về sau.
Sự ra đời của Web ngữnghĩa (hay Semantic Web được W3C (The World Wide Web
Consortium) giới thiệu trong [40]) đã mở ra một bước tiến của công nghệ Web những
thông tin trong Web ngữnghĩa có cấu trúc hoàn chỉnh và mang ngữnghĩa mà máy tính có
thể “hiểu” được. Những thông tin này, có thể được sử dụng lại mà không cần qua các
bước tiền xử lý. Khi sử dụng các máy tìmkiếm thông thường (Google, Yahoo…), tìm
kiếm thông tin trên Web ngữnghĩa sẽ không tận dụng được những ưu điểm vượt trội của
Web ngữ nghĩa, kết quả trả về không có sự thay đổi. Nói theo một cách khác thì với các
máy tìmkiếm hiện tại Web ngữnghĩa hay Web thông thường chỉ là m
ột. Do vậy, cần
thiết có một hệ thống tìmkiếmngữnghĩa (Semantic Search) tìmkiếm trên Web ngữ
nghĩa hay trên một mạng tri thức mang ngữ nghĩa, kết quả trả về là các thông tin có cấu
trúc hoàn chỉnh mà máy tính có thể “hiểu” được, nhờ đó việc sử dụng hay xử lý thông tin
trở nên dễ dàng hơn[27][29]. Ngoài ra, việc xây dựng được một hệ thống tìmkiếmngữ
nghĩa cụ thể sẽ t
ạo tiền đề cho việc mở rộng xây dựng các hệ thống hỏi đáp tự động trên
từng lĩnhvực cụ thể như : Y tế, văn hóa … điều này mang một ýnghĩa thiết thực trong
đời sống.
1.2. Cấu trúc tổng thể của một máy tìmkiếmngữnghĩa
Máy tìmkiếmngữnghĩa được xây dựng dựa trên những công nghệ, kỹ thuật mới của
khoa học. Mỗi công nghệ phát triển trên những nền tảng nhất định. Do vậy để mô tả cấu
trúc của một máy tìmkiếmngữnghĩa một cách chi tiết nhất, trước tiên cần đề cập các nền
tảng cho tìmkiếmngữ nghĩa.
1.2.1. Nền tảng cho tìmkiếmngữ nghĩ
a
Có hai nền tảng cho tìmkiếmngữnghĩa đó là:
(1) Web ngữnghĩa : là sự phát triển mở rộng của Web hiện tại.
(2) Ontology : dùng để mô tả các tài nguyên thông tin có ngữ nghĩa.
[...]... hình của Ontology Ytế n y ở hình 2 2.3.2 Bộ phân lớpcâuhỏi Y tếtrongtiếngViệt Với Ontology Ytế giới thiệu ở phần trên, để giải quyết được hai bài toán mang đặc trưng của tiếngViệt cần x y dựng một bộ phân lớpcâuhỏiYtếtrongtiếngViệt Bộ phân lớpcâuhỏi n y là bộ phân lớp nội miền (trong miền Ontology Y tế) , tức là với các câu hỏi/ truy vấn của người dùng đưa vào, bộ phân lớp phải xác định... qua, cầu g y - Đêm hôm, qua cầu g y Qua một số đặc điểm nổi bật vừa nêu trên đ y, chúng ta có thể hình dung được phần nào bản sắc và tiềm năng của tiếngViệt 2.3 TìmkiếmngữnghĩatronglĩnhvựcytếTrong phần n y, khóa luận sẽ trình b y những bước đầu của việc x y dựng một m ytìmkiếmngữnghĩa trên lĩnhvựcYtế cho tiếngViệt 2.3.1 Ontology YtếtrongtiếngViệt Với các dữ liệu về ytế thu thập... gia miền trong thời gian lớn Hiện nay có một số công cụ hỗ trợ việc x y dựng Ontology như: Protégé hay GATE… 13 Chương 2 TìmkiếmngữnghĩatrongtiếngViệt 2.1 Tổng quan về cơ sở cho tìmkiếmngữnghĩatiếngViệt Từ cấu trúc cơ bản của một hệ thống tìmkiếmngữnghĩa đã được trình b y ở trên cho th y để x y dựng được một hệ thống tìmkiếmngữnghĩatrongtiếngViệt trước tiên phải giải quyết hai bai... phần hạt nhân của m ytìmkiếm bao gồm ba thành phần chính đó là: - Phân tích câuhỏi - Tìmkiếm kết quả cho truy vấn hay câuhỏi - Tập tài liệu, dữ liệu tìm kiếm/ mạng ngữnghĩa Sự khác biệt trongcấu trúc của m ytìmkiếmngữnghĩa so với m ytìmkiếm thông thường nằm ở phần kiến trúc bên trong, cụ thể ở hai thành phần: phân tích câuhỏi và tập dữ liệu tìmkiếm Về cơ bản, một m ytìmkiếm có kiến trúc... các hệ thống tìmkiếmngữnghĩa lớn tìmkiếm trên nhiều miền Ontology, thường có bộ phân lớpcâuhỏi kép gồm : (1) phân lớp để xác định miền Ontology của câuhỏi (phân lớp nội miền) (2) phân lớp để xác định câuhỏi thuộc lĩnhvực nào (lớp nào) trong miền Ontology đã xác định ở phân lớp nội miền Ngược lại đối với các m ytìmkiếmngữnghĩa trên một miền Ontology, chỉ cần x y dựng bộ phân lớp đơn (2)... nhất của một m ytìmkiếmngữnghĩa Phần n y đảm nhiệm vai trò phân loại câuhỏi theo chủ đề và lĩnhvực Quá trình phân lớp có thể tiến hành qua hai bước: (1) Phân lớp xác định miền câu hỏi: Y u cầu n y xuất phát từ cơ sở dữ liệu của m ytìmkiếmngữnghĩa (mạng ngữ nghĩa) Các mạng n y về cơ bản được x y dựng từ các Ontology, mà Ontology được x y dựng theo từng miền lĩnhvực riêng rẽ Do v y cần tiến hành... - Bước (2) câu hỏi/ truy vấn ở (1) đưa qua bộ phân tích câuhỏi để xác định câuhỏi thuộc về lĩnhvực miền nào và thuộc về phần nào tronglĩnhvực đó Ví dụ câuhỏi “Bệnh Lao phổi chữa như thế nào?” được phân về domain Ytế - Bước (3) câuhỏi được biển đổi về dạng chuẩn (biểu thức logic) để có thể tiến hành tìmkiếm - Bước (4) câu hỏi/ truy vấn được tìmkiếm trên mạng ngữnghĩa của m ytìmkiếm - Bước... t y biến, thay đổi dễ dàng Tuy v y, để phục vụ cho mục đích là tìmkiếmngữ nghĩa, phía giao diện người dùng cần cung cấp cho người sử dụng những lựa chọn khi tìm kiếm: • Cung cấp lựa chọn tìmkiếm theo từng miền lĩnhvực cụ thể, nếu một m ytìmkiếmngữnghĩa có cơ sở tìmkiếmngữnghĩa bao gồm nhiều lĩnhvực • Gợi ý các từ để hỏi ví dụ như (what, where, when…) khi người dùng nhập câuhỏi Điều n y. .. về của câu hỏi/ truy vấn đưa vào Một m ytìmkiếmngữnghĩa sẽ xử lý câuhỏi của người dùng qua năm bước cơ bản như trên Và t y thuộc vào từng đặc điểm của loại m ytìmkiếm định x y dựng, mà có thể có thêm những module khác Ví dụ một số m ytìmkiếm có có phần lựa chọn câu trả lời thích hợp nhất do người dùng lựa chọn nhằm x y dựng tập câu trả lời mẫu a Phân lớpcâuhỏi Phân lớpcâuhỏi là một trong. .. mang ngữ nghĩa, do v y việc phân lớpcâuhỏi còn được gọi là phân lớpngữnghĩa cho câuhỏi (semantic question classification) có hai vai trò quan trọng sau đ y: (1) Giảm không gian tìm kiếm, chẳng hạn với câuhỏi “thuốc nào chữa bệnh viêm họng?” hệ thống chỉ cần tìmkiếm trên các lớp thuốc của miền Ytế để có câu trả lời, thay vì tìmkiếm trên toàn bộ cơ sở dữ liệu (2) Nâng cao độ chính xác của câu . CÔNG NGHỆ
Nguyễn Minh Tuấn
PHÂN LỚP CÂU HỎI HƯỚNG TỚI TÌM KIẾM NGỮ
NGHĨA TIẾNG VIỆT TRONG LĨNH VỰC Y TẾ
KHOÁ LUẬN TỐT NGHIỆP.
PHÂN LỚP CÂU HỎI HƯỚNG TỚI TÌM KIẾM NGỮ
NGHĨA TIẾNG VIỆT TRONG LĨNH VỰC Y TẾ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành
: