Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
405,12 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN VĂN HIỆP NGHIÊN CỨU PHƯƠNG PHÁP XẾP HẠNG KẾT QUẢ TÌM KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Trí Thành Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu phương pháp xếp hạng kết tìm kiếm sở liệu bệnh viện” công trình nghiên cứu Những kiến thức trình bày luận văn tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn, có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Hà Nội, ngày tháng năm 2015 Học viên Trần Văn Hiệp LỜI CẢM ƠN Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Trí Thành - Trƣờng Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội trực tiếp hƣớng dẫn tận tình giúp đỡ em suốt thời gian thực luận văn Em xin gửi lời cảm ơn chân thành tới toàn thể thầy cô giáo Trƣờng Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội dạy dỗ, giúp đỡ bảo cho em suốt trình học tập Cuối cùng, em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè, đồng nghiệp, ngƣời bên cạnh em để động viên, giúp đỡ tạo điều kiện tốt để em hoàn thành luận văn Hà Nội, ngày tháng năm 2015 Học viên Trần Văn Hiệp MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Error! Bookmark not defined DANH MỤC CÁC HÌNH VẼ Error! Bookmark not defined DANH MỤC CÁC BẢNG BIẾU Error! Bookmark not defined MỞ ĐẦU CHƢƠNG 1:TỔNG QUAN VỀ BÀI TOÁN TÌM KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN 1.1 Tổng quan 1.1.1 Giới thiệu 1.1.2 Ý nghĩa khoa học thực tiễn .7 1.1.3 Tầm quan trọng 1.1.4 Mục đích 1.2 Truy tìm thông tin 1.2.1 Hệ thống tìm kiếm thông tin 1.2.2 Các hệ thống thông tin khác 1.2.3 Các mô hình tìm kiếm thông tin Error! Bookmark not defined 1.2.4 Xếp hạng tài liệu Error! Bookmark not defined 1.3 Kết luận Error! Bookmark not defined CHƢƠNG 2: MỘT SỐ PHƢƠNG PHÁP XẾP HẠNG Error! Bookmark not defined 2.1 Một số phƣơng pháp tìm kiếm Error! Bookmark not defined 2.1.1 Mô hình tìm kiếm Boolean Error! Bookmark not defined 2.1.2 Tìm kiếm tương tự Error! Bookmark not defined 2.1.3 Độ đo tương tự Cosine Error! Bookmark not defined 2.2 Một số phƣơng pháp xếp hạng Error! Bookmark not defined 2.2.1 Phương pháp xếp hạng dựa cấu trúc Error! Bookmark not defined 2.2.2 Phương pháp dựa nội dung Error! Bookmark not defined 2.2.2.1 Phƣơng pháp xếp hạng Cosine Error! Bookmark not defined 4 2.2.2.2 Phƣơng pháp xếp hạng Cosine Short SegmentsError! Bookmark not defined 2.2.2.3 Phƣơng pháp xếp hạng Dice Error! Bookmark not defined 2.2.2.4 Phƣơng pháp xếp hạng Jaccard Error! Bookmark not defined 2.2.2.5 Phƣơng pháp xếp hạng Matching Error! Bookmark not defined 2.2.2.6 Phƣơng pháp Overlap Error! Bookmark not defined 2.3 Kết luận Error! Bookmark not defined CHƢƠNG 3: ĐỀ XUẤT CẢI TIẾN PHƢƠNG PHÁP XẾP HẠNGError! Bookmark not defined 3.1 Bài toán ứng dụng Error! Bookmark not defined 3.1.1 Giới thiệu toán Error! Bookmark not defined 3.1.2 Mô tả chi tiết Error! Bookmark not defined 3.1.3 Chức tìm kiếm chẩn đoán Error! Bookmark not defined 3.1.4 Mô hình hệ thống tìm kiếm Error! Bookmark not defined 3.2 Phƣơng pháp đề xuất Error! Bookmark not defined 3.3 N-gram áp dụng Error! Bookmark not defined 3.4 Kết luận Error! Bookmark not defined CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ Error! Bookmark not defined 4.1 Dữ liệu thực nghiệm phƣơng pháp đánh giáError! Bookmark not defined 4.1.1 Chuẩn bị liệu thực nghiệm Error! Bookmark not defined 4.1.2 Phương pháp đánh giá kết tìm kiếm Error! Bookmark not defined 4.2 Một số kết chạy chƣơng trình Error! Bookmark not defined 4.2.1 Kết chạy phương pháp xếp hạng khác cho truy vấn tập liệu loại bệnh Error! Bookmark not defined 4.2.1.1 Kết tìm kiếm Error! Bookmark not defined 4.2.1.2 Kết phƣơng pháp xếp hạng Error! Bookmark not defined 4.2.2 Kết đánh giá phương pháp với truy vấn khác Error! Bookmark not defined 4.3 Kết luận Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 10 MỞ ĐẦU Tin học ngày phát triển, thay việc hàng ngày phải viết thông tin hồ sơ lên giấy, thông tin đƣợc số hóa lƣu trữ máy tính dƣới dạng sở liệu thông qua ứng dụng tin học Lợi ích việc số hóa liệu đƣợc lƣu trữ quản lý tốt hơn, tra cứu, trích xuất thông tin dễ dàng Thông tin hồ sơ đƣợc số hóa ngày nhiều vấn đề đặt để tìm kiếm thông tin tập hồ sơ hàng nghìn trí đến hàng triệu triệu cách nhanh nhất, hiệu đòi hỏi ứng dụng tin học cần phải xây dựng giải thuật tìm kiếm tối ƣu đảm bảo tốc độ tìm kiếm giá trị ngƣời dùng cần Đối với lĩnh vực tìm kiếm thông tin, ngƣời dùng tìm kiếm thu đƣợc kết phù hợp kết quả, kết trả lƣợng lớn giá trị phù hợp, ngƣời dùng khó dò tìm kết để tìm nhanh kết muốn tìm Theo tâm lý thông thƣờng ngƣời dùng xem qua vài chục ghi không đủ thời gian để xem tất kết trả Do xếp hạng kỹ thuật đánh giá giá trị kết tập liệu trả về, xếp hạng độ quan trọng để ngƣời dùng dễ dàng nhìn thấy giá trị phù hợp mong muốn Có nhiều hệ thống tìm kiếm cần đến kỹ thuật xếp hạng để cung cấp cho ngƣời dùng tìm thấy tài liệu nhanh xếp nhu cầu hệ thống tìm kiếm sở liệu bệnh viện cần tới Đề tài nghiên cứu hƣớng tới phƣơng pháp xếp hạng Trên sở tìm hiểu nắm vững phƣơng pháp xếp hạng vận dụng vào việc tìm kiếm xếp hạng sở liệu bệnh viện Bố cục luận văn gồm chƣơng: Chương Tổng quan toán tìm kiếm sở liệu bệnh viện trình bày tổng quan toán tìm kiếm sở liệu bệnh viện Chương Một số phương pháp xếp hạng trình bày phƣơng pháp xếp hạng, áp dụng công thức nhƣ ví dụ minh họa thực nghiệm cho phƣơng pháp Chương Đề xuất cải tiến phương pháp xếp hạng trình bày toán ứng dụng áp dụng phƣơng pháp xếp hạng, cách thức cải tiến phƣơng pháp xếp hạng để đạt đƣợc kết xếp hạng tốt Chương Thực nghiệm đánh giá thực thi chƣơng trình tìm kiếm áp dụng phƣơng pháp xếp hạng với số liệu thu thập đƣợc, so sánh kết phƣơng pháp Đánh giá kết phƣơng pháp để chọn đƣợc phƣơng pháp xếp hạng tốt 6 CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN TÌM KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN 1.1 Tổng quan 1.1.1 Giới thiệu Hiện nay, việc tạo sản phẩm Tin Học mang tính đặc thù Việt Nam điều cần phải đƣợc quan tâm, đặc biệt phần mềm mang lại hiệu làm việc hoạt động mang tính hành Việc quản lý số lƣợng lớn bệnh nhân thông qua hồ sơ bệnh án, theo dõi tiến trình luân chuyển hồ sơ, nhƣ việc thống kê y tế công việc hành vụ Một số bệnh viện có khối lƣợng bệnh nhân lớn nơi cần công cụ hỗ trợ Tin học phần công cụ ứng dụng tìm kiếm liệu Mỗi ngƣời dùng tìm kiếm thu đƣợc kết phù hợp kết quả, kết trả lƣợng lớn giá trị phù hợp, ngƣời dùng khó dò tìm kết để tìm nhanh kết muốn tìm Theo tâm lý thông thƣờng ngƣời dùng xem qua vài chục ghi không đủ thời gian để xem tất kết trả Do xếp hạng kỹ thuật đánh giá giá trị kết tập liệu trả về, xếp hạng độ quan trọng để ngƣời dùng dễ dàng nhìn thấy giá trị phù hợp mong muốn Vì đề tài nghiên cứu hƣớng tới phƣơng pháp xếp hạng, đánh giá chọn phƣơng pháp thực tốt Trên sở tìm hiểu nắm vững phƣơng pháp xếp hạng vận dụng vào việc tìm kiếm sở liệu bệnh viện, điển hình toán xếp hạng chẩn đoán theo danh mục bệnh tật quốc tế Thông thƣờng việc ghi chẩn đoán có tầm quan trọng nhƣ sau: Quan trọng cho thầy thuốc Giúp thầy thuốc phát triển tƣ duy, tích cực suy nghĩ lựa chọn chẩn đoán theo logic (Ví dụ: chẩn đoán tử vong cách lƣời biếng “Sốc không hồi phục” Phải suy nghĩ tìm nguyên nhân) Tăng trình độ biện luận lâm sàng trình độ chuyên môn Trong tương quan thầy thuốc người bệnh Giúp thầy thuốc lƣu tâm tìm hiểu ngƣời bệnh nhiều có thêm hội suy nghĩ đến ngƣời bệnh, ngƣời bệnh tử vong tay Thể y đức ngƣời bệnh bệnh Trong tương quan thầy thuốc khoa học Thầy thuốc ghi chẩn đoán - thống theo danh mục mã số bệnh tật quốc tế đóng góp lớn cho khoa học, vì: ghi chẩn đoán liệu có giá trị nghiên cứu khoa học Rất quan trọng thời đại Công Nghệ Thông Tin 7 Trong tương quan thầy thuốc ngành y tế Đóng góp lớn cho công tác lƣu trữ, báo cáo, thống kê cách xác giúp ngành y tế: Nắm mô hình bệnh tật tử vong địa phƣơng Nắm kịp thời vấn đề liên quan đến sức khỏe mà xã hội quan tâm Từ xây dựng đƣợc tốt chƣơng trình, dự án phòng bệnh, chống bệnh chăm sóc sức khỏe Nhận thấy vấn đề chẩn đoán bệnh tầm quan trọng việc ghi chẩn đoán quan trọng Đề tài nghiên cứu, cài đặt, đánh giá phƣơng pháp xếp hạng dựa liệu chẩn đoán theo danh mục bệnh tật quốc tế lựa chọn phƣơng pháp xếp hạng tốt vận dụng cho việc tìm kiếm chẩn đoán bệnh Xét liệu chẩn đoán với liệu ghi danh mục bệnh tật quốc tế câu hay đoạn (ngắn), đề tài lựa chọn phƣơng pháp xếp hạng để xác định độ tƣơng đồng câu hay đoạn, sau chọn câu hay đoạn có độ liên quan lớn 1.1.2 Ý nghĩa khoa học thực tiễn Ý nghĩa khoa học: Đề tài nghiên cứu phƣơng pháp xếp hạng, đánh giá kết tìm kiếm sở liệu bệnh viện Ý nghĩa thực tiễn: Ứng dụng nhằm trợ giúp đáp ứng đƣợc nhu cầu tìm kiếm cho ngƣời sử dụng tìm kiếm thông tin dễ dàng nhìn thấy giá trị phù hợp mong muốn 1.1.3 Tầm quan trọng Kết xếp hạng giảm dần thứ tự độ quan trọng chẩn đoán để ngƣời dùng dễ dàng nhìn thấy chẩn đoán phù hợp, nâng cao chất lƣợng khám chữa bệnh, kết luận đƣợc từ thời kì đầu trình bệnh có lợi cho điều trị phòng bệnh Đƣa hƣớng điều trị, đặt giai đoạn điều trị đƣa thêm thông tin bệnh 1.1.4 Mục đích Mục đích đề tài tìm hiểu phƣơng pháp xếp hạng, cài đặt, đánh giá, thực nghiệm phƣơng pháp xếp hạng lựa chọn phƣơng pháp xếp hạng phù hợp vận dụng tốt toán tìm kiếm sở liệu bệnh viện Để đạt đƣợc mục đích đề đề tài cần nghiên cứu: Về mặt lý thuyết: Tìm hiểu kiến thức tìm kiếm thông tin, xếp hạng hệ thống tìm kiếm thông tin, phƣơng pháp xếp hạng tài liệu, tiêu chí đánh giá kết xếp hạng Về mặt thực nghiệm: Cài đặt, đánh giá phƣơng pháp xếp hạng chọn lựa thực nghiệm đƣợc phƣơng pháp xếp hạng tốt 1.2 Truy tìm thông tin 1.2.1 Hệ thống tìm kiếm thông tin Từ năm 1940, vấn đề lƣu trữ truy tìm thông tin [1] thu hút ý nhà nghiên cứu Hệ thống tìm kiếm trở nên cần thiết, vấn đề là: có lƣợng thông tin lớn, yêu cầu truy tìm thông tin cách xác nhanh chóng “Sự phù hợp”, khái niệm trung tâm truy tìm thông tin Mục đích chiến lƣợc truy tìm tự động truy tìm tất tài liệu phù hợp thời điểm truy tìm, bao gồm vài tài liệu không thỏa mãn Tìm đặc trƣng tài liệu để tài liệu phù hợp với truy vấn, cho phép tài liệu đƣợc truy tìm để trả lời truy vấn Mục đích hệ thống tìm kiếm thông tin trả thông tin liên quan đến nhu cầu thông tin ngƣời dùng Nhu cầu thông tin ngƣời dùng xem nhƣ câu truy vấn Thông tin liên quan câu, đoạn mà ta gọi chung tài liệu Hệ thống tìm kiếm thông tin thƣờng gặp phải vấn đề khác biệt câu truy vấn tài liệu Một ví dụ câu truy vấn ngắn (có thể hai từ chí từ từ không thông dụng) tài liệu nhiều Để khắc phục vấn đề hệ thống tìm kiếm thông tin thƣờng tạo hàm biểu diễn để xử lý câu truy vấn liệu khác sau áp dụng phƣơng pháp xếp hạng để xếp hạng kết trả Hệ thống tìm kiếm thông tin gồm có phận chính: phận phân tích văn bản, phận lập mục, phận so khớp xếp tài liệu trả Bộ phận phân tích văn phận có nhiệm vụ phân tích văn thu thập đƣợc thành từ riêng biệt Tƣơng tự, ngƣời dùng nhập câu truy vấn câu truy vấn đƣợc phân tích thành từ riêng biệt Bộ phận lập mục: từ trích đƣợc từ văn thu thập đƣợc đƣợc phận lựa chọn để làm từ mục Các từ mục phải từ thể đƣợc nội dung văn Hai phận phân tích văn lập mục thƣờng liền với thƣờng gọi phận lập mục Bộ phận so khớp xếp tài liệu trả về: Các từ trích đƣợc từ câu truy vấn từ mục văn đƣợc so khớp với để tìm tài liệu liên quan đến câu truy vấn Mỗi tài liệu có độ tƣơng quan với câu truy vấn Các tài liệu đƣợc xếp theo độ tƣơng quan giảm dần trả cho ngƣời sử dụng 1.2.2 Các hệ thống thông tin khác Hiện hệ thống thông tin quan trọng là: hệ quản trị sở liệu (DBMS), hệ quản lý thông tin (MIS), hệ hỗ trợ định (DSS), hệ trả lời câu hỏi (QAS) hệ tìm kiếm thông tin (IR) Việc hiểu biết khác hệ thống tìm kiếm thông tin hệ thống thông tin khác giúp ta hiểu rõ kỹ thuật tìm kiếm văn Hệ quản trị sở liệu (DBMS) DBMS đơn giản hệ thống đƣợc thiết kế nhằm thao tác trì điều khiển sở liệu DBMS tổ chức liệu dƣới dạng bảng Mỗi sở liệu đƣợc lƣu trữ thành nhiều bảng khác Mỗi cột bảng thuộc tính, dòng liệu cụ thể Trong bảng có thuộc tính đại diện cho bảng, không đƣợc trùng lặp ta gọi khóa Các bảng có mối liên hệ với thông qua khóa ngoại DBMS có tập lệnh để hỗ trợ cho ngƣời sử dụng truy vấn đến liệu Vì muốn truy vấn đến sở liệu hệ quản trị sở liệu ta phải học hết tập lệnh Nhƣng ngƣợc lại cung cấp cho ta liệu đầy đủ hoàn toàn xác Hiện DBMS đƣợc sử dụng rộng rãi giới Một số DBMS thông dụng nhƣ: Access, SQL Server, Oracle Hệ quản lý thông tin (IMS): IMS DBMS nhƣng có thêm nhiều chức việc quản lý Những chức phụ thuộc vào giá trị nhiều kiểu liệu khác Nói chung hệ thống có mục đích đặc biệt phục vụ cho việc quản lý ta gọi IMS Hệ hỗ trợ định (DSS): DSS dựa vào tập luật đƣợc học, từ luật học rút luật mới, sau gặp vấn đề vào tập luật để đƣa định thay cho ngƣời Hệ thống đƣợc áp dụng nhiều cho công việc nhận dạng chẩn đoán bệnh 10 TÀI LIỆU THAM KHẢO Tiếng Việt PGS.TS Đặng Văn Đức (2004-2008), Bài giảng Cơ sở liệu đa phương tiện Tiếng Anh Zdravko Markov, Daniel T Laroso, Data Mining the Web: Uncovering Patterns in Web Content, Structure, and Usage Teufel (2006, To Appear): Chapter An Overview of evaluation methods n TREC Ad-hoc Information Retrieval and TREC Question Answering In: L Dybkjaer, H Hemsen, W Minker (Eds.) Evaluation of Text and Speech Systems Springer, Dordrecht, The Netherlands Sahami, M., and Heilman, T 2006 A web-base kernel function for measuring the similarity of Short text snippets In Proc of WWW '06 Metzler, D.; Dumais, S.; and Meek, C 2007 Similarity measures for short segments of text In Proc of ECIR-07 Metzler, D., Bernstein , Y., Croft, W.B., Moffat, A., and Zobel, J Similarity measures for tracking information flow In Proceedings of CIKM '05 Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze Introduction to Information Retrieval Cambridge University Press, 2008 Internet https://janav.wordpress.com/2013/10/27/tf-idf-and-cosine-similarity/ [...]...10 TÀI LIỆU THAM KHẢO Tiếng Việt 1 PGS.TS Đặng Văn Đức (2004-2008), Bài giảng Cơ sở dữ liệu đa phương tiện Tiếng Anh 2 Zdravko Markov, Daniel T Laroso, Data Mining the Web: Uncovering Patterns in Web Content, Structure, and Usage 3 Teufel (2006, To Appear):