Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,29 MB
Nội dung
BỘ GIÁO DỤC & ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TIỂU LUẬN MÔN HỌC Đề tài: TÌMHIỂUKHAIPHÁTRITHỨCVÀXÂYDỰNGHỆCHUYÊNGIACHẨNĐOÁNVÀĐIỀUTRỊBỆNHBẰNGTHUỐCĐÔNGY Giáo viên hướng dẫn: PGS.TS. Phan Huy Khánh Nhóm HVTH (Nhóm 1): Lê Trọng Hiền Huỳnh Xuân Tuy Lê Tự Quốc Lớp: Khoa học máy tính K11 (2009 – 2011) Đà Nẵng, tháng 04 năm 2010 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy LỜI MỞ ĐẦU Ngày nay, khoa học kỹ thuật phát triển trên mọi lĩnh vực, đặc biệt là lĩnh vực công nghệ thông tin. Chúng ta đã hoà nhập vào thị trường toàn cầu. Do vậy, lĩnh vực công nghệ thông tin sẽ là một lĩnh vực quan trọng thúc đẩy các lĩnh vực khác cùng phát triển. Công nghệ Thông tin (CNTT) được ứng dụng trong nhiều lĩnh vực của đời sống như kinh tế, chính trị, xã hội, văn hóa cũng như trong những lĩnh vực nghiên cứu khoa học khác. Do vậy, dung lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giátrị nhất định nào đó. Kỹ thuật KhaiphátrithứcvàKhaiphá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Mỗi lĩnh vực hoạt động cần có một chuyêngia để hỗ trợ tư vấn trong quá trình hoạt động. Việc áp dụnghệchuyêngia là một việc rất quan trọng, chúng ta có thể tạo ra một chuyêngia thật sự trên một lĩnh vực nào đó. Từ đó chúng ta có thể xâydựng nhiều chuyêngia khác nhau trên tất cả các lĩnh vực để phục vụ đời sống xã hội. Chữa bệnhbằng cây thuốc nam giới thiệu với các bạn những bài thuốc cổ truyền, nhưng vị thuốc sẵn có trong tự nhiên, quanh khu vườn nhà bạn. Cách sử dụng các vị thuốc này ra sao. Các vị thuốc tự nhiên ấy nếu biết tận dụng để chữa vàtrị bệnh, sẽ giúp ích rất nhiều cho đời sống hằng ngày. Hệchuyêngiachẩnđoánvàđiềutrịbệnhbằngthuốcđôngy sẽ giúp ích cho các bạn trong việc chẩnđoánvàđiềutrị các bệnh thường gặp. Do thời gian thực hiện đề tài và trình đọ của mỗi thành viên trong nhóm còn hạn chế nên hệchuyêngia này chưa thể đáp ứng được cho tất cả các loại bệnh. Nhóm chúng tôi rất mong nhận được sự đóng góp ý kiến các bạn để đề tài được tốt hơn. Xin chân thành cảm ơn Thầy giáo PGS.TS Phan Huy Khánh đã giảng dạy và giúp đỡ để chúng tôi hoàn thành tiểu luận này. Đà Nẵng, ngày 20 tháng 04 năm 2010 Nhóm học viên thực hiện Lê Trọng Hiền Huỳnh Xuân Tuy Lê Tự Quốc Nhóm 1 Trang 2/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy PHẦN A: LÝ THUYẾT PHẦN .1 GIỚI THIỆU KHAIPHÁTRITHỨC .1.1. .1.1. Tổng quan về kỹ thuật khaiphátrithức (Knowledge Discovery) Tổng quan về kỹ thuật khaiphátrithức (Knowledge Discovery) Ngày nay, Công nghệ Thông tin (CNTT) được ứng dụng trong nhiều lĩnh vực của đời sống như kinh tế, chính trị, xã hội, văn hóa cũng như trong những lĩnh vực nghiên cứu khoa học khác. Do vậy, dung lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giátrị nhất định nào đó. Tuy nhiên, chỉ có từ 5 – 10% dung lượng dữ liệu này thường được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu đã có. Với những lý do như vậy, các phương pháp quản trịvàkhai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật khaiphátrithứcvàkhaiphá dữ liệu (KDD - Knowledge Discovery and Data Mining). Kỹ thuật KhaiphátrithứcvàKhaiphá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng Nhóm 1 Trang 3/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy dụng. .1.1.1. Khaiphátrithức là gì? Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số, các ký hiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định. Chúng ta sử dụng các bit để đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Chúng ta có thể xem trithức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học. Nói cách khác, trithức có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao. Thông tin vàtrithức hiện đang là tiêu điểm của một lĩnh vực mới trong nghiên cứu và ứng dụng về khaiphátrithức (Knowledge Discovery) vàkhaiphá dữ liệu (Data Mining). Khaiphátrithức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được. .1.1.2. Qui trình khaiphátrithức Qui trình khaiphátrithức được mô tả tóm tắt trên Hình 1: Nhóm 1 Trang 4/31 Có sẵn khối dữ liệu lớn: Có sẵn khối dữ liệu lớn: - Các CSDL khổng lồ - Dữ liệu từ Internet Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy Hình 1. Quy trình khaiphátrithức Bước thứ nhất là tìmhiểu lĩnh vực ứng dụngvà hình thành bài toán, bước này sẽ quyết định cho việc rút ra được các trithức hữu ích và cho phép chọn các phương pháp khaiphá dữ liệu thích hợp với mục đích ứng dụngvà bản chất của dữ liệu. Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình khaiphátri thức. Bước thứ ba là khaiphá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu. Bước thứ tư là hiểutrithức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. Nhóm 1 Trang 5/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy Hình 2: Tiến trình KDD (Knowledge discovery in databases) tiêu biểu .1.1.3. Các phương pháp khaiphá dữ liệu Với hai đích chính của khaiphá dữ liệu là dự đoán (Prediction) và Mô tả (Description), người ta thường sử dụng các phương pháp sau cho khaiphá dữ liệu: - Phân loại (Classification) - Hồi qui (Regression) - Phân nhóm (Clustering) - Tổng hợp (Summarization) - Mô hình ràng buộc (Dependency modeling) - Dò tìm biến đổi và độ lệch (Change and Deviation Dectection) - Biểu diễn mô hình (Model Representation) - Kiểm định mô hình (Model Evaluation) - Phương pháp tìm kiếm (Search Method) Một quá trình KPDL bao gồm năm giai đoạn chính sau (1) Tìmhiểu nghiệp vụ và dữ liệu (2) Chuẩn bị dữ liệu (3) Mô hình hóa dữ liệu (4) Hậu xử lý và đánh giá mô hình (5) Triển khaitrithức Nhóm 1 Trang 6/31 Data Data mining mining Data Data mining mining Input data Input data Input data Input data Results Results Results Results Postprocessin Postprocessin g g Operational Operational Database Database Operational Operational Database Database S e l e c t i o n S e l e c t i o n S e l e c t i o n S e l e c t i o n Utilization Utilization Utilization Utilization Eval. of interes- tingness Raw data Time based selection Selected usable pattern s 1 3 2 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên phản hồi từ kết quả của các giai đoạn sau. Tham gia chính trong quá trình khaiphá dữ liệu là các nhà tư vấn và phát triển chuyên nghiệp trong lĩnh vực khaiphá dữ liệu. Hình 3. Giao diện trực quan của môi trường KPDL Clementine .1.1.4. Các lĩnh vực liên quan đến KhaiphátrithứcKhaiphátrithứcvàkhaiphá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độ cao, thu thập trithức cho các hệchuyên gia, quan sát dữ liệu Đặc biệt khaiphátrithứcvàkhaiphá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu vàkhaiphá các mẫu, luật Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP) cũng liên quan rất chặt chẽ với khaiphátrithứcvàkhaiphá dữ liệu. .1.1.5. Các ứng dụng của Khaiphátrithức - Thông tin thương mại: o Phân tích dữ liệu marketing, khách hàng o Phân tích đầu tư o Phê duyệt cho vay vốn o Khaiphá gian lận Nhóm 1 Trang 7/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy o Thông tin kỹ thuật: o Điều khiển và lập lịch trình o Quản trị mạng o Phân tích các kết quả thí nghiệm - Thông tin khoa học - Thông tin cá nhân .1.1.6. Các thách thức với Khaiphátrithứcvàkhaiphá dữ liệu - Các cơ sở dữ liệu lớn - Số chiều lớn - Thay đổi dữ liệu vàtrithức có thể làm cho các mẫu đã khaiphá không còn phù hợp. - Dữ liệu bị thiếu hoặc nhiễu - Quan hệ giữa các trường phức tạp - Giao tiếp với người sử dụngvà kết hợp với các trithức đã có. - Tích hợp với các hệ thống khác .1.2. .1.2. Các ứng dụng cụ thể áp dụng kỹ thuật khaiphátrithức Các ứng dụng cụ thể áp dụng kỹ thuật khaiphátrithức .1.2.1. Ứng dụng trong bài toán dự báo từ thông tin kinh tế - xã hội Trong ứng dụng, nhóm sẽ lấy một bài toán dự báo về dân số thế giới đến năm 2015 dựa trên những số liệu thống kê dân số thế giới từ năm 1950 - 2002 bằng phương pháp hồi quy (Regression). Mặc dù số lượng các dữ liệu không lớn như trong các dữ liệu kinh tế - xã hội khác, nhưng bài toán này cũng cho ta thấy các mô hình phân tích khác nhau và các kết quả khác nhau khi khaiphá những dữ liệu đó. Để đơn giản, ta không đề cập đến bước thu thập và tiền xử lý dữ liệu, các dữ liệu tại bảng dưới được coi là hoàn thiện trong bài toán này. Mặt khác, các dữ liệu thực tế được tính vào giữa các năm do vậy các dữ liệu dân số ta tính toán cũng được hiểu ngầm định là vào giữa năm. Sau khi thực hiện khaiphá dữ liệu dân số bằng phương pháp hồi qui đơn với bốn mô hình khác nhau: Linear (hàm tuyến tính), Logarit (hàm lôgarit tự nhiên), Polynomial (hàm đa thức - trong ví dụ này ta chọn đa thức bậc 2), Exponential (hàm mũ), ta xác định được kết quả (Xem bảng 2, 3, hình 2, 3, 4, 5). Nhóm 1 Trang 8/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy Hình 4. Đồ thị biểu diễn dân số thế giới thực tế và lý thuyết theo năm với mô hình Linear Hình 5. Đồ thị biểu diễn dân số thế giới thực tế và lý thuyết theo năm với mô hình Logarit (Ln) Nhóm 1 Trang 9/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy Hình 6. Đồ thị biểu diễn dân số thế giới thực tế và lý thuyết theo năm với mô hình Polynomial Hình 7. Đồ thị biểu diễn dân số thế giới thực tế và lý thuyết theo năm với mô hình Exponential Trong các kết quả đó, ta thấy mô hình đa thức bậc 2 - Polynomial có độ tương quan cao hơn các mô hình khác, do vậy, trong trường hợp cụ thể này ta có thể sử dụng Nhóm 1 Trang 10/31 [...]... người sử dụngTrithức phán đoán M y suy diễn Trithứcthực hành Cơ sở trithức Hình 12: Quan hệ giữa m y suy diễn và cơ sở trithức Nhóm 1 Trang 16/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy Từ vệc phân biệt hai loại tri thức, người ta nói m y suy diễn là công cụ tri n khai các cơ chế (hay kỹ thuật) tổng quát để tổ hợp các trithức phán đoánvà các trithứcthực hành... nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy KẾT LUẬN Chương trình hệchuyêngiaChẩnđoánvàđiềutrịbệnhbằngthuốcĐôngy được x ydựng nhằm giúp con người có thể chẩnđoánvà biết cách điềutrị một số các bệnh thường gặp Nó có thể thay thế vai trò của các lương y, chương trình đã hoàn thành được các chức năng theo y u cầu: đưa ra câu hỏi, ghi nhận câu trả lời từ người sử dụng, chẩn. .. nắm bắt quy trình x ydựnghệchuyêngia Hướng phát tri n: [3] X ydựng có sở dữ liệu đủ lớn để có thể chẩnđoán tất cả các loại bệnh [4] Đưa ra các biện pháp phòng tránh để con người có thể tự phòng bệnh cho bản thân Nhóm 1 Trang 29/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvà Điều trịbệnhbằngthuốcĐôngy TÀI LIỆU THAM KHẢO [1] Phan Huy Khánh, HệChuyên Gia, Giáo trình, 2001 [2] Phan Huy Khanh,... trong các bài toán kinh tế - xã hội và trong nhiều lĩnh vực khác Nhóm 1 Trang 13/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy BÀI TẬP HỆCHUYÊNGIA PHẦN 1 CƠ SỞ LÝ THUYẾT 1.1 Hệchuyêngia 1.1.1 Khái niệm Hệchuyên gia, còn gọi là hệ thống dựa tri thức, là một chương trình m y tính chứa một số trithức đặc thù của một hoặc nhiều chuyêngia con người về một chủ đề cụ thể... những lời khuyên hay những gợi ýđúng đắn (expertise) Hoạt động của hệchuyêngia dựa trên trithức được minh họa như sau: Người sử dụng (User) Nhóm 1 Hệ thống giao tiếp (User Interface) Cơ sở trithức (Knowledge Base) M y suy diễn (Interface Engine) Trang 14/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvàĐiềutrịbệnhbằngthuốcĐôngy Hình 9: Hoạt động của hệchuyêngia Mỗi hệchuyêngia chỉ đặc trưng... luật điều khiển, tạo tri thức, bộ điều khiển đa biến thực hiện tối ưu… Nhóm 1 Trang 11/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvà Điều trịbệnhbằngthuốcĐôngy Dữ liệu vận hành của lò hơi GIAI ĐOẠN HỌC Mô hình hoá lò hơi bằng hàm đa biến y= f(x1,x2,x3…) bằng mạng noron X ydựng cơ sở trithức chứa các mẫu dấu hiệuđiều khiển bằng thuật toán khaiphá dữ liệu GIAI ĐOẠN KIỂM THỬ Các thông số tối ưu hệ. .. trithức một cách tường minh Khả năng thu nhận trithức là y u tố mặc nhiên của nhiều hệchuyêngia - Giao diện người sử dụng (User interface) Là nơi người sử dụngvàhệchuyêngia trao đổi với nhau Cơ sở trithức còn được gọi là bộ nhớ sản xuất (production memory) trong hệchuyêngia Trong một cơ sở tri thức, người ta thường phân biệt hai loại trithức là trithức phán đoán (assertion knowledge) và. .. và Điều trịbệnhbằngthuốcĐôngy 1.2 Các loại Hệchuyêngia Có 2 dạng hệchuyêngia thường dùng đó là hệchuyêngia dựa trên luật và lập luận trên tình huống .1.2.1 Hệchuyêngia dựa trên luật ES dựa trên luật biểu diễn trithức dưới dạng các luật if… then Cách tiếp cận n y thích hợp với kiến trúc ở hình 13, và là một trong những kỹ thuật cổ điển và được sử dụng rộng rãi nhất dùng cho biểu diễn tri. .. chứng của các bệnh .3.2 Demo chương trình Khi người dùng gõ gioithieu Sẽ nhận được kết quả như sau: Nhóm 1 Trang 26/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvà Điều trịbệnhbằngthuốcĐôngy Khi người dùng gõ chandoan Sẽ nhận được kết quả như sau: Nhóm 1 Trang 27/31 Tiểu luận: Công nghệ TrithứcChẩnđoánvà Điều trịbệnhbằngthuốcĐôngy Khi người dùng gõ bai_thuoc _tri( viem_da_day) Sẽ nhận được... đ y mô tả quan hệ hữu cơ giữa m y suy diễn và cơ sở trithức .1.1.4 Biểu diễn trithức trong hệchuyêngia Có rất nhiều phương pháp biểu diễn trithức trong m y - Dùng luật sản xuất, hệchuyêngia dựa trên các luật - Mạng ngữ nghĩa - Ngôn ngữ nhân tạo - Bộ OAV(Object Attributes Values) - Khung (Frame) 1.1.5 Thuật toán tổng quát để thiết kế một hệchuyêngia Begin Chọn bài toán thích hợp Phát biểu và . tài: TÌM HIỂU KHAI PHÁ TRI THỨC VÀ X Y DỰNG HỆ CHUYÊN GIA CHẨN ĐOÁN VÀ ĐIỀU TRỊ BỆNH BẰNG THUỐC ĐÔNG Y Giáo viên hướng dẫn: PGS.TS. Phan Huy Khánh. Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y .1.2. .1.2. Các loại Hệ chuyên gia Các loại Hệ chuyên gia Có 2 dạng hệ chuyên gia thường