1. Trang chủ
  2. » Thể loại khác

ÁP DỤNG PHƯƠNG PHÁP PHÂN CỤM TÌM KIẾM THÔNG TIN CÂY THUỐC NAM. LUẬN VĂN THẠC SĨ KỸ THUẬT

57 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 2,82 MB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH BÁ LỘC ÁP DỤNG PHƯƠNG PHÁP PHÂN CỤM TÌM KIẾM THÔNG TIN CÂY THUỐC NAM LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH BÁ LỘC ÁP DỤNG PHƯƠNG PHÁP PHÂN CỤM TÌM KIẾM THƠNG TIN CÂY THUỐC NAM Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: TS PHẠM MINH TUẤN Đà Nẵng - Năm 2017 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn hoàn thành kết nghiên cứu hướng dẫn trực tiếp TS Phạm Minh Tuấn Mọi tài liệu tham khảo luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian địa điểm cơng bố Các số liệu, kết thực nghiệm luận văn trung thực Người cam đoan Huỳnh Bá Lộc ii TÓM TẮT LUẬN VĂN ÁP DỤNG PHƯƠNG PHÁP PHÂN CỤM TÌM KIẾM THÔNG TIN CÂY THUỐC NAM Huỳnh Bá Lộc, học viên cao học khóa 31, ngành khoa học máy tính Tóm tắt: Hiện nay, theo xu xã hội ngày phát triển, nhiên bệnh tật phát triển theo diễn biến phức tạp, ta phải công nhận ngành y phát triển vượt bậc việc tìm phương pháp điều trị bệnh Tuy nhiên tây y có hạn chế chi phí trị bệnh cao, tiền thuốc đắc, bệnh viện xa nơi người dân sinh sống… Vì người dân có xu hướng chuyển sang sử dụng thuốc nam để trị bệnh, nhiên việc tìm kiếm thuốc gần gủi, dễ tìm xung quanh mơi trường sống khơng dễ Vì chúng tơi mạnh dạng thực đề tài “Áp dụng phương pháp phân cụm việc tìm kiếm thơng tin thuốc nam” với mục đích giúp người bệnh thuận tiện, dễ dàng việc lựa chọn thuốc nam phù hợp, dễ tìm xung quanh mơi trường sống để phục vụ việc chữa bệnh Trong đề tài sử dụng phương pháp phân cụm K-Means để hực đề tài, phương pháp gần gủi, dễ ứng dụng dễ triển khai thực tế Từ khóa: Phân cụm K-Means, Thuốc nam, Đông y, Phân cụm phân cấp APPLICATION OF A CLUSTERING METHOD ON SEEKING THE INFORMATION OF VIETNAMESE MEDICINAL PLANTS Huynh Ba Loc, Master student in Computer Science at course 31st Abstract:Though the rapid socio-economic growth with the increasing burden of disease, nowadays, it has been recognized that there are remarkably abundant achievements related to treatment method in the field of medicine However, the restriction of Western medicine can be observed at different aspects, including highpriced treatment costs, overpriced cost of drug or inconvenient public health center to residential areas, etc According to these reason, people tend to use the Vietnamese medicinal plants in treating diseases, but seeking those facing many challenges Therefore, it is necessary to implement a study titled “Application of a clustering method on seeking the information of Vietnamese medicinal plants” in order to assist the people conveniently and effectively adopting medical plants in their surrounding areas K-Means clustering algorithm have been utilized in this study as its efficient use in practice Key words: K-Means clustering algorithm, Vietnamese traditional medicine, Oriental medicine, Clustering iii MỤC LỤC LỜI CAM ĐOAN .i TÓM TẮT LUẬN VĂN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH vi MỞ ĐẦU 1 Lý chọn đề tài .1 Mục tiêu nhiệm vụ Phương pháp nghiên cứu Giải pháp đề xuất Mục đích ý nghĩa đề tài Bố cục luận văn CHƯƠNG – TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá tri thức 1.2 Khai phá liệu khái niệm liên quan 1.2.1 Khái niệm khai phá liệu 1.2.2 Khai phá liệu khái niệm liên quan 1.2.3 Các lĩnh vực ứng dụng thực tiễn 1.2.4 Các hướng tiếp cận kỹ thuật áp dụng khai phá liệu CHƯƠNG – PHÂN CỤM DỮ LIỆU VÀ CÁCH TIẾP CẬN .8 2.1 Khái niệm chung .8 2.2 Các kiểu liệu độ đo tương tự 2.2.1 Các kiểu liệu 2.2.2 Độ đo tương tự phi tương tự 2.3 Các kỹ thuật tiếp cận phân cụm liệu phương pháp phân hoạch 10 2.3.1 Thuật toán K-MEANS 11 2.3.2 Thuật toán PAM .13 2.3.3 Thuật toán CLARA 15 2.3.4 Thuật toán CLARANS .16 2.4 Các ứng dụng phân cụm liệu .18 CHƯƠNG - ỨNG DỤNG THUẬT TỐN K-MEANS TRONG VIỆC TÌM KIẾM THƠNG TIN CÂY THUỐC NAM .19 iv 3.1 Tổng quan thuốc nam 19 3.2 Thuật toán K-MEANS phân cụm thuốc nam 19 3.3 Mơ tả tốn 20 3.4 Các bước thực 21 3.4.1 Thu thập liệu .21 3.4.2 Chuyển liệu sang ma trận quan hệ .22 3.5 Kết thực nghiệm .24 3.5.1 Giao diện chương trình 24 3.5.2 Các loại gom cụm tìm kiếm 25 3.5.2.1 Nhập thuốc tìm bệnh 25 3.5.2.2 Gom cụm thuốc nam 26 3.5.2.3 Nhập tên bệnh tìm kiếm thuốc nam .27 3.5.2.4 Gom cụm bệnh 28 KẾT LUẬN 30 TÀI LIỆU THAM KHẢO .31 PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN v DANH MỤC CÁC TỪ VIẾT TẮT STT Viết tắt Cụm từ tiếng anh Cụm từ tiếng việt CNTT Information Technology Công nghệ thông tin CSDL Database Cơ sở liệu KPDL Data mining Khai phá liệu PCDL Data clustering Phân cụm liệu vi DANH MỤC CÁC HÌNH Số Tên hình hình Trang 1.1 Quy trình phát triển tri thức 2.1 Hình dạng cụm liệu khám phá K-Means 12 2.2 Trường hợp Cjmp = d(Oj,Om,2) – d(Oj,Om) không âm 14 2.3 Trường hợp Cjmp = d(Oj,Op) – d(Oj,Om) âm dương 14 2.4 Trường hợp Cjmp không 14 2.5 Trường hợp Cjmp = (Oj,Op)-d(Oj.Om,2) âm 15 3.1 Sơ đồ thuật tốn phân nhóm K-Means 20 3.2 Dữ liệu thô 22 3.3 Dữ liệu quan hệ 23 3.4 Sơ đồ tổng thể trình gom cụm 23 MỞ ĐẦU Lý chọn đề tài Việt Nam nước có hệ thực vật phong phú đa dạng Tổng số loài thực vật ghi nhận cho Việt Nam 10.500 lồi, ước đốn hệ thực vật Việt Nam có khoảng 12.000 lồi Trong số này, nguồn tài nguyên làm thuốc chiếm khoảng 30% Kết điều tra nguồn tài nguyên dược liệu Việt Nam giai đoạn 2001 – 2005 Viện Dược liệu (2006) cho biết Việt Nam có 3.948 lồi thực vật bậc cao, bậc thấp nấm lớn dùng làm thuốc Trong nhóm thực vật bậc cao có 3.870 lồi Những thuốc có giá trị sử dụng cao, có khả khai thác tự nhiên thuốc nằm danh mục 185 thuốc vị thuốc thiết yếu Bộ Y tế thuốc thị trường dược liệu quan tâm gồm có 206 lồi thuốc có khả khai thác Hiện người ta có xu hướng quay trở với thuốc có nguồn gốc thiên nhiên tạo hóa chất làm thuốc Xu hướng tác động đến việc sản xuất, thu hái, chế biến, lưu thông, tiêu thụ sử dụng dược liệu thảo mộc Trong tài liệu tra cứu thuốc chủ yếu viết sách, hạn chế đối tượng sử dụng khơng phải nhà chun mơn muốn tìm hiểu sử dụng thuốc Nhiều thuốc mà dân gian nhầm lẫn việc xác định loài dựa tên phổ thơng hay lồi có hình dạng giống nhau, dễ nhầm lẫn thiếu mô tả tỷ mỉ đặc điểm hình thái giải phẫu, dẫn đến việc nhầm lẫn hay gây khó khăn việc lựa chọn thuốc điều trị bệnh Trong khuôn khổ luận văn ứng dụng kỹ thuật phân cụm liệu khai phá liệu để tìm kiếm thơng tin thuốc nam, với mục đích giúp người dân dễ dàng tìm kiếm thông tin thuốc nam để phục vụ cho điều trị bệnh cho dù khơng có kiến thức chun mơn thuốc Mục tiêu nhiệm vụ 2.1 Mục tiêu Đề tài “Áp dụng phương pháp phân cụm việc tìm kiếm thơng tin thuốc nam” dùng phương pháp phân cụm để gom cụm thuốc nam có chung thuộc tính, cơng dụng trị bệnh lại chung với nhau, để người bệnh dễ dàng lựa chọn thuốc dễ tìm nhất, nơi địa phương sinh sống phục vụ cho việc trị bệnh 2.2 Nhiệm vụ Để đạt mục tiêu trên, nhiệm vụ thu thập liệu gồm tất loại thuốc nam biết công dụng loại thuốc Tiếp theo gom thuốc có cơng dụng trị bệnh vào chung nhóm 2.2.1 Về lý thuyết - Nghiên cứu sở lý thuyết khai phá liệu gom cụm - Tìm hiểu thuật tốn phân cụm có - Thu thập liệu thông tin loại thuốc nam - Xử lý thông tin liệu đầu vào cho thuật toán phân cụm 2.2.2 Về thực tiễn Đề tài cho chương trình, mà người dùng tìm kiếm lựa chọn thuốc nam phù hợp để sử dụng điều trị bệnh Đối tượng phạm vi nghiên cứu Từ yêu cầu đề tài ta xác định đối tượng phạm vi nghiên cứu sau : 3.1 Đối tượng nghiên cứu - Các loại thuốc nam có Việt Nam - Các kỹ thuật phân cụm - Nhu cầu người bệnh 3.2 Phạm vi nghiên cứu Trong khuôn khổ luận văn thực nghiệm, giới hạn thực nghiệm áp dụng phương pháp phân cụm để người bệnh dễ dàng lựa chọn loại thuốc mà dễ tìm để trị bệnh Phương pháp nghiên cứu Chúng sử dụng hai phương pháp nghiên cứu lý thuyết nghiên cứu thực nghiệm 4.1 Phương pháp nghiên cứu tài liệu - Thu thập, phân tích tài liệu thông tin liên quan đến đề tài - Xem xét, lựa chọn phương pháp để giải vấn đề - Các tài liệu liên quan đến số nghiên cứu phân cụm liệu 4.2 Phương pháp thực nghiệm - Áp dụng phương pháp phân cụm để tìm kiếm thông tin thuốc nam - Thực nghiệm kiểm tra số ứng dụng phân cụm để tìm kiếm tương quan thuốc nam, phân loại thuốc nam theo công dụng phục vụ nhu cầu tìm kiếm người dùng Giải pháp đề xuất Sử dụng thuật toán K-Means để phục vụ cho việc gom cụm liệu, thuật tốn K-means thuật toán tốt, dễ sử dụng dễ triển khai thực tế Quy trình phân cụm: Từ liệu có - B1: Chọn K tâm ngẫu nhiên listProperties.add(valueHerbal[i].trim()); listlLocalProperties.add(valueHerbal[i].trim()); } for(Entry entry : mapHerbel.entrySet()) { System.out.println(entry.getKey() + entry.getValue()); } for(String property : listlLocalProperties) { getValueInitWhenNull(congDungDanhSachCayMap, property, new HashSet()).add(nameHerbal); } } printFollowFormat(congDungDanhSachCayMap, listNameHerbal); } catch (IOException ex) { System.out.println(ex.getMessage()); } } } Code thuật toán K-means: import java.sql.CallableStatement; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.util.ArrayList; //import java.util.HashSet; //import java.util.Iterator; import java.util.Random; public class ClusteringVideo_kmeans extends Thread { // number of groups int k; int maxN; int hashSize; Random rand = new Random(); public static void main(String[] args) { new ClusteringVideo_kmeans(15, 1000, 50); } public ClusteringVideo_kmeans(int k, int maxN, int hashSize) { System.out.println("Start kmeans for video clustering!!"); this.k = k; this.maxN = maxN; this.hashSize = hashSize; this.start(); } public void run() { while (true) { VideoInfor[] videoList = GetVideo(maxN);// Lay ngau nhien cac thong // tin video tu "database"!! while (true) { // Buoc int[][] data = GetData(videoList, hashSize);// Lay vecto tu tag // cua tat ca video if (data == null) break; int[][] means = GetMeans(data, videoList);// Tinh tam // Buoc int[] new_clusterIndex = getClusterIndex(data, means); if (!Update(videoList, new_clusterIndex)) break; } UpdateDatabase(videoList);// Cap nhat "database" // sleep try { Thread.sleep(1000); } catch (InterruptedException e) { } } } private void UpdateDatabase(VideoInfor[] videoList){ try { Class.forName("com.mysql.jdbc.Driver"); } catch (ClassNotFoundException e) { System.out.println("Where is your MySQL JDBC Driver?"); e.printStackTrace(); return; } try { Connection connection = null; connection = DriverManager getConnection("jdbc:mysql://54.193.63.3:3306/Dutdata","dubudbstaff", "Wx7gFfd35"); for(int i=0;i

Ngày đăng: 09/03/2021, 23:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w