1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn phương pháp nghiên cứu khoa học THUYẾT TIẾN HÓA TRONG CHUỖI THUẬT TOÁN GOM CỤM TRUNG TÂM

41 293 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 1,09 MB

Nội dung

Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thông Tin *** BÀI THU HOẠCH MÔN PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC VÀ TƯ DUY SÁNG TẠO ĐỀ TÀI: THUYẾT TIẾN HÓA TRONG CHUỖI THUẬT TOÁN GOM CỤM TRUNG TÂM GVHD :GS.TSKH HOÀNG KIẾM Người thực hiện: :Dương Trí Dũng Mã học viên: :CH1301008 TP.HCM – 2014 1 LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy GS.TSKH Hoàng Kiếm đã tận tình truyền đạt kiến thức, đóng góp ý kiến cũng như hướng dẫn để em thực hiện bài thu hoạch này. Mặc dù đã rất cố gắng nhưng bài thu hoạch khó tránh khỏi những thiếu sót, em rất mong thầy cô và bạn bè đóng góp ý kiến để bài thu hoạch hoàn thiện hơn. Tp. HCM, tháng 05 năm 2014 Dương Trí Dũng 2 LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong tiểu luận là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Dương Trí Dũng (đã ký) 3 MỤC LỤC 4 LỜI MỞI ĐẦU Khoa học máy tính sẽ mở rộng phạm vi hoạt động của mình nếu vận dụng và phát triển tri thức của các ngành khoa học khác một cách hơp lý. Và khi biết mở rộng một cách khoa học thì khoa học máy tính sẽ không chỉ dừng lại với tư cách là một chuyên ngành của ngành công nghệ thông tin mà sẽ là một chuyên ngành cụ thể hóa sự khoa học của các ngành khoa học khác. Khái niệm “siêu tri thức” đã được đưa ra trong công nghệ tri thức, hy vọng trong một tương lai không xa, khái niệm “siêu chuyên ngành” cũng sẽ được đưa ra như là một sự khẳng định vững chắc về sự hợp tác khoa học giữa những ngành khoa học và sẽ thật sự là một sự tự hào nếu khoa học máy tính đi đầu để đặt nền móng cho điều này. 5 Chương 1. TỔNG QUAN VỀ THUYẾT TIẾN HÓA VÀ CÁC GIẢI THUẬT GOM CỤM Năm 1859 cuốn sách “Nguồn gốc muôn loài” của Charles Darwin được xuất bản. Đây có thể được coi là một trong các ấn phẩm khoa học tiêu biểu và cũng được xem là xương sống của sinh học tiến hóa. Lập luận của Darwin về quá trình tiến hóa đơn giản đến mức, ngày nay dưới góc nhìn của sinh học hiện đại những lập luận đó dường như thật hiển nhiên. Nhưng ở thời điểm bấy giờ, những lập luận đó vẫn chứa nhiều lỗ hổng, chưa đạt được sự bền vững và những bằng chứng đưa ra cũng chưa thật sự thuyết phục. Chính vì thế, ngay trong giới khoa học đương đại, ông nhận được không ít sự phản biện và phản đối quyết liệt. Không chỉ dừng lại ở đó, không chỉ phải đối mặt với nhiều vấn đề của khoa học, ông còn phải chịu áp lực rất lớn từ tôn giáo. Trở lại thời gian trước lúc “Nguồn gốc muôn loài” được xuất bản, vào thời điểm này Darwin có thật sự biết rằng sẽ có vô vàng sự chỉ trích và áp lực từ khoa học đến tôn giáo giành cho ông hay không ? Có lẻ đối với bản thân Darwin câu trả lời cho câu hỏi trên là không quan trọng vì đơn giản Darwin tin rằng các nhà khoa học ủng hộ ông trong thời điểm hiện tại và các nhà khoa học ủng hộ ông trong tương lai sẽ tiếp tục hoàn thành và chứng minh những nguyên lý cơ bản mà ông đã hình dung trong “Nguồn gốc muôn loài”. Và kết quả là hơn 155 năm đã trôi qua, tại đây, ở thời điểm này “Darwin và Nguồn gốc muôn loài” đã chiến thắng. Hơn 155 năm qua, ngành sinh học nói chung và sinh học tiến hóa nói riêng đã làm được những điều mà Darwin tin tưởng và kỳ vọng. Ngày nay, trong sự phát triển của khoa học máy tính, nhiều phương pháp và thuật toán phụ vụ công nghệ thông tin ra đời có nguồn gốc từ toán học, vật lý học, hóa học, sinh học … Trong đó nổi bậc lên là các thuật toán được tạo thành từ học thuyết tiến hóa như: thuật giải di truyền, hay các thuật giải mô tả lại hoạt động của các loài vật trong tự nhiên như: thuật toán đàn kiến, đàn ong đã tạo ra rất nhiều cảm hứng cho khoa học máy tính. 6 Bắt đầu từ giai đoạn này, khoa học máy tính sẽ mở rộng phạm vi hoạt động của mình nếu vận dụng và phát triển tri thức của các ngành khoa học khác một cách hơp lý. Và khi biết mở rộng một cách khoa học thì khoa học máy tính sẽ không chỉ dừng lại với tư cách là một chuyên ngành của ngành công nghệ thông tin mà sẽ là một chuyên ngành cụ thể hóa sự khoa học của các ngành khoa học khác. Khái niệm “siêu tri thức” đã được đưa ra trong công nghệ tri thức, hy vọng trong một tương lai không xa, khái niệm “siêu chuyên ngành” cũng sẽ được đưa ra như là một sự khẳng định vững chắc về sự hợp tác khoa học giữa những ngành khoa học và sẽ thật sự là một sự tự hào nếu khoa học máy tính đi đầu để đặt nền móng cho điều này. Xét riêng về chuyên ngành sinh học tiến hóa, thử thách lớn nhất của chuyên ngành này ở thời điểm này là việc dự báo về tiến hóa. Đã có nhiều bài báo và công trình khoa học cho giả định về sự tiếng hóa như: tương lai về sự tiến hóa của con người sau 1 triệu năm, hoặt sự phát triển của các loài về hình dáng sau 1 triểu năm, hay đây có phải là hình dáng ổn định cuối cùng của loài người hay chưa ? Tất cả chỉ là giả thuyết. Khoa học máy tính cũng là một chuyên ngành khoa học như các ngành khác, ngoài việc vận dụng các công trình khoa học của ngành, nếu biết vận dụng và phát triển các thành quả của chuyên ngành khác một cách hợp lý thì kết quả tạo ra là không có giới hạn. Tiểu luận này sẽ đưa ra góc nhìn của sinh học tiến hóa thông qua các thuật toán của loại giải thuật gom cụm trung tâm, dưới góc nhìn của một chuyên ngành tương đối có bề dành lịch sự như sinh học tiến hóa, góc nhìn sẽ rất khác biệt. 7 Chương 2. CHUỖI THUẬT TOÁN GOM CỤM DƯỚI GÓC NHÌN CỦA HỌC THUYẾT TIẾN HÓA 2.1. Giới thiệu các học thuyết tiến hóa 2.1.1. Học thuyết tiến hóa của Jean-Baptiste Lamarck (1744- 1829) Hình 2.1. Jean-Baptiste Lamarch Nguồn: Jean-Baptiste-Pierre-Antoine de Monet theo [8] Học thuyết tiến hóa của Lamarch được tóm tắt như sau: [7] Tiến hóa không đơn thuần là sự biến đổi mà là sự phát triển có kế thừa lịch sử. Dấu hiệu của tiến hóa: sự nâng cao dần trình độ tổ chức của cơ thể từ đơn giản đến phức tạp. 8 - Nguyên nhân tiến hoá: Sự thay đổi chậm chạp và liên tục của môi trường sống hoặc thay đổi tập quán hoạt động ở động vật. - Cơ chế: Mỗi sinh vật đều chủ động thích ứng với sự thay đổi của môi trường sống bằng cách thay đổi tập quàn hoạt động của các cơ quan. Cơ quan nào hoạt động nhiều thì liên tục phát triển, cơ quan nào không hoạt động thì cơ quan đó dần tiêu biến. - Sự hình thành đặc điểm thích nghi: Do sự tương tác của sinh vật với môi trường theo kiểu "sử dụng hay không sử dụng các cơ quan" luôn được di truyền cho các thế hệ sau. - Hình thành loài mới Loài mới được hình thành từ một loài tổ tiên ban đầu do môi trường thay đổi theo những hướng khác nhau nên lâu ngày các sinh vật sẽ "tập luyện" để thích ứng với các môi trường mới. Ví dụ: Sự hình thành loài hươu cao cổ từ loài hươu cổ ngắn: Dưới thấp không còn lá cây (môi trường sống thay đổi) → Hươu phải chủ động vươn cổ lên cao để lấy lá trên cao (thay đổi tập quán hoạt động của cổ) → Cổ dài dần do hoạt động nhiều và di truyền cho đời sau → Thế hệ kế tiếp, lá cây dưới thấp ngày một khan hiếm nên hươu tiếp tục vươn cổ cao hơn để lấy lá cây trên cao hơn. Cứ như vậy qua nhiều thế hệ, loài hươu cổ ngắn dần dần thành loài hươu cổ dài. 9 Hình 2.2. Hình ảnh tiêu biểu cho thuyết tiến hóa của Lamarch Nguồn: TEORÍA DE DARWIN. DARWINISMO theo [9] 10 [...]... tự thời gian cũng là những lý thuyết đầu tiên trong tiểu luận này Cụ thể KMean là thuật toán ra đời đầu tiên trong chuỗi giải thuật gom cụm mà tiểu luận này đề cập, thuyết tiến hóa của Jean-Baptiste Lamarck cũng là học thuyết đầu tiên theo trình tự thời gian Thuật toán K-Mean đã được trình bày ở phần 2.2.1 Tuy nhiên, để làm rõ điểm tương đồng giữa thuật toán K-Mean và học thuyết của Lamarch, K-Mean sẽ... loại bỏ Thật sự, học thuyết của Lamarch có một sức hấp dẫn thật sự mạnh mẽ đối với tất cả các nhà kho học thời bấy giờ không chỉ trong ngành của ông mà cả những chuyên ngành khác Trong tiểu luận này, K-Mean là thuật toán được trình bày đầu tiên và trong lý thuyết về tiến hóa của tiểu luận này Jean-Baptiste Lamarck cũng được nhắc đến đầu tiên Bên cạnh đó, thuật toán K-Mean và thuyết tiến hóa của Jean-Baptiste... K-Mediod Sự cái tiến đáng chú ý nhất của KMediod so với K-Mean là thay vì chọn tâm của cụm là trung bình cộng của các đối tượng tương ứng trong cụm thì K-Mediod chọn tâm là một đối tượng trong cụm Cũng bắt đầu từ thuật toán này, tất cả các thuật toán “phân cụm trung tâm trở về sau đều xác định tâm của cụm luôn là một đối tượng của cụm Đây cũng là điểm tương đồng của K-Mediod với điều mà Charles Darwin đã... Continued theo [14] 2.2 Giới thiệu các giải thuật gom cụm 2.2.1 Thuật toán K-Mean Thuật toán phân cụm k-means do MacQueen đề xuất trong lĩnh vực thống kê năm 1967 [1] Đây là thuật toán truyền thống được sử dụng phổ biến Ý tưởng của phương pháp này là từ tập ban đầu ta tìm một phép phân hoạch nó vào trong k 15 tập con, trong đó k là số nguyên dương chọn trước cố định Trong mỗi nhóm có một phần tử đặc biệt... hưởng của đối tượng này lên cụm bị loại bỏ tương ứng hay cụ thể hàm đánh giá đối tượng này cho giá trị bằng 0 với cụm tương ứng Xét riêng cho thuật toán PAM, việc làm cho tầm ảnh hướng của đối tượng lên điểm mediod của cụm là một bước tiến quan trọng Tuy nhiên trong các giải thuật gom cụm trung tâm, điều này chưa được tận dụng triết để Tuy nhiên trong các 34 giải thuật gom cụm theo mật độ, đối tượng... gian của Lamarch trong học thuyết tiến hóa của chính tác giả 29 - Ở K-Mean không tồn tại các phần tử ngoại lai (là phần tử không thuộc bất kỳ cụm nào) Điều này tương đồng với ý nghĩa cá thể không phù hợp sẽ bị loại bỏ của Lamarch Điều rất quan trọng, bởi theo học thuyết tiến hóa, giả sử cá thể bị loại bỏ không loại bỏ thì sẽ tiến hóa theo một nhánh khác, điều này làm cho thuyết tiến hóa của Lamarch... 2.2.5 Thuật toán CLARANS Thuật toán CLARANS được Ng & Han đề xuất năm 1994, nhằm để cải tiến cho chất lượng cũng như mở rộng áp dụng cho tập dữ liệu lớn CLARANS cũng sử dụng các đối tượng trung tâm medoids làm đại diện cho các cụm dữ liệu Như đã biết, PAM là thuật toán phân hoạch có kiểu k-medoids Nó bắt đầu khởi tạo k tâm đại diện medoid và liên tục thay thế mỗi tâm bởi một đối tượng khác trong cụm. .. (dạng sống hoặt trầm tích) Vậy nếu đặt giả thuyết nếu không tiến hóa và cũng không muốn trở thành hóa thạch ? Kết quả là tuyệt chủng hay nói theo cách sinh học: loài này sẽ bị loại bỏ Loại bỏ cũng là điểm tương đồng giữa học thuyết của Charles Darwin với thuật toán PAM Nhưng vẫn có sự khác biệt Đối với học thuyết của Darwin, nếu không tiến hóa và cũng không phải hóa thạch thì cá thể đó sẽ bị chọn lọc tự... phần tử trọng tâm Thuật toán K-means là một phương pháp giải bài toán K-means ứng dụng trong phân hoạch dữ liệu ,thuật toán được sử dụng rất rộng rãi hiện nay Bài toán Kmeans được phát biểu như sau: Cho X ⊆ ¡ Tìm một cách phân hoạch tập X thành tâm d , sao cho hàm “chi phí K-means” tiểu, trong đó là chuẩn là một tập điểm cho trước và n = ,…, và gán cho mỗi tập = , gọi S là một tập điểm trong không gian... kiếm không bị giới hạn như đối với CLARA, và trong cùng một lượng thời gian thì chất lượng của các cụm phân được là lớn hơn so với CLARA [5] Chương 3 TIẾN HÓA QUA TỪNG THUẬT TOÁN 3.1 Giai đoạn Jean-Baptiste Lamarck và K-Mean Trước 50 năm “Nguồn gốc muôn loài” của Darwin ra đời, Lamarck đã đưa ra thuyết tiến hóa của mình, nhưng lý thuyết đó so với thuyết tiến hóa của Darwin hết sức khác biệt Tuy nhiên . Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thông Tin *** BÀI THU HOẠCH MÔN PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC VÀ TƯ DUY SÁNG TẠO ĐỀ TÀI: THUYẾT TIẾN HÓA TRONG CHUỖI THUẬT TOÁN GOM CỤM TRUNG TÂM GVHD. sinh học tiến hóa, góc nhìn sẽ rất khác biệt. 7 Chương 2. CHUỖI THUẬT TOÁN GOM CỤM DƯỚI GÓC NHÌN CỦA HỌC THUYẾT TIẾN HÓA 2.1. Giới thiệu các học thuyết tiến hóa 2.1.1. Học thuyết tiến hóa của. đời có nguồn gốc từ toán học, vật lý học, hóa học, sinh học … Trong đó nổi bậc lên là các thuật toán được tạo thành từ học thuyết tiến hóa như: thuật giải di truyền, hay các thuật giải mô tả lại

Ngày đăng: 22/05/2015, 00:07

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hoàng Văn Dũng, 2007. Khai phá dữ liệu web bằng kỹ thuật phân cụm. Luận văn Thạc sĩ. Đại học Sư phạm Hà Nội Sách, tạp chí
Tiêu đề: Khai phá dữ liệu web bằng kỹ thuật phân cụm
[2] Võ Duy Tùng. Thuật toán K-means++. Khoa Toán Tin khóa K52 Đại học Bách khoa Hà Nội Sách, tạp chí
Tiêu đề: Thuật toán K-means++
[4] Nguyễn Trung Sơn, 2009. Phương pháp phân cụm và ứng dụng. Khoa Công nghệ thông tin Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Phương pháp phân cụm và ứng dụng
[5] Nguyễn Thị Hướng, K54A. Phân cụm dữ liệu trong Dataming. Khoa Công nghệ thông tin Đại học Sư phạm Hà Nội Sách, tạp chí
Tiêu đề: Phân cụm dữ liệu trong Dataming
[6] Bí ẩn thế giới các hóa thạch sống. http://beforeitsnews.com/vietnamese/2010/10/bi-an-the-gioi-cac-hoa-thach-song-ky-2-6200.html [09/05/2014] Link
[7] MÔN SINH. http://monsinh.blogspot.com/2013/03/bai-25-hoc-thuyet-lamac-va-hoc-thuyet.html [07/05/2014]Tiếng Anh Link
[8] FAMOUS SCIENTISTS. Jean-Baptiste Lamarck http://www.famousscientists.org/jean-baptiste-lamarck/ [07/05/2014] Link
[9] TEORÍA DE DARWIN. DARWINISMO. http://esdocs.org/docs/index- 7982.html?page=3 [07/05/2014] Link
[10] Charles Darwin, the Copley Medal, and the Rise of Naturalism. http://www.darwingame.org [07/05/2014] Link
[11] Mechanisms of evolution (4 of 4) Natural selection. http://evolution.berkeley.edu/evolibrary/search/imagedetail.php?id=281&topic_id=&keywords= [07/05/2014] Link
[12] From Wikimedia Commons, the free media repository. http://commons.wikimedia.org/wiki/File:PSM_V67_D338_Hugo_de_Vries.png [07/05/2014] Link
[13] Biến dị sinh học. http://vi.wikipedia.org/wiki/Bi%E1%BA%BFn_d%E1%BB%8B_sinh_h%E1%BB%8Dc [07/05/2014] Link
[14] Heredity and Genetics: The Dialogue Continued. http://www.pachs.net/dialogues-with-darwin/item/96 [07/05/2014] Link
[15] K-medoids. http://en.wikipedia.org/wiki/K-medoids [07/05/2014] Link
[16] The PAM Clustering Algorithm. www.cs.umb.edu/cs738/pam1.pdf [07/05/2014] Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w