Luận văn Bài toán nội suy và mạng nơron RBF

Tài liệu Luận văn Bài toán nội suy và mạng nơron RBF: ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG THỊ THU HIỀN BÀI TOÁN NỘI SUY VÀ MẠNG NƠRON RBF LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà nội - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG THỊ THU HIỀN BÀI TOÁN NỘI SUY VÀ MẠNG NƠRON RBF LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà nội – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG THỊ THU HIỀN BÀI TOÁN NỘI SUY VÀ MẠNG NƠRON RBF Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS Hoàng Xuân Huấn 2. GS.TSKH Huỳnh Hữu Tuệ Hà nội - 2009 LỜI CẢM ƠN Luận án được thực hiện tại trường ĐH Công nghệ - ĐHQG Hà nội, dưới sự hướng dẫn của PGS.TS Hoàng Xuân Huấn và GS.TSKH Huỳnh Hữu Tuệ. Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy Hoàng Xuân Huấn, người đã có những định hướng giúp tôi thành công trong việc nghiên cứu của mình. Thầy cũng đã động viên và chỉ bảo cho tôi vượt qua những khó khăn để tôi ...

124 trang | Chia sẻ: haohao | Lượt xem: 1981 | Lượt tải: 3

Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Bài toán nội suy và mạng nơron RBF, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG THỊ THU HIỀN BÀI TOÁN NỘI SUY VÀ MẠNG NƠRON RBF LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà nội - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG THỊ THU HIỀN BÀI TOÁN NỘI SUY VÀ MẠNG NƠRON RBF LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà nội – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG THỊ THU HIỀN BÀI TOÁN NỘI SUY VÀ MẠNG NƠRON RBF Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS Hoàng Xuân Huấn 2. GS.TSKH Huỳnh Hữu Tuệ Hà nội - 2009 LỜI CẢM ƠN Luận án được thực hiện tại trường ĐH Công nghệ - ĐHQG Hà nội, dưới sự hướng dẫn của PGS.TS Hoàng Xuân Huấn và GS.TSKH Huỳnh Hữu Tuệ. Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy Hoàng Xuân Huấn, người đã có những định hướng giúp tôi thành công trong việc nghiên cứu của mình. Thầy cũng đã động viên và chỉ bảo cho tôi vượt qua những khó khăn để tôi hoàn thành được luận án này. Tôi cũng chân thành cảm ơn tới Thầy Huỳnh Hữu Tuệ, Thầy đã cho tôi nhiều kiến thức quý báu về nghiên cứu khoa học. Nhờ sự chỉ bảo của Thầy tôi mới hoàn thành tốt luận án. Tôi cũng xin cảm ơn tới các Thầy Cô thuộc khoa Công nghệ thông tin – ĐH Công nghệ, đã tạo mọi điều kiện thuận lợi giúp tôi trong quá trình làm nghiên cứu sinh. Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè nơi đã cho tôi điểm tựa vững chắc để tôi có được thành công như ngày hôm nay. LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được ai công bố trong các công trình nào khác. Tác giả DANH MỤC CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT RBF Radial Basis Function (Hàm cở sở bán kính) ANN Artificial Neural Network (mạng nơ ron nhân tạo) Feel-forward NN feel-forward neural network (mạng nơ ron truyền tới) Recurent NN Recurent neural network (mạng nơ ron hồi quy) MLP Multi-Layer Perceptrons (Perceptron nhiều tầng) LMS Least-Mean Square (cực tiểu trung bình bình phương) BP Back Propagation (lan truyền ngược) HDH Thuật toán lặp hai pha mới phát triển QHDH Thuật toán lặp một pha mới phát triển QTL Thuật toán huấn luyện nhanh Looney giới thiệu QTH Thuật toán huấn luyện nhanh theo gợi ý của Haykin DANH MỤC CÁC BẢNG Bảng 3.1: Thời gian huấn luyện với tham số dừng  =10-6 ...................................................... 72 Bảng 3.2 : Thời gian huấn luyện của 2500 mốc, q==0.7 và  thay đổi. ................................ 72 Bảng 3.3. Kiểm tra các điểm với q=0.8;  =10-6 và  thay đổi nhận các giá trị 0.9 ;0.8 ;0.6 ... 74 Bảng 3.4: Kiểm tra các điểm với α=0.9;  =10-6 và q thay đổi nhận các giá trị 0.9; 0.7; 0.5 ... 76 Bảng 3.5: Kiểm tra sai số của 8 mốc huấn luyện để so sánh độ chính xác ............................... 78 Bảng 3.6: Kiểm tra 8 điểm chưa được huấn luyện và so sánh tính tổng quát ........................... 80 Bảng 4.1 : So sánh thời gian huấn luyện giữa thuật toán 2 pha HDH và 1 pha QHDH ........... 90 Bảng 4.2: So sánh sai số và thời gian huấn luyện của các thuật toán QHDH, HDH, QTL và QTH với 1331 mốc của hàm 3 biến. ........................................................................................ 93 Bảng 4.3: So sánh tính tổng quát của mạng huấn luyện bởi các thuật toán QHDH, HDH, QTL và QTH với 1331 mốc của hàm 3 biến. .................................................................................... 95 Bảng 5.1: Thời gian huấn luyện mạng với hàm 3 biến với =10-6, q=0.9; =0.9. ................... 99 Bảng 5.2: So sánh thời gian và sai số huấn luyện của hàm 2 biến có 4096 mốc nội suy ....... 108 Bảng 5.3: So sánh thời gian và sai số huấn luyện của hàm 3 biến có 19683 mốc nội suy ..... 110 Bảng 5.4. So sánh tính tổng quát với hàm 2 biến có 4086 mốc tại 10 điểm xa tâm ............... 112 Bảng 5.5. So sánh tính tổng quát với hàm 3 biến có 19673 mốc tại 10 điểm xa tâm ............. 114 Bảng 5.6. So sánh thời gian huấn luyện tăng cường khi có mốc mới. .................................... 116 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Minh họa bài toán nội suy hàm một biến .................................................................. 18 Hình 1.2 : Cấu tạo của nơron sinh học ..................................................................................... 29 Hình 1.4. Mô hình một nơron nhân tạo .................................................................................... 30 Hình 1.5: Đồ thị hàm ngưỡng ................................................................................................... 31 Hình 1.6: Đồ thị hàm tuyến tính ............................................................................................... 32 Hình 1.7: Đồ thị hàm sigmoid .................................................................................................. 32 Hình 1.8: Đồ thị hàm tanh ........................................................................................................ 32 Hình 1.9: Đồ thị hàm Gauss ..................................................................................................... 33 Hình 1.10: Mô hình một mạng nơron 4 tầng truyền tới ............................................................ 34 Hình 1.11 Mô hình các loại mạng nơron .................................................................................. 36 Hình 1.12 Kiến trúc mạng nơron truyền tới nhiều tầng ........................................................... 38 Hình 1.13 Huấn luyện mạng lan truyền ngược ........................................................................ 39 Hình 2.1. Hàm cơ sở bán kính Gauss với  =1 ........................................................................ 45 Hình 2.2. Hàm cơ sở bán kính Multiquadric với  =1 ............................................................. 45 Hình 2.3. Hàm cơ sở bán kính Inverse Multiquadric với r =1 và c = 0 .................................... 45 Hình 2.4. Hàm cơ sở bán kính Cauchy với r =1 và c = 0 ......................................................... 46 Hình 2.5: Mô tả kiến trúc mạng nơron RBF ............................................................................. 48 Hình 2.6: Quá trình hội tụ đến giá trị cực tiểu của thuật toán Gradient, ................................... 51 đường nét đứt ứng với giá trị  lớn, đường nét liền ứng với giá trị  nhỏ ............................... 51 Hình 2.7 Thuật toán huấn luyện nhanh (Quick Training) ........................................................ 53 Hình 2.8 Thuật toán huấn luyện đầy đủ Full Training ............................................................. 56 Hình 2.9 Thủ tục Update(k) của thuật toán huấn luyện đầy đủ ................................................ 56 Hình 3.1 Mô hình minh hoạ miền ảnh hưởng của tham số bán kính  .................................... 63 Hình 3.2 Đặc tả thuật toán lặp hai pha huấn luyện mạng RBF ................................................. 66 Hình 3.3. Pha 1: xác định tham số bán kính ............................................................................. 67 Hình 3.4. Pha 2: xác định trọng số tầng ra ............................................................................... 68 Hình 3.5 Đồ thị thời gian huấn luyện khi các tham số q và  thay đổi .................................... 72 Hình 3.6 Đồ thị kiểm tra sai số khi  thay đổi ......................................................................... 75 Hình 3.7 Đồ thị kiểm tra sai số khi q thay đổi .......................................................................... 77 Hình 3.8 So sánh độ chính xác và thời gian của thuật toán mới và thuật toán Grandient ........ 79 Hình 3.9 Đồ thị so sánh tính tổng quát của thuật toán mới và thuật toán Grandient ................ 81 Hình 4.1 : Thuật toán 1 pha huấn luyện mạng RBF với mốc cách đều .................................... 89 Hình 4.2: Đồ thị so sánh thời gian huấn luyện giữa thuật toán HDH và QHDH ...................... 91 Hình 4.3: So sánh sai số và thời gian huấn luyện của các thuật toán QHDH, HDH, QTL, QTH với 1331 mốc của hàm 3 biến. .................................................................................................. 92 Hình 4.4: So sánh tính tổng quát của mạng huấn luyện bởi các thuật toán QHDH, HDH, QTL và QTH với 1331 mốc của hàm 3 biến. .................................................................................... 94 Hình 5.1 Thủ tục xây dựng mạng RBF địa phương ............................................................... 100 Hình 5.2. Mô hình kiến trúc mạng RBF địa phương .............................................................. 101 Hình 5.3 Thủ tục chia đôi hình hộp n-chiều ........................................................................... 102 Hình 5.4: Cây K-D mô tả tập dữ liệu trong không gian 2 chiều, với N=38, M=10. ............... 103 Hình 5.5: Đồ thị so sánh thời gian và sai số huấn luyện của hàm 2 biến có 4096 mốc. ......... 109 Hình 5.6: So sánh thời gian và sai số huấn luyện của hàm 3 biến có 19683 mốc .................. 111 Hình 5.7: So sánh tính tổng quát với hàm 2 biến có 4086 mốc tại 10 điểm xa tâm. .............. 113 Hình 5.8: So sánh tính tổng quát với hàm 3 biến có 19673 mốc tại 10 điểm xa tâm. ............ 115 Hình 5.9: Đồ thị so sánh thời gian huấn luyện tăng cường khi có mốc mới........................... 116 MỤC LỤC LỜI CẢM ƠN ........................................................................................................................... 3 LỜI CAM ĐOAN ..................................................................................................................... 4 DANH MỤC CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT ................................................................ 5 DANH MỤC CÁC BẢNG ....................................................................................................... 6 DANH MỤC CÁC HÌNH VẼ .................................................................................................. 7 MỤC LỤC ................................................................................................................................. 9 MỞ ĐẦU ................................................................................................................................. 12 CHƯƠNG 1. NỘI SUY HÀM SỐ VÀ MẠNG NƠRON ................................................ 16 1.1. Nội suy hàm số .............................................................................................................. 17 1.1.1. Bài toán nội suy tổng quát ........................................................................... 17 1.1.2. Nội suy hàm một biến ................................................................................. 18 1.1.3. Nội suy hàm nhiều biến ............................................................................... 24 1.2. Giới thiệu về mạng nơron nhân tạo ............................................................................ 27 1.2.1. Mạng nơron sinh học ................................................................................... 28 1.2.2. Mạng nơron nhân tạo ................................................................................... 30 1.2.3. Mạng perceptron nhiều tầng MLP (Multi-Layer Perceptrons) ................... 37 CHƯƠNG 2. MẠNG NƠRON RBF ................................................................................ 43 2.1. Hàm cơ sở bán kính RBF và bài toán nội suy ............................................................ 44 2.1.1. Bài toán nội suy nhiều biến với cách tiếp cận RBF .................................... 44 2.1.2. Kỹ thuật hàm cơ sở bán kính ....................................................................... 46 2.2. Kiến trúc mạng RBF .................................................................................................... 48 2.3. Huấn luyện mạng RBF ................................................................................................ 49 2.3.1. Phương pháp huấn luyện một pha ............................................................... 49 2.3.2. Phương pháp huấn luyện hai pha ................................................................ 53 2.3.3. Phương pháp huấn luyện đầy đủ ................................................................. 54 2.3.4. Nhận xét chung các thuật toán huấn luyện .................................................. 57 2.4. So sánh mạng RBF với mạng MLP ............................................................................ 57 2.5. Kết luận của chương .................................................................................................... 58 CHƯƠNG 3. THUẬT TOÁN MỚI HUẤN LUYỆN MẠNG NỘI SUY RBF ............. 59 3.1. Nền tảng lý thuyết của thuật toán ............................................................................... 59 3.1.1. Các phương pháp lặp đơn giải hệ phương trình tuyến tính ............................ 59 3.1.2. Tóm lược về mạng nội suy RBF với hàm RBF dạng Gauss ......................... 61 3.2. Thuật toán lặp hai pha huấn luyện mạng nội suy RBF ............................................ 64 3.2.1. Định lý cơ bản ................................................................................................ 64 3.2.2. Mô tả thuật toán .............................................................................................. 65 3.2.3. Đặc tính hội tụ ................................................................................................ 68 3.2.4. Độ phức tạp của thuật toán ............................................................................. 69 3.3. Thử nghiệm thuật toán ................................................................................................ 70 3.3.1. Tốc độ hội tụ .................................................................................................. 71 3.3.2. Tính tổng quát ................................................................................................ 73 3.4. So sánh với phương pháp Gradient ............................................................................ 77 3.4.1. So sánh thời gian và độ chính xác của những điểm huấn luyện. ................... 77 3.4.2. So sánh tính tổng quát .................................................................................... 79 3.5. Nhận xét chung về thuật toán lặp hai pha HDH ....................................................... 81 CHƯƠNG 4. BÀI TOÁN NỘI SUY VỚI MỐC CÁCH ĐỀU ....................................... 84 4.1. Biểu diễn bài toán ......................................................................................................... 85 4.2. Định lý cơ sở và mô tả thuật toán ............................................................................... 87 4.2.1. Định lý cơ sở ............................................................................................... 87 4.2.2. Mô tả thuật toán một pha ............................................................................. 88 4.3. Thực nghiệm ................................................................................................................. 89 4.3.1. So sánh thời gian huấn luyện ...................................................................... 90 4.3.2. So sánh sai số huấn luyện ............................................................................ 91 4.3.3. So sánh tính tổng quát ................................................................................. 94 4.4. Nhận xét chung về thuật toán một pha mới ............................................................... 96 CHƯƠNG 5. MẠNG RBF ĐỊA PHƯƠNG ..................................................................... 97 5.1. Giới thiệu ...................................................................................................................... 97 5.2. Mạng RBF địa phương ................................................................................................ 99 5.2.1. Kiến trúc và thủ tục xây dựng mạng .............................................................. 99 5.2.2. Thuật toán phân cụm nhờ cây k-d. ............................................................... 101 5.2.3. Độ phức tạp thuật toán huấn luyện mạng ..................................................... 103 5.3. Tính xấp xỉ tổng quát của mạng nội suy RBF địa phương ..................................... 104 5.4. Bài toán động .............................................................................................................. 106 5.5. Kết quả thực nghiệm .................................................................................................. 106 5.5.1. So sánh thời gian và sai số huấn luyện ......................................................... 107 5.5.2 Tính tổng quát ............................................................................................... 111 5.5.3. Huấn luyện tăng cường ở bài toán động ...................................................... 115 5.6. Nhận xét chung ........................................................................................................... 117 KẾT LUẬN ........................................................................................................................... 118 DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ ...................................... 120 TÀI LIỆU THAM KHẢO ................................................................................................... 121 12 MỞ ĐẦU Nội suy hàm số là một bài toán cổ điển nhưng quan trọng trong giải tích số, nhận dạng mẫu và có nhiều ứng dụng rộng rãi. Bài toán nội suy được mô tả như sau: một hàm chưa xác định cụ thể f:D(Rn)Rm nhưng đã xác định được một tập mẫu  Nkkk yx 1,  trong đó xkRn, ykRm (k =1,..,N) thỏa mãn f(xk)=yk, cần tìm hàm g có dạng đủ tốt đã biết thỏa mãn hệ phương trình nội suy g(xk) = yk k . Trường hợp một chiều, bài toán đã được Lagrange (thế kỷ 18) nghiên cứu giải quyết khá đầy đủ nhờ dùng hàm nội suy đa thức. Cùng với sự phát triển các ứng dụng nhờ sử dụng máy tính trong nửa sau thế kỷ 20, sự phát triển của lý thuyết nội suy Spline và sóng nhỏ (wavelet)… đã tạo nên cơ sở lý thuyết và thực tiễn khá hoàn thiện cho nội suy hàm một biến. Tuy nhiên, đa số các bài toán nội suy trong các ứng dụng thực tiễn lại là bài toán nội suy nhiều biến. Do các khó khăn trong xử lý toán học và nhu cầu ứng dụng trước đây chưa nhiều nên bài toán nội suy nhiều biến mới được quan tâm nhiều trong 50 năm gần đây. Thoạt tiên, người ta phát triển nội suy nhiều biến theo hướng sử dụng đa thức. Các sơ đồ chính được Franke(1982) và Boor(1987) đúc kết (có thể xem [9]). Các sơ đồ này có độ phức tạp cao và kết quả ứng dụng không tốt. Phương pháp k- láng giềng gần nhất được Cover và Hart (1967) đề xuất khá sớm về mặt lý thuyết, nhưng chỉ đến khi Duda và Hart (1973) đưa ra tổng quan đầy đủ thì phương pháp này mới được ứng dụng rộng rãi và được phát triển thêm theo hướng hồi qui trọng số địa phương. Cách tiếp cận này cho ra một phương pháp đơn giản dễ sử dụng. Tuy nhiên, nhược điểm cơ bản của nó là chỉ xác định thu hẹp địa phương của hàm nội suy khi biết điểm cần tính giá trị hàm, nên không dùng được cho bài toán cần xác định trước hàm nội suy để nội suy hàm số tại điểm tùy ý. Trong 30 năm gần đây. Mạng nơron nhân tạo là cách tiếp cận tốt để khắc phục những nhược điểm trên. Mô hình đầu tiên về mạng nơron nhân tạo được McCelland và Pit (1943) đề xuất để nhận dạng mẫu. Rosenblatt (1953) và Widrow 13 (1960) đã xây dựng các perceptron một tầng theo mô hình này, với các luật học sửa lỗi và bình phương tối thiểu. Việc nghiên cứu tiếp theo bị chững lại gần một thập niên do nhận xét của Minsky và Papett(1969) về các nhược điểm của perceptron một tầng. Đến giữa những năm 1980 mạng MLP được nghiên cứu và ứng dụng lại nhờ thuật toán lan truyền ngược sai số (Rumelhart và McCelland 1986; Parker 1985) và trở thành công cụ mạnh để xấp xỉ hàm nhiều biến. Tuy vậy, mạng MLP có thời gian huấn luyện lâu, chất lượng mạng tùy thuộc vào hiệu quả giải bài toán cực trị và đến nay chưa có phương pháp tốt nào để xác định kiến trúc đủ tốt cho mạng. Hơn nữa chủ yếu nó chỉ dùng để xấp xỉ hàm chứ không bảo đảm có thể giải được bài toán nội suy. Powell (1987) đề xuất dùng các hàm cơ sở bán kính để giải quyết bài toán nội suy nhiều biến [49]. Kỹ thuật này được Broomhead và Low (1988) giới thiệu như là mạng nơron [16]. Mạng RBF với hàm cơ sở bán kính có thể xem là dạng lai của các phương pháp học dựa trên mẫu (k-lân cận gần nhất và hồi quy trọng số địa phương) và mạng nơron MLP. Như mạng nơron MLP, hàm nội suy của mạng xác định từ dữ liệu huấn luyện sau khi học, chất lượng mạng tùy thuộc vào thuật toán huấn luyện. Mạng RBF giống với các phương pháp học dựa trên mẫu ở chỗ hàm nội suy là tổ hợp tuyến tính của các hàm RBF, các hàm này chỉ có ảnh hưởng địa phương nên có thể xử lý chúng mà không ảnh hưởng nhiều lên toàn miền xác định. Mạng RBF chủ yếu dùng để xấp xỉ hàm (mà nội suy là bài toán riêng). Ưu điểm của mạng RBF là thời gian huấn luyện nhanh và luôn đảm bảo hội tụ đến cực trị toàn cục của sai số trung bình phương. Việc xác định tâm, số hàm cơ sở thế nào là tốt vẫn là bài toán mở. Trường hợp số dữ liệu huấn luyện ít (Looney khuyên là nhỏ hơn 200 [38]) thì có thể lấy các mốc nội suy là tâm hàm RBF ở tầng ẩn, mạng này có thể cho nghiệm đúng của hệ phương trình nội suy nên gọi là mạng nội suy RBF. Khi số mốc nhiều, do các hạn chế trong kỹ thuật giải hệ phương trình tuyến tính, nên các phương pháp xây dựng mạng và huấn luyện hiện có vẫn tốn thời gian và hiệu quả chưa cao. Mặc dù so với mạng MLP thì việc huấn luyện chúng vẫn nhanh và dễ hơn nhiều [38]. Đến nay cùng với mạng MLP, mạng RBF tỏ ra là một 14 phương pháp hiệu quả và được ứng dụng rộng rãi để nội suy và xấp xỉ hàm nhiều biến ( xem [14,15,30]). Thuật toán huấn luyện mạng có vai trò rất quan trọng, nó ảnh hưởng trực tiếp đến tính hội tụ và tổng quát của mạng. Trong những năm gần đây đã có nhiều tác giả đề xuất cải tiến thuật toán huấn luyện mạng RBF. Như N. Benoudjit và các cộng sự (2002) [10] đã cải tiến bằng cách tối ưu tham số độ rộng bán kính. M. Lazaro và cộng sự (2003)[37] đề xuất thuật toán mới để tăng tốc độ hội tụ. K.Z Mao và cộng sự (2005) [41] đưa ra cách chọn số nơron tầng ẩn dựa trên cấu trúc dữ liệu để tăng tính tổng quát của mạng. Ta thấy rằng hầu hết những thuật toán này vẫn xác định trọng số tầng ra theo phương pháp Gradient hoặc biến thể của nó. Thời gian huấn luyện lâu, chưa ước lượng được sai số. Khi số lượng dữ liệu lớn sẽ gặp nhiều khó khăn. Một vấn đề có tính thời sự đang đặt ra trong các bài toán điều khiển học và khai thác tri thức từ dữ liệu (Data mining) là cần giải tốt các bài toán nội suy thời gian thực, trong đó việc xác định lại hàm nội suy khi có dữ liệu bổ sung phải hoàn thành kịp thời. Nhiệm vụ đặt ra cho tác giả luận án này là nghiên cứu và đề xuất các thuật toán huấn luyện mạng nội suy hiệu quả cho các trường hợp có số mốc nội suy lớn và tìm giải pháp cho bài toán thời gian thực. Trong luận án chúng tôi đề xuất một thuật toán lặp hai pha huấn luyện mạng nội suy RBF. Pha thứ nhất xác định tham số độ rộng cho các hàm cơ sở bán kính sao cho các trọng số tầng ra được tìm nhờ phép lặp xác định điểm bất động của một ánh xạ co trong pha sau. Phân tích toán học và kết quả thực nghiệm cho thấy thuật toán có những ưu điểm vượt trội so với những thuật toán thông dụng: dùng được khi số mốc nội suy lớn (hàng chục ngàn mốc), dễ ước lượng sai số huấn luyện, thời gian huấn luyện ngắn, tính tổng quát cũng tốt hơn và dễ song song hoá. Trong trường hợp bài toán nội suy có mốc cách đều, thay cho khoảng cách Euclide, chúng tôi dùng khoảng cách Mahalanobis thích hợp và cải tiến thuật toán hai pha thành 15 thuật toán một pha. Phân tích toán học và kết quả thực nghiệm cho thấy thuật toán này cải thiện đáng kể chất lượng mạng so với thuật toán hai pha cả về thời gian huấn luyện và tính tổng quát. Đối với bài toán thời gian thực, đặc biệt là bài toán động, chúng tôi đề xuất kiến trúc mạng địa phương. Mạng này chia miền xác định thành các miền con chứa số mốc nội suy tương đối bằng nhau, nhờ phương pháp phỏng theo thuật toán xây dựng cây k-d quen biết. Sau đó dùng thuật toán huấn luyện hai pha để huấn luyện mạng RBF trên mỗi miền con và ghép chúng lại theo ý tưởng nội suy spline. Phân tích toán học và kết quả thực nghiệm cho thấy chất lượng mạng có nhiều ưu điểm nổi trội. Các kết quả trên được công bố trong tạp chí khoa học quốc tế Signal Processing và International Journal of Data Mining, Modelling and Management Science (IJDMMM). Hội nghị quốc tế của IEEE và hội thảo trong nước. Ngoài phần kết luận, luận án được tổ chức như sau. Chương 1 giới thiệu những điểm cơ bản của bài toán nội suy hàm số và mạng nơron nhiều tầng truyền tới cần cho nội dung chính của luận án bao gồm: nội suy đa thức cho hàm một biến, các khái niệm và tiếp cận chính đối với bài toán nội suy hàm nhiều biến, giới thiệu tóm tắt về mạng nơron nhân tạo và các mạng nơron nhiều tầng truyền tới. Chương 2 giới thiệu các khái niệm cơ bản về mạng nơron RBF và mạng nội suy với hàm cơ sở bán kính dạng Gauss. Sau đó chúng tôi mô tả các thuật toán thông dụng để huận luyện mạng. Chương 3 trình bày thuật toán hai pha mới (gọi là thuật toán HDH) để huấn luyện mạng nội suy RBF bao gồm cả phân tích toán học và kết quả thực nghiệm. Chương 4 trình bày thuật toán một pha mới áp dụng cho bài toán nội suy với mốc cách đều. Chương 5 trình bày mạng địa phương RBF áp dụng cho bài toán động, hay bài toán thời gian thực. Cuối cùng chúng tôi đưa ra một số kết luận và đề xuất các nghiên cứu tiếp theo. 16 CHƯƠNG 1. NỘI SUY HÀM SỐ VÀ MẠNG NƠRON Nội suy hàm số là một bài toán quan trọng trong giải tích số và nhận dạng mẫu [5,22,30,36,38] đang được ứng dụng rộng rãi. Bài toán nội suy hàm một biến đã được nghiên cứu từ rất sớm gắn liền với các tên tuổi lớn như Lagrange và Newton. Nhưng trong các ứng dụng thực tế ta thường phải giải quyết bài toán nội suy nhiều biến và nó chỉ mới được quan tâm nghiên cứu trong năm mươi năm gần đây cùng với sự phát triển mạnh mẽ của khoa học máy tính. Đầu tiên, người ta phát triển nội suy nhiều biến theo hướng sử dụng đa thức nhưng không hiệu quả do phức tạp trong tính toán và kết quả ứng dụng không tốt. Các phương pháp k- lân cận gần nhất Cover và Hart (1967) và hồi quy trọng số địa phương cho một giải pháp đơn giản, dễ sử dụng với bài toán này và đang là một công cụ tốt. Tuy nhiên các phương pháp này không thể huấn luyện trước được, mà chỉ xác định khi biết điểm cần nội suy. Như vậy, việc xác định giá trị hàm nội suy tại mẫu mới thực hiện khi đã biết mẫu để xác định láng giềng (lân cận). Cách tiếp cận này sẽ gặp khó khăn khi áp dụng cho các bài toán cần xác định trước hàm nội suy. Mạng nơron nhân tạo là cách tiếp cận tốt để khắc phục những nhược điểm trên. Mặc dù còn vướng nhiều vấn đề mở về lý thuyết, nhưng hiện nay mạng nơron nhân tạo là một công cụ hữu hiệu để giải các bài toán nội suy hàm nhiều biến trong các bài toán ứng dụng thực tiễn. Trong đó thông dụng nhất là mạng MLP và mạng RBF ( xem [14,15,30]). Chương này giới thiệu những điểm cơ bản của bài toán nội suy hàm số và mạng nơron nhiều tầng truyền tới (MLP) cần cho nội dung chính của luận án. Mục 1.1 giới thiệu về bài toán nội suy bao gồm nội suy đa thức cho hàm một biến và các khái niệm và tiếp cận chính đối với bài toán nội suy hàm nhiều biến. Mục 1.2 trình 17 bày tổng quan về mạng nơron nhân tạo và giới thiệu về các mạng nơron nhiều tầng truyền tới. 1.1. Nội suy hàm số Trong nhiều bài toán, ta cần tính giá trị của một hàm số tại những điểm của đối số trong miền D nào đó của không gian n-chiều, nhưng không có biểu diễn tường minh hàm số mà chỉ xác định được giá trị của hàm số trên một tập hữu hạn điểm của D. Việc xác định gần đúng hàm này dẫn tới bài toán nội suy và xấp xỉ hàm số. 1.1.1. Bài toán nội suy tổng quát Bài toán nội suy tổng quát được phát biểu như sau. Xét hàm nhiều biến chưa biết f : D (Rn)Rm nhưng xác định được một tập mẫu gồm N phần tử  Nkkk yx 1,  trong đó xkRn, ykRm ( k=1,..,N) thỏa mãn f(xk) = yk . Ta cần tìm hàm g có dạng đủ tốt đã biết thỏa mãn: g(xi) = yi,  i = 1,...,N (1.1) Các điểm xk được gọi là các mốc nội suy còn hàm g gọi là hàm nội suy của f . Hàm nội suy thường được dùng để xấp xỉ hàm f trên miền D, giá trị hàm nội suy tính được tại điểm x bất kỳ trên miền D gọi là giá trị nội suy của hàm f tại x (hay gọn hơn là giá trị nội suy tại x nếu không có sự nhầm lẫn). Hình 1.1 minh họa hàm nội suy trong trường hợp một biến. 18 Hình 1.1 Minh họa bài toán nội suy hàm một biến Những giá trị yk tại mốc nội suy tương ứng xk có thể chứa nhiễu và nhiều trường hợp việc giải hệ phương trình (1.1) không có nghiệm đúng đối với dạng hàm g đã biết hoặc cho kết quả nội suy không tốt. Một cách tiếp cận khác là thay đòi hỏi thỏa mãn hệ phương trình (1.1) bởi một tiêu chuẩn xấp xỉ tốt nhất (đủ tốt) nào đó, thông dụng nhất là tiêu chuẩn cực tiểu tổng bình phương sai số (gọi là bình phương tối thiểu cho gọn). Với cách tiếp cận này ta có bài toán xấp xỉ. 1.1.2. Nội suy hàm một biến Bài toán nội suy hàm một biến đã được nghiên cứu từ hơn ba thế kỷ đến nay và khá hoàn thiện, đặc biệt là nội suy bằng đa thức. Trước khi đi vào trường hợp đa thức, ta xét lược đồ giải quyết tổng quát. a) Lược đồ giải quyết cho nội suy hàm một biến. Trường hợp hàm một biến, bài toán nội suy được phát biểu như sau: Một hàm số y =f(x) chỉ xác định được tại các điểm x0 = a<x1<...<xn= b và yi=f(xi) i≤n. Ta cần tìm một biểu thức giải tích đủ đơn giản g(x) để xác định giá trị gần đúng của y : y  g(x) tại các điểm x  [a,b] sao cho tại các điểm xi ta có: g(xi) = yi. 19 Lược đồ giải quyết : Giả sử đã biết các giá trị yi của hàm số tại các mốc nội suy xi tương ứng. Chọn trước một hàm phụ thuộc (n+1) tham số độc lập njjc 0 (c0,c1,...,cn,x) thoả mãn các điều kiện nhất định. Người ta xác định các cj cho biểu thức nội suy nhờ hệ phương trình. (c0,c1,...,cn, xk) = yk k = 0,...,n (1.2) Nếu (c0,c1,...,cn,x) là hàm phi tuyến thì hệ phương trình (1.2) không đảm bảo duy nhất nghiệm nên người ta thường chọn  có dạng tuyến tính: (c0,c1,...,cn, x) = )( 0 xc k n k k  (1.3) Trong đó cj (j=1,...,n) là các tham số cần tìm và  nkx 0k )(  là họ hàm độc lập tuyến tính cho trước thoả mãn điều kiện định thức ma trận. |i(xk)| 0 (1.4) Khi đó các cj trong hệ (1.2) luôn giải được duy nhất nghiệm. Các hàm số k(x) thường được chọn theo kinh nghiệm hoặc đơn giản là hàm lũy thừa xk để dễ tính toán. Với các  n jj c 0 đã xác định nhờ điều kiện (1.2). Hàm g(x)=(c0,c1,...,cn, x) là hàm nội suy và dùng làm công thức để tính giá trị f(x). Khi g lấy trong lớp đa thức bậc n ta dễ dàng xác định được nhờ đa thức nội suy Lagrange mà không phải thực hiện thủ tục giải hệ phương trình tuyến tính. b) Đa thức nội suy Lagrange Trường hợp f là hàm một biến với n +1 mốc nội suy và hàm nội suy dạng đa thức thì nó phải là đa thức bậc n để hệ phương trình (1.2) có duy nhất nghiệm 20 (xem [5,22,36]). Khi đó hàm nội suy g(x) là đa thức nội suy Lagrange Ln(x) và được xây dựng như sau. Xây dựng đa thức nội suy Lagrange. Ký hiệu Ln(x) là đa thức nội suy bậc n cần tìm. Ta xây dựng đa thức này dưới dạng )()( 0 xLyxL n k k nkn    (1.5) Trong đó, Lkn(x) có n nghiệm x = xj ; j k và Lkn(xj) = 10 khi k j khi k j   hay Lkn(xk) = kj jn ; Dễ dàng kiểm tra được        ki ik ki i k n xx xx xL )( )( )( (1.6) Thỏa mãn các điều kiện đã nêu và hàm g(x) = Ln(x) thoả mãn hệ phương trình (1.1) và là đa thức nội suy cần tìm. Sai số nội suy tại điểm x được ước lượng bằng công thức: ( 1) 0 ( )( ) ( ) ( 1)! n n n k k f cR x x x n      Với c là điểm thích hợp thuộc khoảng [a,b]. c) Công thức nội suy Newton cho trường hợp mốc cách đều Trường hợp các mốc nội suy thỏa mãn điều kiện: xi+1 – xi = xi = h = ( ) ( 0,1,..., 1)b a i nn     ta nói các mốc này cách đều. Khi đó với phép biến đổi t h xx  0 các đa thức Lkn là đa thức bậc n theo t . Đa thức này chỉ phụ thuộc vào số mốc n và giá trị hàm tại các mốc nên có nhiều cách biểu diễn đơn giản, dễ sử dụng. Ở đây chúng tôi giới thiệu công thức Newton tiến để biểu diễn đa thức này. Trước hết ta xây dựng công thức tổng quát. 21 Công thức tổng quát Đặt, x - x0 = th (1.7) Ta có,      nk hktxx hktxx k k )( )( (1.8) Thay vào (1.6) ta được: )!(!)1( ))...(1)(1)...(1( )( )( )()( knk ntktkttt ik it tPxL kn ki kik n k n         (1.9) Hay, ( ) ( 1) ( 1)...( 1)( 1)...( ) ! k k n k n n CP t t t t k t k t n n         (1.10) Biểu thức này của ( )knP t là hàm không phụ thuộc vào các mốc nội suy nên hàm nội suy Pn(t) = Ln(x) cũng vậy. Các biểu diễn công thức này qua các sai phân hữu hạn cho ta các dạng công thức nội suy Newton. Ở đây sẽ trình bày công thức nội suy Newton tiến. Trước khi giới thiệu công thức, ta cần định nghĩa sai phân hữu hạn của hàm số. Sai phân hữu hạn Trường hợp các mốc cách đều, tức là: xi+1 – xi = xi = h =const (i=1,2,...,n-1). Các sai phân hữu hạn của hàm y = f(x) được xác định như sau: Sai phân cấp một: yi = yi+1 – yi Sai phân cấp hai: 2yi = yi+1 – yi ---------------------------------------- Sai phân cấp k: kyi = k-1yi+1 – k-1yi Với các sai phân được xác định như trên ta có công thức nội suy Newton như sau. Công thức nội suy Newton 22 Với phép biến đổi x-x0 = th như trên đa thức nội suy được biễu diễn bởi công thức : 00 2 00 ! )1)...(1( !2 )1()()( y n ntttyttytytPxL nn k n  (1.11) với sai số với hàm f là : 1 ( 1)( 1)...( )( ) ( ) ( 1)! n n n t t t nR x h f c n     (1.12) Sai số này cũng có thể ước lượng thô nhờ thêm vào mốc xn+1: ))...(1( )!1( )( 0 1 nttt n yxR n n    (1.13) Khi có nhiều mốc nội suy, hàm nội suy sẽ là đa thức bậc cao. Chúng thuộc loại hàm không ổn định (sai số đối số bé nhưng sai số hàm số lớn), và dễ xảy ra hiện tượng phù hợp trội (overfitting). Tức là cho giá trị nội suy có sai số lớn tại các điểm khác mốc nội suy. Để khắc phục hiện tượng này, phương pháp thông dụng là dùng hàm nội suy Spline. d) Nội suy Spline Để khắc phục hiện tượng phù hợp trội khi có nhiều mốc nội suy, người ta dùng các đa thức bậc thấp trên mỗi đoạn con của đoạn [a,b] và ghép trơn đến mức cần thiết trên toàn đoạn thành hàm nội suy, các hàm này có tên gọi là hàm Spline. Hàm Spline Định nghĩa: Hàm Spline bậc (m,k) trên đoạn [a,b] là hàm số có các tính chất sau : 1. Tồn tại phân hoạch a = x0 < x1 <....< xn = b của [a,b] sao cho trên mỗi đoạn j = [xj, xj+1] j=0,...,n-1, nó là đa thức bậc m 2. Trên [a,b] nó có đạo hàm cấp k liên tục. 23 Từ định nghĩa ta thấy để hàm thoả mãn điều kiện 2 thì chỉ cần đạo hàm các cấp  k ở hai phía của mỗi điểm chia xi (i=1,...,n-1) bằng nhau là đủ. Vì vậy nó còn được gọi là hàm ghép trơn. Tập các hàm Spline bậc (m,k) trên đoạn [a,b] được ký hiệu là SPkm[a,b] nếu k = m-1 ta gọi Spline bậc m và ký hiệu SPm[a,b]. Xây dựng hàm nội suy Spline bậc m Giả sử y = f(x) đo được tại n+1 mốc nội suy a = x0 < x1 <....< xn = b là yi = f(xi) và Sm SPm[a,b] là hàm Spline được xác định bởi phân hoạch này. Ta ký hiệu Pk là thu hẹp của Sm trên đoạn k = (xk, xk+1), k=0,...,n-1. Bởi vì Pk là đa thức bậc m nên cần xác định m+1 hệ số của đa thức trên mỗi đoạn. Vì có n đoạn nên hệ số cần tìm là n(m+1) ẩn số. Tại mỗi điểm ghép xi (i=1,...,n-1) ta có m phương trình : P(k)i-1(xi) = P(k)i(xi), k=0,1,...,m-1 (1.14) Bới vì có n-1 điểm ghép trơn nên có (n-1)m phương trình như vậy. Ngoài ra có thêm n+1 phương trình từ số liệu ban đầu: Sm(xi) = yi, i=0,1,...,n nên ta có (n+1)+(n-1)m phương trình. Vậy còn n(m+1) – (n+1) – (n-1)m = m-1 bậc tự do. Do đó để Sm được xác định ta cần có thêm m-1 điều kiện nữa. Trong thực hành ta có thể tìm Spline nội suy bậc m dựa trên mệnh đề sau [5]: Mệnh đề : Nội suy bậc m của hàm y = f(x) với mốc nội suy a= x0 < x1 <....< xn =b: yk = f(xk) hoàn toàn xác định nếu biết đa thức nội suy của nó trên đoạn tuỳ ý j = (xj, xj+1). 24 1.1.3. Nội suy hàm nhiều biến Bài toán nội suy nhiều biến là bài toán thường gặp trong ứng dụng thực tiễn. Để tiện cho trình bày, ta ký hiệu hàm nội suy là )(x thay cho g(x) và bài toán được phát biểu lại như sau. a) Bài toán nội suy nhiều biến. Xét miền giới nội D trong Rn và f : D (Rn)Rm là một hàm liên tục xác định trên D. Người ta chỉ mới xác định được tại N điểm x1,x2….xN trong D là f(xi) = yi với mọi i=1,2…,N và cần tính giá trị của f(x) tại các điểm x khác trong D. Ta tìm một hàm )(x xác định trên D có dạng đã biết sao cho:  (xi)=yi ,  i=1,…N. (1.15) và dùng  (x) thay cho f(x). Khi m >1, bài toán nội suy tương đương với m bài toán nội suy m hàm nhiều biến giá trị thực, nên để đơn giản ta chỉ cần xét với m=1. b) Các cách tiếp cận chính giải quyết bài toán Các hàm nội suy )(x được chọn dưới dạng thuận tiện cho sử dụng, nên mặc dù các chuyên gia giải tích số đã có những nỗ lực để phát triển lý thuyết nội suy đa thức, nhưng tính toán thường phức tạp và dễ có hiện tượng phù hợp trội. Mặt khác, đòi hỏi hàm nội suy thoả mãn chặt điều kiện (1.15) gây nên các khó khăn trong tính toán và chọn lớp hàm nội suy mà vẫn có thể cho kết quả xấp xỉ tồi (phù hợp trội). Một hướng đang được ứng dụng rộng rãi là tìm hàm xấp xỉ tốt nhất (hoặc đủ tốt) và dùng nó để nội suy giá trị hàm số tại các điểm khác mốc nội suy. Trong trường hợp này ta xem nó là nghĩa suy rộng của bài toán nội suy. Mặc dù các kết quả trong luận án là xét bài toán nội suy phát biểu ở trên nhưng đề so sánh với các phướng pháp được ứng dụng thông dụng, chúng tôi xét cả bài toán xấp xỉ và cách tiếp cận giải quyết. Sau đây là các phương pháp được ứng dụng rộng rãi nhất. 25  Học dựa trên mẫu. Thuật ngữ này được T.Mitchell [54] dùng để chỉ các phương pháp k-lân cận gần nhất, phương pháp hồi quy trọng số địa phương.  Mạng Nơron MLP.  Mạng Nơron RBF (mặc dù T. Mitchell cũng xếp vào lớp học dựa trên mẫu nhưng chúng tôi tách riêng dựa theo đặc tính huấn luyện) Trong đó phương pháp k-lân cận gần nhất với trọng số nghịch đảo khoảng cách cho kết quả là hàm nội suy, còn hồi quy trọng số địa phương và mạng nơron MLP chỉ cho kết quả là hàm xấp xỉ. Các phương pháp học dựa trên mẫu không thể huấn luyện trước được mà chỉ xác định được khi biết điểm cần nội suy. Chất lượng của các mạng nơron tuỳ thuộc vào phương pháp huấn luyện, mạng RBF huấn luyện đầy đủ với số hàm cơ sở ít hơn số mốc nội suy chỉ cho kết quả là hàm xấp xỉ. Dưới đây sẽ giới thiệu tóm tắt phương pháp k-lân cận gần nhất với trọng số nghịch đảo khoảng cách và bài toán xấp xỉ nhiều biến xác dịnh theo phương pháp bình phương tối thiểu. Mạng MLP được giới thiệu ở mục 1.2 còn mạng nơron RBF sẽ được trình bày trong chương 2. c) Phương pháp k-lân cận gần nhất Trong phương pháp này, người ta chọn trước số tự nhiên k. Với mỗi Dx , ta xác định giá trị )(x qua giá trị của f tại k mốc nội suy gần nó nhất như sau. Ký hiệu z1,…,zk là k mốc nội suy gần x nhất và d(u,v) là khoảng cách của hai điểm u,v bất kỳ trong D, khi đó )(x xác định như sau:    k j jj zfx 1 )()(  (1.16) Trong đó i được xác định bởi: 26         k j j i i zxd zxd 1 1 1 ),( ),( (1.17) Dễ thấy rằng khi x dần tới các mốc nội suy thì )(x xác định như trên hội tụ đến giá trị của f tại mốc nội suy tương ứng khi đối số hội tụ tới mốc này. Phương pháp này có ưu điểm là cách tính toán đơn giản và dễ thực hiện, tuy nhiên trên thực tế việc xác định giá trị k phù hợp là một vấn đề khó (phụ thuộc rất nhiều vào kinh nghiệm đánh giá bài toán thực tế). Hơn nữa, mỗi khi cần xác định giá trị của một điểm, phương pháp này lại tìm trong tất cả các giá trị đã biết để tìm được các mốc gần nhất mới xác định được hàm nội suy, chứ không tính trước hàm để dùng được như mạng nơron. Tuy vậy, phương pháp không đánh giá chặt chẽ được nhưng nó vẫn được ưa dùng trong thực nghiệm. d) Xấp xỉ bình phương tối thiểu hàm nhiều biến Bài toán xấp xỉ hàm nhiều biến được xem là bài toán tổng quát mà nội suy là một trường hợp đặc biệt. Phương pháp xấp xỉ bình phương tối thiểu là phương pháp hiệu quả để giải bài toán này. Bài toán xấp xỉ hàm nhiều biến. Giả sử )(xfy  là một hàm nào đó, đo được tại N điểm  Nkkx 1 thuộc miền D giới nội trong nR là Nkxfy kk ..1);(  với Dxxx knkk  ),...,( 1 và mk Ry  . Ta cần tìm một hàm )(x có dạng cho trước sao cho sai số tại các điểm đã biết là tốt nhất có thể được và dùng nó để xấp xỉ hàm )(xf . Người ta thường dùng tiêu chuẩn cực tiểu tổng bình phương sai số để tìm hàm )(x , trong đó hàm này được chọn dưới dạng ),...,,,()( 21 kcccxx  theo cách xác định các tham số kccc ,...,, 21 để cho tổng sai số    N i ii yx 1 2 )( nhỏ nhất. Chuẩn 27 thường dùng là chuẩn Euclide:    m j i j i j ii yxyx 1 2))(()(  để dễ tìm cực trị theo phương pháp nhân tử Lagrange hoặc Gradient. Nếu )(x là hàm tuyến tính thì bài toán có duy nhất nghiệm và dễ dàng xác định được. Khi đó ta nói )(x là hàm xấp xỉ tốt nhất của )(xf theo bình phương tối thiểu, hay gọn hơn )(x là hàm xấp xỉ bình phương tối thiểu của )(xf . Về mặt hình học, đồ thị hàm )(xy  không đòi hỏi phải đi qua các điểm mốc như trong phép nội suy. Trong nhiều trường hợp khi số mốc nội suy lớn (N lớn), để giảm bớt chi phí tính toán, thay vì tính toán với Ni ..1 người ta có thể cho Mi ..1 với M<N để tính    M i ii zfz 1 2 )()( nhỏ nhất, với tập  Mkkz 1 là những điểm gần x nhất. Phương pháp này thường được gọi là phương pháp địa phương và hàm ),...,,,( 21 kcccx thường được chọn theo dạng hàm tuyến tính, và khi đó ta gọi là phương pháp hồi quy trọng số địa phương. Mạng MLP và mạng RBF huấn luyện đầy đủ được trình bày về sau thuộc cũng loại này. 1.2. Giới thiệu về mạng nơron nhân tạo Bí ẩn về cấu tạo cũng như cơ chế hoạt động của bộ não và hệ thần kinh con người luôn được các nhà khoa học quan tâm nghiên cứu, nhưng hiểu biết về nó vẫn rất hạn chế. Tuy vậy, từ đầu thế kỷ 20 người ta đã phát hiện ra rằng bộ não con người là mạng lưới chằng chịt các nơron liên kết với nhau, và kích hoạt lẫn nhau theo định đề Hebb (1949) khi có tín hiệu môi trường. Cơ chế này là cơ sở để mô phỏng trên máy tính và hình thành nên cấu trúc của mạng nơron nhân tạo. Lĩnh vực khoa học về mạng nơron nhân tạo (Artificial Neural Network- ANN ) đã ra đời từ những nỗ lực đó [28,30,31]. Trước hết cần giới thiệu tóm tắt về mạng nơron sinh học. 28 1.2.1. Mạng nơron sinh học Đến nay người ta biết rằng các quá trình tính toán trong bộ não sinh học khác với các máy tính số. Công trình nghiên cứu về não đầu tiên thuộc về Ramón Y Cajál (1911). Ông cho rằng hệ thần kinh cấu tạo từ các nơron kết nối với nhau bởi các khớp kết nối. Bộ não xử lý chậm hơn (10-3s ) so với các thiết bị vật lý (10-9s), tuy nhiên tốn ít năng lượng hơn và thực hiện được nhiều chức năng hơn. Con người có khoảng 1011 nơron, 1015 khớp kết nối. Khi con người mới sinh, rất ít khớp kết nối được kết nối với nhau, nhờ quá trình học mà theo thời gian chúng được kết nối ngày càng nhiều. Dưới đây chúng tôi trình bày mô hình của nơron sinh học. Các thành phần chính của một nơron sinh học. Các nơron sinh học có kiến trúc giống nhau, bao gồm thân (hay bộ tổng hợp), các xúc tu, trục cảm ứng và các khớp kết nối để truyền tín hiệu qua các xúc tu của các tế bào như mô tả trong hình 1.2.  Thân (Cell body/Soma) của nơron: là nơi tiếp nhận và xử lý các tín hiệu điện nhận được từ các xúc tu. Bên trong Soma các tín hiệu được tổng hợp lại. Một cách thô, có thể xem gần đúng sự tổng hợp ấy như là một phép lấy tổng tất cả các dữ liệu mà nơron nhận được.  Các xúc tu (Dendrites) dài gắn liền với soma, chúng truyền tín hiệu điện (dưới dạng xung điện thế) nhận từ môi trường hoặc các nơron khác đến cho soma xử lý.  Trục cảm ứng (Axons): Khác với dendrites, axons có khả năng phát các xung điện thế, chúng là các dây dẫn tín hiệu từ nơron đi các nơi khác. Chỉ khi nào điện thế trong soma vượt quá một giá trị ngưỡng (threshold) nào đó thì axon mới phát một xung điện thế, còn nếu không thì nó ở trạng thái nghỉ.  Khớp nối (Synapse): axon nối với các dendrites của các nơron khác thông qua những mối nối đặc biệt gọi là khớp (synapse). Khi điện thế của 29 synapse tăng lên do các xung phát ra từ axon thì synapse sẽ nhả ra một số chất hoá học (neurotransmitters); các chất này mở "cửa" trên dendrites để cho các ions truyền qua. Chính dòng ions này làm thay đổi điện thế trên dendrites, tạo ra các xung dữ liệu lan truyền tới các nơron khác. Hình 1.2 : Cấu tạo của nơron sinh học Có thể tóm tắt hoạt động của một nơron như sau: nơron lấy tổng tất cả các điện thế vào mà nó nhận được, và phát ra một xung điện thế nếu tổng ấy lớn hơn một ngưỡng nào đó. Các nơron nối với nhau ở các synapses. Synapse được gọi là mạnh khi nó cho phép truyền dẫn dễ dàng tín hiệu qua các nơron khác. Ngược lại, một synapse yếu sẽ truyền dẫn tín hiệu rất khó khăn. Các synapses đóng vai trò rất quan trọng trong sự học tập. Khi chúng ta học tập thì hoạt động của các synapses được tăng cường, tạo nên nhiều liên kết mạnh giữa các nơron. Có thể nói rằng người nào học càng giỏi thì càng có nhiều synapses và các synapses ấy càng mạnh mẽ, hay nói cách khác, thì liên kết giữa các nơron càng nhiều, càng nhạy bén. Đây cũng là nguyên tắc chính để ứng dụng nó trong việc học của các mạng nơron [28]. 30 Mặc dù W. Mculloch và W.Pitts (1940) đề xuất mô hình nơron khá sớm nhưng định đề Heb (1949) mới là nền tảng lý luận cho mạng nơron. Định đề Heb. Khi một tế bào A ở gần tế bào B, kích hoạt thường xuyên hoặc lặp lại việc làm cháy nó thì phát triển một quá trình sinh hoá ở các tế bào làm tăng tác động này. 1.2.2. Mạng nơron nhân tạo a) Mô phỏng các nơron sinh học Các nơron nhân tạo (sẽ gọi gọn lại là nơron) là mô phỏng kiến trúc của nơron sinh học, chúng được mô tả trong hình 1.3. Mỗi nơron nhận các giá trị từ các nơron khác như là tín hiệu vào hay từ đầu vào để xử lý. Nếu giá trị tổng hợp các tín hiệu nhận được vượt quá một ngưỡng nào đó, nơron này sẽ gửi tín hiệu đến các nơron khác. Hình 1.3. Mô phỏng một nơron sinh học b) Cấu tạo của một nơron Mỗi nơron là một đơn vị xử lý thông tin có kiến trúc như hình 1.4. Hình 1.4. Mô hình một nơron nhân tạo   y x1 x2 xk w1 w2 wk  S 31 Một nơron bao gồm các liên kết nhận tín hiệu vào bằng số có các trọng số kết nối wi tương ứng với tín hiệu xi, một hàm tổng S và một hàm chuyển (hay hàm kích hoạt)  , để tạo tín hiệu ra dựa trên giá trị hàm tổng và giá trị ngưỡng . Liên kết: Mỗi liên kết thứ i sẽ nhận giá trị vào xi tương ứng và có trọng số kết nối wi tương ứng. Trọng số kết nối: Các trọng số kết nối wi của mỗi đường liên kết là yếu tố then chốt của nơron, chúng sẽ được xác định tuỳ theo tập dữ liệu nhờ quá trình huấn luyện. Hàm tổng: Hàm tổng S tích hợp các trọng số kết nối với các tín hiệu vào trên các liên kết tương ứng, trường hợp đơn giản nó có dạng: S=  k i ii xw 1 hoặc S= 2wx  như là thông tin tổng hợp từ tín hiệu vào và trọng số kết nối. Hàm chuyển / hàm kích hoạt. Hàm chuyển  lấy giá trị s- và cho giá trị ra ( s- ). Giá trị đầu ra y của nơron có thể biểu diễn theo công thức toán học như sau:    k i ii xwy 1 )(  . Hàm chuyển  là một hàm cụ thể nào đó được chọn tuỳ theo bài toán thực tế và thường có các dạng sau [28, 30]: 1) Hàm ngưỡng     01 01 )( x x x 1.5 -1 0.5 0 0.5 1 1.5 -6 -4 -2 0 2 4 6 Hình 1.5: Đồ thị hàm ngưỡng 32 2) Hàm tuyến tính axx )( -4 -3 -2 -1 0 1 2 3 4 -6 -4 -2 0 2 4 6 Hình 1.6: Đồ thị hàm tuyến tính 3) Hàm sigmoid xe x  1 1)( 0 0.5 1 -6 -4 -2 0 2 4 6 Hình 1.7: Đồ thị hàm sigmoid 4) Hàm tanh x x e ex     1 1)( -1 -0.5 0 0.5 1 -6 -4 -2 0 2 4 6 Hình 1.8: Đồ thị hàm tanh 33 5) Hàm bán kính (Gauss) 2 )( xex  0 0.5 1 -6 -4 -2 0 2 4 6 Hình 1.9: Đồ thị hàm Gauss c) Kiến trúc và thiết kế mạng nơron Mặc dù hiểu biết của con người về kiến trúc và hoạt động của não còn chưa đầy đủ, nhưng người ta tạo ra được các máy có một số tính năng tương tự như bộ não. Mạng nơron nhân tạo là máy mô phỏng cách bộ não hoạt động thực hiện các nhiệm vụ của nó. Một mạng nơron là bộ xử lý song song phân tán lớn nó giống bộ não người về 2 mặt: - Tri thức được nắm bắt bởi nơron thông qua quá trình học. - Độ lớn của trọng số kết nối nơron đóng vai trò khớp nối cất giữ tri thức học. Phần trên đã trình bày về kiến trúc của một nơron. Các nơron này sẽ kết nối với nhau theo một quy tắc nào đó để tạo thành một mạng nơron. Tính năng của hệ thống này tuỳ thuộc vào cấu trúc của hệ, các trọng số liên kết nơron và quá trình tính toán tại các nơron đơn lẻ. Mạng nơron có thể học từ dữ liệu mẫu và tổng quát hoá dựa trên các dữ liệu mẫu học. Có rất nhiều mạng nơron trong đó mạng nơron nhiều tầng truyền tới là dạng thông dụng nhất. Chúng bao gồm tầng vào là các nút nhận tín hiệu bằng số, tầng ẩn (gồm một hoặc nhiều tầng nơron) và tầng ra là một tầng nơron. Khi gọi có thể gọi theo số tầng nơron và thêm tầng vào hoặc tính theo số tầng nơron. Hình 1.10 mô tả 34 một mạng nơron 4 tầng truyền tới (gồm tầng vào, hai tầng nơron ẩn và tầng ra) hoặc là mạng 3 tầng nơron. Hình 1.10: Mô hình một mạng nơron 4 tầng truyền tới Mỗi một mạng nơron khác nhau sẽ có số lượng nơron khác nhau cũng như sự kết nối giữa chúng là không giống nhau. Các trọng số kết nối Dùng cho liên kết các tầng nơron khác nhau và có vai trò quan trọng trong hoạt động của một mạng nơron, nó cũng là sự mô tả đặc tính riêng của mỗi mạng. Quá trình học/huấn luyện của mạng nơron Trong số nhiều đặc tính của mạng nơron đặc tính quan trọng nhất là tự cải tiến làm việc của nó thông qua việc học. Việc cải tiến này theo thời gian phù hợp với một độ đo được quy định trước. Mạng nơron học nhờ điều chỉnh trọng số kết nối wi và ngưỡng . Một cách lý tưởng mạng có tri thức tốt hơn sau mỗi lần lặp của quá trình học. Có nhiều định nghĩa về sự học, ở đây ta theo định nghĩa của Mendel và Mc Cloren (1970) về học trong mạng nơron: “Học là quá trình qua đó các tham số tự do của một mạng nơron được sửa đổi thích ứng qua một quá trình tích luỹ kinh nghiệm liên tục trong một môi trường mà mạng bị tác động”. X1 X2 Xn … … … y Tầng vào Tầng ẩn Tầng ra 35 Xây dựng mạng nơron Khi xây dựng mạng nơron ta thường theo các bước sau: Xây dựng kiến trúc mạng: Xem xét có bao nhiêu tầng mà mạng chứa đựng, và chức năng của chúng là gì. Kiến trúc cũng cho biết có bao nhiêu kết nối được tạo ra giữa các nơron trong mạng, và chức năng của những kết nối này để làm gì. Huấn luyện mạng: Tại bước này các trọng số kết nối giữa các nơron sẽ liên tục thay đổi giá trị trong quá trình huấn luyện mạng, và chúng sẽ có giá trị cố định khi quá trình huấn luyện thành công. Kiểm tra hoạt động của mạng: Đây là bước cuối cùng nhưng cũng rất quan trọng trong quá trình xây dựng một mạng nơron. Người ta sẽ đưa vào tập các dữ liệu thử và chờ đợi kết quả ở đầu ra. Mạng nơron được xác định là tốt nếu như kết quả dữ liệu ở đầu ra đúng như những gì mà người thiết kế mong đợi. d) Phân loại mạng nơron Các mạng nơron có kiến trúc khác nhau và cách huấn luyện khác nhau cho các tính năng khác nhau. Ngoài những loại mạng với tính năng điển hình được trình bày trong nhiều cuốn sách (xem [28,30,31,38]), các kiểu mạng được kết nối với kiến trúc phong phú trong các ứng dụng cụ thể. Để có thuật ngữ chung, người ta thường phân loại mạng nơron dựa trên kiểu liên kết truyền tín hiệu hoặc số tầng. Theo kiểu liên kết nơron Người ta phân biệt tín hiệu được truyền tới hay có hồi quy. Trong mạng nơron truyền tới (feel-forward neural network) các liên kết nơron truyền tín hiệu theo một hướng nhất định không tạo thành đồ thị có chu trình (Directed Acyclic Graph) với các đỉnh là các nơron, các cung là các liên kết giữa chúng. Trong mạng nơron hồi quy (recurent neural network) có các liên kết nơron tạo thành chu trình. Các thông tin ra của các nơron được truyền lại cho nó hoặc các nơron đã góp phần kích hoạt chúng. 36 Theo số lớp/tầng Các nơron có thể tổ chức lại thành các lớp sao cho mỗi nơron của lớp này chỉ được nối với các nơron ở lớp tiếp theo, không cho phép các liên kết giữa các nơron trong cùng một lớp, hoặc từ nơron lớp sau lên nơron lớp trước. Ở đây cũng không cho phép các liên kết nơron nhảy qua một lớp. a) Mạng nơron nhiều lớp b)Mạng nơron truyền tới c) Mạng nơron hồi qui Hình 1.11 Mô hình các loại mạng nơron Dễ dàng nhận thấy rằng các nơron trong cùng một lớp nhận được tín hiệu từ lớp có thể xử lý song song. e) Luật học của mạng nơron Mạng nơron như một hệ thống thích nghi có khả năng học/huấn luyện để tinh chỉnh các trọng số liên kết cũng như cấu trúc của mình sao cho phù hợp với các mẫu học. Việc xác định cấu trúc mạng hiện nay vẫn theo kinh nghiệm còn các trọng số liên kết được xác định nhờ các luật học. Luật học là một thủ tục sửa đổi trọng số và ngưỡng của mạng để cho mạng có thể đảm nhận được một nhiệm vụ nào đó. Nó có thể xem là thuật toán huấn luyện mạng. Luật học của mạng nơron có thể phân làm 3 loại [28]: học có giám sát (supervised learning), không giám sát (unsupervised learning) và học tăng cường (Reinforcement learning). Lớp vào Lớp ẩn Lớp ra nơron vào nơron ra 37 Học có giám sát Trong học có giám sát, người ta dựa vào một tập mẫu huấn luyện:  11, tp ,  22 , tp , ...,  qq tp , , trong đó pq là véctơ tín hiệu vào tq là đầu ra đích tương ứng để huấn luyện mạng. Các luật học có giám sát sẽ so sánh tín hiệu ra của mạng với tín hiệu đích của tín hiệu vào tương ứng để hiệu chỉnh trọng số kết nối và các giá trị ngưỡng sao cho tín hiệu ra ngày càng gần với tín hiệu đích (chương 7-12 của [28]). Học không giám sát Trong học không giám sát các trọng số và ngưỡng được sửa đổi dựa vào tín hiệu vào (lấy trong tập dữ liệu huấn luyện) mà không biết giá trị đích. Hầu hết các thuật toán loại này là thuật toán phân cụm. Trong đó ta phân tập dữ liệu D thành k cụm con sao cho mỗi phần tử trong cùng một cụm thì giống nhau hơn là các phần tử khác cụm. Cách phân cụm có thể là rõ hoặc mờ, số cụm có thể biết trước hoặc không, chi tiết xem chương 13-16 của [28]. Học tăng cường Học tăng cường gần giống với học có giám sát ở chỗ có thể đánh giá chất lượng mạng (cho điểm) khi biết tín hiệu vào và ra của nó. Do vậy khi đưa các tín hiệu vào và quan sát tín hiệu ra ta có thể điều chỉnh để chất lượng mạng tốt dần lên. Tuy vậy ta không biết trước giá trị đích của mỗi mẫu tương ứng. Kiểu học này hiện nay ít thông dụng như học có giám sát. Nó thường phù hợp với những ứng dụng điều khiển hệ thống [28]. 1.2.3. Mạng perceptron nhiều tầng MLP (Multi-Layer Perceptrons) Phần này giới thiệu mạng nơron Perceptrons nhiều tầng, loại mạng thông dụng nhất trong các mạng nhiều tầng truyền tới (Feed-forward Neural network). Nó được sử dụng nhiều trong thực tế hiện nay. 38 a) Kiến trúc mạng Mạng MLP là mạng truyền tới nhiều tầng bao gồm các nút nhận tín hiệu vào bằng số, một hoặc nhiều tầng nơron ẩn và tầng nơron ra, trong đó tín hiệu tầng trước được đưa tới tầng sau. Hàm tổng trong các nơron đều có dạng: s=  k i ii xw 1 , các hàm chuyển có thể có dạng khác nhau. Hình 1.12 mô tả mạng nơron 2 tầng nơron với 6 nút vào, 3 nơron tầng ẩn và 2 nơron tầng ra (có thể gọi là mạng 3 tầng ). Tầng vào: Nếu hàm đang xét có n biến thì có n+1 nút trong đó nút đầu ứng với giá trị x0 = -1và trọng số là ngưỡng , mỗi nút còn lại ứng với một biến của đối. Tầng ra: Mỗi một nơron ở tầng ra sẽ ứng với một hàm. Nếu hàm cần xét xấp xỉ có giá trị là véc tơ M chiều thì có M nơron ở tầng ra. Tầng ẩn: Số tầng ẩn và lượng nơron của mỗi tầng tuỳ thuộc vào mục đích thiết kế. Hình 1.12 Kiến trúc mạng nơron truyền tới nhiều tầng Mạng này có thế dùng để nhận dạng mẫu và tổng quát hơn là xấp xỉ hàm nhiều biến. b) Thuật toán huấn luyện lan truyền ngược (Back-Propagation) Huấn luyện mạng nơron là xác định các trọng số kết nối cho các liên kết của mỗi nơron. Quá trình xác định các trọng số này gọi là quá trình huấn luyện. Mục này trình bày phương pháp truyền ngược sai số để xác định các trọng số kết nối nhờ thuật toán Gradient cực tiểu hoá sai số trung bình phương (Least-Mean Square). Tầng vào Tầng ẩn Tầng ra 39 Ta xét một mạng 2 tầng như hình 1.13. Mạng này có các tín hiệu vào vô hướng {x0,x1...,xn} trong đó x0 = -1. Tầng ẩn có j nơron với tín hiệu ra của chúng là {z1...,zn} và tín hiệu z0 = -1 chuyển đến các nơron tầng ra. Tầng ra có M nơron với đầu ra tương ứng là {y1,...,yM}. Mạng này dùng để xấp xỉ hàm có giá trị véc tơ M chiều y = (y1,...,yM) của n biến. Giả sử ta có các giá trị của y tại các điểm x thuộc tập X với y(xk)=dk xkX. Ta chia ngẫu nhiên tập X thành 2 tập: tập huấn luyện Xh và tập kiểm tra Xt. Thường tập huấn luyện có số lượng gấp đôi tập kiểm tra. Quá trình huấn luyện có thể thực hiện theo mớ hoặc theo từng dữ liệu, để đơn giản ta xét thuật toán huấn luyện theo từng dữ liệu. Ta xét nơron m của tầng ra có trọng số liên kết hiện thời với nơron j của tầng ẩn là c mjw , và đầu ra ym. Nơron j của tầng ẩn có trọng số kết nối hiện thời với nút vào i là c jiw , . Ký hiệu 0 là hàm chuyển của nơron tầng ra và h là hàm chuyển của nơron tầng ẩn, ta có các quy tắc học cho tầng ra và tầng ẩn như sau. Hình 1.13 Huấn luyện mạng lan truyền ngược Quy tắc học của tầng ra Cho dữ liệu (xk, dk), ký hiệu yk là đầu ra của mạng tương ứng với xk ta hiệu chỉnh các trọng số kết nối để cực tiểu hoá tổng bình phương sai số của mạng: X0 = -1 X1 Xi Xn Wi,j j Wj,m ym d k m y1 1 z0 = -1 … m 40 E(w)=    M i k i k i dy i 1 2)( 2 (1.17) Ký hiệu newmjw , là trọng số kết nối mới,  là số dương bé: new mjw , = c mjw , + mjw , , m=1,..,M (1.18) Với: mjw , = - jmkmkm mj zsyd w E )()( '0 ,    (1.19) Trong đó    J i imim zws 0 , và zj được tính bởi: )()( 0 , jh n i jjihj sxwz     (1.20) Quy tắc học của tầng ẩn Ký hiệu newjiw , là trọng số kết nối mới của nơron j với nút vào i ta có: new jiw , = c jiw , + jiw , j=1,...,J (1.21) Trong đó: jiw , = mjw E ,   (1.22) Ta có: ji j j j jji w s s z z E w E ,,        (1.23) với: i ji j x w s   , và )(' jh j j s s z   (1.24) 41 và:           M m j m m k m M m m k m jj z ssdsd zz E 1 0 0 1 2 0 )( )([)]([ 2 1     M m mjmm k m wsyd 1 , ' 0 )()(  (1.25) Thay (1.24) và (1.25) vào (1.23) ta có:    M m jjhmjmm k mji xswsydw 1 ' , ' 0, )(])()([  (1.26) Thủ tục học lan truyền ngược Thủ tục học sẽ bắt đầu từ tầng ra đến tầng ẩn như sau :  Bước 1: Tạo các trọng số kết nối wc ban đầu cho mọi nơron và chọn giá trị  cho tốc độ học (có thể thay đổi theo mỗi phép lặp).  Bước 2: Lấy một mẫu xk từ tập huấn luyện (có thể lấy ngẫu nhiên) và chuyển qua mạng để được yk.  Bước 3: Kết hợp yk với dk để cập nhật trọng số tầng ra mới theo (1.18) đến (1.20).  Bước 4: Cập nhật trọng số tầng ẩn theo (1.21) và (1.26)  Bước 5: Kiểm tra điều kiện dừng, nếu chưa thoả mãn thì trở lại bước 2, nếu tốt thì sang bước 6 để thử kiểm tra.  Bước 6: Kiểm tra dữ liệu thử nếu đạt yêu cầu thì huấn luyện xong nếu chưa thì trở lại bước 1. Quá trình huấn luyện mạng có thể rơi vào cực trị địa phương nên có thể dùng thuật toán di truyền để tìm trọng số ban đầu. Người ta cũng có thể huấn luyện theo mớ khi đó hàm E cho bởi: E(w)=    T k M m k m k m dy 1 1 2)( 42 Trong đó các mẫu huấn luyện đánh số từ 1 đến T và yk là đầu ra tương ứng của mạng với đầu vào xk. c) Nhận xét Hagan [28] đã đưa ra các nhận định sau. Về kiến trúc mạng: Với mạng MLP, nếu có đủ nơron trong tầng ẩn thì có thể dùng để xấp xỉ một hàm liên tục tùy ý, số tham số trong mạng không vượt quá số ràng buộc có được từ mẫu mới có thể tổng quát hoá được. Tuy nhiên việc xác định số nơron tối ưu vẫn là bài toán mở. Một mạng đã cho thích hợp với hàm xấp xỉ như thế nào cũng chưa biết đầy đủ. Đặc biệt, việc ước lượng sai số đến nay vẫn chủ yếu dựa vào thực nghiệm. Về sự hội tụ: Thuật toán lan truyền ngược huấn luyện mạng truyền tới có tốc độ hội tụ chậm. Với mạng một tầng nơron thì đảm bảo hội tụ tối ưu toàn cục nhưng với mạng có nhiều tầng nơron thường chỉ hội tụ đến cực trị địa phương. Để khắc phục có thể huấn luyện nhiều lần với các giá trị khởi tạo ngẫu nhiên hoặc khởi tạo theo kinh nghiệm (Heuristic), hay kết hợp với thuật toán di truyền (Genetic Algorithm) sau đó dùng thuật toán tối ưu hoá. Thông thường người ta hay dùng biến thể của thuật toán gradient như thuật toán Newton và Gradient liên hợp để tăng tốc độ hội tụ cho thuật toán. 43 CHƯƠNG 2. MẠNG NƠRON RBF Ở chương 1 đã trình bày về mạng perceptron nhiều tầng (MLP) dùng để nội suy và xấp xỉ hàm nhiều biến. Mạng này đang được sử dụng rộng rãi để xấp xỉ hàm số, nhưng nó không đảm bảo giải quyết được bài toán nội suy và khó chọn số nơron ẩn phù hợp. Nhược điểm cơ bản nữa của mạng MLP là thời gian huấn luyện lâu và thường chỉ tìm được gần đúng của cực trị địa phương. Mạng RBF (Radial Basis Function – RBF) là một lựa chọn để khắc phục nhược điểm này. Mạng RBF là một mạng truyền tới 3 tầng (2 tầng nơron). Mỗi nơron tầng ẩn là một hàm phi tuyến của khoảng cách giữa véctơ vào X và véc tơ tâm jC kết hợp với nơron j có bán kính tương ứng là j . Cơ sở toán học của mạng RBF là kỹ thuật hàm cơ sở bán kính. Kỹ thuật này được Powell (1987) đề xuất để giải quyết bài toán nội suy nhiều biến [49]. Sau đó được Broomhead và Lowe (1988) giới thiệu như là mạng nơron [16]. Ưu điểm của mạng RBF là thời gian huấn luyện nhanh và luôn đảm bảo hội tụ đến cực trị toàn cục của sai số trung bình phương. Với các hàm cơ sở bán kính có tâm là các mốc nội suy thì có thể cho lời giải của bài toán nội suy. Vì vậy cùng với mạng MLP, mạng RBF tỏ ra là một phương pháp hiệu quả và được ứng dụng rộng rãi để nội suy và xấp xỉ hàm nhiều biến ( xem [14,15,30]). Chương này giới thiệu tóm tắt các kiến thức cơ bản về mạng nơron RBF cần cho nội dung chính của luận án bao gồm kiến trúc; đặc điểm huấn luyện và các thuật toán huấn luyện mạng thông dụng hiện nay, chi tiết hơn xem [30,38,50]. Mục 2.1 giới thiệu về kỹ thuật hàm cơ sở bán kính (RBF), mục 2.2 mô tả kiến trúc mạng RBF. Các thuật toán thông dụng huấn luyện mạng RBF được giới thiệu ở mục 2.3. Những so sánh về đặc tính của mạng RBF với mạng MLP được điểm ra ở mục 2.4. 44 2.1. Hàm cơ sở bán kính RBF và bài toán nội suy 2.1.1. Bài toán nội suy nhiều biến với cách tiếp cận RBF Bài toán nội suy nhiều biến được giới thiệu chi tiết trong chương trước, Powell (1988) đề xuất dùng hàm nội suy dưới dạng tổ hợp tuyến tính của các hàm cơ sở bán kính [49]. Với cách tiếp cận này, bài toán nội suy được phát biểu lại như sau. Xét hàm nhiều biến mn RRDf  )(: cho bởi tập N mẫu  Nkkk yx 1,  );( mknk RyRx  sao cho:   Nkyxf kk ,...,1;  . Bài toán này tương đương với nội suy m hàm giá trị thực độc lập nên ta có thể giả thiết m=1. Powell đề xuất tìm hàm  có dạng đã biết thỏa mãn: 0 1 ),()( wvxhwx M k k k k     , sao cho Nkyx kk ,...,1;)(  (2.1) trong đó:  Nkkx 1 là tập vectơ trong không gian n-chiều (các mốc nội suy) và )( kk xfy  là giá trị đo được của hàm f cần nội suy; hàm thực ),( kkvxh  được gọi là hàm cơ sở bán kính với tâm là vk và )( NM  là số hàm bán kính sử dụng để xấp xỉ hàm f ; wk và k là các giá trị tham số cần tìm. Một số hàm cơ sở bán kính thông dụng Có nhiều dạng hàm cơ sở bán kính, thông dụng nhất là các dạng sau: Hàm Gauss: 2 22( , ) r h r e   Hàm cơ sở bán kính Gauss có giá trị tăng dần đến giá trị 1 khi r tiến dần đến 0 và dần tới 0 khi r dần ra vô hạn, điều này được miêu tả cụ thể ở hình 2.1dưới đây. 45 Hình 2.1. Hàm cơ sở bán kính Gauss với  =1 Hàm đa bậc hai (Multiquadric): 2 2 1/ 2( , ) ( )h r r   Hình 2.2. Hàm cơ sở bán kính Multiquadric với  =1 Hàm đa bậc hai nghịch đảo( Inverse Multiquadric): 2 2 1/ 2( , ) ( )h r r    Hình 2.3. Hàm cơ sở bán kính Inverse Multiquadric với r =1 và c = 0 46 Hàm Côsi (Cauchy ): 2 2 1( )( , ) rh r   Hình 2.4. Hàm cơ sở bán kính Cauchy với r =1 và c = 0 Nếu số hàm bán kính bằng số mốc nội suy và các k đã cho thì hệ phương trình 2.1 luôn tồn tại duy nhất nghiệm w =(w0, w1,…,wn)T, trong đó chỉ số trên T để chỉ vectơ hoặc ma trận chuyển vị. 2.1.2. Kỹ thuật hàm cơ sở bán kính Như đã nói trong chương 1, không giảm tổng quát, ta xét bài toán nội suy với m = 1, và số mốc nội suy không quá nhiều ta tìm hàm  dưới dạng sau:    N k kk wxwx 1 0)()(  (2.2) trong đó )(xk là hàm cơ sở bán kính. Như đã nói ở mục trước, có nhiều dạng hàm cơ sở bán kính, trong đó dạng hàm thông dụng nhất là hàm Gauss và về sau ta chỉ xét các hàm bán kính dạng này: Nkex k kvx k ,...1)( 22 /    (2.3) Trong công thức (2.2) và (2.3) ta có:  . là kí hiệu chuẩn Euclide được tính 2 1 N i i u u    47  vk gọi là tâm của hàm cơ sở bán kính k . Đối với bài toán nội suy, ta lấy tâm chính là các mốc nội suy kv = kx k , khi đó M = N (xem chương 3 của [38]). Với bài toán xấp xỉ thì M<N, việc xác định tâm tối ưu còn là bài toán đang được quan tâm.  Các tham số wk và k cần tìm để  cực tiểu tổng bình phương sai số hoặc thỏa mãn các điều kiện nội suy: i N k i kk i ywxwx   1 0)()(  ; Ni ,..,1 (2.4) Với mỗi k, tham số k được gọi là tham số độ rộng của hàm cơ sở bán kính vì nó dùng để điều khiển độ rộng miền ảnh hưởng của hàm cơ sở k , khi k kvx 3 thì giá trị hàm ( )k x là rất nhỏ, không có ý nghĩa vì nó gần triệt tiêu. Chính vì vậy ta nói hàm bán kính này chỉ có ảnh hưởng địa phương. Trường hợp số hàm bán kính bằng số mốc nội suy (N=M) ta lấy tâm của chúng trùng với mốc tương ứng. Xét ma trận vuông cấp N: NNik  )( , trong đó 22 / , )( k ki xxi kik ex   (2.5) và các tham số k đã chọn. Micchelli [42] đã chứng minh rằng nếu các mốc xk khác nhau thì  là ma trận khả nghịch. Vì vậy, với w0 cho trước tùy ý hệ phương trình (2.4) luôn tồn tại duy nhất nghiệm w1, …, wN. Trường hợp M < N, tổng bình phương sai số được xác định theo công thức:   2 1 N i i i E x y    (2.6) E có duy nhất cực trị toàn cục. Tính xấp xỉ tổng quát và xấp xỉ tốt nhất nhờ các hàm cơ sở bán kính điển hình đã được khảo sát trong [26,47,48]. Hàm nội suy hoặc xấp xỉ tốt nhất có thể xác định gần đúng nhờ các phương pháp cực tiểu hoá dựa trên ưu điểm là tổng các bình phương sai số E của nó không có cực tiểu địa phương [13]. 48 2.2. Kiến trúc mạng RBF Mạng nơron RBF có kiến trúc để nội suy hàm mn RRDf  )(: là một mạng 3 tầng truyền tới (có hai tầng nơron), cấu trúc như sau:  Tầng vào gồm n nút cho véctơ tín hiệu vào nRx .  Tầng ẩn là tầng cơ sở bán kính, gồm M nơron trong đó nơron thứ k có tâm vk và đầu ra của nó là hàm bán kính tương ứng k.  Tầng ra có hàm kích hoạt tuyến tính, gồm m nơron xác định m hàm nội suy (xấp xỉ) thành phần. Kiến trúc của một mạng RBF tống quát được mô tả trong hình 2.5. Hình 2.5: Mô tả kiến trúc mạng nơron RBF Giả sử với dữ liệu  Nkkx 1 là tập véctơ trong không gian n chiều,  Nkky 1 là véctơ đích tương ứng với véctơ vào xk. Ký hiệu w0j là giá trị ngưỡng của nơron ra thứ j. Khi đó đầu ra của nơron j ở tầng ra là zj được xác định theo công thức sau: zj = w1j1 + … + wMjM + w0j j=1,…,m (2.7) Trong đó wi,j là các trọng số của nơron ra thứ j kết nối với nơron ẩn thứ i và k là đầu ra của nơron ẩn thứ k, về sau ta sẽ dùng dạng Gauss: X1 Xn … … X2 Tầng vào Tầng ẩn Tầng ra 1 wM1 w11 wMm z1 2 zm … … M w1m v11 vn1 v1M vnM w0m w01 y1 ym Giá trị đích 49 k = 2 2 2 |||| k kvx e   , k = 1, …, M (2.8) Với các w0j đã cho, các trọng số tầng ra có thể xác định nhờ tìm tổng bình phương sai số. Về sau ta quy ước gọi các mạng RBF có số hàm bán kính bằng số mốc nội suy và có tâm trùng với mốc tương ứng là mạng nội suy RBF (vì trong trường hợp này hệ phương trình (2.4) luôn có nghiệm đúng). 2.3. Huấn luyện mạng RBF Huấn luyện mạng nơron RBF là quá trình tìm các tham số (wj,k, vk, k) của các hàm bán kính và trọng số tầng ra, để đầu ra ứng với đầu vào là mốc nội suy (xấp xỉ ) phù hợp với yêu cầu bài toán. Có rất nhiều phương pháp huấn luyện mạng, hầu hết các phương pháp này đều có đặc điểm chung là có xu hướng cực tiểu hóa giá trị bình phương sai số E bằng một biến thể của phưong pháp Gradient hoặc giải hệ phương trình tuyến tính theo phương pháp giả nghịch đảo. So với các mạng nơron MLP mạng nơron RBF có điểm mạnh hơn hẳn là có thời gian huấn luyện ngắn [13,38,47]. Như đã nói ở trên, tổng bình phương sai số   2 1 N i i i x y   chỉ có một cực trị duy nhất nên khi số mốc lớn thì phương pháp bình phương tối thiểu là thông dụng nhất. Có thể chia các kiểu huấn luyện mạng RBF ra thành ba loại: huấn luyện một pha, huấn luyện hai pha và huấn luyện đầy đủ [38,50]. 2.3.1. Phương pháp huấn luyện một pha Phương pháp huấn luyện một pha hay còn gọi là phương pháp huấn luyện nhanh. Phương pháp này khởi gán các tham số bán kính là một hằng số. Sau đó huấn luyện trọng số kết nối w của tầng ra bằng phương pháp giả nghịch đảo hoặc bình phương tối thiểu. Với tập dữ liệu huấn luyện     1 , ; , Nk k k n k m k x y x R y R   đã cho, ở phương pháp này, người ta thường chọn tâm vk của các hàm bán kính là một tập con của tập 50 dữ liệu huấn luyện   1 Nk k x  , với bài toán nội suy thì M=N và các tâm là mốc nội suy tương ứng. Các bán kính k được gán giá trị là một hằng số, trên cơ sở thực nghiệm Looney khuyên nên đặt nMk 1)2( 1 (trong đó M là số hàm cơ sở bán kính, n là số nơron đầu vào) còn Haykin thì khuyên lấy max 2k D N   trong đó Dmax là khoảng cách cực đại giữa các mốc nội suy. Các trọng số tầng ra thường được tìm ra bằng các phương pháp học có giám sát như là phương pháp giả nghịch đảo hoặc phương pháp bình phương tối thiểu theo phương pháp cực trị hóa Gradient. Về bản chất thì hai phương pháp này đều tìm các trọng số để giá trị bình phương sai số E đạt cực tiểu. 1) Phương pháp giả nghịch đảo Với tập huấn luyện     1 , ; , Nk k k n k m k x y x R y R   , giả sử mạng RBF có M nơron ở tầng ẩn. Ta xét ma trận HNxM như sau 2 ( , ) ( ) i k k x v i kH i k x e      và ma trận Y là ma trận hàng thứ k là ma trận yk chuyển vị khi đó giá trị của các wk được tính như sau : W H Y trong đó 1( )T TH H H H  . 2) Phương pháp Gradient Với phương pháp này ta tìm cực trị tổng bình phương sai số cho các nơron ra một cách độc lập nên xem m=1. Ban đầu các tham số wk được tạo ra ngẫu nhiên sau đó các tham số này được cập nhật bằng công thức sau: ( 1) ( )k k kw i w i w    trong đó      1 N i i i k k i w x y x      . Hệ số  được gọi là tốc độ học, nếu  nhỏ thì giá trị của các trọng số w tiến chậm đến điểm cực tiểu, nhưng nếu  lớn thì giá 51 trị của các trọng số w thường có xu hướng dao động quanh điểm cực tiểu, cách xử lý hợp lý có thể tham khảo [28]. Các dáng điệu hội tụ của nghiệm được minh họa ở hình 2.6. Thông thường người ta vẫn chọn  có giá trị nhỏ để đảm bảo quá trình lặp sẽ hội tụ về giá trị cực tiểu cho dù hơi mất thời gian. Hình 2.6: Quá trình hội tụ đến giá trị cực tiểu của thuật toán Gradient, đường nét đứt ứng với giá trị  lớn, đường nét liền ứng với giá trị  nhỏ 3) Thuật toán huấn luyện nhanh (Quick Training) Chúng tôi trình bày thuật toán Gradient cụ thể với huấn luyện nhanh (Quick Training) đã được Looney giới thiệu chi tiết trong chương 3 của [38]. Trong thuật toán này, khởi tạo ngẫu nhiên tập trọng số {wkj(0)} ứng với mỗi nơron ở tầng ra và tinh chỉnh chúng theo thuật toán Grandient ),...,( 11 MJw E w EE     . Véctơ tâm {vk} được xác định bằng với tập dữ liệu vào nên ta sẽ có số nơron ẩn là M chính bằng tập dữ liệu vào N. Tổng sai số bình phương được tính theo công thức:     N i i j i j m j yzE 1 2 1 )( (2.9) Thuật toán được mô tả trong hình 2.7 sau đây: 52 Bước 1: Cho tập dữ liệu vào {xi} gồm N véctơ. Khởi gán các tham số Input N; M=N; //M=N Nơron ẩn for i=1 to M do vi=xi; // xác định véctơ tâm Input l; h = l; // l là số vòng lặp mong muốn E= 99999.9; e=0.0001; //khởi gán tổng sai số bình phương E, sai số e cho điều kiện dừng. 1 =1.0; // khởi gán tốc độ học Bước 2: Khởi gán trọng số kết nối For i =1 to M do For j =1 to m do wij = random(0,1) – 0.5; //khởi gán w trong đoạn [-0.5,0.5] Bước 3: Tính toán tham số bán kính  nM 1)2( 1 ; // tính giá trị tham số  For k=1 to M do k = ; //đặt k =  cho mỗi nơron thứ k Bước 4: Tính giá trị k = fk (xi,vk) k=1…M cho mỗi véctơ vào xi For i=1 to N do // mỗi véctơ vào thứ i For k = 1 to M do //mỗi nơron ẩn thứ k If i =k then ki =1 // khi xi = vk, ki = exp(0)=1 Else ki = exp(-||xi –vk||2/ (2k2); Bước 5: Cập nhật giá trị đầu ra zji của nơron ra For i=1 to N do // với mỗi véctơ đầu vào For j= 1 to m // với mỗi nơron ra zji =   M k i kkjwM 1 )/1(  // cập nhật cho tầng ra Enew =     N i m j i j i j zy 1 1 2)( //tính tổng sai số If Enew < E then 1 = 1 * 1.04 Else 1 := 1 * 0.92; E = Enew; Bước 6: Chỉnh lại trọng số w For k =1 to M do // với mỗi trọng số wkj For j= 1 to m 53 wkj := wkj + (21/M) ikij N i i j zy )( 1    ; Bước 7: Dừng huấn luyện If (h  l ) or (E<e) then stop Else h:=h+1; go to bước 5; Hình 2.7 Thuật toán huấn luyện nhanh (Quick Training) Thuật toán Quick Training chỉ điều chỉnh trọng số w của các nơron ở tầng ra, trong đó sử dụng một nơron ẩn cho mỗi véctơ dữ liệu đã huấn luyện xi. Trong trường hợp nếu tập dữ liệu vào lớn (N lớn), chẳng hạn Looney khuyên là lớn hơn 200 thì nên dùng số nơron ẩn M nhỏ hơn số mốc (M<N). Điều này sẽ nói tới trong các thuật toán hai pha sau đây. Khi sử dụng thuật toán Quick Training cho kết quả nhanh hơn nhiều lần so với thuật toán lan truyền ngược Back-propagation [13]. Chúng không có cực tiểu địa phương. 2.3.2. Phương pháp huấn luyện hai pha Phương pháp này thường tách biệt hai pha, pha thứ nhất tìm các tham số bán kính. Pha thứ hai huấn luyện tìm các trọng số kết nối tầng ra w. Đây là phương pháp thông dụng được sử dụng rộng rãi hiện nay. Với phương pháp huấn luyện hai pha khi số mẫu lớn, thông thường các giá trị tâm vk và bán kính k của hàm cơ sở bán kính k được tính bằng các thuật toán phân cụm như thuật toán k-mean, k-mean có ngưỡng… Sau đó giá trị của các trọng số wk được tính bằng các phương pháp giả nghịch đảo, hay Gradient như đã nêu ở trên. Thuật toán phân cụm k-mean - Phát biểu bài toán: Cho tập dữ liệu X= {x1,…,xN} Rn chúng ta cần phân tập dữ liệu này thành k tập  1 2 1 , ,.. : ; ; k k j i i i j i S S S k N S S S X           sao cho thỏa mãn: 2 1 arg min j i k j i S i x S x      với i là tâm của tập Si. 54 Về mặt toán học thì bài toán phân cụm trên thuộc loại NP-khó tuy nhiên trên thực tế thì người ta thường giải bài toán bằng phương pháp heuristic như sau: Đầu tiền ta khởi tạo ngẫu nhiên tập  1 2, ,... k   sau đó thực hiện vòng lặp qua hai bước sau: + Bước 1: tạo các cụm  ( ) **: ; 1,t j j ji i iS x x x i k       + Bước 2: điều chỉnh lại tâm ( ) ( 1) ( ) 1 j i tj i t t i x S x S      Thuật toán sẽ dừng cho đến khi tập  1 2, ,... k   không còn có sự thay đổi giá trị (chi tiết hơn xem [24]). Sau khi chạy thuật toán k-mean ta sẽ chọn tâm vk của các hàm cơ sở bán kính k chính là tập  1 2, ,... k   còn bán kính 1 || || j k k j k x Sk x S      . 2.3.3. Phương pháp huấn luyện đầy đủ Phương pháp này thường dùng cho mạng xấp xỉ. Tất cả các tham số của mạng đều được hiệu chỉnh để cực tiểu hoá tổng sai số bình phương. Thường sử dụng phương pháp Gradient để tìm kiếm cả ba tham số (tâm v, bán kính , trọng số tầng ra w) dùng các công thức lặp dưới đây:                N i i k i j m j i jkj kj kjjk zyMww Eww 1 1 11 )(/2  (2.10)   )()(2 k1 12211 kqiqi N i kj i j m j i j k q k q vxwzyM vv               (2.11) k+12 = k2 + (23/M) )]}2/(||(||[)({ 42k M 1k1 1 k kii jkkj i j N i m j i j vxwwzy       (2.12) Trong đó {xi,yi}i=1N; (xi  Rn, yi  Rm) là tập dữ liệu huấn luyện, z là giá trị đầu ra ở bước tương ứng. Nhìn chung phương pháp này cho kết quả xấp xỉ khá tốt, song 55 nhược điểm là thời gian huấn luyện lâu. Sau đây chúng tôi giới thiệu thuật toán huấn luyện đầy đủ (Full Training) được Looney giới thiệu trong [38]. Thuật toán huấn luyện Full Training Thuật toán Quick Training đã cho thấy hiệu quả với dữ liệu huấn luyện ít và số nơron ẩn bằng số mốc nội suy, khi dữ liệu huấn luyện nhiều và phân bố không đều thì tính tổng quát của mạng kém. Thuật toán Full Training tốt hơn trong các trường hợp đó. Thuật toán này chọn số nơron ẩn M nhỏ hơn N, thông thường chọn ngẫu nhiên hoặc theo các thuật toán phân cụm. Theo đó các tham số bán kính, tâm cũng được điều chỉnh, các trọng số ở tầng ra vẫn được huấn luyện để cực tiểu hoá tổng sai số bình phương E. Thuật toán được mô tả chi tiết trong hình 2.8 và hình 2.9. Bước 1: Cho tập dữ liệu vào {xi} gồm N véctơ, n chiều. Khởi gán các tham số Input N; Input M; //M nơron ẩn, M<N for i=1 to M do // xác định véctơ tâm ngẫu nhiên từ 0 đến 1 for j=1 to n do vji=(random(0,1); Input l; h = l; // l là số vòng lặp mong muốn E= 99999.9; e=0.001; //khởi gán tổng sai số bình phương E, sai số e cho điều kiện dừng. 1 =1.6; 2 =1.0;3 =1.0; // khởi gán tốc độ học Bước 2: Khởi gán trọng số kết nối của mỗi nơron ở tầng ra For i =1 to M do For j =1 to m do wij = random(0,1) – 0.5; // khởi gán w trong đoạn [-0.5,0.5] Bước 3: Khởi gán tham số bán kính   = 0.005; // dùng  cho k Bước 4: Tính giá trị k = fk (xi,vk) k=1…M cho mỗi véctơ vào xi For i=1 to N do // mỗi véctơ vào thứ i For k = 1 to M do //mỗi nơron ẩn thứ k If i =k then ki =1 // khi xi = vk, ki = exp(0)=1 Else ki = exp(-||xi –vk||2/ (22); Bước 5: Gọi thủ tục Update(k) để điều chỉnh mạng và tốc độ học k Update(0); // Cập nhật mạng, nhưng không điều chỉnh i 56 Bước 6: Chỉnh các tham số w, v,  For k =1 to M do // với mỗi trọng số wkj For j= 1 to m wkj := wkj + (21/M) ikij N i i j zy )( 1    ; Update(1); // cập nhật tốc độ học 1 For k =1 to M do For q = 1 to n   )()(2: k1 122 kqiqi N i kj i j m j i j k q k q vxwzyM vv             ; Update(2); For k =1 to M do k2 := k2 + (23/M) )]}2/(||(||[)({ 42k M 1k1 1 k kii jkkj i j N i m j i j vxwwzy       ; Update(3); Bước 7: Dừng huấn luyện If (h  l ) or (E<e) then stop Else h:= h+1; go to bước 4; Hình 2.8 Thuật toán huấn luyện đầy đủ Full Training Procedure Update(k); Cập giá trị đầu ra, tính tổng sai số bình phương, hiệu chỉnh tốc độ học r. r = k; Enew =0; For i =1 to N do // với mỗi véctơ đầu vào For j= 1 to m // với mỗi Nơron ra zji =   M k i kkjwM 1 )/1(  // cập nhật cho tầng ra Enew := Enew + (yji - zji)2 //tính tổng sai số If Enew < E then r = r * 1.04 Else r := r * 0.92; E = Enew; Hình 2.9 Thủ tục Update(k) của thuật toán huấn luyện đầy đủ 57 2.3.4. Nhận xét chung các thuật toán huấn luyện Trong phương pháp một pha có thể tìm wk bằng phương pháp giải đúng hệ phương trình (2.4), nhưng khi số mốc lớn thì các phương pháp này cho nghiệm có sai số lớn và không ổn định (sai số dữ liệu nhỏ nhưng sai số của nghiệm lớn). Các phương pháp huấn luyện mạng RBF một pha, hai pha hoặc huấn luyện đầy đủ đều đưa đến tìm cực tiểu tổng sai số bình phương E theo phương pháp Gradient hoặc biến thể của nó. Tuy nhiên các phương pháp tìm cực trị hàm nhiều biến vẫn khá chậm, khó điều khiển tốc độ hội tụ, ước lượng sai số và song song hoá. Mặt khác, các tham số độ rộng bán kính k cũng ảnh hưởng lớn tới chất lượng mạng và thời gian huấn luyện. Nếu chúng được chọn bé thì các điểm xa tâm ít chịu ảnh hưởng của các hàm cơ sở còn ngược lại thì tốc độ hội tụ chậm. 2.4. So sánh mạng RBF với mạng MLP Mạng RBF và mạng MLP cùng là mạng truyền tới đều dùng để xấp xỉ hàm. Sau đây là một số điểm cần lưu ý khi chọn kiểu mạng ứng dụng: 1. Mạng RBF là mạng chỉ có một tầng/lớp ẩn, còn mạng MLP có thể có một hoặc nhiều tầng nơron ẩn và khó xác định số nơron đủ tốt cho tầng này. 2. Khi dùng phương pháp Gradient cả hai đều dùng thuật toán truyền ngược sai số (BP), phức tạp hơn đối với mạng MLP có các tầng phi tuyến còn mạng RBF thì chỉ tập trung tính toán ở tầng ẩn còn tầng ra tuyến tính thì véctơ Gradient xác định dễ dàng. 3. Mạng MLP có thể dùng để ngoại suy hàm số. Mạng RBF với các hàm bán kính chỉ có ảnh hưởng địa phương (như hàm Gauss,…) nên không dùng để ngoại suy được. 4. Các thuật toán huấn luyện ảnh hưởng nhiều tới chất lượng của mạng. Thực tiễn cho thấy mạng RBF có thời gian huấn luyện nhanh hơn mạng MLP [13] và không sợ rơi vào cực trị địa phương. 58 5. Hiện nay sai số nội suy hay xấp xỉ hàm vẫn phải qua thực nghiệm chứ chưa có phương pháp ước lượng hữu hiệu nào. 2.5. Kết luận của chương Như đã nói trong chương 1 bài toán nội suy hàm một biến đã được nghiên cứu nhiều và giải quyết tương đối hoàn thiện. Với bài toán nội suy nhiều biến thì còn nhiều vấn đề mở. Mặc dù có những hạn chế về kết quả lý thuyết, các phương pháp học dựa trên mẫu và mạng nơron đang là công cụ hữu hiệu để giải quyết bài toán nội suy nhiều biến trong thực tiễn. So với các mạng nơron, phương pháp k-lân cận gần nhất và hồi quy tuyến tính địa phương tuy dễ sử dụng nhưng có nhược điểm là không xác định trước hàm nội suy (xấp xỉ) qua dữ liệu huấn luyện được. Mỗi hàm bán kính chỉ có miền ảnh hưởng địa phương phụ thuộc vào tham số độ rộng nên mạng RBF có thể xem là cầu nối giữa mạng MLP và các phương pháp dựa trên mẫu. Nó giống mạng MLP là xác định trước được hàm nội suy để dùng và giống phương pháp học dựa trên mẫu ở tính ảnh hưởng địa phương. So với mạng MLP, mạng RBF có thời gian huấn luyện nhanh hơn nhiều. Tuy vậy ngày nay có nhiều bài toán ứng dụng thời gian thực, đòi hỏi thời gian huấn luyện càng ngắn càng tốt. Đó là chủ để còn mở hiện nay và luận án tập trung tìm phương pháp huấn luận mạng nội suy, đưa ra các thuật toán dùng được cho số mốc lớn mà chưa xét đến mạng xấp xỉ. 59 CHƯƠNG 3. THUẬT TOÁN MỚI HUẤN LUYỆN MẠNG NỘI SUY RBF Trong chương này, chúng tôi đề xuất một thuật toán lặp hai pha huấn luyện mạng nội suy RBF. Pha thứ nhất xác định tham số độ rộng cho các hàm cơ sở bán kính, còn các trọng số tầng ra được tìm nhờ phép lặp xác định điểm bất động của một ánh xạ co trong pha sau. Phân tích toán học và kết quả thực nghiệm cho thấy thuật toán có những ưu điểm vượt trội so với những thuật toán thông dụng: dễ ước lượng sai số huấn luyện, thời gian huấn luyện ngắn, tính tổng quát cũng tốt hơn và dễ song song hoá. Thuật toán này cũng là cơ sở cho các thuật toán ở các chương sau. Mục 3.1 sẽ dành để giới thiệu các phương pháp lặp giải hệ phương trình tuyến tính cần dùng về sau và tóm tắt lại mạng nội suy RBF với hàm bán kính dạng Gauss. Thuật toán lặp hai pha được giới thiệu ở mục 3.2, kết quả thử nghiệm được trình bày ở mục 3.3. Mục 3.4 dành để so sánh hiệu quả của thuật toán mới với thuật toán Gradient và các nhận xét chung được đưa ra trong mục cuối. Kết quả chủ yếu của chương này đã được công bố trong hội thảo khoa học [4], và tạp chí quốc tế Signal Processing [34]. 3.1. Nền tảng lý thuyết của thuật toán Trước hết chúng tôi trình bày phương pháp lặp đơn và cải tiến của nó là phương pháp seidel [5], sau đó sẽ đưa ra một số nhận xét về hàm Gauss. 3.1.1. Các phương pháp lặp đơn giải hệ phương trình tuyến tính Giả sử ta cần giải hệ phương trình (3.1) Ax = b (3.1) Nếu đưa được về hệ tương đương dạng (3.2) x = Bx + d (3.2) 60 Trong đó, B là ma trận vuông cấp n thoả mãn (3.3) 1 qB (3.3) Chuẩn của B xác định bởi công thức:  1,max  xBxB (3.4) Nếu chuẩn  ixx max thì chuẩn của B là:        nicB n j ji ,..,1,max|||| 1 , (3.5) a) Phương pháp lặp đơn Khi đó với            0 0 2 0 1 0 nx x x x  tuỳ ý, và dãy nghiệm xấp xỉ được xây dựng bởi công thức lặp:         n j i k jij k i kk dxbxdBxx 1 11 ; (3.6) thỏa mãn *lim xxk k  . Trong đó x* là nghiệm đúng duy nhất của (3.2) và ta có ước lượng sai số:   1 1   kkk ii xxq qxx     nixx q qxx kj k jnj k ii     ;max 1 1 (3.7) Ngoài ra ta có ước lượng tiên nghiệm:    01max 1 jjnj k k ii xxq qxx    (3.8) Thông thường ta có thể chọn dx 0 , khi đó coi như ta đã tính xấp xỉ ban đầu với 00 x và dx 0 là bước tiếp theo. 61 b) phương pháp lặp Seidel Phương pháp Seidel là cải tiến của phương pháp lặp đơn để có tốc độ hội tụ nhanh hơn. Trong phương pháp này thay vì công thức lặp (3.6) ta dùng công thức sau:                        1 1 1 11 1 1 1 1 1 idxbxbx dxbx i n ij k jij i j k jij k i n j k jj k (3.9) Để ước lượng sai số ta vẫn dùng công thức (3.7), nhưng ở phương pháp này thì vế phải của (3.7) hội tụ về giá trị không, nhanh hơn phương pháp lặp đơn. 3.1.2. Tóm lược về mạng nội suy RBF với hàm RBF dạng Gauss Bài toán nội suy và kỹ thuật nội suy dùng hàm cơ sở bán kính đã được trình bày trong chương 1, 2. Để tiện theo dõi chúng tôi xin điểm lại một số nhận xét để làm cơ sở cho việc phát triển thuật toán. Bài toán nội suy. Xét hàm nhiều biến mn RRDf  )(: cho bởi tập mẫu  Nkkk yx 1,  );( mknk RyRx  sao cho   Nkyxf kk ,...,1;  . Ta cần tìm hàm  có dạng đã biết thỏa mãn: Niyx ii ,...,1;)(  (3.10) Các điểm xk là các mốc nội suy,  là hàm nội suy và được dùng để xấp xỉ hàm f trên miền D. Powell (1987) đề xuất tìm hàm nội suy  nhờ các hàm cơ sở bán kính, với M là số các hàm cơ sở bán kính (MN). Trong khuôn khổ luận án này chúng tôi chỉ xét trường hợp M=N vì chúng tôi quan tâm tới bài toán nội suy hơn là bài toán xấp xỉ. Mà với bài toán nội suy có thể chọn số các hàm bán kính bằng chính số mốc nội suy, và các mốc này sẽ làm tâm cho hàm bán kính tương ứng. Trong đó dạng hàm bán kính thông dụng nhất là hàm Gauss và về sau sẽ dùng dạng hàm này. Không giảm tổng quát, ta xét bài toán nội suy với m = 1, và tìm hàm  dưới dạng sau: 62    N k kk wxwx 1 0)()(  trong đó 2 2/( ) 1,... k kx x k x e k N      (3.11) xk là tâm của hàm cơ sở bán kính k . Với mỗi k, tham số k dùng để điều khiển độ rộng miền ảnh hưởng của hàm cơ sở k , nếu kkvx 3 thì ( )k x gần triệt tiêu. Các tham số wk và k cần tìm để hàm  dạng (3.11) và thỏa mãn các điều kiện nội suy của (3.10): i N k i kk i ywxwx   1 0)()(  ; Ni ,..,1 (3.12) Từ các công thức (3.11) và (3.12) ta có hệ thức:     N k ixx k wyew k ki 1 0 / 2 2  = zi; Ni ,..,1 (3.13) Các tham số k đã chọn ta xét ma trận cấp NxN: ,( )k i N N   trong đó 22 / , )( k ki xxi kik ex   (3.14) Micchelli [42] đã chứng minh rằng nếu các mốc xk khác nhau thì là ma trận khả nghịch. Vì vậy, với w0 cho trước tùy ý hệ phương trình (3.13) luôn tồn tại duy nhất nghiệm w1, …, wN. Để giải quyết bài toán nội suy này, chúng tôi dùng mạng nơron RBF và gọi là mạng nội suy RBF cho gọn. Như vậy mạng nội suy RBF dùng để nội suy hàm thực n biến mn RRDf  )(: là một mạng 3 tầng truyền tới. Tầng vào gồm n nút cho vectơ tín hiệu vào nRx , tầng ẩn gồm N nơron trong đó nơron thứ k có tâm là mốc nội suy xk và đầu ra của nó là hàm bán kính )(xk tương ứng, tầng ra gồm m nơron xác định giá trị hàm nội suy của f. Giá trị của tầng ra được xác định theo công thức (3.12). 63 Với tầng ẩn thì thường dùng hàm tổng là hàm Gauss, còn hàm kích hoạt là hàm đồng nhất (dạng đặc biệt của tuyến tính) và cũng có thể xem hàm tổng là bình phương khoảng cách của đầu vào đến tâm và hàm kích hoạt là f(u) = 2 22 u e   Tầng ra thì dùng hàm tổng là hàm , hàm kích hoạt là hàm tuyến tính. Các thuật toán huấn luyện thường xác định trọng số tầng ra w bằng phương pháp cực tiểu hoá tổng sai số bình phương theo công thức (3.15) sau:   2 1 N i i i E x y    (3.15) Tham số độ rộng của hàm bán kính (còn gọi gọn hơn là bán kính)  có ảnh hưởng rất nhiều tới mạng. Nếu chọn bán kính nhỏ thì có nhiều điểm cách xa tâm của các nơron tầng ẩn (như trên hình 3.1 là dấu x) sẽ ít bị ảnh hưởng bởi các hàm bán kính nên dẫn đến sai số nội suy ở các điểm này lớn, nhưng nếu tăng bán kính  lên thì tốc độ hội tụ sẽ chậm (thực nghiệm về sau cho thấy cũng không đảm bảo có sai số nội suy tốt hơn). Hình 3.1 Mô hình minh hoạ miền ảnh hưởng của tham số bán kính  Một vấn đề đặt ra là phải chọn được bán kính  như thế nào để vừa đảm bảo hội tụ nhanh và sai số có thể chấp nhận được. Dưới đây chúng tôi đề xuất thuật toán huấn luyện mạng RBF theo phương pháp lặp để khắc phục những hạn chế trên. . . . . x x x x x x x 64 3.2. Thuật toán lặp hai pha huấn luyện mạng nội suy RBF Ý tưởng chính của thuật toán mới là ở pha đầu tìm các bán kính k được xác định nhờ cân bằng giữa tính tổng quát của mạng và tốc độ hội tụ của pha sau. Ở pha thứ hai, các tham số wk được xác định nhờ tìm điểm bất động của một ánh xạ co. Định lý dưới đây là nền tảng cho thuật toán. 3.2.1. Định lý cơ bản Trở lại xét hệ phương trình (3.13) để tìm các trọng số tầng ra:     N k ixx k wyew k ki 1 0 / 2 2  = zi; Ni ,..,1 Ký hiệu: I là ma trận đơn vị cấp N;                   NN z z Z w w W ...,... 11 là các vectơ trong không gian RN và  là ma trận cho bởi (3.14) Nếu đặt: NNjk I  , (3.16) Thì ta có       jkkhi jkkhi e k kj xxjk : :0 22 /,  (3.17) Khi đó hệ phương trình (3.12) tương đương với hệ: ZWW  (3.18) Với các tham số k đã chọn, w0 tùy ý thì hệ (3.12), (3.18) luôn có duy nhất nghiệm W. Để tìm k,trước tiên ta lấy w0 là trung bình cộng của các giá trị yk: 65    N k ky N w 1 0 1 (3.19) Bây giờ với mỗi Nk  , ta có hàm qk của k xác định theo công thức sau:    N j jkkq 1 , (3.20) Việc xác định các bán kính k này dựa vào định lý sau. Định lý 3.1: Hàm qk là đơn điệu tăng, hơn nữa với mọi số dương q<1, luôn tồn tại giá trị k sao cho qk(k) bằng q. Chứng minh. Từ biểu thức (3.20) và chú ý tới (3.17) ta dễ dàng thấy qk là hàm đơn điệu tăng của k , hơn nữa ta có: 1lim  Nqkk và 0lim0  kqk (3.21) Bởi vì qk là hàm liên tục nên với mọi q thuộc khoảng (0,1) luôn tồn tại giá trị k sao cho qk( k ) = q . Vậy định lý đã được chứng minh. Định lý này cho thấy với q < 1, chúng ta có thể tìm được tập các  Nkk 1 để nghiệm đúng W* của (3.18) là điểm bất động của ánh xạ co ứng với  W + Z và hệ số co là q. 3.2.2. Mô tả thuật toán Với sai số  và các hằng số dương q,  ( 0<q<1, 0< <1) cho trước, thuật toán sẽ gồm 2 pha để xác định các tham số k và W*. Trong pha thứ nhất, các k được xác định để qk  q, sao cho qk gần tới q nhất, nghĩa là nếu thay thế k bằng   k thì qk > q. Khi đó chuẩn của ma trận  tương ứng với chuẩn vectơ ||.||* cho bởi (3.22) là  *1||||* ||||max|||| uu   sẽ không lớn hơn q. Như vậy cho phép ta tìm nghiệm gần đúng W* của (3.18) bằng phương pháp lặp đơn giản trong pha thứ hai. Thuật toán được đặc tả trong hình 3.2. 66 Procedure Huấn luyện mạng RBF (HDH) Begin Pha 1: Xác định tham số bán kính For k=1 to N do Xác định các k để qk < q; sao cho nếu thay thế k :=   k thì qk > q End Pha 2: Xác định các trọng số tầng ra Xác định W* bằng phương pháp lặp ; End Hình 3.2 Đặc tả thuật toán lặp hai pha huấn luyện mạng RBF 1) Pha 1: Xác định tham số độ rộng k Trong pha thứ nhất, xác định các k để qk  q, sao cho qk gần tới q nhất nghĩa là nếu thay thế k bằng   k thì qk > q. Với một số dương  < 1 và giá trị khởi tạo 0. Có thể khởi gán 0 bằng nNk 1)2( 1 theo gợi ý của Looney [38]. Chi tiết của thủ tục lặp được thể hiện trong hình 3.3. 67 Procedure Pha 1 của thuật toán HDH; Begin Khởi tạo k=0; Bước 0: k k+1; if k  N then Bước 1: Khởi tạo   0; //khởi tạo k Tính     N kjj kxjx ep ;1 )( 2 2||||  ; //tính qk Bước 2: Nếu p=q thì k   ; Quay trở lại Bước 0 Bước 3: Nếu p>q thì điều chỉnh tham số bán kính để qk  q và gần với q nhất. 3.1. 1   ; //giảm tham số bán kính Tính     N kjj kxjx ep ;1 )( 21 2||||  ; //tính lại qk 3.2. Nếu p q thì k  1; Quay trở về Bước 0 3.3. Nếu p>q thì   1 và trở lại 3.1; Bước 4: Nếu p<q thì 4.1.1  / ; //tăng tham số bán kính; Tính     N kjj kxjx ep ;1 )( 21 2||||  ; //Tính lại qk; 4.2. Nếu p>q thì k   ; Quay trở về Bước 0; 4.3. Nếu p<q thì   1 và trở lại 4.1 End Hình 3.3. Pha 1: xác định tham số bán kính 68 2) Pha 2: Xác định trọng số tầng ra wk Để tìm nghiệm W* của (3.18) ta thực hiện thủ tục lặp trong hình 3.4. Procedure Pha 2 của thuật toán HDH; Begin Bước 1: Khởi tạo W0 = Z; Bước 2: Tính W1= W0 + Z; Bước 3: Nếu điều kiện dừng chưa thỏa mãn thì gán W0:= W1 và trở lại Bước 2; Bước 4: W*W1. End Hình 3.4. Pha 2: xác định trọng số tầng ra Với mỗi vectơ N-chiều u, ta ký hiệu chuẩn ||u||* tính theo công thức sau [19]:  ||max|||| * jNj uu  (3.22) điều kiện kết thúc có thể chọn một trong biểu thức sau: a)  * 01 1 WW q q (3.23) b) q qZq q Z q t ln )1ln(lnln ln )1(ln **     (3.24) với t là số lần lặp. Các điều kiện dừng này được suy từ định lý về tính hội tụ được trình bày sau đây. 3.2.3. Đặc tính hội tụ Định lý sau đảm bảo tính hội tụ và cho phép ước lượng sai số của thuật toán. Định lý 3.2. Thuật toán huấn luyện mạng HDH luôn kết thúc sau hữu hạn bước và đánh giá sau là đúng. 69  * *1 WW (3.25) Chứng minh: Trước hết, từ kết luận của Định lý 3.1 ta dễ dàng suy ra pha thứ nhất của thuật toán sẽ kết thúc sau hữu hạn bước và qqk  với mọi k. Mặt khác chuẩn *  của ma trận  được xác định tương ứng với chuẩn vectơ (3.22) sẽ là: (Định lý 2 mục 9.6 chương 1 trang 177 của [19]).   qqkNk  max* (3.26) Vì vậy, pha thứ hai là thủ tục tìm điểm bất động Zuu  của ánh xạ co có hệ số co q và xấp xỉ ban đầu u0 = 0, u1 = Z. Với t bước lặp ở pha 2 sẽ tương ứng với t+1 bước lặp Zuu kk 1 của thuật toán tìm điểm bất động (trong định lý 1 mục 12.2 chương II của [19]). Vì vậy ta có đánh giá: * 1 * 01 1 * *1 11 Z q quu q qWW tt   (3.27) Biểu thức (3.24) tương đương với vế phải của (3.27) nhỏ hơn hoặc bằng . Có nghĩa là (   * 1 1 Z q qt ). Mặt khác nếu áp dụng (3.27) cho t=0; u0=W0; u1=W1 thì ta có: * 01 * *1 1 ww q qWW  (3.28) Kết hợp (3.23) với (3.28) ta có (3.25) suy ra điều cần chứng minh. Định lý đã được chứng minh. 3.2.4. Độ phức tạp của thuật toán Mục này sẽ phân tích và tính toán độ phức tạp của thuật toán. Pha 1: Bên cạnh tham số số chiều n và số mốc nội suy N. Độ phức tạp của Pha 1 còn phụ thuộc vào phân bố của tập mốc nội suy  Nkkx 1 và nó không phụ thuộc vào hàm f. Ngoài ra còn phụ thuộc vào việc khởi gán giá trị 0 có thể làm cho p>q (xem bước 3 của hình 3.3) hoặc p<q (xem bước 4 của hình 3.3). Với những 70 trường hợp trước, với mỗi giá trị k  N, đặt mk là số lần lặp trong bước 3 sao cho qk > q với k = 01 km nhưng qk  q với k = 0 km . Vì vậy, mk 0 minlog    , với min = min k ( 0 ) (3.29) Cũng tương tự như vậy, nếu mk là số lần lặp trong bước 4. mk 0 maxlog    , với max = max k ( 0 ) (3.30) Đặt c = max     0 max 0 min log,log      (3.31) Khi đó ta có độ phức tạp của Pha 1 là O(cnN2) (hình 3.3). Pha 2: Đặt T là số lần lặp trong Pha 2 của thuật toán. T phụ thuộc vào chuẩn ||Z||* của véctơ z và giá trị q. Theo công thức (3.24) và theo chứng minh ở định lý 3.2 , T có thể được ước lượng theo công thức sau: * * )1(log ln )1(ln Z q q Z q T q      (3.32) Như vậy độ phức tạp của Pha 2 là O(T.nN2) Vậy tổng độ phức tạp của thuật toán mới phát triển là O((T+c)nN2). Trong thuật toán này thời gian huấn luyện pha thứ nhất chỉ phụ thuộc vào phân bố của các mốc nội suy còn thời gian ở pha thứ hai phụ thuộc vào độ lớn của chuẩn * Z mà không phụ thuộc trực tiếp vào hàm f cần nội suy. 3.3. Thử nghiệm thuật toán Để đánh giá hiệu quả của thuật toán huấn luyện mạng nơron. Thông thường người ta hay quan tâm tới các tiêu chí sau: 71 Tốc độ hội tụ của thuật toán biểu hiện qua thời gian chạy của và sai số huấn luyện. Tính tổng quát của mạng biểu hiện qua chính sai số kiểm tra các điểm mới sau khi huấn luyện. Trong phần này chúng tôi thực nghiệm trên mạng RBF với hàm 3 biến cho trong công thức (3.33) để thử nghiệm thời gian huấn luyện và tính tổng quát của thuật toán. Đặc biệt chúng tôi có so sánh với thuật toán Gradient ở mục sau. 4)1sin( 322 2 1  xxxxy (3.33) Thử nghiệm tính tổng quát của mạng bằng cách sau: Đầu tiên chọn một số điểm không nằm trong tập mốc nội suy, sau khi huấn luyện mạng, nội suy các điểm đó rồi so sánh với giá trị đúng của hàm đã biết và ước lượng sai số. Dữ liệu thử nghiệm được lấy cách đều theo hai chiều và tích hợp ngẫu nhiên với chiều thứ ba. Thực nghiệm chạy trên máy tính có cấu hình: Intel Pentium 4 Processor, 3.0GHz, 512MB DDR RAM. Kết quả và những nhận xét của thuật toán được trình bày sau đây: 3.3.1. Tốc độ hội tụ Thời gian huấn luyện phản ánh tốc độ hội tụ của thuật toán. Nó được thử nghiệm với số mốc khác nhau với các tham số q,  và  thay đổi tuần tự. Kết quả thử nghiệm trên hàm (3.33) với x1[0,3], x2[0,4], x3[0,5]. Tham số dừng thuật toán  =10-6. Tham số q và  nhận các giá trị lần lượt là 0.5 và 0.5; 0.8 và 0.5; 0.8 và 0.7; 0.8 và 0.8 lần lượt với các mốc biến đổi từ 100 đến 5000. Kết quả được trình bày trong bảng 3.1 và hình 3.5. 72 Bảng 3.1: Thời gian huấn luyện với tham số dừng  =10-6 Số mốc =10-6, q=0.5, =0.5 =10-6, q=0.8, α=0.5 =10-6, q=0.8, α=0.7 =10-6,

Các file đính kèm theo tài liệu này:

LUẬN VĂN-BÀI TOÁN NỘI SUY VÀ MẠNG NƠRON RBF.pdf