Bài giảng Máy thu dùng mạng neural

Tài liệu Bài giảng Máy thu dùng mạng neural: Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 110 MÁY THU DÙNG MẠNG NEURAL 1. Dẫn nhập Mô hình hoá thống kê truyền thống và mạng neural là các lĩnh vực có liên quan mật thiết với nhau, khác nhau ở chỗ là mô hình thống kê thực hiện giải quyết các bài toán tuyến tính còn mạng neural thực hiện giải quyết cho các bài toán phi tuyến. Trong hai lĩnh vực này có sử dụng chung một kỹ thuật gọi là lan truyền ngược (backpropogation). Lan truyền ngược là một kỹ thuật trọng tâm của mạng neural nhưng thực ra nó lại là một công cụ mô hình hoá thống kê. 1.1. Mô hình hoá thống kê Xét một tập mẫu bao gồm các dữ liệu đã thu thập được. Từ tập mẫu, để có được phương trình ta cần phải xác định được giá trị của các biến độc lập và biến phụ thuộc. Để sử dụng mô hình, ta cũng phải biết được biến độc lập của một mẫu mới để có thể lượng giá cho biến phụ thuộc. Hồi quy tuyến tính là phương pháp cơ bản nhất của mô hình hoá thống kê. Phương trình ...

30 trang | Chia sẻ: hunglv | Lượt xem: 1160 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Bài giảng Máy thu dùng mạng neural, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 110 MÁY THU DÙNG MẠNG NEURAL 1. Dẫn nhập Mô hình hoá thống kê truyền thống và mạng neural là các lĩnh vực có liên quan mật thiết với nhau, khác nhau ở chỗ là mô hình thống kê thực hiện giải quyết các bài toán tuyến tính còn mạng neural thực hiện giải quyết cho các bài toán phi tuyến. Trong hai lĩnh vực này có sử dụng chung một kỹ thuật gọi là lan truyền ngược (backpropogation). Lan truyền ngược là một kỹ thuật trọng tâm của mạng neural nhưng thực ra nó lại là một công cụ mô hình hoá thống kê. 1.1. Mô hình hoá thống kê Xét một tập mẫu bao gồm các dữ liệu đã thu thập được. Từ tập mẫu, để có được phương trình ta cần phải xác định được giá trị của các biến độc lập và biến phụ thuộc. Để sử dụng mô hình, ta cũng phải biết được biến độc lập của một mẫu mới để có thể lượng giá cho biến phụ thuộc. Hồi quy tuyến tính là phương pháp cơ bản nhất của mô hình hoá thống kê. Phương trình hồi quy tuyến tính có dạng: y = ∑ = + L 1i ii0 xaa (4.1) trong đó y là biến phụ thuộc cần phải lượng giá, L là số biến độc lập và các hệ số ai là các tham số xác định bằng phương pháp hồi quy. Phương trình xây dựng theo phương pháp mô hình hoá có thể xem là một ánh xạ, nó cho phép ánh xạ một điểm từ miền xác định của các biến độc lập vào một điểm trong miền xác định của các biến phụ thuộc. Nếu phương trình hồi quy có L biến độc lập thì hàm ánh xạ sẽ định nghĩa một siêu phẳng (hyper-plane) L chiều. Các giá trị của L biến sẽ xác định một điểm trên siêu phẳng đó. Hồi quy tuyến tính sử dụng một dạng tuyến tính trên ánh xạ sẽ dẫn đến sai số. Để có mô hình hồi quy tuyến tính tốt thì cần phải biến đổi các biến số trước khi xây dựng mô hình. Quá trình này gọi là tuyến tính hoá dữ liệu. Như vậy, vấn đề đặt ra trong bài toán xây dựng mô hình hồi quy tuyến tính không phải là xác định các hệ số của ánh xạ tuyến tính mà là tuyến tính hoá dữ liệu. Tuy nhiên hiện nay chưa có phương pháp tổng quát nào để cho phép tuyến tính hoá dữ liệu. Từ đó, mạng neural với thuật toán lan truyền ngược là một giải pháp cho phép xây dựng một mô hình phi tuyến trên tập mẫu cho trước. 1.2. Lan truyền ngược Mạng lan truyền ngược là một hàm phi tuyến xấp xỉ thành một hàm dựa trên tập mẫu cho trước. Một mạng neural tiêu biểu gồm có 3 lớp: lớp ngõ vào (input), lớp ẩn (hidden) và lớp ngõ ra (output). Mỗi neuron trong lớp ngõ vào nhận giá trị của một biến độc lập và chuyển vào mạng. Dữ liệu từ các neuron trong lớp ngõ vào được tổng trọng hoá và chuyển vào các neuron trong lớp ẩn. Các neuron trong lớp ẩn chỉ liên kết với các neuron trong lớp ngõ vào và ngõ ra nên chỉ người thiết kế mạng mới biết được các lớp này (người sử dụng sẽ không biết). Tương tự, các neuron trong lớp ngõ ra cũng nhận giá trị từ các neuron ẩn. Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 111 Một mạng lan truyền tổng quát có n lớp: 1 lớp ngõ vào, 1 lớp ngõ ra và n – 2 lớp ẩn. Số neuron của lớp ngõ vào và ngõ ra phụ thuộc vào số biến độc lập và phụ thuộc của bài toán cần giải quyết còn số neuron của các lớp ẩn thì tuỳ thuộc vào người thiết kế mạng. Mạng lan truyền ngược chỉ có thể có một trong hai trạng thái: trạng thái ánh xạ và trạng thái huấn luyện. Hình 4.1: Mạng neural tiêu biểu Trong trạng thái ánh xạ, thông tin lan truyền từ lớp ngõ vào đến lớp ngõ ra và mạng thực hiện ánh xạ để tính giá trị các biến phụ thuộc dựa vào các biến độc lập cho trước. Quá trình ánh xạ có thể mô tả như sau: 9 Giá trị của các biến độc lập được chuyển vào lớp ngõ vào của mạng. Lớp ngõ vào sẽ không thực hiện tính toán gì cả mà chỉ chuyển giá trị cho các lớp ẩn. 9 Mỗi neuron ở các lớp ẩn tính tổng trọng hoá của tất cả các dữ liệu nhập thông qua các trọng số liên kết. 9 Giá trị tổng trọng hoá sẽ đưa qua một hàm truyền để cho ra giá trị thực của neuron ẩn bằng cách nén giá trị vào một miền giới hạn ứng với ngưỡng của từng neuron. 9 Các neuron ẩn sẽ gởi kết quả đến neuron ngõ ra. Các neuron ngõ ra cũng thực hiện quá trình tương tự như các neuron ở các lớp ẩn để đưa ra giá trị ngõ ra. Bản chất ánh xạ do mạng thực hiện tuỳ thuộc vào giá trị các trọng số trong mạng. Việc áp dụng phương pháp lan truyền ngược là quá trình lặp đi lặp lại nhiều lần 2 công việc: ánh xạ và lan truyền ngược sai số. Hai công việc này được áp dụng trên cùng một tập mẫu và được gọi chung là huấn luyện mạng hay trạng thái học. Trong trạng thái huấn luyện, thông tin lan truyền theo hai chiều nhiều lần để học các trọng số liên kết. Quá trình huấn luyện mạng bắt đầu với các giá trị trọng số tuỳ ý và tiến hành lặp đi lặp lại. Mỗi lần lặp là một thế hệ. Trong mỗi thế hệ, mạng hiệu chỉnh trọng số liên kết sao cho sai số giảm dần. Tiến trình điều chỉnh nhiều lần Output Input Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 112 giúp cho trọng số dần dần tiến đến giá trị tối ưu. Để cập nhật trọng số, mạng phải xử lý tất cả các mẫu trong tập mẫu. Đối với từng mẫu, mạng thực hiện quá trình sau: Ánh xạ các biến ngõ vào của quá trình hiện hành thành các giá trị ngõ ra: quá trình lan truyền tiến. Tính sai số dựa trên giá trị ngõ ra và giá trị thực. Trên cơ sở sai số tính được, mạng sẽ cập nhật lại các trọng số theo nguyên tắc lan truyền ngược sai số. Kỹ thuật cơ bản trong lan truyền ngược là cập nhật trọng số theo hướng giảm gradient. 2. Ánh xạ Ta biết rằng giá trị các neuron trong lớp ẩn và lớp ngõ ra là giá trị của hàm truyền với tham số là tổng trọng hoá. Về mặt hình học, đồ thị hàm truyền có dạng chữ S nên còn gọi là hàm dạng S. Một hàm s(u) gọi là hàm dạng S nếu thoả mãn: s(u) bị chặn s(u) đơn điệu tăng s(u) liên tục và trơn Tất cả các hàm có 3 tính chất trên đều có thể dùng làm hàm truyền trong mạng. Trong thực tế thường sử dụng nhất là hàm logistic: g(u) = ue1 1 −+ (4.2) Trong trường hợp nếu cần thiết ngõ ra có giá trị trong khoảng [-1,1], ta có thể dùng một trong hai hàm sau: Hàm hyperbol: h(u) = u u e1 e1 − − + − (4.3) Hàm tang hyperbol: tanh(u) = uu uu ee ee − − + − (4.4) Phương trình tính giá trị của các neuron ẩn có dạng như sau: yi =     +∑ = L 1j ijii0 xaag (4.5) 3. Phân loại mô hình Trong phần này, chúng ta bàn về kỹ thuật phân loại mô hình sử dụng trong thông tin DS-CDMA. Để thực hiện việc này, ta sử dụng lại vector tín hiệu thu để biểu diễn dưới dạng hình học. Những vector thu thuộc không gian tín hiệu. Khi có sắp xếp bên trong không gian vector, ta dùng những kỹ thuật phân loại chuẩn để giải quyết những thông tin chứa đựng trong tín hiệu. 3.1. Biểu diễn hình học của tín hiệu Trong các hệ thống thông tin cổ điển, máy thu có ngõ ra một vector có chiều dài n và được sắp xếp xen kẽ với các bit kiểm tra chẵn lẻ. Nếu xem mỗi phần tử của Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 113 vector là một chiều thì một điểm trong siêu phẳng n chiều có thể biểu diễn một vector. Bất kỳ vector x = (x1, x2, x3, …, xn) nào đều có thể biểu diễn bằng chuỗi n vector đơn vị tuyến tính (theo Arfkin) như sau : ∑ = Φ= Φ++Φ+Φ+Φ= n 1k kk nn332211 x xxx x x … (4.6) trong đó Φ là vector cơ bản (xem như là tín hiệu cơ bản và được ký hiệu là Φ(t)). Tín hiệu này có thể viết lại dưới dạng tổng sau : ∑ Φ= i ii )t(x )t(y (4.7) Theo không gian Euclide, với mỗi tín hiệu cơ bản có chiều dài đơn vị, ta có thể viết lại phương trình (4.7) như sau : ∑= i x(t) )t(y (4.8) Khi đưa một tín hiệu vào không gian tín hiệu thì có thể xác định được quan hệ giữa những tín hiệu thu. Những quan hệ này được xác định bằng cách dùng phép đo đồng dạng giữa các tín hiệu với nhau. Nói chung, những tín hiệu tương đương nhau sẽ thuộc một lớp giống nhau và ngược lại. Hai vấn đề chung nhất của không gian metric là khoảng Euclide và phép nhân điểm (dot product). Khoảng Euclide giữa 2 vector x, y là : ∑ = == n 1i 2 ii )y-(x y-x )y,x(d (4.9) Phép nhân điểm giữa 2 vector x, y được biểu diễn như sau : ∑ = == n 1 i T x y x , i iyyx (4.10) và đó cũng là phép chiếu của x lên y (hình 4.2). yx − xTy x y Hình 4.2 : Quan hệ giữa khoảng Euclide và phép nhân Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 114 Quan hệ giữa khoảng Euclide và phép nhân điểm giữa vector x và y như hình 4.2. Hình này còn cho thấy phép nhân trở thành giá trị cực đại là 1 khi khoảng Euclide tiến đến 0. Vậy quá trình cực đại hoá phép nhân điểm tương đương với cực tiểu hoá khoảng Euclide. Khi cả 2 vector thu có trị trung bình (µ) và phân bố giống nhau, phương trình (4.9) đưa ra ước lượng chính xác về khoảng Euclide giữa các tín hiệu. Tuy nhiên, trong trường hợp CDMA thì các tín hiệu thu có những bit dương đã mã hoá sẽ có độ trung bình khác hơn so với những bit âm đã mã hoá. Trong trường hợp này, phương trình (4.10) phải thay đổi. Đối với những tín hiệu có độ trung bình khác nhau thì ta sử dụng khoảng Mahalanobis. Ta có thể định nghĩa khoảng Mahalanobis như sau : )-(x )-(x d jj1Tii2ij µΞµ= − (4.11) với 1−Ξ là ma trận nghịch đảo của ma trận hiệp phương sai Ξ . Khoảng Mahalanobis sẽ giữ vai trò nổi bật trong việc hiệu chỉnh sự ảnh hưởng của MAI (gây ra do sự tương quan giữa các mã trải phổ) trong thiết kế bộ thu. 3.2. Phân loại mô hình Xét 2 lớp mô hình rời rạc ),( 21 ΩΩ , một lớp có trị dương và lớp kia có giá trị âm. Sự phân đôi những điểm trong mẫu rời rạc Ω1 và Ω2 như hình 4.3 (theo Haykin). Phân chia ),( 21 ΩΩ gọi là hàm chia φ nếu ở đó tồn tại một vector w kích thước n: 2 T 1 T x0, )x(w x0, )x(w Ω∈<φ Ω∈>φ (4.12) trong đó x là mô hình ngõ vào. Ta có thể phân chia ranh giới cho 2 lớp khi phương trình (4.13) bằng 0. 0 )x(x T =φ (4.13) Dạng φ(⋅) xác định siêu phẳng sẽ phân loại những ngõ vào đã cho như thế nào. Mục đích của φ(⋅) là để tạo ra một ánh xạ từ không gian tín hiệu tới không gian đặc trưng, là không gian chiều cao hơn để thực hiện phân chia dễ dàng hơn. Những (a) (b) (c) Hình 4.3 : Những cách chia để phân loại. (a) : tuyến tính; (b) : tuyến tính từng phần; (c) : phi tuyến Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 115 hàm ẩn tuyến tính thường có những ánh xạ tuyến tính, ví dụ như là φ(a) → αa, ở đây α là số thực bất kỳ và a là vector tín hiệu thu. Những hàm ẩn phi tuyến tạo ra một ánh xạ phi tuyến có đặc trưng 'a'. Ví dụ φ(a) → tanh(a), xem tanh(⋅) như là hàm mẫu. 3.3. Chùm sao tín hiệu CDMA (CDMA signal Constellation) Tín hiệu thu đối với user thứ k trong hệ thống CDMA: ∑ = δ+= K 1k nkkk s),t(n)t(sbA bˆ (4.14) Đối với hệ thống 2 user, đối với user 1: )t(nbAbA bˆ 22111 +ρ+= (4.15) và tương tự với user thứ 2 là: )t(nbAbA bˆ 11222 +ρ+= (4.16) Giả sử biên độ có giá trị đơn vị thì từ phương trình (4.15) và ( 4.16), ta dễ dàng xây dựng tín hiệu trong không gian ngõ vào. Hình 4.4 cho thấy miền thu riêng của 2 (hình 4.4a) và 3 user (hình 4.4b). Những bit dương là màu trắng, trong khi đó những bit âm là màu sẫm. Ma trận tương quan cho trong (hình 4.4a) là:    = 13.0 3.01 R (4.17) Nếu những mã trải phổ là trực giao thì ma trận tương quan sẽ là ma trận đơn vị, và các tín hiệu thu tạo thành hình vuông trong trường hợp hai chiều, hình lập phương trong trường hợp 3 chiều, và một siêu khối (hypercube) trong trường hợp số chiều cao hơn. Mã trải phổ sẽ không trực giao hoàn toàn mà sẽ xáy ra tương quan. Như vậy, sự tương quan này làm siêu khối bị lệch đi một giá trị tỷ lệ thuận với giá trị tương quan. User 2 User 1 (a) (b) Hình 4.4 : Những chùm sao tín hiệu thu CDMA với hình (a) là 2, và (b) là 3 Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 116 Từ phương trình (4.15) và (4.16), khi biên độ của user thay đổi thì chùm sao tín hiệu di chuyển theo hướng của sự thay đổi đó. Đối với trường hợp 2 user (hình 4.4a), khi biên độ của user 1 tăng thì những tín hiệu sẽ di chuyển theo hướng từ trục đứng làm cho việc phân loại bit 1 dễ dàng hơn. Hình 4.4 đưa ra kết quả của MAI trong môi trường không nhiễu. Khi tín hiệu thu có nhiễu cộng, những điểm tạo ra góc của siêu khối sẽ trở thành những phân bố Gaussian, với giá trị trung bình bằng với giá trị không nhiễu và phương sai σ2 tỷ lệ với SNR của tín hiệu thu. Hình 4.5: Các điểm dữ liệu thu trong không gian đặc trưng Ví dụ trong hình 4.5, SNR là 7dB. Ở những nơi đỉnh đồi cao và thung lũng dốc hơn sẽ cho kết quả SNR lớn hơn. Rõ ràng, khi SNR giảm thì những đỉnh đồi và thung lũng sẽ rộng hơn khó xác định tín hiệu là +1 bit (đồi) hay -1 bit (thung lũng). Hình 4.6 cho thấy tương đương hai chiều của hình 4.5. Biên quyết định của bộ lọc thích hợp là trục đứng. Biên quyết định của máy thu khử tương quan là tối ưu khi cực đại hoá khoảng giữa mỗi trung tâm và biên. Quyết định MMSE tối ưu theo hướng cực tiểu hoá MSE giữa các điểm. Từ đó, ta thấy là tại sao bộ lọc thích hợp thực hiện kém khi MAI gia tăng. Trong hình 4.4, các tâm có K mức tự do (K là số user). Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 117 Hình 4.6: Biên quyết định của các máy thu với SNR = 7dB 4. Huấn luyện mạng Mạng neural có khả năng mã hoá lượng lớn dữ liệu ở không gian thích hợp nào đó và có độ thích nghi cao. Điều này, tạo ra sự lựa chọn có logic cho việc xác định biên quyết định (decision boundary) gần tối ưu có độ phức tạp kém hơn bộ thu tối ưu. Trong phần này, ta xem xét máy thu tối ưu sử dụng mạng RBF (radial basis function network – còn gọi là mạng Gauss do sử dụng hàm truyền có dạng hàm Gauss) để thực hiện việc phân loại tín hiệu. Thuật toán sử dụng để huấn luyện mạng gọi là SVM (Support Vector Machine). Không giống như hầu hết các thuật toán huấn luyện mạng neural khác, mạng này chỉ hoạt động đối với dữ liệu huấn luyện, SVM kết hợp phương pháp kinh nghiệm và phần lý thuyết thống kê. Sử dụng thuật toán SVM cho ta kết quả là một mạng có khả năng tổng quát hơn và độ phức tạp thấp hơn đối với phương pháp huấn luyện cổ điển. 4.1. Một số khái niệm Mặt lỗi: Huấn luyện mạng là quá trình tìm các trọng số của mạng sao cho ánh xạ là gần đúng nhất với tập mẫu. Thông số thường dùng để đo lường tính gần đúng của hàm ánh xạ là phương sai. Cho tập mẫu Ω ={(Xk,Zk) = (xk1,xk2,…,xkM;zk1,zk2,…,zkN); xki,zkj ∈ ℜ; i=1,..M; j=1…N}, gọi Tk = NN(Xk) = (tk1,tk2,…,tkN) là phương sai là: Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 118 E = ( ) NK tz 2 1 N 1n K 1k 2 knkn∑∑ = = − (4.18) Về mặt hình học, ta có thể xem E như là một mặt lỗi. Mặt lỗi là một siêu phẳng trong đó mỗi điểm của nó tương ứng với một điểm trong không gian trọng số. Chiều cao trên không gian trọng số của mỗi điểm trong mặt lỗi tương ứng với sai số của mô hình ứng với các trọng số tương ứng đó. Điểm thấp nhất trên mặt lỗi cho ta mô hình có sai số nhỏ nhất. Phương pháp giảm gradient: Hồi quy tuyến tính là một phương pháp cho phép xác định tập các hệ số của một mô hình tuyến tính của tập mẫu cho trước sao cho sai số là nhỏ nhất nghĩa là xác định điểm trong không gian trọng số sao cho sai số E tương ứng với điểm thấp nhất trong mặt lỗi. Đối với trường hợp mô hình phi tuyến, phương pháp giảm gradient sử dụng để xác định sai số thấp nhất, phương pháp này bao gồm các bước chính sau: - Chọn ngẫu nhiên điểm x0 trong không gian trọng số. - Tính độ dốc mặt lỗi tại x0. - Cập nhật trọng số theo hướng dốc nhất của mặt lỗi. - Xem điểm này như là điểm x0 mới. Quá trình này sẽ lặp lại cho đến khi các giá trị trọng số sẽ tiệm cận với điểm thấp nhất trong mặt lỗi. Cực tiểu địa phương: Trong quá trình thực hiện phương pháp giảm gradient nói trên, có thể sẽ có trường hợp quá trình lặp tiến tới một điểm cực tiểu địa phương trên mặt lỗi, nghĩa là lúc này khi cập nhật trọng số theo bất kỳ một phương nào thì cũng làm cho sai số tăng lên nhưng nó lại không phải là điểm thấp nhất. Bài toán tìm cách tránh không rơi vào điểm cực tiểu địa phương là bài toán nan giải. Tuy nhiên đối với mạng neuron, ta có thể thêm một neuron ẩn vào mạng khi tiến trình rơi vào một cực tiểu địa phương. Hornik đã chứng minh rằng một mạng với số neuron thích hợp có thể xấp xỉ một hàm bất kỳ với sai số bất kỳ. 4.2. Quy tắc huấn luyện Huấn luyện mạng là quá trình cập nhật các trọng số của mạng sao cho sai số giảm dần. Bất cứ phương pháp nào thực hiện công việc này đều được gọi là quy tắc huấn luyện. Quy tắc giảm dốc nhất (quy tắc delta): Quy tắc delta là quy tắc huấn luyện nguyên thủy nhất của mạng lan truyền ngược. Khi thực hiện một bước lặp, tất cả các trọng số của mạng sẽ được cập nhật dựa vào các thông tin đạo hàm riêng theo từng trọng số tích lũy được, theo hướng mà hàm lỗi E giảm xuống nhiểu nhất. Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 119 Gọi Wm là trọng số cập nhật tại bước m. Ta có phương trình cập nhật như sau: Wm = Wm-1 + cm (4.19) cm = -εdm (4.20) dm = ∑ =     ∂ ∂N 1n nm W E (4.21) Giá trị của tham số ε ∈ [0,1] do người thiết kế quyết định, không có phương pháp tổng quát nào để chọn giá trị chính xác cho ε. Thông thường ε được chọn theo phương pháp thử và sai, đây chính là hạn chế của quy tắc huấn luyện delta. Các tiến trình thực hiện theo các giá trị của ε có thể mô tả như hình vẽ: Hình 4.7: Giá trị ε tốt Hình 4.8: Giá trị ε lớn Hình 4.9: Giá trị ε quá lớn Lỗ i Giá trị trọng số Lỗ i Giá trị trọng số Lỗ i Giá trị trọng số Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 120 Quy tắc moment: Đối với phương pháp delta ở trên, hệ số ε được chọn một lần và cố định trong suốt quá trình huấn luyện mạng. Việc chọn giá trị như thế sẽ ảnh hưởng rất lớn đến tốc độ hội tụ của mạng. Phương pháp moment là phương pháp cải tiến từ phương pháp delta theo hướng thay đổi giá trị của hệ số huấn luyện cho thích hợp với từng bước huấn luyện. Quy tắc này được mô tả như sau: nếu các bước học trước đang giảm mạnh thì bước kế tiếp cũng sẽ giảm mạn theo, tức là tăng hệ số huấn luyện để độ biến thiên trọng số tăng lên. Ngược lại thì giảm hệ số huấn luyện. Do đó quy tắc moment còn được gọi là quy tắc quán tính. Đối với phương pháp này, hệ số huấn luyện không chỉ đơn giản là ε và còn cần thêm các hệ số khác để giữ lại thông tin của bước huấn luyện phía trước. Ta mở rộng công thức (4.20) tính độ biến thiên trọng số của phương pháp moment thành công thức sau: cm = µcm-1 – (1 - µ)εdm, 0 ≤ µ <1 (4.22) Ta thấy rằng nếu µ = 0 thì công thức này trở thành công thức của quy tắc delta. Trong thực tế, giá trị µ thường chọn là 0.9. Quy tắc huấn luyện thích nghi: Phương pháp huấn luyện thích nghi, còn được gọi là phương pháp delta-bar- delta, là một phương pháp cải tiến được xem là hiệu quả nhất của phương pháp delta do Robert Jacobs giới thiệu. Phương pháp này thực hiện cập nhật cho mỗi trọng số với hệ số huấn luyện e khác nhau và quá trình thay đổi hệ số huấn luyện tùy thuộc vào hướng giảm lỗi hiện hành, nếu hướng này cùng hướng với bước trước thì e lớn, ngược là thì e sẽ nhỏ. Hướng giảm lỗi được xác định bằng dấu của dm, là đạo hàm riêng của hàm lỗi theo trọng số ở bước m, tính theo công thức (4.21). Nếu dm > 0: lỗi giảm khi trọng số giảm và ngược lại. Phương pháp học thích nghi vận dụng khái niệm hướng lỗi vừa mới giảm. Ta định nghĩa hướng này như một hàm theo d như sau: fm+1 = θfm + (1-θ)dm (4.23) Hệ số huấn luyện thích nghi được tính theo công thức sau: em =   ≤φ >κ+ − − 0fdxe 0fde mm1m mm1m (4.24) Thực tế, hệ thống không thay đổi nhiều lắm đối với việc lựa chọn các giá trị của κ, φ và θ. Thông thường các giá trị sau được sử dụng: κ = 0.1 φ = 0.5 (4.25) θ = 0.7 Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 121 Khi đã xác định được e, độ biến thiên trọng số được xác định theo phương pháp delta: cm = -emdm (4.26) hay phương pháp moment: cm = µcm-1 – (1 - µ)emdm, 0 ≤ µ <1 (4.27) Phương pháp sử dụng hệ số huấn luyện thích nghi cho mỗi trọng số làm tăng tốc đ6ọ huấn luyện. Để đạt cùng sai số như phương pháp delta thì nó chỉ cần khoảng 1/10 số bước lặp mà phương pháp delta sử dụng. 4.3. Một số kỹ thuật khác Quickprop: Quickprop (Quick propagation) là một dạng cải tiến của mạng lan truyền ngược về tốc độ huấn luyện. Quy tắc huấn luyện mạng quickprop cũng tương tự với quy tắc huấn luyện với hệ số thích nghi. Ý tưởng chính của phương pháp này là xấp xỉ mặt lỗi bằng một chuỗi các parabol hướng lên. Tại mỗi bước, trọng số sẽ được cập nhật sao cho sai số nằm tại giá trị cực tiểu của parabol hiện hành. Phương trình tổng quát thực hiện tính biến thiên trọng số là: cm = 1m m1m m c dd d − − − (4.28) Đối với phương pháp này ta lưu ý rằng chỉ thực hiện được cho bước thứ 2 trở đi và nếu như cm = 0 hay dm = dm-1 thì công thức này sẽ không sử dụng được nữa. Lúc này ta có thể sử dụng quy tắc biến thiên trọng số của phương pháp delta. Phương pháp bậc hai: Phương pháp bậc hai thực hiện tính toán xấp xỉ đạo hàm bậc hai hàm lỗi và kết hợp với đạo hàm bậc nhất để quyết định độ biến thiên trọng số. Phương trình thực hiện tính biến thiên trọng số là: c = 2 2 W E W E ∂ ∂ ∂ ∂ − (4.29) Phương pháp này còn gọi là kỹ thuật gradient liên hợp (conjugate gradient). Tuy nhiên phương pháp này chỉ dùng khi đạo hàm bậc hai là số dương. Do đó, nếu đạo hàm bậc hai tại một số điểm nào đó là số âm thì phải thực hiện bằng phương pháp khác. Mạng tương quan theo tầng: Mạng tương quan tầng tăng tốc độ huấn luyện bằng cách thêm vào mỗi lần một neuron ẩn được thiết kế đặc biệt thích hợp sao cho mạng giảm lỗi, mạng này do Scott Fahlman và Christian Lebiere phát triển. Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 122 Về cấu trúc, mạng tương quan tầng gồm có các lớp ngõ vào và ngõ ra giống như mạng thông thường. Các neuron ngõ vào được nối trực tiếp với các neuron ngõ ra. Các neuron ẩn không sắp xếp trong cùng một lớp nhưng theo tầng, mỗi neuron ẩn nhận tất cả các tín hiệu từ các neuron ẩn có trước và từ neuron ngõ vào. Hình 4.10: Mạng tương quan theo tầng Đầu tiên mạng chỉ có các neuron ngõ vào và ngõ ra. Ta dùng một quy tắc huấn luyện bất kỳ để tìm trọng số cho các cung vào – ra. Khi thêm một neuron ẩn vào, mạng sẽ được huấn luyện lại. Quá trình huấn luyện thực hiện theo hai giai đoạn: 9 Huấn luyện các neuron ẩn mới: thủ tục huấn luyện neuron ẩn được thiết kế sao cho khi thêm neuron vào mạng thì phương sai của mạng sẽ không bị thay đổi. 9 Sau khi neuron ẩn mới được nối vào mạng thì sẽ giữ nguyên trọng số của nó và thực hiện câp nhật lại các trọng số của các neuron khác trong mạng để làm giảm thiểu sai số của mạng. Hai quá trình này sẽ lặp đi lặp lại cho đến khi sai số không giảm nữa. Như vậy, vấn đề chính ở đây là huấn luyện các neuron ẩn mới sao cho cùng phương sai với mạng. Đồng phương sai của neuron ẩn: V = ( )( )∑∑ = = −−− K 1k N 1n knkn EztYy (4.30) Kế tiếp, ta tìm cực đại hóa đồng phương sai này bằng phương pháp tăng gradient để tìm trọng số các neuron ẩn tối ưu dựa vào: ( )∑∑ = = −−−±=∂ ∂ K 1k N 1n knk x)y1(yEztW V (4.31) Output Input Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 123 Để tránh trường hợp cực trị địa phương thì ta có thể dùng thêm các neuron dự bị, mỗi neuron dự bị được khởi đầu bằng các trọng số khác nhau. Vào cuối quá trình huấn luyện, neuron dự bị nào có đồng phương sai lớn nhất sẽ được kết nối vào mạng. 4.4. Mạng RBF Khi biết biên quyết định của máy thu tối ưu, bất kỳ máy thu gần tối ưu (suboptimal) nào cũng sẽ cố gắng chọn miền quyết định tốt nhất cỏ thể. Mạng RBF giống như bộ xấp xỉ chung (Broomhead and Lowe), và phù hợp với bài toán xấp xỉ đường cong (Haykin). Mitra và Poor đưa ra một mạng RBF đồng bộ có đầy đủ những thông số hệ thống đã biết để nhận biết siêu phẳng. Vấn đề của bài toán xấp xỉ này là phép biến đổi vector ngõ vào tới một không gian kích thước lớn (high dimensional space). Một mạng RBF ba tầng mô tả như hình 4.11. Lớp ngõ vào (input layer) có kích thước K, với K là số user trong hệ thống (ngõ vào bộ lọc thích hợp). Lớp ẩn (hidden layer) gồm N trung tâm RBF. Mỗi trung tâm tạo ra ánh xạ phi tuyến từ không gian ngõ vào của tín hiệu đối với không gian đặc tính kích thước lớn. Ở bước cuối cùng, ngõ ra của mạng là tổng ngõ ra từ những lớp ẩn. Mục tiêu của mạng BRF là huấn luyện để kết hợp vector ngõ vào với đáp ứng mong muốn. Để thực hiện điều này, ta phải huấn luyện biên quyết định nhằm chia cắt các lớp tín hiệu trong không gian đặc trưng. Trong CDMA, mạng được huấn luyện cách kết hợp giữa vector ngõ vào ym (là ngõ ra của các bộ lọc thích hợp) và đáp ứng mong muốn dm. Do tín hiệu của mỗi user tương ứng có giá trị là +1 hay -1 nên có tổng cộng 2K tín hiệu tạo thành tập tín hiệu D. Vậy máy thu là hàm ánh xạ như sau: F(ym) = dm m = 1,2, … , k (4.32) C1 Ci Cn y1 Y2 yk-1 yk S b w1 wi wn Lớp vào lớp ẩn lớp ra Hình 4.11 : Mạng RBF Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 124 Phương pháp RBF đối với CDMA lthực hiện chọn hàm ánh xạ dạng: ∑ = −= K i imm cyyF 1 i )(w )( φ (4.33) với )(⋅φ là hàm phi tuyến cơ sở. Những trung tâm RBF (ci) là những tín hiệu đã hiệu chỉnh không nhiễu lý tưởng thuộc tập tín hiệu D. Vậy đáp ứng của mạng RBF là dựa vào khoảng Euclide giữa tín hiệu thu y với mỗi trung tâm ci: ym - ci. Giảm nhiễu Trong phần trên, ta có được ánh xạ phi tuyến là dựa vào khoảng Euclide. Như đã biết, thành phần nhiễu trong mô hình CDMA có phân bố đơn lệch (univariate) và xem như là nhiễu AWGN. Tín hiệu thu trung bình sẽ có trị trung bình phù hợp với trung tâm và gộp về trung tâm đó theo phương sai nhiễu σ2. Tuy nhiên, khi mã trải phổ không trực giao, siêu khối bị lệch (hình 4.4) và nhiễu tương quan với mã trải phổ. Như vậy, kết quả cho thấy phân bố nhiễu không còn là đơn lệch mà là đa lệch (multivariate). Kết quả này cho thấy trong hình 4.12. Vector n là một vector nhiễu ngẫu nhiên, và ni là bậc tương quan n với ci, (ni = ). Như trong (hình 4.12a), các mã là trực giao ( = 0), vậy không có thành phần nhiễu thuộc c1 có thể tác động lên c2. Nhiễu tác động (n') là do được cộng với n1 và n2, ở đây n1 và n2 là thành phần nhiễu thuộc mỗi trục. Đối với mã trực giao thì nhiễu tác động có thể là bằng với nhiễu gốc. Tuy nhiên, khi mã không trực giao, (hình 4.12b) cho thấy thành phần nhiễu phụ thuộc vào c1 có tác động thành phần nhiễu c2. Kết quả này cho thấy là nhiễu tác động n' khác với thành phần nhiễu gốc. Về mặt toán học, việc thay đổi phân bố nhiễu từ đơn lệch đến đa lệch có thể mô tả như sau :     µ−µ−− − π = 2 )y(C)y( k 1T e C)(2 1 )y(p (4.34) Giá trị trung bình: [ ]yE =µ (4.35) c2 c1 n n1 n2 (a) c2 c1 n' n1 n2 n (b) Hình 4.12 : Kết quả của mã trải phổ đối với phân bố nhiễu Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 125 Ma trận hiệp phương sai là : [ ])y()-(yE C T µ−µ= (4.36) Sử dụng khoảng Mahalanobis: [ ])-(x(C)-(x d i1Ti αα= − (4.37) với x là mô hình ngõ vào và trung tâm là αi. Trong CDMA, ma trận hiệp phương sai C-1 là ma trận tương quan nghịch đảo R-1 của mã trải phổ. Với tương quan này, phương trình mạng RBF được sửa đổi như sau : ∑ =     σ −−− − ω= k 1i 2 )cy(C)cy( 1m 2 im 1 im e )y(F (4.38) Hình 4.13: Biên quyết định Euclide (đườngchấm) và Mahalanobis (đường liên tục) Hình 4.13 cho kết quả tương quan của nhiễu do mã trải phổ. Các hình ellipse đại diện cho phân bố của tín hiệu thu và đường cong tại trung tâm đại diện cho mặt quyết định. Dữ liệu thu tạo ra một mô hình ellipse quanh mỗi trung tâm. Vậy thì, một hàm Gaussian đối xứng sẽ không hoạt động hiệu quả bằng một hàm khoảng Mahalanobis. 4.5. Thuật toán SVM (Support Vector Machine) SVM là thuật toán huấn luyện làm giảm kích thước mạng và cho hiệu suất cải tiến trong kỹ thuật huấn luyện RBF cổ điển. Phương pháp vector hỗ trợ xác định phép gần đúng hàm phi tuyến theo phương trình (4.32) bằng cách xây dựng siêu phẳng trong không gian đặc trưng kích thước lớn (có thể vô hạn). Biên quyết định được xây dựng bằng cách giải bài toán lập trình phương trình bậc 2 trong không Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 126 gian đặc trưng. Không giống như những thuật toán huấn luyện mạng khác sẽ huấn luyện dữ liệu theo kinh nghiệm, SVM sử dụng những khái niệm giảm thiểu rủi ro có cấu trúc (structural risk minimization). Thuận lợi của việc sử dụng phương pháp này là bảo đảm tìm thấy siêu phẳng tối ưu, và không gây ra cực tiểu địa phương. 4.5.1. Bài toán nhận dạng mô hình Bài toán nhận dạng mô hình có thể hiểu như là dạng huấn luyện thông qua liên kết. Theo công thức, mục đích là đánh giá hàm f : ℜN → ±1 sử dụng dữ liệu huấn luyện: (x1, y1), …, (xl, yl) ∈ ℜN (4.39) để f(⋅) sẽ phân loại chính xác dữ liệu mới lạ (xl, yl). Hàm ánh xạ tốt khi giảm thiểu lỗi huấn luyện: [ ] ∑= −= 1 )(21l1 li iiem dxffR (4.40) Tuy nhiên, dù giảm thiểu rủi ro kinh nghiệm nhưng không bảo đảm sẽ giảm thiểu rủi ro trung bình hay lỗi kiểm tra. Điều này cũng đúng ngay cả khi dữ liệu huấn luyện và kiểm tra lấy từ phân bố xác suất giống nhau P(x, y). Hình 4.14: Mặt quyết định của SVM. Các điểm hình vuông là vector hỗ trợ, caác đường đứt nét là biên của lớp và đường liên tục là siêu phẳng tối ưu Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 127 Lý thuyết huấn luyện thống kê cho thấy là cần thiết giảm thiểu rủi ro kinh nghiệm, nhưng cũng cần hạn chế số lớp mà hàm f(⋅) chọn. Dung lượng một hàm sẽ quyết định hàm đó có thể tạo ra một tập dữ liệu mới tốt như thế nào. Tuy nhiên, các hàm trong cùng một lớp có thể có dung lượng khác nhau. Lý thuyết huấn luyện thống kê cung cấp các biên có độ chính xác lỗi kiểm tra phụ thuộc vào rủi ro kinh nghiệm và dung lượng của hàm. Để sử dụng nguyên lý giảm thiểu rủi ro có cấu trúc thì phải tìm một hàm có dung lượng đã được tính. Lớp hàm này là: ( ) 1k Rb ,R w; 0 )( ∈∈=+Φ⋅ bxw (4.41) Hàm quyết định: ( )bxwxF +Φ⋅= )(sgn )( (4.42) với w là vector trọng số, )(xΦ là vector ngõ vào và b là độ xiên. Mục đích của SVM là xây dựng siêu phẳng tối ưu sao cho khoảng phân chia giữa các lớp là cực đại. Trong hình 4.14, các mô hình nằm bên trong biên quyết định (dạng hình vuông) thoả 1 )( =+Φ⋅ bxw , trong khi siêu phẳng tối ưu có 0 )( =+Φ⋅ bxw . Công thức hoá bài toán tối ưu SVM có siêu phẳng tối ưu bằng cách giảm thiểu chuẩn của vector trọng số: 2 2 1 )( ww =τ (4.43) với giả thiết: ( ) 1)( ≥+Φ⋅⋅ bxwdi (4.44) Để có thể giải bài toán tối ưu hoá này, ta sử dụng phương pháp thừa số Lagrange. Ta định nghĩa các thừa số Lagrange với αi > 0 như sau : ( ) ( )( )∑ −+⋅Φ⋅−= 1)(21 ,, 2 bwxywbwL iiiαα (4.45) Mục đích là tăng tối đa biến cơ sở w, b và đồng thời giảm thiểu biến đối ngẫu α, nghĩa là ta phải tìm thấy một điểm có dạng yên ngựa (saddle). Tại điểm này, vi phân bậc một vế trái của biến cơ sở phải triệt tiêu: ∑ = =→=∂ ∂ l 1i i 0 , 0 ),,( iybwLb αα (4.46) và ∑ = =Φ→=∂ ∂ l 1i ii w)(x , 0 ),,( iybwLw αα (4.47) Từ phương trình (4.47), ta thấy các thừa số Lagrange khác không phân bố theo vector trọng số là nghiệm phương trình. Những điểm dữ liệu có gán nhãn liên Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 128 kết với các thừa số gọi là vector hỗ trợ. Nó là các điểm dữ liệu nằm ở rìa của biên phân cách. Bài toán tối ưu hoá đối ngẫu Thay phương trình (4.46) và (4.47) vào (4.35), ta có kết quả bài toán tối ưu đối ngẫu. Ta tìm thừa số Lagrange αi để: ( )∑ ∑ = = Φ⋅Φαα−α=α l 1i l 1j,i jijiji )x()x(yy2 1)(W i (4.48) cực đại với giả thiết: l ..., 1,2, i =≥α ,0i và ∑ = =α l 1i ii y 0 (4.49) Hạt nhân Mercer Trong bài toán tối ưu đối ngẫu (4.48), thành phần thứ 2 có chứa tích của những mô hình xi và xj. Tích này cho thấy ánh xạ vector xi và xj từ không gian ngõ vào đến không gian đặc trưng. Xét phương trình (4.48), chỉ có giá trị tích điểm )()( ji xx Φ⋅Φ là cần thiết. Định lý Mercer cho thấy tích nội của các hạt nhân có thể được dùng để đánh giá tích điểm của phương trình (4.48). Bảng (4.1) cho thấy việc sử dụng các hạt nhân thoả định lý Mercer: Bảng 4.1: Các dạng tích nội của các hạt nhân thường dùng cho SVM Loại mạng Lớp hạt nhân Thông số Hạt nhân đa thức d ji xx )( ⋅ với số nguyên d > 0 Hạt nhân RBF ) )2( exp( 2 2 σ ji xx −− độ rộng σ định bởi user Hạt nhân sigmoid ))(tanh( γβ +⋅ ji xx giá trị phù hợp β và α Nghiên cứu theo qui tắc (Regularization Considerations) Trong thực tế không tránh khỏi mỗi tập dữ liệu chứa kết quả giả. Điều này có thể tạo ra những vector hỗ trợ không cần thiết và ảnh hưởng đến mặt quyết định. Để tình đến vấn đề này, phương pháp vector hỗ trợ dùng đến những biến thừa: Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 129 γ ≥ 0, i = 1, 2, …, l (4.50) Ta có thể triển khai phương trình (4.50) như sau, di .(w⋅yi) + b ≥ 1- γ, i = 1, 2, …, l (4.51) cho dữ liệu nhiễu cao hay dữ liệu giả. Khi đó, bộ phân lớp không chỉ cực đại dung lượng hàm ( w ) mà còn giảm thiểu những lỗi huấn luyện quá mức (thừa). Phương trình (4.49) trở thành : ∑ = += l i icww 1 2 2 1 ),( γγτ (4.52) 4.5.2. Giảm độ phức tạp thời gian thực thi Khi số lượng ngõ vào lớn hơn ( >10000), thông thường xảy ra trong các bài toán thực tế, quá trình tối ưu trở nên khó khăn. Dạng bậc 2 cho ở phương trình (4.48) có số phần tử bằng với bình phương số lượng mô hình ngõ vào. Một phương pháp tính toán cho bài toán tối ưu với số lượng tập hợp lớn (>50000) là dùng thuật toán phân tách chung. Thuật toán này chia ma trận trong phương trình (4.48) thành một tập tích cực (B) chứa các biến tự do, và tập còn lại là không tích cực (N) chứa các biến tĩnh. Quá trình tối ưu chỉ thực hiện trên tập B. Đối với tập N dùng làm để kiểm tra điều kiện tối ưu cho trong phương trình (4.49). Nếu có điểm nào lỗi thì điểm dữ liệu trong tập B sẽ trao đổi với điểm dữ liệu trong tập N và sẽ tiếp tục quá trình tối ưu. Quá trình này lặp đi lặp lại đến khi tập N tuân theo điều kiện tối ưu trong phương trình (4.49). Thuận lợi chính đối với thuật toán này là đòi hỏi bộ nhớ tăng lên một cách tuyến tính với mô hình ngõ vào chứ không phải tăng theo hàm bậc hai. Để thự hiện quá trình tối ưu, ta viết lại phương trình (4.48) dưới dạng ma trận Q: Qij = yiyjK(xi, xj). Như vậy, mục tiêu là cực tiểu giá trị: αααα QW T 2 11- )( T += (4.53) với giả thiết: 1C 0 0, ≤≤= αα y (4.54) Hàm đối tượng W sẽ bị tách thành tập làm việc B và tập tĩnh N: NN BN NB Q Q Q BB N B N B QQ , y y y , === α αα (4.55) với TBNQ =NBQ . Do mục tiêu là tối ưu tập B nên cần cực tiểu giá trị: 1 2 1 2 1)1(- )( TB T NNNN T NBBB T BNBN QQQW αααααααα −++−= (4.56) với giả thiết: Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 130 1TB C0 ,0 ≤≤=+ αααα NTNB yy (4.57) Sử dụng phương pháp phân tách này thì thuật toán được bảo đảm là hội tụ khi lặp đi lặp lại với số bước lặp hữu hạn. 5. Mạng neural hồi quy Mạng neural hồi quy (Recurrent neural network) được thiết kế dùng cho các mô hình thay đổi theo thời gian, nó chính là mạng neural với liên kết hồi quy (vòng kín) như mạng BAM, Boltzmann, Hopfield và mạng lan truyền ngược hồi quy (recurrent backpropogation network). Kỹ thuật mạng neural hồi quy có thể dùng để giải quyết nhiều bài toán trong các lĩnh vực khác nhau. 5.1. Kiến trúc mạng neural hồi quy Mạng hồi quy gồm có dạng liên kết đầy đủ hay từng phần, bao gồm các mạng lan truyền tiến đa lớp (multilayer feedforward) với các lớp ngõ vào và ngõ ra tách biệt nhau. Đối với mạng liên kết đầy đủ thì sẽ không có sự tách biệt ngõ vào, mỗi nút có ngõ vào từ các nút khác. Hình 4.15: Mạng hồi quy liên kết đầy đủ Hình 4.16: Mạng hồi quy đơn giản Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 131 Một ví dụ của mạng hồi quy đơn giản cho như hình vẽ, trong đó một số nút sẽ có cấu trúc lan truyền tiến, một số nút sẽ nhận giá trị hồi tiếp từ các nút khác. Trọng số từ các nút này được xử lý như các nút ngõ vào (như dùng cơ chế lan truyền ngược). Chúng sẽ nhận hồi tiếp từ lớp thứ hai, chuỗi huấn luyện gồm ngõ vào và cả ngõ ra của các nút hồi tiếp. 5.2. Mạng Hopfield Mạng Hopfield là mạng neural đơn lớp theo dạng lan truyền ngược. Mỗi neural nhận tổng các hoạt động từ các neural khác trong mạng và cập nhật theo quy luật sau: Vi = g(Ui) =     +∑ ≠ij jiji VTJg (4.58) Trong đó Tij là trọng số liên kết giữa neural thứ j và thứ i, Ji là trạng thái hiện tại của neural thứ i. Hàm g(Ui) có thể là một hàm nhị phân hay lưỡng cực như sau (dạng neural McCulloch – Pitts): Vi = g(Ui) = sign(Ui) (4.59) hay bất kỳ hàm hàm phi tuyến tăng đều nào. Một ví dụ của hàm phi tuyến thường dụng là tang hyperbolic: Vi = g(Ui) = tanh(αUi) = i i U U e1 e1 α− α− + − (4.60) Trong đó α là hằng số dương xác định độ dốc của tính phi tuyến. Ta thấy rằng nếu α → ∞ thì g(Ui) → sign(Ui). Nếu kết nối giữa các neural là đối xứng (nghĩa là Tij = Tji) thì phương trình cập nhật của hệ thống sẽ hội tụ về trạng thái ổn định (giá trị tại ngõ ra sẽ là hằng số). Còn trong trường hợp các phần tử trên đường chéo Tii = 0 thì trạng thái ổn định của mạng gồm N neural sẽ hội tụ về giá trị cực tiểu địa phương (gọi là hàm năng lượng): E = ∑∑∑ == = −− N 1i ii N 1i N 1j jiij JVVVT2 1 (4.61) Phương trình cập nhật của neural thứ i có thể biểu diễn như sau: τ−+=∂ ∂−= ∑ ≠ i i ji jij i i UJVT V E dt dU (4.62) 5.3. Máy thu HNN (Hopfield neural network) 5.3.1. Sơ đồ tách sóng đa truy nhập Tín hiệu thu được trong hệ thống CDMA là: r(t) = )t(n)iTi(sb M Mi K 1k kk )i( k +τ−−∑ ∑ −= = (4.63) Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 132 Máy thu cổ điển (CD – Conventional Detector) sử dụng một bank các bộ lọc thích hợp (matched filter) để nhận dạng từng user và ước lượng các bit thông tin chỉ dựa vào ngõ ra của các bộ lọc này: ∫ τ−+ τ− τ−−= k k T)1i( iT kk )i( k dt)iTt(s)t(ry (4.64) )y(signbˆ )i(k)i(CD = (4.65) Một phương pháp là dùng máy thu đa truy nhập tối ưu (OMD – Optimum Multiuser Detector). Phương pháp này thực hiện ước lượng các bit thông tin bằng cách cực đại hoá logarit hàm khả năng (likelihood function). Trong trường hợp đồng bộ: { }Rbbby2maxargb T)i( }1,1{b )i( OMD T K −= −+∈ (4.66) Tuy nhiên khi sử dụng phương pháp này thì độ phức tạp của quá trình tính toán sẽ thay đổi theo hàm mũ của số user. Như vậy, khi số lượng user lớn thì quá trình thực hiện là không khả thi. Do đó, ta chỉ dùng các sơ đồ tối ưu phụ, đó là máy thu đa tầng (MSD – Multistage Detector). MSD gồm có một tập hợp các tầng. mỗi tầng dùng để ước lượng các bit thông tin như sau: )i(MSDb (m+1) = sign(y (i) – (R – I) )i(MSDb (m)) (4.67) Ngõ vào của tầng thứ nhất chính là ngõ ra của một bộ tách sóng cổ điển. MSD có số tầng vô hạn và có thể hội tụ tới cực tiểu địa phương của hàm đối tượng OMD. Đối với trường hợp bất đồng bộ thì bài toán máy thu tối ưu giải quyết bằng cách biểu diễn giống như phương trình (4.66) nhưng ma trận tương quan chéo R lúc này có dạng:           − − − = )0(R)1(R00 )1(R 0)0(R)1(R0 )1(R)0(R)1(R 00)1(R)0(R R~ … %%# % #… … (4.68) Các bit thông tin nhận được lúc này dùng ước lượng có dạng như sau: { }b~R~b~b~y~2maxargb~ T)i( }1,1{b~ )i( OMD T K)1M2( −= +−+∈ (4.69) Như vậy, độ phức tạp tính toán trong trường hợp này sẽ lớn hơn rất nhiều so với trường hợp đồng bộ. 5.3.2. Máy thu HNN Từ (4.66), ta thấy rằng hàm đối tượng OMD tương tự như hàm năng lượng của HNN. Mà (4.66) có thể viết ở dạng như sau: Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 133 { } { } { }b)IR(bbyminarg Ibbb)IR(bbyminarg Rbbbyminargb T 2 1)i( }1,1{b T 2 1T 2 1)i( }1,1{b T 2 1)i( }1,1{b )i( OMD T K T K T K −+−= +−+−= =+−= −+∈ −+∈ −+∈ (4.70) (do bTIb luôn là số dương). Như vậy, ta có thể chuyển trực tiếp thành hàm năng lượng của mạng Hopfield với ma trận trọng số T = –(R – I) và trạng thái ban đầu của mạng J = y(i). Xét trường hợp rời rạc trên miền thời gian:     ρ−=+ ∑ ≠ij jijii )m(Vysign)1m(V (4.71) hay có thể viết ở dạng ma trận như sau: V(m+1) = sign(y – (R – I)V(m)) (4.72) Mạng Hopfield dừng: Để tránh trường hợp cực tiểu địa phương, chúng ta có thể thay thế HNN bằng mạng Hopfield dừng (SHN – Stochastic Hopfield Network). Phương trình (4.33) của mạng Hopfield có thể thay đổi bằng phương trình:     ν+ρ−=+ ∑ ≠ )m()m(Vysign)1m(V ij jijii (4.73) trong đó ν(m) là biến ngẫu nhiên độc lập với trung bình bằng 0 và hàm phân phối F(x,m). Định lý 1: Nếu hàm phân phối F(x,m) có các tính chất: - F(x,m) = 1 – F(-x,m): đối xứng - 0)m(lim m =σ∞→ với σ2 là phương sai của biến ngẫu nhiên ν(m) thì quá trình của SHN sẽ tiệm cận về trạng thái tĩnh của mạng Hopfield. Levendovzky đã xác định được một dạng hàm F cho biến ngẫu nhiên ν như sau: F(x) = xe1 1 α−+ (4.74) Đối với dạng hàm F như trên, phương sai của biến ngẫu nhiên phụ thuộc vào giá trị của α (giá trị của α càng lớn thì phương sai càng nhỏ). Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 134 Cấu trúc của máy thu như sau: Hình 4.17: Cấu trúc máy thu SHN Xét trường hợp bất đồng bộ: Theo (2.6): y(t) = )t(n)iTt(s]i[bA K 1k M Mi kkkk σ+τ−−∑ ∑ = −= (4.75) Đặt: S(t) = ∑∑ = −= τ−− K 1k M Mi kkkk )iTt(s]i[bA (4.76) Xét máy thu đa truy nhập tối ưu cho PK bit (chứa dữ liệu từ bit thứ p đến bit thứ P – 1 + p) trong đó P là chiều dài chuỗi dữ liệu. Bộ tách sóng sẽ thực hiện chọn chuỗi dữ liệu [ ]  +−== Pp,1pi,bˆ,,bˆbˆ T)i(K)i(1)i( " sao cho giá trị: [ ]∫ τ++ τ+ − Kb 1b T)Pp( pT 2 dt)t(Sˆ)t(r (4.77) là nhỏ nhất, trong đó: Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 135 ∑∑ = −= τ−−= K 1k M Mi kkkk )iTt(s]i[bˆA)t(Sˆ (4.78) Quá trình cực tiểu hóa hàm (4.71) tương đương với quá trình cực đại hàm: L = { } { }∑−+ = −−−− −−+− 1Pp pi )1i()i()i(T)i()1p()1p(T)1p( bˆ)1(R2bˆ)0(Ry2bˆbˆ'R'y2bˆ { })1Pp()Pp()Pp(T)Pp( bˆ)1(R2bˆ''R''y2bˆ −++++ −−+ (4.79) trong đó y'(p-1), y(i), y''(p+P) là vector tương quan Kx1 có phần tử thứ k có dạng: ∫τ+ τ+ − τ−−−= Kb 1b pT pT kbk )1p( k dt)t(r)T)1p(t(s'y (4.80) ∫ τ++ τ+ τ−−= Kb kb T)1i( iT kbk )i( k dt)t(r)iTt(sy (4.81) ∫ τ++ τ++ + τ−+−= Kb kb T)Pp( T)Pp( kbk )Pp( k dt)t(r)T)Pp(t(s''y (4.82) và R', R(i), R'' là ma trận tương quan chéo có phần tử thứ (k,l) như sau: r'kl = ∫τ τ τ−+τ−+ k l dt)Tt(s)Tt(s lblkbk (4.83) rkl(p) = ∫τ+ τ τ−+τ− kb k T lblkk dt)pTt(s)t(s (4.84) r''kl = ∫τ τ τ−τ− K k dt)t(s)t(s llkk (4.85) Từ (4.73), số neural ngõ ra là (P+2)K cho bộ giải điều chế PK bit. Ta có thể chia nhỏ mạng thành P+2 mạng con, mỗi mạng con gồm có K neural. Nghĩa là neural thứ k của mạng con thứ p tương ứng với bit thứ p của user k. Ngõ ra của neural thứ k của mạng con thứ p là: )p(k 1P 0q K 1l )q( l )q( l )p( k )p( k )p( k JVT u dt du ++τ−= ∑∑+ = = (4.86) Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 136 )p(kV = g(Ui) = tanh(α )p(ku ) (4.87) trong đó )p(kV và )p( kJ là ngõ ra và ngõ vào của neural thứ k trong mạng con thứ p và )q(l )p( kT là trọng số liên kết giữa neural thứ l của mạng con thứ q với neural thứ k của mạng con thứ p. Hàm năng lượng của mạng như sau: E = ∑∑∑ + = + = + = −− 1P 0p 1P 0q )q()q)(p(T)p( 1P 0p )p()p( VTV 2 1JV (4.88) Trong đó: V(p) = [ )p(1V , )p( 2V ,…, )p( KV ]: vector ngõ ra của mạng con p J(p) = [ )p(1J , )p( 2J ,…, )p( KJ ]: vector ngõ vào của mạng con p )q)(p(T : ma trận trọng số liên kết giữa mạng con thứ p và thứ q Các thông số của mạng Hopfield được xác định bằng cách so sánh hàm (4.79) với hàm năng lượng (4.86). Từ đó, ta được: J(i) =    += <≤ = + −+ − 1Pi''y2 Pi1y2 0i'y2 )Pp( )1pi( )1p( (4.89) T(p)(q) =        = += +== ≤≤=− ==− khác0 1-qp2R(-1)- 1qp2R(1)- 1Pqp'2R'- Pp1 vàqp)0(R2 0qp'R2 (4.90) Theo (4.83), (4.84) và (4.85), ta có: r'kl = r'lk, r''kl = r''lk và rkl(i) = rlk(-i) nên trọng số liên kết trong mạng neural sẽ đối xứng. Như vậy, hàm năng lượng sẽ luôn luôn giảm khi trạng thái của mạng thay đổi. Mỗi user sẽ bị tác động bởi tất cả K bộ tương quan. Ngõ ra các bộ tương quan { }K,1k,'y )1i(k =− , { }1Pi,ip,K,1k,y )p(k −+== , { }K,1k,''y )Pi(k =+ được lưu trữ trong bộ nhớ để thực hiện giải điều chế cho PK bit và sau đó được đưa vào mạng Hopfield. Mạng Hopfield thay đổi trạng thái theo (4.86), (4.87) cho đến khi mạng hội tụ. Sau khi mạng hội tụ thì dữ liệu ước lượng cho hệ thống là: ( ))p(k)1pi(k Vsgnb~ =−+ (4.91) Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 137 Cấu trúc của máy thu dùng mạng Hopfield có thể mô tả như sau: Hình 4.18: Cấu trúc máy thu Liên kết bên trong mạng có thể miêu tả như sau: Hình 4.19: Liên kết giữa các neuron (unit) Mạng gồm có P+2 mạng con, mỗi mạng con có K neuron và mỗi neuron trong một mạng con liên kết với các neuron trong cùng một mạng con và các neuron ở các mạng con kế cận nó. Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 138 Mạng thích nghi: Đối với các trường hợp đã xét ở trên, ta cần phải biết trước biên độ tín hiệu của các user nhưng trong thực tế không phải lúc nào cũng có thể xác định được hệ số này. Giả sử máy thu không biết trước biên độ tín hiệu, lúc này ngõ ra của matched filter sẽ được lấy mẫu với tần số Tc-1. Mẫu thứ l của bit thứ p được biểu diễn như sau: rl(p) = ∫ + −+ cb cb lTpT T)1l(pT dt)t(r (4.92) Từ đó, ta xây dựng ma trận c(p) bằng cách cực tiểu hoá hàm lỗi sau: J(p) = ∑ ∑ ∑ = = = −    −λ p 1i L 1l 2K 1k kklcl ip )i(b)p(cT)i(r (4.93) Trong đó λ là một hệ số với 0 < λ ≤ 1 và bk(i) là chuỗi dữ liệu huấn luyện đã biết tương ứng với bit thông tin của user k. Phương trình cập nhật như sau: k(p) = )p(b)1p(P)p(b )p(b)1p(P T −+λ − (4.94) c(p) = c(p-1) + k(p)( cT 1 r(p) – bT(p)c(p-1)) (4.95) P(p) = λ 1 {P(p-1) – k(p)bT(p)P(p-1)} (4.96) Trong đó k(p) và vector kích thước Kx1, P(p) là ma trận tương quan KxK, b(p) là dữ liệu huấn luyện Kx1, r(p) là ngõ ra của matched filter Kx1 và c(p) có kích thước KxL với ckl(p) là một phần tử của nó. Ma trận c(p) sẽ hội tụ tới kết quả Wiener tối ưu (bằng Aa) trong đó A là ma trận đường chéo với các phần tử trên đường chéo là biên độ tín hiệu của các user, a là ma trận KxL chứa các chuỗi trải phổ. Hệ số ckl(p) sẽ hội tụ tới giá trị Akakl (là tích biên độ của user k và chip thứ l của chuỗi trải phổ ứng với user k). Sau khi ma trận c(p) hội tụ, ngõ vào và ma trận trọng số của mạng Hopfield có dạng như sau: Ji = ∑ = L 1l ill )p(c)p(r2 (4.97) Tij = ∑ = − L 1l cjlil T)p(c)p(c2 (4.98) 5.4. Đặc tính hội tụ của mạng Hopfield rời rạc Mạng Hopfield rời rạc gồm có n neuron, mỗi neuron có trạng thái là giá trị nhị phân {-1,1} và tồn tại giá trị ngưỡng hi. Trọng số liên kết giữa hai neuron i, j là wij và đối với mạng neural thích hợp thì ma trận trọng số W đối xứng, nghĩa là wij = Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural GVHD: TS. Phạm Hồng Liên Trang 139 wji. Tại thời điểm m bất kỳ, neuron thứ i có trạng thái vi ∈ {-1,1} và trạng thái tại thời điểm m+1 là:     −= ∑ = + i n 1j )m( jij )1m( i hvwsgnv (4.99) Đối với cơ chế song song, các bước cập nhật thực hiện đồng thời cho tất cả các neuron. Do đó quy luật cập nhật tổng quát có thể biểu diễn như sau: V = sgn(WV + h) (4.100) Quá trình cập nhật bắt đầu với vector trạng thái bầt kỳ và sẽ thực hiện cho đến khi kết quả cập nhật hội tụ, nghĩa là: V = U với U là vector thoả mãn điều kiện: U = sgn(WU + h)) (4.101) hay tạo thành vòng - tồn tại hai vector U, V sao cho: V = sgn(WU + h) và U = sgn(WV + h)) (4.102) Đối với cơ chế nối tiếp, các bước cập nhật chỉ thực hiện cho một neuron tại một thời điểm. Theo Hopfield, mạng neural với ma trận trọng số W có các giá trị trọng số wii > 0 (gọi là mạng bán đơn - semisimple) thì quá trình cập nhật hội tụ đến vector ổn định. Một quá trình nối tiếp gọi là hữu dụng (productive) nếu trạng thái của mạng thay đổi sau khi cập nhật. Quá trình tính toán mạng Hopfield chính là quá trình tìm giá trị cực tiểu hàm năng lượng (còn gọi là hàm Lyapunov). Định lý 4.1: Cho: ei =    −∑ kh0 hw1 j j ij (4.103) Bất kỳ quá trình tính toán hữu dụng nào của mạng Hopfield bán đơn với trọng số nguyên sẽ hội tụ với số lần lặp tối đa là: kkk i ii i ij ij wmin1 ehw 2 1 + −+∑∑∑ ≠ (4.104) Chú ý là nếu mạng không phải là bán đơn thì có thể sẽ không hội tụ. Định lý 4.2: Cho ei tính như (4.103) thì bất kỳ một quá trình cập nhật song song nào với trọng số nguyên cũng hội tụ (ở dạng vector ổn định (4.101) hay dạng vòng (4.102)) với số lần lặp tối đa là:     −−+ ∑∑ neh3w21 i iij,i ij (4.105)

Các file đính kèm theo tài liệu này:

CDMA - Chapter 4 - Mang neural (30 pages).pdf