Đề tài Lập trình phương pháp phân tích thành phần chính (PCA)

Tài liệu Đề tài Lập trình phương pháp phân tích thành phần chính (PCA): Lời cảm ơn Với lòng biết ơn sâu sắc, tôi xin chân thành cảm ơn PGS.TS Tạ Thị Thảo, đã giao đề tài, tận tình hướng dẫn, tạo điều kiện cho tôi hoàn thành luận văn này. Tôi cũng xin bày tỏ lòng biết ơn các thầy cô trong bộ môn Hoá phân tích đã tạo điều kiện cho tôi trong quá trình học tập và nghiên cứu. Cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, bạn bè, các anh chị học viên k18 chuyên ngành Hoá phân tích, các em sinh viên đã động viên, giúp đỡ tôi rất nhiều trong suốt thời gian qua. Hà Nội, ngày 24 tháng 1 năm 2010 Học viên Vũ Quỳnh Thu MỤC LỤC BẢNG KÍ HIỆU NHỮNG CHỮ VIẾT TẮT Tiếng Việt Tiếng Anh Viết tắt 4-(2-pyriđinazo)-rezocxin 4-(2-pyridylazo)-rezorcinol PAR Mạng nơron nhõn tạo Artificial Neural Networks ANN Cấu tử chớnh Principal Components PC Mạng nơron nhõn tạo kết hợp hồi quy thành phần chớnh Principal component regression- Artificial Neural Networks PCR-ANN Giới hạn phỏt hiện Limit of detection LOD Giới hạn định lượng Limit of quantity LOQ B...

80 trang | Chia sẻ: hunglv | Lượt xem: 1802 | Lượt tải: 1

Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Lập trình phương pháp phân tích thành phần chính (PCA), để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Lêi c¶m ¬n Víi lßng biÕt ¬n s©u s¾c, t«i xin ch©n thµnh c¶m ¬n PGS.TS T¹ ThÞ Th¶o, ®· giao ®Ò tµi, tËn t×nh híng dÉn, t¹o ®iÒu kiÖn cho t«i hoµn thµnh luËn v¨n nµy. T«i còng xin bµy tá lßng biÕt ¬n c¸c thÇy c« trong bé m«n Ho¸ ph©n tÝch ®· t¹o ®iÒu kiÖn cho t«i trong qu¸ tr×nh häc tËp vµ nghiªn cøu. Cuèi cïng, t«i xin göi lêi c¶m ¬n tíi gia ®×nh, b¹n bÌ, c¸c anh chÞ häc viªn k18 chuyªn ngµnh Ho¸ ph©n tÝch, c¸c em sinh viªn ®· ®éng viªn, gióp ®ì t«i rÊt nhiÒu trong suèt thêi gian qua. Hµ Néi, ngµy 24 th¸ng 1 n¨m 2010 Häc viªn Vò Quúnh Thu MỤC LỤC BẢNG KÍ HIỆU NHỮNG CHỮ VIẾT TẮT Tiếng Việt Tiếng Anh Viết tắt 4-(2-pyriđinazo)-rezocxin 4-(2-pyridylazo)-rezorcinol PAR Mạng nơron nhân tạo Artificial Neural Networks ANN Cấu tử chính Principal Components PC Mạng nơron nhân tạo kết hợp hồi quy thành phần chính Principal component regression- Artificial Neural Networks PCR-ANN Giới hạn phát hiện Limit of detection LOD Giới hạn định lượng Limit of quantity LOQ Bình phương tối thiểu thông thường Classical least square CLS Bình phương tối thiểu nghịch đảo Inverse least square ILS Bình phương tối thiểu riêng phần Partial least square PLS Hồi quy cấu tử chính Principalcomponent regression PCR Độ sai chuẩn tương đối Relative Standard Error RSE MỞ ĐẦU Hiện nay, sự phát triển không ngừng của khoa học kĩ thuật đòi hỏi các phương pháp hoá phân tích phải đáp ứng được khả năng phân tích nhanh, chính xác và có độ nhạy cao. Trong số các phương pháp phân tích công cụ thì trắc quang là phương pháp phổ biến được sử dụng rộng rãi trong các phòng thí nghiệm. Tuy nhiên, do dung dịch phân tích thường có thành phần nền phức tạp, có nhiều yếu tố tạo phức, phổ hấp thụ của các cấu tử xen phủ nhau làm ảnh hưởng đến kết quả phân tích. Do đó, để phân tích các dung dịch hỗn hợp này thường phải tách riêng từng cấu tử hoặc dùng chất che để loại trừ ảnh hưởng rồi xác định chúng nên quy trình phân tích rất phức tạp, tốn thời gian phân tích thuốc thử và hoá chất để xử lý mẫu, đồng thời dễ có hiện tượng làm nhiễm bẩn hóa chất. Một trong những hướng nghiên cứu mới để xác định đồng thời nhiều cấu tử trong cùng hỗn hợp là kết hợp với kĩ thuật tính toán, thống kê và đồ thị (chemometrics) nhằm tăng độ chính xác của kết quả phân tích. Rất nhiều công trình nghiên cứu đã áp dụng các phương pháp sai phân, phương pháp phổ đạo hàm, phương pháp bình phương tối thiểu, phương pháp lọc Kalmal, các phương pháp phân tích hồi quy đa biến tuyến tính, phương pháp hồi quy đa biến phi tuyến tính…để xác định đồng thời các chất trong cùng hỗn hợp. Ưu điểm của các phương pháp này là quy trình phân tích đơn giản, phân tích nhanh, tốn ít thuốc thử và hoá chất, tăng độ chính xác. Đặc biệt, nếu trong hỗn hợp có thành phần nền phức tạp hoặc có các cấu tử tương tác với nhau làm mất tính chất cộng tính tín hiệu đo thì mô hình hồi quy đa biến phi tuyến tính sử dụng mạng nơron nhân tạo sẽ làm tăng tính chính xác của kết quả phân tích lên rất nhiều. Điều đặc biệt, càng nhiều dữ liệu phân tích thì mô hình sẽ cho kết quả phân tích càng chính xác, tuy nhiên, nếu kích thước tập dữ liệu phân tích quá lớn sẽ dẫn đến việc mất nhiều thời gian xử lí đôi khi chương trình tính toán bị dừng lại vì không xử lí được lượng số liệu khổng lồ đó. Trong trường hợp này, phương pháp phân tích thành phần chính (PCA) được sử dụng trước tiên để làm giảm kích thước tập số liệu mà không làm mất đi lượng thông tin chứa trong tập dữ liệu ban đầu. Đây được xem là thuật toán hiệu quả nhất xác định đồng thời nhiều chất mà tín hiệu đo không có tính cộng tính hoặc bị ảnh hưởng bởi lượng thuốc thử dư. Ở Việt Nam, đã có một số công trình xác định đồng thời các chất áp dụng thuật toán hồi quy đa biến phi tuyến tính sử dụng mạng nơron nhân tạo nhưng dùng phần mềm Pascal để lập trình tính toán hoặc chương trình mua của nước ngoài viết trên ngôn ngữ Visual Basic hoặc C+. Phần mềm Pascal hoặc các phần mềm khác đòi hỏi người sử dụng phải rất am hiểu về toán học mới có thể lập trình, còn nếu mua rất đắt, đồng thời mất rất nhiều thời gian để sử dụng. Gần đây, phần mềm MATLAB- một phần mềm rất mạnh về các phép tính ma trận đang được sử dụng trong tất cả các ngành khoa học nghiên cứu về xã hội, tự nhiên để giải quyết các vấn đề thực tế phức tạp một cách hiệu quả. Vài năm gần đây, một số học viên cao học của bộ môn phân tích đã bảo vệ thành công luận án Thạc sĩ trên cơ sở hoàn thiện các thuật toán hồi qui đa biến tuyến tính bằng phần mềm MATLAB. Tuy nhiên, chưa có công trình nào áp dụng phương pháp phân tích thành phần chính kết hợp mạng nơron nhân tạo sử dụng phần mềm MATLAB trong hoá phân tích ở Việt Nam hiện nay. Với mục đích đóng góp vào việc ứng dụng phần mềm MATLAB trong nghiên cứu và giảng dạy hoá phân tích ở Việt Nam, chúng tôi đã sử dụng phần mềm này để lập trình phương pháp phân tích thành phần chính (PCA) kết hợp với mạng nơron nhân tạo để xác định đồng thời các cấu tử trong cùng hỗn hợp. Phương pháp này đã được áp dụng thành công để xác định đồng thời Co, Cd, Ni, Cu, Pb trong mẫu tự tạo. Việc sử dụng phần mềm MATLAB kết hợp với các kĩ thuật Chemometrics mở ra khả năng phân tích nhanh, đồng thời rất nhiều chất trong cùng hỗn hợp bằng phương pháp trắc quang với độ chính xác cao. Chương I: TỔNG QUAN 1.1. Tổng quan về các nguyên tố Cu, Pb, Cd, Co, Ni [13] 1.1.1. Trạng thái hợp chất ứng dụng trong phân tích trắc quang *Dạng muối Muối coban(II), niken(II) ở dạng khan có màu khác với muối ở dạng tinh thể hidrat, ví dụ CoBr2 màu lục, CoBr2.6H2O có màu đỏ. Muối của axit mạnh như clorua, nitrat, sunfat tan dễ trong nước còn muối của axit yếu như sunfua, cacbonat, oxatat khó tan. Khi tan trong nước, các muối đều cho ion bát diện [E(H2O)6]2+ màu lục. Các muối halogenua (trừ Florua), nitrat, sunfat, peclorat và axetat của Cd(II) đều dễ tan trong nước còn các muối sunfua, cacbonat, hay orthophotphat và muối bazơ đều ít tan. Trong dung dịch nước các muối Cd 2+ bị thuỷ phân: Cd2+ + 2H2O ® Cd(OH)2 + 2H+ Cd2+ có khả năng tạo nhiều hợp chất phức, các phức thường gặp là: [CdX4]2+ (X = Cl-, Br-,I- và CN-); [Cd(NH3)4]2+ ; [Cd(NH3)6]2+... Các đihalogenua của Cd là chất ở dạng tinh thể màu trắng, có nhiệt độ nóng chảy và nhiệt độ sôi khá cao. Các muối Pb(II) thường là tinh thể có cấu trúc phức tạp, không tan trong nước, trừ Pb(NO3)2, Pb(CH3COO)2, PbSiF6. Đa số muối Cu(II) dễ tan trong nước, bị thủy phân và khi kết tinh từ dung dịch thường ở dạng hiđrat. Khi gặp các chất khử, muối Cu(II) có thể chuyển thành muối Cu(I) hoặc thành Cu kim loại. * Dạng phức chất Các ion Co2+; Ni2+ tạo nên nhiều phức chất, độ bền của những phức chất đó tăng lên theo chiều giảm của bán kính ion Co2+ (0,72A0); Ni2+(0,69A0) Co2+; Ni2+ thường tạo phức chất bát diện với số phối trí 6. Ngoài ra, Ni2+ Co2+, còn có khả năng tạo phức màu với nhiều thuốc thử hữu cơ như: PAN, PAR, 2 – pyridyl hydrazone, 2 – benzoylpyricdine. Muối Cu(II) có khả năng phản ứng với feroxianat Fe(CN)2 tạo thành kết tủa đỏ nâu Cu2 Fe(CN)6. Trong dung dịch amoniac, Cu(II) phản ứng mãnh liệt với các phân tử NH3 tạo thành ion phức Cu(NH3)42+ có màu xanh lam. Nó cũng tạo phức với một số tác nhân hữu cơ như 1-(2-pyridylazo)-2-naphtol, α-benzoin oxim (C6H5CH(OH)C(NOH)C6H5), 8-hiđroxylquinolin, natriđietyldithiocacbamat, đithizon,… Những phức này cho phép xác định đồng bằng phương pháp khối lượng, thể tích hay trắc quang. Ion Pb(II) có thể tạo nhiều phức với hợp chất hữu cơ, điển hình là với dithizon ở pH = 5-6 tạo phức mầu đỏ gạch. Phản ứng này được dùng để chuẩn độ xác định Chì với giới hạn xác định đến 0,05 ppm hoặc dùng để chiết Chì trong nhiều phương pháp phân tích định lượng khác nhau. Ngoài ra, các halogenua Chì có thể kết hợp với các ion halogenua tạo nên phức chất kiểu Me[PbX3] hay Me2[PbX4]. PbI2 + 2KI ® K2[PbI4] PbCl2 + 2HCl ® H2[PbCl4] Các muối của Pb(II) như Pb(NO3)2, PbCl2… đều bền và độc với con người và động vật. 1.1.2. Các phương pháp phân tích quang học xác định riêng rẽ Co, Cd, Ni, Cu, Pb. 1.1.2.1. Phương pháp phổ hấp thụ nguyên tử (AAS) [6] Nguyên tắc của phương pháp này là dựa vào khả năng hấp thụ bức xạ đặc trưng của các nguyên tử ở trạng thái hơi tự do. Đây là phương pháp có độ nhạy và độ chọn lọc rất cao, được dùng rất rộng rãi để xác định lượng vết các kim loại. Bằng phương pháp F-AAS, các tác giả Sibel Saracoglu, Umit Divrikli, Mustafa Soylak và Latif Elci đã xây dựng một quy trình hoàn chỉnh để xác định các kim loại Cu, Fe, Pb, Cd, Co, Ni trong các mẫu sữa và soda với hiệu suất hơn 95%. Ngoài ra các tác giả Serife Tokalioglu, Senol Kartal và Latif Elci xác định lượng vết ion kim loại trong nước sau khi làm giàu với độ lệch chuẩn trong vùng 0,8-2,9% và giới hạn phát hiện 0,006-0,277ppm. Các tác giả cũng đã ứng dụng phương pháp này để xác định đồng thời coban, sắt và niken trong dung dịch chất điện ly của mangan. Bước sóng hấp thụ của coban, sắt và niken tương ứng là 240,7; 248,3; và 232,0 nm. Ảnh hưởng của nền Mn2+ và lượng thích hợp MnSO4 và (NH4)2SO4. Sai số tương đối khi xác định coban là 3,1%, hiệu suất thu hồi đạt 97,6%. Đồng rất dễ phát hiện bằng phương pháp phổ hấp thụ nguyên tử. Đã có nhiều công trình nghiên cứu xác định Cu trong các đối tượng khác nhau: Người ta sử dụng phương pháp hấp thụ nguyên tử để xác định đồng trong nước sau khi đã làm giàu đồng bằng cách chiết hoặc dùng nhựa trao đổi ion. Có thể chiết đồng bằng 5 – cloxalixyl – aldoxim. Xác định đồng trong ngọn lửa không khí - axetilen. Người ta xác định đồng trong nước sông, nước hồ bằng cách làm giàu Cu2+ một cách nhanh chóng và chọn lọc trên chất hấp thụ rắn (TXA) tạo phức dạng vòng càng. Lượng đồng được giữ lại trên cột nhồi 0,4g TXA ở pH = 5,5 – 7,5 với vận tốc v = 25 – 200ml. Sau khi làm giàu, lượng TXA hoà tan vào trong 10ml hỗn hợp n-butylamin – DMPA (5:100), đồng được xác định bằng phương pháp hấp thụ nguyên tử trong ngọn lửa không khí – C2H2 ở 324,7nm. Đường chuẩn thẳng trong khoảng nồng độ từ 2 - 80μg Cu/10ml. Độ nhạy 0,093 μg/ml (đối với sự hấp thụ 1%). Sai số tương đối khi xác định 10μg Cu (n = 10) là 0,01. Ảnh hưởng của Fe3+ có thể được loại trừ bằng NH4F, che Al và Bi bằng natriactrat [16]. Phương pháp AAS kết hợp với phương pháp chiết có thể xác định vi lượng Cu và Zn trong dầu và mỡ ăn. Vết kim loại trong dầu, mỡ với nồng độ thấp cũng có thể làm hỏng hương vị và màu sắc. Công trình nghiên cứu thu hồi được tiến hành với dầu đậu nành có hàm lượng kim loại thấp. Mẫu xử lý với dịch chiết (HCl 18% và EDTA 0,01%) axit HNO3 đậm đặc. Qua các bước xử lý có thể thu hồi tới 96% Cu. Xác định các kim loại nặng trong các mẫu thịt cá bằng phép đo AAS, Dr. Phạm Luận và cộng sự đã thu được một số kết quả sau: Giới hạn phát hiện đối với Cu và Pb là 0,05 và 0,1ppm, giới hạn trên của vùng tuyến tính là 3,5 và 8ppm, sai số mắc phải trong vùng nồng độ 0,5-2ppm nhỏ hơn 15%. 1.1.2.2. Phương pháp trắc quang [6,7,50] Phân tích trắc quang là phương pháp được sử dụng phổ biến nhất trong các phương pháp phân tích hoá lý. Bằng phương pháp này có thể định lượng nhanh chóng với độ nhạy và độ chính xác khá cao, đồng thời đây là phương pháp đơn giản, đáng tin cậy. Có thể xác định Cu2+ bằng thuốc thử 2,9 – dimity - 4,7 – diphenyl - 1,10 - phenantronlin disufonat, hiện nay được coi là một trong các phương pháp tiêu chuẩn để xác định đồng trong nước. Phức của đồng với thuốc thử này có màu da cam, tan trong nước. Phản ứng tạo phức vòng càng ở pH = 3,5 đến 11, tốt nhất là ở pH = 4 - 5. Để đưa pH về 4,3 có thể dùng HCl và đệm citrate. Độ hấp thụ quang của phức tại λ = 484nm. Xyanua, thiocyanat, pesunfat và EDTA là những ion có thể gây ảnh hưởng đến phương pháp xác định. Phương pháp này cho phép phát hiện nồng độ đồng tới 20 μg/l. [50] Ngoài ra, các tác giả SHIGEYA SATO, TOSHIE SATO and SUMIO UCHIKAOA. đã tổng hợp 2-(3,5 diclo-2 pyridylazo)-5-dimetylaminophenol (3,5-diCl-DMPAP) để xác định coban. Thuốc thử 3,5-diCl-DMPAP phản ứng với coban trong môi trường pH= 2,2 → 6,0, ở nhiệt độ phòng tạo thành phức ML2 tan trong nước, độ hấp thụ quang đạt cực đại ở bước sóng λmax = 590 nm, hệ số hấp thụ phân tử gam của phức ε = 8,4.104 (l/mol.cm). Ảnh hưởng của các ion kim loại chuyển tiếp khác được loại trừ bằng phương pháp chiết với dung môi 8- hidroxylquinolin. Phương pháp này được ứng dụng thành công xác định coban trong các mẫu thép. [45] Coban và niken còn được xác định đồng thời bằng phương pháp quang phổ hấp thụ phân tử và màng điện trung hoà nhân tạo, dựa trên phản ứng tạo phức chất của Co(II) và Ni(II) với pyrolidine và CS2. Phức chất được chiết bằng p-xylen. Giới hạn phát hiện của Co2+ và Ni2+ tương ứng là 5ppm và 6ppm. Phương pháp này cho phép xác định đồng thời các ion kim loại trong hợp kim và vật liệu tổng hợp. [29] Xác định Cd và Pb bằng cách chuyển nó về dạng Cadmi-dithizonat và Chì-dithizonat trong môi trường pH 5-6: Cd2+ + 2H2Dz (xanh) ® Cd(HDz)2 (đỏ) + 2H+ Pb2+ + 2H2Dz (xanh) ®Pb(HDz)2 (đỏ) + 2H+ Sau đó, chiết phức này vào dung môi hữu cơ CCl4 hoặc CHCl3 rồi đem đo mật độ quang của nó tại l = 515nm đối phức của Cd và 510nm đối phức của Pb. Giới hạn của phương pháp này đối với Pb là 0,05 ppm, với Cd là 0,01ppm. 1.1.3. Giới thiệu chung về thuốc thử PAR [30,22] Thuốc thử PAR có tên đầy đủ là 4-(2- pyridylazo)-resorcinol, thường tồn tại dưới dạng muối Na ngậm 1 hoặc 2 phân tử H2O, là chất rắn màu đỏ da cam. PAR có thể được kết tinh lại bằng etanol 50%. Tùy từng môi trường, PAR tồn tại ở 6 dạng khác nhau trong dung dịch: H5L3+ ↔ H4L2+ ↔ H3L+ ↔ H2L ↔ HL- ↔ L2- 90% H2SO4 50% H2SO4 pH 10,5 Bốn dạng sau cùng là 4 dạng phổ biến nhất của PAR tương ứng với 3 hằng số bền của phân tử là: H3L+ ↔ H2L + H+ K1 = 10-3,1 H2L ↔ HL- + H+ K2 = 10-5,6 HL- ↔ L2- + H+ K3 = 10-11,9 Bước sóng hấp thụ cực đại của 6 dạng ion từ H5L3+ đến L2- lần lượt là: 433, 390, 395, 385, 413 và 490nm. Trong dung dịch axit yếu hoặc bazơ yếu, PAR đều có màu da cam. Cấu trúc các phức vòng càng của PAR tương tự như PAN, nguyên tử H của nhóm OH ở vị trí octo được thay thế bằng nguyên tử kim loại bằng cách liên kết kim loại đó với gốc piridin N và azo N (2 vòng 5 cạnh). Các phức dạng ion hoặc dạng phân tử tạo thành có thể chuyển hóa lẫn nhau phụ thuộc vào pH trong dung dịch. Tốc độ phản ứng của kim loại với PAR có thể xác định được tuy nhiên thành phần của sản phẩm thì không xác định được. Thí dụ Ni2+ phản ứng với PAR trong cả môi trường axit và bazơ đều tạp phức có tỉ lệ 1:2 tuy nhiên vẫn tồn tại các dạng phức khác. Trong dung dịch axit yếu, (pH = 3,3) tồn tại phức Ni(HL)2 có màu đỏ (Є520 = 37200), trong môi trường bazo phức có màu da cam (Є496 = 79400, pH =8) đó là màu của NiL22-. Các phức Co(HL)2 trong môi trường axit và Co(HL)L- trong môi trường bazo đều có màu đỏ. Phức của Mn trong môi trường axit hay bazo đều có dạng MnL22- . Trong dung dịch kiềm, Zn tồn tại dưới dạng phức ZnL22-. Tỉ lệ tạo phức của kim loại M và PAR phụ thuộc vào pH được trình bày ở bảng sau: Bảng 1: Các tính chất của một số phức kim loại – PAR Kim loại Thành phần phức(M:PAR) lmax (nm) e.10-3 Au (III) 1:1 540 8.3 Bi 1:1 515 10.7 Cd 1:2 495 57.8 Co(III) 1:2 510 5.5 Cu(II) 1:1 (pH 2.3 – 5) 522 12.1 1:2 (pH > 5) 505 – 510 58.9 Ga 1:1 (pH 1.5 – 3) 490 – 95 21.2 1:2 (pH 3 – 5) 500 – 505 9.9 Hf 1:4 (pH 2.5) 510 37.5 In 1:1 500 – 510 32.8 Mn 1:2 496 86.5 Nb 1:1 (0.1 – 0.2 N H2SO4) 530 18 1:1 (pH – 6) 555 38.7 , 31.2 Pb 1:1 512 10.8 1:2 522 50.2 Pd 1:1 (môi trường H2SO4) 440 18.4 Pt(II) 1:1 450,660 22.9 Các nguyên tố đất hiếm 1:2 515 16 – 50 Sc 1:1 (pH 2) 505 (515) 14.7 (22.1) Ta 1:1 515 20.4 Th 1:4 500 38.9 Zn 495 81 Zr 1:1 (pH 4) 535 21 Tl(III) 1:1 520 18 – 19.4 Zr, Ti, Tl(III) và Bi, Pd hoạt động trong dung dịch axit mạnh (pH =1). Phức của PAR và As, Sb, Mo, W và Be không có màu. Phức của PAR và Fe có màu nâu, đôi khi có kết tủa. Phức của các kim loại hóa trị 2 thường bị kết tủa trong dung môi nước. Hầu hết các phức của PAR đều có màu đỏ hoặc màu đỏ tím. Với Pd, phức có màu xanh trong môi trường axit và màu đỏ trong môi trường trung tính và bazơ. Phương pháp quang xác định cường độ màu thường được tiến hành đo trong dung môi axit. Đôi khi người ta tiến hành chiết với các dung môi (etyl axetat để chiết Pd và iso amyl để chiết phức Hf), trừ khi các tác nhân cation là muối amoni được sử dụng để tạo thành một ion cộng kết với một ion âm của phức kim loại và PAR, có thể chiết trong CHCl3. nhóm p-OH được coi như là có tác dụng làm tăng độ tan của các phức không mang điện (và tác nhân) trong dung môi nước, giải thích khả năng tan của PAR tốt hơn là của PAN. Mặc dù rất nhạy, phản ứng của PAR trong môi trường axit yếu và bazo yếu có sự hạn chế do độ chọn lọc kém hơn. Do thuốc thử PAR là một thuốc thử có khả năng tạo phức với nhiều kim loại có độ nhạy cao, nên việc sử dụng PAR vào mục đích phân tích các nguyên tố ngày càng rộng rãi nếu người ta tìm được điều kiện tối ưu. Có thể nói, việc sử dụng thuốc thử PAR nghiên cứu xác định các nguyên tố rất phong phú. Ngoài việc sử dụng PAR để nghiên cứu việc xác định các nguyên tố bằng phương pháp trắc quang [], ngày nay các nhà khoa học cũng đã sử dụng một số phương pháp khác có thuốc thử PAR để xác định các nguyên tố như: sắc kí lỏng, sắc kí ion, phương pháp động học, kĩ thuật FIA, phổ hấp thụ nguyên tử và một số phương pháp khác Phương pháp trắc quang đơn giản, tiện lợi, độ nhạy tương đối cao nên được sử dụng phổ biến để xác định các kim loại lượng nhỏ. Tuy nhiên, nhược điểm của phương pháp này là không chọn lọc, một thuốc thử có thể tạo phức với nhiều ion gây sai số phép phân tích. Do đó, để phân tích trắc quang các cation kim loại chuyển tiếp cần phải che hoặc tách loại trước khi phân tích nên khó xác định nhiều kim loại trong cùng hỗn hợp. Vì vậy, phương pháp ứng dụng chemometrics với trắc quang được xem là giải pháp tối ưu để xác định đồng thời các chất trong cùng hỗn hợp. 1.2. Phương pháp trắc quang kết hợp với chemometrics xác định đồng thời các nguyên tố Co, Cd, Ni, Cu, Pb 1.2.1. Phương pháp trắc quang kết hợp với hồi qui đa biến tuyến tính. Việc xác định đồng thời nhiều cấu tử trong hỗn hợp đã được các nhà khoa học nghiên cứu và ứng dụng rất nhiều do những ưu điểm vì rút ngắn được thời gian phân tích và tăng độ nhạy của phép phân tích. Việc nghiên cứu xác định đồng thời nhiều cấu tử mà phổ hấp thụ của chúng xen phủ nhau đã được nhiều tác giả quan tâm nghiên cứu. Trên thế giới, phần lớn các công trình nghiên cứu xác định đồng thời các chất trong cùng hỗn hợp đều sử dụng thuật toán hồi quy đa biến ứng dụng phần mềm Matlab để tính toán kết quả và xử lý số liệu. Jahanbakhsh và các cộng sự [53] đã tiến hành xác định đồng thời cả ba nguyên tố coban, đồng và niken trong các mẫu hợp kim bằng thuốc thử nitrosol-R- salt kết hợp với phương pháp bình phương tối thiểu riêng phần, một công cụ toán học ứng dụng trong phân tích hồi quy đa biến. Các thí nghiệm được tiến hành trên ma trận thực nghiệm cho hệ ba cấu tử. Khoảng tuyến tính xác định Co, Cu, Ni tương ứng là 0,4-2,6 ppm; 0,6-3,4 ppm và 0,5-5,5 ppm. Ảnh hưởng của pH đến độ nhạy, độ chọn lọc của phép phân tích đã được nghiên cứu. Khảo sát ảnh hưởng của rất nhiều các cation, anion đến phương pháp. Áp dụng phương pháp này xác định đồng thời coban, đồng, niken trong các mẫu hợp kim Cunico (chứa coban, đồng, niken) và hợp kim Conife (chứa coban, niken, sắt) thu được kết quả tốt. Tác giả [32] đã xác định Ni, Cu, Co sử dụng 1-(2-thiazolylazo)-2-naphthol bằng phương pháp chuẩn đa biến là hồi quy bình phương tối thiểu riêng phần để xác định đồng thời Co, Cu và Ni trong khoảng nồng độ lần lượt là 0,05 -1,05; 0,05 – 1,30 và 0,05 – 0,80µg/ml với sai số tương đối tương ứng với việc xử lý tín hiệu trực giao và không xử lý tín hiệu trực giao lần lượt cho Co, Cu và Ni là: 0,007; 0,008; 0,011 và 0,031; 0,037; 0,032 µg/ml. Bằng phương pháp trắc quang, các tác giả Trần Thúc Bình, Trần Tứ Hiếu, Phạm Luận đã xác định Cu, Ni, Mn, Zn... trong cùng một hỗn hợp theo Phương pháp Vierod cải tiến bằng Pyridin-azo-naphtol(PAN) với sai số < 4% ở những bước sóng khác nhau.[1] Bằng phương pháp trắc quang sử dụng mạng nơron nhân tạo, các nhà khoa học đã xác định đồng thời phenobarbiton và phenytoinnatri trong các mẫu thuốc và dược phẩm, xác định đồng thời Zn(II), Cd(II), Hg(II) trong nước với độ lệch chuẩn 0,29 với Cd, 0,38 với Hg và 0,35 với Zn[35]. Xác định đồng thời Co(II) và Ni(II) trên cơ sở phức của chúng với pyrolidin và cacbon disulfua với giới hạn là 0,0005 và 0,006. Tác giả [15] đã xác định đồng thời Ni, Co, Pd trong bản mạch điện tử bằng phương pháp trắc quang với thuốc thử PAN sử dụng thuật toán hồi quy đa biến, nồng độ tối ưu PAN là 0,01%, nồng độ Tween 80 là 0,3%. Đường chuẩn Ni2+ tuyến tính trong khoảng 0,01 – 0,80 ppm, Co2+: 0,08 – 2,40 ppm, Pd2+: 0,2 - 8,0 ppm. Lập ma trận tính các hệ số hồi qui từ 36 dung dịch chuẩn, dựa trên kết quả phân tích 16 mẫu giả tìm được mô hình PLS, CLS, ILS và PCR thích hợp với sai số tương đối khi phân tích mẫu tự tạo nhỏ hơn 15% thoả mãn sai số cho phép. 1.2.2. Phương pháp hồi qui đa biến phi tuyến tính xác định đồng thời các chất 1.2.2.1. Phương pháp mạng noron nhân tạo (ANN) 1.2.2.1.1. Cấu trúc và mô hình của một nơron [3, 33, 28] Mô hình của một nơron trong não người có thể biểu diễn như hình 1, trong đó “soma” là thân của nơron, các dendrites là các dây mảnh, dài, gắn liền với thân, chúng truyền dữ liệu (dưới dạng xung điện thế) đến cho thân nơron xử lý. Bên trong thân nơron các dữ liệu đó được tổng hợp lại. Có thể xem gần đúng sự tổng hợp ấy như là một phép lấy tổng tất cả các dữ liệu mà nơron nhận được. Hình 1 : Mô hình một nơron của con người Một loại dây dẫn tín hiệu khác cũng gắn với “soma” là các axon. Khác với dendrites, axon có khả năng phát các xung điện thế, chúng là các dây dẫn tín hiệu từ nơron đi các nơi khác. Chỉ khi nào điện thế trong soma vượt quá một giá trị ngưỡng nào đó (threshold) thì axon mới phát một xung điện thế, còn nếu không thì nó ở trạng thái nghỉ. Axon nối với các dendrites của các nơron khác thông qua những mối nối đặc biệt gọi là synapse. Khi điện thế của synapse tăng lên do các xung phát ra từ axon thì synapse sẽ nhả ra một số chất hoá học (neurotransmitters); các chất này mở "cửa" trên dendrites để cho các ions truyền qua. Chính dòng ions này làm thay đổi điện thế trên dendrites, tạo ra các xung dữ liệu lan truyền tới các nơron khác. Một tính chất rất cơ bản của mạng nơron sinh học là các đáp ứng theo kích thích có khả năng thay đổi theo thời gian. Các đáp ứng có thể tăng lên, giảm đi hoặc hoàn toàn biến mất. Qua các nhánh axon liên kết tế bào nơron này với các nơron khác, sự thay đổi trạng thái của một nơron cũng sẽ kéo theo sự thay đổi trạng thái của những nơron khác và do đó là sự thay đổi của toàn bộ mạng nơron có thể thực hiện qua quá trình “dạy” hoặc do khả năng học tự nhiên [3 ]. 1.2.2.1.2. Khái niệm mạng nơron nhân tạo (ANN) Mạng nơron nhân tạo là một mô phỏng xử lý thông tin, được nghiên cứu từ hệ thống thần kinh của sinh vật, trong đó một mô hình toán học được tạo ra giống như bộ não để xử lý thông tin. ANN giống như con người, được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sử dụng trong những tình huống phù hợp (hình 2). Hình 2 : Mô hình của một nơron nhân tạo Nơron này sẽ hoạt động như sau: giả sử có N dữ liệu đầu vào (inputs), nơron sẽ có N trọng số (weights) tương ứng với N đường truyền đầu vào. Nơron sẽ lấy giá trị đầu vào thứ nhất, nhân với trọng số trên đường vào thứ nhất, lấy giá trị đầu vào thứ hai nhân với trọng số của đường vào thứ hai v.v..., rồi lấy tổng của tất cả các kết quả thu được. Đường truyền nào có trọng số càng lớn thì tín hiệu truyền qua đó càng lớn, như vậy có thể xem trọng số là đại lượng tương đương với synapse trong nơron sinh học, hàm y tương đương với axon. Nếu tổng này lớn hơn một ngưỡng giá trị nào đó thì đầu ra của nơron sẽ ở mức tích cực . ANN là một khái niệm tương đối mới trong quá trình xử lý số liệu, giải quyết các bài toán khó mà con người nhiều khi không giải toán được. 1.2.2.1.3. Hàm hoạt động Trong thực tế, thông thường người ta thường chọn các hàm sau: a. Hàm ngưỡng (Threhold) 1 nếu u > 0 f (u) = 0 nếu u < 0 b. Hàm piecewwise – linear 1 nếu u > 1/2 f (u) = u nếu 1/2 > u > -1/2 0 nếu u < -1/2 c. Hàm sigmoid (logistic) f (u) = 1 1 + exp (-au) d. Hàm tang- hyperbol f (u) = tanh (u) = eu – e-u eu + e-u Hình 3: Đồ thị các hàm thường dùng Với mỗi mô hình tính toán, ta phải xác định các thuật toán học để tự động xác định các giá trị tham số tối ưu cho mô hình trên cơ sở bộ số liệu cho trước (các con số này người xây dựng chương trình không phải quan tâm) . * Hằng số tốc độ học Hằng số tốc độ học là một yếu tố quan trọng ảnh hưởng đến hiệu quả và độ hội tụ của thuật giải lan truyền ngược sai số. Không có hằng số tốc độ phù hợp cho tất cả các bài toán khác nhau. Hằng số tốc độ học thường được chọn bằng thực nghiệm cho mỗi bài toán ứng dụng cụ thể. Nếu giá trị của hằng số tốc độ học quá nhỏ, tốc độ hội tụ của giải thuật sẽ rất chậm và không có lợi vì thủ tục học sẽ kết thúc tại một cực tiểu cục bộ địa phương gần nhất. 1.2.2.1.4. Các mô hình mạng nơron nhân tạo. Liên kết các đầu vào và ra của nhiều nơron với nhau ta được một mạng nơron. Việc ghép nối các nơron trong mạng với nhau có thể theo một nguyên tắc bất kì nào đó. Từ đó có thể phân biệt các nơron khác nhau như các loại nơron mà các đầu vào nhận thông tin từ môi trường bên ngoài với các loại nơron mà các đầu vào được nối với các nơron khác trong mạng. Các nơron mà đầu vào giữ chức năng nhân thông tin từ môi trường bên ngoài gọi là “đầu vào” của mạng. Cũng tương tự như vậy, một nơron có một đầu ra, đầu ra của nơron này cũng có thể là đầu vào của nhiều nơron khác hoặc có thể đưa ra từ môi trường bên ngoài. Những nơron có đầu ra đưa tín hiệu vào môi trường bên ngoài được gọi là đầu ra của mạng. Một mạng nơron bao gồm nhiều lớp, mỗi lớp bao gồm nhiều nơron có cùng một chức năng trong mạng. - Mạng nơron truyền thẳng một lớp (perceptron). neuron neuron neuron neuron Đây là cấu trúc mạng nơron đơn giản nhất. Mạng nơron này chỉ gồm 1 lớp xuất, không có lớp ẩn. input output + Mô hình toán học của perceptron: output =f(∑viwj) f được gọi là hàm kích hoạt (activation action) hay hàm truyền có thể là hàm tuyến tính, hàm ngưỡng (Heaviside step), logistic sigmoid. + Khả năng của perceptron: - Phương trình v.w=0 chính là một siêu phẳng trong không gian d-chiều. Do đó perceptron có khả năng phân lớp tuyến tính nên có thể dùng để giải bài toán hồi quy tuyến tính. - Hạn chế của perceptron: không thể phân lớp phi tuyến - Mạng lan truyền nhiều lớp (multi layer perceptron-MLP) * Cấu trúc mạng MLP 1 lớp ẩn : X0 XN X1 . . . 1 2 M . . . 1 K yo yk . . . u1 v1 g1 Líp vµo líp ra líp Èn [W] [V] Mạng này có 3 lớp: lớp đầu vào gồm các tín hiệu đầu vào; lớp ẩn ở giữa chứa các nơron ẩn; một lớp đầu ra gồm tín hiệu đầu ra. Một mạng như vậy được xác định bởi 3 thông số tương ứng với 3 lớp là N, M, K. Trong đó, N là số đầu vào, M là số nơron lớp ẩn, K là số đầu ra (bằng số nơron lớp đầu ra). - Mạng lan truyền ngược (RBF) Mạng lan truyền ngược hay còn gọi là mạng phản hồi là mạng mà đầu ra của một nơron có thể là đầu vào của nơron trên cùng một lớp hoặc của lớp trước đó. Mạng RBF thưòng sử dụng hàm Kernel là hàm gaussian để tính vì sự không tuyến tính. Hàm Gaussian được đặc trưng bởi hai thông số giá trị trung tâm(C) và độ rộng * Mô hình của mạng RBF : Hình 4 :Mô hình mạng RBF Trong đó hàm f được lựa chọn là hàm dạng như sau : Hình 5 : Dạng đồ thị hàm f của mạng RBF . 1.2.2.1.5. Giải thuật lan truyền ngược Thuật toán này được tạo ra bằng cách tổng quát hoá qui luật phổ biến Widrow-Hoff với mạng đa lớp và hàm chuyển vi phân không tuyến tính, vectơ nhập và vectơ mục tiêu tương ứng được dùng để tạo mạng cho đến khi nó có thể xấp xỉ hoá một hàm liên quan tới vectơ nhập và vectơ xuất. Nếu có n biến đầu vào ta sẽ có tín hiệu vào đồng thời ở các nút nhập và được lan truyền thẳng qua các nơron rồi xuất hiện tại điểm ra cuối cùng của mạng như tín hiệu ra. Tổng tín hiệu vào tại một nơron được tính là hàm của các tín hiệu vào và liên quan đến synaptic weight để ứng dụng cho một nơron nào đó. Nơron này sẽ chuyển tổng tín hiệu nhập thành tín hiệu ra (outgoing) sử dụng hàm chuyển đổi (transfering function) và phát đi đến các nơron khác. Trong khi đó một tín hiệu sai số xuất phát tại một nơron ra của mạng và truyền ngược lại theo từng lớp đến các nút mạng phía trước. Mỗi quá trình truyền đi của tín hiệu và truyền ngược lại của sai số được gọi là một bước lặp (epoch). Tín hiệu sai số và gradient sai số tại mỗi nơron được tính cho một trọng số đã chọn (weight optimizato) sao cho sai số đầu ra là nhỏ nhất. n E = ∑ (t (xi, w) – y (xi))2 i = 1 Trong đó: t (xi, w): giá trị của tập mẫu y (xi): giá trị đầu ra của mạng Trước tiên , ta xét trên 1 nơron, mỗi nơron đều có giá trị vào và ra, mỗi giá trị đều có một trọng số để đánh giá mức độ ảnh hưởng của giá trị vào đó. Thuật toán Back – Propagation sẽ điều chỉnh các trọng số đó để giá trị ej = Tj – yj là nhỏ nhất. Trước hết ta phải xác định vị trí của mỗi nơron. Nơron nào là của lớp ẩn và nơron nào là của lớp xuất. Ta cần biết các ký hiệu: wij: vector trọng số của nơron j số đầu vào i uj: vector giá trị đầu ra của nơron trong lớp j x1 tj fj (.) Wij x2 W2j ej xi – 1 W(i – 1)j sum x3 Wij Nơron j Hình 6: Mô hình tính toán một nơron Giá trị sai số của nơron j tại vòng lặp thứ n ej (n) = tj (n) – yj (n) Tổng bình phương sai số của mạng nơron: k E (n) = 1 ∑ e2j (n) 2 j =1 Tại nơron j ta có tổng trọng số input: p uj (n) = ∑ wij.xj (n) i= 0 Giá trị đầu ra của nơron j: yj (n) = fj (uj(n)) - Tính toán giá trị đạo hàm sai số cho mỗi nơron wij Giá trị điều chỉnh trọng số: Như vậy quá trình điều chỉnh trọng số có thể được xác định theo các công thức trên, tuy nhiên ta cần phải xác định vị trí của nơron thuộc lớp nào (lớp ẩn hay lớp xuất). Điều này rất quan trọng trong việc tính toán cho từng hệ số điều chỉnh trọng số. Như vậy tuỳ theo hàm hoạt động ta có thể tính dễ dàng tính toán các giá trị điều chỉnh trọng số cho từng trọng số tương ứng theo thuật toán lan truyền ngược Back – Propagation. 1.2.2.1.6. Ưu, nhược điểm của mạng nơron nhân tạo * Ưu điểm - Phương pháp cho phép xác định đồng thời nhiều cấu tử khi phổ của chúng trùng lấn nhau ngay cả khi các đại lượng vật lý đo được không có tính cộng tính. Trong khi đó các phương pháp khác như trắc quang đạo hàm, Vierordt đòi hỏi các đại lượng đó phải có tính cộng tính. - Mạng ANN cho phép xác định đồng thời nhiều cấu tử mà trong hệ có nhiều quá trình xảy ra còn chưa biết hay còn gọi là hệ mờ, nhờ vậy mà ANN có thể xác định bằng phương pháp trắc quang ngay cả khi trong dung dịch có sự tạo phức cạnh tranh, thuốc thử tạo phức màu không đủ dư và khi nồng độ các cấu tử cần xác định không nằm trong khoảng tuyến tính. - ANN cho phép xác định đồng thời nhiều cấu tử mà phổ của chúng trùng lấn nhau bằng các kỹ thuật khác nhau như: điện hoá, trắc quang động học, huỳnh quang tia X... * Nhược điểm - Thời gian luyện mạng thường khá lâu. - Chưa có phần mềm tiện ích để sử dụng ngay, đòi hỏi người thực hiện phải nắm rõ thuật toán để viết chương trình trên các phần mềm khác (Pascal, Matlab, C+, ... ) mới sử dụng được. - ANN có rất nhiều thuật toán khác nhau, do đó khi xây dựng một mô hình phân tích chất, đòi hỏi người sử dụng phải thử nhiều mô hình để tìm được cấu trúc mạng tối ưu. 1.2.2.1.7. Ứng dụng của mạng nơron nhân tạo Đặc trưng của ANN là khả năng học và xử lý song song. Nó cho phép học được dáng điệu và lưu lại mối quan hệ giữa các yếu tố đầu vào và đầu ra của các quá trình cần nghiên cứu dựa trên việc học một tập dữ liệu đủ lớn mô tả quá trình đó. Sau khi học xong, ANN có thể tính toán kết quả đầu ra tương ứng với bộ số liệu đầu vào mới. ANN có rất nhiều ứng dụng trong nhiều ngành và lĩnh vực khác nhau: - Giải các bài toán phân lớp: bài toán này đòi hỏi giải quyết vấn đề phân loại các đối tượng thành các nhóm dựa trên những đặc điểm của các nhóm đối tượng. Trên cơ sở này người ta sử dụng ANN trong nhận dạng chữ viết, tiếng nói, phân loại gen, phân loại chất lượng sản phẩm...[23] - Bài toán dự báo: mạng ANN đã được ứng dụng trong việc xây dựng mô hình dự báo sử dụng tập dữ liệu trong quá khứ để dự đoán số liệu cho tương lai (dự báo thời tiết). - Bài toán điều khiển và tối ưu hoá: ANN được sử dụng trong hệ điều khiển tự động cũng như trong việc giải quyết rất nhiều bài toán tối ưu trong thực tế.[21] Nhìn chung, ANN là công cụ cho phép tiếp cận có hiệu quả để giải quyết các bài toán có tính phi tuyến tính, biến động, dữ liệu có nhiễu và đặc biệt là trong trường hợp các mối quan hệ mà bản chất vật lý của các quá trình cần nghiên cứu không dễ dàng nhận biết và thể hiện chúng hay còn gọi là các tập mờ.[9] * Ứng dụng trong hoá học phân tích [32] Việc nghiên cứu xác định đồng thời nhiều cấu tử mà phổ của các đại lượng vật lý đo được của chúng xen phủ nhau đã được nhiều tác giả quan tâm nghiên cứu. Để xác định đồng thời nhiều cấu tử có nhiều phương pháp: phương pháp trắc quang đạo hàm, phương pháp chuẩn đa biến sử dụng bình phương tối thiểu (CLS, ILS, PLS)....nhưng phương pháp đạo hàm sẽ làm giảm độ nhạy của phép phân tích còn trong nhiều trường hợp các phương pháp bình phương tối thiểu không thích hợp vì tín hiệu đo không có tính cộng tính . Hiện nay nhiều công trình nghiên cứu sử dụng ANN được triển khai thực hiện ở rất nhiều phòng thí nghiêm trên thế giới. ANN cho phép mô hình hoá các mối quan hệ phi tính phức tạp. Nó cho phép giải quyết mối quan hệ mà trong đó có những quá trình xảy ra chưa được biết hoặc những thông tin về hệ còn chưa đầy đủ hay hệ mờ. - Bằng ANN người ta đã nghiên cứu xác định các axit hiđroxylat benzoic và axit cianmic bằng phương pháp chuẩn độ điện thế cho kết quả chính xác với sai số 4,18% [40]. - Phương pháp điện hoá sử dụng mạng ANN đã được nghiên cứu xác định đồng thời Ag(I), Hg(II), Cu(II) bằng đo thế sử dụng điện cực cacbon nhão không biến tính. Xác định Mo, Cu bằng phổ xung vi phân hoà tan hấp phụ catot, etanol, fructoza và glucoza bằng phương pháp volampe xung bậc thang (DPSV)… - ANN được sử dụng trong nghiên cứu xác định đồng thời anilin và cyclohexylamin cho kết quả có độ lệch chuẩn tương đối (RMSD) từ 0,9-1,17 [32] - Bằng phương pháp trắc quang sử dụng mạng ANN đã xác định đồng thời phenobarbiton và phenytoinnatri trong các mẫu thuốc và dược phẩm. xác định đồng thời Zn(II), Cd(II), Hg(II) trong nước với độ lêch chuẩn 0,29-Cd, 0,38 và 0,35 với Hg và Zn(II). [35] Bên cạnh đó, nhóm tác giả [39] đã nghiên cứu mạng nơron nhân tạo gồm 3 lớp với thuật toán lan truyền ngược để thiết lập mối quan hệ phi tuyến giữa nồng độ của anthranilic acid (HA), nicotinic acid (HN), picolinic acid (HP) and sulfanilic acid (HS) trong hỗn hợp và pH của các dung dịch ở các thể tích khác nhau của dung dịch thêm vào khi chuẩn độ. Các cấu tử chính của ma trận pH được sử dụng làm đầu vào trong ANN. Mô hình mạng tối ưu đã xác định được nồng độ của axit trong các mẫu tự tạo. Kết quả chỉ ra rằng, ANN phân tích dữ liệu chuẩn độ với sai số tương đối thấp (< 4%). Bằng phương pháp trắc quang động học sử dụng mạng ANN đã nghiên cứu xác định glucoza, fructoza, lactoza với kaliferi xianua (K3Fe(CN)6. Xác định đồng thời Co(II), V(IV) trên cơ sở tốc độ phản ứng của chúng với Fe(II) khi có mặt thuốc thử 1,10-phenanthrolin. [39] Ở Việt Nam, đã có một số công trình xác định đồng thời các chất bằng mạng nơron nhân tạo nhờ phần mềm WinNN (mua của Mỹ) như: xác định đồng thời Uran và Thori[2], xác định đồng thời Ni(II), Cu(II), Zn(II) bằng phương pháp chuẩn đa biến sử dụng mạng nơron nhân tạo bằng phần mềm WinNN với sai số lớn nhất của Ni(II) là 8%, Cu(II) là 5% và Zn(II) là 10,2%; phương pháp xác định được nồng độ các mẫu cả trong và ngoài khoảng tuyến tính.[22] Tuy nhiên, chưa có công trình nghiên cứu nào tiến hành phân tích đồng thời các chất sử dụng phương pháp mạng nơron nhân tạo và phân tích thành phần chính kết hợp với mạng nơron nhân tạo viết trên phần mềm MATLAB. 1.2.2.2. Phương pháp phân tích thành phần chính (PCA).[24,15] * Khái niệm Phân tích thành phần (cấu tử) chính là công cụ hữu hiệu cho phép giảm số biến trong tập số liệu từ tập số liệu đa chiều bằng cách tìm ra giá trị phương sai lớn nhất với số cấu tử chính (PC) hay các biến ảo ít nhất. PCA là thuật toán đa biến dựa trên việc quay các trục số liệu chứa các biến tối ưu. Khi đó, một tập hợp các biến liên quan với nhau được chuyển thành tập hợp các biến không liên quan và được sắp xếp theo thứ tự giảm độ biến thiên hay phương sai. Những biến không liên quan này là sự kết hợp tuyến tính các biến ban đầu. Dựa trên phương sai do mỗi biến mới gây ra có thể loại bỏ bớt các biến phía cuối dãy mà chỉ mất ít nhất thông tin về các số liệu thực ban đầu. Bằng cách này sẽ giảm được kích thước của tập số liệu trong khi vẫn có thể giữ nguyên thông tin. *Thuật toán PCA. Phương pháp này sẽ thiết lập 1 tập biến mới, được gọi là các cấu tử chính. Mỗi cấu tử chính là 1 sự kết hợp tuyến tính của các biến chung. Tất cả các cấu tử chính đều trực giao với nhau và không làm giảm đi lượng thông tin có trong tập dữ liệu. Các cấu tử chính đó coi như 1 dạng trực giao cơ sở của không gian dữ liệu. PC thứ nhất - Cấu tử chính thứ nhất là 1 trục tọa độ trong không gian, sao cho chứa nhiều thông tin của các biến nhất. Hình 7: Đồ thị biểu diễn sự dịch chuyển các biến sang trục đầu tiên Khi chiếu mỗi biến cũ lên hệ tọa độ đó trước tiên sẽ hình thành 1 biến mới (PC1) hay trục thứ nhất, đó là giá trị riêng lớn nhất của các biến ảo (các PC). Cấu tử thứ 2 hay một 1 trục tọa độ khác trong không gian (PC2), vuông góc với cấu tử thứ nhất. Quá trình chiếu các biến lên trục tọa độ này sẽ tạo ra các giá trị mới. Hình 8: Đồ thị biểu diễn sự dịch chuyển các biến sang trục thứ 2 - Nếu tập dữ liệu có k biến thì hệ tọa độ mới cũng có k chiều (k PC). Tập dữ liệu đầy đủ của các cấu tử này cũng chứa lượng thông tin giống như các giá trị của tập dữ liệu cũ, nhưng 80% thông tin tập trung vào các PC đầu tiên. Kích thước của tập dữ liệu được giảm bằng cách kiểm tra các yếu tố ảnh hưởng chính tới tập dữ liệu ban đầu. Thông thường, chỉ có 3, 4PC đầu là chứa nhiều thông tin ảnh hưởng đến kết quả của tập dữ liệu ban đầu. Khi phân tích cấu tử chính (là quá trình chiếu các biến ban đầu lên 1 hệ trục tọa độ mới phù hợp), các giá trị mới thu được là: PCALoading: là hệ số góc của hệ trục tọa độ cũ so với hệ trục tọa độ mới. PCAScore: là các giá trị của dữ liệu ban đầu chiếu lên hệ trục tọa độ mới. Đây là các giá trị mang thông tin của tập dữ liệu, được sử dụng để làm dữ liệu đầu vào trong các phép phân tích tiếp theo. PCAVar: là phương sai tích lũy của các biến mới so với các biến ban đầu. Dựa vào PCAVar để đánh giá lượng thông tin chứa trong mỗi PC. PCALoading PCAScore PCAVar Hình 9: Giá trị PCALoading, PCAScore, PCAVar thu được khi chiếu lên các trục *Ứng dụng của PCA - Giảm kích thước tập số liệu, từ biểu diễn n chiều trong không gian thành biểu diễn hai hoặc 3 chiều với số biến có ảnh hưởng chính đến tập số liệu. - Loại bỏ sự đa cộng tính giữa các biến trong việc xây dựng phương trình hồi qui biểu diễn sự phụ thuộc của tín hiệu phân tích vào các biến là nồng độ các cấu tử trong hệ. Phương pháp này có tên gọi là hồi qui cấu tử chính. - Từ tập số liệu với n biến ban đầu có liên quan mật thiết với nhau, sau khi giảm thành p biến không liên quan thì trị riêng của chúng có thể sử dụng làm số liệu đầu vào của phương pháp hồi qui kết hợp với mạng noron nhân tạo giải bài toán phân tích đồng thời các cấu tử trong hệ có tương tác không cộng tính. Tuy nhiên PCA đơn thuần là phương pháp toán học nên các kết quả thu được bị ảnh hưởng rất lớn bởi tập số liệu ban đầu vì vậy cần kết hợp với những kiến thức chuyên ngành khác nếu không sẽ dẫn đến những giải nghĩa sai lệch. 1.2.2.3. Phương pháp mạng nơron nhân tạo kết hợp với phân tích thành phần chính xác định đồng thời các chất. Khi phân tích hồi quy đa biến bằng phương pháp mạng nơron nhân tạo, ma trận số liệu đầu vào càng lớn, tức là tập số liệu đầu vào chứa càng nhiều thông tin thì kết quả thu được ở đầu ra càng gần với giá trị thực. Tuy nhiên, khi số liệu quá lớn làm cho thời gian luyện mạng lớn hơn, có thể làm quá trình luyện mạng lặp lại nhiều lần và gây nên sai số lớn. Phương pháp phân tích cấu tử chính thường được sử dụng trước để giảm kích thước của tập số liệu mà không làm mất đi lượng thông tin chứa trong tập số liệu đó. Phương pháp mạng nơron nhân tạo kết hợp với phân tích thành phần chính thường gồm các bước như sau: - Bước 1: Xác định tập dữ liệu cần phân tích. Đối với phương pháp trắc quang thì tập dữ liệu phân tích sẽ là ma trận độ hấp thụ quang (p dung dịch chuẩn x n bước sóng) và ma trận nồng độ mẫu phân tích (p mẫu phân tích, m cấu tử, ). - Bước 2: Dùng phương pháp phân tích thành phần chính (PCA) để giảm kích thước tập dữ liệu ban đầu. Sau khi tính toán tổng phương sai tích lũy để chỉ ra số PC chính, thì giá trị PCAScore là tập dữ liệu ảo (k x n) trong đó k < m. được sử dụng để làm dữ liệu của lớp nhập. - Bước 3: Sử dụng ma trân dữ liệu ảo (k x n) làm dữ liệu đầu vào của mô hình mạng nơron nhân tạo và ma trận nồng độ (m x p) làm dữ liệu đầu ra của mô hình mạng nơron nhân tạo. * Ứng dụng PCR- ANN trong hóa phân tích Nhóm tác giả [26 ] đã phân tích đồng thời thioxianat và sunfua bằng phương pháp phân tích động học trắc quang sử dụng dãy các trị riêng (eigenvalue) và sắp xếp các hệ số tương quan (correlation ranking) trong phân tích thành phần chính và mạng nơron nhân tạo. Phương pháp xác định ion thioxianat trong khoảng nồng độ 60 – 700 ng.ml-1 và ion sunfua trong khoảng nồng độ 20 -400 ng.ml-1 và dùng để phân tích các mẫu nước máy, nước ngầm và nước sông. Phương pháp phân tích thành phần chính với thuật toán SVD được sử dụng để giảm kích thước của tập số liệu, từ 301 giá trị ban đầu thuật toán giảm xuống chỉ còn 5 cấu tử (PC), đó cũng là số cấu tử của nút nhập trong mạng nơron nhân tạo. Hai phương pháp được lựa chọn để tìm số cấu tử thích hợp là sắp xếp các cấu tử theo eigenvalue hoặc theo sự tương quan. Các PC được thay đổi từ 1 -8 để dùng trong nút nhập của mạng ANN, cùng các thông số khác để thiết lập mô hình PC – WNN tối ưu. Mô hình CR-PC-WNN đạt sai số tương đối là 5,6% và EV-PC-WNN đạt sai số là 6,8%. Tác giả [25] đã sử dụng phương pháp PC-ANN để phân tích đồng thời lượng vết Zr(IV) và Hf(IV) trong các mẫu nước sông và nước thải nhà máy. Mô hình được thiết lập bằng cách xây dựng ma trận nồng độ trong khoảng 0,03 – 3,4 µg.ml-1 Zr(IV), và 0,2 – 7,0 µg.ml-1 Hf(IV) với 23 mẫu học và 20 mẫu kiểm tra. Ma trận score và ma trận loading được tính toán bằng thuật toán SVD, đó là 1 trong các phương pháp phân tích thành phần chính. Phương pháp mạng nơron nhân tạo kết hợp với phân tích thành phần chính còn được sử dụng để xác định đồng thời 4 dạng phenol ( phenol, 2-Clo phenol, 3-Clo phenol và 4-Clo phenol) dựa trên sự oxi hóa với N,N-đietyl-p-phenyl điamin trong sự có mặt của Fe(CN)63+ trong khoảng nồng độ từ 0,1-7,0 μg/ml. Tác giả [36] đã sử dụng phương pháp phân tích thành phần chính để giảm kích thước tập dữ liệu động học trắc quang đo ở 680nm và sử dụng mạng nơron 3 lớp với giải thuật lan truyền ngược để luyện mạng. Mô hình PC-ANN tối ưu thu được cho phép phân tích định lượng 4 hợp chất trên với sai số tương đối nhỏ hơn 5%. Phương pháp PC-ANN còn được áp dụng để phân tích đồng thời antipyriien và caffeine citrate trong thuốc [48] với 43 mẫu học, 20 mẫu luyện mạng và 10 mẫu kiểm tra. Phép phân tích được tiến hành trong vùng hồng ngoại gần với bước sóng 1100nm đến 2500nm. Các mẫu kiểm tra cho giá trị sai số tương đối chuẩn từ 1,489 đến 2,611%. 1.3. Phần mềm Matlab( Matrix in laboratory) [4] Matlab là chương trình phần mềm hỗ trợ đắc lực cho tính toán với ma trận và hiển thị. Nó có thể chạy trên hầu hết các hệ máy tính, từ máy tính cá nhân đến các hệ super computer. Matlab được điều khiển bằng tập các lệnh, tác động qua bàn phím trên cửa sổ điều khiển. Nó cũng cung cấp khả năng lập trình với cú pháp dịch lệnh còn gọi là scrip file. Các lệnh của Matlab rất hiệu quả, nó cho phép giải các loại bài toán khác nhau và đặc biệt hữu dụng cho các hệ phương trình tuyến tính hoặc tính toán với hàm toán học phức tạp. Ngoài ra, Matlab còn có thể xử lý dữ liệu, biểu diễn đồ hoạ một cách linh hoạt, đơn giản và chính xác trong không gian 2 chiều cũng như 3 chiều, kể cả khả năng tạo hoạt cảnh, bởi những công cụ như các tệp lệnh ngày càng được mở rộng với 25 thư viện trợ giúp (Toolboxs) và bản thân các hàm ứng dụng được tạo lập bởi người sử dụng. Không cần nhiều đến kiến thức về máy tính cũng như các kĩ thuật lập trình phức tạp, mà chỉ cần đến những hiểu biết cơ bản về lý thuyết số, toán ứng dụng, phương pháp tính và khả năng lập trình thông dụng, người sử dụng có thể dùng Matlab như công cụ hữu hiệu cho lĩnh vực chuyên ngành của mình. Đối với hoá học phân tích, việc ứng dụng tiện ích của hàm M- file giúp tính toán dễ dàng và thuận tiện, do chỉ cần nhập đúng hàm và Matlab sẽ cho ra kết quả của hàm. * Các quy luật và thuộc tính của hàm M- file: -Tên hàm và tên file phải là một ví dụ hàm flipud, file lưu là flipud.m -Lần đầu tiên Matlab thực hiện hàm M- file nó sẽ mở file văn bản tương ứng và dịch lệnh của file đó ra một dạng mã lưu trong bộ nhớ nhằm mục đích tăng tốc độ thực hiện các lời gọi. -Việc thi hành hàm M- file sẽ kết thúc khi gặp dòng cuối cùng của file đó hoặc gặp dòng lệnh return. Lệnh return giúp ta kết thúc một hàm mà không cần phải thi hành hết các lệnh của hàm đó. -Hàm Error của Matlab sẽ hiển thị một chuỗi lên cửa sổ lệnh và dừng thực hiện hàm, trả điều khiển về cho cửa sổ lệnh và bàn phím. -Một M- file có thể chứa nhiều hàm. Hàm chính trong M- file này phải đặt trùng với tên của M- file như đề cập đến ở trên. Các hàm khác được khai báo thông qua câu lệnh function được viết sau hàm đầu tiên. -Các dòng ghi lời chú thích cho tới dòng đầu tiên không phải là chú thích trong hàm M- file là những dòng văn bản nó sẽ hiện ra khi sử dụng lệnh help. -Mỗi hàm có một không gian làm việc riêng tách biệt so với môi trường MATLAB, mối quan hệ giữa biến và hàm với môi trường MATLAB là các biến vào và ra của hàm đó. Nếu trong thân hàm giá trị bị thay đổi thì sự thay đổi này chỉ tác động bên trong của hàm đó mà không làm ảnh hưởng đến các biến của môi trường MATLAB. Các biến được tạo ra bên trong hàm thì chỉ nằm trong không gian làm việc của hàm đó và được giải phóng khi hàm kết thúc. Vì vậy, không thể sử dụng thông tin của lần trước gọi cho lần sau. - Số các tham số vào và ra khi một hàm được gọi thì chỉ có tác dụng bên trong hàm đó, biến nargin chứa tham số đa vào, biến narout chứa các tham số đưa ra. Thường dùng biến narin hơn biến narout. -Các hàm có thể dùng chung các biến với các hàm khác với môi trường Matlab là có thể đệ quy nếu như các biến được khai báo là toàn cục. Đặc biệt, phần mềm này có cả một Toolbox với các hàm toán học dành riêng để thiết lập các mô hình mạng nơron nhân tạo, người sử dụng có thể tạo ra vô số các mô hình sao cho phù hợp với mục đích sử dụng. Với những ưu điểm nổi trội như vậy, Matlab có thể giải quyết mọi vấn đề tính toán phức tạp trong hoá phân tích. Chương II: THỰC NGHIỆM 2.1. Nội dung và phương pháp nghiên cứu. 2.1.1. Phương pháp nghiên cứu. Cơ sở của phương pháp là dựa các phản ứng tạo phức màu của Ni(II), Co(II), Cu(II), Pb(II) và Cd(II) với thuốc thử PAR ở pH= 10, đo độ hấp thụ quang của các phức màu trên dải bước sóng 450-600 nm để xác định đồng thời 5 kim loại trên trong cùng một hỗn hợp bằng phương pháp mạng nơron nhân tạo kết hợp phương pháp phân tích thành phần chính để giảm kích thước tập số liệu. PAR có công thức hóa học như sau: PAR là thuốc thử có khả năng tạo phức đa dạng với hầu hết các ion kim loại chuyển tiếp, vì vậy có thể sử dụng để phân tích đồng thời các ion kim loại bằng phương pháp mạng nơron nhân tạo mà không cần phải tách loại các ion có trong hỗn hợp. Tuy nhiên, khi số cấu tử cần phân tích là lớn thì lượng mẫu phân tích cũng phải đủ lớn để xây dựng được mô hình ANN tối ưu thích hợp làm cho kích thước của tập dữ liệu là rất lớn. Do đó, chúng tôi đã nghiên cứu phương pháp mạng nơron nhân tạo kết hợp với phân tích thành phần chính để giảm kích thước tập số liệu mà vẫn cho được kết quả phân tích chính xác. Các ion kim loại Co(II), Ni(II), Cu(II), Pb(II), Cd(II) tạo phức với PAR trong môi trường kiềm cho phổ hấp thụ xen phủ nhau gần như hoàn toàn với nên để xác định đồng thời các chất phải dùng phương pháp hồi quy đa biến. Tuy nhiên, bản thân thuốc thử PAR có màu nên ảnh hưởng rất lớn đến phép xác định do lượng thuốc thử dư, khi đó các phương pháp đa biến như bình phương tối thiểu thông thường (CLS), nghịch đảo (ILS) không tính đến độ hấp thụ quang của mẫu trắng sẽ cho sai số lớn. Vì vậy, phương pháp hồi quy đa biến phi tuyến, độ hấp thụ quang của các cấu tử khảo sát có phục được nhược điểm này. Khi kích thước mẫu lớn thì phương pháp phân tích thành phần chính kết hợp với mạng nơron nhân tạo để tính toán cho phép tăng độ chính xác khi xác định đồng thời các kim loại. Phương pháp PCR- ANN dựa trên việc xây dựng ma trận nồng độ dung dịch chuẩn và ma trận độ hấp thụ quang của các dung dịch phức màu của hỗn hợp các ion kim loại với thuốc thử PAR được dùng để thiết lập một mô hình toán học thông qua việc áp dụng PCA để tìm trị riêng và cấu tử chính làm đầu vào của mô hình ANN. Đầu ra của mô hình là nồng độ của các cấu tử trong dung dịch cần phân tích Để đánh giá mô hình cần xây dựng một ma trận nồng độ và độ hấp thụ quang của các mẫu kiểm tra, thông qua việc tính toán sai số tương đối và tổng bình phương sai số để đánh giá độ chính xác của phương pháp từ đó áp dụng phân tích mẫu thựu tế. 2.1.2. Nội dung nghiên cứu. Để xây dựng qui trình phân tích xác định đồng thời Cd2+, Co2+, Cu2+, Ni2+ , Pb2+ bằng phương pháp trắc quang sử dụng mạng nơron nhân tạo kết hợp với phân tích thành phần chính (PCR-ANN), trong luận văn này chúng tôi tập trung nghiên cứu các vấn đề sau: - Nghiên cứu các điều kiện tối ưu của phản ứng tạo phức màu giữa các ion Cd2+, Co2+, Cu2+, Ni2+ , Pb2+ với thuốc thử PAR (pH, độ bền phức mầu, lượng thuốc thử dư…) - Khảo sát khoảng tuyến tính xác định nồng độ của từng cấu tử trên với thuốc thử PAR từ đó xây dựng ma trận nồng độ có mặt 5 cấu tử. - Nghiên cứu các phương pháp mạng nơron nhân tạo kết hợp phân tích thành phần chính để xác định nồng độ của các chất phân tích dựa vào phổ hấp thụ của hỗn hợp thu được. Cụ thể là: + Dùng phương pháp phân tích thành phần chính (PCA) tính toán tổng phương sai tích lũy, tìm ra số cấu tử chính phù hợp, giảm kích thước tập số liệu. Chuyển tập số liệu ban đầu thành tập số liệu mới có kích thước nhỏ hơn. Dùng tập số liệu mới này để làm dữ liệu đầu vào của mạng nơron nhân tạo + Thiết lập và khảo sát mô hình ANN tối ưu để tính toán, xác định nồng độ các cấu tử dựa vào phổ hấp thụ của hỗn hợp - Đánh giá độ chính xác của mô hình, so sánh với phương pháp tính của mô hình khác. 2.2. Hóa chất, dụng cụ, thí nghiệm. 2.2.1. Hóa chất. Các loại hoá chất được sử dụng là loại tinh khiết phân tích (P.A) và các dung dịch được pha chế bằng nước cất 2 lần. - Dung dịch Co2+ 1000ppm: Hoà tan 1,2570 g CoCl2.6H2O (PA) bằng 50 ml dung dịch HCl 10% trong bình định mức 250, sau đó thêm nước cất đến vạch định mức thu được dung dịch Co2+ . - Dung dịch chuẩn gốc Ni2+ 1000 ppm: Cân 1,0130 g NiCl2. 6H2O cho vào bình định mức 250 ml, thêm 50 ml dung dịch HCl 10%, lắc đều, thêm nước cất lắc cho tan hết, sau đó thêm nước cất đến vạch định mức. - Dung dịch Cu2+ 1000ppm: Cân 0,9765 g CuSO4.5H2O, hòa tan trong nước cất 2 lần, chuyển vào bình định mức cỡ 250ml, lắc cho tan hết, định mức bằng nước cất đến vạch - Dung dịch chuẩn gốc Cd2+ 1000ppm: Hoà tan 0,4079 g CdCl2 (P.A) trong 2 ml HCl đặc sau đó thêm nước cất đến vạch định mức 250ml thu được dung dịch Cd2+ 1000 ppm. - Dung dịch chuẩn gốc Pb2+ 1000ppm: Hoà tan 0,3357g PbCl2 (P.A) trong 2 ml HCl đặc sau đó thêm nước cất đến vạch định mức 250ml thu được dung dịch Pb2+ 1000 ppm. Nồng độ của dung dịch Ni2+ và Co2+ được xác định lại bằng phương pháp chuẩn độ phức chất như sau: Lấy 10,0 ml dung dịch Ni2+ hoặc Co2+ vào bình nón 250 ml, thêm chỉ thị murexit. Sau đó thêm dung dịch NH3 1M để điều chỉnh pH = 8 (thêm vài giọt dung dịch NH3 vào đến khi dung dịch có màu vàng nhạt thoáng đục). Chuẩn độ dung dịch thu được bằng dung dịch EDTA thì thấy dung dịch chuyển sang màu tím bền thì dừng lại. Sau đó từ dung dịch đã biết nồng độ chuẩn chúng tôi tiến hành pha loãng thành các dung dịch có nồng độ thấp hơn. Nồng độ của dung dịch Cu2+ được kiểm tra lại bằng phương pháp chuẩn độ phức chất như sau: Lấy 10,0ml dung dịch Cu2+ vào bình nón 250ml, thêm dung dịch đệm axetat pH=5 và 3 giọt chỉ thị PAN. Đun sôi và chuẩn độ bằng đung dịch EDTA. Ở điểm tương đương dung dịch chuyển từ màu tím đậm sang màu vàng lục. - Dung dịch đệm borac pH = 10: Trộn 3,092g H3BO3 và 3,728g KCl sau đó chuyển vào bình định mức 1 lít, thêm nước cất và lắc đều , cuối cùng định mức đến vạch bằng nước cất. Điều chỉnh lại pH bằng máy đo pH. - Dung dịch thuốc thử PAR (C11H8N3O2Na.H2O , M = 255) 7,5x10-4M : cân 0,0404g PAR pha trong bình 250ml. Bảo quản thuốc thử trong ngăn mát tủ lạnh và sử dụng trong vòng 1 tuần. 2.2.2 Dụng cụ và thiết bị a/ Dụng cụ: Bình định mức 25 ml, 50 ml, 100 ml, 250 ml, pipet chia vạch dung tích 1; 2; 5 và 10 ml. b/ Thiết bị: - Máy trắc quang UV - VIS 1601 PC - Shimazu (Nhật Bản), dải bước sóng đo 200nm - 900nm, cuvet thuỷ tinh có chiều dày l = 1cm - Máy đo pH HANNA Instrument 211( microprocessor pH merter) - Cân phân tích Scientech SA 210 độ chính xác ± 0,0001g c/ Phần mềm máy tính - Phần mềm Matlab 2007 để thiết lập mạng nơron nhân tạo sử dụng thuật toán lan truyền ngược. - Phần mềm xử lý thống kê và vẽ đồ thị : Origin 6.0, Minitab 14, Excel… 2.3. Cách tiến hành thực nghiệm - Pha các dung dịch chuẩn chứa đồng thời 5 ion Ni2+, Co2+, Cu2+, Pb2+ và Cd2+ ở 5 mức nồng độ khác nhau (nồng độ các chất được đính kèm phần phụ lục),thêm 5ml dung dịch thuốc thử PAR 7,5.10-4M , 5ml dung dịch đệm pH = 10, sau 20 phút đo tín hiệu độ hấp thụ quang của các dung dịch phức màu trong khoảng 450nm đến 600nm. Chuẩn bị 80 dung dịch chuẩn và 20 dung dịch kiểm tra chứa đồng thời cả 5 ion kim loại. - Nhập số liệu ma trận nồng độ (bao gồm nồng độ của 5 cấu tử và nồng độ thuốc thử) và ma trận tín hiệu đo vào phần mềm Matlab, sử dụng các chương trình đã lập sẵn để tính toán nồng độ các chất trong hỗn hợp trên phần mềm và tìm nồng độ các cấu tử trong mẫu ( theo các lệnh ở phần 3.2, 3.3). Chương III: KẾT QUẢ VÀ THẢO LUẬN 3.1. Khảo sát các điều kiện tối ưu tạo phức màu của 5 cấu tử với thuốc thử PAR 3.1.1. Sự phụ thuộc độ hấp thụ quang vào bước sóng Tiến hành khảo sát sự phụ thuộc của độ hấp thụ quang các phức màu theo bước sóng hấp thụ (phổ hấp thụ) để kiểm tra sơ bộ tính cộng tính của hỗn hợp phức màu, tìm khoảng bước sóng thích hợp cần quét phổ và bước sóng cực đại hấp thụ của 5 cấu tử cho các khảo sát tiếp theo. Tiến hành thí nghiệm: Lấy 6 bình định mức 25ml: Thêm vào mỗi bình 10ml dung dịch đệm borat có pH = 10, sau đó thêm 5ml thuốc thử PAR 7,5.10-4M. Bình 1: mẫu trắng Bình 2: chứa Cd2+ có nồng độ cuối là 0,8 ppm Bình 3: chứa Cu2+ có nồng độ cuối là 0,8 ppm Bình 4: chứa Co2+ có nồng độ cuối là 0,8 ppm Bình 5: chứa Ni2+ có nồng độ cuối là 0,6 ppm Bình 6: chứa Pb2+ có nồng độ cuối là 1,2 ppm Định mức bằng dung dịch đệm borac pH= 10, lắc đều. Ghi phổ hấp thụ của các dung dịch phức màu trong dải bước sóng 400 – 600nm với dung dịch so sánh là mẫu trắng. Hình 10 chỉ ra các đặc trưng của phổ hấp thụ của các phức màu: Co- PAR; Cu- PAR; Cd- PAR; Ni- PAR; Pb- PAR. Hình 10:Phổ hấp thụ của các phức Co- PAR; Cu- PAR; Cd- PAR; Ni- PAR; Pb- PAR ở pH = 10 Kết quả cho thấy các phức màu Co- PAR; Cu- PAR; Cd- PAR; Ni- PAR; Pb- PAR có độ hấp thụ quang đạt cực đại ở các bước sóng tương ứng là λmax = 496 nm, 499 nm, 512 nm, 495nm và 524 nm. Dựa vào phổ hấp thụ của các phức màu chúng tôi nhận thấy có sự xen phủ rất lớn giữa phổ của các phức màu của các ion kim loại. Vì vậy, không thể xác định riêng rẽ từng ion kim loại khi có mặt của các ion khác. Sự xen phủ phổ của các nguyên tố này có thể giải quyết bằng cách sử dụng phương pháp mạng nơron nhân tạo để xác định đồng thời 5 ion trên. Vì vậy, chúng tôi chọn dải bước sóng từ 450 – 600 nm cho các nghiên cứu tiếp theo. 3.1.2. Ảnh hưởng của pH 5 ion kim loại nghiên cứu phản ứng với thuốc thử PAR cho phức màu có hệ số hấp thụ phân tử phụ thuộc nhiều vào môi trường. Tài liệu [30] cho thấy, phức của PAR với Cu2+, Ni2+ và Co2+ có thể tồn tại trong môi trường axit mạnh, tuy nhiên không xác định được tỉ lệ tạo phức rõ ràng và độ bền của phức kém. Còn trong môi trường bazơ mạnh, các hằng số bền của phức nhỏ hơn hằng số bền của các hidroxit dẫn đến các ion kim loại bị kết tủa, làm ảnh hưởng tới kết quả khảo sát. Do đó, chúng tôi tiến hành nghiên cứu các phản ứng xảy ra trong môi trường có pH khoảng 5 – 11 và dùng đệm borat thay đệm amoni để tránh tạo phức các kim loại với NH3. Khảo sát ảnh hưởng của pH tới sự tạo phức của từng cấu tử với thuốc thử PAR bằng cách khảo sát tại mỗi giá trị pH, chuẩn bị 7 dung dịch trong đó. Bình 1: mẫu trắng Bình 2: chứa Cd2+ có nồng độ cuối là 0,4 ppm Bình 3: chứa Cu2+ có nồng độ cuối là 0,4 ppm Bình 4: chứa Co2+ có nồng độ cuối là 0,4 ppm Bình 5: chứa Ni2+ có nồng độ cuối là 0,6 ppm Bình 6: chứa Pb2+ có nồng độ cuối là 1,2 ppm Bình 7: chứa hỗn hợp của 5 cấu tử ứng với các nồng độ tương ứng ở trên. Thêm cùng lượng thuốc thử PAR đến nồng độ cuối cùng là 7,5.10-5 M, lần lượt định mức bằng các dung dịch có pH: 7, 8, 9, 10, 11. Đo độ hấp thụ quang của các phức tại dải bước sóng từ 450 -600nm với dung dịch so sánh là các mẫu trắng tương ứng. Mối quan hệ giữa cực đại hấp thụ với pH trong khoảng bước sóng từ 450 – 600nm được biểu diễn trên hình 11 Hình 11: Sự phụ thuộc của độ hấp thụ quang các phức Co- PAR; Cu- PAR; Cd- PAR; Ni- PAR; Pb- PAR Kết quả khảo sát trên cho thấy, trong toàn dải phổ, giá trị pH càng cao thì độ hấp thụ quang càng lớn. Tuy nhiên, nếu pH cao quá thì dẫn tới hiện tượng kết tủa hidroxit và độ hấp thụ quang của phức Pb2+ , Co2+ giảm. Vì vậy, trong trường hợp này, chúng tôi chọn giá trị pH = 10 với đệm borat làm dung dịch đệm cho các thí nghiệm sau. 3.1.3. Độ bền phức màu theo thời gian. Ở pH = 10, tốc độ hình thành phức Co – PAR; Ni – PAR; Cd – PAR; Pb – PAR; Cu – PAR tương đối chậm và ở nhiệt độ phòng, màu của các phức này đạt cực đại sau 10 – 30 phút tương ứng với phức Co – PAR; Ni – PAR; Cd – PAR; Pb – PAR; Cu – PAR. Kết quả khảo sát thời gian hình thành các phức màu thu được ở hình 12: Hình 12 : Sự phụ thuộc của độ hấp thụ quang của các phức Co- PAR; Cu- PAR; Cd- PAR; Ni- PAR; Pb- PAR theo thời gian. Nhìn vào hình 12 , chúng tôi nhận thấy trong khoảng thời gian khảo sát 60 phút, độ hấp thụ quang của các phức màu rất ổn định (phức bền). Vì vậy chúng tôi chọn thời gian đo độ hấp thụ quang của các phức là 20 phút sau khi pha dung dịch. 3.1.4. Ảnh hưởng của lượng thuốc thử dư đến khả năng tạo phức màu. Thuốc thử PAR là loại thuốc thử hữu cơ được sử dụng phổ biến trong phân tích trắc quang để xác định nồng độ các ion kim loại. Thành phần phức của kim loại Co, Cu, Cd, Ni, Pb và thuốc thử theo tài liệu tham khảo [30] là 1:2. Bản thân thuốc thử PAR có mang màu, ở bước sóng ngắn, dung dịch mẫu trắng đã có độ hấp thụ quang nhất định. Vì thế khi tiến hành khảo sát, cần phải tiến hành tính toán lượng thuốc thử phù hợp để độ hấp thụ quang của thuốc thử không ảnh hưởng nhiều đến độ hấp thụ quang của các phức khảo sát hoặc nghiên cứu xác định các chất khi có bổ chính nhiễu nền. Nồng độ của PAR được thay đổi trong khoảng từ 0,5.10-4M đến 5.10-4M và tiến hành đo độ hấp thụ quang của các phức màu được đo ở các bước sóng cực đại với dung dịch so sánh có thành phần tương tự nhưng không chứa các kim loại. Kết quả thu được thể hiện ở bảng 2 và trên hình 13 Bảng 2: Kết quả khảo sát ảnh hưởng của thuốc thử dư Nồng độ PAR (M) 0,25 0,5 1,0 2,0 3,0 4,0 5,0 ANi- PAR 0,644 0,702 0,749 0,747 0,736 0,742 0,739 ACo-PAR 0,862 0,864 0,955 0,954 0,857 0,846 0,824 APb-PAR 0,601 0,704 0,759 0,668 0,615 0,605 0,623 ACd-PAR 0,651 0,673 0,664 0,682 0,661 0,667 0,635 ACu-PAR 0,492 0,521 0,572 0,581 0,563 0,561 0,559 Hình 13 : Ảnh hưởng của nồng độ thuốc thử dư đến độ hấp thụ quang của các phức màu ở pH = 10 Từ kết quả thu được từ bảng 2 và hình 13, chúng tôi nhận thấy khi nồng độ thuốc thử PAR tăng dần từ 0,25.10-4M đến 1.10-4M thì độ hấp thụ quang của các phức màu tăng dần và khi nồng độ PAR tăng từ 1.10-4M đến 2.10-4M thì độ hấp thụ quang của các phức đạt giá trị lớn nhất. Khi nồng độ PAR lớn hơn 2.10-4M, độ hấp thụ quang càng giảm là do thuốc thử PAR có màu, nồng độ càng lớn thì khả năng trừ nền của mẫu đo kém vì vậy phép đo mắc phải nhiều sai số. Do đó, chúng tôi chọn nồng độ PAR là 1,5.10-4M cho các khảo sát tiếp theo và cần nghiên cứu xác định đồng thời khi có nhiều nền của lượng thuốc thử dư. 3.1.5. Khảo sát sự phụ thuộc của độ hấp thụ quang của từng phức màu vào nồng độ ion kim loại Phương pháp mạng nơron nhân tạo phân tích đồng thời các kim loại trong cùng hỗn hợp không yêu cầu các độ hấp thụ quang của phức riêng rẽ phải có tính cộng tính. Tuy nhiên, chúng tôi vẫn tiến hành khảo sát khoảng tuyến tính để xác định giới hạn định lượng và giới hạn phát hiện của phép đo, đồng thời lựa chọn một số mẫu có nồng độ nằm ngoài khoảng tuyến tính để đánh giá mức độ áp dụng mô hình phi tuyến tính nghiên cứu. Với mỗi ion kim loại khảo sát, đều tiến hành thí nghiệm như sau: - Chuẩn bị 12 bình định mức 25ml, cho vào mỗi bình 5,0 ml dung dịch thuốc thử PAR 7,5.10-4M, thêm 5ml dung dịch đệm borat pH = 10. - Thêm lần lượt các thể tích khác nhau của dung dịch ion kim loại với nồng độ thích hợp để được nồng độ như trong bảng 3 và định mức đến vạch định mức bằng nước cất. - Sau 20 phút đem đo độ hấp thụ quang ở các bước sóng tương ứng, thu được kết quả ở bảng 3 Bảng 3: Sự phụ thuộc của độ hấp thụ quang theo nồng độ của các ion kim loại: STT Ni2+ Co2+ Cu2+ Pb2+ Cd2+ C A C A C A C A C A 1 0,08 0,073 0,1 0,051 0,1 0,063 0,5 0,078 0,1 0,012 2 0,16 0,165 0,2 0,149 0,2 0,141 1,0 0,171 0,2 0,078 3 0,2 0,228 0,4 0,345 0,4 0,29 1,5 0,273 0,4 0,226 4 0,3 0,35 0,5 0,442 0,5 0,392 2,0 0,385 0,5 0,298 5 0,4 0,442 0,6 0,541 0,6 0,473 2,5 0,469 0,6 0,372 6 0,5 0,594 0,7 0,637 0,7 0,574 3,0 0,583 0,7 0,446 7 0,6 0,713 0,8 0,736 0,8 0,668 4 0,747 0,8 0,519 8 0,7 0,838 0,9 0,833 0,9 0,756 5 0,964 1 0,666 9 0,8 0,967 1 0,931 1 0,853 5,5 1,065 1,2 0,813 10 0,9 1,082 1,2 1,126 1,1 0,937 6 1,164 1,5 1,033 11 1 1,216 1,4 1,322 1,2 1,02 7 1,363 1,7 1,181 12 1,2 1,448 1,6 1,517 1,4 1,216 2 1,401 Từ bảng 3 cho thấy, ở mức nồng độ 1ppm của Ni2+, 1,2 ppm với Co2+, 1,2 ppm với Cu2+, 6ppm với Pb2+ và 1,7 với Cd2+ thì độ hấp thụ quang của các cấu tử là rất lớn nên sai số đáng kể. Chọn 5 điểm để xây dựng đường chuẩn xác định hàm lượng các ion kim loại thu được ở hình 14 Hình 14: Đường chuẩn xác định nồng độ các ion kim loại * Tính giới hạn phát hiện và giới hạn định lượng Giới hạn phát hiện (LOD): là nồng độ thấp nhất của chất phân tích mà hệ thống phân tích còn cho tín hiệu phân tích khác có nghĩa với tín hiệu mẫu trắng hay tín hiệu nền. LOD = 3.SD b Giới hạn định lượng (LOQ): là nồng độ thấp nhất của chất phân tích mà hệ thống phân tích định lượng được với tín hiệu phân tích khác có ý nghĩa định lượng với tín hiệu của mẫu trắng hay tín hiệu của nền. LOQ = 10.SD B Tiến hành đo 14 mẫu trắng ở các bước sóng cực đại tương ứng với các ion kim loại. Độ hấp thụ quang của các mẫu trắng thu được bảng kết quả 4: Bảng 4: Độ hấp thụ quang của các mẫu trắng ở các bước sóng cực đại tương ứng với các kim loại Ion kim loại Cu2+ Co2+ Cd2+ Ni2+ Pb2+ λmax 498 511 496 495 524 A-Mẫu 1 0,206 0,144 0,218 0,224 0,099 2 0,207 0,145 0,219 0,225 0,1 3 0,204 0,143 0,216 0,223 0,099 4 0,208 0,146 0,22 0,226 0,102 5 0,203 0,141 0,215 0,222 0,098 6 0,213 0,151 0,225 0,232 0,106 7 0,213 0,149 0,225 0,231 0,104 8 0,208 0,146 0,22 0,226 0,102 9 0,206 0,145 0,219 0,225 0,101 10 0,205 0,144 0,217 0,224 0,1 11 0,21 0,148 0,222 0,229 0,103 12 0,205 0,144 0,218 0,224 0,1 13 0,211 0,15 0,223 0,229 0,106 14 0,217 0,156 0,229 0,235 0,111 Phương trình hồi quy xác định các ion kim loại và giá trị LOD, LOQ thu được ở bảng 5: Bảng 5: Phương trình hồi quy và khoảng tuyến tính ứng với các kim loại. Ion kim loại Phương trình hồi quy- khoảng tuyến tính LOD (ppm) LOQ (ppm) Ni2+ A = (– 0,04654±0,02654)+(1,26206± 0,04014)CNi2+ 0,03 – 1,00 ppm 0,009 0,03 Co2+ A = (– 0,05076±0,01308)+(0,98412±0,01282)CCo2+ 0,04 – 1,20 ppm 0,012 0,04 Cu2+ A = (– 0,06556±0,01127)+(0,91321±0,01188)CCu2+ 0,04 – 1,40 ppm 0,013 0,04 Pb2+ A = (– 0,0141 ± 0,0162) + (0,1956 ± 0,0048)CPb2+ 0,20 – 6,00 ppm 0,055 0,18 Cd2+ A = (– 0,074 ± 0,01214) + (0,744 ± 0,01430)CCd2+ 0,05 – 1,7 ppm 0,016 0,05 PAR là thuốc thử hữu cơ tạo phức dễ dàng với hầu hết các kim loại chuyển tiếp. Và ở nồng độ các ion kim loại lớn, nồng độ vẫn phụ thuộc tuyến tính vào độ hấp thụ quang. Trong phép phân tích này, do phân tích đồng thời 5 cấu tử trong hỗn hợp, để độ hấp thụ quang của các mẫu phân tích là không quá lớn, chúng tôi chọn các mức nồng độ nhỏ nằm trong khoảng tuyến tính và một số nồng độ các chất ở điểm 0 nằm ngoài khoảng tuyến tính. 3.2. Nghiên cứu phương pháp mạng nơron nhân tạo ANN xác định đồng thời các cấu tử trong dung dịch. 3.2.1. Xây dựng ma trận nồng độ và ma trận độ hấp thụ quang của dung dịch chuẩn và dung dịch kiểm tra. - Mô hình hồi quy đa biến dựa trên 4 ma trận số liệu gồm 2 ma trận nồng độ các dung dịch chuẩn, dung dịch kiểm tra và 2 ma trận tín hiệu đo độ hấp thụ quang theo bước sóng bao gồm (các số liệu được biểu diễn ở file excel đính kèm trong phần phụ lục- đĩa CD ): + X0(80x5): ma trận nồng độ gồm 80 dung dịch chuẩn chứa đồng thời cả 5 cấu tử cần khảo sát. + Xktra(20x5): ma trận nồng độ gồm 20 dung dịch kiểm tra chứa đồng thời cả 5 cấu tử cần khảo sát được trình bày ở bảng 5. + Y0(151x80): ma trận tín hiệu độ hấp thụ quang của 80 dung dịch chuẩn tại 151 bước sóng trong vùng từ (2nm đo 1 giá trị độ hấp thụ quang). + Yktra(151x20): ma trận tín hiệu độ hấp thụ quang của 20 dung dịch kiểm tra tại 151 bước sóng. Bảng 6: Nồng độ của 5 ion kim loại trong các mẫu kiểm tra Mẫu Cu2+ (mg/l) Co2+ (mg/l) Ni2+ (mg/l) Pb2+ (mg/l) Cd2+ (mg/l) 1 0,4 0 0,4 3 0,4 2 0,4 0,6 0 1 0,4 3 0,6 0,2 0,2 0 0,4 4 0,4 0,2 0,4 3 0 5 0 0,4 0 0 1,2 6 0 0,2 1 0 0 7 0,2 0 1 0 0 8 0 0 0 0 1,6 9 1,2 0,1 0,1 0,5 0,1 10 1 0,2 0,1 0,5 0,1 11 0,6 0,6 0 0 0 12 0,3 0,2 0,2 1,5 0,4 13 0,2 0,2 0,3 1,5 0,4 14 0,4 0,4 0 0 1 15 0,6 0,4 0 2 0 16 0 0,8 0 0 0,8 17 0,2 0,2 0,2 1 0,2 18 0,3 0,1 0,2 1 0,4 19 0,2 0,3 0,1 1 0,4 20 0,2 0,2 0,3 0,5 0,4 Số liệu dưới dạng ma trận được nhập vào phần mềm Matlab làm dữ liệu đầu vào và đầu ra của mô hình ANN và mô hình PCR-ANN 3.2.2. Xây dựng mô hình ANN tối ưu xác định đồng thời 5 ion kim loại Các số liệu và lựa chọn ban đầu * Bộ số liệu học: - Lớp nhập Alearn[nxm]: là ma trận độ hấp thụ quang của 80 mẫu chuẩn trên toàn dải phổ (từ λ = 450 -600nm) trong đó n=80 là số mẫu học, m =151 là số bước sóng tiến hành ghi phổ. - Lớp xuất Clearn[nxp]: là ma trận nồng độ dung dịch mẫu chuẩn, với n= 80 và p =5 cột là nồng độ của 5 cấu tử cần phân tích. * Bộ số liệu kiểm tra: - Lớp nhập Atest[qxm]: là ma trận độ hấp thụ quang của mẫu kiểm tra trên toàn dải phổ với q = 20 là số mẫu kiểm tra và m= 151 bước sóng. - Lớp xuất Ctest[qxp]: là ma trận nồng độ dung dịch kiểm tra ( q=20 và p=151) . Như vậy ta có mạng nơron với 151 nút đầu vào và 5 nút đầu ra. * Hàm truyền của nơron lớp ẩn: là hàm chuẩn hoá ‘logsig’ ‘purelin’ ‘logsig’ * Hàm truyền của nơron đầu ra: là tuyến tính ‘purelin’ - Số bước học là 100.00 thì sẽ đủ để mô hình luyện mạng cho sai số tương đối bình phương trung bình (MSE) nhỏ. Giả sử đặt trước MSE là 10-3 %, tức là anpha định trước (α) = 10-5 Theo như lý thuyết về mạng MLP, để tìm được số nơron cho mạng nơron tối ưu, ta thực hiện bước học và tăng dần giá trị của số lớp ẩn sau đó lưu kết quả sai số của quá trình học Elearn và sai số quá trình kiểm tra Etest. Các tham số tính toán này sau khi đã được chọn thì tiến hành chọn các các hàm neural network toolbox có sẵn trong thư viện của Matlab. Trong quá trình thực hiện bài toán ta sử dụng các hàm như sau: - Tạo hàm, thiết lập một mạng nơron mới và luyện tập cho mạng có cấu trúc như sau: net = newff(PR, [S1 S2 …Sn1], {TF1 TF2…TFn1}, BTF, BTF, PF) Trong đó: PR = [min(x); max(x) ] [S1 S2 …Sn1] là số nơron lớp ẩn và lớp xuất, ứng với bài toán này ta có: [nhidden 2] {TF1 TF2 …TFn1} là các hàm học của mỗi lớp mạng, chúng ta có thể tham khảo thêm trong toolbox của Matlab. Sim(net, x, d, ntimes): hàm mô phỏng đầu ra theo các giá trị đầu vào. Train(net, x ,d, ntimes): hàm học của bài toán. Epochs = 10000 : số bước học. Các hàm này đều là hàm chuẩn, ta có thể dùng ngay và lấy dễ dàng từ toolbox của Matlab. Để có mô hình ANN tối ưu, có thể khảo sát các yếu tố sau: Số lớp ẩn, Số nút trong lớp ẩn, Giá trị sai số tương đối bình phương trung bình (MSE), Số bước học. Tuy nhiên, do sự khác nhau không nhiều về các điều kiện đó, và kết quả tính toán đã cho sai số rất nhỏ so với yêu cầu, nên chúng tôi chỉ tiến hành khảo sát số lớp ẩn có trong mô hình. Chương trình lập trình trong Matlab cho mạng MLP để tìm mô hình mạng tối ưu % Yeu cau : co hai bo so lieu (xlearn,dlearn) va (xtest,dtest). % Hay tim duong dac tinh phu thuoc Ekt va Ehoc vao so noron lop an trong mang noron truyền thẳng MLP mot lop an, tu do xac dinh cau truc mang toi uu (Ekt=min).Tinh sai so cho mang toi uu. %-------------------------------------------------------------- % LAY DU LIEU load ANN.mat; %Chuyen vi cac ma tran so lieu dau vao [N,S]=size(Clearn); % o day ta co N= 5; S=151 [K,R]=size(Alearn); % o day ta co K=77; S= 151 % Xac dinh mang MLP bang phuong phap Fletcher-Reeves conjugate gradient Ehoc= rand(120,1); Ekt= rand(120,1); for nhidden = 1:2:120 % cho so noron lop an thay doi tu 1 den 120 de tim cau truc mang toi uu for nTimes = 1:1:10 % thuc hien tinh 10 lan cho moi lop an de tim gia tri co diem xuat phat tot nhat Elearn = 0; Etest=0; Ehoc_try = rand(1,10); Ekt_try = rand(1,10); net = newff(minmax(Alearn),[nhidden 100 100 5],{'logsig' 'purelin' ‘logsig’ ‘purelin’},'traincgf'); % Thiet lap cac thong so cho qua trinh hoc cua mang net.trainParam.goal=0.001; net.trainParam.epochs = 100000; net = train(net,Alearn,Clearn); ylearn = sim(net,Alearn); % gia tri dau ra cua lop mang ung voi E_learn ytest = sim(net,Atest) ; % Gia tri dau ra cua lop mang ung voi E_test e_hoc = Clearn-ylearn; %sai so cua qua trinh hoc e_test = Ctest-ytest; %sai so cua qua trinh kiem tra % Tinh toan sai so Elearn = sum(sum(e_hoc.*e_hoc)); Etest = sum(sum(e_test.*e_test)); % Tinh sai so Elearn cho mang duoc cat vao mot matran co 5 hang Ehoc_try(nTimes) = Elearn; %luu giu gia tri nay lai % Tinh sai so Etest cho mang duoc cat vao ma tran co 5 hang Ekt_try(nTimes) = Etest; %luu giu gia tri nay lai end if Elearn > net.trainParam.goal % Neu sai so Elearn > goal thi tiep tuc continue % con nguoc lai thi dung qua trinh hoc lai end break Ehoc(nhidden,1)= min(Ehoc_try); Ekt(nhidden,1) = min(Ekt_try); end % khoi hien thi su phu thuoc cua sai so va so lop an for i=1:1:800; plot(i,Ehoc(i,1),'*b-',i,Ekt(i,1),'+r:'); title('Sai so hoc va kiem tra cua mang MLP theo so luong Noron lop an'); xlabel('So Noron lop an'); ylabel('Sai so'); legend({'Sai so hoc Elearn','Sai so kiem tra Etest'}); grid on; hold on; end % ket thuc chuong trinh Sau khi thực hiện chạy chương trình ta thu được kết quả như sau: Hình 13: Mô hình mạng nơron nhân tạo mạng truyền thẳng MLP với 4 lớp ẩn Từ mô hình mạng nơron truyền thẳng ở trên, ta thấy thời gian luyện mạng rất lớn (55 phút) đó là do kích thước của tập số liệu là rất lớn (80x151) và (80x5), số nút đầu vào lên tới 151 nút, cần phải có nhiều thời gian để lan truyền sai số giữa các giá trị của nút ẩn sao cho sai số thu được ở đầu ra là nhỏ nhất. Nếu giảm kích thước của tập số liệu đầu vào từ 151 xuống giá trị nhỏ hơn 10 thì thời gian phân tích sẽ giảm hơn rất nhiều. Vì vậy chúng tôi tiếp tục Vì vậy cần xử lý số liệu bằng cách giảm kích thước tập số liệu trước khi nhập số liệu vào mạng nơron nhân tạo. Hình 14: Đồ thị biểu diễn sự phụ thuộc của sai số MSE theo số bước học Hình 15: Đồ thị biểu diễn sự phụ thuộc của sai số học và sai số kiểm tra vào số nơron lớp ẩn. Mô hình ANN tối ưu dựa trên nguyên tắc lựa chọn số nút trong lớp ẩn đầu tiên sao cho giá trị sai số của mẫu học và mẫu kiểm tra là thấp nhất. Đồ thị trên hình 15 cho thấy, nếu số nơron lớp ẩn là 100 thì giá trị sai số học và sai số kiểm tra sẽ nhỏ gần bằng nhau. Do đó, chúng tôi chọn số nơron lớp ẩn là 100 để tiến hành luyện mạng và kiểm tra mạng theo chương trình dưới đây: net = newff(minmax(Alearn),[100 100 100 100 5],{'logsig' 'logsig' 'purelin' 'logsig' 'purelin'},'traincgf'); net.trainParam.goal=0.0001; net.trainParam.epochs = 10000; net = train(net,Alearn,Clearn); ylearn = sim(net,Alearn); ytest = sim(net,Atest); saiso1 = 100*(ytest-Ctest)./Ctest; 3.2.2. Xây dựng thuật toán loại trừ giá trị đo bất thường (outlier) Khi xây dựng ma trận nồng độ mẫu phân tích và mẫu kiểm tra xác định 5 cấu tử trong cùng 1 dung dịch, do trật tự thí nghiệm được bố trí một cách ngẫu nhiên và số thí nghiệm rất lớn nên kết quả thí nghiệm chắc chắn sẽ có sai số thô hay còn gọi là giá trị bất thường. Nếu không loại bỏ các thí nghiệm này sẽ dẫn tới quá trình phân tích dựa trân ma trận dung dịch chuẩn thu được thiếu chính xác. Do đó chúng tôi đã tiến hành xây dựng thuật toán loại sai số thô trước khi tiến hành thực hiện quá trình phân tích thành phần chính. Quá trình loại sai số dựa trên việc đánh giá giá trị trung bình độ sai chuẩn tương đối của ma trận kiểm tra. Đây là mô hình loại bỏ 1 số mẫu mà nghi ngờ mắc sai số tương đối lớn. Dựa vào mô hình hồi quy này, 20 dung dịch kiểm tra được sử dụng để đánh giá độ chính xác và phù hợp của mô hình thông qua giá trị độ sai chuẩn tương đối (relative standard error) Trong đó Cij là nồng độ chuẩn của cấu tử thứ i trong mẫu j. nồng độ của cấu tử i trong mẫu j tính được từ mô hình. Mẫu bị mắc sai số hệ thống là mẫu khi loại bỏ nó khỏi ma trận mẫu học thì bộ số liệu học còn lại sẽ cho sai số tương nhỏ. Vì vậy, mẫu nào mà khi loaịo bỏ nỏ làm cho giá trị RSE thấp thì mẫu đó càng kém chính xác, có ảnh hưởng nhiều tới mô hình ANN và nên loại bỏ để được RSE nhỏ. Các bước tiến hành phương pháp trên như sau: - Nhập ma trận 80 mẫu chuẩn và 20 mẫu để kiểm tra. - Loại bỏ mẫu số 1 trong ma trận mẫu chuẩn thì chỉ còn 79 mẫu học, khi đó ma trận xlearn chỉ còn (79x151) và ma trận dlearn chỉ còn (79x5) - Xây dựng mô hình ANN thông thường dựa trên 79 dung dịch chuẩn để tìm nồng độ của các mẫu kiểm tra khi có ma trận độ hấp thụ quang của mẫu kiểm tra. - Tính toán giá trị trung bình độ sai chuẩn tương đối của tất cả các mẫu kiểm tra dựa trên công thức bằng excel. Mẫu nào làm giá trị RSE nhỏ hơn 1% tức là mẫu đó bị mắc sai số hệ thống. - Tiến hành loại bỏ tương tự mẫu số 2, mẫu số 3…mẫu 80 với thuật toán trong Matlab như sau: load mau1.mat; % mau 1 la mau trong do ma tran mau kiem tra bi loai bo gia % mau so 1, chi con lai 79 mau. Nhu vay, neu mau 1 khong mac sai so tho % thi gia tri do sai chuan cua mau kiem tra se lon do mau 1 co anh huong % mo hinh ANN net = newff(minmax(Alearn),[100 100 100 100 5],{'logsig' 'logsig' 'purelin' 'logsig' 'purelin'},'traincgf'); net.trainParam.goal=0.0000001; net.trainParam.epochs = 300000; net = train(net,Alearn,Clearn); ylearn = sim(net,Alearn); ytest = sim(net,Atest); saiso1 = 100*(ytest-Ctest)./Ctest; load mau2.mat; net = newff(minmax(Alearn),[100 100 100 100 5],{'logsig' 'logsig' 'purelin' 'logsig' 'purelin'},'traincgf'); net.trainParam.goal=0.0000001; net.trainParam.epochs = 300000; net = train(net,Alearn,Clearn); ylearn = sim(net,Alearn); ytest = sim(net,Atest); saiso2 = 100*(ytest-Ctest)./Ctest; load mau3.mat; net = newff(minmax(Alearn),[100 100 100 100 5],{'logsig' 'logsig' 'purelin' 'logsig' 'purelin'},'traincgf'); net.trainParam.goal=0.0000001; net.trainParam.epochs = 300000; net = train(net,Alearn,Clearn); ylearn = sim(net,Alearn); ytest = sim(net,Atest); saiso3 = 100*(ytest-Ctest)./Ctest; …… Sau khi thu được các giá trị sai số tương đối, nhập dữ liệu trên vào phần mềm excel để tính toán giá trị độ sai chuẩn tương đối. Giá trị độ sai chuẩn tương đối thu được ở bảng 7: Bảng 7: Khảo sát sơ bộ độ sai chuẩn tương đối trung bình RSE của các mẫu kiểm tra STT mẫu RSE (%) STT mẫu RSE (%) STT mẫu RSE(%) 1 1,1027 28 2,1432 55 0,9345 2 6,5147 29 2,4562 56 7,2459 3 3,5476 30 3,4566 57 2,1234 4 1,2874 31 5,2355 58 3,0596 5 1,8863 32 4,2342 59 4,1949 6 1,3534 33 2,1432 60 3,1946 7 5,3936 34 4,6867 61 2,1948 8 2,5653 35 3,2512 62 6,1395 9 3,8875 36 5,5678 63 7,1252 10 2,3546 37 1,2738 64 2,2495 11 4,0415 38 2,3957 65 3,0184 12 5,9181 39 3,1480 66 2,3594 13 3,8006 40 4,3579 67 11,4567 14 11,1977 41 3,2658 68 8,4359 15 3,9807 42 2,1479 69 1,153294 16 5,1383 43 5,2568 70 3,8271 17 5,4388 44 6,2567 71 3,8271 18 4,8931 45 3,9376 72 4,5764 19 0,3647 46 0,2859 73 7,5594 20 4,7868 47 2,9859 74 4,4158 21 2,3464 48 9,2578 75 5,8491 22 7,1353 49 4,1035 76 5,6077 23 4,6877 50 3,1056 77 20,4685 24 1,3454 51 2,1349 78 3,0289 25 5,3254 52 2,5082 79 6,6760 26 8,2355 53 6,2068 80 3,93347 27 0,1243 54 7,9375 Dựa vào bảng 7 chúng tôi nhận thấy nếu bỏ mẫu 19, 27, 46 thì kết quả mẫu học sẽ cho sai số thấp nhất, do đó chúng tôi loại bỏ 3 mẫu trên, và tiến hành tính toán lại dựa trên mô hình ANN, khi đó ma trận mẫu học chỉ còn lại là 77x5. 3.3. Phương pháp mạng noron nhân tạo kết hợp với hồi quy thành phần chính (PCR-ANN) xác định đồng thời 5 cấu tử trong dung dịch. Mục tiêu của luận văn là nghiên cứu xây dựng thuật toán PCR-ANN và áp dụng phần mềm MATLAB để giải quyết bài toán phân tích đồng thời nhiều cấu tử trong cùng hỗn hợp trên cơ sở giảm kích thước của tập số liệu nên chúng tôi chỉ tiến hành nghiên cứu phương pháp xác định với các dung dịch mẫu tự tạo đã biết sẵn nồng độ của 5 ion kim loại và không có ion lạ ngoài các ion cần phân tích. Ảnh hưởng của các chất cản trở được xem như ảnh hưởng nền mẫu. Đối với phương pháp hồi quy đa biến phi tuyến tính, các thuật toán có phức tạp hơn, bộ số liệu sử dụng vẫn như trên, tuy nhiên các ma trận số liệu đó có kích thước rất lớn, thời gian luyện mạng kéo dài. Để giảm kích thước của tập số liệu, chúng tôi tiến hành sử dụng phương pháp phân tích cấu tử chính. Ma trận độ hấp thụ quang được chuyển sang 1 hệ tọa độ khác, tại đó, chỉ có 1 số cấu tử ảnh hưởng trực tiếp đến nồng độ của các ion kim loại khảo sát (cấu tử chính). Do đó, thiết lập được 1 ma trận đầu vào của mạng noron nhân tạo có kích thước nhở hơn, làm đơn giản hóa mô hình tính toán và kết quả thu được có độ chính xác cao hơn. 3.3.1. Khảo sát xây dựng mô hình PCA tối ưu. - Tiến hành nhập ma trận nồng độ và ma trận độ hấp thụ quang của 80 mẫu chuẩn vào chương trình PCA đã dựng sẵn để xây dựng mô hình hồi quy đa biến trên cơ sở phân tích cấu tử chính nhằm giảm kích thước tập số liệu. - Sau khi dùng phương pháp ANN đánh giá sơ bộ, loại trừ các mẫu mắc sai số thô, ảnh hưởng tới kết quả quá trình phân tích. Bộ số liệu học gồm ma trận nồng độ của các dung dịch chuẩn chỉ còn kích thước 77x5 và ma trận độ hấp thụ quang có kích thước 77x151. Nhập ma trận độ hấp thụ quang của mẫu học và mẫu kiểm tra Ao (mxn) trong đó m hàng là số mẫu chuẩn bị ( m= 77+20= 97, n cột là số bước sóng (n=151). Chuẩn hóa tập số liệu đầu vào: stdr = std(Ao) ; Chuyển tập số liệu sang 1 tọa độ mới: sr = Ao./repmat(stdr,100,1); Tính toán các giá trị tải trọng (loading) và trị số (score), phương sai (var) [PCALoadings, PCAScores, PCAVar] = princomp(sr); Tính tổng giá trị phương sai tích lũy trên các cấu tử: cumsum(PCAVar./sum(PCAVar) * 100); Sau khi tính toán vecto cột chứa giá trị phần trăm phương sai tích lũy gồm 151 hàng (tương ứng với 151 bước sóng) thu được như bảng 8 sau: Bảng 8: Giá trị phương sai tích lũy ứng với 151 cấu tử Cấu tử Giá trị phương sai tích lũy 1 61,0620135980013 2 94,6386206361863 3 99,4701457087665 4 99,9047763641201 5 99,9675941164431 6 99,9846263560543 7 99,9961983769519 8 99,9968829228295 9 99,9974242980017 10 99,9976864025098 11 99,9978870269475 12 99,9980840753909 13 99,9982529434438 14 99,9984155586119 15 99,9985570592987 ….. …. Bảng 8 thực tế có 151 cấu tử, tương ứng với 151 bước sóng. Sau khi dùng PCA từ ma trận độ hấp thụ quang 97x151 về nguyên tắc sẽ thu được 151 cấu tử (PC) nhưng kết quả cho thấy cấu tử 1 (PC1) đã chiếm 61,06% lượng thông tin của tập dữ liệu, nếu thêm cấu tử thứ hai (PC2) thì phương sai tích lũy đã đạt 94,64%. Khi thêm một cấu tử nữa (PC3) thì 3 cấu tử đầu này đã chiếm 99,47% lượng thông tin tập dữ liệu. Từ cấu tử thứ 4 trở đi lượng thông tin thu được tăng không đáng kể. Từ kết quả trên cho thấy, 3 cấu tử ban đầu có ảnh hưởng chính tới các thông tin chứa trong tập số liệu. Bảng 16 là độ sai chuẩn tương đối RSE(%) tùy thuộc vào số cấu tử chính đã chọn. Bảng 9 : Sự phụ thuộc của RSE vào số cấu tử chính khi phân tích mẫu kiểm tra Số cấu tử (PC) 1 2 3 4 5 RSE(%) 26,86 3,14 4,00 4,20 5,07 Kết quả ở bảng 8 cho thấy nếu mô hình ANN chỉ chọn 1 cấu tử làm số nút lớp nhập thì sai số rất lớn là do cấu tử 1 chỉ chiếm khoảng 64% lượng thông tin của tập dữ liệu ban đầu. Với lượng thông tin đó, rất khó để thiết lập mô hình ANN phù hợp để xác định đồng thời cả 5 cấu tử. Tuy nhiên, nếu tăng số cấu tử lên 3, 4 hoặc 5 thì sai số RSE tăng là do lượng thông tin chứa trong các cấu tử thứ 3, thứ 4 và thứ 5 không ảnh hưởng nhiều tới tập dữ liệu ban đầu trong khi kích thước tập số liệu lại tăng, vì vậy chúng tôi đã lựa chọn chỉ 2 cấu tử chính cho các bước nghiên cứu tiếp theo. Như vậy, tập dữ liệu ban đầu từ kích thước 97x151 cấu tử (ma trận độ hấp thụ quang) được chuyển về kích thước nhỏ hơn, chỉ còn 97x2 ( ma trận trị số (score) của 97 dung dịch chuẩn và kiểm tra và 2 PC). 3.3.2. Xây dựng mô hình PCR- ANN * Xây dựng mô hình tìm số cấu tử chính (PCA) : - Nhập toàn bộ giá trị ma trận độ hấp thụ quang của dung dịch chuẩn và dung dịch kiểm tra thành ma trận Ao (97x151) (97 là số mẫu của dung dịch chuẩn và dung dịch kiểm tra, 151 là số bước sóng khảo sát) để phân tích cấu tử chính (PCA). - Chuẩn hóa tập số liệu đầu vào: stdr = std(Ao) ; Chuyển tập số liệu sang 1 tọa độ mới: sr = Ao./repmat(stdr,100,1); Tính toán các giá trị tải trọng (loading) và trị số (score), phương sai tích lũy (var) [PCALoadings, PCAScores, PCAVar] = princomp(sr); - Do số cấu tử chính tối ưu là 2, tách 2 cột đầu tiên trong ma trận trị số PCAScores làm dữ liệu đầu vào trong mô hình ANN, thu được ma trận mới A’o( 2x97) (97 là số mẫu dung dịch chuẩn và dung dịch kiểm tra, 2 là số cấu tử chính tối ưu) * Xây dựng mô hình ANN dựa vào tập số liệu PCA vừa phân tích được. + Nhập ma trận đầu vào mẫu học Clearn(5x77) của 77 dung dịch chuẩn chứa 5 ion kim loại cần phân tích (5 hàng, 77 cột). + Nhập ma trận đầu ra mẫu học Alearn(2x77) (2 là số cấu tử chính thu được khi phân tích PCA). Ma trận này lấy từ 77 cột đầu tiên của ma trận A’o. + Nhập ma trận nồng độ mẫu kiểm tra Ctest(5x20) của 20 dung dịch chuẩn chứa 5 cấu tử (5 hàng, 20 cột). + Nhập ma trận đầu ra mẫu kiểm tra Atest(2x20). Ma trận này lấy từ 20 cột cuối cùng của ma trận A’o. + Tính toán số liệu theo mô hình ANN tối ưu đã khảo sát net = newff(minmax(Alearn),[100 100 100 100 5],{'logsig' 'logsig' 'purelin' 'logsig' 'purelin'},'traincgf'); net.trainParam.goal=0.0000001; net.trainParam.epochs = 300000; net = train(net,Alearn,Clearn); ylearn = sim(net,Alearn); ytest = sim(net,Atest); saiso = 100*(ytest-Ctest)./Ctest; - Lưu lại M-file vừa thực hiện được mang tên:PCR- ANN.m Sau khi tính toán, kết quả thu được từ mô hình sẽ là giá trị + ylearn : nồng độ của các mẫu học sau quá trình luyện mạng (learning). + ytest : nồng độ các mẫu kiểm tra sau quá trình học của mạng (trainning) + sai số tương đối của các mẫu kiểm tra sau quá trình học mạng Thời gian luyện mạng được biểu diễn ở hình 16. Nồng độ và sai số tương đối của các mẫu kiểm tra sau quá trình học mạng được biểu diễn ở bảng 10 Hình 16 : Mô hình luyện mạng nơron nhân tạo sau khi đã phân tích thành phần chính. Như vậy, nếu giảm kích thước tập số liệu thì thời gian tính toán của mô hình đã được giảm từ 55 phút xuống còn 5phút46 giây. Bảng 10: Bảng so sánh nồng độ của các ion kim loại thu được từ mô hìnhANN và mô hình PCR-ANN Mẫu Nồng độ dung dịch kiểm tra (mg/l) Nồng độ dung dịch thu được từ mô hình ANN (mg/l) Nồng độ dung dịch thu được từ mô hình PCR-ANN (mg/l) Cu Ni Co Pb Cd Cu Ni Co Pb Cd Cu Ni Co Pb Cd 1 0,4 0 0,4 3 0,4 0,342 0,010 0,422 2,972 0,382 0,386 0,001 0,415 3,006 0,389 2 0,4 0,6 0 1 0,4 0,415 0,614 0,032 1,002 0,362 0,408 0,604 0,002 1,010 0,393 3 0,6 0,2 0,2 0 0,4 0,489 0,189 0,330 -0,024 0,377 0,606 0,190 0,200 0,001 0,395 4 0,4 0,2 0,4 3 0 0,381 0,211 0,360 3,028 -0,003 0,400 0,216 0,401 3,000 0,007 5 0 0,4 0 0 1,2 0,009 0,370 -0,010 0,011 1,190 0,007 0,400 0,009 0,007 1,189 6 0 0,2 1 0 0 0,036 0,201 0,964 0,001 0,009 0,002 0,190 0,995 0,005 0,006 7 0,2 0 1 0 0 0,203 -0,008 1,037 0,001 -0,039 0,190 0,008 0,999 0,004 0,002 8 0 0 0 0 1,6 0,004 0,014 -0,035 0,024 1,613 0,003 0,000 0,004 0,001 1,593 9 1,2 0,1 0,1 0,5 0,1 1,189 0,130 0,088 0,492 0,109 1,202 0,103 0,108 0,502 0,098 10 1 0,2 0,1 0,5 0,1 0,972 0,184 0,000 0,518 0,058 1,001 0,192 0,100 0,503 0,108 11 0,6 0,6 0 0 0 0,588 0,586 0,084 -0,042 -0,020 0,589 0,609 0,007 0,004 0,003 12 0,3 0,2 0,2 1,5 0,4 0,289 0,246 0,220 1,517 0,404 0,301 0,232 0,205 1,504 0,397 13 0,2 0,2 0,3 1,5 0,4 0,279 0,194 0,258 1,535 0,424 0,187 0,184 0,312 1,495 0,389 14 0,4 0,4 0 0 1 0,372 0,416 0,039 -0,004 1,021 0,402 0,403 0,008 0,003 1,004 15 0,6 0,4 0 2 0 0,586 0,409 0,037 2,009 -0,026 0,620 0,403 0,006 2,028 0,001 16 0 0,8 0 0 0,8 0,011 0,778 0,008 0,004 0,847 0,003 0,807 0,000 0,001 0,794 17 0,2 0,2 0,2 1 0,2 0,262 0,187 0,157 0,983 0,213 0,189 0,192 0,194 0,991 0,188 18 0,3 0,1 0,2 1 0,4 0,205 0,120 0,267 0,976 0,411 0,283 0,147 0,212 0,990 0,392 19 0,2 0,3 0,1 1 0,4 0,184 0,315 0,100 0,958 0,416 0,200 0,319 0,094 1,002 0,394 20 0,2 0,2 0,3 0,5 0,4 0,178 0,162 0,359 0,499 0,398 0,167 0,171 0,306 0,519 0,416 Bảng 11: Nồng độ của các ion kim loại thu được từ mô hình PCR-ANN và sai số tương đối thu được. Mẫu Nồng độ dung dịch kiểm tra (mg/l) Nồng độ dung dịch thu được từ mô hình (mg/l) Sai số tương đối (%) Cu Ni Co Pb Cd Cu Ni Co Pb Cd Cu Ni Co Pb Cd 1 0,4 0 0,4 3 0,4 0,386 0,001 0,415 3,006 0,389 3,48 0 3,790 0,228 2,567 2 0,4 0,6 0 1 0,4 0,408 0,604 0,002 1,010 0,393 2,14 0,809 0 1,034 1,736 3 0,6 0,2 0,2 0 0,4 0,606 0,190 0,200 0,001 0,395 1,06 4,547 0,442 0 1,606 4 0,4 0,2 0,4 3 0 0,400 0,216 0,401 3,000 0,007 0,11 8,089 0,345 0,009 0 5 0 0,4 0 0 1,2 0,007 0,400 0,009 0,007 1,189 0 0,177 0 0 0,874 6 0 0,2 1 0 0 0,002 0,190 0,995 0,005 0,006 0 4,907 0,484 0 0 7 0,2 0 1 0 0 0,190 0,008 0,999 0,004 0,002 4,590 0 0,010 0 0 8 0 0 0 0 1,6 0,003 0,000 0,004 0,001 1,593 0 0 0 0 0,387 9 1,2 0,1 0,1 0,5 0,1 1,202 0,103 0,108 0,502 0,098 0,233 3,347 8,263 0,593 1,910 10 1 0,2 0,1 0,5 0,1 1,001 0,192 0,100 0,503 0,108 0,163 3,989 0,058 0,753 8,232 11 0,6 0,6 0 0 0 0,589 0,609 0,007 0,004 0,003 1,748 1,631 0 0 0 12 0,3 0,2 0,2 1,5 0,4 0,301 0,232 0,205 1,504 0,397 0,445 16,19 2,850 0,305 0,640 13 0,2 0,2 0,3 1,5 0,4 0,187 0,184 0,312 1,495 0,389 6,061 7,594 4,036 0,313 2,699 14 0,4 0,4 0 0 1 0,402 0,403 0,008 0,003 1,004 0,572 0,755 0 0 0,406 15 0,6 0,4 0 2 0 0,620 0,403 0,006 2,028 0,001 3,482 0,883 0 1,432 0 16 0 0,8 0 0 0,8 0,003 0,807 0,000 0,001 0,794 0 0,882 0 0 0,689 17 0,2 0,2 0,2 1 0,2 0,189 0,192 0,194 0,991 0,188 5,462 3,504 2,675 0,876 5,921 18 0,3 0,1 0,2 1 0,4 0,283 0,147 0,212 0,990 0,392 5,391 47,99 6,045 0,924 1,960 19 0,2 0,3 0,1 1 0,4 0,200 0,319 0,094 1,002 0,394 0,449 6,368 5,420 0,240 1,353 20 0,2 0,2 0,3 0,5 0,4 0,167 0,171 0,306 0,519 0,416 16,01 14,08 2,127 3,857 4,133 So sánh các giá trị nồng độ thu được từ bảng 10 cho thấy, phương pháp PCR-ANN cho phép tính toán nồng độ các cấu tử gần với giá trị thực của các dung dịch chuẩn hơn. Đồng thời bảng 11 cho thấy, nồng độ các cấu tử thu được từ mô hình PCR-ANN cho thấy, sai số tương đối đều rất nhỏ, phù hợp để xác định đồng thời nhiều cấu tử trong cùng 1 dung dịch và phương pháp PCR-ANN cho giá trị RSE(%) là rất thấp (0%). Có một số mẫu mà nồng độ của 1 trong 5 cấu tử bằng 0, thì kết quả nồng độ đó thu được từ mô hình cũng là rất nhỏ (khoảng 0,001ppm). Mẫu 18 có sai số rất lớn, điều này chỉ có thể giải thích là do bản thân mẫu đã mắc sai số hệ thống do pha chế. Các phương pháp xác định đồng thời các cấu tử trong cùng dung dịch khác thường gặp phải khó khăn: đối tượng phân tích phải nằm trong khoảng tuyến tính, các mẫu phân tích không mắc sai số hệ thống, hoá chất tinh khiết… Nhưng khi phân tích đồng thời Cu2+, Co2+, Ni2+, Pb2+, Cd2+, chúng tôi đã tiến hành thí nghiệm với các mẫu chuẩn nằm ngoài khoảng tuyến tính, các kết quả phân tích mắc phải sai số hệ thống khi khảo sát sự phụ thuộc của độ hấp thụ quang vào nồng độ, đồng thời mẫu trắng có độ hấp thụ quang khá cao (cao nhất là 0,217) nhưng những nhược điểm đó đã được mạng nơron nhân tạo khắc phục. Do đó hàm lượng các kim loại thu được chính xác hơn. Sai số tương đối nhỏ nhất là 0% và lớn nhất là 47%. Tuy nhiên, các giá trị sai số của mẫu 18 đều rất lớn, chứng tỏ là mẫu kiểm tra số 18 đã mắc sai số thô trong quá trình pha mẫu. Từ các kết quả trên cho thấy mạng nơron nhân tạo là một phương pháp tối ưu để giải quyết các bài toán xác định đồng thời các cấu tử trong cùng hỗn hợp ngay cả khi hỗn hợp các cấu tử có tín hiệu đo tuyến tính hay phi tuyến tính với nồng độ chất phân tích. Tuy nhiên, nếu chỉ sử dụng phương pháp mạng nơron nhân tạo, thì do kích thước tập số liệu khá lớn, khiến cho thời gian luyện mạng mất nhiều thời gian, có khi lên tới 60 phút. Vì vậy, chúng tôi sử dụng phương pháp phân tích thành phần chính để giảm kích thước tập số liệu, rút ngắn thời gian phân tích mà không làm mất lượng thông tin có trong tập dữ liệu ban đầu. Vì thời gian có hạn nên chúng tôi chưa thử được mô hình mạng PCR-ANN để xác định hàm lượng Cu2+, Co2+, Ni2+, Pb2+, Cd2+ trong mẫu thực tế và so sánh với các phương pháp khác cũng như thử trên các đối tượng khác. Những nghiên cứu này sẽ được tiến hành trong thời gian tới. 3.3.3. Đánh giá tính hiệu quả của phương pháp PCR-ANN Phương pháp PCR-ANN là phương pháp hồi quy đa biến cho phép phân tích đồng thời nhiều cấu tử, độ chính xác cao. Để đánh giá tính hiệu quả của mô hình, chúng tôi tiếp tục xây dựng mô hình PCR-ANN để xác định đồng thời 3 ion kim loại Ce2+, Cu2+ và Ca2+ dựa trên kết quả phân tích của đề tài “ xác định đồng thời các kim loại Ce, Cu và Ca trong lớp phủ bảo vệ kim loại đen bằng phương pháp hấp thụ phân tử sử dụng mạng ANN” – luận văn thạc sĩ khoa học (2006) của tác giả [11] Kích thước tập số liệu gồm 2 ma trận: + Ma trận độ hấp thụ quang A (342x 76) 342 mẫu của hỗn hợp 3 ion kim loại Ce2+, Cu2+ và Ca2+ tại 76 bước sóng (từ 580 nm đến 730 nm). + Ma trận nồng độ C (342 x 3) (342 mẫu và 3 ion kim loại) Phân tích thành phần chính: + Chuẩn hóa tập số liệu đầu vào: stdr = std(Ao) ; + Chuyển tập số liệu sang 1 tọa độ mới: sr = Ao./repmat(stdr,342,1); 342 là số mẫu tiến hành đo độ hấp thụ quang. + Tính toán các giá trị tải trọng (loading) và trị số (score), phương sai (var) [PCALoadings, PCAScores, PCAVar] = princomp(sr); + Tính tổng giá trị phương sai tích lũy trên các cấu tử: cumsum(PCAVar./sum(PCAVar) * 100); + Sau khi tính toán vecto cột chứa giá trị phần trăm phương sai tích lũy gồm 76 hàng (tương ứng với 76 bước sóng) thu được như bảng 12 sau: Cấu tử Giá trị phương sai tích lũy 1 91,3339784792356 2 97,2451607447669 3 99,7079781808949 4 99,8949050200568 5 99,9775847568665 6 99,9921621701294 7 99,9959357800121 8 99,9974069935249 9 99,9979538219829 10 99,9984831482205 11 99,9989147297407 12 99,9992664238834 13 99,9995130898429 14 99,9996696141363 15 99,9997843681934 ….. ………….. Như vậy cấu tử đầu tiên chiếm khoảng 91,33% lượng thông tin chứa trong tập số liệu ban đầu. Đến câu tử thứ 3, chiếm 99,71% lượng thông tin chứa trong tập số liệu ban đầu, các cấu tử phía sau có phương sai tích lũy tăng không đáng kể. Vì vậy, chúng tôi chọn 3 cấu tử chính cho các bước nghiên cứu tiếp theo. Xây dựng mô hình ANN dựa vào tập số liệu PCA vừa phân tích được. + Nhập ma trận đầu vào mẫu học Clearn(3x300) của 300 dung dịch chuẩn chứa 3 ion kim loại cần phân tích (5 hàng, 300 cột). + Nhập ma trận đầu ra mẫu học Alearn(3x300) (3 là số cấu tử chính thu được khi phân tích PCA). Ma trận này lấy từ 300 cột đầu tiên của ma trận A’o. + Nhập ma trận nồng độ mẫu kiểm tra Ctest(3x42) của 42 dung dịch chuẩn chứa 3 cấu tử (3 hàng, 42 cột). + Nhập ma trận đầu ra mẫu kiểm tra Atest(3x42). Ma trận này lấy từ 42 cột cuối cùng của ma trận A’o. + Tính toán số liệu theo mô hình ANN tối ưu đã khảo sát net = newff(minmax(Alearn),[100 100 100 100 3],{'logsig' 'logsig' 'purelin' 'logsig' 'purelin'},'traincgf'); % 3 là số cấu tử khảo sát net.trainParam.goal=0.0000001; net.trainParam.epochs = 300000; net = train(net,Alearn,Clearn); ylearn = sim(net,Alearn); ytest = sim(net,Atest); saiso = 100*(ytest-Ctest)./Ctest; - Lưu lại M-file vừa thực hiện được mang tên:PCR- ANN2.m Sau khi tính toán, kết quả thu được từ mô hình sẽ là giá trị + ylearn : nồng độ của các mẫu học sau quá trình luyện mạng (learning). + ytest : nồng độ các mẫu kiểm tra sau quá trình học của mạng (trainning) + sai số tương đối của các mẫu kiểm tra sau quá trình học mạng Nồng độ và sai số tương đối của các mẫu kiểm tra sau quá trình học mạng được biểu diễn ở bảng 12 : Bảng 12 : So sánh nồng độ các ion kim loại tính toán được từ mô hình PCR-ANN và mô hình ANN của tác giả [11] (1) : là hàm lượng kim loại tìm được từ mô hình PCR-ANN (2) : là hàm lượng kim loại tìm được từ mô hình ANN của tác giả [11] (0) : là hàm lượng kim loại thực có. Mẫu Ca (1) Ca (2) Ca (0) Ce (1) Ce (2) Ce (0) Cu (1) Cu (2) Cu(0) 1 -0,057 -0,155 0 10,050 9,971 10 9,930 10,184 10 2 -0,017 -0,114 0 9,904 9,826 10 24,962 25,251 25 3 0,046 -0,034 0 14,912 15,327 15 9,925 10,141 10 4 -0,015 0,174 0 14,984 15,147 15 20,045 19,969 20 5 0,097 -0,083 0 20,046 19,875 20 5,030 10,057 10 6 -0,107 -0,042 0 20,008 19,777 20 9,876 25,178 25 7 0,000 0,122 0 20,034 24,769 25 25,105 15,020 15 8 -0,049 0,073 0 25,082 24,771 25 14,974 25,208 25 9 0,229 0,035 0 24,957 29,987 30 24,609 4,930 5 10 0,086 0,187 0 29,984 29,874 30 4,959 19,862 20 11 -0,145 0,099 0 30,034 39,934 40 19,982 4,959 5 12 0,012 0,218 0 39,969 39,956 40 5,011 19,912 20 13 -0,010 5,167 5 40,039 -0,091 0 19,972 4,999 5 14 4,987 5,021 5 -0,097 -0,076 0 4,968 25,094 25 15 10,073 10,071 10 -0,006 0,167 0 25,104 15,169 15 16 9,985 10,003 10 -0,072 -0,123 0 14,937 2,940 30 17 14,912 14,827 15 0,017 0,420 0 29,955 9,934 10 18 14,959 14,950 15 -0,023 -0,093 0 10,008 24,935 25 19 20,013 19,843 20 0,055 0,012 0 25,023 9,857 10 20 19,887 20,040 20 0,020 -0,143 0 10,051 29,940 30 21 24,980 24,913 25 -0,048 -0,041 0 29,977 9,948 10 22 24,939 25,141 25 0,012 -0,198 0 9,996 20,122 20 23 30,016 30,142 30 -0,202 -0,301 0 19,955 5,103 5 24 29,998 30,110 30 -0,040 -0,240 0 4,949 20,056 20 25 5,051 4,803 5 10,050 9,975 10 20,081 -0,041 0 26 4,915 4,880 5 29,987 29,879 30 0,023 -0,119 0 27 9,922 10,164 10 15,076 14,970 15 0,054 0,014 0 28 10,053 9,928 10 25,058 24,874 25 -0,048 -0,024 0 29 15,101 15,153 15 15,010 14,785 15 0,015 -0,048 0 30 14,930 15,139 15 29,973 29,824 30 -0,003 -0,066 0 31 19,957 20,064 20 14,996 15,000 15 0,150 0,007 0 32 19,913 19,956 20 30,026 29,886 30 -0,012 0,008 0 33 24,981 25,007 25 14,949 14,986 15 0,058 0,024 0 34 25,025 24,810 25 29,922 29,934 30 0,065 0,036 0 35 30,070 29,943 30 19,922 19,758 20 0,080 0,103 0 36 29,979 30,035 30 40,011 39,812 40 -0,024 0,007 0 37 5,040 4,806 5 10,112 10,211 10 9,928 10,184 10 38 4,981 4,945 5 10,042 9,978 10 19,985 19,983 20 39 5,043 4,992 5 15,089 15,028 15 9,937 10,137 10 40 4,960 5,045 5 14,997 15,094 15 25,123 25,230 25 41 4,936 4,811 5 20,056 20,045 20 9,910 10,053 10 42 5,004 4,878 5 20,006 19,975 20 25,032 25,155 25 43 5,027 5,066 5 24,956 25,051 25 4,976 4,913 5 44 5,000 5,008 5 24,995 24,910 25 24,938 25,154 25 45 4,789 4,833 5 30,048 29,994 30 9,977 9,950 10 46 5,083 5,039 5 30,148 29,886 30 20,020 19,852 20 47 4,990 4,885 5 39,925 40,084 40 10,131 10,155 10 48 4,982 4,935 5 40,085 40,114 40 24,995 25,146 25 49 9,958 9,893 10 10,003 10,225 10 10,058 10,145 10 50 9,985 10,007 10 9,950 9,985 10 25,033 25,222 25 51 10,070 10,032 10 15,035 15,021 15 10,070 10,094 10 52 9,958 10,176 10 14,873 15,112 15 25,100 25,199 25 53 9,996 9,927 10 14,967 20,066 20 5,007 4,995 5 54 10,041 10,057 10 20,007 20,149 20 24,944 25,118 25 55 10,105 9,794 10 24,853 25,065 25 10,333 9,923 10 56 10,001 10,013 10 25,025 24,904 25 24,931 25,094 25 57 9,953 9,958 10 30,128 29,894 30 4,911 4,975 5 58 9,999 9,989 10 29,937 29,830 30 20,010 19,912 20 59 10,001 9,933 10 39,966 39,853 40 5,064 5,101 5 60 9,949 9,963 10 40,071 39,985 40 24,986 25,125 25 61 14,889 14,890 15 9,997 10,278 10 10,049 10,084 10 62 15,020 14,865 15 10,002 10,047 10 30,024 29,907 30 63 14,954 14,939 15 15,016 14,843 15 9,866 10,053 10 64 14,938 15,015 15 14,933 14,673 15 20,022 19,943 20 65 15,010 14,910 15 20,049 20,027 20 9,931 10,029 10 66 15,003 15,077 15 20,060 19,860 20 15,006 15,070 15 67 14,833 14,787 15 24,952 25,137 25 10,186 9,949 10 68 14,953 14,935 15 25,025 25,043 25 19,873 19,953 20 69 14,914 15,120 15 30,030 29,826 30 14,998 15,192 15 70 15,065 15,106 15 30,027 29,891 30 25,022 24,721 25 71 14,993 14,906 15 39,870 39,721 40 19,965 19,930 20 72 15,010 14,786 15 40,003 39,770 40 30,035 30,007 30 73 19,994 19,944 20 9,979 10,166 10 10,041 10,002 10 74 20,015 20,015 20 9,966 9,936 10 19,951 20,039 20 75 20,032 20,108 20 15,056 14,707 15 5,026 4,977 5 76 19,998 19,954 20 14,946 15,

Các file đính kèm theo tài liệu này:

hoahoc (53).DOC