Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG
 Số 1 năm 2016 69
ỨNG DỤNG GIS 
TRONG DỰ BÁO DỊCH TẢ
Lê Thị Ngọc Anh*, Hoàng Xuân Dậu+ 
* Phòng Công nghệ thông tin, Trường Đại học Y Hà Nội 
+ Khoa Công nghệ thông tin I, Học Viện Công Nghệ Bưu Chính Viễn Thông, Hà Nội
Tóm tắt: Việc lan truyền các bệnh truyền nhiễm 
có liên hệ mật thiết với sự lân cận về không gian 
và thời gian, do sự lan truyền bệnh dịch có nhiều 
khả năng xảy ra nếu các cá nhân có nguy cơ ở gần 
trong một không gian và thời gian nhất định. Vì 
thế các phân tích dữ liệu trong y tế luôn cần xem 
xét cả hai vấn đề không gian và thời gian theo 
nguyên lý cơ bản là kiểm tra mối quan hệ phụ 
thuộc giữa các quan sát ở cả hai chiều không gian 
và thời gian. Để đáp ứng được yêu cầu trên, Hệ 
thống thông tin địa lý (Geographic Information 
System - GIS) tỏ rõ ưu thế so với các phương 
pháp phi không gian truyền thống. GIS hỗ trợ xác 
định vị trí, lập bản đồ ca bệnh, tìm hiểu nguyên 
nhân bùng phát dịch bệnh, mô phỏng, dự báo sự 
lây lan dịch bệnh trong các vụ dịch. Bài bào này 
đề xuất xây dựng mô hình dự báo dịch tả trên 
địa bàn thành phố Hà Nội có xem xét đến ảnh 
hưởng của biến đổi khí hậu trên cơ sở ứng dụng 
công nghệ GIS. Các kết quả đạt được cho thấy 
khả năng ứng dụng hiệu quả GIS trong phân tích 
dịch bệnh tả trên địa bàn nghiên cứu khi chỉ ra 
được những điểm nóng, cũng như lý giải mối liên 
hệ giữa các biến khí hậu, mặt nước, dân số phân 
bố theo không gian với số ca bệnh theo thời gian.
Từ khóa: Dự báo dịch bệnh, GIS trong y tế, mô 
hình dự báo, phân tích không gian1
I. ĐẶT VẤN ĐỀ
Bệnh tả xuất hiện lần đầu trên thế giới vào năm 
1817 và nhanh chóng trở thành một trong những 
Tác giả liên lạc: Hoàng Xuân Dậu, 
email: 
[email protected] 
Đến tòa soạn: 14/3/2016, chỉnh sửa: 28/4/2016, chấp 
nhận đăng: 30/5/2016. 
nguyên nhân chính gây tử vong hàng loạt trên 
toàn thế giới, nhất là tại các nước đang phát triển 
thuộc vùng nhiệt đới ở châu Phi, châu Á và Nam 
Mỹ. Trong lịch sử, các đợt bùng phát dịch tả 
từng được coi như những thảm họa do tỷ lệ tử 
vong cao, mức độ lây lan nhanh, phạm vi ảnh 
hưởng rộng và khó kiểm soát [1]. Virus tả Vibrio 
Cholerae có thể dễ dàng lan truyền hoặc phát tán 
thông qua con người và động vật, đặc biệt tại 
những vùng thiếu nguồn nước sạch, cơ sở vệ sinh 
kém, ô nhiễm. Nhiều nghiên cứu đã chỉ ra mối 
quan hệ nhân quả giữa các yếu tố như hành vi 
của con người, hệ sinh thái và các yếu tố nguy cơ 
truyền nhiễm khác với sự bùng phát dịch bệnh. 
Chính vì vậy, phân tích mô hình không gian và 
các yếu tố có ảnh hưởng đến dịch tả đóng vai trò 
rất quan trọng trong nghiên cứu sâu về tính chất 
lây lan của dịch bệnh này. 
Bài báo này tập trung nghiên cứu, khảo sát một 
số mô hình dự báo dịch tả trên thế giới và trong 
khu vực có sử dụng công nghệ GIS và đề xuất mô 
hình dự báo dịch tả ở khu vực thành phố Hà Nội 
dựa trên GIS.
Phần còn lại của bài báo được bố cục như sau: Mục 
II trình bày các nghiên cứu có liên quan; Mục III 
mô tả tập dữ liệu thử nghiệm và mô hình dự báo đề 
xuất. Các thực nghiệm, kết quả và nhận xét được 
trình bày tại Mục IV. Mục V là phần Kết luận.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Trong những năm gần đây, GIS là công cụ đã và 
đang được sử dụng rộng rãi trong việc hỗ trợ ra 
quyết định trong nhiều hoạt động kinh tế, xã hội 
và quốc phòng của nhiều quốc gia trên thế giới. 
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG70 Số 1 năm 2016
GIS cung cấp các công cụ phân tích thống kê, 
mô hình hóa không gian, hỗ trợ cho việc nghiên 
cứu các mối quan hệ giữa các yếu tố điều kiện tự 
nhiên, môi trường và tình hình sức khỏe, bệnh tật 
của người dân, theo dõi và dự báo diễn biến dịch 
bệnh, từ đó hỗ trợ ra quyết định phù hợp ở từng 
thời điểm và ở các cấp quản lý khác nhau [2]. 
Chính vì phạm vi ứng dụng rộng rãi nên có nhiều 
cách tiếp cận khác nhau khi phân tích dữ liệu với 
GIS, như trọng số nghịch khoảng cách (Inverse 
Distance Weighting - IDW), phân tích điểm nóng 
(Hot Spot Analysis), hồi quy trọng số không gian 
(Geographically Weighted Regression - GWR)...
[3][4]. Phân tích điểm nóng là một phương pháp 
phân nhóm không gian sử dụng thống kê Getis-
Ord Gi* [3] cho mỗi đối tượng trong tập dữ liệu 
không gian. Phương pháp này tính toán bằng 
cách xem xét từng đối tượng trong bối cảnh với 
các đối tượng lân cận. Một đối tượng có giá trị 
cao chưa hẳn là một điểm nóng có ý nghĩa về 
mặt thống kê. Để trở thành một điểm nóng về 
mặt thống kê, một đối tượng cần có giá trị cao và 
được bao quanh bởi các đối tượng khác cũng có 
giá trị cao. Phương pháp thống kê cục bộ như hồi 
quy trọng số không gian xem xét tính không đồng 
nhất của các mối quan hệ theo không gian. Nói 
cách khác, nó mô hình hóa các mối quan hệ thay 
đổi theo các vị trí không gian khác nhau. 
Năm 2008, Osei và Duker đã sử dụng các mô hình 
hồi quy không gian (gồm cả mô hình sai số không 
gian và mô hình trễ không gian) để khám phá sự 
phụ thuộc của tỷ lệ mắc bệnh tả vào một yếu tố 
môi trường địa phương quan trọng (các bãi rác lộ 
thiên) ở Kumasi, Ghana [5]. Kết quả nghiên cứu 
cho thấy những vùng có mật độ cao các bãi rác 
lộ thiên có tỷ lệ mắc bệnh tả cao hơn những vùng 
có mật độ các bãi rác lộ thiên thấp hơn. Hơn nữa, 
những vùng gần bãi rác lộ thiên có tỷ lệ mắc bệnh 
cao hơn những vùng ở xa bãi rác lộ thiên [5][6]. 
Nghiên cứu tiếp theo vào năm 2010 của Osei và 
đồng nghiệp cũng cho các kết quả khả quan khi 
sử dụng các mô hình hồi quy không gian để khám 
phá sự phụ thuộc không gian của bệnh tả vào các 
thủy vực có tiềm năng bị ô nhiễm [5][6]. 
Năm 2013, Nkeki and Osirike [7] đã so sánh hai 
phương pháp hồi quy trọng số không gian (GWR) 
trong GIS và hồi quy tuyến tính (Ordinary Least 
Square - OLS) để phân tích các mối quan hệ giữa 
sự xuất hiện của dịch tả và các nguồn cấp nước 
cho các hộ gia đình. Nghiên cứu sử dụng dữ liệu 
bản đồ các tiểu bang của Nigeria và số liệu thống 
kê về các trường hợp mắc bệnh tả, nguồn cung 
cấp nước cho các hộ gia đình và dữ liệu dân số. 
Kết quả cho thấy phương pháp GWR tốt hơn 
đáng kể so với phương pháp OLS. Ngoài ra, phân 
tích dữ liệu thực nghiệm cho thấy dịch tả xảy ra 
trong khu vực nghiên cứu có liên quan đáng kể 
đến các nguồn cung cấp nước cho các hộ gia đình 
và thay đổi theo các khu vực khác nhau.
Năm 2014, Rasam và cộng sự [8] đã tiến hành 
nghiên cứu tích hợp GIS và các kỹ thuật phân 
tích dịch tễ học trong phân tích mô hình không 
gian của bệnh tả tại huyện Sabah, Malaysia. Kết 
quả cho thấy bệnh tả có xu hướng tập trung quanh 
khu vực người bị nhiễm khoảng 1.500 mét. Các 
ổ dịch tả thường xuất hiện tại các khu vực đông 
người, môi trường mất vệ sinh, và gần với nguồn 
nước bị ô nhiễm. Ngoài ra, bệnh tả cũng có quan 
hệ chặt chẽ với các khu vực ven biển. Từ những 
phân tích trên cho thấy GIS đóng vai trò như 
một công nghệ không gian rất quan trọng trong 
nghiên cứu xác định mô hình phân phối và làm 
sáng tỏ các giả thuyết phát triển của dịch bệnh. 
Theo hiểu biết của chúng tôi, trên thế giới chưa 
có công trình nghiên cứu nào phân tích đầy đủ 
mối quan hệ giữa các yếu tố không gian (các yếu 
tố khí hậu, thủy văn và dân số) với yếu tố thời 
gian (sự lan truyền của bệnh dịch) sử dụng công 
nghệ GIS.
Tại Việt Nam, bệnh tả là một loại dịch bệnh 
truyền nhiễm nguy hiểm đối với con người, hiện 
vẫn tồn tại ở một số địa phương. Để chủ động 
phòng tránh dịch bệnh tả tái phát gây ảnh hưởng 
tới sức khỏe người dân, việc triển khai ứng dụng 
GIS trong kiểm soát và dự báo dịch bệnh tả được 
xem như một giải pháp có tính khả thi cao, bổ 
sung cho các biện pháp chuyên môn y tế, giúp 
ngành y tế và chính quyền các cấp có những 
can thiệp phù hợp nhất nhằm nâng cao hiệu quả 
công tác phòng, chống dịch tả [9]. Hiện nay ở 
Việt Nam, việc ứng dụng GIS trong lĩnh vực y tế 
còn rất hạn chế. Đa phần chỉ dừng lại ở việc lập 
Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG
 Số 1 năm 2016 71
bản đồ thể hiện vị trí, số lượng ca bệnh, ổ dịch; 
khoanh vùng nguy cơ dịch sử dụng chức năng tạo 
vùng đệm; quản lý cơ sở dữ liệu dịch bệnh trên 
nền GIS. Chúng tôi chưa tìm thấy nghiên cứu nào 
ở trong nước ứng dụng GIS trong phân tích, tìm 
hiểu nguyên nhân, mô hình phân bố của các ca 
bệnh trong các vụ dịch, cũng như dự báo trước 
khả năng xuất hiện ca bệnh trong tương lai. Vì 
vậy, mục tiêu của nghiên cứu này là đề xuất xây 
dựng mô hình dự báo dịch tả trên địa bàn thành 
phố Hà Nội, có xem xét đến ảnh hưởng của số ca 
bệnh tả với một số biến hư khí hậu, diện tích mặt 
nước, dân số trên cơ sở ứng dụng kỹ thuật phân 
tích hồi quy không gian trong công nghệ GIS.
III. MÔ HÌNH DỰ BÁO ĐỀ XUẤT
A. Tập Dữ Liệu Thử Nghiệm
Dữ liệu thử nghiệm bao gồm các số liệu về số ca 
dịch tả được thu thập từ Trung tâm y tế dự phòng 
Hà Nội. Dữ liệu khí hậu và thủy văn khu vực Hà 
Nội được thu thập từ Trung tâm nghiên cứu khí 
tượng quốc gia. Dữ liệu sử dụng cho quá trình 
thực hiện nghiên cứu được mô tả chi tiết ở Bảng I.
Bảng I. Dữ liệu đầu vào cho nghiên cứu
Dữ liệu Mô tả
Bản đồ hành 
chính tỷ lệ 
1:50000
Thể hiện ranh giới 29 đơn vị quận huyện 
của Tp. Hà Nội.
Bản đồ thủy văn 
tỷ lệ 1:50000
Thể hiện mạng lưới sông suối, ao hồ trên 
địa bàn Tp. Hà Nội.
Số liệu dân số
Giai đoạn 2007-2010 trên địa bàn 
Tp. Hà Nội.
Thể hiện quy mô dân số các quận huyện 
theo năm.
Số liệu khí tượng
Giai đoạn 2001-2011 tại 5 trạm đo: Ba Vì, 
Hà Đông, Hoài Đức, Láng và Sơn Tây trên 
địa bàn Tp. Hà Nội.
Thể hiện số liệu đo lượng mưa; nhiệt độ 
không khí; độ ẩm không khí tương đối; số 
giờ nắng; tốc độ gió theo ngày.
Số liệu bệnh tả
Giai đoạn 2001-2011 trên địa bàn 
Tp. Hà Nội.
Thể hiện số liệu lưu trữ thông tin về các ca 
mắc bệnh tả theo ngày.
B. Mô hình dự báo đề xuất
Hình 1 trình bày mô hình dự báo dịch tả đề xuất 
tại khu vực Hà Nội. Dữ liệu đầu vào bao gồm bản 
đồ hành chính, thủy văn, số liệu dân số, số liệu 
khí tượng theo ngày (R- lượng mưa; Sh- số giờ 
nắng; T- nhiệt độ không khí; U- độ ẩm không khí 
tương đối; V- tốc độ gió) và số liệu ca mắc bệnh 
tả theo ngày giai đoạn 2001–2011.
Hình 1. Mô hình dự báo dịch tả đề xuất
Từ số liệu đầu vào là các biến khí tượng (R, Sh, 
T, U, V), diện tích mặt nước tại từng quận, huyện, 
dân số của từng quận, huyện, nhóm nghiên cứu 
thống kê và tổng hợp số liệu để tiến hành xây 
dựng mô hình. Diện tích mặt nước được coi là dữ 
liệu không đổi và được tính toán cụ thể cho từng 
quận, huyện. Trong khi đó, dữ liệu khí tượng thay 
đổi và chỉ được thu nhận tại 5 trạm khí tượng như 
mô tả ở Bảng I. Do vậy, nhóm nghiên cứu sử dụng 
công cụ nội suy IDW để nội suy từ dữ liệu cung 
cấp bởi các trạm khí tượng cho từng quận, huyện. 
Dựa trên bản đồ kết quả sau nội suy, nhóm nghiên 
cứu lập bản đồ phục vụ quá trình mô phỏng, dự 
báo số ca mắc tả trên khu vực nghiên cứu thông 
qua các hàm hồi quy. Nghiên cứu sử dụng độ đo 
hệ số xác định hiệu chỉnh để so sánh giữa các mô 
hình hồi quy và lựa chọn mô hình hồi quy tối ưu.
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG72 Số 1 năm 2016
IV. THỬ NGHIỆM VÀ KẾT QUẢ
A. Giới Thiệu các Thử Nghiệm
Theo mô hình dự báo dịch tả đề xuất như mô tả 
trên Hình 1, các khâu tiền xử lý dữ liệu và các thử 
nghiệm sau được thực hiện:
1. Phân tích điểm nóng dịch bệnh tả. Mục tiêu 
của thử nghiệm này là tìm ra các điểm nóng 
(Hot Spot) bùng phát dịch tả và mối quan hệ 
giữa sự bùng phát dịch với các yếu tố không 
gian, gồm khí tượng, thủy văn (mặt nước) và 
mật độ dân số;
2. Thử nghiệm các mô hình hồi qui đa biến cho 
dự báo dịch tả. Thử nghiệm này được thực 
hiện trên cơ sở kết quả của bước phân tích 
điểm nóng dịch tả, và gồm có 3 khâu: (i) Lựa 
chọn biến giải thích phát sinh dịch bệnh tả, 
(ii) Phân tích hồi quy tuyến tính (OLS) và 
(iii) Phân tích hồi quy trong số không gian 
(GWR). Các khâu trên được tiến hành tuần tự 
do khâu tiếp theo nhận đầu vào là kết quả của 
khâu trước.
B. Phân Tích Điểm Nóng Dịch Tả
Từ dữ liệu thống kê số ca bệnh tả theo năm trong 
giai đoạn 2001– 2011 biểu diễn trên Hình 2, có 
thể rút ra nhận xét về diễn biến dịch tả khoảng 
thời gian xem xét từ năm 2001-2011: năm 2004 
bắt đầu ghi nhận ca mắc bệnh tả tại Tp. Hà Nội 
với số lượng chỉ 25 ca. Sau đó, dịch tả bùng phát 
liên tục từ năm 2007 đến 2010, với đỉnh điểm là 
năm 2008. Tuy nhiên, về mặt không gian, câu hỏi 
đặt ra là các ca bệnh thường xuất hiện ở những 
khu vực nào? các ca bệnh phân bố tập trung thành 
cụm hay phân tán rải rác toàn vùng? Để trả lời 
cho hai câu hỏi này, nghiên cứu tiến hành phân 
tích điểm nóng theo từng năm bằng việc sử dụng 
thống kê Getis-Ord Gi* trên toàn địa bàn Tp. Hà 
Nội nhằm xác định khu vực thường xuyên xuất 
hiện các ca mắc bệnh. Từ đó, tạo tiền đề cho việc 
lựa chọn biến giải thích trong mô hình hồi quy 
dịch bệnh. Kết quả phân tích điểm nóng được thể 
hiện trên Hình 3. Theo đó, có thể thấy các điểm 
nóng về số ca bệnh tả thay đổi theo theo từng 
năm, tuy nhiên thường tập trung quanh khu vực 
nội đô bao gồm các quận Ba Đình, Hai Bà Trưng, 
Thanh Xuân, Đống Đa, Hoàng Mai và Cầu Giấy. 
Đây là vùng tập trung dân cư đông đúc, tiếp giáp 
với các con sông: sông Nhuệ, sông Kim Ngưu 
và sông Tô Lịch. Đây là các con sông có chỉ số ô 
nhiễm rất cao chảy qua địa bàn Tp. Hà Nội.
Hình 2. Biểu diễn số ca bệnh tả theo năm giai đoạn 2001-2011
C. Thử Nghiệm Các Mô Hình Hồi Quy Đa Biến 
cho Dự Báo Dịch Tả
1) Lựa chọn biến giải thích phát sinh dịch bệnh tả
Kết quả phân tích điểm nóng về ca bệnh tả theo 
năm cho thấy các điểm nóng đều tập trung tại 
những khu vực đông đúc dân cư và nằm gần các 
con sông ô nhiễm. Từ nhận định trên kết hợp 
với các kết quả nghiên cứu đi trước về phân tích 
bệnh tả, nghiên cứu này lựa chọn các biến giải 
thích phát sinh dịch bệnh tả theo năm trên địa 
bàn Tp. Hà Nội như sau: Khí hậu (R, Sh, T, U, V: 
lấy trung bình năm); Diện tích mặt nước (km2); 
Dân số (nghìn người). Do số ca mắc bệnh tả phân 
bố rất không đều theo năm (hay nói cách khác là 
số liệu không tuân theo quy luật phân bố chuẩn) 
nên nghiên cứu lựa chọn hàm hồi quy sau để giải 
thích số ca bệnh tả (y) với dạng như sau:
Log(y) = α + β1 * R + β2 * Sh + β3 * T + β4 * U + 
β
5 
* V + β
6
 * Diện tích mặt nước + β
7
 * Dân số + ε (1)
trong đó: Log(y) là logarit của số ca mắc tả; α là 
hệ số chặn; β1, β2, β3, β4, β5, β6, β7 là các hệ số hồi 
quy; và ε là sai số ngẫu nhiên.
Mục đích của lựa chọn hàm hồi quy logarit để 
đưa dữ liệu về dạng phân bố chuẩn. Các biến số 
khí hậu, diện tích mặt nước, dân số được coi là 
các biến độc lập, trong khi biến số về số ca mắc 
tả được coi là biến phụ thuộc. Mô hình hồi quy 
sẽ dự báo số ca tả mới mắc tại Hà Nội dựa vào 
dữ liệu về khí hậu, diện tích mặt nước và dân số.
Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG
 Số 1 năm 2016 73
2) Phân tích hồi quy tuyến tính OLS
Nhóm nghiên cứu tiến hành phân tích hồi quy 
tuyến tính OLS để thiết lập hàm mô phỏng, dự 
báo ca bệnh tả theo năm cho toàn bộ khu vực Hà 
nội. Tổng hợp kết quả phân tích hồi quy tuyến 
tính OLS cho năm các 2007, 2008, 2009 và 2010 
được thể hiện trong Bảng II. Độ lệch chuẩn của 
phần dư (số ca thực tế - số ca mô phỏng) cho 
các năm trên được thể hiện lần lượt ở Hình 4. 
Nghiên cứu sử dụng độ đo hệ số xác định hiệu 
chỉnh (Adjusted R_squared) để so sánh mức độ 
ảnh hưởng giữa nhóm biến khí hậu với diện tích 
mặt nước và dân số với số ca bệnh. Hệ số xác 
định hiệu chỉnh cho biết các biến giải thích trong 
mô hình giải thích được bao nhiêu phần trăm sự 
biến đổi của biến phụ thuộc.
Bảng II. Tổng hợp kết quả hệ số xác định hiệu chỉnh trong 
phân tích hồi quy OLS theo năm trong khu vực Hà Nội
Năm Biến giải thích
Hệ số xác định 
hiệu chỉnh 
(Adjusted R_squared)
Giá trị 
thống kê 
(*p_value)
2007
Hằng số, Mặt nước, 
Khí hậu
0,258771 < 0,01
2008
Hằng số, Mặt nước, 
Dân số
0,424545 < 0,01
2009
Hằng số, Mặt nước, 
Khí hậu, Dân số
0,704000 < 0,01
2010
Hằng số, Mặt nước, 
Khí hậu, Dân số
0,637462 < 0,01
±
Hot Spot 2004
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
±
Hot Spot 2008
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
±
Hot Spot 2007
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
±
Hot Spot 2009
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
±
Hot Spot 2010
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
Hình 3. Phân tích điểm nóng số ca bệnh tả năm 2004, 2007, 2008, 2009 và 2010
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG74 Số 1 năm 2016
Từ các kết quả phân tích cho trên Bảng III, có 
thể rút ra nhận xét như sau: Trong năm 2007, sự 
kết hợp của yếu tố khí hậu và mặt nước giải thích 
được 25,87% số ca bệnh trên toàn khu vực. Trong 
năm 2008, sự kết hợp của dân số và mặt nước giải 
thích được 42,45% số ca bệnh trên toàn khu vực. 
Trong các năm 2009, 2010, sự kết hợp của yếu tố 
khí hậu, dân số và mặt nước giải thích được lần 
lượt 70,40%, 63,74% số ca bệnh trên toàn khu 
vực. Xu hướng hiện nay cho thấy, khí hậu đang 
có những chuyển biến sâu sắc do những tác động 
tiêu cực của con người và tự nhiên và những thay 
đổi này có ảnh hưởng đáng kể tới sức khỏe con 
người.
3) Phân tích hồi quy trọng số không gian GWR
Mô hình thống kê toàn cục theo hồi quy tuyến 
tính OLS giả định tính đồng nhất theo không gian 
của các mối quan hệ giữa biến phụ thuộc và biến 
giải thích. Giả thiết này có thể dẫn đến kết quả 
sai lệch khi OLS được sử dụng cho bộ dữ liệu 
phụ thuộc không gian. Để khắc phục điểm yếu 
trên, phương pháp thống kê cục bộ hồi quy trọng 
số không gian (GWR) đã ra đời. Phương pháp 
này xem xét tính không đồng nhất của các mối 
quan hệ theo không gian. Nói cách khác, nó mô 
hình hóa các mối quan hệ thay đổi theo các vị trí 
không gian khác nhau. Dựa trên kết quả phân tích 
hồi quy OLS theo năm cho toàn khu vực, nhóm 
nghiên cứu xây dựng mô hình hồi quy trọng số 
không gian GWR nhằm cải thiện khả năng giải 
thích của mô hình OLS cũng như thiết lập hàm 
tuyến tính phù hợp cho từng quận huyện. Nghiên 
cứu sử dụng phương pháp chuẩn thông tin AIC 
(Akaite’s Information Criterion) để so sánh hai 
mô hình. Theo đó, mô hình nào có giá trị AIC 
Hình 4. Độ lệch chuẩn của phần dư (số ca thực tế - số ca mô phỏng) các năm 2007, 2008,2009 và 2010
Hình 5. Hệ số xác định hiệu chỉnh R2 cục bộ của mô hình GWR cho các năm 2007, 2008, 2009 và 2010
Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG
 Số 1 năm 2016 75
thấp sẽ chính xác hơn mô hình có giá trị AIC 
cao. Kết quả so sánh chỉ số AIC, giá trị hệ số xác 
định hiệu chỉnh R2 giữa mô hình OLS và mô hình 
GWR theo từng năm được thể hiện trong Bảng 
III. Theo đó, cho thấy ngoại trừ năm 2007, ba 
năm còn lại mô hình GWR đều cho kết quả tốt 
hơn mô hình OLS.
Hình 5 thể hiện giá trị các giá trị của hệ số xác 
định hiệu chỉnh R² cục bộ thay đổi theo từng quận 
huyện của mô hình GWR. Qua đó cho thấy sự 
biến động theo không gian về mối quan hệ giữa 
các biến giải thích và số ca bệnh tả trong năm. 
Cụ thể, có thể chia hệ số xác định hiệu chỉnh R² 
thành hai nhóm giá trị thấp và cao. Theo đó, đối 
với năm 2007, có sự gia tăng giá trị R² theo hướng 
từ Tây sang Đông. Các năm tiếp theo, sự gia tăng 
giá trị hệ số R² theo hướng từ Bắc xuống Nam.
Bảng III. So sánh hiệu quả giữa hai mô hình OLS 
và GWR theo năm
Chỉ 
số
2007 2008 2009 2010
OLS GWR OLS GWR OLS GWR OLS GWR
AIC 101,10 101,10 105,38 104,65 81,83 73,51 81,81 78,94
R2 0,26 0,26 0,42 0,46 0,70 0,84 0,64 0,69
Ưu điểm của mô hình GWR là khả năng hiển thị 
trực quan các hệ số ước lượng của mỗi biến giải 
thích theo từng đơn vị không gian, ở đây là quận, 
huyện. Điều này giúp cho việc khám phá các mối 
quan hệ phức tạp trở nên dễ dàng hơn. Kết quả 
ước lượng các hệ số của các biến giải thích cho 
sự xuất hiện của ca bệnh tả trong giai đoạn 2007-
2010 được thể hiện lần lượt trên các Hình 6, 7, 
8 và 9 trong phần Phụ lục của bài báo. Dải màu 
thay đổi từ xanh đậm đến đỏ đậm tương ứng với 
mức độ ảnh hưởng đến số ca bệnh tả từ thấp nhất 
đến cao nhất.
4) Một số nhận xét
Qua phân tích hồi quy OLS và GWR, nhóm 
nghiên cứu rút ra một số nhận xét như sau:
• Xét theo năm, tác động của khí hậu đến ca 
bệnh biểu hiện rõ nét trong các năm 2007, 
2009, 2010, trong khi năm còn lại 2008 tác 
động này không đáng kể. Đối với mặt nước, 
tác động của yếu tố này đến ca bệnh thể hiện 
liên tục từ 2007 đến 2010. Yếu tố dân số có 
ảnh hưởng đến ca bệnh trong hai năm 2008 và 
2010. Kết quả phân tích của nghiên cứu cho 
thấy yếu tố mặt nước có vai trò quan trọng 
trong mô hình dự báo.
• Xét về không gian, số ca bệnh dự báo tại các 
khu vực nội đô thường nhỏ hơn số ca bệnh 
thực tế. Trong khi đó, tại các quận, huyện ở 
khu vực phía Bắc và Nam giá trị này thường 
lớn hơn. Cần có nghiên cứu sâu hơn để tìm 
hiểu sự tương tác của không gian trong ảnh 
hưởng số ca bệnh nhằm đưa ra mô hình dự 
báo tốt nhất.
• Xét về mô hình, cả hai mô hình OLS và GWR 
đều có thể giải thích được số ca bệnh. Tuy 
nhiên, mô hình GWR cho kết quả tốt hơn mô 
hình OLS theo năm nhờ khả năng ước lượng 
các hệ số của mô hình thay đổi theo không gian.
V. KẾT LUẬN
Nghiên cứu đã bước đầu xác định các điểm nóng 
về dịch bệnh thường tập trung thành cụm quanh 
khu vực nội đô, nơi tập trung dân cư đông đúc, 
tiếp giáp với các con sông ô nhiễm. Nghiên cứu 
cũng xây dựng các mô hình hồi quy OLS và 
GWR khái quát dự báo dịch tả trên địa bàn Tp. 
Hà Nội theo năm dựa trên các biến khí hậu (nhiệt 
độ không khí, lượng mưa, độ ẩm, số giờ nắng, 
tốc độ gió), dân số, diện tích mặt nước trong giai 
đoạn 2001 - 2011. Các kết quả đạt được cho thấy 
khả năng ứng dụng GIS hiệu quả trong phân tích 
dịch bệnh tả trên địa bàn nghiên cứu khi chỉ ra 
được những điểm nóng cũng như lý giải mối liên 
hệ giữa các biến khí hậu, mặt nước và dân số 
phân bố theo không gian với số ca bệnh theo thời 
gian. Điều đó góp phần hỗ trợ cho công tác quản 
lý dịch bệnh theo không gian và thời gian. Đồng 
thời, kết quả nghiên cứu tạo tiền đề quan trọng 
cho các nghiên cứu tiếp theo về mô phỏng, dự 
báo dịch tả trên địa bàn Tp. Hà Nội.
Bên cạnh những kết quả đạt được, còn một số vấn 
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG76 Số 1 năm 2016
đề cần tiếp tục nghiên cứu cải thiện như: (1) Thời 
gian theo dõi số ca bệnh tả còn tương đối ngắn, 
trong đó các ca bệnh chỉ xuất hiện trong 5 năm 
(2004, 2007, 2008, 2009 và 2010) trong cả một 
chuỗi thời gian từ 2001-2011. Bên cạnh đó số ca 
bệnh tả xuất hiện trong mỗi năm trong giai đoạn 
xem xét cũng không nhiều. Hơn nữa, dữ liệu số 
ca bệnh tả từ 2001 đến 2011 là không cân bằng 
(không tuân theo quy luật phân phối chuẩn) trong 
giai đoạn xem xét, chỉ chiếm 4,22% theo ngày, 
hoặc 13% nếu tính theo tháng. Chính vì vậy, để 
thấy rõ hơn tác động của khí hậu, mặt nước và 
dân số đến dịch bệnh tả, cần tiếp tục theo dõi tình 
hình dịch bệnh tả trong những năm tiếp theo; (2) 
Số lượng biến tham gia lý giải số ca bệnh tả còn ít. 
Tuy nhiên, đây là hiện trạng thực tế và có thể coi 
là đặc thù của dữ liệu dịch bệnh trong y tế, không 
phải khi nào số ca mắc bệnh cũng lớn trong một 
địa bàn nghiên cứu. Vì vậy, vẫn rất cần những 
mô hình dự báo phù hợp với đặc điểm này. Mặc 
dù vậy, kết quả nghiên cứu đã cho thấy mối liên 
hệ chặt chẽ giữa khí hậu, mặt nước, dân số và sự 
xuất hiện của các ca bệnh tả. Đối với khí hậu, dữ 
liệu theo dõi khá đầy đủ, trong khi với mặt nước, 
chỉ có dữ liệu diện tích mặt nước. Vì vậy, cần thu 
thập thêm số liệu về chất lượng nước mặt trên địa 
bàn, đặc biệt tại các con sông trong khu vực, để 
có thể phân tích sâu hơn, toàn diện hơn diễn biến 
dịch bệnh; (3) Nghiên cứu này dừng lại ở phân 
tích dịch bệnh theo cấp độ quận, huyện nên độ 
chính xác về không gian còn tương đối hạn chế. 
Do đó, cần tiến hành thêm phân tích ở cấp độ 
phường, xã để nâng cao độ chính xác. Ngoài ra, 
khi thu thập số liệu ca bệnh tả nên ghi nhận chi 
tiết đến địa chỉ nhà, tọa độ GPS để cung cấp đầu 
vào chi tiết hơn cho quá trình phân tích trong GIS
TÀI LIỆU THAM KHẢO
[1]. Plowright, R.K., Cross, P.C., Tabor, G.M., 
Almberg, E., Bienen, L. and Hudson, P.J., 
2012. Climate Change and Infectious 
Disease Dynamics. In: A.A. Aguirre, R. 
Ostfeld and P. Daszak, eds., New Directions 
in Conservation Medicine: Applied Cases 
of Ecological Health. Oxford University 
Press, pp. 111–121.
[2]. Leckebusch, G.C. and Abdussalam, 
A.F., 2015. Climate and socioeconomic 
influences on interannual variability of 
cholera in Nigeria. Health & Place, [online] 
34, pp. 107–117. Available at: <http://
linkinghub.elsevier.com/retrieve/pii/
S1353829215000660
[3]. Auchincloss A.H., Gebreab S.Y., Mair C. 
and Roux Ana V.D. (2012). A Review of 
Spatial Methods in Epidemiology, 2000–
2010. The Annual Review of Public Health 
is online at publhealth.annualreviews.org.
[4]. Heywood, I., Cornelius, S. and Carver, 
S., 2002. Introduction to Geographic 
Information Systems. Pearson Publication.
[5]. Osei F.B., Duker A.A. (2008). Spatial 
dependency of V. cholera prevalence on 
open space refuse dumps in Kumasi, Ghana: 
a spatial statistical modelling. International 
Journal of Health Geographics 2008.
[6]. Osei F.B., Duker A.A. and Stein 
A. (2012). Cholera and Spatial 
Epidemiology, Cholera, Dr.Sivakumar 
Gowder (Ed.), ISBN: 978-953-51-
0415-5, InTech, Available from: http://
www.intechopen.com/books/cholera/ 
cholera-and-spatial-epidemiology.
[7]. Nkeki, F.N. and Osirike, A.B., 2013. GIS-
based local spatial statistical model of 
cholera occurrence: using geographically 
weighted regression. Journal of Geographic 
Information System, 5, pp.531–542.
[8]. Rasam, A.R.A., Ghazali, R., Noor, A.M.M., 
Mohd, W.M.N.W., Hamid, J.R.A., Bazlan, 
M.J. and Ahmad, N., 2014. Spatial 
epidemiological techniques in cholera 
mapping and analysis towards a local scale 
predictive modelling. IOP Conference 
Series: Earth and Environmental Science, 
Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG
 Số 1 năm 2016 77
[online] 18. Available at: <
org/1755-1315/18/i=1/a=012095?key= cros
sref.018d453478b90fd70bf231feaecdaab6.
[9]. Cromley, E.K. and McLafferty, S.L., 2011. 
GIS and Public Health. 2nd ed. New York, 
USA: The Guilford Press.
[10]. Nguyễn Kim Lợi and Trần Thống Nhất, 
2007. Hệ thống Thông tin Địa lý – Phần 
mềm ArcView 3.3. TP Hồ Chí Minh: Nxb 
Nông Nghiệp.
[11]. Rosenzweig, C., Casassa, G., Karoly, D.J., 
Imeson, A., Liu, C., Menzel, A., Rawlins, S., 
Root, T.L., Seguin, B. and Tryjanowski, P., 
2007. Assessment of observed changes and 
responses in natural and managed systems. 
In: M.L. Parry, O.F. Canziani, J.P. Palutikof, 
P.J. van der Linden and C.E. Hanson, eds., 
Climate Change 2007: Impacts, Adaptation 
and Vulnerability Contribution of Working 
Group II to the Fourth Assessment Report 
of the Intergovernmental Panel on Climate 
Change.
APPLYING GIS IN CHOLERA FORECAST
Abstract: The spread of infectious diseases has a 
close relationship with the temporal and spatial 
localities due to the spread of disease is more likely 
to occur if individuals are in near disease sources 
in terms of specific space and time. Therefore, it 
is very important to take both the temporal and 
spatial factors in the analysis of epidemic data. 
The basic principle is to examine the dependent 
relationship between observations on both space 
and time dimensions. In order to meet the above 
requirements, Geographic Information System 
(GIS) has the advantage over traditional non-
space methods. GIS can be used to determine 
the location and to create the map of disease 
cases. It can also be used for researching the 
causes of disease outbreaks, and for simulating 
and forecasting the disease spread. This paper 
proposed a GIS-based cholera forecast model for 
Hanoi city, which took the impact of the city’s 
climate changes into consideration. Experimental 
results showed that GIS can be effectively used 
for the analysis of the cholera epidemic of the 
research area. The research pointed out the hot 
spots of cholera disease as well as it explained 
the relationship between spatial distribution 
variables, including climate, water area and 
population, and the temporal distribution variable 
of the number of cholera cases.
Lê Thị Ngọc Anh 
Tốt nghiệp Đại học Mở Hà Nội, ngành T 
in học quản lý năm 1999. Năm 2005 cô 
nhận bằng Thạc sĩ ngành Engineering 
Management Information System tại Đại 
học Stockholm. Hiện cô là Trường phòng 
Công nghệ thông tin, Đại học Y Hà Nội 
và là NCS tại Học viện Công nghệ Bưu 
Chính Viễn Thông.
Hướng nghiên cứu chính: Hệ thống 
thông tin, Hệ thống thông tin y tế, Hệ 
thống thông tin địa lý, Hệ thống quản lý 
học tập, Cơ sở các hệ thống thông tin và 
Công nghệ tri thức.
Hoàng Xuân Dậu
Nhận bằng Kỹ sư Tin học tại Đại học Bách 
khoa Hà Nội năm 1994 và nhận bằng 
Thạc sĩ ngành Công nghệ các hệ thống 
máy tính tại Đại học RMIT, Melbourne, 
Australia, năm 2000. Năm 2006, ông 
nhận bằng Tiến sĩ Khoa học máy tính 
tại Đại học RMIT, Melbourne, Australia. 
Ông hiện là giảng viên, Khoa Công nghệ 
thông tin I, Học viện Công nghệ Bưu 
Chính Viễn Thông.
Hướng nghiên cứu chính: Học máy, khai 
phá dữ liệu, an ninh mạng, an toàn phần 
mềm và các giải pháp đảm bảo an toàn 
thông tin.
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG78 Số 1 năm 2016
 Phụ lục: Tham số cục bộ của mô hình GWR cho các năm 2007, 2008, 2009 và 2010
Hình 6. Tham số cục bộ của mô hình GWR cho năm 2007
Hình 7. Tham số cục bộ của mô hình GWR cho năm 2008
Hình 8. Tham số cục bộ của mô hình GWR cho năm 2009
Hình 9. Tham số cục bộ của mô hình GWR cho năm 2010