Công nghệ thông tin 
L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu  ảnh y tế.” 196 
TỔNG QUAN MỘT SỐ NGHIÊN CỨU XÂY DỰNG CÁC THUẬT 
TOÁN HỌC SÂU ÁP DỤNG TRONG PHÂN TÍCH ẢNH Y TẾ 
Lê Thị Thu Hồng*, Nguyễn Chí Thành , Phạm Thu Hương 
Tóm tắt: Hiện nay các thuật toán học sâu (deep learning) đặc biệt là các mạng 
nơ ron tích chập (CNN- Convolutional neural networks) là phương pháp được nhiều 
nhà nghiên cứu lựa chọn để giải quyết bài toán tự động phân tích ảnh y tế. Bài báo 
này sẽ giới tổng quan về các nghiên cứu xây dựng các thuật toán học sâu được sử 
dụng cho phân tích ảnh y tế và giới thiệu một số các nghiên cứu áp dụng trên một số 
lĩnh vực cụ thể như phân tích ảnh chụp cộng hưởng từ não, phân tích ảnh X vùng 
ngực, ảnh huỳnh quang chụp đáy mắt, ảnh nội soi tiêu hóa. 
Từ khóa: Học sâu; Mạng nơ-ron tích chập; Phân tích ảnh y tế. 
1. ĐẶT VẤN ĐỀ 
Kể từ khi các ảnh y tế có thể quét để lưu trữ trên máy tính các nhà nghiên cứu 
đã xây dựng các hệ thống để tự động phân tích ảnh y tế. Bắt đầu từ những năm 
1970 tới những năm 1990 các hệ thống tự động phân tích ảnh y tế ứng dụng xử lý 
ảnh và áp dụng các mô hình toán học được xây dựng dựa vào hệ thống tập luật để 
giải quyết một tác vụ cụ thể nào đó, các hệ thống này còn được gọi là các hệ 
chuyên gia. Sau đó các phương pháp học máy trở nên thông dụng trong các hệ 
thống phân tích ảnh y tế vào những năm 2000, có sự dịch chuyển từ hệ thống xây 
dựng dựa trên các tập luật do chuyên gia con người đưa ra sang hệ thống được 
huấn luyện dựa trên dữ liệu, tuy nhiên việc trích xuất các đặc trưng của ảnh đều do 
con người can thiệp dựa trên các quan sát về đặc tính riêng của ảnh, các hệ thống 
này được gọi là các hệ thống trích rút đặc trưng thủ công. 
Trong những năm gần đây các thuật toán học sâu được chú ý nhiều vì đã đạt được 
các kết quả rất tốt trong một số các lĩnh vực ứng dụng như nhận dạng khuôn mặt, 
nhận dạng ký tự viết tay, phân loại ảnh, phát hiện đối tượng và phân vùng các đối 
tượng trên ảnh. Các hệ thống này được xây dựng dựa trên việc máy tính tự học các 
đặc trưng bằng thuật toán học sâu. Các thuật toán học sâu mở hướng phát triển rất 
tiềm năng cho các ứng dụng phân tích ảnh y tế. Các nghiên cứu xây dựng các thuật 
toán học sâu áp dụng cho phân tích ảnh y tế những năm gần đây được đưa ra tại các 
hội thảo khoa học và công bố trên các tạp chí khoa học với số lượng tăng khá nhanh. 
Hiện tại chủ đề này được nhiều nhóm nghiên cứu trong và ngoài nước tập trung 
nghiên cứu và đã đạt được một số kết quả khả quan, tuy nhiên các kết quả đạt được 
còn chưa cao do nghiên cứu áp dụng học sâu vào phân tích ảnh y tế là một lĩnh vực 
nghiên cứu đa ngành, nó đòi hỏi sự kết hợp chặt chẽ của các nhà nghiên cứu về trí 
tuệ nhân tạo và các chuyên gia phân tích chuyển đoán hình ảnh y tế. 
Bài báo này sẽ giới thiệu tổng quan các nghiên cứu xây dựng các thuật toán học 
sâu sử dụng trong phân tích ảnh y tế. Bài báo được trình bày theo thứ tự sau: Phần 
2 giới thiệu các lý thuyết của mạng nơ-ron và các mô hình học sâu. Phần 3 giới 
thiệu các nghiên cứu sử dụng các thuật toán học sâu cho các bài toán phân tích ảnh 
y tế. Phần 4 giới thiệu các ứng dụng sử dụng học sâu để phân tích ảnh y tế trên các 
lĩnh vực ứng dụng cụ thể. Phần 5 tổng kết các khả năng áp dụng, những khó khăn 
và hướng phát triển của các nghiên cứu xây dựng các thuật toán học sâu dùng cho 
phân tích ảnh y tế. 
Thông tin khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 197
2. TỔNG QUAN VỀ CÁC THUẬT TOÁN HỌC SÂU 
2.1. Mạng nơ-ron (Artificial Neural Network) và học sâu (deep learning) 
Mạng nơ-ron (Artificial Neural Network- ANN) là một thuật toán học được mô 
phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật, bao gồm số lượng 
lớn các nơ-ron được gắn kết để xử lý thông tin. ANN giống như bộ não con người, 
được học bởi kinh nghiệm, có khả năng lưu giữ những kinh nghiệm, tri thức và sử 
dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết. Một mạng nơ-ron 
bao gồm các nơ-ron hay còn gọi là các đơn vị tính toán (unit), một hàm kích hoạt 
(activation) a=σ( )và tập các tham số Ѳ={Ⱳ, B} trong đó W được gọi là 
tập các trọng số (weight) của mạng. Mạng nơ-ron gồm nhiều lớp được gọi là MLP 
(Multi Layered Peceptrons). Một hạn chế của các kiến trúc MLP nói chung là hàm 
mất mát không phải là một hàm lồi, việc tìm nghiệm tối ưu toàn cục cho bài toán 
tối ưu hàm mất mát rất khó. Một vấn đề khác là việc huấn luyện MLP không hiệu 
quả khi số lượng các lớp ẩn lớn,vấn đề này được gọi là “vanishing gradient”. Để 
giúp phần nào tránh được vanishing gradient người ta đưa ra ý tưởng tiền huấn 
luyện không giám sát (unsupervised pretraining) trong đó các ma trận trọng số ở 
những lớp ẩn đầu tiên được tiền huấn luyện (pretrained). Các trọng số được tiền 
huấn luyện này có thể coi là giá trị khởi tạo tốt cho các lớp ẩn phía đầu ra và mạng 
nơ-ron nhiều lớp ẩn như vậy được gọi là mạng nơ ron kiến trúc sâu. 
Hình 1. Cấu trúc mạng nơ-ron. 
Học sâu (Deep Learning) là một phương pháp của học máy được xây dựng dựa 
trên các mạng nơ-ron kiến trúc sâu, có thể hiểu học sâu chính là mạng nơ-ron với 
nhiều lớp ẩn. Học sâu cho phép hệ thống được huấn luyện trên một tập dữ liệu có 
thể dự đoán được các đầu ra dựa vào một tập các đầu vào, với học sâu thì các đặc 
trưng sẽ được trích xuất tự động. 
2.2. Mạng nơ- ron tích chập (Convolutional Neural Networks -CNN) 
Mạng nơ-ron tích chập (CNN- Convolutional Neural Network) là một trong 
những mô hình học sâu tiên tiến giúp cho chúng ta xây dựng được những hệ thống 
thông minh với độ chính xác cao như hiện nay như hệ thống xử lý ảnh lớn của 
Facebook, Google hay Amazon. CNN dựa trên khái niệm về tích chập 
(convolution), tích chập (convolution) là nhân ma trận 3x3 (hoặc 5x5) với ma trận 
trượt trên ma trận ảnh đầu vào,giá trị đầu ra do tích các thành phần này cộng lại, 
kết quả của tích chập là một ma trận sinh ra từ việc trượt ma trận filter và thực hiện 
Công nghệ thông tin 
L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu  ảnh y tế.” 198 
tích chập trên toàn bộ ma trận ảnh. CNN là một tập hợp các lớp Convolution chồng 
lên nhau và sử dụng các hàm kích hoạt không tuyến tính như ReLU, Tanh để kích 
hoạt các trọng số trong các nút. Mỗi một lớp sau khi thông qua các hàm kích hoạt 
sẽ tạo ra các thông tin trừu tượng hơn cho các lớp tiếp theo. Ngoài ra có một số lớp 
khác như pooling/subsampling dùng để chắt lọc lại các thông tin hữu ích hơn. 
Một số kiến trúc mạng CNN nổi tiếng[6] 
- LeNet : LeNet là một trong những mạng CNN lâu đời nổi tiếng nhất được 
Yann LeCUn phát triển vào những năm 1998s. Cấu trúc của LeNet gồm: 2 lớp 
(Convolution + maxpooling) và 2 lớp fully connected và output là softmax layer. 
- AlexNet: AlexNet là một mạng CNN đã dành chiến thắng trong cuộc thi 
ImageNet LSVRC-2012 năm 2012. AlexNet là một mạng CNN với một số lượng 
parameter rất lớn (60 triệu), kiến trúc của Alexnet gồm 5 lớp convolution và 3 lớp 
fully connection. Hàm kích hoạt Relu được sử dụng sau mỗi convolution và fully 
connection. 
- VGG: Sau AlexNet thì VGG ra đời với một số cải thiện hơn,VGG cho tỉ lệ lỗi 
thấp hơn AlexNet trong ImageNet Large Scale Visual Recognition Challenge 
(ILSVRC) năm 2014. VGG có 2 phiên bản là VGG16 và VGG19. Kiến trúc của 
VGG16 bao gồm 16 lớp: 13 lớp Conv (2 lớp conv-conv,3 lớp conv-conv-conv) đều 
có kernel 3x3, sau mỗi lớp Conv là maxpooling downsize xuống 0.5, và 3 lớp fully 
connection. VGG19 tương tự như VGG16 nhưng có thêm 3 lớp convolution ở 3 
lớp conv cuối. 
- GoogleNet: Năm 2014, Google công bố một CNN do nhóm nghiên cứu của họ 
phát triển có tên là GoogleNet. GoogleNet gồm 22 lớp, khởi đầu vẫn là những lớp 
convolution đơn giản, tiếp theo là những block của Inception module với 
maxpooling theo sau mỗi block, nó sử dụng 9 Inception module trên toàn bộ và 
không sử dụng fully connection layer mà thay vào đó là average pooling làm giảm 
thiểu được rất nhiều số lượng tham số. 
-ResNet: ResNet được phát triển bởi Microsoft năm 2015. ResNet thắng tại 
ImageNet ILSVRC competition 2015 với tỉ lệ lỗi 3.57%, ResNet có cấu trúc gần 
giống VGG với nhiều lớp làm cho mô hình sâu hơn. ResNet có kiến trúc gồm 
nhiều residual block, y tưởng của residual block là feed foward đầu vào x qua một 
số layer conv-max-conv, ta thu được đầu ra F(x) sau đó thêm x vào đầu ra H(x) = 
F(x) + x . 
3. HỌC SÂU SỬ DỤNG TRONG PHÂN TÍCH ẢNH Y TẾ 
Phần này giới thiệu các nghiên cứu các thuật toán học sâu cho các bài toán phân 
tích ảnh y tế, bao gồm phân loại (classification), phát hiện đối tượng (detect 
object), phân vùng ảnh (segmentation). Ngoài ra chúng ta còn có thể xây dựng các 
thuật học sâu cho một số các bài toán khác biến đổi ảnh (registration), tổng hợp 
ảnh (retrieval), tuy nhiên đây là những bài toán khó và chưa có nhiều các nghiên 
cứu được thực hiện để giải quyết những bài toán này. 
3.1. Phân loại ( Classification) 
3.1.1. Phân loại ảnh (Image classification) 
Thông tin khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 199
Phân loại ảnh là bài toán trong phân tích ảnh y tế mà học sâu đem lại kết quả tốt 
nhất. Với bài toán phân loại ảnh trong phân tích ảnh y tế, đầu vào là một hoặc 
nhiều ảnh chụp một vùng nào đó của cơ thể, đầu ra là chẩn đoán mắc hoặc không 
mắc một căn bệnh nào đó. Tập dữ liệu huấn luyện trong bài toán phân loại ảnh y tế 
thường có kích thước không lớn, do đó các nghiên cứu giải quyết bài toán này 
thường sử dụng các thuật toán học chuyển giao (Tranfer learning) tức là sử dụng 
các mạng nơ-ron đã được huấn luyện trước (pretrained-network) trước trên tập dữ 
liệu ảnh lớn như ImageNet và đưa vào thêm các kỹ thuật khác để giải quyết bài 
toán. Ngoài hướng tiếp cập dùng tranfer learning, một số nhóm nghiên cứu tự xây 
dựng các cấu trúc mạng CNN riêng dùng cho bài toán riêng. Ví dụ nhóm tác giả 
Mina Rezaei, Haojin Yang, Christoph Meinel [4] xây dựng một mạng CNN để 
phân loại ảnh cộng hưởng từ não (MRI não) xác định các tổn thương vùng não. 
Kiến trúc bao gồm 7 lớp trong đó 3 lớp polling nhằm giảm đáng kể kích thước của 
véc tơ đặc trưng. Sau lớp conv7 là 3 lớp 7th fully-connected gồm 4096 neural, cuối 
cùng áp dụng chuẩn hóa sau lớp full-connected cuối để giảm overfitting. 
Hình 2. Kiến trúc mạng phân loại ảnh MRI. 
3.1.2. Phân loại các đối tượng trên ảnh (Object or lesion classification) 
Bài toán phân loại đối tượng trên ảnh tập trung vào phân loại một phần ảnh, ví 
dụ: phân loại các đối tượng bất thường trên ảnh chụp CT vùng ngực để xác định 
các u bứu ở vùng ngực. Trong bài toán này cả thông tin cục bộ về sự xuất hiện các 
đối tượng bất thường và thông tin tổng thể ảnh cần được phân tích. Do đó người ta 
thường sử dụng kiến trúc multi-stream để giải quyết bài toán. Ví dụ nhóm 
Kawahara and Hamarneh(2016) đã sử dụng multi-stream CNN để phân loại các 
vết tổn thương bề trên da, các stream xử lý ảnh với độ phân giải khác nhau. Gao et 
al. (2015) đề xuất mô hình kết hợp CNNs và RNNs để xây dựng hệ thống xác định 
bệnh đục thủy tinh thể dựa trên ảnh chụp huỳnh quang mắt, trong đó CNN filters là 
các mạng huấn luyện sẵn. Sự kết hợp này cho phép xử lý tất các các thông tin 
chung tổng quan của ảnh mà không quan tâm đến kích thước ảnh. 
3.2. Xác định các đối tượng trên ảnh (Object Detection) 
3.2.1. Xác định vị trị các bộ phận của cơ thể hoặc các vùng cơ thể 
Xác định các bộ phận cơ thể, các vùng cơ thể là bước quan trọng của phân tích 
ảnh y tế. Để xác định vị trí các đối tượng ta cần phải phân tích các ảnh 3D, có hai 
hướng tiếp cận để phân tích các ảnh 3D xác định vị trí đối tượng giải phẫu trên ảnh 
y tế được đề xuất bao gồm: Một là xem ảnh 3D là tập hợp của các ảnh 2D theo một 
các lát cắt trực giao, sau đó xác định vị trí vật thể trên ảnh 2D, đây là phương pháp 
Công nghệ thông tin 
L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu  ảnh y tế.” 200 
phổ biến hiện nay cho các kết quả khá tốt. Hai là xây dựng các mạng CNN riêng 
trực tiếp áp dụng cho ảnh 3D, các phương pháp này khá phức tạp yêu cầu khối 
lượng tính toán lớn. 
3.2.2. Phát hiện các đối tượng hoặc các vùng dị thường 
Việc phát hiện các đối tượng cần quan tâm hoặc các vùng dị thường trong 
các ảnh y tế là một phần rất quan trọng trong chẩn đoán bệnh và là một việc khó 
khăn của các của các bác sỹ. Về cơ bản phát hiện các vùng dị thường chính là xác 
định vị trí và nhận biết các vùng bất thường nhỏ trong một không gian ảnh lớn. Ví 
dụ: phát hiện các khối u tế bào trong các ảnh chụp cộng hưởng từ não, phát hiện ra 
các vết tụ máu chảy trong các ảnh chụp cộng hưởng từ não, Phát hiện các khối u 
trong ảnh chụp X quang vùng ngực. Phần lớn các thuật toán được công bố hiện 
nay đều sử dụng các kiến trúc mạng CNN để thực hiện phân loại đối tượng sau đó 
là các bước xử lý để xác định được các đối tượng. Dưới đây trình bày ví dụ một 
kiến trúc được sử dụng để xây dựng hệ thống phát hiện dị thường trên não dựa trên 
ảnh cộng hưởng từ não của nhóm tác giả Mina Rezaei, Haojin Yang, Christoph 
Meinel [4] 
Hình 3. Kiến trúc mạng phát hiện vùng bất thường trên ảnh MRI não. 
Hệ thống sử dụng đồng thời hai kiến trúc mạng: Kiến trúc thứ nhất là một 
mạng CNN để trích rút các đặc trưng của toàn bộ ảnh. Kiến trúc thứ hai là sự kết 
hợp của một mạng Fast R-CNN để nhận dạng các vùng cần quan tâm và một mạng 
VGG-16 được tinh chỉnh lại để trích rút các đặc trưng cục bộ ở các vùng. Ứng 
dụng này được các tác giả áp dụng với tập dữ liệu BRATS-2015 gồm 220 người 
bệnh mắc khối u và 54 người bệnh không mắc khối u, tỉ lệ phát hiện đạt được độ 
chính xác 94.3 %. 
3.3. Phân đoạn đối tượng trên ảnh (Segmentation) 
Phân đoạn trong phân tích ảnh y tế thường có hai dạng: một là phân đoạn các bộ 
phận cơ thể hoặc các cấu trúc nhỏ trên ảnh, hai là phân đoạn các vùng bị tổn 
thương hoặc bất thường trên ảnh. Phân đoạn các bộ phận cơ thể hoặc các cấu trúc 
trong ảnh y tế được dùng để phân tích các tham số liên quan kích thước và hình 
dạng của các bộ phận. Phân đoạn các vùng bị tổn thương hoặc bất thường là sự kết 
hợp của phát hiện đối tượng và phân đoạn đối tượng trên ảnh dựa vào các đặc 
trưng riêng biệt của các vùng bất thường. Có một số phương pháp được sử dụng 
cho phân đoạn đối tượng, đa số đều trúc CNN và RNN. Gần đây một kiến trúc khá 
thành công là U-net được sử dụng khá phổ biến trong tác vụ phân đoạn. 
Thông tin khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 201
4. MỘT SỐ NGHIÊN CỨU ỨNG DỤNG PHÂN TÍCH ẢNH Y TẾ 
SỬ DỤNG CÁC THUẬT TOÁN HỌC SÂU 
Phân tích hình ảnh não: Các nghiên cứu ứng dụng phân tích hình ảnh não hiện 
nay đa số tập trung vào sử dụng các thuật toán phân loại ảnh để chẩn đoán các 
bệnh về não ví dụ như bệnh Alzheimer. Một số các nghiên cứu khác lại theo hướng 
sử dụng phát hiện và phân đoạn đối tượng để phát hiện các khối u và các vùng dị 
thường trên não. Hiện nay phần lớn các nghiên cứu đều xây dựng các thuật toán 
học sâu trên tập ảnh chụp cộng hưởng từ (MRI) và sử dụng kiến trúc mạng CNN. 
Bảng 1. Một số công trình nghiên cứu thuật toán học sâu 
áp dụng phân tích ảnh não. 
Nhóm tác giả Công trình 
Shi, J., Zheng, X., Li, Y., 
Zhang, Q., Ying, S., Jan. 2017 
Multimodal neuroimaging feature learning with multimodal 
stacked deep polynomial networks for diagnosis of 
Alzheimer’s disease 
Sarraf, S., Tofighi, G., 2016 Classification of Alzheimer’s disease using fMRI data and 
deep learning convolutional neural networks 
Van der Burgh, H. K., 
Schmidt, R., Westeneng, H.-J., 
de Reus, 2017 
Deep learning predictions of survival based on MRI in 
amyotrophic lateral sclerosis 
Kamnitsas, K., Ledig, C., 
Newcombe, V. F., Simpson, J. 
P., Kane, A. D., 2017 
Efficient multi-scale 3D CNN with fully connected CRF for 
accurate brain lesion segmentation 
Phân tích ảnh phản quang chụp đáy mắt: Một bài toán được các nghiên cứu 
hướng tới khá nhiều là phát hiện màng phủ đáy mắt của các bệnh nhân do biến 
chứng bệnh tiểu đường dựa trên phân tích ảnh màu phản quang chụp đáy mắt (CFI) 
chụp đáy mắt. Để thực hiện bài toán này các nghiên cứu tập trung vào sử dụng 
mạng CNN để phân tích ảnh CFI, sử dụng detection, segmentation để phát hiện các 
dị thường ở võng mạc và chẩn đoán bệnh về mắt. 
Bảng 2. Một số công trình nghiên cứu thuật toán học sâu 
áp dụng phân tích ảnh vùng mắt. 
Nhóm tác giả Công trình 
Zilly, J., Buhmann, J. M., 
Mahapatra, D., 2017 
Glaucoma detection using entropy sampling and ensemble 
learning for automatic optic cup and disc segmentation 
Gulshan, V., Peng, L., Coram, 
M., Stumpe, M. C., Wu., 
Narayanaswamy , 2016 
Development and validation of a deep learning algorithm for 
detection of diabetic retinopathy in retinal fundus photographs 
Worrall, D. E., Wilson, C. M., 
Brostow, G. J., 2016 
Automated retinopathy of prematurity case detection with 
convolutional neural networks 
Maninis, K.-K., Pont-Tuset, J., 
Arbelaez, P., Gool, L., 2016 
Deep retinal image understanding: Segmentation of blood 
vessels and optic disk; VGG-19 network extended with 
specialized layers for each segmentation task 
Phân tích ảnh vùng ngực: Các nghiên cứu phân tích ảnh vùng ngực hiện nay chủ 
yếu tập trung vào phân tích ảnh X quang ngực sử dụng classification và detection 
để phát hiện các khối u, chẩn đoán các bệnh về phổi, tim mạch. 
Công nghệ thông tin 
L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu  ảnh y tế.” 202 
Bảng 3. Một số công trình nghiên cứu thuật toán học sâu 
áp dụng phân tích ảnh vùng ngực. 
Nhóm tác giả Công trình 
Rajkomar, A., Lingam, S., 
Taylor, A. G., Blum, M., 
Mongan, J., 2017 
High-throughput classification of radiographs using deep 
convolutional neural networks 
Christodoulidis,Anthimopoulos, 
Ebner, L., Christe, A., 2017 
Multi-source transfer learning with convolutional neural 
networks for lung pattern analysis 
Shin, H.-C., Roberts, K., Lu, L., 
Demner-Fushman, D., 2016 
Learning to read chest x-rays: Recurrent neural cascade 
model for automated image annotation, CNN detects 17 
diseases, large data set (7k images) 
Dou, Q., Chen, H., Yu, L., Qin, 
J., Heng, P. A., 2016 
Multi-level contextual 3D CNNs for false positive reduction 
in pulmonary nodule detection 
Phân tích ảnh nội soi tuyến tiêu hóa: Các nghiên cứu phân tích ảnh nội soi tuyến 
tiêu hóa chủ yếu xây dựng các thuật toán phát hiện các đối tượng bất thường trên 
các ảnh được cắt từ các video do camera nội soi thu được. Các bất thường có thể là 
các u, polyp, các vết viêm loét hoặc xuất huyết. 
Bảng 4. Một số công trình nghiên cứu thuật toán học sâu 
áp dụng phân tích ảnh nội soi tuyến tiêu hóa. 
Nhóm tác giả Công trình 
Younghak shin, Hemin ali 
qadir, Ilangko balasingham, 
2018 
Abnormal Colon Polyp Image Synthesis Using Conditional 
Adversarial Networks for Improved Detection Performance 
N. Tajbakhsh, S. Gurudu, and J. 
Liang, 2016 
Automated polyp detection in colonoscopy videos using 
shape and context information 
S. Park, M. Lee, and N. Kwak, 
2016 
Polyp detection in colonoscopy videos using deeply-learned 
hierarchical features 
Ruikai Zhang , Yali Zheng , 
Carmen C.Y. Poon , Dinggang 
Shen, James Y.W. La, 2017 
Polyp Detection during Colonoscopy using a Regression-
based Convolutional Neural Network with a Tracker 
Ngoài các nghiên cứu ứng dụng phân tích ảnh các vùng cơ thể kể trên còn có 
các ứng dụng phân tích ảnh tim mạch (cardiac), hệ cơ xương (musculoskeletal) để 
chẩn đoán các bệnh có liên quan khác. 
5. KẾT LUẬN 
Qua phần nghiên cứu tổng quan đã trình bày chúng ta thấy các thuật toán học 
sâu có thể được áp dụng ở tất cả các khía cạnh trong phân tích ảnh y tế và hiện tại 
CNN là kiến trúc đạt hiệu quả cao nhất cho các bài toán phân tích ảnh y tế. Các 
thuật toán học sâu được xây dựng để áp dụng cho phân tích ảnh y tế hiện nay đi 
theo hai hướng tiếp cận chính: thứ nhất là sử dụng các mạng CNN huấn luyện 
trước và điều chỉnh lại để phù hợp với tập dữ liệu ảnh y tế được áp dụng, thứ hai là 
xây dựng các mạng CNN riêng và huấn luyện mạng trực tiếp trên tập dữ liệu ảnh 
mẫu của bài toán áp dụng. Kiến trúc mạng là yếu tố đầu tiên quyết định hiệu quả 
của thuật toán đối với cho các bài toán phân tích ảnh y tế, tuy vậy kiến trúc mạng 
không phải là yếu tố duy nhất quyết định việc đạt hiệu quả cao trong giải quyết các 
Thông tin khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 203
bài toán, các kỹ thuật tiền xử lý dữ liệu và tăng cường dữ liệu cũng là một trong 
những yếu tố ảnh hưởng đến kết quả của các giải pháp, ngoài ra còn có các yếu tố 
khác như kích thước đầu vào của mạng, các tham số tối ưu mạng ví dụ learning 
rate, drop out rate 
Khi xây dựng các thuật toán học sâu áp dụng cho phân tích ảnh y tế một khó 
khăn lớn nhất là sự thiếu hụt các tập dữ liệu huấn luyện đủ lớn. Các hệ thống 
PACS hiện nay đã được sử dụng rộng rãi trong các hệ thống y tế và chúng đã lưu 
trữ một lượng ảnh y tế rất lớn tuy nhiên khó khăn gặp phải là việc gán nhãn cho 
các tập dữ liệu ảnh này. Gán nhãn cho các dữ liệu ảnh y tế phải được thực hiện bởi 
các chuyên gia chẩn đoán hình ảnh ở các lĩnh vực riêng và tốn rất nhiều công sức, 
thời gian. Một khó khăn khác liên quan đến dữ liệu là các bộ dữ liệu ảnh y tế là 
những bộ dữ liệu không cân bằng tức là số lượng ảnh cho các trường hợp mắc 
bệnh ít hơn rất nhiều so với số lượng ảnh cho các trường hợp không mặc bệnh, do 
đó thuật toán có thể cho hiệu quả rất tốt trên tập dữ liệu thử nghiệm, nhưng lại có 
thể sai cho các trường hợp thực tế ít gặp trong tập dữ liệu mẫu. Ngoài ra trong lĩnh 
vực y tế, việc chẩn đoán bệnh không chỉ các thông tin được trích rút qua phân tích 
ảnh y tế mà còn phải dựa vào các thông tin khác của người bệnh ví dụ như độ tuổi, 
chiều cao, cân nặng, tiền sử bệnh, các biểu hiện lâm sàng Do đó các nhà nghiên 
cứu trong khi xây dựng các thuật toán học sâu cần phải kết hợp cả các thông tin 
bệnh nhân và các ảnh y tế để làm đầu vào cho các thuật toán, khó khăn khi giải 
quyết vấn đề kết hợp này là cần phải cân bằng giữa các đặc trưng ảnh (có thể lên 
tới hàng hàng nghìn đặc trưng) và các đặc trưng mang thông tin bệnh nhân (chỉ 
khoảng vài chục thông tin). 
Xem xét xu hướng phát triển của các thuật toán học sâu hiện tại và nguồn dữ 
liệu ảnh y tế chúng ta có thể xác định hướng phát triển cho các thuật toán học sâu 
áp dụng cho phân tích ảnh y tế trong tương lai có thể là các thuật toán học không 
giám sát. Các thuật toán học sâu không giám sát có điểm lợi thế rất phù hợp với dữ 
liệu ảnh y tế là chúng có thể phân tích trên một tập dữ liệu ảnh lớn không cần gán 
nhãn để tìm ra được các tri thức ẩn sâu trong dữ liệu. 
TÀI LIỆU THAM KHẢO 
[1]. Geert Litjens, Thijs Kooi, Babak Ehteshami Bejnordi, Arnaud Arindra 
Adiyoso Setio, Francesco Ciompi, Mohsen Ghafoorian, Jeroen A.W.M. van 
der Laak, Bram van Ginneken, Clara I. Sanchez. (2017). A Survey on Deep 
Learning in Medical Image Analysis. arXiv:1702.05747. 
[2]. Rajpurkar P, Irvin J, Ball RL, Zhu K, Yang B, Mehta H, et al. (2018). Deep 
learning for chest radiograph diagnosis. PLoS Med 15(11): e1002686. 
https://doi.org/10.1371/journal.pmed.1002686 
[3]. Mina Rezaei, Haojin Yang, Christoph Meinel. 2017. Deep Learning for 
Medical Image Analysis. arXiv:1708.08987 
[4]. Shen, W., Zhou, M., Yang, F., Yang, C., Tian, J., 2015. Multi-scale 
convolutional neural networks for lung nodule classification. In: Inf Process 
Med Imaging. Vol. 9123 of Lect Notes Comput Sci.pp. 588–599J. 
Công nghệ thông tin 
L. T. T. Hồng, N. C. Thành, P. T. Hương, “Tổng quan một số nghiên cứu  ảnh y tế.” 204 
[5]. Bernal et al.,2017. ‘‘Comparative validation of polyp detection methods in 
video colonoscopy: Results from the MICCAI 2015 endoscopic vision 
challenge,’’ IEEE Trans. Med. Imag., vol. 36, no. 6, pp. 1231–1249. 
[6]. https://www.coursera.org/specializations/deep-learning; 
ABSTRACT 
AN OVERVIEW OF STUDIES ON DEEP LEARNING 
IN MEDICAL IMAGE ANALYSIS 
Deep learning algorithms, in particular convolutional neural networks, 
have rapidly become a methodology of choice for analyzing medical images. 
This article will provide an overview of the studies on deep learning 
algorithms used for medical imaging analysis. It also introduces some 
studies applied in specific areas such as brain magnetic resonance imaging, 
chest X-ray image, abdominal region endoscopy, colono-scopy. 
Keywords: Deep learning; Convolutional neural networks; Medical imaging. 
Nhận bài ngày 26 tháng 12 năm 2018 
Hoàn thiện ngày 10 tháng 3 năm 2019 
Chấp nhận đăng ngày 25 tháng 3 năm 2019 
Địa chỉ: Viện Công nghệ thông tin/Viện Khoa học và Công nghệ quân sự. 
 * Email: 
[email protected].