Vol. 8, e1400, año 2026

ISSN – Online: 2708-3039

DOI: https://doi.org/10.47796/ing.v8i00.1400

Artículo original

Aplicación de redes neuronales artificiales para la detección binaria del síndrome del ojo

Application of artificial neural networks for binary detection of red eye syndrome

Marcelino Torres Villan^1* | Juan Pedro Santos Fernández²

Afiliación:

^1,2Escuela de Ingeniería de Sistemas, Universidad Nacional de Trujillo, La libertad, Perú

Autor de correspondencia: E-mail: ^*mtorres@unitru.edu.pe

Información del artículo:

Recibido: 17/01/2026

Aceptado: 04/03/2026

Publicado: 13/03/2026

Resumen

El síndrome del ojo rojo es uno de los motivos más frecuentes de consulta en atención primaria, y su diagnóstico temprano resulta complejo debido a la similitud clínica entre diversas etiologías. En este estudio se desarrolló y evaluó un enfoque de detección binaria (“ojo rojo” vs. “normal”) mediante la comparación de arquitecturas basadas en redes neuronales convolucionales (CNN), modelos basados en Transformers y un modelo híbrido. Se empleó un conjunto de 2 298 imágenes reorganizadas en dos clases, entrenadas bajo condiciones homogéneas mediante transfer learning y el uso de hiperparámetros fijos. Los experimentos se ejecutaron en Python 3.10.0 utilizando PyTorch 2.7.1+cu118, torchvision 0.22.1+cu118, timm 1.0.17, scikit-learn 1.6.1, NumPy 1.26.4, Albumentations 2.0.8 y Matplotlib 3.8.2, sobre un sistema con GPU NVIDIA RTX 4060 (8 GB). Los resultados evidenciaron un alto desempeño en todos los modelos evaluados (F1 > 0,92, MCC > 0,90 y AUC ≥ 0,98). El modelo híbrido alcanzó el mejor rendimiento global (AUC = 0,996, MCC = 0,925, F1 = 0,924 y exactitud = 94,20 %). La prueba de McNemar indicó que no existen diferencias estadísticamente significativas entre el modelo híbrido y el mejor modelo individual (ResNet).

Palabras clave: hiperemia ocular; aprendizaje profundo; visión computacional; clasificación binaria.

Abstract

Red eye syndrome is one of the most frequent reasons for consultation in primary care, and its early diagnosis is challenging due to the clinical similarity among different etiologies. In this study, a binary detection approach (“red eye” vs. “normal”) was developed and evaluated by comparing convolutional neural network (CNN) architectures, Transformer-based models, and a hybrid model. A dataset of 2,298 images reorganized into two classes was used and trained under homogeneous conditions using transfer learning and fixed hyperparameters. The experiments were conducted in Python 3.10.0 using PyTorch 2.7.1+cu118, torchvision 0.22.1+cu118, timm 1.0.17, scikit-learn 1.6.1, NumPy 1.26.4, Albumentations 2.0.8, and Matplotlib 3.8.2, on hardware equipped with an NVIDIA RTX 4060 GPU (8 GB). The results showed high performance across all evaluated models (F1 > 0.92, MCC > 0.90, and AUC ≥ 0.98). The hybrid model achieved the best overall performance (AUC = 0.996, MCC = 0.925, F1 = 0.924, and accuracy = 94.20%). McNemar’s test indicated no statistically significant differences between the hybrid model and the best-performing individual model (ResNet).

Keywords: ocular hyperemia; deep learning; computer vision; binary classification.

1. Introducción

El síndrome del ojo rojo constituye uno de los motivos de consulta más frecuentes en los servicios de atención primaria y de emergencia a nivel mundial. Es importante precisar que el “ojo rojo” no representa una enfermedad única, sino un signo o síndrome clínico observable, caracterizado principalmente por hiperemia conjuntival (inyección conjuntival) y asociado a múltiples etiologías. Su presentación clínica, que incluye hiperemia conjuntival, lagrimeo, dolor ocular, fotofobia y secreción, comparte signos comunes entre diversas patologías, lo que dificulta un diagnóstico diferencial preciso en el primer contacto clínico. Estudios recientes, como el de Sargolzaeimoghaddam (2025), señalan que cerca del 6 % de las atenciones en medicina general y el 15 % en oftalmología corresponden a cuadros de ojo rojo, lo que refleja su alta prevalencia y la complejidad de su abordaje inicial. Esta dificultad resulta aún más evidente en contextos donde el acceso a oftalmólogos es limitado y los profesionales dependen casi exclusivamente de la evaluación visual subjetiva.

La literatura internacional muestra que la variabilidad diagnóstica y el retraso en la identificación de entidades como conjuntivitis, queratitis, uveítis o glaucoma agudo incrementan el riesgo de tratamientos inadecuados, el uso innecesario de antibióticos y la progresión hacia complicaciones visuales severas. Tamimi et al. (2023) reportaron que aproximadamente el 20 % de los pacientes atendidos por dolor ocular y molestias inespecíficas fueron clasificados como casos de ojo rojo, lo que evidencia la necesidad de herramientas complementarias que permitan reducir la subjetividad clínica. Asimismo, Dag et al. (2024) destacaron que, en servicios de emergencia, un porcentaje considerable de consultas por ojo rojo no correspondía a verdaderas urgencias oftalmológicas, lo que revela ineficiencias en los procesos de triaje y priorización.

En el contexto peruano, estas dificultades se acentúan debido a limitaciones estructurales del sistema de salud. Se estima que millones de personas presentan algún grado de discapacidad visual o condiciones oculares no diagnosticadas oportunamente, lo que genera una elevada demanda de atención especializada. En regiones como La Libertad, donde el Instituto Regional de Oftalmología concentra una importante carga asistencial, la mayoría de establecimientos de salud carece de equipos tecnológicos avanzados o de personal especializado para realizar diagnósticos oportunos. Este escenario conduce a tratamientos empíricos, derivaciones tardías y sobrecarga en los centros de referencia, lo que afecta la calidad y la oportunidad del servicio. Además, factores ambientales como la presencia de partículas contaminantes y la exposición prolongada a pantallas digitales han incrementado los casos de irritación y enrojecimiento ocular, agravando la demanda asistencial.

Este estudio se fundamenta en la necesidad de integrar modelos avanzados de inteligencia artificial en el ámbito sanitario, fortaleciendo el cuerpo teórico de la ingeniería de sistemas aplicada al diagnóstico clínico. El desarrollo de redes neuronales artificiales contribuye al avance científico en áreas como visión computacional, ingeniería de software y ciencias de la salud, permitiendo la creación de herramientas que reduzcan la subjetividad diagnóstica y aporten mayor rigurosidad en la interpretación de imágenes oftálmicas. Desde esta perspectiva, el estudio representa un aporte significativo al conocimiento al explorar arquitecturas modernas que pueden mejorar la detección del síndrome del ojo rojo y generar evidencia sobre el potencial del aprendizaje profundo en entornos clínicos.

A nivel práctico y social, la propuesta responde a una necesidad real en los servicios de atención primaria, donde el personal médico enfrenta dificultades para diferenciar las causas del ojo rojo en ausencia de herramientas tecnológicas de apoyo. La implementación de un sistema automático de diagnóstico puede optimizar la precisión, reducir errores y agilizar la toma de decisiones, especialmente en zonas rurales o en centros con limitada disponibilidad de oftalmólogos. Asimismo, al facilitar diagnósticos oportunos, se pueden prevenir complicaciones visuales, reducir tratamientos innecesarios y promover una mayor equidad en el acceso a la salud visual.

En este marco, el desarrollo de un sistema inteligente de detección automática del síndrome del ojo rojo basado en redes neuronales se presenta como una alternativa estratégica. Este sistema permitiría reconocer patrones visuales asociados a distintos tipos de ojo rojo, generar alertas automáticas y priorizar derivaciones, contribuyendo a la optimización de recursos y a una atención médica más oportuna. En este contexto, el problema no se limita únicamente a la falta de personal especializado, sino también a la carencia de soluciones informáticas inteligentes que apoyen la toma de decisiones en tiempo real dentro del sistema de salud de Trujillo. En consecuencia, el objetivo general del presente estudio es desarrollar un modelo de redes neuronales artificiales para la detección binaria del síndrome del ojo rojo en imágenes oftálmicas. Para ello, se plantean los siguientes objetivos específicos: (1) entrenar modelos binarios basados en arquitecturas CNN y Transformers para clasificar imágenes como “ojo rojo” o “normal”; (2) evaluar el impacto de las arquitecturas DenseNet, ResNet, Inception, ViT y DeiT sobre el rendimiento del modelo; y (3) implementar un prototipo web funcional que integre el modelo con mejor desempeño para la detección automática del ojo rojo.

2. Metodología

2.1. Diseño del estudio

La investigación adoptó un diseño experimental computacional de tipo comparativo, orientado a evaluar el rendimiento de distintas arquitecturas de redes neuronales convolucionales (CNN) y modelos basados en Transformer para la detección binaria del síndrome del ojo rojo a partir de imágenes oftálmicas. Asimismo, se implementó un modelo híbrido que combina las arquitecturas consideradas en el estudio.

Cada arquitectura se consideró como una unidad experimental independiente y fue entrenada bajo las mismas condiciones de preprocesamiento, partición de datos y evaluación, con el fin de garantizar la reproducibilidad de los experimentos y permitir comparaciones válidas entre modelos.

2.2. Conjunto de datos

Se empleó una base de datos pública seleccionada por su disponibilidad, calidad visual y presencia de etiquetas clínicas, correspondiente al conjunto “Image Dataset on Eye Diseases Classification (Uveitis, Conjunctivitis, Cataract, Eyelid) with Symptoms and SMOTE Validation” (Bitto, 2024), disponible en Mendeley Data. El conjunto está conformado por 2 298 imágenes en formato JPG, obtenidas en condiciones de iluminación natural y clínica.

El corpus incluyó las siguientes clases originales: cataratas (544 imágenes), conjuntivitis (357), párpados caídos (525), normal (649) y uveítis (223), totalizando 2 298 imágenes. Para los fines de este estudio, las clases fueron reorganizadas en dos categorías con el fin de establecer un enfoque de detección binaria: Normal; imágenes etiquetadas como normal y Ojo rojo; imágenes correspondientes a las clases no normales del repositorio (cataratas, conjuntivitis, párpados caídos y uveítis).

Para la partición del conjunto de datos (N = 2 298) se realizó una división en entrenamiento, validación y prueba en proporción 70 % / 15 % / 15 %, mediante muestreo estratificado por clase, con el objetivo de preservar la proporción de imágenes “ojo rojo” y “normal” en cada subconjunto. Esta partición se aplicó de forma idéntica para todas las arquitecturas evaluadas, garantizando condiciones experimentales comparables.

Adicionalmente, se aplicó aumento de datos (data augmentation) con un factor ×10 exclusivamente sobre el conjunto de entrenamiento, con el objetivo de incrementar la variabilidad de las muestras durante el proceso de aprendizaje, sin modificar los conjuntos de validación ni de prueba.

2.3. Arquitecturas evaluadas

Se seleccionaron cinco modelos representativos de aprendizaje profundo, correspondientes a arquitecturas CNN y Transformers, además de un modelo híbrido.

a. Modelos CNN

DenseNet

Arquitectura caracterizada por la propagación eficiente de información entre capas, lo que reduce el problema del gradiente y mejora el aprendizaje de características visuales sutiles. Xu et al. (2023) reportaron que DenseNet-121 alcanzó un AUC aproximado de 0,998, con sensibilidad de 97,7 % y especificidad de 98,2 % en la detección de queratitis, lo que evidencia el alto potencial de esta arquitectura en aplicaciones oftalmológicas.

ResNet

Considerada una arquitectura de referencia en tareas de visión por computadora, debido a la incorporación de conexiones residuales que facilitan el entrenamiento de redes profundas. Hasan et al. (2025) desarrollaron un sistema explicable para diagnóstico y estadificación de glaucoma basado en ResNet, alcanzando un AUC de 0.96 (IC 95 %: 0.95–0.98), lo que demuestra su capacidad para tareas de diagnóstico clínico asistido por inteligencia artificial.

Inception

Arquitectura diseñada para capturar características a múltiples escalas mediante módulos paralelos de convolución. Pan et al. (2023) reportaron un desempeño competitivo de Inception en clasificación binaria de glaucoma frente a otras CNN en un conjunto amplio de imágenes de fondo de ojo, lo que respalda su utilidad en tareas de cribado oftalmológico

b. Modelos Transformer

Vision Transformer (ViT)

Primer modelo que adaptó la arquitectura Transformer al procesamiento de imágenes, dividiendo la entrada en parches y aplicando mecanismos de autoatención para aprender representaciones globales. Hui et al. (2024) demostraron que los Vision Transformers pueden superar a las CNN en el análisis de fotografías de fondo de ojo, evidenciando la capacidad de la autoatención para capturar patrones globales relevantes.

Data-efficient Image Transformer (DeiT)

Propuesto para abordar una limitación importante de los Vision Transformers: la necesidad de grandes volúmenes de datos para su entrenamiento. Le et al. (2024) reportaron que DeiT mantiene un desempeño competitivo incluso con conjuntos de datos de tamaño moderado, lo que facilita su aplicación en contextos clínicos donde los datasets suelen ser limitados.

c. Modelo híbrido CNN–Transformer

Con el propósito de combinar la capacidad de las CNN para extraer características locales con la habilidad de los Transformers para modelar dependencias globales, se evaluó un modelo híbrido CNN–Transformer. Esta aproximación busca integrar información espacial detallada con representaciones globales de la imagen. En este contexto, Rajatha y Ashoka (2025) propusieron el modelo híbrido EffiViT, el cual alcanzó un AUC de 0.9466 y un F1-score de 0.75, mostrando mejoras respecto a métodos previos. Estos resultados evidencian el potencial de las arquitecturas híbridas para tareas de clasificación binaria en imágenes médicas, lo que justifica su inclusión en el presente estudio para la detección automática del síndrome del ojo rojo.

2.4. Configuración de entrenamiento e Hiperparametros

La Tabla 1 presenta las arquitecturas específicas empleadas en el estudio para cada enfoque evaluado, incluyendo modelos basados en redes neuronales convolucionales (CNN) —ResNet-18, Inception-Next-Small y DenseNet-121— y modelos basados en Transformer —DeiT-Tiny y ViT-Tiny—. Estas arquitecturas fueron seleccionadas debido a su uso frecuente y al buen desempeño reportado en tareas de clasificación de imágenes médicas.

Tabla 1 Enfoque evaluado de cada arquitectura
Arquitectura	Tipo de modelo	Implementación
ResNet	CNN	resnet18
Inception	CNN	inception_next_small
DenseNet	CNN	densenet121
DeiT	Transformer	deit_tiny_patch16_224
ViT	Transformer	vit_tiny_patch16_224

Por otro lado, la Tabla 2 resume los hiperparámetros de entrenamiento aplicados de manera uniforme en todos los modelos, con el fin de garantizar condiciones experimentales homogéneas y permitir comparaciones válidas entre arquitecturas. Entre los parámetros considerados se incluyen el número máximo de épocas de entrenamiento, el tamaño de lote, la tasa de aprendizaje, el criterio de early stopping, el tamaño de entrada de la imagen y el factor de aumento de datos.

Tabla 2 Hiperparámetros de entrenamiento para cada modelo
Parámetro	Valor
Número máximo de épocas	30
Tamaño de lote (batch size)	32
Tasa de aprendizaje	1,00 × 10⁻⁴
Paciencia (early stopping)	3
Tamaño de entrada de imagen	224 × 224
Factor de aumento de datos	×10

Modelo híbrido: mecanismo de fusión

El modelo híbrido se implementó mediante un esquema de ensamble tipo stacking. En una primera etapa, cada arquitectura base (CNN y Transformers) genera una salida probabilística a través de la función softmax, produciendo un vector de probabilidades asociado a cada clase. Posteriormente, estos vectores se concatenan para formar un único vector de características, que se utiliza como entrada para un meta-clasificador basado en XGBoost, encargado de producir la predicción final.

El meta-modelo genera tanto la clase estimada como la probabilidad asociada a cada categoría, lo que permite integrar la información proveniente de todos los modelos base en una única decisión final más robusta y consistente.

La Figura 1 resume el pipeline completo: preprocesamiento, inferencia con modelos base (CNN y Transformers), concatenación de probabilidades (softmax) y fusión mediante stacking con XGBoost. El aumento de datos se aplica únicamente en el conjunto de entrenamiento.

Figura 1

Diagrama de flujo del pipeline y del modelo híbrido (stacking con XGBoost)

2.5. Métricas de evaluación

La evaluación del rendimiento se realizó mediante las siguientes métricas ampliamente utilizadas en visión médica:

Exactitud (Accuracy): Representa la proporción de predicciones correctas respecto al total de casos evaluados. Sin embargo, en presencia de desbalance de clases esta métrica puede resultar poco representativa; por ello, se complementa con métricas más robustas como MCC, F1-score y AUC. En estudios de imágenes médicas, Müller (2022) señala que la exactitud suele utilizarse como medida general de reconocimiento de patrones. No obstante, valores superiores al 90 % deben interpretarse con cautela cuando se analizan de forma aislada, ya que pueden ocultar problemas asociados al desbalance de clases.

Precisión (Precision): Se define como la proporción de casos correctamente identificados como positivos respecto al total de muestras clasificadas como positivas por el modelo. Devikala et al. (2025) destacan que esta métrica permite evaluar la confiabilidad de las predicciones positivas generadas por el clasificador.

Sensibilidad (Recall): También denominada recall, representa la capacidad del modelo para identificar correctamente los casos positivos. En el contexto clínico, esta métrica resulta especialmente relevante para detectar correctamente a los pacientes con la condición evaluada. Rainio et al. (2024) indican que la sensibilidad, junto con la especificidad, proporciona una visión más completa del desempeño del modelo, especialmente cuando existe desbalance entre clases.

F1-score: El F1-score corresponde a la media armónica entre la precisión y la sensibilidad, lo que permite evaluar el equilibrio entre ambas métricas. Molina Arias (2024) señala que esta medida es especialmente útil en pruebas diagnósticas, ya que integra información tanto del valor predictivo positivo como de la capacidad de detección del modelo.

Matthews Correlation Coefficient (MCC): El MCC se considera una medida más completa para evaluar clasificadores binarios, ya que tiene en cuenta verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos en un único indicador. Chicco y Jurman (2020) demostraron que, en comparación con métricas tradicionales, el MCC mantiene mayor estabilidad estadística y proporciona una evaluación más equilibrada cuando se analizan datos clínicos complejos.

Área bajo la curva ROC (AUC): El área bajo la curva ROC evalúa la capacidad del modelo para discriminar entre clases positivas y negativas a diferentes umbrales de decisión. Reifs Jiménez et al. (2025) indican que esta métrica resulta especialmente útil en conjuntos de datos con desbalance entre clases.

Estas métricas permiten evaluar no solo el rendimiento global del modelo, sino también su estabilidad en entornos clínicos donde minimizar los falsos negativos resulta prioritario. Además, se generaron matrices de confusión y curvas ROC para visualizar el comportamiento de los clasificadores sobre el conjunto de prueba.

2.6. Análisis estadístico

Para determinar si existían diferencias estadísticamente significativas entre los modelos CNN, Transformer y el modelo híbrido, se aplicó la prueba de McNemar, la cual permite evaluar si las discrepancias observadas entre dos clasificadores se deben al azar o reflejan diferencias reales en su capacidad de clasificación.

Para la implementación de esta prueba se emplearon las siguientes librerías de Python:

- Statsmodels: Utilizada para la ejecución formal de la prueba de McNemar y el cálculo del estadístico χ² y su valor p, proporcionando una base estadística robusta.

- Scipy: Empleada como respaldo para funciones estadísticas complementarias y validación de resultados.

- Numpy: Utilizada para la manipulación eficiente de arreglos y la construcción de las tablas de contingencia a partir de las predicciones de los modelos.

- Pandas: Empleada para la organización y gestión estructurada de los resultados experimentales y métricas comparativas.

2.7. Ambiente computacional

Los experimentos se ejecutaron en un entorno computacional compuesto por un procesador Intel Core i9-13900H con 14 núcleos y 20 hilos a una frecuencia base de 2,60 GHz, acompañado de una GPU NVIDIA RTX 4060 con 8 GB de memoria. El sistema utilizó una unidad de almacenamiento SSD NVMe Micron 3400 de 512 GB con velocidades aproximadas de lectura y escritura de 6600/3600 MB/s. Además, se contó con 32 GB de memoria RAM DDR5 (2 × 16 GB) a 5200 MT/s, lo que permitió ejecutar eficientemente los procesos de entrenamiento y evaluación de los modelos.

El desarrollo y entrenamiento de los modelos se realizó en Visual Studio Code versión 1.102.1, utilizando Python versión 3.10.0. Para el entrenamiento de redes neuronales se empleó PyTorch (torch 2.7.1+cu118) junto con torchvision 0.22.1+cu118 para tareas de visión por computadora. Asimismo, se utilizaron las siguientes bibliotecas: timm 1.0.17, NumPy 1.26.4 y pandas 2.1.3 para procesamiento de datos; scikit-learn 1.6.1 para métricas y utilidades de evaluación; albumentations 2.0.8 para aumento de datos; matplotlib 3.8.2 para visualización; tqdm 4.67.1 para monitoreo del progreso de entrenamiento; y psutil 7.0.0 y GPUtil 1.4.0 para el monitoreo de recursos del sistema.

Para la generación de reportes se utilizaron Pillow 10.4.0 para el manejo de imágenes y reportlab 4.4.0 para la creación de documentos PDF. El módulo datetime (incluido en Python) se empleó para la gestión de fechas y horas. Finalmente, la aplicación web desarrollada para el despliegue del sistema se implementó utilizando HTML, CSS y JavaScript.

3. Resultados

Se evaluaron cinco arquitecturas de aprendizaje profundo: tres redes convolucionales (DenseNet, ResNet e Inception) y dos modelos basados en Transformer (ViT y DeiT), todas ajustadas para la clasificación binaria del síndrome del ojo rojo. Para cada modelo se seleccionó la mejor época de entrenamiento en función del Matthews Correlation Coefficient (MCC), debido a su mayor robustez frente a posibles desbalances de clase.

En términos globales, como se observa en la Tabla 3, todos los modelos alcanzaron un rendimiento elevado, con valores de F1 superiores a 0,92, AUC cercanos o superiores a 0,98 y MCC por encima de 0,90, lo que evidencia una alta capacidad de discriminación entre las clases “ojo rojo” y “normal.

Estos resultados evidencian un desempeño alto y consistente entre las arquitecturas evaluadas. La Figura 2 presenta la comparación gráfica de las principales métricas, donde se observa que todos los modelos superan umbrales comúnmente aceptados en clasificación médica (F1 > 0,90 y MCC > 0,85), lo que indica una capacidad estable para discriminar entre imágenes con ojo rojo y ojos normales.

El análisis de la evolución durante el entrenamiento muestra que el modelo DeiT, seleccionado como referencia para ilustrar el comportamiento del aprendizaje, redujo su pérdida de entrenamiento de 0,74 a 0,29 entre las épocas 1 y 6, mientras que el F1-score aumentó de 0,89 a 0,94 y el MCC de 0,86 a 0,92. A partir de este punto, las mejoras adicionales fueron marginales y se observaron ligeras oscilaciones en las métricas, lo que sugiere el inicio de un posible sobreajuste. Este comportamiento indica que un número moderado de épocas de entrenamiento (entre 6 y 10) resulta suficiente para alcanzar un rendimiento estable, pudiéndose aplicar estrategias de early stopping para reducir el tiempo de cómputo sin afectar significativamente el desempeño.

Las matrices de confusión asociadas a la mejor época de cada modelo evidenciaron un elevado número de aciertos en ambas clases y un número reducido de falsos negativos, aspecto especialmente relevante en contextos clínicos donde omitir un caso positivo puede tener consecuencias importantes para el paciente. En particular, ResNet y DeiT mostraron una proporción equilibrada de verdaderos positivos y verdaderos negativos, consistente con sus valores elevados de MCC.

Tabla 3 *Resumen de resultados*
Modelos	Época	Pérdida Entrenamiento	MCC Actual	F1	Precisión	Recall	AUC	Accuracy
DeiT	6	0,291	0,918	0,936	0,938	0,936	0,990	0,936
DenseNet	10	0,340	0,901	0,923	0,925	0,923	0,988	0,923
Inception	7	0,312	0,900	0,922	0,922	0,923	0,992	0,923
ResNet	9	0,330	0,918	0,938	0,941	0,936	0,993	0,936
Vit	9	0,352	0,910	0,930	0,934	0,930	0,987	0,930

Figura 2

Resultados de los modelos según las métricas

3.1. Rendimiento computacional

Además del desempeño predictivo, se evaluó el rendimiento computacional de los modelos durante el proceso de entrenamiento. La Tabla 4 presenta métricas relacionadas con el tiempo de entrenamiento, uso de CPU, consumo de memoria RAM y utilización de GPU para la mejor época de cada arquitectura.

Como se observa en la Figura 3, los tiempos de entrenamiento por época fueron comparables entre arquitecturas, con ligeras variaciones. Inception presentó el mayor tiempo de entrenamiento, mientras que ResNet fue el modelo más rápido. Por su parte, los modelos Transformer (ViT y DeiT) se ubicaron en un rango intermedio debido a su mayor complejidad computacional. No obstante, el rendimiento obtenido por DeiT en términos de métricas de clasificación compensó parcialmente este costo adicional. En contraste, ResNet mostró un equilibrio favorable entre eficiencia computacional y desempeño predictivo, lo que coincide con su estabilidad reportada en diversas aplicaciones de clasificación médica

3.2. Resultados del modelo híbrido

El modelo híbrido, basado en la combinación de arquitecturas CNN (ResNet, Inception y DenseNet) y modelos Transformer (DeiT y ViT), mostró uno de los mejores desempeños globales entre los enfoques evaluados. Como se presenta en la Tabla 5, el modelo alcanzó valores elevados y equilibrados en las métricas de evaluación, destacando por su alta capacidad discriminativa y estabilidad en la clasificación binaria del síndrome del ojo rojo.

Asimismo, estos resultados indican que la integración de información local (CNN) y global (Transformers) contribuye a mejorar el desempeño general frente a los modelos individuales. La Figura 4 presenta una comparación global de las métricas obtenidas por cada modelo, evidenciando la ventaja del enfoque híbrido en términos de capacidad discriminativa.

Tabla 4 *Rendimiento computacional de los modelos*
Modelo	Época óptima	Tiempo entrenamiento (s)	Tiempo validación (s)	CPU entrenamiento (%)	RAM entrenamiento (%)	GPU entrenamiento (%)	VRAM entrenamiento (MB)
DeiT	6	138,64	44,08	7,08	55,43	40,35	385
DenseNet	10	138,45	44,75	13,71	51,41	34,96	645
Inception	7	157,41	46	6,79	51,02	46,11	939
ResNet	9	132,31	54,04	23,41	61,77	15,92	1 390,0
ViT	9	137,8	44,14	7,17	55,01	33,88	385

Figura 3

Gráfico de rendimiento

Tabla 5

Resultado del modelo hibrido

MCC Actual

Precisión

Recall

AUC

Accuracy

0,925

0,924

0,919

0,929

0,996

0,942

Figura 4

Resumen de las métricas de cada modelo en general de todos

3.3. Comparación estadística entre modelos

Con el fin de fortalecer la evaluación, se aplicó la prueba de McNemar, cuyos resultados se presentan en la Tabla 6. El análisis indicó que no existen diferencias estadísticamente significativas entre el modelo híbrido y ResNet (p = 0,1489).

Tabla 6

Resultados de la prueba de McNemar para la comparación entre ResNet y el modelo híbrido

χ²

p-value

Interpretación

2,0833

0,1489

No hay diferencia significativa en los modelos

Este resultado sugiere que ambos modelos presentan un comportamiento de clasificación comparable sobre el mismo conjunto de prueba, proporcionando respaldo estadístico a la comparación entre arquitecturas CNN, Transformers y el enfoque híbrido.

3.4. Matrices de confusión y prototipo del sistema

La Figura 5 presenta las matrices de confusión correspondientes a los dos modelos con mejor desempeño global: el modelo híbrido y ResNet. En ambos casos se observa una adecuada concentración de predicciones en la diagonal principal, lo que indica una alta concordancia entre las etiquetas reales y las predichas. El modelo híbrido muestra una ligera reducción en los errores de clasificación, evidenciando una mejor integración de la información generada por los modelos base

Figura 5

Matrices de confusión de los mejores modelos (Hibrido – Resnet)

Finalmente, la Figura 6 muestra la interfaz del prototipo web desarrollado para cargar imágenes y visualizar la predicción generada por el sistema (clase estimada y probabilidad asociada). Esta figura se incluye como evidencia de implementación del sistema; no obstante, la validación del desempeño del modelo se sustenta principalmente en las métricas cuantitativas, matrices de confusión y pruebas estadísticas presentadas.

Figura 6

Interfaz del sistema Eyeres

Como complemento, el sistema genera un reporte automático en formato PDF que resume la predicción final del modelo híbrido junto con la imagen evaluada. Este reporte permite una rápida revisión del resultado y facilita la trazabilidad del análisis, aunque la evaluación científica del desempeño se fundamenta en las métricas y análisis estadísticos previamente descritos

4. Discusión

Los resultados obtenidos evidencian un desempeño alto y consistente en las cinco arquitecturas evaluadas, con valores de MCC ≥ 0,900, F1 ≥ 0,922 y AUC ≥ 0,987. En particular, el modelo híbrido alcanzó un rendimiento equilibrado y competitivo, destacando por su elevada capacidad discriminativa (AUC) y estabilidad global (MCC). Estos resultados respaldan la hipótesis de que la combinación de arquitecturas CNN y Transformers puede aportar mayor robustez en tareas de clasificación clínica, especialmente cuando las señales visuales son sutiles y heterogéneas, como ocurre en imágenes del segmento anterior del ojo.

Al contrastar estos hallazgos con la literatura científica, se observa coherencia con estudios que reportan altos niveles de desempeño en el análisis de imágenes oftálmicas. Por ejemplo, Li et al. (2021) reportaron un rendimiento cercano al máximo teórico en la detección de queratitis, con AUC de 0,998, sensibilidad de 97,7 % y especificidad de 98,2 %. Aunque el objetivo clínico y el conjunto de datos utilizados en dicho estudio difieren del presente trabajo, esta comparación sugiere que, cuando se dispone de datos bien anotados y representativos, los modelos de aprendizaje profundo pueden alcanzar niveles elevados de discriminación diagnóstica.

Desde una perspectiva más amplia, el metaanálisis realizado por Ong et al. (2024) sobre queratitis infecciosa estimó una sensibilidad de 86,2 % y especificidad de 96,3 % en evaluaciones externas frente al estándar clínico de referencia, señalando además una comparabilidad significativa con el desempeño de oftalmólogos en ciertos subanálisis. Estos resultados son relevantes para la interpretación de los hallazgos del presente estudio, ya que evidencian que el rendimiento observado en evaluaciones internas suele disminuir cuando los modelos se enfrentan a conjuntos de datos externos. En este sentido, aunque los resultados obtenidos muestran un desempeño sólido en el conjunto evaluado, un paso necesario para fortalecer la validez clínica del sistema sería realizar validaciones externas o esquemas de validación cruzada estratificados por fuente o condiciones de captura.

De manera similar, Ueno et al. (2024) desarrollaron un sistema de inteligencia artificial para la detección de múltiples enfermedades del segmento anterior utilizando imágenes capturadas con teléfonos inteligentes. En su estudio reportaron AUC de 0,986 para queratitis infecciosa y AUC de 0,992 para cataratas, así como valores cercanos a 1,0 en otras categorías diagnósticas. Aunque dicho trabajo aborda un problema multiclase y emplea un pipeline diferente, sus resultados respaldan la capacidad de los enfoques basados en aprendizaje profundo para mantener un alto nivel de discriminación incluso en escenarios de adquisición de imágenes más variables, como los obtenidos mediante dispositivos móviles. Este aspecto resulta especialmente relevante para la propuesta del presente estudio, orientada hacia el desarrollo de sistemas de apoyo clínico potencialmente desplegables.

En relación con la comparación entre arquitecturas CNN, Vision Transformers y modelos híbridos, el estudio de Zhang et al. (2025) sobre retinopatía diabética (tarea multiclase) reportó que los enfoques híbridos pueden alcanzar un desempeño más equilibrado al integrar características locales y globales. En su trabajo, el mejor modelo obtuvo una exactitud de 72,93 % y un coeficiente QWK de 0,841, reflejando la complejidad de la clasificación por niveles de severidad. Aunque este contexto difiere del problema abordado en el presente estudio (clasificación binaria en imágenes del segmento anterior), dichos resultados aportan evidencia adicional de que las arquitecturas híbridas pueden mejorar la robustez y estabilidad de los modelos al combinar distintos mecanismos de representación visual.

A pesar de los resultados prometedores, este estudio presenta algunas limitaciones que deben ser consideradas. En primer lugar, la recategorización binaria utilizada se definió de manera operativa a partir de las etiquetas disponibles en el repositorio, agrupando distintos diagnósticos en la clase “ojo rojo”. Por lo tanto, la clase positiva no representa una etiología única y puede incluir variabilidad clínica entre patologías. En segundo lugar, el conjunto de datos proviene de una fuente pública y podría no reflejar completamente la variabilidad presente en escenarios clínicos reales, incluyendo diferencias en dispositivos de captura, condiciones de iluminación o niveles de severidad de la enfermedad. En tercer lugar, no se realizó una validación externa multicéntrica, por lo que el rendimiento observado podría variar al aplicarse en contextos clínicos distintos. Finalmente, el uso de un modelo híbrido basado en ensamble incrementa el costo computacional del sistema, lo que podría limitar su implementación en entornos con recursos tecnológicos restringidos.

Como líneas de trabajo futuro, se plantea ampliar el conjunto de datos incorporando imágenes provenientes de diferentes fuentes clínicas, realizar validaciones externas multicéntricas y explorar técnicas de calibración de probabilidades y métodos de explicabilidad (XAI) que permitan interpretar las decisiones del modelo. Estas estrategias contribuirían a fortalecer la confiabilidad del sistema y facilitar su potencial integración como herramienta de apoyo en la práctica clínica.

5. Conclusiones

El Los resultados obtenidos demuestran que la inteligencia artificial, aplicada mediante redes neuronales profundas, constituye una herramienta eficaz para la detección binaria del síndrome del ojo rojo a partir de imágenes oftálmicas. Todos los modelos evaluados alcanzaron un alto desempeño, con valores de AUC superiores a 0,98 y MCC mayores a 0,90, lo que confirma la capacidad de los enfoques de aprendizaje profundo para analizar de manera confiable este tipo de patologías.

El modelo híbrido, basado en la combinación de arquitecturas CNN y Transformers, obtuvo el mejor rendimiento global, alcanzando un AUC de 0,996, un MCC de 0,925, un F1-score de 0,924 y una exactitud de 94,20 %. Estos resultados evidencian que la integración de características locales y globales contribuye a mejorar la estabilidad y la capacidad discriminativa del sistema frente a modelos individuales.

El análisis estadístico mediante la prueba de McNemar indicó que no se observaron diferencias estadísticamente significativas entre el modelo híbrido y el modelo individual de mejor desempeño (ResNet), lo que sugiere un comportamiento consistente entre ambas aproximaciones en la clasificación de imágenes oftálmicas.

Desde una perspectiva clínica, los resultados respaldan el potencial de la inteligencia artificial como herramienta de apoyo al diagnóstico médico, al facilitar la detección temprana del síndrome del ojo rojo. En este sentido, el sistema propuesto podría contribuir a mejorar los procesos de cribado, telemedicina y apoyo a la toma de decisiones clínicas, especialmente en contextos donde el acceso a especialistas en oftalmología es limitado.

Contribución de los autores

M. Torres: Conceptualización, curación de datos, análisis formal, investigación, metodología, Administración del proyecto, recursos, software, supervisión, visualización y redacción del borrador original. J. P. Santos: Conceptualización, análisis formal, adquisición de fondos, administración del proyecto, supervisión, validación, redacción del borrador original y revisión y edición del manuscrito.

Conflictos de interés

Los autores declaran no tener ningún conflicto de interés relacionado con esta publicación.

6. Referencias bibliográficas

Bitto, A. K. (2024). Image Dataset on Eye Diseases Classification (Uveitis, Conjunctivitis, Cataract, Eyelid) with Symptoms and SMOTE Validation. Mendeley Data, 2. https://doi.org/10.17632/n9zp473wfw.2

Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics 21(1). https://doi.org/10.1186/s12864-019-6413-7

Dag, Y., Seyfi Aydın, & Ebrar Kumantas. (2024). The profile of patients attending to the general emergency department with ocular complaints within the last year: is it a true ocular emergency? BMC Ophthalmology, 24(1). https://doi.org/10.1186/s12886-024-03608-1

Devikala, S., Vinoth, S., Shaby, S. M., Govindaraju, A. B., Vidhya, K., & Vijayalakshmi, K. (2025). A Multi-Component Attention Graph Convolutional Neural Network Optimized by the Gooseneck Barnacle Algorithm for High-Precision ECG Arrhythmia Classification in Sensor-Based Biomedical Systems. Biomedical Signal Processing and Control, 113, 108866. https://doi.org/10.1016/j.bspc.2025.108866

Hasan, M. M., Phu, J., Wang, H., Sowmya, A., Kalloniatis, M., & Meijering, E. (2025). OCT-based diagnosis of glaucoma and glaucoma stages using explainable machine learning. Scientific Reports, 15(1). https://doi.org/10.1038/s41598-025-87219-w

Hui, J., Ang, E., Srinivasan, S., Lei, X., Loh, J., Quek, T. C., Xue, C., Xu, X., Liu, Y., Cheng, C.-Y., Rajapakse, J. C., & Tham, Y.-C. (2024). Comparative Analysis of Vision Transformers and Conventional Convolutional Neural Networks in Detecting Referable Diabetic Retinopathy. Ophthalmology Science, 4(6), 100552–100552. https://doi.org/10.1016/j.xops.2024.100552

Le, N. T., Le Truong, T., Deelertpaiboon, S., Srisiri, W., Pongsachareonnont, P. F., Suwajanakorn, D., Mavichak, A., Itthipanichpong, R., Asdornwised, W., Benjapolakul, W., Chaitusaney, S., & Kaewplung, P. (2024). ViT‐AMD: A New Deep Learning Model for Age‐Related Macular Degeneration Diagnosis From Fundus Images. International Journal of Intelligent Systems, 2024(1). https://doi.org/10.1155/2024/3026500

Li, Z., Jiang, J., Chen, K., Chen, Q., Zheng, Q., Liu, X., Weng, H., Wu, S., & Chen, W. (2021). Preventing corneal blindness caused by keratitis using artificial intelligence. Nature Communications, 12(1). https://doi.org/10.1038/s41467-021-24116-6

Molina Arias, M. (2024). Un intruso de otro mundo: F1-score. Revista Electrónica AnestesiaR, 16(4), 3. https://doi.org/10.30445//rear.v16i4.1258

Müller, D., Soto-Rey, I., & Kramer, F. (2022). Towards a guideline for evaluation metrics in medical image segmentation. BMC Research Notes, 15(1). https://doi.org/10.1186/s13104-022-06096-y

Ong, Z. Z., Sadek, Y., Qureshi, R., Liu, S.-H., Li, T., Liu, X., Takwoingi, Y., Sounderajah, V., Ashrafian, H., Ting, D. S. W., Mehta, J. S., Rauz, S., Said, D. G., Dua, H. S., Burton, M. J., & Ting, D. S. J. (2024). Diagnostic performance of deep learning for infectious keratitis: a systematic review and meta-analysis. EClinicalMedicine, 77, 102887. https://doi.org/10.1016/j.eclinm.2024.102887

Pan, Y., Liu, J., Cai, Y., Yang, X., Zhang, Z., Long, H., Zhao, K., Yu, X., Zeng, C., Duan, J., Xiao, P., Li, J., Cai, F., Yang, X., & Tan, Z. (2023). Fundus image classification using Inception V3 and ResNet-50 for the early diagnostics of fundus diseases. Frontiers in Physiology, 14. https://doi.org/10.3389/fphys.2023.1126780

Rainio, O., Teuho, J., & Klén, R. (2024). Evaluation metrics and statistical tests for machine learning. Scientific Reports, 14(1). https://doi.org/10.1038/s41598-024-56706-x

Rajatha, & Ashoka, D. V. (2025). EffiViT: Hybrid CNN-Transformer for Retinal Imaging. Computers in Biology and Medicine, 191, 110164. https://doi.org/10.1016/j.compbiomed.2025.110164

Reifs Jiménez, D., Casanova-Lozano, L., Grau-Carrión, S., & Reig-Bolaño, R. (2025). Artificial Intelligence Methods for Diagnostic and Decision-Making Assistance in Chronic Wounds: A Systematic Review. Journal of Medical Systems, 49(1). https://doi.org/10.1007/s10916-025-02153-8

Sargolzaeimoghaddam, M., Maral Sargolzaeimoghaddam, Kothari, Z., Sebhat, A. M., & Soleimani, M. (2025). Review of ophthalmic emergencies in primary care: a comprehensive approach to red eye. Annals of Eye Science, 10, 20–20. https://doi.org/10.21037/aes-25-10

Tamimi, A., Allawi, M. N., & Kishore Hanumantharayappa. (2023). Characterization of red eye cases presented to the eye emergency clinic at a tertiary care hospital during COVID-19 Pandemic. Oman Journal of Ophthalmology, 16(2), 220–226. https://doi.org/10.4103/ojo.ojo_224_22

Ueno, Y., Oda, M., Yamaguchi, T., Fukuoka, H., Nejima, R., Kitaguchi, Y., Miyake, M., Akiyama, M., Miyata, K., Kashiwagi, K., Maeda, N., Shimazaki, J., Noma, H., Mori, K., & Oshika, T. (2024). Deep learning model for extensive smartphone-based diagnosis and triage of cataracts and multiple corneal diseases. British Journal of Ophthalmology, 108(10), 1406–1413. https://doi.org/10.1136/bjo-2023-324488

Xu, Z., Xu, J., Shi, C., Xu, W., Jin, X., Han, W., Jin, K., Grzybowski, A., & Yao, K. (2023). Artificial Intelligence for Anterior Segment Diseases: A Review of Potential Developments and Clinical Applications. Ophthalmology and Therapy, 12(3), 1439–1455. https://doi.org/10.1007/s40123-023-00690-4

Zhang, W., Belcheva, V., & Ermakova, T. (2025). Interpretable Deep Learning for Diabetic Retinopathy: A Comparative Study of CNN, ViT, and Hybrid Architectures. Computers, 14(5), 187–187. https://doi.org/10.3390/computers14050187