Grupo de investigación InnoTep

Descripción General

El objetivo de este TFG es diseñar e implementar un sistema de “Security Gateway” (pasarela de seguridad) para entornos sanitarios, capaz de interceptar, analizar y auditar flujos de texto clínico antes de que sean procesados por sistemas de decisión crítica.

Motivación

La vulnerabilidad de los Grandes Modelos de Lenguaje (LLMs) ante ataques de envenenamiento de datos (Data Poisoning) representa un riesgo crítico en entornos sanitarios. Pequeñas manipulaciones en el texto (inyecciones indirectas o palabras “gatillo”) pueden forzar diagnósticos erróneos o fugas de información, siendo invisibles para los controles de calidad tradicionales.

Marco de Defensa: MEDLEY

El sistema implementará el marco de defensa MEDLEY (Medical Ensemble Diagnostic system with Leveraged diversitY) descrito en la literatura reciente.

Premisa clave: En lugar de depender de un único modelo de IA, la plataforma orquestará un ensamble de modelos heterogéneos (con diferentes arquitecturas). Mientras un modelo puede ser vulnerable a un ataque específico, es estadísticamente improbable que múltiples modelos diversos fallen de la misma manera ante la misma entrada maliciosa.

Arquitectura del Sistema

La plataforma actuará como una capa de gobernanza y monitoreo, realizando las siguientes funciones:

Recepción: Recibir textos clínicos (ej. notas clínicas simuladas)
Distribución: Enviar textos a múltiples motores de análisis en paralelo
Medición: Calcular métricas de discrepancia (entropía/desacuerdo)
Alerta: Generar alertas de seguridad ante patrones anómalos de divergencia

Objetivos Concretos

1. Arquitectura de Mediación Modular

Diseñar una arquitectura completa que incluya:

Módulo de Ingestión

Recibir y normalizar entradas de texto
Simular historias clínicas sintéticas

Módulo de Orquestación

Distribución de carga hacia múltiples motores de inferencia (IA)
Ejecución en paralelo

Módulo de Auditoría (MEDLEY)

Cálculo en tiempo real de métricas de desacuerdo entre modelos
Detección de anomalías

2. Entorno de Simulación de Ataques (Red Teaming)

Implementar capacidades de testing adversarial:

Generación de Dataset Controlado

Usar datos públicos como MTSamples
Inyectar “marcas” o triggers (palabras clave o patrones sintácticos)
Validar respuestas detectablemente divergentes

Configuración de Modelos “Víctima”

Fine-tuning ligero de modelos de lenguaje
Hacer que reaccionen a triggers específicos
Validar la efectividad de la amenaza

3. Mecanismo de Detección de Diversidad

Implementar la lógica de detección:

Integración de Arquitecturas Múltiples

Al menos dos arquitecturas de modelos distintas
- Ejemplo: uno basado en BERT
- Ejemplo: otro basado en reglas o variante destilada

Lógica de Decisión

Pregunta crítica: ¿Cuándo un desacuerdo se considera alerta de seguridad vs. ambigüedad clínica legítima?
Definir umbrales y métricas apropiadas
Implementar sistema de clasificación de alertas

4. Dashboard de Observabilidad y Alertas

Desarrollar interfaz de monitoreo:

Visualizaciones

Intentos de ataque detectados
Tasa de discrepancia promedio
Métricas de seguridad en tiempo real

Funcionalidades

Alertas configurables
Histórico de eventos
Análisis de tendencias

Tecnologías y Herramientas

Modelos y Frameworks

Transformers (Hugging Face)
BERT y variantes
LLMs diversos para el ensamble

Backend y Orquestación

Python
FastAPI o similar para APIs
Gestión de colas para distribución de carga

Monitoreo y Visualización

Dashboard web (React/Vue o similar)
Grafana o herramientas equivalentes

Perfil del Estudiante

Requisitos:

Conocimientos sólidos de Python
Fundamentos de Machine Learning y NLP
Interés en ciberseguridad y sistemas críticos
Capacidad de trabajo autónomo

Deseable:

Experiencia con Transformers y LLMs
Conocimiento de arquitecturas de microservicios
Familiaridad con metodologías de Red Teaming

Duración y Modalidad

Duración estimada: 4-6 meses
Modalidad: Híbrida (presencial/remota flexible)
Tipo: TFG (Proyecto Fin de Grado)

Resultados Esperados

Sistema funcional de Security Gateway para texto clínico
Dataset de evaluación con ataques sintéticos documentados
Métricas de rendimiento de detección de anomalías
Dashboard de monitoreo operativo
Documentación técnica completa
Posibilidad de publicación científica

Supervisión y Apoyo

Este proyecto será supervisado por investigadores expertos de InnoTep con experiencia en:

Inteligencia Artificial aplicada a salud
Ciberseguridad y sistemas críticos
Procesamiento de Lenguaje Natural

Apoyo técnico:

Acceso a recursos computacionales
Datasets públicos de texto clínico
Modelos pre-entrenados
Revisiones semanales de progreso

Contacto

Para más información o expresar interés en este proyecto:

📧 Email: gi.innotep@upm.es
🏛️ Ubicación: ETSIST - Universidad Politécnica de Madrid

¿Te interesa este proyecto? Contáctanos para discutir los detalles y comenzar tu TFG en un área de investigación de alto impacto.

TFG: Sistema de Auditoría y Detección de Inyecciones Adversarias en IA Clínica

Security Gateway para protección de sistemas de IA en entornos sanitarios