TFG: Sistema de Auditoría y Detección de Inyecciones Adversarias en IA Clínica

Security Gateway para protección de sistemas de IA en entornos sanitarios

Descripción General

El objetivo de este TFG es diseñar e implementar un sistema de “Security Gateway” (pasarela de seguridad) para entornos sanitarios, capaz de interceptar, analizar y auditar flujos de texto clínico antes de que sean procesados por sistemas de decisión crítica.

Motivación

La vulnerabilidad de los Grandes Modelos de Lenguaje (LLMs) ante ataques de envenenamiento de datos (Data Poisoning) representa un riesgo crítico en entornos sanitarios. Pequeñas manipulaciones en el texto (inyecciones indirectas o palabras “gatillo”) pueden forzar diagnósticos erróneos o fugas de información, siendo invisibles para los controles de calidad tradicionales.

Marco de Defensa: MEDLEY

El sistema implementará el marco de defensa MEDLEY (Medical Ensemble Diagnostic system with Leveraged diversitY) descrito en la literatura reciente.

Premisa clave: En lugar de depender de un único modelo de IA, la plataforma orquestará un ensamble de modelos heterogéneos (con diferentes arquitecturas). Mientras un modelo puede ser vulnerable a un ataque específico, es estadísticamente improbable que múltiples modelos diversos fallen de la misma manera ante la misma entrada maliciosa.

Arquitectura del Sistema

La plataforma actuará como una capa de gobernanza y monitoreo, realizando las siguientes funciones:

  1. Recepción: Recibir textos clínicos (ej. notas clínicas simuladas)
  2. Distribución: Enviar textos a múltiples motores de análisis en paralelo
  3. Medición: Calcular métricas de discrepancia (entropía/desacuerdo)
  4. Alerta: Generar alertas de seguridad ante patrones anómalos de divergencia

Objetivos Concretos

1. Arquitectura de Mediación Modular

Diseñar una arquitectura completa que incluya:

Módulo de Ingestión

  • Recibir y normalizar entradas de texto
  • Simular historias clínicas sintéticas

Módulo de Orquestación

  • Distribución de carga hacia múltiples motores de inferencia (IA)
  • Ejecución en paralelo

Módulo de Auditoría (MEDLEY)

  • Cálculo en tiempo real de métricas de desacuerdo entre modelos
  • Detección de anomalías

2. Entorno de Simulación de Ataques (Red Teaming)

Implementar capacidades de testing adversarial:

Generación de Dataset Controlado

  • Usar datos públicos como MTSamples
  • Inyectar “marcas” o triggers (palabras clave o patrones sintácticos)
  • Validar respuestas detectablemente divergentes

Configuración de Modelos “Víctima”

  • Fine-tuning ligero de modelos de lenguaje
  • Hacer que reaccionen a triggers específicos
  • Validar la efectividad de la amenaza

3. Mecanismo de Detección de Diversidad

Implementar la lógica de detección:

Integración de Arquitecturas Múltiples

  • Al menos dos arquitecturas de modelos distintas
    • Ejemplo: uno basado en BERT
    • Ejemplo: otro basado en reglas o variante destilada

Lógica de Decisión

  • Pregunta crítica: ¿Cuándo un desacuerdo se considera alerta de seguridad vs. ambigüedad clínica legítima?
  • Definir umbrales y métricas apropiadas
  • Implementar sistema de clasificación de alertas

4. Dashboard de Observabilidad y Alertas

Desarrollar interfaz de monitoreo:

Visualizaciones

  • Intentos de ataque detectados
  • Tasa de discrepancia promedio
  • Métricas de seguridad en tiempo real

Funcionalidades

  • Alertas configurables
  • Histórico de eventos
  • Análisis de tendencias

Tecnologías y Herramientas

Modelos y Frameworks

  • Transformers (Hugging Face)
  • BERT y variantes
  • LLMs diversos para el ensamble

Backend y Orquestación

  • Python
  • FastAPI o similar para APIs
  • Gestión de colas para distribución de carga

Monitoreo y Visualización

  • Dashboard web (React/Vue o similar)
  • Grafana o herramientas equivalentes

Perfil del Estudiante

Requisitos:

  • Conocimientos sólidos de Python
  • Fundamentos de Machine Learning y NLP
  • Interés en ciberseguridad y sistemas críticos
  • Capacidad de trabajo autónomo

Deseable:

  • Experiencia con Transformers y LLMs
  • Conocimiento de arquitecturas de microservicios
  • Familiaridad con metodologías de Red Teaming

Duración y Modalidad

  • Duración estimada: 4-6 meses
  • Modalidad: Híbrida (presencial/remota flexible)
  • Tipo: TFG (Proyecto Fin de Grado)

Resultados Esperados

  1. Sistema funcional de Security Gateway para texto clínico
  2. Dataset de evaluación con ataques sintéticos documentados
  3. Métricas de rendimiento de detección de anomalías
  4. Dashboard de monitoreo operativo
  5. Documentación técnica completa
  6. Posibilidad de publicación científica

Supervisión y Apoyo

Este proyecto será supervisado por investigadores expertos de InnoTep con experiencia en:

  • Inteligencia Artificial aplicada a salud
  • Ciberseguridad y sistemas críticos
  • Procesamiento de Lenguaje Natural

Apoyo técnico:

  • Acceso a recursos computacionales
  • Datasets públicos de texto clínico
  • Modelos pre-entrenados
  • Revisiones semanales de progreso

Contacto

Para más información o expresar interés en este proyecto:

📧 Email: gi.innotep@upm.es
🏛️ Ubicación: ETSIST - Universidad Politécnica de Madrid


¿Te interesa este proyecto? Contáctanos para discutir los detalles y comenzar tu TFG en un área de investigación de alto impacto.