Threat Hunting con predicción de comportamiento

Nos encontramos en la constante búsqueda de elementos que nos ayuden a predecir como seremos atacados y así hacer algo proactivamente para reducir estos riesgos. La Ciber Inteligencia de Amenazas (CTI) es esa disciplina que se encarga de recolectar, analizar y contextualizar información sobre ciberamenazas con el objetivo de entender quiénes son los adversarios, cómo operan, qué buscan y qué técnicas utilizan, para anticipar ataques y fortalecer la defensa. CTI permite a los equipos de seguridad tomar decisiones mejor informadas.

“Technique Inference Engine” (TIE), presentado por Matthew Turner (Ingeniero de MITRE) en el reciente workshop Artificial Intelligence for Cybersecurity (AICS 2025), es una herramienta innovadora que tiene el potencial de revolucionar la forma en que realizamos threat hunting y enfrentamos campañas adversarias complejas. TIE utiliza algoritmos avanzados de aprendizaje automático y razonamiento probabilístico para analizar grandes volúmenes de datos y extraer patrones de comportamiento que indican la presencia de actividades maliciosas.

TIE propone la capacidad de inferir técnicas y tácticas utilizadas por los adversarios, incluso cuando estos intentan ocultar sus huellas. Esta herramienta permitiría a los analistas de seguridad identificar y rastrear campañas adversarias a lo largo del tiempo, aun cuando cambien sus herramientas y métodos. El modelo espera ayudar a “predecir” futuros movimientos de los adversarios, lo que permita a los defensores tomar medidas proactivas para proteger sus sistemas.

Technique Inference Engine
TIE es un modelo predictivo desarrollado por el MITRE Center for Threat-Informed Defense, diseñado para apoyar a analistas de amenazas y equipos de respuesta a incidentes. Basado en el marco MITRE ATT&CK®, TIE analiza las técnicas observadas, e infiere posibles técnicas adicionales utilizadas en una campaña adversaria —incluso si no están reportadas explícitamente en los CTI (Cyber Threat Intelligence) disponibles.
En pocas palabras: TIE ayuda a responder la pregunta «¿Qué más debería estar buscando?»

Puntos de Valor
Uno de los grandes desafíos del threat hunting es lidiar con información incompleta. Muchas veces, los informes CTI no documentan todas las TTPs (tácticas, técnicas y procedimientos) involucradas en una intrusión. TIE enfrenta este problema aplicando modelos de recomendación (como los que usa Netflix o Spotify, pero en ciberseguridad), para predecir técnicas que probablemente estén ocurriendo, pero que aún no fueron vistas.
Podemos separar TIE en tres elementos de valor:
⦁ El mayor dataset público conocido de CTIs etiquetados con técnicas ATT&CK.

⦁ Algoritmos como Weighted Matrix Factorization (WMF) y Bayesian Personalized Ranking (BPR) para inferencia de técnicas.

⦁ Una interfaz web simple y efectiva para ingresar técnicas observadas y recibir sugerencias priorizadas.

Buen dataset, buenos resultados
TIE fue entrenado sobre el dataset más grande conocido públicamente de reportes de inteligencia de amenazas (CTI) etiquetados con técnicas ATT&CK. Cuenta con un total de:
⦁ 6,236 reportes CTI.

⦁ 43,899 observaciones de técnicas.

⦁ 96% de cobertura del framework ATT&CK Enterprise v15.

⦁ Principales fuentes: OpenCTI, TRAM, ATT&CK Flows, Adversary Emulation Plans y Campaigns.
Este dataset refleja tanto la variedad de técnicas reportadas como los sesgos e incompletitudes típicos del análisis manual.

Modelando el problema
TIE modela el problema como una “tarea de recomendación colaborativa” con feedback implícito. En lugar de tratar de adivinar “si una técnica es parte o no de una campaña”, se enfoca en predecir un ranking de técnicas probables, dada una entrada parcial de técnicas observadas.
⦁ Se construye una matriz binaria A (reportes x técnicas), con unos donde se observa la técnica, y ceros implícitos (potencialmente verdaderos o falsos negativos).

⦁ El objetivo es completar la matriz: ¿qué técnicas son probables desde lo que observé?
Simplificando, imaginemos entrar a una biblioteca enorme, sabemos qué libros leyeron algunas personas… pero quisiéramos adivinar qué otros libros les podrían gustar. Ahí es donde entran los “sistemas de recomendación” como WMF y BPR. Estos tratan de “adivinar conexiones ocultas” entre cosas que hemos observado (por ejemplo, técnicas usadas por un atacante) o cosas que probablemente también estén relacionadas (otras técnicas que todavía no hemos visto).
Weighted Matrix Factorization (WMF)
Este sistema funciona como armar cajas con gustos comunes. Cada reporte de ataque (CTI) y cada técnica ATT&CK se representa como un punto en un mapa. El modelo trata de agrupar reportes y técnicas que suelen aparecer juntos. Si la campaña observó ciertas técnicas, el modelo busca en ese “mapa” cuáles están cerca y las sugiere como probables.
Se factorea la matriz de observaciones mencionada antes en vectores latentes de reportes y técnicas. Se utiliza una función de pérdida que penaliza menos las ausencias, asumiendo baja confianza en los ceros. Esto nos dá un sistema de rápido entrenamiento, bajo costo computacional y buena performance.
Bayesian Personalized Ranking (BPR)
Por otro lado, esta es la estrategia de «esto es mejor que aquello». El modelo no intenta predecir sí o no, sino de ordenar. Aprende que si el reporte A usó la técnica X, entonces probablemente prefiera X antes que Y”. Se van creando así miles de comparaciones que van ajustando la forma de ordenar técnicas en base a eso. Este sistema, en cambio, aprende como si jugara un videojuego de “¿Cuál es más probable?”, muchas veces, hasta encontrar buenos rankings.
Se utiliza aquí un método de sampling negativo que entrena el modelo para que técnicas observadas rankeen por encima de las no observadas. Mejora el orden relativo de las predicciones, pero puede sesgarse hacia técnicas muy frecuentes. Como consecuencia, se requiere más tiempo de entrenamiento.

Simple de usar
La herramienta está basada en JS, sin necesidad de un backend, todo corre en el navegador del usuario. Usando como entrada una lista de técnicas observadas. Se obtienen como salida el top técnicas inferidas, ordenadas por probabilidad de asociación.

Input de 3 técnicas sobre la interfaz web

Output de 20 técnicas predichas sobre la interfaz web

Conclusiones
Es sabido que el contexto es de amenazas que evolucionan constantemente, la información disponible es enorme y casi nunca está completa, herramientas como TIE, representan un paso clave para los equipos de ciberseguridad. El enfoque permite ampliar la visibilidad de las campañas adversarias sin depender exclusivamente de la documentación explícita en los informes CTI.
Para las organizaciones, esto significa contar con un aliado que ayuda a priorizar la búsqueda, anticipar movimientos del atacante y tomar decisiones más informadas en menos tiempo. El diseño abierto y su facilidad de uso lo convierten en un recurso más para integrar en cualquier estrategia de threat hunting moderno.

Referencias
– Technique Inference Engine https://center-for-threat-informed-defense.github.io/technique-inference-engine/#/
– TIE Github Project – https://github.com/center-for-threat-informed-defense/technique-inference-engine
– Technique Inference Engine: A Recommender Model to Support Cyber Threat Hunting, Matthew J. Turner, Mike Carenzo, Jackie Lasky, James Morris-King, James Ross (Marzo 2025) https://arxiv.org/abs/2503.04819v1

Threat Hunting con predicción de comportamiento

Conciencia Táctica y Red Teaming: Más Allá del Pentesting Tradicional

Certificaciones

Logros

Políticas

RRSS