Cazando con Inteligencia Artificial: Detección de dominios maliciosos (III)

Esta entrada y la serie en su conjunto ha sido elaborada conjuntamente con Ana Isabel Prieto, Sergio Villanueva y Luis Búrdalo.


En anteriores artículos de esta serie (ver parte I y parte II) se describió la problemática de la detección de dominios maliciosos y se proponía una forma de abordar dicho problema combinando diversas técnicas y algoritmos estadísticos y de Machine Learning. También se describía el conjunto de variables a partir de las cuales se caracterizarán dichos dominios para su posterior análisis por parte de los mencionados algoritmos de Machine Learning. En esta última entrega se describen los experimentos llevados a cabo y los resultados obtenidos.

Las pruebas realizadas se han llevado a cabo contra un total de 78.661 dominios extraídos del tráfico, a priori legítimo, de una organización, a partir de los cuales se han calculado 45 características léxicas pertenecientes a las categorías descritas anteriormente.

[Read more…]

Cazando con Inteligencia Artificial: Detección de dominios maliciosos (II)

Esta entrada y la serie en su conjunto ha sido elaborada conjuntamente con Ana Isabel Prieto, Sergio Villanueva y Luis Búrdalo.


En el artículo anterior se comentó la dificultad ante la que los analistas de Threat Hunting se enfrentan como consecuencia de la alta cantidad de dominios que registra diariamente una organización. Esto dificulta el análisis y la localización de dominios potencialmente maliciosos, que pueden pasar desapercibido entre tanto tráfico. Por esta razón, en un intento de facilitar la tarea del analista, se propone la utilización de técnicas alternativas basadas en Machine Learning. Antes de presentar las diferentes pruebas realizadas, el artículo introduce los algoritmos que se van a utilizar para la detección de anomalías en los dominios.

Para empezar, es necesario comentar que tener una base de datos grande y variada es fundamental para que un modelo sea capaz de detectar dominios potencialmente maliciosos de forma fiable, ya que sus parámetros van a ser ajustados en un entorno que debe ser similar al real.

Sin embargo, existe una gran dificultad a la hora de identificar patrones en datos de alta dimensión, y más aún a la hora de representar dichos datos gráficamente y de expresarlos de forma que se destaquen sus similitudes y diferencias. Es aquí donde surge la necesidad de utilizar una herramienta potente de análisis de datos como el PCA (Principal Components Analysis).

[Read more…]

Cazando con Inteligencia Artificial: Detección de dominios maliciosos (I)

Esta entrada y la serie en su conjunto ha sido elaborada conjuntamente con Ana Isabel Prieto, Sergio Villanueva y Luis Búrdalo.


Internet aporta un mundo de posibilidades para el desarrollo personal y la realización de muchas de las actividades diarias, siendo una pieza indispensable en la sociedad actual. En esta red existen cientos de millones de dominios a los que acceder, aunque por desgracia, no todos ellos son seguros. Los dominios maliciosos son aquellos utilizados por los cibercriminales con el fin de realizar conexiones con servidores command and control, robar credenciales a través de campañas de phishing o distribuir malware.

En muchas ocasiones, estos dominios comparten entre sí ciertas características léxicas que a simple vista pueden llamar la atención. Por ejemplo, en campañas de phishing son relativamente comunes los dominios con TLD xyz, top, space, info, email, entre otros. De igual manera, los atacantes utilizan técnicas DGA (Domain Generation Algorithm) para crear dominios aleatorios con los que exfiltrar información como, por ejemplo, istgmxdejdnxuyla[.]ru. Otras propiedades llamativas pueden ser un exceso de guiones, dominios de varios niveles o dominios que intentan suplantar organizaciones legítimas como sería el caso de amazon.ytjksb[.]com y amazon.getfreegiveaway[.]xyz.

Con la digitalización en auge, las organizaciones navegan a miles de dominios diferentes, lo cual dificulta la detección de dominios maliciosos entre tanto tráfico legítimo. En una organización de tamaño medio, se registra a diario tráfico de entre 3000 y 5000 dominios. Este volumen hace inviable llevar a cabo su análisis de manera manual. Tradicionalmente, parte de este proceso de detección se automatiza mediante reglas de búsqueda de patrones, por ejemplo, reglas para hallar dominios con TLD (Top Level Domain) utilizados en campañas de phishing, que contengan el nombre de grandes empresas y no sean los legítimos o que tengan más de X caracteres.

[Read more…]