Informes de transparencia de Google: más información de lo que a priori suponemos

En  2010, Google lanzó una publicación periódica llamada “Informes de transparencia de Google donde se hacía eco principalmente de las peticiones de retirada de contenido de sus servicios por parte de gobiernos y organizaciones. Con el paso del tiempo, estos informes  han evolucionado a una plataforma en la que se pueden consultar diferentes datos, tanto de las peticiones servidas por sus servicios como del uso que se hace de estos.

ac0

Al navegar por su web vemos que el apartado Navegación segura aporta datos poco útiles, o que los paneles Solicitud de información sobre usuarios o Retirada de contenido de gobiernos únicamente contienen datos estadísticos.

No obstante, al acceder al apartado de Solicitudes de propietarios de derechos de autor, impresiona ver que en un mes se ha solicitado la retirada de 50 millones de URLs por infracción de derechos de autor. ¡50 millones de peticiones al mes! Esto implica un gran esfuerzo humano, tanto para la solicitud de retirada como para su revisión.

ac1
ac2

Si tenemos en cuenta que según estos datos, 13 millones de peticiones han sido solicitadas por la misma organización, podemos hacernos una idea de hasta qué punto los derechos de autor son un tema candente en Internet y que, según el crecimiento de la gráfica, debe ser atajado de una forma más efectiva antes de que se convierta en inabordable.

El apartado de Encriptación del correo electrónico ha resultado todavía más interesante: contiene datos estadísticos sobre la seguridad (uso de cifrado TLS) de los correos que Gmail intercambia con otros servicios de correo. Estas estadísticas son relevantes ya que no todos los servidores aceptan el uso de TLS, o aunque lo permitan, no fuerzan a sus usuarios a utilizarlo por defecto. Veamos estas gráficas en profundidad:

ac3

Si nos fijamos en los datos de la izquierda, un 80% de los correos enviados desde Gmail van cifrados, mientras que solo el 57% de los que recibe lo están. Nos atrevemos a aventurar que esto se debe a que los correos de Gmail van cifrados por defecto (el 80%) y que el 20% restante va dirigido a servidores que no soportan TLS. Esto quiere decir que con la configuración actual de todos los servidores que intercambian correos con Gmail, aproximadamente el 80% de los correos enviados a Gmail podrían ser cifrados, pero solo lo hacen un 57% porque los usuarios no configuran sus clientes correctamente.

Alguien podrá pensar que se debe a que el SPAM recibido en Gmail rara vez irá por TLS, pero según la FAQ de la web, no se han tenido en cuenta correos marcados como SPAM. Si miramos ahora las gráficas, vemos algunos datos también interesantes que hemos marcado con las flechas amarillas:

ac4

En el último año, el porcentaje de correos enviados mediante TLS ha aumentado un 4%, lo cual seguramente estará motivado porque cada vez más servidores aceptan el uso de esta tecnología. No obstante, el porcentaje de correos recibidos con TLS se ha mantenido, lo que indica seguramente que, aunque los servidores se hayan actualizado para permitir TLS, los usuarios no son conscientes de ello y al configurar sus cuentas en clientes de escritorio, no marcan la opción de utilizar TLS.

En la parte inferior de la gráfica, llaman la atención los picos en la recepción de correos cifrados: si hacemos zoom, vemos que los picos coinciden con fines de semana:

ac5

¿Quiere decir esto que durante el fin de semana los usuarios son más sensibles con la seguridad de sus correos? Seguramente no. Tengamos en cuenta que la tabla mide el porcentaje de correos recibidos. Esto quiere decir que durante el fin de semana, el porcentaje de correos cifrados es mayor, seguramente porque muchas empresas no obligan a utilizar TLS en sus puestos de trabajo, a pesar de que sus servidores lo permiten (si no fuese así, la grafica superior también tendría esos picos).

Vamos con la explicación a la gran caída en el número de correos enviados con TLS  en octubre de 2014 (menos mal que saqué la captura hace un mes, ya que ahora se ha perdido en el histórico). El día 11 el uso de TLS empezó a caer en picado, llegando al punto más bajo el día 14 de octubre que, echando mano de Wikipedia, fue el día en que Google hizo pública la vulnerabilidad Poodle, la cual afectaba a SSL (alternativa vulnerable a TLS).

El hecho de que la caída en el numero de servidores que permitían recibir TLS fuese previa a la publicación de la vulnerabilidad, hace pensar que Google hizo algún tipo de aviso previo (o filtración) a algunos servicios de correo, por el cual algunos de estos desactivarían el cifrado en sus sistemas temiendo por sus claves privadas, y que una vez publicada la vulnerabilidad y ver que no afectaba directamente a TLS, lo volvieron a activar.

Esta información, como curiosidad, está bien pero ¿nos resulta útil? ¿Podríamos monitorizar automáticamente estas gráficas para detectar patrones extraños o movimientos sospechosos de los grandes servidores de mail de Internet? Cada uno que le dé al coco y saque sus propias ideas ;)

Pasemos a consultar los datos de la sección Tráfico de los productos de Google.

La sección nos recibe con un listado de los países desde los que ahora mismo existe algún impedimento para que los usuarios accedan libremente a los servicios de Google:

ac6

Teniendo en cuenta que los países actuales son la República del Congo, Tayikistán, China, Irán y Pakistán, podemos suponer que realmente estamos hablando de bloqueos por parte de gobiernos al libre acceso a Internet. En los detalles de cada caso, Google no siempre afirma que el tráfico está siendo bloqueado, ya que seguramente no habrán recibido noticias oficiales al respecto:

 

“The government of the Republic of the Congo has apparently cut access to the main internet service provider in the midst of widespread.. ”

“Pakistan blocked access to YouTube on Monday after the video sharing website failed to take down an anti-Islam film…”

“The main mobile telephone network in Iran was cut…popular Internet websites Facebook and YouTube also appeared to be blocked…”

“Starting last week, Google’s Picasa Web Album has been blocked in China, adding to an already long list of websites blocked…”

“Google Inc’s Gmail was blocked in China after months of disruptions to the world’s biggest email service …”

Incluyen además un contador de los días que lleva el servicio inaccesible, como si de una avería se tratase. A día de hoy, el record lo tiene el bloqueo de YouTube en China con 2404 días:

ac7

Cabe señalar que si navegamos por el histórico de cortes en los servicios de Google existen casos debidos a averías, como fue el que dejó a toda Australia sin las búsquedas del gigante:

ac8

Como curiosidad está sección está bien, pero la información realmente interesante aparece cuando pulsamos sobre Explorar. Este botón nos permite filtrar el uso de cada uno de los servicios de Google por país, con un nivel de detalle impresionante. Veamos algunos ejemplos:

ac9

Aquí podemos ver claramente como con la llegada de julio, las búsquedas en Google Maps en España aumentan considerablemente.

ac10

En esta gráfica se aprecia claramente cómo el uso del correo electrónico desciende a las horas de sueño, cómo el pico de tráfico se da los días laborables a las 12 del medio día, y como los fines de semana los españoles hacemos siesta y desciende el número de correos para volver a repuntar durante la tarde.

Si en la siguiente gráfica filtramos por el público estadounidense, vemos que esa fuerte caída a la hora de la siesta está menos acentuada, pero lo acusamos a que Estados Unidos es muy grande de costa a costa, y que mientras unos duermen, otros ya están enviando correos electrónicos:

ac12

En la siguiente imagen podemos ver claramente el momento en que Google News cerró en España,

ac13

… y si siguiéramos podríamos llenar posts y posts sobre la información que estas estadísticas nos dan.

Tenemos pues una fuente de información de los hábitos de los usuarios de servicios de Google, clasificados por zona geográfica, horarios, y servicios. Esta información puede ser utilizada para saber a qué hora puede ser más efectiva una campaña de phishing, qué países son más dependientes de qué servicios, o en qué momento un colapso de GoogleMaps puede ocasionar serias retenciones durante la operación salida veraniega, sin dejar de lado la búsqueda de patrones anómalos de lo que está sucediendo en Internet.

Cerraremos el post revisando el apartado de Solicitudes de privacidad. En este caso nos encontramos con las peticiones que Google recibe pidiendo la retirada de los resultados de búsqueda con información sobre personas.

En el siguiente gráfico se muestra, agrupado por países, el porcentaje de páginas web retiradas frente a las denegadas de los 4 países con más peticiones de retirada (entre 100.000 y 200.000 peticiones por país).

ac14
ac15

Revisando el resto de países, vemos que generalmente la media se mantiene entre el 25% y el 50%, pero si analizamos las respuestas que da Google a algunas de las peticiones, vemos que el criterio seguido es relativamente subjetivo:

 

“Una persona condenada por un delito grave en los últimos cinco años pero a la que se le revocó la condena nos pidió que retirásemos un artículo sobre el incidente. Hemos retirado la página de los resultados de búsqueda correspondientes a su nombre.”

“Un funcionario de alto rango nos pidió que retirásemos los artículos recientes en los que se habla de una condena penal de hace décadas. No hemos retirado los artículos de los resultados de búsqueda.”

“Un conocido empresario nos pidió que retirásemos los artículos sobre una demanda presentada contra un periódico. No hemos retirado los artículos de los resultados de búsqueda.”

“Un cura condenado por posesión de pornografía infantil nos pidió que retirásemos los artículos en los que se informa de su sentencia y expulsión de la iglesia. No hemos retirado las páginas de los resultados de búsqueda.”

“Una pareja acusada de fraude empresarial nos pidió que retirásemos los artículos relacionados con el delito. No hemos retirado las páginas de los resultados de búsqueda.”

“Un activista político que fue apuñalado en una protesta nos pidió que retirásemos un enlace a un artículo relacionado con el suceso. Hemos retirado la página de los resultados de búsqueda correspondientes al nombre de la víctima.”

“Un profesor condenado por un delito menor hace más de 10 años nos pidió que retirásemos un artículo relacionado con la condena. Hemos retirado las páginas de los resultados de búsqueda correspondientes a su nombre.”

“La víctima de una violación nos solicitó que retirásemos un enlace que llevaba a un artículo de periódico sobre dicho delito. Hemos retirado la página de los resultados de búsqueda correspondientes a su nombre.”

“Hemos recibido varias solicitudes de una sola persona que nos pide que retiremos 20 enlaces que llevan a artículos recientes sobre su arresto por los delitos financieros que cometió en el desarrollo de su profesión. No hemos retirado las páginas de los resultados de búsqueda.”

 

Aparentemente Google decide si retirar el contenido dependiendo de si el sujeto ha sido buena persona o no, de si despierta lástima en quien revisa la petición u otros criterios subjetivos. Nótese que hay peticiones sobre noticias de acusación, no solo de condenas firmes. ¿Le corresponde a Google decidir sobre estos temas? ¿Debería definir criterios claros y firmes sobre estas peticiones? A fin de cuentas, a pesar de ser una empresa privada que ofrece un servicio privado, Google es quien a día de hoy tiene más poder sobre la difusión de información personal de cualquier persona en el mundo.

A modo de conclusión comentaremos que estos informes de transparencia de Google aportan más información de la que a priori imaginábamos, alguna de la cual puede ser utilizada para conocer el estado de salud de Internet, anomalías relevantes en el uso que los usuarios hacen de la red, o incluso de movimientos estratégicos de empresas y países. Si esta es una pequeñísima porción de la información que nos muestran, imaginaros lo que no nos cuentan…

¡Inquietante!