Cómo sabe una web que eres humano cuando pulsas en «No soy un robot»

El Androide Libre

La historia de los CAPTCHAS, o cómo internet siempre ha querido saber si eres un replicante

Los captchas sirven para diferenciar usuarios humanos de robots, pero no sólo para eso. También se usan para digitalizar libros y documentos.

18 agosto, 2016 20:30

Javier Elio

Desde los albores de nuestra especie, la humanidad ha querido saber si la persona que tenía al lado era realmente un humano o un androide. Bueno, igual no tanto, pero en los últimos años los bots sí se han convertido en un problema para muchos servicios, que han tenido que recurrir a diversos sistemas para distinguir entre humano y bot. ¿El más popular? El de los captchas.

Todos hemos dudado en algún momento de nuestra propia humanidad al enfrentarnos a uno de estos inventos del infierno. Por mucho que fijemos la vista, nos insisten una y otra vez en que los números y letras que hemos introducido no coinciden. ¿Es la vida real? ¿Soy humano? ¿Soñaré esta noche con unicornios blancos?

El termino «captcha» fue usado por primera vez a comienzos del año 2000 por Luis von Ahn -fundador de la compañía Captcha- en el libro Completely Automated Public Turing test to tell Computers and Humans Apart («Prueba de Turing completamente automatizada para distinguir a humanos y ordenadores»), y desde entonces el captcha se ha convertido en un elemento casi imprescindible en cualquier página en la que pueda haber interacción humana.

Historia de los Captchas: ¿Eres humano?

En el caso del libro del señor von Ahn, el uso del término «prueba de Turing» tiene algo de irónico, ya que en este caso el juez es un ordenador, mientras que en el examen que propuso el gran Alan Turing era un humano el que debía tratar de distinguir entre humano y computador. Además, otra característica de los captchas es que estos deben ser totalmente automáticos, y no debe hacer falta intervención humana para su mantenimiento ni para su realización.

El origen de este molesto test de humanidad se remonta a los inicios de internet, especialmente a foros y grupos de discusión públicos en los que algunos de sus miembros -hackers, especialmente- creían que sus conversaciones se monitorizaban de forma automática en busca de palabras clave. En consecuencia, comenzaron a utilizar los caracteres de forma que imposibilitara que los robots los reconocieran, en lo que más tarde se ha pasado a denominar Leet speak (por ejemplo, «|-|0L4» en vez de «hola»).

Disputa por su creación

Los captchas tal y como los conocemos hoy en día nacieron en 1997, aunque por aquel entonces no se conocían todavía bajo este nombre. Fueron desarrollados por Mark D. Lillibridge, Martín Abadi, Krishna Bharat, y Andrei Broder, quienes implementaron este sistema en Altavista para evitar que los bots se dedicasen a añadir sus URLs de forma automática. Para evitar el reconocimiento óptico, se invirtieron las recomendaciones para mejorarlo, evitando fondos planos y usando distintas tipografías.

En 2003, y esa vez sí bajo el nombre que todavía se mantiene a día de hoy, un segundo grupo -compuesto por Luis von Ahn, Manuel Blum, Nicholas J. Hopper, y John Langford- reclamaron la invención de los captchas usando el término por primera vez en un artículo. Su noción de los captchas era más amplia y no se limitaba sólo a los visuales. Sin embargo, se encontraron con un problema: el grupo de Lillibridge, el del año 1997, había patentado su sistema, y eso que en ningún momento llegaron a mencionar la palabra «captcha».

ReCaptcha: Convirtiéndote en mano de obra gratuita

Fue en 2007 cuando Luis Von Ahn dio una vuelta de tuerca al concepto de captcha al crear reCaptcha. Este sistema mantiene la idea usado por muchos captchas de obligar al usuario a reconocer una palabra, pero en este caso se añade una segunda palabra, una que el sistema de reconocimiento de imagen es incapaz de descifrar. Si un número suficiente de usuarios introducen de forma correcta la palabra conocida y transcriben la desconocida de forma similar, se considera que esta es la forma correcta.

reCaptcha fue comprado en 2009 por Google, y gracias a este sistema se ha podido digitalizar el archivo del New York Times y multitud de libros de Play Books yGoogle News Archive Search. Desde 2012, reCaptcha también usa imágenes de Google Maps -concretamente de Street View-, incluyendo nombres de calles y números con el fin de aumentar su base de datos y mejorar la precisión de las direcciones.

Se trata de un sistema muy criticado, ya que, en esencia, convierte al usuario en un trabajador al que no se le paga, y que además realiza este trabajo sin ser consciente de lo que está haciendo. Y ya sabéis lo que molesta a algunos humanos esto de trabajar de forma gratuita.

noCaptcha: Analizando tu comportamiento

El último giro de tuerca que ha dado Google a su sistema es noCapcha, un sistema que recurre al análisis del comportamiento del usuario, así como de las cookies y el historial de navegación, para establecer si este es humano. Si el sistema determina que el usuario es sospechoso, este le propone un reto a la antigua usanza.

En los últimos meses, se están comenzando a integrar retos que no se reducen simplemente a números y palabras, sino también a encontrar objetos dentro de una imagen. ¿Por qué? Porque Google está trabajando en sistemas de inteligencia artificial capaces de reconocer objetos y así pueden recopilar más datos. ¿O pensábais que se iba a desaprovechar una oportunidad de haceros trabajar gratis? Don’t be evil.