captcha 1

captcha 1

Software

¿Sabías que cada vez que completas un captcha estás trabajando gratis?

Te contamos cómo funcionan los captcha, su historia y cuál será su futuro. ¿Por qué hay dos palabras? ¿Son eficaces? ¿Qué pinta Google en todo esto?

22 junio, 2016 22:37

Noticias relacionadas

Si aún no sabes cómo funcionan los captcha, puede que te sorprenda saber que buena parte de ellos están basados en el trabajo gratis.

El problema de los bots en Internet es casi tan viejo como la propia red; de manera ideal, todos los usuarios que nos encontramos en Internet deberían ser personas reales, pero lamentablemente una buena cantidad de ellos son bots, programados para todo tipo de tareas como publicar spam.

Cualquiera que tenga o haya tenido una página web alguna vez, ha sufrido un problema de bots. En Omicrono también lo sufrimos, aunque al menos ya existen tecnologías lo suficientemente avanzadas como para bloquear el acceso a estos usuarios falsos. Durante muchos años, una de estas tecnologías fueron los captchas.

En busca de la solución contra los bots spammers

CAPTCHA viene de “Completely Automated Public Turing test to tell Computers and Humans Apart”, “Test de Turing complétamente automatizado para distinguir entre ordenadores y humanos”. El nombre lo dice todo, ¿verdad?

Fue creado a principios de los 2000 por el equipo dirigido por Luis von Ahn, cuando el problema de los bots empezó a resultar más evidente. El concepto básico de los Captcha es modificar una imagen con palabras, letras o números de tal manera que un programa OCR (de reconocimiento de caracteres) no sea capaz de distinguirlos, pero sí una persona normal.

captcha 2

captcha 2

Así empezó una loca carrera entre los spammers y la industria por ver quién terminaba encima. Captcha no era un sistema perfecto, claro, como se demostró cuando los spammers empezaron a contratar a cientos de personas por cantidades irrisorias, principalmente en China, únicamente para resolver Captchas uno detrás de otro.

Pero funcionaba lo suficientemente bien como para dejar fuera a muchos bots, al menos. Pero a von Ahn no se le escapó la ironía de que tantísimas personas estuviesen descifrando palabras que no tenían ningún significado ni propósito, y se propuso arreglar esto.

Cómo funcionan los captcha

Así nació reCAPTCHA, un nuevo proyecto basado en la misma idea, pero con una base diferente. En vez de aplicar filtros y estirar las letras dispuestas aleatoriamente, reCAPTCHA obtenía las palabras de una enorme base de datos de páginas escaneadas con algún tipo de problema, como por ejemplo, fallos de impresión, palabras impresas hace tanto tiempo que habían perdido la tinta, palabras escritas en papel roto o mojado, o palabras raras que no estaban en ninguna base de datos.

Los programas OCR lo pasan muy mal en todos esos casos, pero los seres humanos podemos distinguir las palabras con un poco de esfuerzo y con algo de contexto, así que el plan era hacer que los propios usuarios resolviesen estos problemas y así completar el escaneo del libro, periódico o panfleto.

captcha 4

captcha 4

Si te fijas, reCAPTCHA siempre muestra dos palabras, una de las dos tiene un significado conocido en la base de datos, y la otra no ha podido ser reconocida por el software OCR. Cuando rellenamos un reCAPTCHA, en realidad el sistema sólo comprueba que hemos escrito bien una palabra, la que sabe cuál es.

En el caso de la palabra desconocida, guarda lo que hemos escrito, y una vez que suficiente gente ha escrito lo mismo, guarda el nuevo significado en la base de datos. Por lo tanto, en la práctica sólo tenemos que escribir una de las dos palabras que vemos para pasar el test, pero para eso tendríamos que saber cuál de las dos es la palabra desconocida para el sistema (aunque en algunos casos es fácil de ver).

Trabajo gratis por Internet

¿Qué idea más loca, emplear a los propios usuarios para que hagan tu trabajo de manera gratuita, verdad? Pues curiosamente hubo mucha gente interesada en la tecnología, empezando por el periódico The New York Times, con su base de datos de periódicos viejos que no era capaz de consultar porque los ordenadores no eran capaces de leerlos.

captcha 3

captcha 3

Poco después el proyecto reCAPTCHA llamó la atención de Google, y el resto es historia. El gigante de Internet tenía gigantesca tarea por delante, escanear y digitalizar todos los libros que existen para el mayor catálogo online de la red, Google Books.

La compañía se había encontrado con el mismo problema, tenía acceso a una gran cantidad de material pero no tenía manera de descifrar automáticamente los papeles doblados, las tintas desaparecidas y las manchas de café. Así que reCAPTCHA fue una de las compras más claras de su historia.

Así fue como toda Internet ayudó a Google a digitalizar libros, de manera gratuita, y ofreciendo un servicio contra bots al mismo momento. Eso hasta hace dos años, cuando quedó claro que los spammers habían conseguido la tecnología y la potencia necesaria para pasarse estos test sin problemas.

noCAPTCHA, ¿el captcha del futuro?

nocaptcha-1

nocaptcha-1

Entonces nació noCAPTCHA, una nueva versión que ya no pide introducir palabras, sino que se basa en detalles como nuestra navegación, nuestras cookies y nuestro comportamiento; basándose en esos datos, Google puede llegar a la conclusión de que somos usuarios verídicos, y sólo tendremos que pulsar en una casilla para demostrar que no somos un bot.

Pero si Google considera que somos sospechosos, puede presentarnos un desafío; inicialmente era de palabras como las de reCAPTCHA, pero últimamente está presentando desafíos basados en encontrar objetos en una fotografía como señales de tráfico. Estos desafíos no son casualidad, teniendo en cuenta que Google está trabajando en IAs que sean capaces de analizar y encontrar objetos en fotografías.

Esa es la historia de los captchas. Un método para evitar el spam que no es perfecto ni mucho menos, pero que ha conseguido limpiar al menos un poco nuestras conversaciones.