¿Cuánto tiempo pierdes al día eliminando el correo basura que recibes? Algunas estimaciones indican que el 80 por ciento del tráfico que circula por Internet se corresponde precisamente con este tipo de mensajes, y sin tener en cuenta las implicaciones económicas que conlleva (tu tiempo vale dinero) y la pérdida de tiempo que supone descargar mensajes que no te interesan en absoluto, incluso en el caso de que lo descargues utilizando una conexión de banda ancha o de red local, lo cierto es que resulta un verdadero engorro escudriñar entre todos los mensajes de tu buzón para leer sólo los que realmente te interesan.

Para poner coto a este “mal” moderno son muchos los desarrolladores que están investigando desde hace tiempo con el objeto de encontrar las mejores soluciones para el filtrado automático del correo basura, sin que debas encargarte de repasar, uno por uno, todos los mensajes de tus buzones de entrada para decidir cuáles quieres conservar y cuales enviar directamente a la papelera. De hecho algunos de los resultados más evidentes de estas investigaciones los podemos ver en nuestra plataforma; y uno de ellos es el filtro de correo no deseado que se puede activar en las preferencias de Mail (el cliente de correo electrónico instalado por omisión en Mac OS X).

Mail no es el único cliente de correo que incorpora esta característica, y de hecho otras tres de las aplicaciones de correo más utilizadas en el entorno Mac, como son Microsoft Entourage, MailSmith (99 dólares; BareBones Software. www.barebones.com) y la versión de pago de Eudora (49,95 dólares; Qualcomm. www.eudora.com) también han incorporado en sus últimas versiones nuevas características para la detección automática del correo basura.

No pienses que las características de filtrado de estas aplicaciones son los clásicos “filtros” o reglas que ya podías editar y aplicar sobre los mensajes en cualquier aplicación de correo electrónico.

Semántica y estadística, en la lucha contra el spam

Mail, Entourage, Eudora, MailSmith y cualquier programa de correo electrónico por modesto que sea te permite editar y definir tanto las reglas como la secuencia u orden en el que deseas aplicarlas sobre cada uno de los mensajes que lleguen a tu buzón de entrada. Esta característica supone un sistema perfecto para organizar tu correo electrónico en diferentes carpetas, aplicar etiquetas de color a los mensajes (que te ayuden a identificar su contenido o importancia) o bien automatizar otra serie de tareas, incluyendo la ejecución de guiones AppleScript, atendiendo a una serie de criterios del tipo “si el remitente es… entonces haz…” o “si parte de los datos de la cabecera contienen… entonces mueve el mensaje a…”; y la acción combinada de varias de estas instrucciones son las que proporcionan a las reglas una potencia nada despreciable.

No obstante, aunque la definición y aplicación de reglas fue inicialmente la única forma de combatir el correo basura, se trata de una lucha desigual, y si aún confías en este sistema para filtrar tus mensajes lo más seguro es que aun te pases una buena cantidad de tiempo al día eliminando el spam que todavía se cuela en tu buzón de entrada.

Esto se debe a que por muy bien que definas tus reglas y por mucho tiempo que inviertas en hacerlo, a las personas que se dedican a enviar spam les llevará mucho menos tiempo saltárselas utilizando pequeñas modificaciones y triquiñuelas en sus envíos.

Sólo tienes que repasar unos cuantos de estos mensajes para darte cuenta de la gran cantidad de “ingenio” que ponen sus autores para ocultar o evitar que las reglas detecten ciertas palabras, origen o cifras como posible candidato de correo basura. Y lo que es peor, si utilizas las reglas como único sistema de filtrado para el correo basura no sólo deberás cuantificar el tiempo que pasas eliminando los mensajes que aún se cuelan en tu buzón de entrada, sino también el que inviertes revisando el buzón de “spam” (o cualquier otro al que las reglas muevan automáticamente los mensajes detectados como correo basura) para comprobar que efectivamente las reglas no hayan considerado algún mensaje válido también como correo basura.

Está claro, las reglas no son la mejor opción. Precisamente por ello desarrolladores como Apple, C-Command (Michael Tsai) y Qualcomm, han empleado en sus productos un enfoque completamente distinto: la aplicación de algoritmos (expresión matemática y/o lógica que representa la solución a un problema dado) y que se encargan de analizar el texto del mensaje. En función de los resultados obtenidos, el mensaje pasará a ser considerado como correo basura o bien tendrá vía libre hasta tu buzón de entrada.

Patrones en el texto. El algoritmo antispam utilizado por Mail se basa en lo que Apple denomina “Análisis Adaptivo de la Semántica Latente” (LSA; Adaptive Latent Semantic Analysis). Una explicación sencilla de su funcionamiento sería que se trata de determinar si un mensaje es correo basura o no basándose en el contenido del propio mensaje. Para ello el LSA identifica una serie de patrones de contenido en los mensajes que previamente se han marcado como correo basura durante la fase de entrenamiento o aprendizaje (que puedes activar y desactivar en las preferencias de Mail), y utiliza dicho análisis para identificar el spam en los mensajes futuros. Si estás interesado en este tema o quieres profundizar sobre este tipo de análisis, puedes descargar un excelente documento en formato PDF, aunque escrito en inglés, desde http://lsa.colorado.edu/papers/dp1.LSAintro.pdf.

No obstante, aunque se trata de un sistema muy eficaz (y que va mejorando con el paso del tiempo), lo cierto es que Mail aún deja escapar unos cuantos mensajes basura incluso después de que se haya empleado una fase de aprendizaje prolongada.

Un valor para cada palabra. El otro enfoque consiste en el análisis Bayesiano, y que es el utilizado por la característica SpamWatch de Eudora 6.1 y por el excelente programa SpamSieve (25 dólares; www.c-command.com).

De forma resumida, podría decirse que con el sistema Bayesiano también es necesario pasar por una fase de aprendizaje durante la cual el programa examina y extrae sus conclusiones sobre el análisis de los mensajes. No obstante, la principal diferencia con respecto al análisis realizado por el LSA es que los filtros bayesianos (basados en las reglas de Bayes) utilizan una teoría de probabilidad condicional. Básicamente, la regla dice que la probabilidad de que ocurra un evento dado en el futuro se puede inferir de la cantidad de veces que ocurrió el mismo evento en el pasado. (Puedes obtener más información sobre el funcionamiento de este sistema en www.paulgraham.com/spam).

A efectos prácticos, los programas que utilizan este enfoque (conocido como filtro Bayesiano), y que es el que actualmente están incorporando una mayor cantidad de desarrolladores dado su elevado porcentaje de éxito, elaboran una base de datos con todas las palabras, direcciones de correo, cabeceras, etc., utilizadas en los mensajes que se han marcado previamen