Google vs Yahoo! : Spam
Resulta que Google me ha bloqueado de sus indices! Note una subida de numero de visitas gracias a salir en meneame (y no en la pagina principal) y error500, no tenia ni idea de que hubiera tanta gente accediendo a esas paginas. Examinando los logs, cosa que deberia hacer mas a menudo, veo que la cantidad de visitas desde Google es minima y es superada por mucho por Yahoo! (orgullo paterno) y Technorati (WTF!) , mirando un poquito mas de cerca, veo que google me ha bloqueado la pagina, muy probablemente considerandome como spammer, o debido a una muy mala indexacion, ya que no salgo en ninguna busqueda relacionada (ejemplo). Para la misma busqueda en Yahoo aparezco en la primera posicion y mi alma mater (por decirlo asi) indexa todo mi blog, hasta la ultimisima pagina, cosa que Google no se molesta en hacer. Voy a intentar explicar porque es esto.
(disclaimer que no me la quiero ver con abogados animales de los de aqui, lo que pongo abajo son tecnicas generales y publicadas y nada tiene que ver con tecnologias propietarias ni con lo que haga yahoo, no os hagais ilusiones, lo aviso) :
Los ultimos meses que pase como Ingeniero de busquedas en Yahoo! (que glamouroso suena ahora!) los dedique a pelar el indice de spam. No puedo contar nada de tecnologias que se usen, pero si ay un par de tecnicas generales y simples basadas simplemente en una “economia de escala” y en la cantidad de datos que un motor de busquedas normalito tiene indexado, a ver: analisis de contenido y anomalias en la estructura de enlaces. La primera tecnica es sencillita, si la proporcion de determinadas palabras en una pagina es muy superior a una media establecida por una muestra de paginas limpias, la pagina estudiada es muy probablemente spam. Ejemplo, pillo paginas limpias que no son spammers, como elpais.es, elmundo.es o barrapunto.com por poner un ejemplo (se deberian tomar cantidades por miles para tener una muestra significativa) y se analiza la frecuencia un conjunto de palabras “sospechosas” (sexo, tetas, nombres de famosas…), Digamos la frecuencia de la palabra “sexo” es 1/100. Analizando con esos datos el resto de conjunto de paginas que hay en el mundo (para el idioma seleccionado), una pagina que contenga la palabra sexo con una frecuencia de 30/100 (exagerando) y nombres de famosa en igual proporcion, es una clara candiadata a ser spammer. Con estos datos de frecuencia se obtiene una puntuacion (diciendo lo spammer que es una pagina concreta), que es un numero fraccionario entre 0 y 255 y para cada valor de la escala se analiza la cantidad de spammers que eliminamos mediante dos valores: precision y recall (como se traduce esto), que son las dos medidas basicas usadas en IR (la ciencia de los motores de busqueda, por decirlo asi). El recall indica las paginas que pillamos como spammers y la precision el numero de aciertos que tenemos. Teniendo todos los datos para esas dos variables para todos los datos de la escala vemos que son inversamente proporcionales (a mas precission, el numero de paginas identificadas baja) y con esos datos establecemos que queremos hacer: tener mas precission (cuando pillamos una pagina, acertamos de pleno) o mas recall (quitamos mas paginas pero nos equivocamos mas). Este ratio generalmente se establece con grupos de control o haciendo pequegnas versiones beta para un numero limitado de usuarios, que generalmente no saben que estan siendo analizados y cuantificar luego sus acciones.
La segunda gran tecnica usada (y que es mucho mas moderna) es una especie de “pagerank inverso” consistente en analizar la estructura de links saliente de paginas claramente identificadas como spammers y eliminarlas del indice (spammers enlazan a spammers generalmente), esta es quiza la tecnica menos democratica, porque un falso enlace te dejaria fuera del indice sin que puedas hacer nada por ello. Generalmente se emplea una mezcla de las dos tecnicas (analisis de contenido y estructura de enlaces) para espeficicar el nivel de “spameo” de un sitio y a partir de ahi se calcula la precision y el recall deseado para maximizar el gusto del usuario (o del conejillo de indias, que no siempre es lo mismo!)
Dicho esto, y viendo que Google me ha pillado como Spammer, creo que el gigante de las busquedas tiene un grave problema de precision y que esta maximizando (quiza artificialmente) el recall para decir que tienen un indice libre de spammers a consta de tener muchos “positivos falsos” como mi pagina. Hay muchos valores adicionales que usabamos en Yahoo! para cuantificar lo spammer que era un documento determinado, pero mirandolos todos y cada uno de ellos (con los limites que tengo ahora que no estoy en Yahoo!) veo que no doy positivo en ninguno.
Conclusion: lo que siempre deciamos de cachondeo en Yahoo!: Google no es solo MUY salvaje con el spam, sino que es poco preciso, un maton de clase que pega al que se le ponga delante “por si acaso”.
Mas sobre precision y recall (con graficos monos de sus relaciones) (more…)
