Los límites de los datos de calificación en Machine Learning: los dummies

Video: How data brokers sold my identity | Madhumita Murgia | TEDxExeter 2024

Los datos de calificación tienen sus limitaciones en el aprendizaje automático. Para que los sistemas de recomendación funcionen bien, necesitan saber acerca de usted y de otras personas, como usted y diferente de usted. La adquisición de datos de calificación permite que un sistema de recomendación aprenda de las experiencias de múltiples clientes. Los datos de calificación podrían derivarse de un juicio (como calificar un producto usando estrellas o números) o un hecho (un binario 1/0 que simplemente indica que usted compró el producto, vio una película o dejó de navegar en una determinada página web).

No importa la fuente o el tipo de datos, los datos de calificación siempre se refieren a comportamientos. Para calificar una película, tiene que decidir verla, mirarla y luego calificarla en función de su experiencia de ver la película. Los sistemas de recomendación reales aprenden de los datos de clasificación de diferentes maneras:

Filtrado colaborativo: Coincidencias evaluadores basados en similitudes de películas o productos utilizados en el pasado. Puede obtener recomendaciones basadas en elementos gustado por personas similares a usted o en artículos similares a los que le gustan.
Filtrado basado en contenido: va más allá del hecho de que haya visto una película. Examina las características relacionadas con usted y la película para determinar si existe una coincidencia en función de las categorías más grandes que representan las entidades. Por ejemplo, si eres una mujer a la que le gustan las películas de acción, el recomendador buscará sugerencias que incluyan la intersección de estas dos categorías.
Recomendaciones basadas en el conocimiento: Basado en metadatos, como las preferencias expresadas por los usuarios y las descripciones de los productos. Se basa en el aprendizaje automático y es eficaz cuando no tiene suficientes datos de comportamiento para determinar las características del usuario o del producto. Esto se denomina inicio en frío y representa una de las tareas de recomendación más difíciles porque no tiene acceso al filtrado colaborativo o al filtrado basado en el contenido.

Al usar el filtrado colaborativo, debe calcular la similitud. Además de las distancias Euclidiana, Manhattan y Chebyshev, el resto de esta información analiza la similitud del coseno. La similitud del coseno mide la distancia del coseno angular entre dos vectores, lo que puede parecer un concepto difícil de comprender, pero es solo una forma de medir ángulos en los espacios de datos.

Imagine un espacio hecho de características y que tiene dos puntos. Puedes medir la distancia entre los puntos. Por ejemplo, podría usar la distancia euclidiana, que es una elección perfecta cuando tiene pocas dimensiones, pero que falla miserablemente cuando tiene múltiples dimensiones debido a la maldición de la dimensionalidad.

La idea detrás de la distancia del coseno es usar el ángulo creado por los dos puntos conectados al origen del espacio (el punto donde todas las dimensiones son cero) en su lugar. Si los puntos están cerca, el ángulo es estrecho, no importa cuántas dimensiones haya. Si están lejos, el ángulo es bastante grande.

La similitud coseno implementa la distancia del coseno como un porcentaje y es bastante efectiva para determinar si un usuario es similar a otro o si una película puede asociarse a otra porque los mismos usuarios la favorecen. El siguiente ejemplo ubica las películas que son las películas más similares a la película 50, Star Wars.

print (colnames (MovieLense [50]))

[1] "Star Wars (1977)"

similar_movies <- similitud (MovieLense [50],

MovieLense [-50],

method = "cosine",

which = "items")

colnames (similar_movies) [which (similar_movies> 0. 70)]

[1] "Toy Story (1995)" < "El imperio contraataca, el (1980)"

[3] "En busca del arca perdida" (1981) "

" El retorno del Jedi (1983) "