martes, 25 de enero de 2011

Term frecuency, Inverse document frecuency TF-IDF

La teoría de la indexación fue elaborada por varios investigadores a mediados de los 50’s, uno de éstos, quien es considerado el padre de la teoría es: Gerard Salton. Salton introdujo varios conceptos como: term frequency (tf), inverse document frequency (idf), entre otros.

Term Frequency (frecuencia de los términos), una palabra en un documento, tiene importancia según la cantidad de veces que ésta se repita.

Inverse document frequency (frecuencia inversa del documento): el valor de un término es inversamente proporcional al número de documentos en que aparece.
Para indexar un registro es necesario definir su vector índice -index vector- como
el conjunto de pares (aij, wij) que definen el valor ai del atributo Ai y su respectivo peso wi
para un documento Di, de una colección.

Este proyecto emplea ambas técnicas para encontrar los documentos mas relevantes de una colección, sacando los vectores TF e IDF de cada documento, su producto punto,

a.b=||a|| ||b|| cos (theta)

y la similaridad por coseno,

similarity = cos(theta) = (a.b)/(||a|| ||b||)
el resultado, un valor de 0 a 1, donde el mas cercano a uno es mas relevante.

Ademas, contiene manejo de bases de datos, uso de javamail y captcha.

No hay comentarios:

Publicar un comentario