De la ecuación de la sección anterior tenemos que un RNA es una función $f:\mathcal{R}^n \to \mathcal{R}^L$, definida como
$$ y = f(x) = f^2(f^1( x W^1 + b^1 ) W^2 + b^2). $$$\leadsto$ Como puede verse, si la RNA tiene más de una capa oculta, la función $f$ puede ser extendida directamente de forma recursiva.
Limpieza inicial dependiendo de la forma de obtener los datos (Ej. HTML)
Estandarización de la información
Fuente: akifrases
Texto Minado de la Web:
<div class="quoteText2">“<a href="/frase/202124" class="qlink">Ver un mundo en un grano de arena y un cielo en una flor silvestre, tener el infinito en la palma de la mano y la Eternidad en una hora.</a> <br><div class="qauthor"> ― <a href="/autor/william-blake">William Blake</a></div></div>
1. Limpieza Inicial
2. Estandarización de la información
2. Estandarización de la información
2. Estandarización de la información
2. Estandarización de la información
Resumen
Hemos convertido
<div class="quoteText2">“<a href="/frase/202124" class="qlink">Ver un mundo en un grano de arena y un cielo en una flor silvestre, tener el infinito en la palma de la mano y la Eternidad en una hora.</a> <br><div class="qauthor"> ― <a href="/autor/william-blake">William Blake</a></div></div>
En:
Imagen General
Minemos más textos:
df
documento | documento preprocesado | |
---|---|---|
0 | Ver un mundo en un grano de arena y un cielo e... | mundo grano arena cielo flor silvestre infinit... |
1 | Hola, estoy aquí buscando un árbol dónde vivir. | hola buscar arbol vivir |
2 | La noche está constelada y tu no estàs conmigo. | noche constelado |
3 | Eres toda mi verdad, eclipsada por el mar. | eclipsado mar |
4 | En mi diario de nostalgìas, buscábamos el desv... | diario nostalgìas buscar desvanecimiento espir... |
5 | La ama de llaves está muy frita. | ama llave frito |
Recordemos nuestros documentos:
df
documento | documento preprocesado | |
---|---|---|
0 | Ver un mundo en un grano de arena y un cielo e... | mundo grano arena cielo flor silvestre infinit... |
1 | Hola, estoy aquí buscando un árbol dónde vivir. | hola buscar arbol vivir |
2 | La noche está constelada y tu no estàs conmigo. | noche constelado |
3 | Eres toda mi verdad, eclipsada por el mar. | eclipsado mar |
4 | En mi diario de nostalgìas, buscábamos el desv... | diario nostalgìas buscar desvanecimiento espir... |
5 | La ama de llaves está muy frita. | ama llave frito |
Podemos determinar (Luego del preprocesamiento) si una palabra aparece o no en cada texto:
dtm
ama | arbol | arena | buscar | cielo | constelado | desvanecimiento | diario | eclipsado | espiritual | ... | infinito | llave | mano | mar | mundo | noche | nostalgìas | palma | silvestre | vivir | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | ... | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 1 | 1 | 0 |
1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
2 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | ... | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
4 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
5 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
6 rows × 26 columns
Tf-idf es el producto de dos medidas, frecuencia de término y frecuencia inversa de documento. Existen varias maneras de determinar el valor de ambas.
Algunas posibilidades son:
La frecuencia inversa de documento es una medida de si el término es común o no, en el corpus de documentos. Se obtiene dividiendo el número total de documentos por el número de documentos que contienen el término, y se toma el logaritmo de ese cociente:
$$ {\displaystyle \mathrm {idf} (t,D)=\log {\frac {|D|}{|\{d\in D:t\in d\}|}}} $$donde
Un peso alto en tf-idf se alcanza con una elevada frecuencia de término (en el documento dado) y una pequeña frecuencia de ocurrencia del término en corpus de documentos.
Como el cociente dentro de la función logaritmo del idf es siempre mayor o igual que 1, el valor del idf (y del tf-idf) es mayor o igual que 0.
Cuando un término aparece en muchos documentos, el cociente dentro del logaritmo se acerca a 1, ofreciendo un valor de idf y de tf-idf cercano a 0.
dtm
ama | arbol | arena | buscar | cielo | constelado | desvanecimiento | diario | eclipsado | espiritual | ... | infinito | llave | mano | mar | mundo | noche | nostalgìas | palma | silvestre | vivir | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | ... | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 1 | 1 | 0 |
1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
2 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | ... | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
4 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
5 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
6 rows × 26 columns
tfidf_dtm.round(2)
ama | arbol | arena | buscar | cielo | constelado | desvanecimiento | diario | eclipsado | espiritual | ... | infinito | llave | mano | mar | mundo | noche | nostalgìas | palma | silvestre | vivir | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0.00 | 0.00 | 0.3 | 0.00 | 0.3 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | ... | 0.3 | 0.00 | 0.3 | 0.00 | 0.3 | 0.00 | 0.00 | 0.3 | 0.3 | 0.00 |
1 | 0.00 | 0.52 | 0.0 | 0.43 | 0.0 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | ... | 0.0 | 0.00 | 0.0 | 0.00 | 0.0 | 0.00 | 0.00 | 0.0 | 0.0 | 0.52 |
2 | 0.00 | 0.00 | 0.0 | 0.00 | 0.0 | 0.71 | 0.00 | 0.00 | 0.00 | 0.00 | ... | 0.0 | 0.00 | 0.0 | 0.00 | 0.0 | 0.71 | 0.00 | 0.0 | 0.0 | 0.00 |
3 | 0.00 | 0.00 | 0.0 | 0.00 | 0.0 | 0.00 | 0.00 | 0.00 | 0.71 | 0.00 | ... | 0.0 | 0.00 | 0.0 | 0.71 | 0.0 | 0.00 | 0.00 | 0.0 | 0.0 | 0.00 |
4 | 0.00 | 0.00 | 0.0 | 0.38 | 0.0 | 0.00 | 0.46 | 0.46 | 0.00 | 0.46 | ... | 0.0 | 0.00 | 0.0 | 0.00 | 0.0 | 0.00 | 0.46 | 0.0 | 0.0 | 0.00 |
5 | 0.58 | 0.00 | 0.0 | 0.00 | 0.0 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | ... | 0.0 | 0.58 | 0.0 | 0.00 | 0.0 | 0.00 | 0.00 | 0.0 | 0.0 | 0.00 |
6 rows × 26 columns
Arquitectura del modelo Semática Latente
Fuente: Alvaro Montenegro