# TP Word Embedding

## Bag of Words
Un sac de mots (ou *Bag of Words* en anglais, parfois abbrévié *BOW*) est une description d'un ensemble de mots sous forme d'un vecteur où l'ordre des mots ne rentre pas en compte.

### Term Frequency
L'idée de Term Frequency est d'effectuer un simple compte du nombre d'occurence (ou de la fréquence) de mots dans le corpus.

Soit un vocabulaire $V$ dans un corps $C$ contenant $D$ documents.
Soit $w$ un mot dans un document $d \in C$.

Alors $TF(C)$ est une matrice de taille $|V|\times|D|$ tel que

$$ TF(C)_{ij} = \frac{\text{# words $i$ in document $j$}}{|V|} $$

In [None]:
document_1 = "le chat mange la souris"
document_2 = "le chien regarde le canard"
document_3 = "le canard regarde le chat"

corpus = (document_1, document_2, document_3)

In [None]:
# construction du vocabulaire
vocabulary = []
for d in corpus:
    for w in d.split(" "):
        if w not in vocabulary:
            vocabulary.append(w)
            
# calcul d'un histogramme simple sur le corpus

# intialisation du dictionnaire
freq = dict()
for v in vocabulary:
    freq[v] = 0

# compte des fréquences
for d in corpus:
    for w in d.split(" "):
        freq[w] += 1     
        
print(freq)

{'le': 5, 'chat': 2, 'mange': 1, 'la': 1, 'souris': 1, 'chien': 1, 'regarde': 2, 'canard': 2}


problèmes liés avec cette approche :
* indépendence au document (pousse les mots fréquents comme "le" vers le dessus alors qu'ils ne sont pas informatifs sémantiquements)
* pas de prise en compte de la case (majusucle / miniscule)
* simpliste

In [None]:
# calcul d'un histogramme par document
import numpy as np

V = len(vocabulary)
D = len(corpus)

tf_idf = np.zeros([D, V])

for i, d in enumerate(corpus):
    for w in d.split(" "):
        j = vocabulary.index(w)
        tf_idf[i,j] += 1
            
print(tf_idf)

[[1. 1. 1. 1. 1. 0. 0. 0.]
 [2. 0. 0. 0. 0. 1. 1. 1.]
 [2. 1. 0. 0. 0. 0. 1. 1.]]


problèmes liés avec cette approche :
* résoud uniquement le premier problème cité précedement
* devrait être une implémentation en matrice creuse (*sparse matrix*) car va en pratique contenir beaucoup de zéros pour un vocabulaire grand

Heureusement des implémentations existantes comme dans `scikit learn` permettent de résoudre ces problèmes techniques.