v1

2022-09-22 17:41:54 +02:00 · 2022-09-22 17:41:54 +02:00 · b452b1b253
commit b452b1b253
parent a207c71687
5 changed files with 61 additions and 9 deletions
--- a/Exo.py
+++ b/Exo.py
@ -0,0 +1,47 @@
 import pandas as pd
 import matplotlib.pyplot as plt
 document_1 = "le chat mange la souris"
 document_2 = "le chien regarde le canard"
 document_3 = "le canard regarde le chat"
 corpus = (document_1, document_2, document_3)
 # construction du dictionnaire
 vocabulary = []
 for d in corpus:
    for w in d.split(" "):
        if w not in vocabulary:
            vocabulary.append(w)
 # calcul d'un histogramme simple sur le corpus
 # initialisation de l'histogramme
 freq = dict()
 for v in vocabulary:
    freq[v] = 0
 # comptage des occurrences
 for d in corpus:
    for w in d.split(" "):
        freq[w] += 1     
 print(freq)
 df = pd.DataFrame({'freq':freq.values()}, index=freq.keys())
 ax = df.plot.bar(rot=0)
 plt.show()
 # calcul d'un histogramme par document
 import numpy as np
 V = len(vocabulary)
 D = len(corpus)
 tf_idf = np.zeros([D, V])
 for i, d in enumerate(corpus):
    for w in d.split(" "):
        j = vocabulary.index(w)
        tf_idf[i,j] += 1
 print(tf_idf)
--- a/Word_embedding.docx
+++ b/Word_embedding.docx
--- a/exercices.ipynb
+++ b/exercices.ipynb
@ -2,16 +2,16 @@
 "cells": [
  {
   "cell_type": "markdown",
-   "id": "0f3d617c",
+   "id": "d8ffd3a0",
   "metadata": {},
   "source": [
    "# TP Word Embedding\n",
    "\n",
    "## Bag of Words\n",
-    "Un sac de mots (ou *Bag of Words* en anglais, parfois abbrévié *BOW*) est un description d'un ensemble de mot sous forme d'un vecteur où l'ordre des mots ne rentre pas en compte.\n",
+    "Un sac de mots (ou *Bag of Words* en anglais, parfois abbrévié *BOW*) est une description d'un ensemble de mots sous forme d'un vecteur où l'ordre des mots ne rentre pas en compte.\n",
    "\n",
    "### Term Frequency\n",
-    "L'idée de Term Frequency est d'effectué un simple compte du nombre d'occurence (ou de la fréquence) du nombre de mots dans le corpus.\n",
+    "L'idée de Term Frequency est d'effectuer un simple compte du nombre d'occurence (ou de la fréquence) de mots dans le corpus.\n",
    "\n",
    "Soit un vocabulaire $V$ dans un corps $C$ contenant $D$ documents.\n",
    "Soit $w$ un mot dans un document $d \\in C$.\n",
@ -23,7 +23,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": null,
   "id": "a1445527",
   "metadata": {},
   "outputs": [],
@ -37,7 +37,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": null,
   "id": "6c989264",
   "metadata": {},
   "outputs": [
@ -85,7 +85,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": null,
   "id": "5fc408eb",
   "metadata": {},
   "outputs": [
@ -125,13 +125,13 @@
    "* résoud uniquement le premier problème cité précedement\n",
    "* devrait être une implémentation en matrice creuse (*sparse matrix*) car va en pratique contenir beaucoup de zéros pour un vocabulaire grand\n",
    "\n",
-    "Heuresement des implémentations existantes comme dans `scikit learn` permettent de résoudre ces problèmes techniques."
+    "Heureusement des implémentations existantes comme dans `scikit learn` permettent de résoudre ces problèmes techniques."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
-   "display_name": "Python 3 (ipykernel)",
+   "display_name": "Python 3.9.4 64-bit",
   "language": "python",
   "name": "python3"
  },
@ -145,7 +145,12 @@
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
-   "version": "3.9.7"
+   "version": "3.9.4"
  },
  "vscode": {
   "interpreter": {
    "hash": "2ef431f6525756fa8a44688585fa332ef3b2e5fcfe8fe75df35bbf7028a8b511"
   }
  }
 },
 "nbformat": 4,
--- a/freq.png
+++ b/freq.png
--- a/~$rd_embedding.docx
+++ b/~$rd_embedding.docx