Groupe :
- Thomas Portet
- Aymeric Picard Marchetto
Le rapport se trouve dans le fichier Rapport.md.
python main.py data/data.txt [nb]
Génère [nb] titres aléatoires en utilisant notre jeu de données. Fonctionne sur linux avec python 3.
cleanSource.pya servi pour nettoyer le data set original (examiner-date-text.csv) en format plus lisible (cleanedSource.txt)genProba.pytransforme un fichier de titres bruts (cleanedSource.txt) avec les données des bigrammes pour le programme (data.txt)
datarawcontient les données non traitéesexaminer-date-text.csvest le data set original tel quel (zippé pour prendre moins de place)cleanedSource.txtle data set nettoyé parcleanSource.py(zippé pour prendre moins de place)smallDataTest.txtun data set artificiel pour tester l'algorithme
datacontient les données prêtes à l'emploidata.txtles données générées pargenProba.pyà partir decleanedSource.txtdataSmall.txtles données générées pargenProba.pyà partir desmallDataTest.txt
Source du data set : https://www.kaggle.com/therohk/examine-the-examiner