Lors de cette résidence j'ai voulu expérimenter la corruption sémantique de textes en remplaçant certains mots par des synonymes. Les synonymes sont récupérés dynamiquement à travers l'API du site http://thesaurus.altervista.org. Pourquoi j'ai choisi ce site ? Ben les dictionnaires de synonymes en langue française proposant une API ne courent pas les cyber-rues, le choix a été rapide. Il faut noter que chaque API a ses propres règles de communication. Il devrait donc être possible d'utiliser le programme de corruption de texte avec un autre dictionnaire en ligne à condition d'adapter le programme aux règles de la nouvelle API.
Le programme est composé de deux modules maladroitement intégrés ensemble (ça s'est fait à la va vite sans réelle vision d'ensemble, et puis il y avait une tireuse avec bière à volonté…). Le premier module, écrit en Python, se charge de récupérer les synonymes en lignes et de sauvegarder le texte corrompu dans un nouveau fichier. Le second module, en Processing (Java), fait défiler les textes à l'écran, ajoute des effets de corruption graphique et fait régulièrement appel au premier module.
Il peut s'utiliser de façon autonome, à condition d'avoir installé Python3 sur votre machine.
N'oubliez pas de remplacer la clé d'API du site http://thesaurus.altervista.org par votre propre clé (après avoir crée votre compte) dans la variable key
.
Usage:
$ python3 textcorrupt.py fichier_original fichier_de_sortie [nombre_d'itérations]
où nombre_d'itérations
est le nombre (optionnel) de fois où l'algorithme corrompra le texte (sachant que par défaut 2% des mots sont modifiés à chaque itération).
Si le code est plus complexe qu'il ne devrait c'est parce qu'il utilise deux fichiers locaux de cache :
french_filter_out.txt
pour conserver les mots qui ne seront jamais modifiés (mots pour lesquels le dictionnaire en ligne renvoie une erreur mais vous pouvez également l'éditer manuellement pour rajouter vos mots à protéger).
syn_dict.txt
pour conserver tous les mots, ainsi que leurs synonymes, pour lesquels une requête a déjà été envoyé au dictionnaire en ligne.
Ces deux fichiers seront créés automatiquement à la première exécution du programme.
import requests import random import os.path import sys syn_dict = "syn_dict.txt" filter_out = "french_filter_out.txt" endpoint = "http://thesaurus.altervista.org/thesaurus/v1" key = "à remplacer par votre clé personnnelle" language = "fr_FR" output = "json" def loadFilterOut(filename): filterOut = [] if not os.path.isfile(filename): pass else: with open(filename, 'r') as file: for line in file.readlines(): if line: filterOut.append(line.strip()) return filterOut def saveFilterOut(filename, filterOut): with open(filename, 'w') as file: for word in filterOut: file.write(word+'\n') def loadSynDict(filename): synDict = dict() if not os.path.isfile(filename): pass else: with open(filename, 'r') as file: for line in file.readlines(): if line: words = line.split('\t') synDict[words[0]] = list(map(cleanWord, words[1:])) return synDict def saveSynDict(filename, synDict): with open(filename, 'w') as file: for word in synDict: file.write(word) for syn in synDict[word]: file.write('\t' + syn) file.write('\n') def getSynonyms(word, synDict, filterOut): word = cleanWord(word) if word in synDict: return synDict[word] sys.stderr.write("Fetching synonym of '{}'...\n".format(word)) url = f"{endpoint}?word={word}&key={key}&language={language}&output={output}" r = requests.get(url) try: r.raise_for_status() json = r.json() synList = json["response"][0]["list"]["synonyms"].split('|') synList = list(map(cleanWord, synList)) synDict[word.lower()] = synList return synList except: sys.stderr.write("Synonym not found\n") filterOut.append(word) return None finally: sys.stderr.flush() def chooseSynonym(word, synDict, filterOut): syns = getSynonyms(word, synDict, filterOut) if syns: return random.choice(syns) else: return word def validate(word, filterOut): return len(word)>1 and word.isalpha() and not word.casefold() in filterOut def cleanWord(word): return word.casefold().strip() def decomposeWord(word): iStart = 0 iEnd = len(word) while(iEnd>0 and not word[iEnd-1].isalpha()): iEnd -= 1 if len(word)>2 and word[1] == "'": iStart=2 return word[:iStart], word[iStart:iEnd], word[iEnd:] def parseText(text, synDict, filterOut): lines = text.split('\n') corruptedLines = [] for line in lines: words = line.split() corruptedWords = [] for word in words: prefix, radix, suffix = decomposeWord(word) # The corruption probability is 0.2 for each word if random.random()<0.2 and validate(radix, filterOut): corruptedWord = chooseSynonym(radix, synDict, filterOut) # Keep capital letters if word.istitle(): corruptedWord = corruptedWord[0].upper() + corruptedWord[1:] corruptedWords.append(prefix+corruptedWord+suffix) else: # Word is kept unchanged corruptedWords.append(word) corruptedLines.append(' '.join(corruptedWords)) return '\n'.join(corruptedLines) if __name__ == "__main__": sys.stderr.flush() synDict = loadSynDict(syn_dict) filterOut = loadFilterOut(filter_out) iteration = 1 if len(sys.argv) > 3: iteration = int(sys.argv[3]) text = "" with open(sys.argv[1], 'r') as file: text = file.read() for i in range(iteration): text = parseText(text, synDict, filterOut) # Save to file with open(sys.argv[2], 'w') as file: file.write(text) saveSynDict(syn_dict, synDict) saveFilterOut(filter_out, filterOut)
Le programme est disponible en téléchargement sur GitHub.
J'ai recopié ici quelques passages intéressants et facilement applicables à d'autres sketches Processing pour glitcher l'image. Il suffit ensuite d'appeler ces mêmes fonctions, dans l'ordre que vous voulez, à la fin de la fonction draw
.
void glitchScreen(int n) { // Paramètre 'n' : nombre de rectangles d'inversion à dessiner sur l'image loadPixels(); for (int i=0; i<n; i++) { int x0 = (int) random(width); int y0 = (int) random(height); int x1 = (int) min(x0+random(4, 200), width); int y1 = (int) min(y0+random(4, 40), height); for (int y=y0; y<y1; y++) { for (int x=x0; x<x1; x++) { pixels[x + y*width] = ~pixels[x + y*width]; } } } updatePixels(); }
// 4 boucles 'for' imbriqués, waouuuuuh ! Trop hardcooooooooore ;) void pixelateScreen(int n) { // Paramètre 'n' : degré de pixelisation (2 au minimum) loadPixels(); for (int y=0; y<height; y+=n) { for (int x=0; x<width; x+=n) { for (int yy=0; yy<n; yy+=1) { for (int xx=0; xx<n; xx+=1) { pixels[min(x+xx + (y+yy)*width, pixels.length-1)] = pixels[x+y*width]; } } } } updatePixels(); }
void rbGlitch(int n) { loadPixels(); PImage buffer = createImage(width, height, RGB); buffer.loadPixels(); for (int i=0; i<pixels.length; i++) { buffer.pixels[i] = (pixels[i] & 0xff00ff00) + (pixels[min(pixels.length-1, i+n)] & 0xff0000ff) + (pixels[max(0, i-n)] & 0x00ff0000); } buffer.updatePixels(); image(buffer, 0, 0); }
La dernière subtilité, et pas la moindre, se trouve dans les transformations géométriques appliquées aléatoirement et de façon individuelle aux lettres. Il aurait sans doute été possible d'utiliser la fonction text
de Processing après avoir modifié le repère avec les fonctions translate
, rotate
ou scale
mais ça aurait été une insulte à mon intelligence. Il faut savoir que la fonction text
, d'apparence si simple et innocente, cache en elle beaucoup de complexité. Je voulais également pouvoir traiter beaucoup de lettres à l'écran et utiliser la fonction text
pour chacune des lettres aurait été une abération programmatique.
Moi ce que je cherche c'est la performance ! D'aucuns y verront la preuve que j'ai une petite bite, mais avant de sauter au conclusions hâtives permettez-moi de défendre mon penchant. Je vois une forme d'esthétique dans un code efficace, optimisé sans être obfusqué. Je considère cette démarche comme de l'élégance artistique. D'autres interpréteront cette tendance comme de l'autisme, si ça les rassure. N'y aurait-il pas non plus dans cette recherche d'efficacité et de simplicité une attention particulière à la modération et à l'économie de ressource ? Pensez à l'énergie économisée lorsque la recherche du synonyme d'un mot est conservée localement plutôt que d'envoyer une nouvelle requête par internet. Autiste écolo à petite bite. Chacun y verra ce qu'il veut…