Vous possédez un fichier CSV avec des doublons et vous souhaitez dé-doublonner ce document sans passer par un autre language.
D’abord, pas besoin de librairie supplémentaire, tous les serveurs avec python peuvent faire tourner ce script.
1/ Si votre fichier d’entrée et de sortie sont différents
with open('fichier_a_dedupliquer.csv','r') as in_file, open('fichier_dedup.csv','w') as out_file:
seen = set()
for line in in_file:
if line in seen: continue
seen.add(line)
out_file.write(line)
2/ Si vous souhaitez écrire dans le fichier source directement
import fileinput
seen = set() # set for fast O(1) amortized lookup
for line in fileinput.FileInput('monfichier.csv', inplace=1):
if line in seen: continue
seen.add(line)
print line,
Sauvegardez ce script dans un fichier « monscript.py », puis lancez le en tappant :
python monscript.py
Et voila!