RÉSEAUX DE NEURONES ARTIFICIELS – ANN (PARTIE 2) : EN PRATIQUE
Python : Supprimer les doublons d’un CSV
Docker & WSL2 Installation

Python : Supprimer les doublons d’un CSV

Vous possédez un fichier CSV avec des doublons et vous souhaitez dé-doublonner ce document sans passer par un autre language.

D’abord, pas besoin de librairie supplémentaire, tous les serveurs avec python peuvent faire tourner ce script.

1/ Si votre fichier d’entrée et de sortie sont différents

with open('fichier_a_dedupliquer.csv','r') as in_file, open('fichier_dedup.csv','w') as out_file:
    seen = set()
    for line in in_file:
        if line in seen: continue

        seen.add(line)
        out_file.write(line)

2/ Si vous souhaitez écrire dans le fichier source directement

import fileinput
seen = set() # set for fast O(1) amortized lookup
for line in fileinput.FileInput('monfichier.csv', inplace=1):
    if line in seen: continue

    seen.add(line)
    print line, 

Sauvegardez ce script dans un fichier « monscript.py », puis lancez le en tappant :

python monscript.py

Et voila!

Add a comment

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.