Zunächst einmal möchten Sie die Datei auf keinen Fall in einem Editor öffnen (sie ist viel zu groß, um sie so zu bearbeiten).
Stattdessen, wenn Sie sich nur identifizieren möchten ob die Datei etwas anderes als A
enthält , T
, C
und G
, das können Sie mit
grep '[^ATCG]' filename
Dies würde alle Zeilen zurückgeben, die etwas anderes als diese vier Zeichen enthalten.
Wenn Sie löschen möchten diese Zeichen aus der Datei, können Sie dies mit
tuntr -c -d 'ATCG\n' <filename >newfilename
(ob dies der richtige Weg ist, die Datei zu "korrigieren" oder nicht, weiß ich nicht)
Dadurch würden alle Zeichen in der Datei entfernt, die nicht zu den vier gehören, und es würden auch Zeilenumbrüche (\n
). Die bearbeitete Datei würde in newfilename
geschrieben werden .
Wenn es sich um einen systematischen Fehler handelt, der der Datei etwas hinzugefügt hat, dann könnte dies möglicherweise durch sed
korrigiert werden oder awk
, aber wir wissen noch nicht, wie Ihre Daten aussehen.
Wenn Sie die Datei in vi
geöffnet haben oder vim
, dann den Befehl
/[^ATCG]
findet das nächste Zeichen im Bearbeitungspuffer, das kein A
ist , T
, C
oder G
.
Und :%s/[^ATCG]//g
wird sie alle entfernen.