Как автоматически определить кодировку текстового файла?
Существует множество простых текстовых файлов, которые были закодированы в кодировках вариантов.
Я хочу конвертировать их все в UTF-8, но перед запуском iconv мне нужно знать его исходную кодировку. Большинство браузеров имеют опцию Auto Detect
в кодировках, но я не могу проверить эти текстовые файлы по одному, потому что их слишком много.
Только зная оригинальную кодировку, я могу конвертировать тексты в iconv -f DETECTED_CHARSET -t utf-8
.
Есть ли какая-нибудь утилита для определения кодировки обычных текстовых файлов? Она НЕ обязательно должна быть на 100% идеальной, я не возражаю, если в 1,000,000 файлов есть 100 файлов с неправильной кодировкой.