Як дізнатися кодування тексту.

Текст у файлі, електронному листі, на веб-сторінці може бути набраний на будь-якій мові і збережений в різної комп'ютерної кодуванні. Справа полягає не тільки в різноманітті сучасних кодувань, які більш-менш впорядковані, а й зберіганні документів, що представляють в першу чергу історичну цінність. Також зустрічаються випадки, коли документ кілька разів був збережений в різних кодуваннях. Якщо текст відкривається у вигляді незрозумілого набору символів, його необхідно привести у вигляд, доступний для читання.
Вам знадобиться
  • Комп'ютер, текстовий редактор, онлайновий декодер, спеціальні програми «перекодувальники»
Інструкція
1
Якщо текст не читається на веб-сторінці, зробіть підбір кодування в браузері. Для цього клацніть лівою клавішею мишки в меню «Вид» по пункту «Кодування». У випадаючому списку переберіть доступні кодування, поки текст не прийме читається вигляд. Перша російська кодування KOI-8 з'явилася на комп'ютерах, коли ще вони не були персональними, з операційною системою UNIX. Застосовується на комп'ютерах з UNIX-подібними операційними системами - наприклад Linux. Наступною була російська кодування DOS-866 для операційної системи MS-DOS від компанії Microsoft. З випуском Windows 3.0 в справу вступила Win-1251. Зараз на UNIX-подібних системах застосовується кодування ISO 8859-5. Крім них іноді можна зустріти альтернативну кодування 855, DKOI-8, ГОСТ і болгарську кодування . Дуже рідко можна зустріти на документах кодування MacCyrillic, застосовувану тільки на комп'ютерах «Макінтош».
2
Збережіть текст в текстовому файлі, потім відкрийте його в текстовому редакторі, при необхідності спробуйте відкрити документ в декількох різних текстових редакторах. Файлові менеджери також можуть визначити кодування , в якій збережено, та перетворити його в необхідну кодування .
3
Помістіть частина тексту або весь текст, в залежності від його розміру, в онлайновий декодер (дешифратор, декодер пошти, конвектор кирилиці). Після декодировки буде запропоновано декілька варіантів тексту, а також назва кодування, в якій ймовірно знаходиться файл.
4
Для визначення кодування і при необхідності перекодування тексту необхідно використовувати спеціальні програми «перекодувальники». Дані програми досить популярні в інтернеті і прості у використанні, при цьому деякі з них дозволяють працювати з максимально можливою кількістю застосовуваних кодувань і надають максимально доступні можливості по роботі з ними.
Іноді необхідний файл або веб-сторінка не відкривається, а при її відображенні видно тільки незрозумілі символи. Бувають випадки, коли текстовий редактор або браузер не може визначити необхідну кодування . В такому випадку її доводиться підбирати самому за допомогою додаткових утиліт.
Вам знадобиться
  • Текстовий редактор, який працює з великим числом кодувань, або програма-декодер.
Інструкція
1
Якщо файл некоректно відкрився в одному редакторі, це зовсім не означає, що він має неправильну кодування . Варто спробувати відкрити той же файл в іншій програмі. Однією з утиліт, які в більшості випадків точно визначають необхідний набір символів, є безкоштовний редактор Notepad ++.
2
Якщо відкрити файл все-таки не вдається, то можна скористатися онлайн сервісами для визначення кодування, яких в інтернеті є безліч.
3
Також існують програми, які здатні розшифровувати російські тексти в різних кодуваннях. Безсумнівно, лідером є додаток «Штірліц» для Windows. Воно знає практично все кодові листи і знає безліч методів транслітерації. Більш того ця програма здатна виробляти операції трансформації тексту з вихідного формату в будь-який інший.
4
В Linux, щоб відкрити будь-який файл, що містить незнайому кодування , можна скористатися деякими консольними командами перетворення або готовими програмами. Під QT існує додаток QTexTransformer, яке допоможе визначити назву кодування і провести відповідні преобразованія.Под Linux існує безліч лінгвістичних модулів, написаних мовою Perl. Наприклад, Lingua DetectCharset або DetectCyrillic (для визначення кириличних символів). Добре відображає файли Windows програма mousepad. Для конвертування також можна скористатися консольної командою «econv путь_до_файла», яка самостійно визначить поточну кодування і перетворює її до поточної локалі.
Корисна порада
Добре з вибором потрібної кодування справляється текстовий процесор Word. Навіть якщо файл не відкрився в інших редакторах, в ньому спрацює функція «автозміна».