Главная
Блог разработчиков phpBB
 
+ 17 предустановленных модов
+ SEO-оптимизация форума
+ авторизация через соц. сети
+ защита от спама

Учимся бороться с ëÒÁËÏÚÑÂÒÙ

Anna | 15.06.2014 | нет комментариев
Недавно у меня появилась надобность скачивать кучу каждых документов из веба. Безусловно не ручками, а питонячими скриптами. Но вот напасть — достаточно Зачастую странички содержат кракозябры какую-то хрень.

image

Безусловно, есть же куча любых онлайн декодеров, типа 2cyr и пр. Но это всё не то — хочется всё же иметь вероятность чинить кракозябры в скриптах. Перерыл кучу мест — не нашёл ничего годного для питона. В результате почесал репу и накидал свой велосипед. Велосипед едет медлительно, но но едет.

Получившаяся библиотека менее умственная чем 2cyr — не может, скажем, декодить такие «кракозябры»:ирилица
На самом деле данное решение может делать только одно — распутывать цепочки последовательных перекодировок в удобочитаемый вид. Скажем, если текст в кодировке CP1251 был отображён в кодировке KOI8-R, то получится приблизительно такая фигня: йПЮЙНГЪАПШ АКЕЮРЭ.

Я не преследую теперь цель что-то подробно расписывать и плодить длинный пост. Я хочу сэкономить время того, кому моё решение может сгодиться.

Собственно,

$ pip install recoder

либо

$ git clone https://bitbucket.org/dkuryakin/recoder.git
$ cd recoder && python setup.py install

Позже этого дозволено сделать так:

$ echo йПЮЙНГЪАПШ АКЕЮРЭ | python -mrecoder utf-8  # здесь указываем кодировку локали.

Пользуйтесь на здоровье, заодно может под виндой кто-нибудь потестит (:

Источник: programmingmaster.ru

Оставить комментарий
Форум phpBB, русская поддержка форума phpBB
Рейтинг@Mail.ru 2008 - 2017 © BB3x.ru - русская поддержка форума phpBB