Главная
Блог разработчиков phpBB
 
+ 17 предустановленных модов
+ SEO-оптимизация форума
+ авторизация через соц. сети
+ защита от спама

Используем поисковые движки для проверки корректности фраз

Anna | 16.06.2014 | нет комментариев
По работе мне Зачастую доводится вести переписку на английском, и в силу недолеченного перфекционизма, пользоваться для этого оффлайн/онлайн переводными/толковыми словарями. В целом они со своей работой справляются, пока дело не доходит до проверки правильности словосочетаний либо целых фраз. Хочешь ввернуть что-нибудь из разряда продвинутого владения языком, но нет уверенности, что верно помнишь (огромный здравствуй предлогам и фразовым глаголам).

Есть парочка источников, для поиска фраз, но заточены они в основном под общеупотребимые словосочетания, поговорки и фразеологизмы на отдельно взятом языке. К тому же не вестимо пользуются ли люди желанной фразой либо употребив её вы поставите в тупичок даже носителя языка.
Для решения задачи я привык применяться googlе. Способ примитивен до неприличия: ищем всю фразу целиком (для тех, кто не в курсе – фразу для этого необходимо заключить в двойные кавычки), получаем как неизменно комплект ссылок огромный бонус в виде кучи рекламы числа обнаруженных страниц. Вот эта цифра нас и волнует. Если число «попаданий» сомнительно немного, перефразируем и/или исправляем ошибки. Вновь ищем. Обыкновенно за 2-3 итерации получается типичный итог.

Ещё пара плюсов способа:
не зависит от используемого языка. Так что когда «заклинит» (издержки воли интернета – изредка легко забываешь, как оно было в «великом и мощном»), я тоже им пользуюсь;
репрезентативная выборка из ну оооооооооооочень большого числа проиндексированных страниц, а следственно языка «живого» и актуального.

На то, какой итог считать типичным влияют несколько факторов:
— длина фразы;
— распространённость в языке;
— всеобщее число источников в Интернете на данном языке (видимо, что сайтов на немецком на порядок поменьше, чем на испанском и т.д.).
В всеобщем всё довольно видимо, необходимо только немножко набить руку. Скажем, для распространённых словосочетаний на английском итог должен исчисляться правда бы сотней тысяч (отчего не миллионами объясню чуть ниже).

Минусы способа (при применении браузеров):
— подсказки и история поиска в браузерах изредка вызывают скрежет зубовный. То невольно выбираешь иную фразу из предложенных, то борешься с кавычками. Мелочь, а изредка нервирует;
— необходимо удерживать браузер открытым, что частенько пагубно для “getting thing done”, то бишь отвлекает от работы. Либо запускать браузер (со всеми 100 вкладками, открытыми с позапрошлого года. Шутка, безусловно, но неподалеку от правды. Разве что Firefox не пытается их все подгрузить при старте, но и он «отыгрывается» на загрузке кучи плагинов, которые так отрадно устанавливать и так ничтожно удалять).

С целью борьбы с издержками способа и была написана консольная программка на Питоне (2.7), которая ищет фразы применяя поисковые движки Google и Bing. Пример применения:

Пара комментариев:
— я немножко увлёкся и прикрутил поиск в Bing-е, правда это и избыточно. Уберите сами если будет мешать задержка на добавочный запрос. Так же для Bing, если вы захотите применять исходник программы, необходимо получить подписку на пользование Bing Search API (5000 запросов в месяц даром) на Windows Azure Marketplace, и после этого сделать Account Key (имя не имеет значения). Ключ, тот, что выдаётся по умолчанию не подходит (видимо из соображений безопасности, исправьте меня если это не так). В дистрибутиве под Windows ключ безусловно теснее прописан, но если перестанет трудиться, значит исчерпаны запросы на нынешний месяц;
— в силу заморочек Google AJAX API, с поддержкой которого выполняется запрос, примерное число «попаданий» будет дюже крепко примерным (то, о чём я писал выше — изредка на порядок отличается от цифры выдаваемой при поиске с поддержкой браузера). Эта задача вестима как code.google.com/p/google-ajax-apis/issues/detail?id=32. Есть сомнение, что Bing Search API ведёт себя так же хитроумно;
— так же, рассматривая мои затруднения с реформированиями кодировок в Питоне (консоль, система, запрос), я не сумел добавить поддержку кириллицы. Если кто-то захочет допилить — милости умоляю.

Исходник и архив с дистрибутивом под Windows дозволено взять тут.
Дистрибутив довольно разархивировать в какую-нибудь папку, и добавить путь к ней в системные пути.

Буду признателен за ссылки на схожие посты/ресурсы/программы.

Источник: programmingmaster.ru
Оставить комментарий
Форум phpBB, русская поддержка форума phpBB
Рейтинг@Mail.ru 2008 - 2017 © BB3x.ru - русская поддержка форума phpBB