Главная
Блог разработчиков phpBB
 
+ 17 предустановленных модов
+ SEO-оптимизация форума
+ авторизация через соц. сети
+ защита от спама

Возвратился невод с тиной морскою…

Anna | 16.06.2014 | нет комментариев
Года полтора назад я решил провести маленький эксперимент. Цель была посмотреть на концентрированный новояз. Сделал я следующее:
1) Распарсил bash.im (тогда ещё bash.org.ru) и сотворил частотный словарь встречающихся там слов.
2) Распарсил Википедию и сотворил частотный словарь (вернее не вовсе так, словарь Википедии у меня к тому моменту теснее был, я его делал прежде для вовсе других целей).
3) Рассортировал словарь Баша по встречаемости в порядке убывания, шёл по нему и печатал те слова, которые ни разу не встречались в Википедии.

В всеобщем позже всех приготовлений запустил я скрипт и приготовился увидеть теперешний слэнг во каждой своей красе. Программа начала печатать…
Те, у кого нет аллергии на ненормативную лексику, могут пойти по ссылке и полюбоваться на предисловие полученного мною списка (никакой редактуры, публикую так как выдала программа):

Я предупредил!

Для тех, кто по ссылке не пошёл, скажу что я подлинно получил много слэнга — одмин, сервак, комменты, фотик и т.д. Но ещё огромнее получил форсируемых арфогрофичиских ашыбок и мата.
Одно утешает — в русскоязычной Википедии этих слов всё-таки не было!

Приложение.

Так как статья всё-таки для программистов, я расскажу, как делать частотный словарь Википедии (если сумею разыскать исходники, приложу их к статье).
1) Качаем дамп русской википедии, последняя версия неизменно лежит тут —download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
2) Убираем все теги и оставляем нагой текст при помощи вот этого питоновского скрипта, написанного товарищами из Италии — medialab.di.unipi.it/wiki/Wikipedia_Extractor записывая его по ходу дела в файлы комфортного нам и нашей машине размера.
3) Для всякого файла разделяем текст применяя в качестве разделителей всё, что не кириллица и не дефис (Дабы не поделить каждые кресла-качалки) и считаем токены (дозволено применять collections.Counter из стандартной библиотеки Питона)
4) Сливаем получившиеся словари совместно.

Приложение 2

А вот собственно частотный словарь Википедии, делал его около 2-х лет назад.
Апдейт. Кол-во скачиваний превысило лимит дропбокса и ссылку заблокировали (как бы как временно), кладу ещё сюда — app.box.com/s/f33w8rlwo7dt1kejq7n1
Апдейт2. box теснее тоже на грани… а у меня запарка жуткая… кто-нибудь, выложите ещё куда-нибудь, пожалуйста, а я сюда ссылку добавлю.
С ним дозволено кучу любых увлекательных пророческой делать, скажем искать слова со любыми увлекательными свойствами (ну скажем «труднозаживляемый» — самое длинное слово русского языка в котором все буквы различные). Либо скажем сделать генератор анаграмм. Однако об экспериментах со словарём постараюсь сделать обособленный пост.

Источник: programmingmaster.ru
Оставить комментарий
Форум phpBB, русская поддержка форума phpBB
Рейтинг@Mail.ru 2008 - 2017 © BB3x.ru - русская поддержка форума phpBB