Анализатор постов в ЖЖ

Вдохновившись этим примером, я тоже решила запилить что-нибудь для ЖЖ и в итоге написала приложение для анализа постов. Сейчас оно умеет определять языковое разнообразие (насколько разнообразными словами пользуется юзер), среднюю длину поста и самые частые слова. Может, потом добавлю ещё пару функций (а может и нет) :)

Вот что у меня получилось

Пока писала и тестировала, обнаружила несколько закономерностей (хотя и меньше, чем ожидала).

Во-первых, у хорошего блога совсем не обязательно высокое разнообразие. У нескольких моих любимых блогеров, которых я считаю одними из самых интересных в ЖЖ, показатель разнообразия довольно средний. Я-то думала, чем круче пишет автор, тем разнообразие будет выше! Но это оказалось и близко не так. Высокие показатели разнообразия (24% и выше) часто встречаются у тех, кто пишет о новостях и всяких событиях — это и понятно, ведь события каждый день разные, поэтому в таких блогах встречается очень много разных слов. А вот у тех, кто пишет на какую-то узкоспециализированную тему (техника, медицина, садоводство), показатель разнообразия, наоборот, чаще низкий.

Сравнивать показатели довольно интересно, я для этого специально прикрутила графики с образцами нескольких топ-блогеров. А особенно интересно (ну мне, по крайней мере) смотреть на самые частые слова.
Но есть и довольно много ограничений, и о них ниже.

Приложение сейчас работает только с русскоязычными блогами. Ни английский, ни украинский язык оно не поддерживает, и результаты для блогов на любом языке, кроме русского, будут неправильными.

Ошибки и манера намеренно коверкать слова, к сожалению, повышают разнообразие. Мой алгоритм пока не умеет исправлять ошибки, и неправильно написанное слово считается уникальным. Так что, если условный юзер vasiliy1488 имеет запас слов Эллочки Людоедки, но при этом пишет “деффчонки” и “нихачу”, то показатель разнообразия его блога вполне может оказаться высоким, увы. (Только что придумала этого Василия для примера, но сейчас залезла на всякий случай проверить, а нет ли такого пользователя в ЖЖ на самом деле. Вы не поверите: такой пользователь есть! Точнее, был, он удалил свой журнал. Василий, если вы вдруг это читаете, простите, я не специально!).

ЖЖ даёт доступ только к 25-ти последним постам пользователя, так что выборка, к сожалению, неполная. И чем более длинные у вас посты, тем точнее результат. Если вы пишете в ЖЖ в формате Твиттера или часто постите одни картинки без текста, результат будет неточным.

Встречаются забавные артефакты! Например, тестируя приложение, я наткнулась на блогера, у которого в списке самых распространённых слов было загадочное “ГАЙДАТЬ”. Задумчиво почесав репу и пошевелив губами, я открыла его блог и сразу всё поняла: чувак пишет о кино и в последнее время часто упоминает знаменитого режиссёра Леонида Гайдая! Приложение, встретив незнакомое слово “Гайдай”, определило его как глагол)) Таким же образом получились очаровательные глаголы “ниховать” и “наховать”. Догадаетесь, от каких слов они образовались? :)

В остальном всё вполне предсказуемо. У Тёмы Лебедева в частых словах “пиздец”, “бесить” и “хуйня”. У shakko_kitsune, которая, как известно, пишет об искусстве, — “портрет”, “картина”, “статуя” и тому подобное. У Эволюции — сплошные “короны”, “щипцы” и прочие её словечки. Но нужно помнить, что ЖЖ отдаёт только последние 25 постов, так что эти слова следует воспринимать не как абсолют, а скорее “о чём этот блогер пишет в последнее время”.

Благодарю за помощь советами и бета-тестированием mozgosteb, bearinbloodbath и rheo_tu

Previous
← Ctrl ← Alt
Next
Ctrl → Alt →

Error

Anonymous comments are disabled in this journal

default userpic
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →