Mail.RuПочтаМой МирОдноклассникиИгрыЗнакомстваНовостиПоискВсе проекты
Сдали бы вы ЕГЭ по географии?Даже если вам в этом году не придется дрожать на экзаменах, поддержите своих друзей или родных — пройдите тест сами!
5 августа 2016, источник: N + 1

Нейросеть научилась писать твиты за Рамзана Кадырова

Пользователь соцсети «ВКонтакте» Mik Ketov создал нейронную сеть, которая генерирует твиты в стиле Рамзана Кадырова. Они публикуются в соответствующем канале в Twitter.

По словам автора, на создание нейросети его вдохновил проект DeepDrumpf. Это система машинного обучения, которая генерирует твиты на основе стенограмм дебатов кандидата в президенты США Дональда Трампа. Кадыров был выбран из российских политиков из-за большого количества выступлений и постов в социальных сетях, которые дают обширный материал для обучения нейросети.

Для создания системы генерации текста автор российской версии пользовался тем же алгоритмом char-rnn, что и создатели DeepDrumpf. Char-rnn это многослойная реккурентная нейросеть, созданная сотрудником Стенфордского университета Андрем Карпати.

Упрощенно можно сказать, что сhar-rnn работает как генератор текста, в котором каждый последующий символ предсказывается на основании множества предыдущих — они подаются на вход нейросети.

При этом то, как именно нейросеть интерпретирует входную информацию (и какой текст она в результате генерирует), зависит от того, на чем она обучалась. Как и с другими нейросетями, обучение на тренировочной выборке определяет весовые коэффициенты между нейронами, и именно это обеспечивает характерный «стиль» для генерируемого текста.

Таким образом можно научить нейросеть создавать тексты в стиле Толстого, писать статьи похожие на статьи Википедии, генерировать код ядра Линукса и так далее.

В данном случае в роли тренировочной выборки выступил массив текстов Кадырова, автоматически извлеченный из его настоящего блога.

«Рамзан Ахматович не менее одиозен, чем Трамп и производит много увлекательного контента, но, кстати, — и это проблема, — весьма однообразного», — объясняет Mik Ketov.

В силу этого нейросеть преимущественно упоминает Аллаха, отца и брата Кадырова, а также многочисленные мечети.

В нейросети, созданной Mik Ketov, можно варьировать количество скрытых слоев и количество предыдущих символов, которые подаются на вход нейросети (от 20 до 140). Как и в системе DeepDrumpf, в русскоязычной версии для твитов используется далеко не весь генерируемый нейросетью текст — значительную его часть приходится выкидывать с помощью ручного отбора.

Дополнительной сложностью по сравнению с англоязычной версией является необходимость согласовывать род и падежи в предложениях (из-за ограниченной глубины символов нейросеть порой просто не видит начала предложения).

Александр Ершов

Пока ни одного комментария, будьте первым!
Чтобы оставить комментарий, вам нужно авторизоваться.
, вы можете комментировать еще  дней
, вы можете комментировать еще  дней
31 день подписки от 59 рублей
Оплатить подписку