Featured image of post Итоги 1 года работы мини проекта rtinews.ru

Итоги 1 года работы мини проекта rtinews.ru

Год назад я запустил pet project по сбору корпоративных новостей в единую удобную ленту. Пришло время подытожить, каких результатов удалось добиться, и сделать выводы.

Год назад я запустил pet project по сбору корпоративных новостей в единую удобную ленту. Цель заметки - собрать в одном месте различную информацию, и подвести итоги года работы.

rtinews.ru

Предыстория

Все началось с того, что в какой-то момент мне захотелось отслеживать появление на Reddit новых тем с определенными ключевыми словами. При этом желательно, чтобы список новых тем прилетал автоматически через один из удобных мне каналов связи.

Все, что надо было для этого - это сервис, который бы периодически заходил на поисковую страницу сабреддита, парсил новые темы на наличие слов, заносил в свою базу и, если темы не было уже в базе, посылал мне уведомление в Telegram. Хотя в интернете есть ряд сервисов, которые позволяют следить за изменениями на веб страницах, но настраивать в них фильтрацию мне показалось сложнее, чем сделать собственный скрипт. В общем, готового легкого способа на тот момент я сходу не нашел и решил сделать свой “велосипед”. После того, как был готов первый прототип, стало понятно, что его можно применить не только для Reddit’а.

Я всегда считал и считаю, что полезно регулярно отслеживать публичные новости той компании, где работаешь. Удобно это делать, когда есть новостной канал: RSS, Twitter или еще что-то. К сожалению, когда компаний в группе много, у каждой есть свой самостоятельный сайт (зачастую, без RSS), следить за всем очень сложно. Так вот, собранный на тот момент сборщик новостей с Reddit прекрасно подходил для того, чтобы собирать новости с нескольких сайтов в единый фид.

Реализация

  • Сервис написан на Python и располагается в PaaS облаке IBM Bluemix. Кодовая база - чуть больше 1 тысячи строк.
  • База данных - MongoDB в облаке mlab.com
  • Автоматически отслеживаются почти 20 новостных страниц компаний Группы АО “РТИ”
  • Новости автоматически репостятся в новостные ленты в Telegram, RSS, Twitter и Linkedin
  • Веб версия с адаптивным дизайном на Bootstrap
  • Собственная админка для управления новостями
  • Есть бот в telegram для сбора обратной связи
  • Предусмотрена самодиагностика на случай невозможности сбора новостей с конкретного сайта

Результаты работы за год

  • Создан самостоятельный сайт со списком всех новостей и возможностью фильтрации новостей по компании
  • Собрано свыше 800 новостей
  • Сайт вышел на первую страницу в Яндексе по запросу “АО “РТИ” и прочим запросам. В Google почему-то попадает только на вторую.
  • Стал для коллег из PR служб РТИ и АФК (подписка в Twitter) реальным рабочим инструментом для мониторинга новостей группы
  • Одна из дочерних компаний Группы встроила ленту новостей на свой официальный сайт
  • Посещаемость ~50-100 человек в месяц. Это, конечно, очень скромно.
  • В Twitter 10-20 тысяч показов в месяц
  • В качестве побочного эффекта, сервис работает как сервис мониторинга доступности новостных сайтов компаний. Несколько раз именно за счет него удавалось оперативно заметить истекший SSL сертификат.

Планы по развитию

В целом в настоящее время сервис вышел в stable maintenance стадию, но в перспективе подумываю добавить несколько функций

  • Доделать автоматический мониторинг некоторых совсем сложных для парсинга сайтов (там мало новостей и сейчас они собираются в лишь частично автоматизированном режиме)
  • Добавить API для кастомных RSS фидов, чтобы можно было подстроить ленту под себя
  • Выложить исходный код на GitHub

Вот собственно и все. Если у вас есть предложения, то прошу писать сюда в комментарии или на [email protected].

PS. А с Reddit, в итоге, удалось настроить все совсем просто. Оказалось, что API-поиска Reddit может легко отдавать rss-фид, на обработку которого я настроил пару апплетов с IFTTT.com.

comments powered by Disqus