Новый отечественный инструмент для анализа больших массивов данных из социальных сетей в реальном времени

Представляем нового участника рынка анализа данных в Интернет - компанию PalitrumLab, специализирующуюся на создании систем автоматизированного социологического и прогностического контент-анализа социальных медиа в режиме реального времени.

Стратегические направления деятельности компании:

  • Развитие Платформы iLook - уникальной российской разработки для широкого круга современных задач класса Online Big Data & Analytics.
    Платформа iLook позволяет в реальном масштабе времени собирать, накапливать и осуществлять различные выборки и агрегации больших массивов данных из социальных медиа (социальных сетей, микроблогов, блогов, тематических сайтов, форумов и т.п.) с автоматическим определением тональности текстов.
    На текущий момент ежедневный поток составляет 5-10 млн сообщений в сутки (100 сообщений в секунду, в пике - до 200-250 сообщений в секунду).
  • Создание полнофункционального сервиса мониторинга и аналитики социальных медиа для управления репутацией компании и организации оперативной обратной связи с клиентами
  • Создание системы проведения бесконтактных опросов.
  • Разработка специализированных прогностических систем.

Платформа iLook в режиме реального времени осуществляет сбор, хранение и многофакторный анализ больших массивов данных соцмедиа: Twitter, ВКонтакте, LiveJournal, LiveInternet, YouTube, тысячи блогов, форумов, интернет-СМИ.

Платформа iLook хранит архив свыше 2 млрд. сообщений, ежедневные поступления – до 10 млн. сообщений в сутки.

Полный список источников, а так же статистика по количеству и динамике поступления сообщений доступна на сайте: http://www.ilook.ru/statistics.

Платформа iLook использует уникальные передовые технологии для обработки огромных текстовых объемов данных и осуществляет:

  • Постоянный сбор, сохранение и оперативный анализ миллионов сообщений соцмедиа (свыше 100 сообщений в секунду), что позволяет осуществлять мониторинг и анализ как ретроспективно, так и в режиме реального времени.
  • Уникальный многофакторный лингвистический анализ позволяет определять тональность сообщений, географическое положение авторов, выявлять нечеткие дубли (перепосты, ретвиты, перепечатки, републикации) сообщений, связывать цепочки комментариев в единые треды.
  • Проводить статистическую обработку сообщений, выявлять новые тренды и отслеживать изменения существующих.

Ядром системы является комплекс средств и технологий, позволяющий решать масштабный спектр современных задач класса Online Big Data & Analytics на основе информации представленной в социальных медиа и публично доступных хранилищах цифровых данных:

  • высоко-производительные вычислительные системы,
  • специализированные математические методы,
  • специализированное алгоритмическое и программное обеспечение.

Совместно с нашими партнёрами разрабатывается и предлагается на рынке целый ряд сервисов:

  • Брэнд-мониторинг и отслеживание репутационных рисков для корпоративных клиентов и медийных персон на полномасштабном информационном потоке и в реальном масштабе времени, а не узкой выборке с задержкой на часы или дни.
  • Сигнальные системы: отслеживание превышения пороговых значений по исследуемой проблематике. Например, резкое увеличение количества сообщений о кашле или простуде, или изменение тональности высказываний в обществе.
  • Трендовые системы: выявление рождения, роста и затухания трендов, и динамики изменений в существующих трендах мнений. Например, оперативное обнаружение тренда и информирование аудитории о падении метеорита под Челябинском.
  • Системы мониторинга мнений: бесконтактные опросы по событиям и ситуациям, затрагивающим большие массы людей: вместо проведения традиционных опросов - анализ мнений большой аудитории (десятки и сотни тысяч людей) по определенному вопросу. Бесконтактные опросы позволяют получить информацию высокой точности оперативно и с минимальными затратами.
  • Рекомендательные системы: мониторинг высказываний экспертов, лидеров мнений, участников процессов, любителей и потребителей по массовым продуктам потребления (фильмы, музыка, отдых, туризм, медицина, кредиты и т.п.), автоматическое определение тональности высказываний и составление рейтингов рекомендуемых и нерекомендуемых объектов мониторинга.
  • Прогностические системы: анализ мнений больших групп людей по поводу событий и мероприятий: выборы, митинги, премьеры новых фильмов и т.п. При анализе высказываний и предпочтений сотен тысяч или даже миллионов людей можно строить прогнозы высокой точности: победа кандидата на выборах, размер кассового сбора фильма и так далее.

Компания PalitrumLab приглашает к партнёрству научные и коммерческие структуры, в рамках решения следующего перечня задач:

  • Определение тональности коротких сообщений социальных медиа (в первую очередь Twitter);
  • Быстрые алгоритмы определения тональности средних и больших сообщений СМИ и социальных медиа;
  • Определение уровня эмоциональной окраски сообщений;
  • Методология оценки «охвата аудитории» конкретного сообщения и/или автора;
  • Методология расчета Альфа-индекса (Индекса Влиятельности/Авторитетности Автора) - в зависимости от социумных связей: подписчики, активность общения, ретвиты, репосты, и т.п.;
  • Быстрые алгоритмы выявления дублей сообщений при частичном или полном цитировании;
  • Алгоритмы оценки скорости и широты распространения информации в соцмедиа;
  • Определение геотаргетинга сообщения/автора по тексту, указанному авторов в своем профиле;
  • Определение демографических данных автора по набору сообщений;
  • Автоматическая классификация и кластеризация объектов (сообщений, авторов, тематик);
  • Автореферирование и расчет тональности тредов (связанных цепочек) сообщений и комментариев к ним;
  • Алгоритмы и модели выявление трендов и сигналов для информационных потоков большой мощности в режиме реального времени;
  • Применение алгоритмов и математических моделей для «бесконтактных опросов»;
  • Применение алгоритмов и математических моделей для прогностических систем (распространение эпидемий, результаты выборов, кассовых сборов фильмов и т.д.);
  • Алгоритмы и модели визуализации большого объема данных и связей.

Источник - Palitrium Lab