Новый отечественный инструмент для анализа больших массивов данных из социальных сетей в реальном времени
Представляем нового участника рынка анализа данных в Интернет - компанию PalitrumLab, специализирующуюся на создании систем автоматизированного социологического и прогностического контент-анализа социальных медиа в режиме реального времени.
Стратегические направления деятельности компании:
- Развитие Платформы iLook - уникальной российской разработки для широкого круга современных задач класса Online Big Data & Analytics.
Платформа iLook позволяет в реальном масштабе времени собирать, накапливать и осуществлять различные выборки и агрегации больших массивов данных из социальных медиа (социальных сетей, микроблогов, блогов, тематических сайтов, форумов и т.п.) с автоматическим определением тональности текстов.
На текущий момент ежедневный поток составляет 5-10 млн сообщений в сутки (100 сообщений в секунду, в пике - до 200-250 сообщений в секунду). - Создание полнофункционального сервиса мониторинга и аналитики социальных медиа для управления репутацией компании и организации оперативной обратной связи с клиентами
- Создание системы проведения бесконтактных опросов.
- Разработка специализированных прогностических систем.
Платформа iLook в режиме реального времени осуществляет сбор, хранение и многофакторный анализ больших массивов данных соцмедиа: Twitter, ВКонтакте, LiveJournal, LiveInternet, YouTube, тысячи блогов, форумов, интернет-СМИ.
Платформа iLook хранит архив свыше 2 млрд. сообщений, ежедневные поступления – до 10 млн. сообщений в сутки.
Полный список источников, а так же статистика по количеству и динамике поступления сообщений доступна на сайте: http://www.ilook.ru/statistics.
Платформа iLook использует уникальные передовые технологии для обработки огромных текстовых объемов данных и осуществляет:
- Постоянный сбор, сохранение и оперативный анализ миллионов сообщений соцмедиа (свыше 100 сообщений в секунду), что позволяет осуществлять мониторинг и анализ как ретроспективно, так и в режиме реального времени.
- Уникальный многофакторный лингвистический анализ позволяет определять тональность сообщений, географическое положение авторов, выявлять нечеткие дубли (перепосты, ретвиты, перепечатки, републикации) сообщений, связывать цепочки комментариев в единые треды.
- Проводить статистическую обработку сообщений, выявлять новые тренды и отслеживать изменения существующих.
Ядром системы является комплекс средств и технологий, позволяющий решать масштабный спектр современных задач класса Online Big Data & Analytics на основе информации представленной в социальных медиа и публично доступных хранилищах цифровых данных:
- высоко-производительные вычислительные системы,
- специализированные математические методы,
- специализированное алгоритмическое и программное обеспечение.
Совместно с нашими партнёрами разрабатывается и предлагается на рынке целый ряд сервисов:
- Брэнд-мониторинг и отслеживание репутационных рисков для корпоративных клиентов и медийных персон на полномасштабном информационном потоке и в реальном масштабе времени, а не узкой выборке с задержкой на часы или дни.
- Сигнальные системы: отслеживание превышения пороговых значений по исследуемой проблематике. Например, резкое увеличение количества сообщений о кашле или простуде, или изменение тональности высказываний в обществе.
- Трендовые системы: выявление рождения, роста и затухания трендов, и динамики изменений в существующих трендах мнений. Например, оперативное обнаружение тренда и информирование аудитории о падении метеорита под Челябинском.
- Системы мониторинга мнений: бесконтактные опросы по событиям и ситуациям, затрагивающим большие массы людей: вместо проведения традиционных опросов - анализ мнений большой аудитории (десятки и сотни тысяч людей) по определенному вопросу. Бесконтактные опросы позволяют получить информацию высокой точности оперативно и с минимальными затратами.
- Рекомендательные системы: мониторинг высказываний экспертов, лидеров мнений, участников процессов, любителей и потребителей по массовым продуктам потребления (фильмы, музыка, отдых, туризм, медицина, кредиты и т.п.), автоматическое определение тональности высказываний и составление рейтингов рекомендуемых и нерекомендуемых объектов мониторинга.
- Прогностические системы: анализ мнений больших групп людей по поводу событий и мероприятий: выборы, митинги, премьеры новых фильмов и т.п. При анализе высказываний и предпочтений сотен тысяч или даже миллионов людей можно строить прогнозы высокой точности: победа кандидата на выборах, размер кассового сбора фильма и так далее.
Компания PalitrumLab приглашает к партнёрству научные и коммерческие структуры, в рамках решения следующего перечня задач:
- Определение тональности коротких сообщений социальных медиа (в первую очередь Twitter);
- Быстрые алгоритмы определения тональности средних и больших сообщений СМИ и социальных медиа;
- Определение уровня эмоциональной окраски сообщений;
- Методология оценки «охвата аудитории» конкретного сообщения и/или автора;
- Методология расчета Альфа-индекса (Индекса Влиятельности/Авторитетности Автора) - в зависимости от социумных связей: подписчики, активность общения, ретвиты, репосты, и т.п.;
- Быстрые алгоритмы выявления дублей сообщений при частичном или полном цитировании;
- Алгоритмы оценки скорости и широты распространения информации в соцмедиа;
- Определение геотаргетинга сообщения/автора по тексту, указанному авторов в своем профиле;
- Определение демографических данных автора по набору сообщений;
- Автоматическая классификация и кластеризация объектов (сообщений, авторов, тематик);
- Автореферирование и расчет тональности тредов (связанных цепочек) сообщений и комментариев к ним;
- Алгоритмы и модели выявление трендов и сигналов для информационных потоков большой мощности в режиме реального времени;
- Применение алгоритмов и математических моделей для «бесконтактных опросов»;
- Применение алгоритмов и математических моделей для прогностических систем (распространение эпидемий, результаты выборов, кассовых сборов фильмов и т.д.);
- Алгоритмы и модели визуализации большого объема данных и связей.
Источник - Palitrium Lab