Случайно набрел на интереснейшее интервью Игорь Ашманов о системе мониторинга интернет-СМИ и социальных сетей. Как отслеживая число упоминаний темы можно понять искусственно к ней подогревается интерес или нет, как "включаются" и "выключаются" новости. Ну и посмотреть на недавних примерах.
PS. Это должно быть любопытно тем, кому небезразличны технологии манипуляции обществом и способы их обнаружения.
UPD. В комментариях - дуэль с главным редактором PCMagazine/RE Олегом Лебедевым.
Comments (Горячая дискуссия под катом)
//Facebook 19 августа 2012 в 23:47
Владимир Баласанян, Inga Bagrationi, Анна Елашкина и 2 другим это нравится..
Олег Лебедев Баян же. Вопрос был один -- на кой? Сейчас даже понятно зачем оно было, это он видимо пытался (а может и успешно) продать свои темы для "призмы".
20 августа в 0:23
Владислав Боркус Я не видел :) Нормальная технология. Ну, предположим, хотел он продать темы для "Призмы", и чего это меняет?
20 августа в 0:26
Олег Лебедев Расстановку акцентов, а тут он мастер.
20 августа в 0:29
Олег Лебедев Кстати, с этим номером он много где светился.
20 августа в 0:30
Олег Лебедев Во...
20 августа в 0:30
Владислав Боркус К "Призме", как я понял, были претензии, что она иронию в постах не понимает. А тут тупо - считает упоминание темы, крутизну фронта нарастания интереса и темп спада. У нас в детекторе так фотоны от заряженных частиц селектировались :))
20 августа в 0:31
Олег Лебедев Фишка в том, что в массе живут странный аттрактор. Его потом можно объяснять, но угадать -- нереал почти (ну на нынешнем уровне вычисления). Но на этом паразитируют многие и многие.
20 августа в 0:31
Олег Лебедев Ну вот эта крутизна ничего не говорит. Она может объясняться ста причинами и ни одной правильно 8)
20 августа в 0:32
Олег Лебедев Там даже кластеризовать надо со ста оговорками.
20 августа в 0:33
Владислав Боркус В детекторе говорит... Естественно есть процент ложных срабатываний. Ну да, хотелось бы посмотреть на выборку, по которой проводится обучение системы. Но честному человеку можно поверить на слово :)
20 августа в 0:34
Владислав Боркус В принципе, там даже не кластеризация, а проверка гипотезы отнесения публикации к теме, причем чуть ли по ключевым словам. Это шибко проще. Ну и процент ошибок в этих задачах допустим много больше, чем в рентгеновском детекторе :))
20 августа в 0:38
Олег Лебедев Во-во. И тут как во всей лингвистике -- "уровень качества" в 60% -- это арифметика, 90% -- матстатистика, 95% -- хорошо сделанная эмпирика, 96% -- докторская...
20 августа в 0:42
Олег Лебедев А процент ошибок куда меньше должен быть, чем в детекторе, первичка-то слабоповторяющаяся.
20 августа в 0:42
Владислав Боркус Не совсем. Они ловят и копипасты и пересказы... А в детекторе при потоке 10^5 частиц/с/дет, уровень ложных срабатываний был что то вроде 10 шт/с. Если верно помню (хотя уже смутно).
20 августа в 0:46
Олег Лебедев Ой вей, словить копипаст и пересказ (в пределах синонимии) умеет даже моя поделка.
20 августа в 0:51
Олег Лебедев В детекторе принципиально проще -- там поток куда менее разношерстный, насколько понимаю.
20 августа в 0:51
Олег Лебедев Думается, что покрвыряв тему сверхфразовых единств (тут у RCO есть наработки) можно лдаже эзопов язык вычислить.
20 августа в 0:52
Владислав Боркус Не, эзопов язык не вычислишь. Тут нужно смысл понимать.
20 августа в 0:56
Владислав Боркус Ну и.. важнее работает эта технология или нет, а не то, насколько просто ее повторить :)20 августа в 1:32
Игорь Ашманов У вас классическая болезнь, описанная Авраамом Болеславом Покоем в Зконах Лошариата, которая заключается в том, что вы ни в коем случае не хотите дать себя обжулить, сделать лохом, хотите проявлять мудрый цинизм типа: "да это всё для распила бабла, это все свой шкурный интерес пропихивают" и т.п. На каждого человека вы смотрите с подозрением: а зачем он это сказал?! Наверняка из корысти!!!
Этот синдром подробно описан вот тут: http://www.odnako.org/blogs/show_13181/
В реалности, всякий, исповедующий лошариат, старающийсмя не быть лохом, а быть мудрым циником, является лёгкой жертвой медийных вирусов и обувания лохов через блоги. И в этой дискуссии - даны достойные тому примеры.
Ну какие ещё "темы для "Призмы", о чём вообще речь? Призма - это такое медийное явление, якобы существующая правительственная система анализа мнений в блогах от IBS. Вам стало про неё известно на той неделе из статьи в Форбсе, полной измышлений журналиста, который почитал презентацию. Вы поверили - вы же такие умные, умеющие не дать себя обмануть.
На самом деле Медиалогия давно, несколко лет как, продана в правительство, АП, Совет Федерации и т.п., стоит у всех чиновников на их айпадиках, ищет упоминания про их персоны в СМИ. Насколько мне известно, ни выкачивание блогов (свой поисковик по блогам), ни анализ тональности высказываний и авторитетности блоггеров пока Медиалогия ниасилевает. В любом случае это наш как бы конкурент. Как бы я рассчитывал что-то им там поставлять?
У нас своя свадьба, система Крибрум, которая работает именно с соцсетями и блогами.
История про наезды на Патриарха и РПЦ - даже не чей-то заказ, это просто результат того, что меня Толя Кузичев пригласил поговорить на ТВ именно про это. Наезд - есть, он искусственный, заказной, это очевидно.
Что касается RCO - то главный их специалист про прикладной лингвистике и прагматике работает в Крибруме и делает там анализ фрейма ситуации, смысловых связей в предложении и всего такого.
О Законах Лошариата, или В защиту доверия - Авраам Покой
www.odnako.org
Блоги.
20 августа в 10:55
Владислав Боркус Игорь, А.Б. Покой пишет отличные рассказы-карикатуры, но есть же и вопросы по смыслу. 1) По каким принципам происходит отнесение публикации к теме? И какова тут точность?
2) По какой обучающей базе выделялись характеристики/строилась модель "типового новостного импульса"?
3) Насколько эти характеристики стабильны? Насколько статистически значимо можно отличить разогреваемую тему и обычную (Ну и почему динамика интереса обязательно должна быть одинакова для всех тем? Логично же исходить из гипотезы, что динамика интереса может меняться от темы к теме?)
20 августа в 13:58
Анти Данилевский · 3 общих друзей
Мне во всей этой истории интересно то, что обещанного спада "интереса" к попам и их великим деяниям не ослабевает (благодаря их деяниям).
8 октября в 18:25
Игорь Ашманов Я вроде ничего никому не обещал. Основной фактор подогрева наезда на РПЦ сейчас - это спиливание крестов и осквернение храмов. Именно потому, что фактуры для раскрутки не хватает - события создаются. Примерно раз в неделю-две.
8 октября в 20:28
Игорь Ашманов Чуть больше чем в зомбоящике, про признаки информационной кампании рассказано вот здесь: http://www.foma.ru/pod-vlastyu-mentalnogo-virusa-ili-kak-otlichit-vbros-ot-novosti.html
даже графики есть.
Под властью ментального вируса, или Как отличить вброс от новости
www.foma.ru
Череду скандальных новостей о Русской Православной Церкви одни считают централиз…ованной информационной атакой, другие — естественным ходом событий. Об этом можно долго дискутировать, а можно просто взять и обратиться к фактам и цифрам: проанализировать все интернет-публикации по конкретной скандальн...Еще.
8 октября в 20:45
Валерий Коржов Слушайте, я эти разговоры про информационные войны и атаки слышал от Miroslav Makstenek лет десять как - он тогда в public.ru работал. По моему, ни чего с тех пор так и не поменялось...
8 октября в 21:01
Владислав Боркус Народ церковь не любит. Теперь это и из графиков видно. Никакого интереса к пасхе, зато много интереса к облико морале духовных пасторов ))
8 октября в 21:04
Валерий Коржов Правильнее говорить "ИнфоНарод", ибо те, кто любит за новостями в Инет не суются...
8 октября в 21:05
Олег Лебедев И снова старый баян... При всем уважении к технологиям, не могу не сказать, что несет бред. Ну, может быть тогда просто пытался продать "Призму" госорганам.
8 октября в 21:19
Олег Лебедев Абстрагируясь от эмоций, отмечу что в данном случае речь в сущности идет о технологии выделения слабых сигналов и странных атрракторов. А это на грани нобелевки.
8 октября в 21:18
Владислав Боркус Графики, полученные по секретной методологии, всегда вызывают много вопросов ))
8 октября в 21:29
Олег Лебедев Я бы сказал. все эти попытки исчислить добродетель -- от лукавого они. Кто в вере силен таких фокусов чурается.
8 октября в 21:33
Владислав Боркус Благочестие формализуемо, а ведь согласно воззрениям Платона (в пенсионном возрасте) - это компонент добродетели :)
8 октября в 21:37
Олег Лебедев Еретик! Епитимью ему! 8)
8 октября в 21:47
Владислав Боркус Да, ваааще язычнег канкретный ))
8 октября в 21:51
Игорь Ашманов > Ну, может быть тогда просто пытался продать "Призму" госорганам.
Чувак. Ну разуй глаза уже, странный ты аттрактор. Призма - это такой продукт компании Медиалогия, давно проданный госорганам. Медиалогия - это совсем другая компания, Толи Карачинского. У него все хорошо с госорганами.
8 октября в 21:51
Олег Лебедев Ну, кого там еще... Я не слишком разбитраюсь в кто там с кем у кого.
Локально и без анализатора вижу простую вещь: во втором эшелоне копипаст-СМИ идут как под копирку интервью на заданную тему. Часто одними словами. Первую волну -- где-то летом -- можно объяснить интересом к жареным фактам. Вторую (начало осени) уже сложнее. Ныне, уже совсем протухную тему снова пиарить да со словами "конечно это накат на [имя цели]" воспринимать кроме как "заказная хрень в каких-то коммерческих интересах" уже совсем не удается.
8 октября в 21:54
Олег Лебедев Таковы наблюдаемые факты.
8 октября в 21:54
Игорь Ашманов Таковым наблюдаемые моском. А машина, она чёта другое считает.
8 октября в 21:55
Игорь Ашманов > Ныне, уже совсем протухную тему снова пиарить да со словами "конечно это накат на [имя цели]" воспринимать кроме как "заказная хрень в каких-то коммерческих интересах" уже совсем не удается.
Ну так не пиарьте. Советую бросить, в самом деле.
8 октября в 21:56
Олег Лебедев Дык, в машину-то нормальные данные суйте 8)
8 октября в 22:00
Олег Лебедев Гыг, не пиарьте... И не пиарю. И даже игнорировал долго. Но автор темы "ах, наша машина говорит что есть прессинг" столь настойчив и столь активно пропагандирует эту тему 8)8 октября в 22:01
Владислав Боркус Это типовой аргумент такой: "Калькулятор показывает". С советских времен действует безотказно ))
8 октября в 22:03
Олег Лебедев Абстрагируясь от эмоций, замечу, что я лично не верю почти ни в какие "автоматизированные оценки новостного поля" уже потому, что нет нормальной первички. И аналогично, в сказки об "оценке репутаций".
8 октября в 22:03
Олег Лебедев Калькулятор там не калькулятор -- это делали. Главное истина. Но доказывать тезисы калькулятором чревато -- ведь и пересчитать можно 8)
8 октября в 22:04
Игорь Ашманов Других данных у нас для вас нет. Только говно. Это первичка, столь вам любезная, но это говно.
Для примера: в русском Твиттере официально 7 миллионов аккаунтов. Из них ежедневно живых - 1М, как-то живых за 2 месяца - 1,8М. Всего твитов - 4 миллиона в день. Но из них 2,1М - спам, исходящий от 60К аккаунтов. Остальное - в основном перепосты. Почти никто ничего не пишет. Даже не приписывает, тупо жмёт кнокпку "ретвит". Основное содержание - пересказ СМИ. В блогах и соцсетях примерно то же самое.
В общем 90+% всего в Интернете - шлак.
8 октября в 22:09
Олег Лебедев Кстати, увидел сообщение, скрытое как спам... Не знаю, не знаю. Единственное, что (на мой взгляд) было круто в Гаранте это как раз не фрейм, а детекция сверхфразовых единств. (делали, если правильно помню, ученики/соавторы товарища Харламова.)
8 октября в 22:06
Олег Лебедев Что до первички... Я могу согласиться с тем, что берется не "полная" картина, но хотя бы на уровне яндексоидной индексации. Но анализ внешними средствами показывает, что и тут картина сильно отличается.
8 октября в 22:07
Олег Лебедев А что 90% шлак -- тут да. Собгласен совершенно.
8 октября в 22:07
Олег Лебедев О! Еще важный момент не озвучил, хотя учитываю. Я могу согласиться, что "машина оценивает" условно-верно. Меня смущает интерпретация.
8 октября в 22:10
Игорь Ашманов Про "берётся не полная картина". Вот что у нас за первичка - взял просто из презентации для казахской конференции:
* Мониторинг заданных объектов (персоны, организации, авторы)
* Собственный поисковик по блогам, выкачивание каждые 20 минут.
* Анализ тональности мнения (позитив / негатив, нейтрально / неизвестно)
* Анализ всего инфополя: Твиттер, ФБ, ВК, независимые блоги и форумы.
* Языки: русский, английский, арабский.
* Твиттер: 7 миллионов аккаунтов в русском Твиттере, 4 миллиона твитов в день
* Блоги: 14 миллионов блогов и сообществ в русском Livejournal, 120 000 независимых блогов и форумов
* Социальные сети: Весь ВКонтакте, частично Фейсбук (выборочные группы, сообщения)
* Авторы: 110 миллионов авторов, 65М – в ЖЖ и ВКонтакте
* СМИ: 5 тысяч интернет-СМИ
8 октября в 22:11
Владислав Боркус Если вы всех ботов в анализ включаете, то понятно, что в результатах будет трэш
8 октября в 22:12
Игорь Ашманов > Единственное, что (на мой взгляд) было круто в Гаранте это как раз не фрейм, а детекция сверхфразовых единств.
В Гаранте ничего было не круто. Я с ними сидел ещё в 2000-1001 в одном здании, потом они продавали сервис/технологию моей жене, куче знакомых, я слушал их доклады на Диалоге. Не вставляло. На мой взгляд. Парень, который что-то делал там круто, работает у нас.
8 октября в 22:18
Олег Лебедев 1. Принимается
2. Уже вопрос -- у меня тоже машина и тоже каждые 20 мин. А выборка, уверен, разная.
3. Тональность... Рудиметарная, хотя есть (спасибо Cognitive за Dwarf 8)
4. Общее инфополе... Смысл? Если из него рисовать хотя бы наметки на общую онтологию смысл есть, а так... Ну повысит веса на сотые доли в сравнении с каким-нить iPhone.
6. Твиттер помойка, разве, что нечто типа ранга изобразить.
7. Аналогично. Сообщения о событии будут в 0,00001%.
8. Автора аналогично, пускаем пыль в глаза цифрами.
9. Интернет СМИ -- может юбыть актуально, но см. п. 4.
8 октября в 22:14
Олег Лебедев Vladislav Borkus -- не, это уже в общем-то некорректно даже. Уж ботов наверняка фильтруют. Впрочем, при правильных алгоритмах они сами отсеиваются.
8 октября в 22:15
Игорь Ашманов > Если вы всех ботов в анализ включаете, то понятно, что будет трэщ
Владислав. Понимаю, что вечер. Понимаю, что давление, у всех голова болит, не только у вас. Но вы попробуйте её всё-таки включить, вдруг уже остыла и запустится.
Если я вам говорю, что там 60% спама от 60К ботов, наверно, мы как-то это сумели установить, ботов посчитать, спам распознать. Иииии...?
8 октября в 22:17
Олег Лебедев О Гаранте... Ну, я не стану спорить, я все же любитель 8)
Так, погулять вышел. И посомневаться ;-)
8 октября в 22:16
Олег Лебедев Ну вот при всем расхождении во взглядах, не могу не поддержать мнение.
8 октября в 22:18
Олег Лебедев Сократ мне друг, но истина дороже 8)
8 октября в 22:18
Владислав Боркус "Иииии" - И можно задавить в себе страсть к мелодраматизму, и спокойно сказать, что и как делаете )) Подход профессионала и все такое ))
8 октября в 22:19
Игорь Ашманов В Гаранте этот лингвистический отдел несколько лет был просто развлечением для кого-то из основателей. Лет этак семь. "Карты Кохонена" и все такие дела. Потом их стали пихать, заставлять придумать бизнес-основания их существования.
Возникла компания RCO. Название её происходит от Oracle Russian text Optimizer, который был куплен ими у сидевшей рядом Агамы (авторора "Прописи" и Апорта). А точнее даже - у сотрудника Агамы Андрюхи Коваленко, он же Кева, который вкрутил им машинную русскую морфологию в Оракл, который они тогда продавали.
Кстати, Серёга Королёв, директор Агамы, последние несколько лет работал техническим директором Медиалогии, а Коваленко - писал поиск Рамблера, Меты, Новотеки, Флексума, а сейчас работает в АиП тоже в лингвистическом проекте.
А RCO была куплена Мамутом, владельцем ЖЖ, для запуска проекта поиска людей "Ктотам.ру", который провалился.
В общем, прослойка очень узкая, всё про всех известно.
8 октября в 22:24
Игорь Ашманов Ну что делаем, я же говорил: 1) анализ информационного поля с помощью поиска заданных объектов (для клиентов, несколько тысяч), плюс 2) анализ и выявление медийных событий по всей массе сообщений путём кластеризации.
Обнаружение новых взлетающих тем, трендов, распознавание тональности, очистка от спама, дублей, нечётких дублей, вычисление выхлопа блоггера и т.п.
Ну там типа всё написано: http://www.kribrum.ru/technologii.html
Крибрум – сервис мониторинга и анализа социальных медиа для управления репутацией компании
www.kribrum.ru
Сбор, обработка и анализ упоминаний брендов, продуктов и услуг в социальных медиа. Автоматическое определение тональности высказываний.8 октября в 22:27
Олег Лебедев Ой-вей, видел я это... Сомнения начались на стадии описания 8)
Начало собственно уже в том, что "а есть ли право анализировать автоматически ресурсы"? Многие запрещают. Не в роботс.тхт, а юридически. Вот мы например 8)8 октября в 22:29
Олег Лебедев Это уже принципально ставит вопрос о "релевантности".
8 октября в 22:29
Игорь Ашманов СМИ имеют смысл, потому что практически всегда медийная кампания начинается имнно в СМИ, или отмывается в СМИ в крайнем случае. Твиттер имеет смысл, потому что там самое и начинается актуальное.
8 октября в 22:29
Игорь Ашманов Кто и что запрещает, непонятно. Пример можете привести?
8 октября в 22:30
Олег Лебедев https://www.pcmag.ru/about/index.php#reprint
Простыми словами: даже фиксировать наличие наградного лого автоматизированно нельзя.
PC Magazine/RE: Обзоры компьютеров, программ, техники и электроники, программы, новости и мнения.
www.pcmag.ru
PC Magazine/RE - ваш гид в мире компьютеров компьютеров, периферии и модернизаци…й. Мы тестируем и рассматриваем компьютерные и Интернет-продукты и услуги, новости технологии и тенденции, даем советы покупателям и сравнения цен.Еще.8 октября в 22:31 · · Убрать предварительный просмотр..Олег Лебедев Мы тут не одиноки кстати. Еще пример -- Яндекс начал индексировать iTunes Store. А у Яббл в TOC ясно сказано "без согласования нельзя". Чем у них кончилось не знаю, пресс-служба "Яндекса" отмалчивалась.
И т. д.
8 октября в 22:32
Олег Лебедев Что до прослойки (реплика выше, интересный тред) -- я далеко от тусовки даже от журналистской в общем-то. И изучая вижу код. В общем интересные темы были у медиалингвы и вот там. Но -- это со стороны длюительская оценка 8)8 октября в 22:38 · Мне нравится..Игорь Ашманов Ну, вообще я подробно не вник, но на первый взгляд выглядит, как текст, содержащий юридически ничтожные фрагменты. Благие пожелания (содержащие следы мемов про 40% и интернет-прагмы про "активную ссылку"). Дальше надо бы разбираться, но PC Magazine, конечно, к анализу мнений в Рунете не совсем близко стоит.
8 октября в 22:44
Владислав Боркус Игорь, про ботов я начал спрашивать, глядя на график 2 в вашей статье, и комментарий к нему. Что там такое случилось, что за 1 час 1250 живых человек сделало перепост. А в комментарии вы уже говорите про "роботов" перепоста или скоординированную группу людей. Ну вот и вопрос был вы их как то делите или нет.
8 октября в 22:47
Олег Лебедев Да и бог бы с ним, с юридическим аспектом, там просто, в .htaccess роботу ход прикроют -- и все. Техническая гарания типа 8)
Что до нас... Да, у нас особое место. Но идея "а чо это они нас бесплатно индексируют" набирает популярность, хе-хе,
8 октября в 22:48 · Отредактировано · Мне нравится..Олег Лебедев И я уже не говорю, что в общем-то достаточно двух-трех таких случаев ("мы не разрешаем индексировать") чтобы "оценка репутации стала _принципиально_ бессмысленной.
(Она и уже сейчас такая, сервисы типа "Блогуна" делают ее весьма абстрактной, но это уже отдельная тема.)
8 октября в 22:50
Игорь Ашманов > Что там такое случилось, что за 1 час 1250 живых человек сделало перепост.
Там скорее всего, это живые роботы, если это про 5 мая или что-то там вроде этого. Роботов мы видим. Я об том и толкую: вброс и кампанию по его раскрутке можно определить автоматически, только если кампания топорная - боты, время характерное, интенсивность неестественная и всё такое.
А вброс того, что и так вся прогрессивная общественность ждёт не дождётся помусолить, будет очень естественным.
8 октября в 22:50
Олег Лебедев Вопрос наверное в том, что стоит ли делать далеко идущие выводы из частных случаев 8)
8 октября в 22:53
Игорь Ашманов Нет, про репутацию вывод неверный. Интересны мнения живых людей, а не статьи в PC Magazine, который неизвестно, какой тираж и влияние имеет. Надо признать, положа руку на сердце, что русский ИТ-глянец в 90-е и часть 2000-х был во многом просто формой отчётности за деньги Intel Inside.
Кончился благословенный золотой дождь Интел Инсайд - закрылась Компьютерра и много кто ещё.
Поэтому прикольно мерить живые блоги и твиты. Живость их и ангажированность можно определить автоматически.
А второе, это то, что многим нужен уже не измеритель репутации, а социальная СRM, разговор один на один с обиженным вкладчиком через полчаса после его Ненависти Псто.
8 октября в 22:55
Олег Лебедев Статьи в журнале -- это мнения экспертов. Как минимум. Но тут спор философский, бог с ним.
Что до "мнений людей" -- то простой пример, а том же "Яндекс.Маркет", несмотря на заявленную жсткомть модерации постоянно встречаются так скажем странные мнения. Типа в комментариях к промышленному монитору (8-дюйм, 200 тыс. руб, потому что IP65) слова "ой, так долго искали повесили на кухне, так просторно" 8)
О блогах говорить бессмысленно уже потому, что есть сервисы типа "Блогун.ру".
8 октября в 22:58
Владислав Боркус "был во многом просто формой отчётности за деньги Intel Inside." - Это долгий разговор, но в целом вы оцениваете неверно.
8 октября в 22:58
Олег Лебедев Товарищ Vladislav Borkus давайте все же не о сплетнях и инсайдах, а о ясных и поддающихся инструментальному контролю со стороны темах 8)
8 октября в 22:59
Владислав Боркус "Там скорее всего, это живые роботы, если это про 5 мая" - Раз уж картинка вами заявлена, я бы засадил аналитика разбираться что за эккаунты, замечены ли были в таком ранее... В конце концов это просто интересно, раз, и может указывать на особенности в работе алгоритма (это не наезд), два.
8 октября в 23:01
Владислав Боркус "не о сплетнях и инсайдах" - Олег, ну про Inside все в курсе, просто Игорь и сроки спутал, и значимость явления переоценил ))
8 октября в 23:02
Игорь Ашманов Ну, вам виднее.
Я как-то присутствовал при таком разговоре: в Сочах, в Радиссон-Лазурная, году так в 2001 на диванах в фойе Карачинский спросил Мендрелюка:
- Дима, вот скажи, а если программа Интел Инсайд закроется, КТ сдохнет или нет?
Тот всерьёз задумался, пожевал губами и сказал:
- Нет. Сейчас уже нет.
На мой взгляд, тиражи русского ИТ-глянца всегда были завышены минимум в 10 раз (3-5 тысяч вместо 50 000 заявленных), и журналы использовались в основном для предъявления рекламы по Интел-Инсайд, ну и по другим вендорам.
Нет, конечно, кто-то реально работал свою журналистскую работу, писал репортажи, обзоры, тесты, переводил из материнских журналов, были же и интересные статьи. Но бизнес-модель была - завышение тиража и откаты. Ну так мне кажется, я всё-таки это всё наблюдаю с 1991 года.
8 октября в 23:07
Олег Лебедев Я не стану спорить, отклоняясь от основной линии обсуждения 8)
Укажу только что у всех своя модаль 8)
8 октября в 23:06
Олег Лебедев Кто-то завышал тиражи, кто-то заявлял что "оценивает репутацию"...
Жизнь наверное такова 8)
8 октября в 23:07
Владислав Боркус Игорь, ну если сами откатов не давали, то грех такие сплетни распространять ))
8 октября в 23:10
Владислав Боркус Я бы сказал так. Как и в случае "модели наезда на Церковь" жизнь сложнее простых схем ))
8 октября в 23:11
Игорь Ашманов Ну в отличие от тиражей у нас в системе можно кликнуть по любому событию, увидеть все комменты, кликнуть по любому комменту, провалиться в него и написать ответ. Есть прозрачность, чисто механическая.
Ну это как вот здесь в наших анализаторах качества поисковиков, тот же принцип - можете посмотреть все запросы, по которым сегодня или вчера или неделю назад оценивались поисковики, щёлкнуть по каждому, проверить совпадение результатов (взял анализатор порнографии, чтоб вам веселее было):
http://analyzethis.ru/?analyzer=porno&location=ru&lang=ru&date=2012-10-08
8 октября в 23:11
Олег Лебедев Таки напомню текущий вопрос: можно ли считать агрегацию "мнений" в Интернете "оценкой репутации".
На мой взгял -- нельзя. Можно нарсрвать красивые графики, но они будут бессмысленными по определению, более того, местами будут нарушать требования правообладателей 8)8 октября в 23:12
Олег Лебедев Посмотреть каммент -- дело хорошее. Где не то, что гарантия, хотя бы предпосылка "они написаны живым юзером", а не одним из блогунцов за копейку малую?
8 октября в 23:13
Олег Лебедев Тут мы сразу прходим к вопросу "а судьи кто" и к ответу "те, кто за базар отвечает", то есть к печатному журналу 8)
8 октября в 23:14
Игорь Ашманов > Игорь, ну если сами откатов не давали, то грех такие сплетни распространять ))
Я откатов не давал и не даю. Тем более, что я был - рекламодатель, я платил за рекламу (годах в 1996-1999). Может быть, пытались давать откаты моим пиарщикам, но вряд ли. Я просто тусовался в среде всех владельцев всех наших ИТ-изданий лет 12-15, так что представляю картину.
У меня в нашей ИТ-прессе просили только денег за джинсу. Кстати, реклама в нашем ИТ-глянце выхлопа не давала практически совсем, в отношении коробочных программных продуктов. Потому что тираж был липовый, развозимой пачками бесплатно по офисам, каковые пачки даже не вскрывались часто.
В первой половине 90-х, когда интерес публики к компьютерам и ПО был ещё горячим, было не так, выхлоп какой-то был. Даже розница у них работала, народ покупал в метро читать. А потом в рознице совсем перестали брать и началась бесплатная раздача тиража по офисам.
8 октября в 23:17
Владислав Боркус Олег, ну большинство PR отделов отчитываются квадратными сантиметрами публикаций ))
8 октября в 23:17
Игорь Ашманов Вот то-то и оно.
8 октября в 23:18
Олег Лебедев Кстати, не совсем сантиметрами. Там тонко, есть сетка и ценность сантиметра совсем нелинейно зависит. Типа сантиметр на фото топа дешевле сантиметра текста 8)
8 октября в 23:18
Игорь Ашманов > Где не то, что гарантия, хотя бы предпосылка "они написаны живым юзером", а не блогунцов за копейку малую?
Ну если можно посмотреть-полистать, оно же глазом-то видно - если показано, как учитываемый камент, то плохо, если помечено как спам - хорошо.
8 октября в 23:19
Олег Лебедев Но в целом я бы еще раз предложил вернуться к вопросу по регламенту, а ностальгические воспоминания перенести в другой тред 8)
8 октября в 23:19
Олег Лебедев О! Уже интересно. То есть "машина оценивает верно", а "убедиться можете глазом"?.. Это тонкая тема, если вспомнить, что мозга, способного оценить статистику "вручную" еще поискать надо 8)
То есть создается ощущение "ой, и верно" -- и исподволь распространяется на все оценки. Это явно некорректно.
(Например, именно чтобы избежать такого эффекта мы публикуем методики тестирований 8)
8 октября в 23:21
Владислав Боркус В машинных подходах всегда проблема, что машина посчитала как то комментарии, но никто ж ни полноту множества не понимает, ни оценивать качество ее классификатора не буде
8 октября в 23:25
Игорь Ашманов > Таки напомню текущий вопрос: можно ли считать агрегацию "мнений" в Интернете "оценкой репутации".
А можно считать показатели счётчика Лайвинтернет имеющими отнощение к долям рынка? А индекс Доу-Джонса? А подсчёт калорий в пище?
Есть измеритель - вот такой. Другого не сделали. Он в каждый мгновенный момент времени имеет неизвестный мультипликатор к реальности. Но на ретроспективе за недели, месяцы и годы - вполне себе инструмент, показывает рост, падение и всё такое.
8 октября в 23:25
Олег Лебедев Тут ладно бы полноту, тут в общем-то можно оценить "эрозию" множества, в сущности ведь банальная ошиьбка...
8 октября в 23:26
Игорь Ашманов И мы методики клиенту показываем.
8 октября в 23:26
Олег Лебедев liveinternet.ru? С натяжкой и условно. Но лучше чем TNS и Webomer.ru какой-нить.
Но! "Репутация" и "доля рынка" не связны почти никак. Ну, в лучшем случае поправочным коэффициентом или там удельными соотношениями. (Тут могут быть варианты.)
8 октября в 23:27
Игорь Ашманов > То есть создается ощущение "ой, и верно" -- и исподволь распространяется на все оценки. Это явно некорректно.
Почему же. Это называется сэмплинг. Просмотрите 100 каментов про себя сегодня, завтра, неделю, обнаружите, что у системы 1% ошибок- хорошо. А если их 25% - плохо.
8 октября в 23:28
Олег Лебедев Ну вот о том и речь, что даже динамика тут скорее отражает пополнение баз поисковика, чем реальные оценки.
8 октября в 23:29
Олег Лебедев Сэмплинг это хорошо. Если у меня выборка не смещенная. А выборка "про меня" уже по определению не нормальна.
8 октября в 23:29
Игорь Ашманов Нет, ещё раз про Лайвинтернет для понимания аналогии: как связаны доли переходов с сайтов (поисковиков) с долей рынка? Все знают, что это условность, но никакого другого измерителя - нет. Ну, Алекса ещё. Ещё более кривая. Опросы ТНС, ещё более кривые.
8 октября в 23:52
Олег Лебедев С долей рынка кого? Новостного сайта? Вендора?
8 октября в 23:30
Олег Лебедев Простой расклад: у вендора с которым мало проблем на его сайт, в раздел поддержки переходов мало.
8 октября в 23:30
Игорь Ашманов Короче, пойду спать. Дети малые, ночью кормить, с утра в школу. Всем спокойной ночи.
8 октября в 23:31
Олег Лебедев Дальше раскладывать? Мало переходов, малая доля... ;-)8 октября в 23:31 · Мне нравится..
Владислав Боркус Игорь, ну вы избрали скользкий путь доказательства: обосновываете полезность одного нерелевантного счетчика наличием другого нерелевантного.
8 октября в 23:32
Олег Лебедев Ну зачем "в школу"... Мы пока говорили, я тут кое-что в своем роботе допилил на тему кросс-контролей (благо, тема автовыделения атрибутивных сущностей доделана и можно нагенерить сравнительных таблицек 8)
8 октября в 23:33
Олег Лебедев Завтра гляну, если оно опяь всю память не скушает...
8 октября в 23:33
Игорь Ашманов Нт, не так. Просто в нашем мире все инструменты небезупречны. Везде некая доля условности. Даже километры в час на спидометре вашей машины - не настоящие, сравните их с GPS и увидите.
И ещё раз: большинству наших крупных клиентов нужна не статистика, а социальная CRM. А там менеджер суппорта или промо-слубы сразу проваливается в конкретный блог и общается не с ботами, а с живым недовольным консьюмером. И сразу всё видит.
Всё, спокойной ночи, полуношники.
8 октября в 23:36
Олег Лебедев С этим никто ж и не спорит. Необходимость выделять кластер "тут на вас срут, примите срочно меры" она есть. Вопрос скорее в том, что это именно что условность. На фоне откровений типа "информационная атака на [имярек]" 8)8 октября в 23:38 · Отредактировано · Мне нравится..
PS. Это должно быть любопытно тем, кому небезразличны технологии манипуляции обществом и способы их обнаружения.
UPD. В комментариях - дуэль с главным редактором PCMagazine/RE Олегом Лебедевым.
Comments (Горячая дискуссия под катом)
//Facebook 19 августа 2012 в 23:47
Владимир Баласанян, Inga Bagrationi, Анна Елашкина и 2 другим это нравится..
Олег Лебедев Баян же. Вопрос был один -- на кой? Сейчас даже понятно зачем оно было, это он видимо пытался (а может и успешно) продать свои темы для "призмы".
20 августа в 0:23
Владислав Боркус Я не видел :) Нормальная технология. Ну, предположим, хотел он продать темы для "Призмы", и чего это меняет?
20 августа в 0:26
Олег Лебедев Расстановку акцентов, а тут он мастер.
20 августа в 0:29
Олег Лебедев Кстати, с этим номером он много где светился.
20 августа в 0:30
Олег Лебедев Во...
20 августа в 0:30
Владислав Боркус К "Призме", как я понял, были претензии, что она иронию в постах не понимает. А тут тупо - считает упоминание темы, крутизну фронта нарастания интереса и темп спада. У нас в детекторе так фотоны от заряженных частиц селектировались :))
20 августа в 0:31
Олег Лебедев Фишка в том, что в массе живут странный аттрактор. Его потом можно объяснять, но угадать -- нереал почти (ну на нынешнем уровне вычисления). Но на этом паразитируют многие и многие.
20 августа в 0:31
Олег Лебедев Ну вот эта крутизна ничего не говорит. Она может объясняться ста причинами и ни одной правильно 8)
20 августа в 0:32
Олег Лебедев Там даже кластеризовать надо со ста оговорками.
20 августа в 0:33
Владислав Боркус В детекторе говорит... Естественно есть процент ложных срабатываний. Ну да, хотелось бы посмотреть на выборку, по которой проводится обучение системы. Но честному человеку можно поверить на слово :)
20 августа в 0:34
Владислав Боркус В принципе, там даже не кластеризация, а проверка гипотезы отнесения публикации к теме, причем чуть ли по ключевым словам. Это шибко проще. Ну и процент ошибок в этих задачах допустим много больше, чем в рентгеновском детекторе :))
20 августа в 0:38
Олег Лебедев Во-во. И тут как во всей лингвистике -- "уровень качества" в 60% -- это арифметика, 90% -- матстатистика, 95% -- хорошо сделанная эмпирика, 96% -- докторская...
20 августа в 0:42
Олег Лебедев А процент ошибок куда меньше должен быть, чем в детекторе, первичка-то слабоповторяющаяся.
20 августа в 0:42
Владислав Боркус Не совсем. Они ловят и копипасты и пересказы... А в детекторе при потоке 10^5 частиц/с/дет, уровень ложных срабатываний был что то вроде 10 шт/с. Если верно помню (хотя уже смутно).
20 августа в 0:46
Олег Лебедев Ой вей, словить копипаст и пересказ (в пределах синонимии) умеет даже моя поделка.
20 августа в 0:51
Олег Лебедев В детекторе принципиально проще -- там поток куда менее разношерстный, насколько понимаю.
20 августа в 0:51
Олег Лебедев Думается, что покрвыряв тему сверхфразовых единств (тут у RCO есть наработки) можно лдаже эзопов язык вычислить.
20 августа в 0:52
Владислав Боркус Не, эзопов язык не вычислишь. Тут нужно смысл понимать.
20 августа в 0:56
Владислав Боркус Ну и.. важнее работает эта технология или нет, а не то, насколько просто ее повторить :)20 августа в 1:32
Игорь Ашманов У вас классическая болезнь, описанная Авраамом Болеславом Покоем в Зконах Лошариата, которая заключается в том, что вы ни в коем случае не хотите дать себя обжулить, сделать лохом, хотите проявлять мудрый цинизм типа: "да это всё для распила бабла, это все свой шкурный интерес пропихивают" и т.п. На каждого человека вы смотрите с подозрением: а зачем он это сказал?! Наверняка из корысти!!!
Этот синдром подробно описан вот тут: http://www.odnako.org/blogs/show_13181/
В реалности, всякий, исповедующий лошариат, старающийсмя не быть лохом, а быть мудрым циником, является лёгкой жертвой медийных вирусов и обувания лохов через блоги. И в этой дискуссии - даны достойные тому примеры.
Ну какие ещё "темы для "Призмы", о чём вообще речь? Призма - это такое медийное явление, якобы существующая правительственная система анализа мнений в блогах от IBS. Вам стало про неё известно на той неделе из статьи в Форбсе, полной измышлений журналиста, который почитал презентацию. Вы поверили - вы же такие умные, умеющие не дать себя обмануть.
На самом деле Медиалогия давно, несколко лет как, продана в правительство, АП, Совет Федерации и т.п., стоит у всех чиновников на их айпадиках, ищет упоминания про их персоны в СМИ. Насколько мне известно, ни выкачивание блогов (свой поисковик по блогам), ни анализ тональности высказываний и авторитетности блоггеров пока Медиалогия ниасилевает. В любом случае это наш как бы конкурент. Как бы я рассчитывал что-то им там поставлять?
У нас своя свадьба, система Крибрум, которая работает именно с соцсетями и блогами.
История про наезды на Патриарха и РПЦ - даже не чей-то заказ, это просто результат того, что меня Толя Кузичев пригласил поговорить на ТВ именно про это. Наезд - есть, он искусственный, заказной, это очевидно.
Что касается RCO - то главный их специалист про прикладной лингвистике и прагматике работает в Крибруме и делает там анализ фрейма ситуации, смысловых связей в предложении и всего такого.
О Законах Лошариата, или В защиту доверия - Авраам Покой
www.odnako.org
Блоги.
20 августа в 10:55
Владислав Боркус Игорь, А.Б. Покой пишет отличные рассказы-карикатуры, но есть же и вопросы по смыслу. 1) По каким принципам происходит отнесение публикации к теме? И какова тут точность?
2) По какой обучающей базе выделялись характеристики/строилась модель "типового новостного импульса"?
3) Насколько эти характеристики стабильны? Насколько статистически значимо можно отличить разогреваемую тему и обычную (Ну и почему динамика интереса обязательно должна быть одинакова для всех тем? Логично же исходить из гипотезы, что динамика интереса может меняться от темы к теме?)
20 августа в 13:58
Анти Данилевский · 3 общих друзей
Мне во всей этой истории интересно то, что обещанного спада "интереса" к попам и их великим деяниям не ослабевает (благодаря их деяниям).
8 октября в 18:25
Игорь Ашманов Я вроде ничего никому не обещал. Основной фактор подогрева наезда на РПЦ сейчас - это спиливание крестов и осквернение храмов. Именно потому, что фактуры для раскрутки не хватает - события создаются. Примерно раз в неделю-две.
8 октября в 20:28
Игорь Ашманов Чуть больше чем в зомбоящике, про признаки информационной кампании рассказано вот здесь: http://www.foma.ru/pod-vlastyu-mentalnogo-virusa-ili-kak-otlichit-vbros-ot-novosti.html
даже графики есть.
Под властью ментального вируса, или Как отличить вброс от новости
www.foma.ru
Череду скандальных новостей о Русской Православной Церкви одни считают централиз…ованной информационной атакой, другие — естественным ходом событий. Об этом можно долго дискутировать, а можно просто взять и обратиться к фактам и цифрам: проанализировать все интернет-публикации по конкретной скандальн...Еще.
8 октября в 20:45
Валерий Коржов Слушайте, я эти разговоры про информационные войны и атаки слышал от Miroslav Makstenek лет десять как - он тогда в public.ru работал. По моему, ни чего с тех пор так и не поменялось...
8 октября в 21:01
Владислав Боркус Народ церковь не любит. Теперь это и из графиков видно. Никакого интереса к пасхе, зато много интереса к облико морале духовных пасторов ))
8 октября в 21:04
Валерий Коржов Правильнее говорить "ИнфоНарод", ибо те, кто любит за новостями в Инет не суются...
8 октября в 21:05
Олег Лебедев И снова старый баян... При всем уважении к технологиям, не могу не сказать, что несет бред. Ну, может быть тогда просто пытался продать "Призму" госорганам.
8 октября в 21:19
Олег Лебедев Абстрагируясь от эмоций, отмечу что в данном случае речь в сущности идет о технологии выделения слабых сигналов и странных атрракторов. А это на грани нобелевки.
8 октября в 21:18
Владислав Боркус Графики, полученные по секретной методологии, всегда вызывают много вопросов ))
8 октября в 21:29
Олег Лебедев Я бы сказал. все эти попытки исчислить добродетель -- от лукавого они. Кто в вере силен таких фокусов чурается.
8 октября в 21:33
Владислав Боркус Благочестие формализуемо, а ведь согласно воззрениям Платона (в пенсионном возрасте) - это компонент добродетели :)
8 октября в 21:37
Олег Лебедев Еретик! Епитимью ему! 8)
8 октября в 21:47
Владислав Боркус Да, ваааще язычнег канкретный ))
8 октября в 21:51
Игорь Ашманов > Ну, может быть тогда просто пытался продать "Призму" госорганам.
Чувак. Ну разуй глаза уже, странный ты аттрактор. Призма - это такой продукт компании Медиалогия, давно проданный госорганам. Медиалогия - это совсем другая компания, Толи Карачинского. У него все хорошо с госорганами.
8 октября в 21:51
Олег Лебедев Ну, кого там еще... Я не слишком разбитраюсь в кто там с кем у кого.
Локально и без анализатора вижу простую вещь: во втором эшелоне копипаст-СМИ идут как под копирку интервью на заданную тему. Часто одними словами. Первую волну -- где-то летом -- можно объяснить интересом к жареным фактам. Вторую (начало осени) уже сложнее. Ныне, уже совсем протухную тему снова пиарить да со словами "конечно это накат на [имя цели]" воспринимать кроме как "заказная хрень в каких-то коммерческих интересах" уже совсем не удается.
8 октября в 21:54
Олег Лебедев Таковы наблюдаемые факты.
8 октября в 21:54
Игорь Ашманов Таковым наблюдаемые моском. А машина, она чёта другое считает.
8 октября в 21:55
Игорь Ашманов > Ныне, уже совсем протухную тему снова пиарить да со словами "конечно это накат на [имя цели]" воспринимать кроме как "заказная хрень в каких-то коммерческих интересах" уже совсем не удается.
Ну так не пиарьте. Советую бросить, в самом деле.
8 октября в 21:56
Олег Лебедев Дык, в машину-то нормальные данные суйте 8)
8 октября в 22:00
Олег Лебедев Гыг, не пиарьте... И не пиарю. И даже игнорировал долго. Но автор темы "ах, наша машина говорит что есть прессинг" столь настойчив и столь активно пропагандирует эту тему 8)8 октября в 22:01
Владислав Боркус Это типовой аргумент такой: "Калькулятор показывает". С советских времен действует безотказно ))
8 октября в 22:03
Олег Лебедев Абстрагируясь от эмоций, замечу, что я лично не верю почти ни в какие "автоматизированные оценки новостного поля" уже потому, что нет нормальной первички. И аналогично, в сказки об "оценке репутаций".
8 октября в 22:03
Олег Лебедев Калькулятор там не калькулятор -- это делали. Главное истина. Но доказывать тезисы калькулятором чревато -- ведь и пересчитать можно 8)
8 октября в 22:04
Игорь Ашманов Других данных у нас для вас нет. Только говно. Это первичка, столь вам любезная, но это говно.
Для примера: в русском Твиттере официально 7 миллионов аккаунтов. Из них ежедневно живых - 1М, как-то живых за 2 месяца - 1,8М. Всего твитов - 4 миллиона в день. Но из них 2,1М - спам, исходящий от 60К аккаунтов. Остальное - в основном перепосты. Почти никто ничего не пишет. Даже не приписывает, тупо жмёт кнокпку "ретвит". Основное содержание - пересказ СМИ. В блогах и соцсетях примерно то же самое.
В общем 90+% всего в Интернете - шлак.
8 октября в 22:09
Олег Лебедев Кстати, увидел сообщение, скрытое как спам... Не знаю, не знаю. Единственное, что (на мой взгляд) было круто в Гаранте это как раз не фрейм, а детекция сверхфразовых единств. (делали, если правильно помню, ученики/соавторы товарища Харламова.)
8 октября в 22:06
Олег Лебедев Что до первички... Я могу согласиться с тем, что берется не "полная" картина, но хотя бы на уровне яндексоидной индексации. Но анализ внешними средствами показывает, что и тут картина сильно отличается.
8 октября в 22:07
Олег Лебедев А что 90% шлак -- тут да. Собгласен совершенно.
8 октября в 22:07
Олег Лебедев О! Еще важный момент не озвучил, хотя учитываю. Я могу согласиться, что "машина оценивает" условно-верно. Меня смущает интерпретация.
8 октября в 22:10
Игорь Ашманов Про "берётся не полная картина". Вот что у нас за первичка - взял просто из презентации для казахской конференции:
* Мониторинг заданных объектов (персоны, организации, авторы)
* Собственный поисковик по блогам, выкачивание каждые 20 минут.
* Анализ тональности мнения (позитив / негатив, нейтрально / неизвестно)
* Анализ всего инфополя: Твиттер, ФБ, ВК, независимые блоги и форумы.
* Языки: русский, английский, арабский.
* Твиттер: 7 миллионов аккаунтов в русском Твиттере, 4 миллиона твитов в день
* Блоги: 14 миллионов блогов и сообществ в русском Livejournal, 120 000 независимых блогов и форумов
* Социальные сети: Весь ВКонтакте, частично Фейсбук (выборочные группы, сообщения)
* Авторы: 110 миллионов авторов, 65М – в ЖЖ и ВКонтакте
* СМИ: 5 тысяч интернет-СМИ
8 октября в 22:11
Владислав Боркус Если вы всех ботов в анализ включаете, то понятно, что в результатах будет трэш
8 октября в 22:12
Игорь Ашманов > Единственное, что (на мой взгляд) было круто в Гаранте это как раз не фрейм, а детекция сверхфразовых единств.
В Гаранте ничего было не круто. Я с ними сидел ещё в 2000-1001 в одном здании, потом они продавали сервис/технологию моей жене, куче знакомых, я слушал их доклады на Диалоге. Не вставляло. На мой взгляд. Парень, который что-то делал там круто, работает у нас.
8 октября в 22:18
Олег Лебедев 1. Принимается
2. Уже вопрос -- у меня тоже машина и тоже каждые 20 мин. А выборка, уверен, разная.
3. Тональность... Рудиметарная, хотя есть (спасибо Cognitive за Dwarf 8)
4. Общее инфополе... Смысл? Если из него рисовать хотя бы наметки на общую онтологию смысл есть, а так... Ну повысит веса на сотые доли в сравнении с каким-нить iPhone.
6. Твиттер помойка, разве, что нечто типа ранга изобразить.
7. Аналогично. Сообщения о событии будут в 0,00001%.
8. Автора аналогично, пускаем пыль в глаза цифрами.
9. Интернет СМИ -- может юбыть актуально, но см. п. 4.
8 октября в 22:14
Олег Лебедев Vladislav Borkus -- не, это уже в общем-то некорректно даже. Уж ботов наверняка фильтруют. Впрочем, при правильных алгоритмах они сами отсеиваются.
8 октября в 22:15
Игорь Ашманов > Если вы всех ботов в анализ включаете, то понятно, что будет трэщ
Владислав. Понимаю, что вечер. Понимаю, что давление, у всех голова болит, не только у вас. Но вы попробуйте её всё-таки включить, вдруг уже остыла и запустится.
Если я вам говорю, что там 60% спама от 60К ботов, наверно, мы как-то это сумели установить, ботов посчитать, спам распознать. Иииии...?
8 октября в 22:17
Олег Лебедев О Гаранте... Ну, я не стану спорить, я все же любитель 8)
Так, погулять вышел. И посомневаться ;-)
8 октября в 22:16
Олег Лебедев Ну вот при всем расхождении во взглядах, не могу не поддержать мнение.
8 октября в 22:18
Олег Лебедев Сократ мне друг, но истина дороже 8)
8 октября в 22:18
Владислав Боркус "Иииии" - И можно задавить в себе страсть к мелодраматизму, и спокойно сказать, что и как делаете )) Подход профессионала и все такое ))
8 октября в 22:19
Игорь Ашманов В Гаранте этот лингвистический отдел несколько лет был просто развлечением для кого-то из основателей. Лет этак семь. "Карты Кохонена" и все такие дела. Потом их стали пихать, заставлять придумать бизнес-основания их существования.
Возникла компания RCO. Название её происходит от Oracle Russian text Optimizer, который был куплен ими у сидевшей рядом Агамы (авторора "Прописи" и Апорта). А точнее даже - у сотрудника Агамы Андрюхи Коваленко, он же Кева, который вкрутил им машинную русскую морфологию в Оракл, который они тогда продавали.
Кстати, Серёга Королёв, директор Агамы, последние несколько лет работал техническим директором Медиалогии, а Коваленко - писал поиск Рамблера, Меты, Новотеки, Флексума, а сейчас работает в АиП тоже в лингвистическом проекте.
А RCO была куплена Мамутом, владельцем ЖЖ, для запуска проекта поиска людей "Ктотам.ру", который провалился.
В общем, прослойка очень узкая, всё про всех известно.
8 октября в 22:24
Игорь Ашманов Ну что делаем, я же говорил: 1) анализ информационного поля с помощью поиска заданных объектов (для клиентов, несколько тысяч), плюс 2) анализ и выявление медийных событий по всей массе сообщений путём кластеризации.
Обнаружение новых взлетающих тем, трендов, распознавание тональности, очистка от спама, дублей, нечётких дублей, вычисление выхлопа блоггера и т.п.
Ну там типа всё написано: http://www.kribrum.ru/technologii.html
Крибрум – сервис мониторинга и анализа социальных медиа для управления репутацией компании
www.kribrum.ru
Сбор, обработка и анализ упоминаний брендов, продуктов и услуг в социальных медиа. Автоматическое определение тональности высказываний.8 октября в 22:27
Олег Лебедев Ой-вей, видел я это... Сомнения начались на стадии описания 8)
Начало собственно уже в том, что "а есть ли право анализировать автоматически ресурсы"? Многие запрещают. Не в роботс.тхт, а юридически. Вот мы например 8)8 октября в 22:29
Олег Лебедев Это уже принципально ставит вопрос о "релевантности".
8 октября в 22:29
Игорь Ашманов СМИ имеют смысл, потому что практически всегда медийная кампания начинается имнно в СМИ, или отмывается в СМИ в крайнем случае. Твиттер имеет смысл, потому что там самое и начинается актуальное.
8 октября в 22:29
Игорь Ашманов Кто и что запрещает, непонятно. Пример можете привести?
8 октября в 22:30
Олег Лебедев https://www.pcmag.ru/about/index.php#reprint
Простыми словами: даже фиксировать наличие наградного лого автоматизированно нельзя.
PC Magazine/RE: Обзоры компьютеров, программ, техники и электроники, программы, новости и мнения.
www.pcmag.ru
PC Magazine/RE - ваш гид в мире компьютеров компьютеров, периферии и модернизаци…й. Мы тестируем и рассматриваем компьютерные и Интернет-продукты и услуги, новости технологии и тенденции, даем советы покупателям и сравнения цен.Еще.8 октября в 22:31 · · Убрать предварительный просмотр..Олег Лебедев Мы тут не одиноки кстати. Еще пример -- Яндекс начал индексировать iTunes Store. А у Яббл в TOC ясно сказано "без согласования нельзя". Чем у них кончилось не знаю, пресс-служба "Яндекса" отмалчивалась.
И т. д.
8 октября в 22:32
Олег Лебедев Что до прослойки (реплика выше, интересный тред) -- я далеко от тусовки даже от журналистской в общем-то. И изучая вижу код. В общем интересные темы были у медиалингвы и вот там. Но -- это со стороны длюительская оценка 8)8 октября в 22:38 · Мне нравится..Игорь Ашманов Ну, вообще я подробно не вник, но на первый взгляд выглядит, как текст, содержащий юридически ничтожные фрагменты. Благие пожелания (содержащие следы мемов про 40% и интернет-прагмы про "активную ссылку"). Дальше надо бы разбираться, но PC Magazine, конечно, к анализу мнений в Рунете не совсем близко стоит.
8 октября в 22:44
Владислав Боркус Игорь, про ботов я начал спрашивать, глядя на график 2 в вашей статье, и комментарий к нему. Что там такое случилось, что за 1 час 1250 живых человек сделало перепост. А в комментарии вы уже говорите про "роботов" перепоста или скоординированную группу людей. Ну вот и вопрос был вы их как то делите или нет.
8 октября в 22:47
Олег Лебедев Да и бог бы с ним, с юридическим аспектом, там просто, в .htaccess роботу ход прикроют -- и все. Техническая гарания типа 8)
Что до нас... Да, у нас особое место. Но идея "а чо это они нас бесплатно индексируют" набирает популярность, хе-хе,
8 октября в 22:48 · Отредактировано · Мне нравится..Олег Лебедев И я уже не говорю, что в общем-то достаточно двух-трех таких случаев ("мы не разрешаем индексировать") чтобы "оценка репутации стала _принципиально_ бессмысленной.
(Она и уже сейчас такая, сервисы типа "Блогуна" делают ее весьма абстрактной, но это уже отдельная тема.)
8 октября в 22:50
Игорь Ашманов > Что там такое случилось, что за 1 час 1250 живых человек сделало перепост.
Там скорее всего, это живые роботы, если это про 5 мая или что-то там вроде этого. Роботов мы видим. Я об том и толкую: вброс и кампанию по его раскрутке можно определить автоматически, только если кампания топорная - боты, время характерное, интенсивность неестественная и всё такое.
А вброс того, что и так вся прогрессивная общественность ждёт не дождётся помусолить, будет очень естественным.
8 октября в 22:50
Олег Лебедев Вопрос наверное в том, что стоит ли делать далеко идущие выводы из частных случаев 8)
8 октября в 22:53
Игорь Ашманов Нет, про репутацию вывод неверный. Интересны мнения живых людей, а не статьи в PC Magazine, который неизвестно, какой тираж и влияние имеет. Надо признать, положа руку на сердце, что русский ИТ-глянец в 90-е и часть 2000-х был во многом просто формой отчётности за деньги Intel Inside.
Кончился благословенный золотой дождь Интел Инсайд - закрылась Компьютерра и много кто ещё.
Поэтому прикольно мерить живые блоги и твиты. Живость их и ангажированность можно определить автоматически.
А второе, это то, что многим нужен уже не измеритель репутации, а социальная СRM, разговор один на один с обиженным вкладчиком через полчаса после его Ненависти Псто.
8 октября в 22:55
Олег Лебедев Статьи в журнале -- это мнения экспертов. Как минимум. Но тут спор философский, бог с ним.
Что до "мнений людей" -- то простой пример, а том же "Яндекс.Маркет", несмотря на заявленную жсткомть модерации постоянно встречаются так скажем странные мнения. Типа в комментариях к промышленному монитору (8-дюйм, 200 тыс. руб, потому что IP65) слова "ой, так долго искали повесили на кухне, так просторно" 8)
О блогах говорить бессмысленно уже потому, что есть сервисы типа "Блогун.ру".
8 октября в 22:58
Владислав Боркус "был во многом просто формой отчётности за деньги Intel Inside." - Это долгий разговор, но в целом вы оцениваете неверно.
8 октября в 22:58
Олег Лебедев Товарищ Vladislav Borkus давайте все же не о сплетнях и инсайдах, а о ясных и поддающихся инструментальному контролю со стороны темах 8)
8 октября в 22:59
Владислав Боркус "Там скорее всего, это живые роботы, если это про 5 мая" - Раз уж картинка вами заявлена, я бы засадил аналитика разбираться что за эккаунты, замечены ли были в таком ранее... В конце концов это просто интересно, раз, и может указывать на особенности в работе алгоритма (это не наезд), два.
8 октября в 23:01
Владислав Боркус "не о сплетнях и инсайдах" - Олег, ну про Inside все в курсе, просто Игорь и сроки спутал, и значимость явления переоценил ))
8 октября в 23:02
Игорь Ашманов Ну, вам виднее.
Я как-то присутствовал при таком разговоре: в Сочах, в Радиссон-Лазурная, году так в 2001 на диванах в фойе Карачинский спросил Мендрелюка:
- Дима, вот скажи, а если программа Интел Инсайд закроется, КТ сдохнет или нет?
Тот всерьёз задумался, пожевал губами и сказал:
- Нет. Сейчас уже нет.
На мой взгляд, тиражи русского ИТ-глянца всегда были завышены минимум в 10 раз (3-5 тысяч вместо 50 000 заявленных), и журналы использовались в основном для предъявления рекламы по Интел-Инсайд, ну и по другим вендорам.
Нет, конечно, кто-то реально работал свою журналистскую работу, писал репортажи, обзоры, тесты, переводил из материнских журналов, были же и интересные статьи. Но бизнес-модель была - завышение тиража и откаты. Ну так мне кажется, я всё-таки это всё наблюдаю с 1991 года.
8 октября в 23:07
Олег Лебедев Я не стану спорить, отклоняясь от основной линии обсуждения 8)
Укажу только что у всех своя модаль 8)
8 октября в 23:06
Олег Лебедев Кто-то завышал тиражи, кто-то заявлял что "оценивает репутацию"...
Жизнь наверное такова 8)
8 октября в 23:07
Владислав Боркус Игорь, ну если сами откатов не давали, то грех такие сплетни распространять ))
8 октября в 23:10
Владислав Боркус Я бы сказал так. Как и в случае "модели наезда на Церковь" жизнь сложнее простых схем ))
8 октября в 23:11
Игорь Ашманов Ну в отличие от тиражей у нас в системе можно кликнуть по любому событию, увидеть все комменты, кликнуть по любому комменту, провалиться в него и написать ответ. Есть прозрачность, чисто механическая.
Ну это как вот здесь в наших анализаторах качества поисковиков, тот же принцип - можете посмотреть все запросы, по которым сегодня или вчера или неделю назад оценивались поисковики, щёлкнуть по каждому, проверить совпадение результатов (взял анализатор порнографии, чтоб вам веселее было):
http://analyzethis.ru/?analyzer=porno&location=ru&lang=ru&date=2012-10-08
8 октября в 23:11
Олег Лебедев Таки напомню текущий вопрос: можно ли считать агрегацию "мнений" в Интернете "оценкой репутации".
На мой взгял -- нельзя. Можно нарсрвать красивые графики, но они будут бессмысленными по определению, более того, местами будут нарушать требования правообладателей 8)8 октября в 23:12
Олег Лебедев Посмотреть каммент -- дело хорошее. Где не то, что гарантия, хотя бы предпосылка "они написаны живым юзером", а не одним из блогунцов за копейку малую?
8 октября в 23:13
Олег Лебедев Тут мы сразу прходим к вопросу "а судьи кто" и к ответу "те, кто за базар отвечает", то есть к печатному журналу 8)
8 октября в 23:14
Игорь Ашманов > Игорь, ну если сами откатов не давали, то грех такие сплетни распространять ))
Я откатов не давал и не даю. Тем более, что я был - рекламодатель, я платил за рекламу (годах в 1996-1999). Может быть, пытались давать откаты моим пиарщикам, но вряд ли. Я просто тусовался в среде всех владельцев всех наших ИТ-изданий лет 12-15, так что представляю картину.
У меня в нашей ИТ-прессе просили только денег за джинсу. Кстати, реклама в нашем ИТ-глянце выхлопа не давала практически совсем, в отношении коробочных программных продуктов. Потому что тираж был липовый, развозимой пачками бесплатно по офисам, каковые пачки даже не вскрывались часто.
В первой половине 90-х, когда интерес публики к компьютерам и ПО был ещё горячим, было не так, выхлоп какой-то был. Даже розница у них работала, народ покупал в метро читать. А потом в рознице совсем перестали брать и началась бесплатная раздача тиража по офисам.
8 октября в 23:17
Владислав Боркус Олег, ну большинство PR отделов отчитываются квадратными сантиметрами публикаций ))
8 октября в 23:17
Игорь Ашманов Вот то-то и оно.
8 октября в 23:18
Олег Лебедев Кстати, не совсем сантиметрами. Там тонко, есть сетка и ценность сантиметра совсем нелинейно зависит. Типа сантиметр на фото топа дешевле сантиметра текста 8)
8 октября в 23:18
Игорь Ашманов > Где не то, что гарантия, хотя бы предпосылка "они написаны живым юзером", а не блогунцов за копейку малую?
Ну если можно посмотреть-полистать, оно же глазом-то видно - если показано, как учитываемый камент, то плохо, если помечено как спам - хорошо.
8 октября в 23:19
Олег Лебедев Но в целом я бы еще раз предложил вернуться к вопросу по регламенту, а ностальгические воспоминания перенести в другой тред 8)
8 октября в 23:19
Олег Лебедев О! Уже интересно. То есть "машина оценивает верно", а "убедиться можете глазом"?.. Это тонкая тема, если вспомнить, что мозга, способного оценить статистику "вручную" еще поискать надо 8)
То есть создается ощущение "ой, и верно" -- и исподволь распространяется на все оценки. Это явно некорректно.
(Например, именно чтобы избежать такого эффекта мы публикуем методики тестирований 8)
8 октября в 23:21
Владислав Боркус В машинных подходах всегда проблема, что машина посчитала как то комментарии, но никто ж ни полноту множества не понимает, ни оценивать качество ее классификатора не буде
8 октября в 23:25
Игорь Ашманов > Таки напомню текущий вопрос: можно ли считать агрегацию "мнений" в Интернете "оценкой репутации".
А можно считать показатели счётчика Лайвинтернет имеющими отнощение к долям рынка? А индекс Доу-Джонса? А подсчёт калорий в пище?
Есть измеритель - вот такой. Другого не сделали. Он в каждый мгновенный момент времени имеет неизвестный мультипликатор к реальности. Но на ретроспективе за недели, месяцы и годы - вполне себе инструмент, показывает рост, падение и всё такое.
8 октября в 23:25
Олег Лебедев Тут ладно бы полноту, тут в общем-то можно оценить "эрозию" множества, в сущности ведь банальная ошиьбка...
8 октября в 23:26
Игорь Ашманов И мы методики клиенту показываем.
8 октября в 23:26
Олег Лебедев liveinternet.ru? С натяжкой и условно. Но лучше чем TNS и Webomer.ru какой-нить.
Но! "Репутация" и "доля рынка" не связны почти никак. Ну, в лучшем случае поправочным коэффициентом или там удельными соотношениями. (Тут могут быть варианты.)
8 октября в 23:27
Игорь Ашманов > То есть создается ощущение "ой, и верно" -- и исподволь распространяется на все оценки. Это явно некорректно.
Почему же. Это называется сэмплинг. Просмотрите 100 каментов про себя сегодня, завтра, неделю, обнаружите, что у системы 1% ошибок- хорошо. А если их 25% - плохо.
8 октября в 23:28
Олег Лебедев Ну вот о том и речь, что даже динамика тут скорее отражает пополнение баз поисковика, чем реальные оценки.
8 октября в 23:29
Олег Лебедев Сэмплинг это хорошо. Если у меня выборка не смещенная. А выборка "про меня" уже по определению не нормальна.
8 октября в 23:29
Игорь Ашманов Нет, ещё раз про Лайвинтернет для понимания аналогии: как связаны доли переходов с сайтов (поисковиков) с долей рынка? Все знают, что это условность, но никакого другого измерителя - нет. Ну, Алекса ещё. Ещё более кривая. Опросы ТНС, ещё более кривые.
8 октября в 23:52
Олег Лебедев С долей рынка кого? Новостного сайта? Вендора?
8 октября в 23:30
Олег Лебедев Простой расклад: у вендора с которым мало проблем на его сайт, в раздел поддержки переходов мало.
8 октября в 23:30
Игорь Ашманов Короче, пойду спать. Дети малые, ночью кормить, с утра в школу. Всем спокойной ночи.
8 октября в 23:31
Олег Лебедев Дальше раскладывать? Мало переходов, малая доля... ;-)8 октября в 23:31 · Мне нравится..
Владислав Боркус Игорь, ну вы избрали скользкий путь доказательства: обосновываете полезность одного нерелевантного счетчика наличием другого нерелевантного.
8 октября в 23:32
Олег Лебедев Ну зачем "в школу"... Мы пока говорили, я тут кое-что в своем роботе допилил на тему кросс-контролей (благо, тема автовыделения атрибутивных сущностей доделана и можно нагенерить сравнительных таблицек 8)
8 октября в 23:33
Олег Лебедев Завтра гляну, если оно опяь всю память не скушает...
8 октября в 23:33
Игорь Ашманов Нт, не так. Просто в нашем мире все инструменты небезупречны. Везде некая доля условности. Даже километры в час на спидометре вашей машины - не настоящие, сравните их с GPS и увидите.
И ещё раз: большинству наших крупных клиентов нужна не статистика, а социальная CRM. А там менеджер суппорта или промо-слубы сразу проваливается в конкретный блог и общается не с ботами, а с живым недовольным консьюмером. И сразу всё видит.
Всё, спокойной ночи, полуношники.
8 октября в 23:36
Олег Лебедев С этим никто ж и не спорит. Необходимость выделять кластер "тут на вас срут, примите срочно меры" она есть. Вопрос скорее в том, что это именно что условность. На фоне откровений типа "информационная атака на [имярек]" 8)8 октября в 23:38 · Отредактировано · Мне нравится..
Комментариев нет:
Отправить комментарий