Источник: PCWEEK (Москва)
Автор: Анатолий Опарин
Дата: 16 декабря 2003 г.
В современную эпоху крупным государственным и коммерческим структурам становится все труднее следить за динамично меняющимся вокруг них информационным полем, которое содержит массу новостных и обзорных материалов. Регулярное ознакомление с публикациями СМИ для любой серьезной деятельности необходимо, но не всегда достаточно. Большие массивы информации должны подвергаться качественному анализу. На основе фактов и предположений, почерпнутых из открытых источников, можно не только анализировать состояние дел в своей отрасли, но и строить прогнозы развития ситуации, что жизненно важно для принятия верных решений.
Какая информация нам нужна?
Немаловажную роль в современном бизнесе играет конкурентная разведка, в основе которой, по крайней мере на Западе, лежит маркетинговая информация, получаемая из прессы. По утверждению специалистов, около 80% информации, требуемой для поддержки процесса стратегического управления может добываться из открытых источников, таких, как Интернет, традиционные СМИ, информационно-рекламные материалы компаний и т. д.
Пример 1. Американская инвестиционная компания на рубеже 80-х и 90-х годов прошлого века разрабатывала план своего стратегического развития. Работая с материалами СМИ последних лет, она выявляла наиболее перспективные направления современного бизнеса и науки с тем, чтобы доходно вложить деньги. Пресс-аналитиков интересовала динамика публикаций по заранее определенным темам. Выяснилось, что по крайней мере две тенденции заслуживают внимания. Во-первых, тогда значительно возрос интерес прессы к новому виду компьютерных сетей — Интернету. Во-вторых, на гребне пика своей популярности из научной прессы вдруг практически исчезли публикации, касающиеся высокотемпературной сверхпроводимости. Первая свидетельствовала о том, что Интернет скоро станет массовым явлением и в его развитие выгодно вкладывать деньги. Вторая наводила на мысль о том, что исследования ученых по высокотемпературной сверхпроводимости засекретили, а это также свидетельствует о ее исключительной перспективности. И в том и другом случае аналитики оказались правы.
Задача, описанная в примере 1, решалась не быстро, не одним человеком и практически без привлечения компьютерных технологий. Проблема обработки информации такого рода состоит в отсутствии у нее какой-либо приемлемой структуры и в ее огромных объемах. Тем не менее, имея удобные инструменты, ее вполне можно решить. Задача из примера 2 решалась быстро, одним человеком при помощи простых программ мониторинга СМИ.
Пример 2. Некая российская фирма запланировала поглотить одно из интересных для ее бизнеса предприятий. Решили выйти на акционеров этого предприятия и договориться с каждым о продаже их акций. Но списка акционеров у фирмы не было. Тогда аналитик совершенно законным путем из открытой региональной и общероссийской прессы собрал информацию об основных акционерах и тем самым помог своему руководству оперативно и результативно решить задачу поглощения. (Пример приводится Сергеем Чистопрудом в журнале “Профи”.)
По оценкам зарубежной прессы, 9 из 10 крупных американских компаний тратят ежегодно в среднем 1 млн. долл. на мониторинг деятельности конкурентов. Вложенные средства окупаются за счет правильных решений, принятых на основе отобранной и проанализированной информации.
Под “удобными инструментами для работы с информацией” понимаются компьютерные программы, помогающие собирать и сортировать материалы СМИ. Таких программ на рынке около сотни, но все они занимаются, как правило, организацией хранения средних или больших объемов информации, обладают простыми поисковыми возможностями и/или тематическим рубрикатором, не предлагая какого-либо механизма качественного анализа. И это не случайно, ибо качественный анализ текста предполагает оценку таких нюансов, как эмоции, угрозы, характер отношений между объектами... В этих сферах человеческий мозг, способный накапливать опыт и обладающий интуицией, предпочтительнее. Хотя скорость оценки при этом и невелика, мы выигрываем в качестве.
При решении интеллектуальных задач компьютерная программа призвана максимально облегчить труд человека: во-первых, обеспечить его ограниченной выборкой документов, отсеяв по предустановленным фильтрам лишнее, во-вторых, предоставить удобное автоматизированное рабочее место (АРМ) для проведения оценок. Некоторые из программ умеют производить “интеллектуальный” поиск по массиву данных, отбирая документы по набору ключевых слов, частоте их употребления и относительному расположению, и делают это с учетом морфологии. Эти программы уже способны на простой контент-анализ, т. е. на семантическую статистическую обработку.
Класс таких аналитических (по терминологии их авторов, хотя не все они в полной мере соответствуют этому названию) программ российских разработчиков имеет хорошие шансы именно в нашей стране. Там, где приходится иметь дело с русскими текстами и документами, у отечественных компьютерных фирм нет достойных конкурентов. В их числе производители правовых баз данных и систем распознавания текстов, поисковых “движков” и автоматических классификаторов, словарей и переводчиков на иностранные языки.
Выводы и перспективы
Многие из перечисленных продуктов снабжены собственными или встроенными авторубрикаторами и аннотаторами, а это означает, что указанные инструменты постепенно становятся стандартными для информационно-аналитических систем. Настоятельной необходимостью для такого класса программ является умение работать с тезаурусом (словарем синонимов) и учитывать морфологию языка: без этих функций при поиске легко пропустить нужные документы. Поскольку результаты исследований чаще всего передаются высокому руководству, не склонному сидеть за компьютером, не следует забывать и об удобных средствах генерации бумажной отчетности.
Желая оставаться в русле основных тенденций развития ИT-индустрии, многие разработчики переводят свои клиент-серверные приложения на Интернет-платформы. Все перечисленные в обзоре продукты, кроме “Астарты” и TextAnalyst, имеют Web-оболочку и используют для передачи данных TCP/IP. Очень желательным для заказчика свойством сложных систем является их модульность, позволяющая легко строить необходимые (нередко более дешевые) конфигурации.
И последнее пожелание разработчикам аналитических систем. Доверяя в рамках проведения контент-анализа компьютеру количественные оценки, не стоит забывать предоставлять человеку возможность ручной качественной оценки исследуемых текстов, помогающей фиксировать и структурировать новый слой знаний для последующего его анализа.
Но настоящий прорыв в обработке материалов СМИ будет достигнут тогда, когда сами авторы станут сопровождать текст некоторой информационной структурой, описывающей смысл статьи и “знания”, в ней изложенные, другими словами, когда возобладает подход, основанный на разделении данных, характеризующих содержание, представление и смысловое значение. Адептом этого подхода является один из основателей современного Интернета Тим Бернерс-Ли. Он предлагает объединить документы подобного рода в единую сеть знаний, которая будет называться Semantic Web. Разрабатываются и языки представления знаний — XML, RDF, OIL, DAMP и др. Но обсуждение этой темы выходит за рамки данной статьи.