рефераты по менеджменту

Контент-анализ экономической информации

Страница
2

Обыкновенно, автор постоянно использует два типа разметки текста в рукописи: пунктуационный и презентационный. Под рукописью будем понимать любой вид текста. Пунктуационный язык разметки текста, например, указывает на концы предложений с помощью пробела. Презентационный язык может содержать, для сравнения, нумерацию страниц рукописи. Приведенные два типа разметки текста не могут быть игнорированы из-за того, что на них построена вся система европейского письма, русского в частности. Пунктуационный язык разметки текста состоит из набора средств, обеспечивающих первичную синтаксическую информацию о написанных высказываниях. Из-за относительной стабильности пунктуации она доступна для большинства читателей. Однако ее характеризуют сложность в использовании в зависимости от стилистических вариаций авторов. Социальное разнообразие пунктуации делает язык богаче, чем усложняет компьютерную обработку текста. Презентационный язык, по сравнению с пунктуационным, имеет подчиненный характер. С его помощью делается ясное представление текста. Он включает в себя горизонтальные и вертикальные границы текста, номера томов и страниц, цитат и примечаний, а также указания на концы страниц или специальные символы. Пунктуационный и презентационный языки относятся к разряду естественных. К разряду электронных языков разметки отнесены языки описания полнотекстовых баз данных, хранящих информацию в машиночитаемом виде: процедурный, описательный, референциальный и метаязык. Разработчики теории семантических языков делали ставку, прежде всего, на их создание и использование.

Упомянутый ранее процедурный язык в компьютерный системах обработки текстов заменил презентационный. Процедурный язык часто стал набором компьютерных команд, определяющих, каким образом следует форматировать текст в конкретных программах. Принцип использования описательного языка изложен выше.

Остановимся на референциальном языке. Он обращен к задаче замены пунктуации на ее описание, например "точка" вместо "." или "тире" вместо "-". Это может упростить процедуру компьютерную интерпретации текстов, отличающихся разнообразием пунктуации. Референциальный язык также использует библиотеки замен, хранимых в отдельном файле или другой компьютерной системе. Строго говоря, в этом он сближается с описательным языком. Наконец, метаязык предоставляет пользователю возможность контролировать и интерпретировать все языки обработки текстов.

Для историков, имеющих целью анализ текста, более всего подходит описательный язык. Документы, размеченные описательным языком, также как и закодированные с помощью процедурного, имеют заголовок, содержащий допущенные знаки описания. Однако знаки разных описательных языков могут отличаться от процедурного и между собой. Для того, чтобы было возможно переформулировать тексты, размеченные разными языками, существует метаязык Standard Generalized Markup Language (SGML) - стандартный обобщенный язык разметки. В середине 1980-ых SGML как инструмент текстологии получил официальное признание Международной Организацией Стандартов. В 1987 для простоты использования электронных текстов в исследованиях возник международный научный проект Text Encoding Initiative (TEI). Для стандартизация обработки электронных источников TEI использует SGML.

Среди разработчиков большинства программ обработки текстов преобладали математики и лингвисты, из-за которых программное обеспечение стало отвечать прежде всего задачам лингвистического и литературного анализа. Проблема историчности текстов разработчиками не ставилась и не решалась. Поэтому конкретно историческое изучение текстовых источников с помощью компьютерного контент- анализа обычно сопровождается классической научной критикой: определением временных и пространственных факторов, прямо и косвенно присутствующих в документах, их социальной направленности, общественного контекста возникновения источника, изменением смыслового содержания понятия во времени, "эзопова языка", - то есть учетом совокупности факторов, лежащих за пределами вычислительной лингвистики. В этом случае большую роль начинают играть исследования по теории и практике аргументации, риторике, социальной семиотике, психолингвистике, лингвистической семантике, прагмалингвистики и теории массовой коммуникации. Разметка текста языками семантических маркеров не может полностью решить задачи анализа социальной информации. Понятие "анализ текста" в большинстве случаев использовалось исследователями для обозначения всего, что не является просто поиском в документе и проверкой правописания. Среди формальных методов обработки социальных текстов на первом месте обычно упоминается контент-анализ.

Обычно термин "контент-анализ" используется для обозначения двух разных вещей: метода для автоматической классификации документов по содержанию и метода для раскрытия значения слов и идей. Автоматическая классификация документов в течение ряда лет используется в историко-социальных науках и библиографических системах поиска. Текст, его резюме или заголовок служат основными основами классификации. Напротив, семантический контент- анализ нацелен на определение организации слов вокруг идей или понятий в большей степени, чем на организации текста. Суть подхода заключается в сведении изучаемого текста к ограниченному набору определенных элементов, которые затем подвергаются счету и анализу на базе фиксации частоты повторяемости символов и их корреляции друг с другом.

Слова в тексте при этом классифицируются в соответствии с их дистанционными связями между собой. Для этого используется лингвистическая и статистическая техника, например кластерный анализ или анализ связей. В распоряжении текстологов находится ряд программ автоматизированного анализа для компьютеров IBM

Контент-анализ в литературных и лингвистических расчетах начал интенсивно развиваться в 1950-х годах. Он оказался приемлемым для изучения широкого круга проблем гуманитарного знания и социальных наук. Контент-анализ нашел эффективное применение в исследованиях этно- культурных, политических явлений, истории мысли. Социологи, специализировавшиеся на исследованиях массовой коммуникации, приступили к разработке контент- анализа в основном в США. В дальнейшем при участии математиков его применили в политологии, философии, лингвистике. Применение контент-анализа в истории оказалось ограничено потребностью в сильной классической традиции в значительно большей степени, чем в эмпирической социологии или психологии, построенных на методическом фундаменте непосредственных наблюдений и экспериментов. Кроме того, контент-анализ, несмотря на видимую интердисциплинарность, был разработан прежде всего в связи с потребностями социологических исследований содержания массовой коммуникации. Социологи сформулировали общие теоретические принципы формализации эмпирических данных, приемов анализа текстов, которые с тех пор стали совокупно называться контент-анализом. Некоторые проблемы применения данного типа анализа в истории оказались внешними проявлениями ряда теоретико-методологических расхождений между исторической наукой и социологией, как близких, но самостоятельных социальных наук. Социологизированность контент-анализа - специфическая черта - осложнилась прямой зависимостью результатов исследования от того, что именно в тексте исследователь считает возможным подвергнуть формализации, подсчету, а также какими теоретико- методологическим принципами при этом он намерен воспользовался. В классической статистике данная проблема решается на первом этапе составления формуляра для сбора эмпирических данных. В текстологии ее решают в ходе анализа эмпирического материала. Проблема формализации в текстологии более сложна. Вопрос о корректности изучения формализованных текстов в значительно большей степени открыт для критики по сравнению с методикой в изучении хорошо структурированных источников типа переписей или фабрично-заводской статистики. Однако проблема теоретического анализа, проведенного до и после вычислений, остается общей.

Перейти на страницу номер:
 1  2  3  4  5  6  7  8 

© 2010-2024 рефераты по менеджменту