kopilkaurokov.ru - сайт для учителей

Создайте Ваш сайт учителя Курсы ПК и ППК Видеоуроки Олимпиады Вебинары для учителей

Исследовательская работа по теме:"Применение частотных таблиц для определения авторства школьных сочинений"

Нажмите, чтобы узнать подробности

             Поводом к изучению данной темы послужил факт установления авторства романа «Тихий Дон».  В момент присуждения Михаилу Шолохову Нобелевской премии в научных кругах были мнения, что в двадцать три года он не мог написать такую великую книгу. Однако, статистический анализ текста и сличение с текстами, где авторство Шолохова не вызывало сомнений, подтвердили гипотезу о нем как об истинном авторе «Тихого Дона».

     Статистические исследования большого количества литературных текстов показали, что частоты появления той или иной буквы стремятся при увеличении объема текста к некоторым определенным константам (постоянным числам). У каждого автора есть своя частотная таблица использования букв, слов, специфических литературных оборотов. Стиль, почерк писателя и проявляется в отклонениях от среднестатистического употребления.

Вы уже знаете о суперспособностях современного учителя?
Тратить минимум сил на подготовку и проведение уроков.
Быстро и объективно проверять знания учащихся.
Сделать изучение нового материала максимально понятным.
Избавить себя от подбора заданий и их проверки после уроков.
Наладить дисциплину на своих уроках.
Получить возможность работать творчески.

Просмотр содержимого документа
«Исследовательская работа по теме:"Применение частотных таблиц для определения авторства школьных сочинений"»

Тема работы

Применение частотных таблиц для определения авторства школьных сочинений



СОДЕРЖАНИЕ



  1. Введение………………………………………………………………..2

2 Статистические методы обработки информации и их применение…4

    1. Элементы статистики в школе. Основные термины………………..4

    2. Упорядочение и группировка данных измерения по отдельным произведениям К.Паустовского и М.Пришвина…………………….6

    3. Составление таблиц распределения данных по отдельным произведениям Паустовского и Пришвина…………………………. 8

    4. . Графическое представление информации…………………………. 9

    5. Паспорт числовых характеристик полученной информации по отдельным произведениям Паустовского и Пришвина…………….10

    6. Применение частотных таблиц в школе…………………………….12

  1. Заключение…………………………………………………………….14

  2. Использованная литература………………………………………… 15











1 ВВЕДЕНИЕ

Поводом к изучению данной темы послужил факт установления авторства романа «Тихий Дон». В момент присуждения Михаилу Шолохову Нобелевской премии в научных кругах были мнения, что в двадцать три года он не мог написать такую великую книгу. Однако, статистический анализ текста и сличение с текстами, где авторство Шолохова не вызывало сомнений, подтвердили гипотезу о нем как об истинном авторе «Тихого Дона».

Статистические исследования большого количества литературных текстов показали, что частоты появления той или иной буквы стремятся при увеличении объема текста к некоторым определенным константам (постоянным числам). У каждого автора есть своя частотная таблица использования букв, слов, специфических литературных оборотов. Стиль, почерк писателя и проявляется в отклонениях от среднестатистического употребления.

НОВИЗНА: применение метода частотных таблиц русского языка в школьной практике.

АКТУАЛЬНОСТЬ: проблема доказательства самостоятельности написания творческих ученических работ в школе.

ЦЕЛЬ:

Разработка метода для определения авторства текстов.

ГИПОТЕЗА ИССЛЕДОВАНИЯ: при помощи статистического исследования можно установить авторство любого текста.







ЗАДАЧИ:

  1. Изучение теоретической базы по вопросу.

  2. Анализ литературных текстов с точки зрения частотности русского языка.

  3. Составление собственных частотных таблиц и их применение.

  4. Применение данного метода при анализе ученических сочинений.





























2 СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ИНФОРМАЦИИ И ИХ ПРИМЕНЕНИЕ

2.1 Элементы статистики в школе. Основные термины.

Большой энциклопедический словарь определяет статистику как отрасль знаний, в которой излагаются общие вопросы сбора измерений и анализа массовых количественных данных. Ее подразделами являются:

- математическая статистика – наука о математических методах систематизации и использования статистических данных для научных и практических выводов;

- лингвостатистика – изучение количественных закономерностей естественного языка, проявляющихся в текстах. Например, существуют частотные таблицы языка, в которых собраны буквы того или иного алфавита и соответствующие константы. Большая частота у гласных А, О, Е, И, - они активно участвуют в словообразовании русского языка. У гласных У, Э, Ю, Я частота небольшая, они чаще встречаются в заимствованных словах. Из согласных самые употребительные Н, Т, Р, С в русском языке (Приложение 1).

Наше исследование проводилось на стыке этих дисциплин.

Одна из основных задач статистики состоит в преобразовании первоначальных данных измерения и обработки информации.

Статистические методы обработки информации изучаются в учебнике А.Г.Мордковича и П.В.Семенова «Алгебра. 9 класс» в главе «Элементы комбинаторики, статистики и теории вероятности» в параграфе «Статистика – дизайн информации».

При проведении конкретного измерения выделяют варианту измерения – один из результатов измерения, отличающийся от общего ряда данных.

Если среди всех данных конкретного измерения одна из вариант встретилась ровно k раз, то число k называют кратностью этой варианты измерения.

При суммировании всех кратностей получается количество всех данных измерения – объем измерения.

Частота варианты получается путем деления кратности варианты на объем измерения.

Ряд данных измерения и кратности соответствующих вариант заносятся в таблицу. Это таблица распределения данных.

Порядок переработки первоначальной информации таков:

  1. Упорядочение и группировка данных измерения.

  2. Составление таблиц распределения данных.

  3. Таблицы переводятся в графики распределения (диаграммы).

  4. Получение паспорта данных, в котором собрано небольшое количество основных числовых характеристик полученной информации.

В своей работе мы следовали этому порядку.

















2.2. Упорядочение и группировка данных измерения по отдельным произведениям К.Паустовского и М.Пришвина

Для доказательства нашей гипотезы определения авторства текста с помощью частотных таблиц нужно было взять тексты двух разных авторов, составить для них частотные таблицы и выявить разницу. Мы взяли для анализа тексты Константина Паустовского «Суховей» из очерка «Письма с пути» и «Порт в траве» из очерка «Приазовье» и Михаила Пришвина «Ботик» из цикла рассказов «Соловей» и «Лисичкин хлеб». (Тексты небольшие, равные по объему школьному сочинению и представляющие завершенное литературное произведение).

Для начала нужно было пересчитать все буквы. Узнать, сколько каждой буквы в данном тексте. Это оказалось затруднительно (легко ошибиться) и трудоемко. Чтобы не перечитывать текст 32 раза, выбирая каждую букву алфавита (е = ё), мы разработали свою методику подсчета букв.

На большом листе формата А3 мы расписали все буквы, оставив между ними пространство:

А Б В Г и т.д.

Диктуя себе слова и предложения, мы отмечали встречающиеся буквы штрихом (палочкой):

А /// Б ///// В // и т.д.

Словосочетание «ЛИСИЧКИН ХЛЕБ» будет выглядеть так:

А Б / В Г Д Е / Ж З И /// Й К / Л // М Н / О П Р С / Т У Ф Х / Ц Ч / Ш Щ Ъ Ы Ь Э Ю Я

Мы не знали, сколько потребуется места на каждую букву, поэтому место приходилось искать, и из палочек составились изогнутые линии, напоминающие северное сияние. Сходство усилится, если раскрасить после полного распределения разными цветами линии, четче отделив одни буквы от других (см. Приложение 2).

Получается довольно быстро, ошибки исключены. Остается только внимательно пересчитать палочки.



































2.3 Составление таблиц распределения данных по отдельным произведениям Паустовского и Пришвина.

После группировки данных мы переходим к табличному представлению информации. Составляем таблицу распределения данных, в первой строке которой перечислены 32 буквы в алфавитном порядке (Е = Ё). Вторая строка – количество употреблений каждой буквы в данном тексте. Общее количество букв в тексте (количество всех данных измерения) – объем измерения. Строка «Частота» высчитывается: частота равна кратность варианты деленная на объем измерения – сколько раз встретилась буква делим на общее количество букв.

Округляем до тысячных.

Сумма всех частот всегда равна 1 – ведь это сумма дробей с одинаковыми знаменателями, у которых сумма числителей как раз и равна этому знаменателю.

113 23 61 1518

1518 1518 1518 1518


(Пример из таблицы «Паустовский «Суховей»» (Приложение 3)).



Строка частота в процентах получается из предыдущей строки умножением на 100%. Сумма всех частот в процентах равна 100% (это наш контроль), но поскольку мы округляли, число получилось не 100, а 99,7.

(Пример из таблицы «Паустовский «Суховей»» (Приложение 3)).

В ту же таблицу заносим данные другого произведения Паустовского «Порт в траве»: количество букв, объем измерения. Вычисляем частоту употребления буквы и частоту в процентах.

Аналогичным образом составляем таблицу распределения данных по произведениям Пришвина «Лисичкин хлеб» и «Ботик» (Приложение 4).



2.4 Графическое представление информации.

Таблицы образуют «мостик», по которому от распределения данных можно перейти к столбчатым диаграммам. Мы строили диаграммы в текстовом редакторе Microsoft Word.

По оси абсцисс (х) мы расположили буквы, по оси ординат (у) – частоту в процентах.

Диаграмму одного произведения совмещаем с диаграммой другого произведения того же автора, чтобы выявить совпадение (или несовпадение) букв. И его авторский почерк (см. Приложения 5,6).



























2.5 Паспорт числовых характеристик полученной информации по отдельным произведениям Паустовского и Пришвина.

На основании данных таблиц и анализа диаграмм мы получили следующие паспортные данные:

- самыми частотными в употреблении буквами у К.Паустовского в произведениях «Суховей» и «Порт в траве» являются: О, Е, А, И, Н, С,Т;

- наименее употребляемые или полностью отсутствующие : Ф, Ъ, Э, что соответствует частотному употреблению этих букв в русском языке.

Нами установлено, что некоторые буквы Паустовский использует с постоянной частотой. Это буквы К, Щ, Ь, либо с небольшой погрешностью в частоте (которая высчитывается вычитанием из большего числа, обозначающего процент, меньшего), это буквы Й, Л, М, Ц, Ш, Ю, Б, Д, Ж, П, Ч.

Константин Паустовский

Полностью совпадают: К Щ Ь

Разница в совпадении:

0,1% Й Л М Ц Ш Ю

0,2% Б Д Ж П Ч

Совпало 14 букв – почти половина алфавита (см. Приложение 5).

К.Паустовского мы можем назвать гармоничным писателем, постоянно использующим очень разнообразный буквенный инструментарий. Хочется отметить частоту и постоянство употребления букв, обозначающих сонорные звуки Л, М, Н. Например, нельзя не заметить в сравнительно небольшом тексте «Суховей» (из 1518 букв) около десятка слов с двойной НН: НАПРЯЖЕННО, ОПАЛЕННЫЕ, ОБЕСПЛОЖЕННАЯ, ДЕРЕВЯННЫХ, РАСКАЛЕННЫЕ, ОБРУБЛЕННЫЕ, БЕСПРЕМЕННО… В очерке «Порт в траве» та же картина: ЧУГУННЫЕ, ОСВЕЩЕННЫХ, ЕДИНСТВЕННЫЙ, ИНОСТРАННЫЕ, ОКОВАННЫЕ, ОЖИВЛЕННО, МЕДЛЕННО, ТОРЖЕСТВЕННО. Сонорные «поют» в текстах Паустовского.

Эти наблюдения и выводы приводят нас к пониманию авторского почерка писателя.

Глядя на таблицы и диаграммы по произведениям М.Пришвина «Лисичкин хлеб» и «Ботик», мы видим другую картину.

Самыми частотными в употреблении буквами являются О, Е, А, И, Т,С. Наименее употребляемыми или полностью отсутствующими – Ф, Ъ, что соответствует среднестатистическому употреблению этих букв в языке. Однако, с постоянной частотностью Пришвин использует в два раза меньше букв, чем Паустовский, и набор этих букв другой.

Михаил Пришвин

Полностью совпадают: Щ Ы Ю

Разница в совпадении:

0,1% Ь

0,2% Ж Ц Э

Совпало 7 букв – меньше, чем у Паустовского(см. Приложение 6).

Для сравнения мы намеренно взяли двух близких по времени и тематики писателей Пришвина и Паустовского и создали для каждого из них частотные таблицы, чтобы выявить разницу между ними. На основании паспорта данных можно сделать вывод о том, что у каждого автора есть своя индивидуальная частотная таблица использования букв.

Также можно провести лексический анализ текста (повторение слов, оборотов, форм слова, повторение фраз). Например, по сравнению с Паустовским, Пришвин использует более простые и короткие слова, часто употребляет личные местоимения Я, МЫ. Таким образом можно получить представление об авторском почерке писателя.

2.6 Применение частотных таблиц в школе.

Современные школьники пишут экзаменационные сочинения, эссе и другие творческие работы. В связи с этим остро стоит вопрос о самостоятельности написания и авторстве школьных работ. Метод составления частотных таблиц может помочь при решении этого вопроса.

По той же схеме, что и предыдущие тексты, нами были проанализированы два сочинения-эссе выпускника 2011-2012 учебного года Шитова Романа «Какие душевные качества должен сохранить человек…» (Сочинение 1) и «Совесть… Что она значит для человека…» (Сочинение 2).

Для них была также составлена таблица распределения данных, в которой совмещены Сочинение 1 и Сочинение 2 (Приложение 7). По данным таблицы были составлены столбчатые диаграммы для Сочинения 1 и Сочинения 2 (Приложение 8). На основании анализа диаграмм и таблиц был получен паспорт числовых характеристик.

Полученные данные:

- наиболее употребляемые буквы О, Е, Т, Н, А, И ( О – самая употребляемая, ее частота – 11% в обоих текстах);

- наименее употребляемые или отсутствуют буквы Ф, Ъ.

Сочинения

Полностью совпадают: О

Разница в совпадении букв:

0,1% Г Й Ч Ш Э

0,2% У Х Ц

Вывод: Совпало 9 букв (см. Приложение 8); совпали буквы не самые частотные в русском языке (кроме «О»); ученик активно пользуется (и злоупотребляет) союзами ЧТО, ЧТОБЫ, КОТОРЫЕ, местоимениями ЭТО, ЭТОТ, устойчивыми конструкциями ПО БОЛЬШОМУ СЧЕТУ, НЕСМОТРЯ НИ НА ЧТО, ПРЕЖДЕ ВСЕГО, КАЗАЛОСЬ БЫ, причастиями ОТРАЖАЮЩИХ, ИСПЫТЫВАЮЩЕМ, деепричастием ПОКАЗЫВАЯ. Причастия и деепричастия являются самыми неблагозвучными частями речи русского языка, которые писатели стараются избегать в своих текстах. В сочинениях часто повторяются слова и речевые обороты, формы слов, способы построения фраз. Это позволяет сделать вывод об одном авторе двух сочинений.































3. ЗАКЛЮЧЕНИЕ

В начале своей работы мы выдвигали гипотезу о том, что при помощи статистического исследования можно установить авторство текста. Для подтверждения этой гипотезы была изучена теоретическая база по составлению частотных таблиц, были проанализированы тексты К.Паустовского «Суховей» и «Порт в траве» и М.Пришвина «Лисичкин хлеб» и «Ботик», а также два сочинения выпускника 2012 года Шитова Романа. В этих текстах было подсчитано количество всех букв, после чего были составлены таблицы распределения данных, высчитана процентная частота употребления каждой буквы.

На основании данных таблиц были построены столбчатые диаграммы и был составлен паспорт числовых характеристик для каждого автора.

Мы установили, что «паспортные данные» у каждого автора свои, отличные от другого. На этом основании мы делаем выводы:

  1. У каждого автора имеется своя частотная таблица.

  2. По этой таблице можно определить принадлежность конкретного текста данному автору.

  3. Данный метод вместе с лингвистическим анализом может служить для определения и доказательства авторства любого текста, например ученического сочинения, и поэтому может быть использован в школьной практике.

Перспективу мы видим в усовершенствовании и уточнении данного метода (путем подсчета пробелов, пунктуационных знаков).









4.ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА

  1. Большой энциклопедический словарь. – М.: Большая Российская энциклопедия; СПб.: Норинт, 2000;

  2. Мордкович А.Г., Семенов П.В. Алгебра, 9 класс. В 2 ч. Ч.1. Учебник. – М.: Мнемозина, 2010;

  3. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова. // Вестник МГУ, сер.9: Филология, №02, 2000, с.115-126.

  4. Частотный словарь русского языка. Под. ред. Л.Н. Засориной, - М.: Русский язык, 1977;














15



Получите в подарок сайт учителя

Предмет: Математика

Категория: Прочее

Целевая аудитория: 10 класс.
Урок соответствует ФГОС

Автор: Светлорусова Ирина Геннадьевна

Дата: 08.07.2020

Номер свидетельства: 554585


Получите в подарок сайт учителя

Видеоуроки для учителей

Курсы для учителей

ПОЛУЧИТЕ СВИДЕТЕЛЬСТВО МГНОВЕННО

Добавить свою работу

* Свидетельство о публикации выдается БЕСПЛАТНО, СРАЗУ же после добавления Вами Вашей работы на сайт

Удобный поиск материалов для учителей

Ваш личный кабинет
Проверка свидетельства