Анализ статей студентов по выбору русского языка

Материал из wiki
Перейти к: навигация, поиск

Авторы: Алина Аверьянова и Дарья Вахмистрова


TZ1OfIHWfnA.jpg
Сравнение.png

Мы провели анализ работ студентов филологического направления, группы ПФ-19.

Объектом нашего исследования были 24 статьи на тему «Почему я выбрал(а) русский язык?». 
Целью нашей работы было выявление релевантности использование ключевых слов, сопоставление слов, которые выбрали ребята самостоятельно со словами, которые были выделены автоматически таким инструментом, как облако слов. 

Наше исследование включало в себя несколько этапов.

Во-первых, это первичный анализ каждой статьи - проверка на соответствие выделенных ключевых слов автором с совпадением реальной картины, то же и с облаком слов. Хочется отметить, что нами была произведена "чистка", при которой мы убрали союзы, местоимения, предлоги и другие слова, которые не несли в себе логически обоснованного использования.

Во-вторых, при помощи инструмента Excel, создали таблицы, в которых прописали каждого студента и слова, которые он использовал. Далее мы начали производить подсчеты - частоту употребления слов.

В-третьих, создание сводной таблицы, в которой уже рассчитывали вероятность употребления каждого слова из так называемых разделов: облака слов и ключевые слова.

В-четверых, это завершающий этап, который заключается в визуализации полученных данных - создании диаграмм.


Как говорилось выше, в самом начале работы мы выписали все слова, которые студенты самостоятельно выявили в своих работах, их число составило 46, а затем выписали слова из облака слов - 20. Можно заметить большой разрыв количества слов в два раза, который отклоняется от нормы.

При обработке данных, мы заметили, что только 15 слов - это около 31% в столбце ключевых слов - совпадают как в облаке, так и в статьях, их мы отметили попарно одинаковыми цветами. Ключевые слова мы сравнивали по принципу: русский язык – язык; филология – филолог и т. д.

Наиболее распространенным во всех работах являлось слово «русский язык», оно выделяется в облаках у 18 человек из 20 (90%), а в статьях у 22 из 46 (48%). Также хочется отметить количество слов в единичном экземпляре, в статьях 25 из 46, а в облаке- 8 из 20.

Следует сфокусировать свое внимание не только на словах и словосочетаниях, которые употреблялись и там, и там, например,«профессия», «писать», «изучение», но и на число единичных экземпляров, которое достаточно большое количество.

В таблице со словами из облака, даже не учитывая разрыв, так как убирали мы лишь те слова, которые не соответствовали требованиям задания, и в таблице с ключевыми словами, которые в большинстве своем сохранили первоначальный вид, так как не были отредактированы при первичном анализе текста, сам факт разрыва демонстрирует отличие и суть нашего исследования.


Dl WQxmLQS0.jpg
Подводя итог, мы можем сделать вывод о том, что студенты группы ПФ-19 не обладают высокими навыками выделения ключевых слов, так как выписывались слова, которые не являются преобладающими по количеству, их употребление мало. В облаке слов наоборот были включены наиболее часто повторяющиеся.

И при сравнении, которое представлено на графике, можно увидеть, что совпадений крайне мало, что еще раз подтверждает то, что студенты не верно производили выбор и подсчет слов. Но при этом, изучая их статьи, создается впечатление, что они просто поняли задание по-другому. То, что сделали студенты, мы считаем тоже верным. 

Несмотря на точность такого инструмента как облако слов, оно не включает в себя психологическую составляющую. Так как ключевые слова - это не всегда о количественном преимуществе, а иногда и о принципиальной авторской позиции, о том что необходимо выделить из массы букв и знаков препинаний. Поэтому, по нашему мнению, облако слов, несомненно является отличным инструментом для автоматического выделения главных слов, сохраняющим время, но который при этом не учитывает содержательную часть. 

Инфографика и Презентация