Как сделать частотный словарь в excel

Как сделать частотный словарь в excel?

Алгоритм работы

  • Подготовить исходный текст так, чтобы в результате получить список слов, каждое из которых в новой строке (в Word)
  • Перенести слова из Word в таблицу Excel
  • Упорядочить столбец по алфавиту
  • При необходимости удалить лишние строки
  • Добавить ячейку в первой строке с текстом-названием, например, «Словарь»
  • Выделить столбец и на его основе создать сводную таблицу на новом листе
  • В полученной сводной таблице отобразить столбец с частотой слов

Get the Flash Player to see this player.

Текстовые формулы и способы их использования для обработки текстов с помощью таблиц Excel Создание простых тестов с помощью Excel

Описание первой версии

GIF

Инструмент Словарь строит частотный словарь униграмм по леммам и отображает их в порядке убывания частотности. Это значит что словарь у нас состоит из единичных слов. И это значит что не важно в какой словоформе встречено слово «удочка». Если найдены слова «удочка», «удочку»,»удочки» то количество леммы «удочка» в словаре увеличивается на 3. Таким образом мы видим как часто встречается то или иное слово в семантике причем в любой словоформе. Это удобно и наглядно. Для того чтобы построить словарь достаточно выделить столбец с запросами и нажать кнопку Словарь на ленте. Предполагается что пустых строк в семантике у нас нет, иначе словарь не будет построен.

Зачем это нужно

Этот инструмент создан для работы в паре с инструментом Выжимка.
Даже если семантика нам совершенно незнакома, например «удилища», мы все равно можем выделить слова и предлоги которые мешают нам при сортировке. В этом конкретном примере это слова «купить»,»удочка»,»метр»,»в»,»для»,»москва»,»рыбалка»,»с»,»интернет», «магазин», «цена». Для того чтобы лучше понять назначение словаря предлагаю ознакомиться с инструментом Выжимка

Что нового?

GIF

Начиная с версии 1.1.5 появились две новые кнопки. Кнопка Экспорт позволяет выгрузить данные словаря на отдельный лист. Говорят, что это нужно людям занимающимся контекстом. Как это работает видно на картинке слева. Кроме этого, теперь можно выбрать галочкой любой термин (или несколько) в словаре и закрасить ячейку содержащую термин цветом. После этого закрашенные ячейки можно, например, выбрать через стандартный фильтр по цвету и удалить. Кроме этого исправлена утечка памяти и словарь теперь не боится большого количества строк. Если в файле 100 000 строк словарь строится довольно быстро.

Источник:
http://word-office.ru/kak-sdelat-chastotnyy-slovar-v-excel.html

Пошаговое руководство создания частотного словаря с помощью MS Word и MS Excel:

1 Пошаговое руководство создания частотного словаря с помощью MS Word и MS Excel: 1. ПОДГОТОВКА ТЕКСТА В MS WORD: Шаг 1. Копируем текст в MSWord, избавляемся от всех знаков пунктуации (в том числе от пробелов) и разносим каждое слово на отдельную строку с помощью инструмента Заменить (команда Ctrl+H): Для поиска/замены знаков препинания необходимо включить опцию «Подстановочные знаки» (включается по кнопке «Больше >>»). Не все знаки пунктуации можно перечислять «как есть», некоторые из них сами являются командой для функции подстановочных знаков, поэтому их нужно перечислять через обратный слеш ! или?. Лучше поставить перед каждым знаком. Если нужно, скопируйте:[.,:;»()!? -] Обратите внимание, что если оставить знак дефиса в этом перечне, то такие слова, как «когда-нибудь» будут разделены на два отдельных слова (как и предлагает Л.Н. Засорина в своем частотном словаре). Замена производится на Знак Абзаца (кнопка «Специальный» или команда ^p). Шаг 2. После того, как знаки убраны, а каждое слово на отдельной строке, выделяем весь текст (команда Ctrl+A) и командой Shift+F3 приведем все слова к единому регистру (текст получится более стройным, если все слова будут с маленькой буквы).

2 2. ОБРАБОТКА В MS EXCEL: Затем следует избавиться от пустых строк с помощью того же инструмента замены (Ctrl+H), только теперь Подстановочные знаки должны быть отключены. Чтобы убрать пустые строки нужно Найти каждые два Знака абзаца (^p^p) и Заменить на один такой Знак абзаца (^p). За один проход по кнопке Заменить всё количество пустых строк сократится только вдвое. Замену следует производить до тех пор, пока пустых строк совсем не останется. Текст готов к дальнейшей обработке в MS Excel. Выделить весь текст Ctrl+A, вырезать Ctrl+X. Шаг 3. Полученный список следует вставить в MS Excel в ячейки A2 и С2. Первый столбец для словоупотреблений, второй для их грамматических категорий, а третий слова, приведенные к их исходной форме (леммы). Назовите их соответственно:

3 Шаг 4. Лемматизация для столбца С и определение для каждого словоупотребления его грамматической категории в столбце B производится самостоятельно (при этом MS Excel помогает с автозаполнением слов, упомянутых в списке выше). Шаг 5. Для создания частотного словаря, выделим столбцы с грамматическими категориями и леммами, проведя мышью по их буквам: B и C. На вкладке Вставка слева выбираем Сводная таблица. Рекомендуется не менять предложенные параметры, сводная таблица будет создана на новом листе: Для заполнения таблицы 1 из пояснения к Лабораторной работе 3 включите поле Грамматических категорий и перетащите его в область Σ Значения. Затем в столбце C рассчитайте относительную частоту грамматических категорий.

4 Шаг 6. Для наглядности простройте диаграмму из данных A и C (несмежные диапазоны выделяются с прижатой клавишей Ctrl). Диаграмму можно будет вставить в лабораторную работу для каждого из отрывков (см. рис. ниже). Шаг 7. Для заполнения таблицы 2 из пояснения к Лабораторной работе 3 включите опцию Леммы чтобы получить следующую картину (Названия строк должны стоять именно в таком порядке Грам. кат. выше, чем Лемма): Чтобы отсортировать глаголы и другие части речи не по алфавиту, а по частоте использования, станьте на ячейку с первым значением (на рис. это ячейка B5) и нажмите сортировку (от Я до А). Кнопка сортировки находится на Главной вкладке справа (рядом с опцией Найти и выделить).

5 Шаг 8. Создайте таблицу 2 и заполните ее по следующему принципу: в колонку Частота:>=2 следует копировать только те строки, в которых перечислены слова, упомянутые более 1 раза в произведении. В колонку Частота 1 остальные, уникальные леммы. Существительные Частота: >=2 Частота: 1 клён 3 береза, верба, деревня, дом, дорога, доска, жена, лето, нога, метель 2 песня, попойка, скромность, сосна, сторож, сугроб Глаголы Частота: >=2 Частота: 1 выйти 2 опасть 2 встретить, дойти, казаться, нагнуться, обнимать, погулять, приметить, приморозить, распевать, стать, стоять, увидеть, услышать, утонуть, утратить и т.д. Частота: >=2 Частота: 1 Если со вставкой в колонку Частота:>=2 вопросов обычно не возникает, то при вставке уникальных лемм следует учитывать, что при копировании из MS Excel в ячейку таблицы MS Word вставляется вложенная таблица. Ее следует преобразовать в текст на вкладке Макет, либо изначально вставлять скопированный текст через Специальную вставку. или или Отсортируйте строки уникальных лемм по алфавиту (от А до Я). Затем произведите замену Знаков Абзаца ^p на запятую с пробелом:

Источник:
http://docplayer.ru/36326443-Poshagovoe-rukovodstvo-sozdaniya-chastotnogo-slovarya-s-pomoshchyu-ms-word-i-ms-excel.html

Как сделать частотный словарь в excel?

Андрей
Викторович ЛЫЗЛОВ

Ольга
Николаевна
НАЙДЕНОВА

учитель информатики школы №37 г.Рязани

учитель математики и информатики школы №37 г.Рязани

© Copyright 2001-2005. Федерация Интернет Образования.

Зарегистрировано в Министерстве РФ по делам печати, телерадиовещания и средств массовой информации. Свидетельство Эл 77-4640 от 28.06.2001 г

Написать эту статью побудили три материала, опубликованные в журнале.

  1. Замечательная статья Ирины Алексеевны Морозовой «Коллективное лингвистическое исследование» о составлении частотного словаря букв русского алфавита [1]. На основе этой статьи можно организовать увлекательный урок, внеклассное мероприятие, она может стать основой исследовательской работы. Так что, если у статьи могут быть фанаты, то мы относимся к их числу.
  2. Константин Алексеевич Попов «Использование частотных словарей при изучении иностранных языков» [2]. В этой статье рассматривается использование генераторов частотных словарей в учебном процессе.
  3. «Все на борьбу с рутиной!» Павла Юрьевича Белкина и дальнейшее обсуждение этой статьи, в которой рассматривается проблема поиска и замены символов в MS Word [3]-[5].

Как у нас, так и у учеников, возник вопрос: «А можно ли средствами стандартных программ, без обращений к специальным, составить частотный словарь слов одного или нескольких произведений?»

В результате совместных изысканий появился способ, прямо скажем, не лишенный недостатков, который, однако, работает. Он может служить хорошей иллюстрацией глубокой интеграции офисных программ пакета Microsoft Office и хорошим практикумом для уроков компьютерных технологий.

Как можно использовать частотный словарь? Увлекательный рассказ о статистическом лексическом анализе можно найти по адресу http://euro.svoboda.org/programs/sc/2001/sc.062601.asp. Там же есть и предостережение от излишнего увлечения такими методами.

Читайте также  Организация учета заявок клиентов при помощи Excel и Интернет-технологий - Трюки и приемы в Microsoft Excel

Итак, наша идея состоит в следующем: удалить из текста все знаки кроме букв русского языка, получив, таким образом, список слов, а затем отсортировать его и, сгруппировав одинаковые слова, подсчитать количество слов в каждой группе.

Далее, собственно, сам способ:

Сначала откроем анализируемый текст в Microsoft Word.

Шаг 1. Уберем из текста точки, запятые, цифры, латинские буквы и… В принципе, избавимся от всего, кроме букв русского алфавита. Это можно сделать с помощью пункта меню ПравкаЗаменить. При поиске необходимо использовать отрицание [!] и подстановочные знаки [А-я]. Запрос на все символы, кроме букв русского алфавита, будет выглядеть так [!А-я].
Заменять будем на пробел, хотя это и необязательно. Можно использовать на любой другой символ, например, @ или специальный символ ^p («символ абзаца»). Нажимаем кнопку Заменить все.

Шаг 2. Убираем из текста лишние пробелы, заменяя двойные на одиночные до тех пор, пока двойные еще встречаются [5].

Шаг 3. Преобразуем весь текст к верхнему регистру ФорматРегистрВСЕ ПРОПИСНЫЕ, предварительно выделив весь текст ПравкаВыделить все.

Шаг 4. Преобразуем текст в таблицу ТаблицаПреобразоватьтекст в таблицу. В качестве разделителя используем пробел. Данная таблица характерна тем, что у нее один столбец и в каждой ячейке стоит отдельное слово.

Шаг 5. Выделяем полученную таблицу и копируем в буфер обмена.

Далее можно воспользоваться одной из двух других знаменитых офисных программ: Microsoft Excel или Microsoft Access.

Для Microsoft Excel:

Шаг 6. Создаем новую книгу Excel.

Шаг 7. В ячейке A1 пишем заголовок: «Частотный анализ слов в произведении А.С.Пушкина «Полтава».

Шаг 8. Вставляем таблицу из буфера обмена, начиная с ячейки A2.

Шаг 9. На отдельном листе создаем сводную таблицу ДанныеСводная таблица. Это ли не повод рассказать ученикам о сводной таблице!

Шаг 10. Нажмите клавишу Поместить в. Мы увидим отчет из слов встречающихся в произведении. Для того чтобы вывести количество вхождений данного слова в текст, достаточно перетащить элемент в сводную таблицу. По умолчанию будет как раз вычисляться количество повторений этого слова, что собственно нам и нужно. Таким образом, мы получили частотный словарь. Далее его можно изменять по своему усмотрению. Изменяя свойства поля можно отсортировать сводную таблицу по убыванию, подсчитать долю слов в произведении, добавить столбец с длиной слов и т.п.

Для Microsoft Access:

Шаг 6. Создаем новую базу данных. В режиме конструктора создаем таблицу «Слова» с полем [Слово].

Шаг 7. Переходим в режим таблицы и Вставляем таблицу из буфера обмена.

Шаг 8. Создаем запрос на выборку, используя групповые операции и функцию Count, подсчитывающую сумму по группе. При необходимости сортируем по нужному полю.

Замечание: можно решить эту задачу только с помощью Word и макросов на языке Visual Basic for Application (VBA), но это не совсем соответствует поставленной задаче. С другой стороны, при таком подходе можно автоматизировать описанные выше действия. Можно также попробовать составить частотный словарь с учетом словоформ, правда, только для английского языка.

Последовательность действий будет примерно такой:

Шаг 1. Удаляем из текста все знаки, кроме букв русского языка.

Шаг 2. Удаляем из текста лишние пробелы.

Шаг 3. Устанавливаем один шрифт для всего текста. Выделяем и переводим в верхний регистр.

Шаг 4. Заменяем пробелы на символ конца абзаца.

Шаг 5. Сортируем по возрастанию.

Шаг 6. Составляем частотный словарь и вычисляем длину слов.

Шаг 7. Преобразуем в таблицу с тремя столбцами.

Шаг 8. Выводим во второй столбец количество вхождений данного слова, а в третий — его длину.

Шаг 9. Добавляем заголовок.

Большинство описанных выше операций можно просто записать в макросы с помощью режима «Запись макроса» (СервисМакросНачать запись).

Сложности возникают в двух местах:

1. При удалении двойных пробелов. Действительно, количество повторений этой операции неизвестно, поэтому необходимо добавить в записанный макрос цикл с постусловием (Do-Loop). В приведенном ниже примере добавленные команды выделены красным цветом.

Sub Макрос2()
Do
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = » »
.Replacement.Text = » »
.Forward = True
.Wrap = wdFindContinue
.Format = False
.MatchCase = False
.MatchWholeWord = False
.MatchWildcards = False
.MatchSoundsLike = False
.MatchAllWordForms = False
End With
Loop While Selection.Find.Execute(Replace:=wdReplaceAll)
end Sub

2. Пожалуй, самое интересное. Для реализации шагов 6 и 8 добавим в код модуля NewMacros новые макросы, осуществляющие непосредственную обработку текста.

Dim n() As Integer ‘динамический массив количества вхождений слов
Dim l() As Integer ‘динамический массив длин слов

Sub Макрос6()
Dim x As Long ‘количество слов
Dim y As Long ‘количество обработанных слов
Dim i As Integer ‘счетчик цикла

Dim s_old As String ‘предыдущее слово
Dim s_next As String ‘новое слово

UserForm1.Label1.Caption = ActiveDocument.Range.Paragraphs.Count ‘определяем количество всех слов
Set myRange = ActiveDocument.Range.Paragraphs ‘ рассматриваем каждый абзац в отдельности
s_old = «» ‘начальные присваивания
x = 0
y = 0
ReDim n(x)
ReDim l(x)
n(x) = 1
For Each c In myRange ‘перебираем все абзацы по порядку
y = y + 1 ‘считано очередное слово
UserForm1.Label2.Caption = y ‘ выводим новую информацию на форму
s_next = c ‘новое слово равно текущему абзацу
If s_next <> s_old Then ‘если найдено новое слово, то
x = x + 1 ‘количество слов будет на 1 больше
ReDim Preserve n(x) ‘расширяем динамические массивы
ReDim Preserve l(x)
l(x) = Len(s_next) — 1 ‘ определяем длину этого слова, без символа конца абзаца
n(x) = 1 ‘пока оно встретилось только один раз
s_old = s_next ‘ но уже не новое 🙁

UserForm1.Label3.Caption = x ‘ выводим новую информацию на форму
Else ‘ если такое слово уже встретилось, то
n(x) = n(x) + 1 ‘отмечаем это, увеличивая переменную на 1
c.Range.Delete ‘и удаляем это слово
End If
DoEvents ‘ Ждем окончания предыдущего процесса
Next c
End Sub

Sub Макрос8()
Set myTable = ActiveDocument.Tables(1)
i = 1
For Each aCell In myTable.Columns(2).Cells ‘повторяем с первого слова до последнего
UserForm1.Label2.Caption = i ‘ выводим новую информацию на форму
aCell.Range.Text = n(i) ‘вводим во второй столбец количество слов
i = i + 1
DoEvents ‘ Ждем окончания предыдущего процесса
Next aCell
i = 1
For Each aCell In myTable.Columns(3).Cells ‘повторяем с первого слова до последнего
UserForm1.Label2.Caption = i ‘ выводим новую информацию на форму
aCell.Range.Text = l(i) ‘вводим в третий столбец длину слов
i = i + 1
DoEvents ‘ Ждем окончания предыдущего процесса
Next aCell
End Sub

Пример этих макросов находится в документе Частотный анализ слов_А_С_ Пушкин_ ПОЛТАВА.doc. Для выполнения макросов необходимо установить в пункте меню СервисМакросБезопасность уровень безопасности: «Низкий» или «Средний».

После изменения уровня безопасности — перезапустите MS Word.

Запустите форму my_form, нажав кнопку Составление словаря на панели Частотный анализ.

Источник:
http://vio.uchim.info/Vio_28/cd_site/articles/art_2_3.htm

Программа построения


частотного словаря в операционных системах Microsoft


I. Назначение программы

Программа «Частотный словарь» («freqdic.exe») предназначена для анализа частоты и порядка встречаемости слов, написанного кириллицей и латиницей, в проверяемом тексте (в формате text/plain и других текстовых форматах) в каждой из словоформ.

  1. Находить «редкие» ошибки, не выявляемые штатной программой проверки орфографии. Например, штатная программа проверки орфографии не проверяет следующее слово: «дезоксирибонуклеиновая». Однако сделать ошибку в этом слове легко (из-за своей длины и сложности произношения). Поэтому, если слово появляется несколько раз в списке слов, полученном после обработке текста программой «частотный словарь», это должно Вас насторожить – где-то возможна ошибка!
  2. Рассчитывать «семантическую близость» слов в документе (сравнивается частота употребления ключевых слов и расстояние между ними в документе);
  3. Корректировать стиль изложения текста автором (путем исключения слов паразитов и увеличения словарного запаса). Например, Вы пишете бумагу, выдержанную в определенном стиле. Этот стиль предполагает частое использование в тексте одних слов и запрет на использование других слов. Проверить это ограничение на слова и выявить его нарушение программой «частотный словарь».
  4. Определять авторство работы. Стиль каждого автора уникален в смысле частого употребления одних слов и исключения из своего лексикона других слов. Частотный словарь поможет Вам создать «частотную базу слов» текста. С помощью других алгоритмов (прежде всего – визуализации этой базы) можно будет с очень высокой вероятностью определять авторство текстов – исходные данные уже собраны программой «частотный словарь».
  5. Первичная индексация текста. Часто для облегчения полнотекстового поиска ключевых слов используются первичные индексы. Эти индексы позволяют:
    • быстро находить присутствие и отсутствие слов в документе при первичном и повторном поиске;
    • сортировать документы по частоте встречаемости в них ключевых слов.
    • использовать их как вспомогательный модуль в информационно-поисковых системах полнотекстового поиска и систем «индексации документов».
    • рассчитывать «расстояние», на котором отстоят друг от друга ключевые слова. (После обработки текста программой «частотный словарь» эта задача решается сама собой).
  6. Эта программа может помочь при автоматическом реферировании текста, поскольку вместе с частотой встречаемости слов в тексте программа запоминает «первую позицию» встречи слова в тексте.
  7. Программа может использоваться для пополнения словарной базы данных для автоматического перевода теста разными программами.
  8. Программа поможет в поиске неологизмов, устаревших и специальных слов.
  9. Также эта программа может стать основой более сложных алгоритмов анализа данных.

Все указанное выше предполагает рекомендовать эту программу для иллюстрации процесса создания программного продукта для целей датамайнинга.

Программа работает в командном интерфейсе с технологией командной строки. Это значит, что при ее применении пользователь должен открыть окно терминала и набрать имя программы и параметры в командной строке.

II. Преимущества и новизна данной программы

Данная реализация программы основана на идее алгоритма, приведенной в работе «128 советов начинающему программисту» (авторы: Очков В.Ф., Пухначев Ю.В.), которая переработана авторам, и адаптирована для языка Си.

Хотя на рынке находится много программ – частотных словарей, эта программа имеет следующие преимущества:

  1. Она распространяется по лицензии GNU GPL. Это значит, что любой пользователь может не только пользоваться этой программой на условиях Copyleft (т.е. распространение продукта на условиях его приобретения), но и на тех же условиях модифицировать код и создавать новые продукты.
  2. Эта программа изначально лишена эвристических алгоритмов и алгоритмов анализа словоформ. Это значит, что слово «моя» запишется в словарь именно как слово «моя», а не «мыть», «мой» или даже «мы» (как это делают более «продвинутые» частотные словари). Эти слова могут анализироваться впоследствии более точными методами. Кроме того, используя разные словоформы можно более точно определять «расстояния между словами» в исходном тексте.
  3. Выходной файл имеет простую структуру, что позволяет его легко использовать для последующей обработки в других программах (в частности, средствами электронных таблиц OpenOffice Calc и Microsoft Excel).

III. Краткие сведения о формате файлов программы «Частотный словарь»

Программа работает с текстами, представленными в кодировке text/plain. Поддержка формата text/html не корректна. Другие форматы текстовых процессоров (Word, Writer, AbiWord и т.п.) не поддерживаются.

Программа «частотный словарь» анализирует текст в кодировке ASCII и в любой 8-ми битной кодировке, включая кодировки MS-DOS OEM 866, Windows ANSI cp 1251, UNIX KOI8-R. Кодировки Unicode и UTF-8 пока не поддерживаются, что делает программу («теоретически», на практике не применял) не переносимой на Linux.

Программа может анализировать тексты: text/plain, text/html, исходные файлы программ на языке Assembler и на языках высокого уровня, скриптов и макросов на любых языках, файлы с разметкой на основе xml и SGML.

Эта программа на выходе выводит на экран дисплея таблицу, содержащие следующие элементы:

  • номер слова по-порядку его появления в тексте;
  • слово в его уникальной словоформе;
  • количество слов, встретившихся в тексте в указанной словоформе;
  • (резервный столбец) приблизительно часть речи у указанного слова. В настоящее время выводит значения 512 для однобуквенных слов и 0 для всех остальных слов.

IV. Стандартные расширения файлов

Программа на входе распознает любые кодировки файлов. Только необходимо, чтобы они были текстовыми файлами.

На выходе также можно задавать также любые файлы. Однако для работы программы «в связке» с Excel расширение файлов должно быть .txt .

V. Кодировки текстовых файлов

Программа работает с 8-ми битными кодировками символов, характерные для текстов в операционных системах корпорации Microsoft.

Для анализа слов текстовый файл должен представлять либо «чисто текстовый файл» с кодами ASCII 32 – ASCII 126 (для текстов на английском языке), либо файл в расширенной ASCII-кодировке с кодами ASCII 32 — ASCII 255, в котором могут быть представлены и кириллические символы. Поддержка символов в формате UNICODE, UTF-8, UTF-16 (пока) не предусмотрена.

VI. Установка программы: freqdic

Программа не требует установки. Просто скопируйте файл с программой в каталог, указанный в переменной окружения «PATH» (например: C:WINDOWS). Далее Вы будете вызывать программу из командной строки.

VII. Синтаксис программы freqdic.exe

Данная программа предназначена для работы в командной строке Microsoft Windows.

Для запуска программы необходимо:

  1. Прейти в директорию, в которой находятся тестируемые файлы;
  2. В командной строке необходимо набрать:

freqdic «имя анализируемого файла» > «имя файла со списком слов»

где «имя анализируемого файла» – исходный текстовый файл (с любым расширением);

«имя файла со списком слов» – файл со списком слов частотного словаря (желательно с разрешением .TXT);

> знак перенаправления вывода на экран в файл.

  • После этого новый файл можно обрабатывать другими программами.
  • Если не указан результирующий файл и символ перенаправления, список слов частотного словаря будет выведен на экран дисплея.

    Примечание: «имя файла со списком слов» должно быть уникальным именем. При записи в него результатов работы программы «частотный словарь» его прежнее содержимое теряется безвозвратно!

    Имена файлов для программы freqdic для MS-DOS должны быть в формате 8.3, для Win32 версии – в оригинальном формате. Желательно длинные имена файлов с расширением заключать в двойные кавычки.

    После формирования таблицы программой freqdic с ней для ее дальнейшей обработки необходимо выполнить следующие действия:

    • преобразовать текст таблицы в кодировку Windows ANSI cp1251;
    • импортировать этот файл в программу Microsoft Excel или OpenOffice Calc для дальнейшей обработки (пересортировки, объединения словоформ и т.п.).

    VIII. Формат результирующего файла

    В качестве выходного файла программа выдает список встречающихся в документе слов в следующем формате:

    1-ый столбец. Порядок первого появления слова в тексте;

    2-ой столбец. Найденное слово (в оригинальной словоформе).

    Внимание! Слова в разных словоформах являются отдельными словами (иначе говоря, словоформы не обрабатываются и не объединяются в одно слово).

    3-ий столбец. Частота встречаемости слова в данной словоформе в тексте.

    4-ый столбец. Часть речи слова.

    В настоящее время в 4-ом столбце присутствует только два значения:

    • 0 – часть речи не определена;
    • 512 – слово из одной буквы, не несущее семантического значения.

    В качестве первой строки выводится заголовок списка слов (на английском языке).

    Данный формат файла легко импортируется в программу Microsoft Excel 2003 для последующей обработки (с помощью мастера импорта текстовых документов).

    IX. Download

    Скачать программу freqdic.exe (версия MS-DOS);

    Скачать программу freqdic.exe (версия Win32);

    Скачать исходные тексты программ и документацию (файл source-freqdic-0.1.zip);

    Скачать программу freqdic.exe с макросом VBScript для получения частотных словарей (билингвы и «чисто английского текста», в формате Excel) из текстовой билингвы (файл bin-freqdic-0.1.zip, 43 395 байтов, 17.04.2012 11:30);

    X. Заключение

    На взгляд автора, разработанная программа является полезным инструментом для анализа текста и может применяться в целях обучения программированию гуманитариев.

    Данная программа является прекрасным учебным примером построения на языке Си интеллектуальной системы поиска слов и словоформ – «частотный словарь». Автор понимает, что его функциональности не достаточно для того, чтобы на его основе создать полноценную интеллектуальную систему. Однако гибкость алгоритма, использованного в программе, позволяет использовать эту программу в качестве инструмента в создании более сложных систем интеллектуального поиска.

    Успехов Вам в использование программы! Good Luck! Dankon!

    Copyright © Юрий А. Денисов
    (yudenisov)
    2006-2012. Все права защищены

    Источник:
    http://www.yudenisov.narod.ru/SOURCECODE/freqdic.htm

    Составление частотного словаря слов средствами Microsoft Office

    Сайт ВИО (vio.fio.ru) – электронный журнал «Вопросы Интернет-образования»

    Выдержки из статьи http://vio.fio.ru/vio_28/cd_site/Articles/art_2_3.htm

    Лызлов А.В., Найденова О.Н.

    Составление частотного словаря слов средствами Microsoft Office

    Написать эту статью побудили три материала, опубликованные в журнале.

    1. Замечательная статья Ирины Алексеевны Морозовой «Коллективное лингвистическое исследование» о составлении частотного словаря букв русского алфавита [1]. На основе этой статьи можно организовать увлекательный урок, внеклассное мероприятие, она может стать основой исследовательской работы. Так что, если у статьи могут быть фанаты, то мы относимся к их числу.

    2. Константин Алексеевич Попов «Использование частотных словарей при изучении иностранных языков» [2]. В этой статье рассматривается использование генераторов частотных словарей в учебном процессе.

    3. «Все на борьбу с рутиной!» Павла Юрьевича Белкина и дальнейшее обсуждение этой статьи, в которой рассматривается проблема поиска и замены символов в MS Word [3]-[5].

    Как у нас, так и у учеников, возник вопрос: «А можно ли средствами стандартных программ, без обращений к специальным, составить частотный словарь слов одного или нескольких произведений?»

    В результате совместных изысканий появился способ, прямо скажем, не лишенный недостатков, который, однако, работает. Он может служить хорошей иллюстрацией глубокой интеграции офисных программ пакета Microsoft Office и хорошим практикумом для уроков компьютерных технологий.

    Как можно использовать частотный словарь? Увлекательный рассказ о статистическом лексическом анализе можно найти по адресу http://euro.svoboda.org/programs/sc/2001/sc.062601.asp. Там же есть и предостережение от излишнего увлечения такими методами.

    Итак, наша идея состоит в следующем: удалить из текста все знаки кроме букв русского языка, получив, таким образом, список слов, а затем отсортировать его и, сгруппировав одинаковые слова, подсчитать количество слов в каждой группе.

    Далее, собственно, сам способ:

    Сначала откроем анализируемый текст в Microsoft Word.

    Шаг 1. Уберем из текста точки, запятые, цифры, латинские буквы и… В принципе, избавимся от всего, кроме букв русского алфавита. Это можно сделать с помощью пункта меню ПравкаЗаменить. При поиске необходимо использовать отрицание [!] и подстановочные знаки [А-я]. Запрос на все символы, кроме букв русского алфавита, будет выглядеть так [!А-я]. Заменять будем на пробел, хотя это и необязательно. Можно использовать на любой другой символ, например, @ или специальный символ ^p («символ абзаца»). Нажимаем кнопку Заменить все.

    Шаг 2. Убираем из текста лишние пробелы, заменяя двойные на одиночные до тех пор, пока двойные еще встречаются [5].

    Шаг 3. Преобразуем весь текст к верхнему регистру ФорматРегистрВСЕ ПРОПИСНЫЕ, предварительно выделив весь текст ПравкаВыделить все.

    Шаг 4. Преобразуем текст в таблицу ТаблицаПреобразоватьтекст в таблицу. В качестве разделителя используем пробел. Данная таблица характерна тем, что у нее один столбец и в каждой ячейке стоит отдельное слово.

    Шаг 5. Выделяем полученную таблицу и копируем в буфер обмена.

    Далее можно воспользоваться одной из двух других знаменитых офисных программ: Microsoft Excel или Microsoft Access.

    Для Microsoft Excel:

    Шаг 6. Создаем новую книгу Excel.

    Шаг 7. В ячейке A1 пишем заголовок: «Частотный анализ слов в произведении А.С.Пушкина «Полтава».

    Шаг 8. Вставляем таблицу из буфера обмена, начиная с ячейки A2.

    Шаг 9. На отдельном листе создаем сводную таблицу ДанныеСводная таблица. Это ли не повод рассказать ученикам о сводной таблице!

    Шаг 10. Нажмите клавишу Поместить в. Мы увидим отчет из слов встречающихся в произведении. Для того чтобы вывести количество вхождений данного слова в текст, достаточно перетащить элемент в сводную таблицу. По умолчанию будет как раз вычисляться количество повторений этого слова, что собственно нам и нужно. Таким образом, мы получили частотный словарь. Далее его можно изменять по своему усмотрению. Изменяя свойства поля можно отсортировать сводную таблицу по убыванию, подсчитать долю слов в произведении, добавить столбец с длиной слов и т.п.

    Для Microsoft Access:

    Шаг 6. Создаем новую базу данных. В режиме конструктора создаем таблицу «Слова» с полем [Слово].

    Шаг 7. Переходим в режим таблицы и Вставляем таблицу из буфера обмена.

    Шаг 8. Создаем запрос на выборку, используя групповые операции и функцию Count, подсчитывающую сумму по группе. При необходимости сортируем по нужному полю.

    Замечание: можно решить эту задачу только с помощью Word и макросов на языке Visual Basic for Application (VBA), но это не совсем соответствует поставленной задаче. С другой стороны, при таком подходе можно автоматизировать описанные выше действия. Можно также попробовать составить частотный словарь с учетом словоформ, правда, только для английского языка.

    Последовательность действий будет примерно такой:

    Шаг 1. Удаляем из текста все знаки, кроме букв русского языка.

    Шаг 2. Удаляем из текста лишние пробелы.

    Шаг 3. Устанавливаем один шрифт для всего текста. Выделяем и переводим в верхний регистр.

    Шаг 4. Заменяем пробелы на символ конца абзаца.

    Шаг 5. Сортируем по возрастанию.

    Шаг 6. Составляем частотный словарь и вычисляем длину слов.

    Шаг 7. Преобразуем в таблицу с тремя столбцами.

    Шаг 8. Выводим во второй столбец количество вхождений данного слова, а в третий — его длину.

    Шаг 9. Добавляем заголовок.

    Большинство описанных выше операций можно просто записать в макросы с помощью режима «Запись макроса» (СервисМакросНачать запись).

    Пример этих макросов находится в документе Частотный анализ слов_А_С_ Пушкин_ ПОЛТАВА.doc. Для выполнения макросов необходимо установить в пункте меню СервисМакросБезопасность уровень безопасности: «Низкий» или «Средний».

    После изменения уровня безопасности — перезапустите MS Word.

    Запустите форму my_form, нажав кнопку Составление словаря на панели Частотный анализ.

    Источник:
    http://poisk-ru.ru/s7356t3.html

    Как создать СУПЕР англо-русский словарь в экселе и пользоваться им

    Это словарь по системе, придуманной Татьяной Камяновой (далее – Т.К.). Он позволяет значительно (как минимум в 2 раза) повысить эффективность пополнения лексики. Попробуйте и очень быстро в этом убедитесь.

    Инструкция

    ОСОЗНАЙТЕ, что это не просто словарь, а СУПЕР словарь, построенный не просто по алфавиту, а по частям речи. С точки зрения современного менеджмента это означает, что в словаре применяется своего рода «разделение труда» между словами

    ОТКРОЙТЕ ТАБЛИЦУ ЭКСЕЛЬ – это мое техническое дополнение к центральной идее Т.К.

    Каждый лист таблицы посвятите одной части речи: существительным, глаголам, прилагательным и т.д.

    По мере чтения английских текстов или изучения ИНГЛИШ по учебнику заполняйте эту таблицу новыми словами – каждое слово – в свой лист.

    Перед глаголами обязательно ставьте частицу to (этого нет в обычных словарях) – это тоже идея Т.К., увидите сами что она полезна.

    Перед существительными ставьте обязательно артикль. Перед теми существительными, где артикль не ставится – конечно же не ставьте – это помогает запоминанию сложных случаев использования артиклей.

    Система заполнения словаря (уже опять мое «изобретение») следующая: нашли новое слово, перевели, написали перевод на русский в соответствующий лист. Например, глагол to go – идти. Пишем в лист с глаголами в один столбец «Идти».

    Затем по прошествие времени (от 1 дня) делаем перевод напротив этого столбца (ясно в ту же строчку) русского слова в другой столбец «to go». Запись по памяти позволяет лучше запомнить слово.

    Пользуясь возможностями эксель, отсортируйте слова по английскому алфавиту

    В первое время можно словарь использовать и как Русско-английский, если с помощью возможностей эксель отсортировать данные по русскому алфавиту русских слов (то есть по столбцу)

    Однако очень скоро в столбце с русским переводом появится много вариантов такого перевода и словарь станет только англо-русский.

    Если одно слово без изменений является и существительным и глаголом – пишите его в 2 листа – в существительные и глаголы

    Обязательно там, где у нас неправильные глаголы, заполняйте глаголы еще в 2 столбца – прошедшее время и причастие прошедшего времени – так вы быстрее запомните все неправильные глаголы (я еще использую окраску строчек – удобно).

    Т.К. советует через некоторое время переходить полностью на обычный словарик по алфавиту. Я этого не советую, имея большую практику пользования таким словарем, смело оставайтесь с ним на всю жизнь

    Т.К. пишет, что изучив до высокого уровня 8 иностранных языков, она всегда пользуется такой системой составления словарей – она самая эффективная на сегодня (для запоминания слов – «в голове»)

    Советы и предупреждения:

    • Понятно, что также можно составить словарик не только для английского, но и другого иностранного языка.

    Обсуждение

    Напомню вам, что мы все составляли когда-то словари в тетрадочках, но потом их забрасывали – из-за неудобства – в тетради невозможно написать личный словарь по алфавиту.

    У меня на компе переводчик. Норм инфа +

    Ну ты и строчишь!
    Тем более хорошие инструкции)
    +

    Есть переводчики. Есть электронные словарики. Но ИНГЛИШ (настоящий) – это умение думать на английском, и это большой путь. И потому лексика должна быть не в словарях – а в активном словаре – в голове. Вот для того, чтобы в голове побыстрее сформировалась база – и поможет такой словарик.

    Только одно изобретение Т.К. – построение словаря по частеречному принципу стоит того, чтобы ей при жизни поставить памятник. А она еще хорошие стихи пишет – см. поиск.

    Здорово.
    Опять же – огромная помощь для изучающих английский.
    _
    +

    Источник:
    http://akak.ru/recipes/8852-kak-sozdat-super-anglo-russkiy-slovar-v-eksele-i-polzovatsya-im