Как сделать частотный словарь в excel?

Словарь терминов Excel

Адрес ячейки является основным элементом ссылки на ячейку. С помощью адреса можно найти любую ячейку в рабочей книге Excel. Адрес состоит из имени столбца и номера строки (например, В2 — это ячейка, которая находится на пересечении столбца В и строки 2).

В каждую ячейку листа пользователь может ввести данные. Перед вводом данных ячейка должна быть активизирована. Ячейка активизируется в результате щелчка на ней или вследствие размещения на ней указателя ячейки с помощью клавиш управления курсором или комбинации клавиш.

Буфер обмена — это временная память, предоставляемая в распоряжение пользователя операционной системой Windows. С помощью буфера данные переносятся в другое приложение без импортирования. Данные в буфере обмена в зависимости от их источника могут быть представлены в различных форматах.

Выделение применяется для указания того, какие ячейки следует использовать при выполнении той или иной операции. Выделенная ячейка заключается в рамку, а выделенный диапазон ячеек отображается инверсно.

Выделенный диапазон ячеек

Выделенный диапазон ячеек состоит из нескольких маркированных ячеек рабочего листа Excel, которые будут использоваться при выполнении операций до отмены маркировки.

Имена, присвоенные ячейкам и диапазонам, могут использоваться в адресах и ссылках, а также вместо адресов в формулах.

В Excel рабочие листы, листы диаграмм и макросов объединены в единый документ — книгу. По умолчанию каждая книга состоит из трех рабочих листов. С помощью контекстного меню ярлычков листа в книгу можно вставить дополнительные или удалить ненужные листы. Все листы рабочей книги Excel сохраняются в одном файле.

Контекстное меню содержит команды, которые предназначены для обработки только активного объекта и связаны с текущей операцией. Контекстное меню открывается в результате нажатия правой кнопки мыши или клавиатурной комбинации [Shift+F10].

Ввод данных и вычисления выполняются на листах книги Excel. Лист (таблица) разделен на строки и столбцы. Он состоит из 256 столбцов и 65536 строк, то есть содержит 16777216 ячеек. Для различных форм представления данных используются листы разных типов.

Под связью следует понимать связывание нескольких рабочих листов и листов диаграмм. Связь устанавливается в результате задания внешней ссылки и играет важную роль в тех случаях, когда значения в одной таблице зависят от значений в другой таблице

Ссылка является основным элементом при выполнении вычислений с использованием нескольких ячеек. Например, если нужно определить сумму значений двух ячеек и поместить результат в третью, в формуле указываются ссылки на ячейки, в которых находятся слагаемые. Основным элементом ссылки Excel является адрес ячейки.

Таблицей принято считать совокупность данных, упорядоченных по строкам и столбцам. Таблица Excel может содержать формулы, ссылки на другие таблицы, а также другие объекты, например отформатированные ячейки, предназначенные для ввода данных, диаграммы, рисунки и т. д.

Указатель ячейки (табличный курсор)

Указатель ячейки — это рамка, с помощью которой на рабочем листе или листе макросов выделяется активная ячейка . После выделения можно заносить данные в ячейку или использовать ее содержимое при выполнении операций. Указатель ячейки перемещается с помощью мыши или клавиш управления курсором.

Включает назначение шрифта, оформление ячеек цветом и рамками (стилевое форматирование), а также выбор формата значений (числовое форматирование). Стилевое форматирование используют для придания таблице привлекательного внешнего вида, а числовое — для определения метода интерпретации находящихся в ячейке данных.

Ячейка является наименьшей структурной единицей рабочего листа. Может содержать данные в виде текста, числовых значений, формул или параметров форматирования. Чтобы изменить высоту или ширину ячейки в таблице, нужно изменить высоту строки или ширину столбца, В ячейку можно поместить не более 32000 символов. Всего на рабочем листе имеется 16777216 ячеек.

Термины и понятия, вводимые автором

Модуль — законченная электронная таблица небольшого размера, которая имеет вход и выход. Модули предназначены для решения определенных задач, они могут входить как самостоятельный элемент в состав более сложных электронных таблиц. Особенностью модуля является возможность его перемещения, копирования и вставки в другие электронные таблицы.

Вход — ячейка модуля (или некоторой электронной таблицы), в которую заносятся данные, подлежащие последующей обработке. Данные могут заноситься с клавиатуры, а также из других ячеек электронной таблицы. В одном модуле может быть несколько входов.

Выход — ячейка модуля (или некоторой электронной таблицы), в которой размещается результат расчетов данного модуля (или некоторой электронной таблицы). В одном модуле может быть несколько выходов. Выход одного модуля может быть связан с входом другого, если второй модуль использует результаты первого модуля для дальнейших расчетов. Эта связь реализуется в виде ссылки из ячейки входа второго модуля на ячейку, служащую выходом первого модуля.

Частотный анализ текста

П рограмма BX Language acquisition позволяет Вам автоматически составлять словари на основе частотного анализа текста. Для этого Вам необходимо перейти в закладку Текст основного окна обучения .

Н а этой же закладке кнопкой «Субтитры» можно вызвать форму Проекта словарей из субтитров к фильмам .

О кно редактора Текста состоит из панели управления текстом , самого текста и панели параметров частотного анализа текста . Кнопки на панели управления текстом позволяют Вам сохранить текст в текстовом файле , открыть текст из текстового файла или создать новый текст . Загрузить текст из файлов других форматов можно через буфер обмена Windows с помощью кнопки Вставить. Вы можете набрать текст вручную и потом сохранить его в новом файле. Редактирование, поиск и замена текста выполняется также как и в стандартном редакторе Windows Блокнот . Вы можете открывать текстовые файлы в кодировке WIN или Unicode. Сохранение новых файлов осуществляется в кодировке Unicode.

П анель параметров частотного анализа текста ограничивает спектр слов Текста для создания частотного словаря. Вы можете ограничить частотный словарь только теми словами, которые встречаются в тексте, начиная с определённого количества раз. Можно ограничить частотный словарь только теми словами, на которые есть перевод в Базовом словаре. Выбрать Базовый словарь можно на панели управления текстом по кнопке Выбрать Базовый словарь . Вы можете отобразить количество повторений слов в тексте, а также создать частотный словарь, упорядоченный по частоте или по встречаемости слов в тексте . Во втором случае слова можно будет учить сначала для первой главы книги, потом для второй и так далее.

В ы можете добавить дополнительные категории в создаваемый частотный словарь . Для этого введите их в поле «добавить категории». Если категорий несколько, то разделите их точкой с запятой ( ; ). Категории будут добавлены в частотный словарь вместе с категориями Базового словаря .

Е сли Вы установите галочку «формировать пример», то для каждого слова в частотном словаре, будет сформирован пример применения , то есть одно из предложений текста, в котором встретилось данное слово . Если слово встречается в нескольких предложениях , то выбирается предложение средней длины: не более 6-ти слов или не длиннее 50 символов. В случае сортировки по тексту пример применения слова формируется из предложения, в котором это слово встречается впервые. В программе под предложением понимается текст, завершённый следующими символами: точка( . ), восклицательный знак( ! ), вопросительный знак( ? ), точка с запятой( ; ).

Внимание!
При использовании этой опции значительно повышаюся требования программы к ресурсам компьютера.
Например, при 1Gb оперативной памяти можно пропустить текст объёмом не более 38 Мб или 13 тыс страниц.

Д ля создания частотного словаря из текста необходимо выполнить следующие шаги:
1 — Загрузить текст в текстовый редактор программы (из файла или буфера обмена Windows)
2 — Выбрать Базовый словарь для подстановки из него перевода и транскрипции в новый частотный словарь.
3 — Нажать кнопку Создать частотный словарь на панели управления текcтом
4 — В диалоге создания словаря указать имя частотного словаря.

П о окончании частотного анализа текста программа загрузит Новый словарь и перейдёт в закладку Словарь для его просмотра и редактирования. В частотном словаре будут заполнены поля Слово, порядок и Пример в котором отобразится количество повторений слова в тексте (если такая опция включена) . Вы можете изменить параметры частотного анализа , после чего пересоздать частотный словарь . Например: ограничить словарь словами, которые повторяются в тексте, начиная от 2 и более раз, или изменить вид сортировки. Для слов Нового словаря, которых нет в Базовом словаре, переводы и транскрипцию нужно будет ввести вручную. Чтобы свести ручную работу к минимуму, в качестве Базового словаря необходимо выбирать самый большой словарь или выставить опцию на панели параметров частотного анализа — только базовые слова.

Читать еще:  Как сделать активным окно в excel?

В ы можете загрузить статистику слов из ранее выученных словарей в Новый словарь .

В ы можете загрузить перевод, транскрипцию или пример использования из других словарей в Новый словарь .

Добавление слов в словарь проверки орфографии и их изменение

Важно: Когда вы добавляете слово в настраиваемый словарь в одном приложении Office, оно становится доступным при проверке орфографии во всех приложениях Office.

Все пользовательские словари управляются с помощью диалогового окна » Вспомогательные словари «, и в этом диалоговом окне должны быть включены любые вспомогательные словари (выбраны). Выполните указанные ниже действия, чтобы открыть диалоговое окно, а затем выберите определенную задачу.

Открытие диалогового окна «Вспомогательные словари»

Откройте параметры проверки правописания:

В большинстве программ Office: перейдите в раздел > Параметрыфайлов > проверки правописания.

В Outlook: выберите файл > параметры > почта > проверки орфографии и автозамены>.

Убедитесь, что флажок Предлагать только из основного словаря снят.

Выберите Вспомогательные словари.

Вы получаете список всех словарей, вверху которого указан словарь по умолчанию.

Примечание: Чтобы быстро добавить слово в словарь, щелкните слово в документе правой кнопкой мыши и выберите команду Добавить в словарь. Слово добавляется в словарь по умолчанию.

Откройте диалоговое окно Вспомогательные словари, выполнив шаги в разделе Открытие диалогового окна «Вспомогательные словари» выше.

Выберите словарь, который требуется редактировать. Убедитесь, что флажок не был снят.

Выберите команду изменить список слов.

Выполните одно из указанных ниже действий.

Для добавления слова введите его в поле Слова и нажмите кнопку Добавить.

Для удаления слова выберите его в поле Словарь и нажмите кнопку Удалить.

Для редактирования слова удалите его и добавьте в нужном написании.

Чтобы удалить все слова, нажмите кнопку Удалить все.

Если вы хотите, чтобы этот вспомогательный словарь был словарем по умолчанию, в котором будут сохранены новые слова, ознакомьтесь со статьей изменение вспомогательного словаря, в который добавляет слова в средстве проверки орфографии .

Чтобы получить дополнительные сведения, выберите заголовки ниже.

При проверке орфографии можно добавлять слова, помеченные как написанные с ошибкой, в настраиваемый словарь, который используется по умолчанию. Чтобы изменить вспомогательный словарь по умолчанию, в который добавляются эти слова, ознакомьтесь с разписанием «Изменение настраиваемого словаря, в который добавляет слова средство проверки орфографии».

Во время автоматической проверки орфографии и грамматики щелкните правой кнопкой мыши слово, подчеркнутое красной волнистой линией, и выберите команду Добавить в словарь.

При запуске средства проверки правописания нажмите кнопку Добавить или Добавить в словарь для помеченного слова.

Примечание: Если кнопка Добавить в словарь недоступна, убедитесь, что настраиваемый словарь выбран в диалоговом окне Вспомогательные словари. Сведения о том, как выбрать словарь, см. в разделе Изменение настраиваемого словаря, в который средство проверки орфографии добавляет слова.

Дополнительные сведения см. в статье Проверка орфографии и грамматики.

Откройте диалоговое окно Вспомогательные словари, выполнив шаги в разделе Открытие диалогового окна «Вспомогательные словари» выше.

В поле Имя файла введите имя вспомогательного словаря.

Нажмите кнопку Сохранить.

Если новый словарь должен использоваться с другим языком, выбрав новый словарь в поле Список словарей, выберите язык словаря в меню Язык словаря.

Если вы хотите, чтобы добавляемые слова сохранялись в этом словаре, см. следующую задачу (Изменение настраиваемого словаря, в который средство проверки орфографии добавляет слова).

При добавлении слов во время проверки орфографии новые слова добавляются в настраиваемый словарь по умолчанию, который указан вверху списка в диалоговом окне Вспомогательные словари. Вы можете изменить настраиваемый словарь, который используется по умолчанию для всех программ Office.

Откройте диалоговое окно Вспомогательные словари, выполнив шаги в разделе Открытие диалогового окна «Вспомогательные словари» выше.

В диалоговом окне Список словарей выполните одно из указанных ниже действий.

Для изменения словаря по умолчанию для всех языков выберите имя словаря под заголовком Все языки.

Для изменения словаря по умолчанию для конкретного языка выберите имя словаря под заголовком этого языка.

Нажмите кнопку изменить значение по умолчанию.

Примечание: Если там только один словарь, он должен быть словарем по умолчанию. В этом случае кнопка недоступна.

При следующей проверке орфографии программа будет использовать выбранные настраиваемые словари по умолчанию.

По умолчанию при создании нового вспомогательного словаря программа задает словарь для всех языков, а это значит, что словарь используется при проверке орфографии в тексте на любом языке. Однако вы можете связать настраиваемый словарь с определенным языком, чтобы программа использовала словарь только при проверке орфографии в тексте на определенном языке.

Откройте диалоговое окно Вспомогательные словари, выполнив шаги в разделе Открытие диалогового окна «Вспомогательные словари» выше.

В поле Список словарей выберите словарь, который необходимо изменить.

В меню Язык словаря выберите язык, для которого должен использоваться словарь.

Диалоговое окно Вспомогательные словари содержит список доступных настраиваемых словарей, которые приложение может использовать при проверке орфографии. Если нужный словарь, например купленный у сторонней компании , установлен на компьютере, но отсутствует в поле Список словарей, его можно добавить в этот список.

Откройте диалоговое окно Вспомогательные словари, выполнив шаги в разделе Открытие диалогового окна «Вспомогательные словари» выше.

Нажмите кнопку Добавить.

Перейдите в папку, в которой находится вспомогательный словарь, и дважды щелкните мышью файл словаря.

Если вы хотите, чтобы этот вспомогательный словарь был словарем по умолчанию, в котором будут сохранены новые слова, ознакомьтесь со статьей Изменение настраиваемого словаря, в который добавляется слово в средстве проверки орфографии .

Перейдите в раздел ПараметрыWord >.

В разделе средства разработки и проверки правописаниявыберите пункт Орфография & грамматика.

Если вам нужно использовать настраиваемые словари, снимите флажок Предлагать только из основного словаря.

Выберите словарь, в который хотите внести изменения.

Проследите за тем, чтобы флажок для этого словаря случайно не оказался снятым.

Нажмите кнопку Изменить.

Настраиваемый словарь откроется в качестве документа для редактирования.

Внесите изменения и сохраните документ.

Примечание: Во время редактирования настраиваемого словаря Word прекращает проверку правописания при вводе. Когда вы закончите изменение настраиваемого словаря, если хотите, чтобы Word продолжил проверку правописания при вводе, перейдите к диалоговому окну грамматика & , показанному на этапе 2, и установите флажок Проверять орфографию при вводе.

Откройте диалоговое окно Вспомогательные словари , выполнив указанные выше действия.

В окне Вспомогательные словари установите флажки для всех настраиваемых словарей, которые хотите использовать, а затем нажмите кнопку ОК.

Откройте диалоговое окно Вспомогательные словари , выполнив указанные выше действия.

В поле Сохранить как введите имя настраиваемого словаря.

Нажмите кнопку Сохранить.

Если вы хотите использовать новый словарь для другого языка, то после выбора этого словаря в диалоговом окне Вспомогательные словари выберите язык в списке Язык.

Нажмите кнопку ОК.

Диалоговое окно Вспомогательные словари содержит список имеющихся настраиваемых словарей, которые Word может использовать при проверке орфографии. Если нужный словарь (например, купленный у сторонней компании) установлен на компьютере, но отсутствует в окне Вспомогательные словари, его можно туда добавить.

Откройте диалоговое окно Вспомогательные словари , выполнив указанные выше действия.

Нажмите кнопку Добавить.

Перейдите в папку, в которой находится нужный вам настраиваемый словарь, и дважды щелкните файл словаря.

Дополнительные справочные сведения об установке словарей сторонних компаний см. в инструкциях по установке этих словарей.

По умолчанию при создании нового вспомогательного словаря программа задает словарь для всех языков, а это значит, что словарь используется при проверке орфографии в тексте на любом языке. Однако вы можете связать настраиваемый словарь с определенным языком, чтобы программа использовала словарь только при проверке орфографии в тексте на определенном языке.

Откройте диалоговое окно Вспомогательные словари , выполнив указанные выше действия.

В диалоговом окне Вспомогательные словари выберите словарь, который хотите изменить.

В списке Язык выберите язык, для которого собираетесь использовать словарь.

При проверке орфографии в документе можно добавлять слова, помеченные как написанные с ошибкой, в настраиваемый словарь. Настраиваемый словарь по умолчанию — это словарь, в который Microsoft Word добавляет при этом слова.

Читать еще:  Как сделать чертеж на компьютере в excel?

Откройте диалоговое окно Вспомогательные словари , выполнив указанные выше действия.

В окне Правописание выберите словарь в поле «Вспомогательный словарь».

Закройте диалоговое окно Правописание & .

Примечание: Если там только один словарь, он должен быть словарем по умолчанию. В этом случае кнопка недоступна.

При следующей проверке орфографии программа будет использовать выбранные настраиваемые словари по умолчанию.

Если слово написано неправильно, вы можете щелкнуть его правой кнопкой мыши и проигнорировать его. Однако слово не добавляется в словарь и помечается в следующий раз, когда вы будете использоватьВеб-приложение Word.

Дополнительные сведения можно найти в статье правописание в Word

Примечание: Эта страница переведена автоматически, поэтому ее текст может содержать неточности и грамматические ошибки. Для нас важно, чтобы эта статья была вам полезна. Была ли информация полезной? Для удобства также приводим ссылку на оригинал (на английском языке).

Примеры функции ЧАСТОТА в Excel для расчета частоты повторений

Функция ЧАСТОТА используется для определения количества вхождения определенных величин в заданный интервал и возвращает данные в виде массива значений. Используя функцию ЧАСТОТА, мы узнаем, как посчитать частоту в Excel.

Пример использования функции ЧАСТОТА в Excel

Пример 1. Студенты одной из групп в университете сдали экзамен по физике. При оценке качества сдачи экзамена используется 100-бальная система. Для определения окончательной оценки по 5-бальной системе используют следующие критерии:

  1. От 0 до 50 баллов – экзамен не сдан.
  2. От 51 до 65 баллов – оценка 3.
  3. От 66 до 85 баллов – оценка 4.
  4. Свыше 86 баллов – оценка 5.

Для статистики необходимо определить, сколько студентов получили 5, 4, 3 баллов и количество тех, кому не удалось сдать экзамен.

Внесем данные в таблицу:

Для решения выделим области из 4 ячеек и введем следующую функцию:

  • B3:B20 – массив данных об оценках студентов;
  • D3:D5 – массив критериев нахождения частоты вхождений в массиве данных об оценках.

Выделяем диапазон F3:F6 жмем сначала клавишу F2, а потом комбинацию клавиш Ctrl+Shift+Enter, чтобы функция ЧАСТОТА была выполнена в массиве. Подтверждением того что все сделано правильно будут служить фигурные скобки <> в строке формул по краям. Это значит, что формула выполняется в массиве. В результате получим:

То есть, 6 студентов не сдали экзамен, оценки 3, 4 и 5 получили 3, 4 и 5 студентов соответственно.

Пример определения вероятности используя функцию ЧАСТОТА в Excel

Пример 2. Известно то, что если существует только два возможных варианта развития событий, вероятности первого и второго равны 0,5 соответственно. Например, вероятности выпадения «орла» или «решки» у подброшенной монетки равны ½ и ½ (если пренебречь возможностью падения монетки на ребро). Аналогичное расчетное распределение вероятностей характерно для следующей функции СЛУЧМЕЖДУ(1;2), которая возвращает случайное число в интервале от 1 до 2. Было проведено 20 вычислений с использованием данной функции. Определить фактические вероятности появления чисел 1 и 2 соответственно на основании полученных результатов.

Заполним исходную таблицу случайными значениями от 1-го до 2-ух:

Для определения случайных значений в исходной таблице была использована специальная функция:

Для определения количества сгенерированных 1 и 2 используем функцию:

  • A2:A21 – массив сгенерированных функцией =СЛУЧМЕЖДУ(1;2) значений;
  • 1 – критерий поиска (функция ЧАСТОТА ищет значения от 0 до 1 включительно и значения >1).

В результате получим:

Вычислим вероятности, разделив количество событий каждого типа на общее их число:

Для подсчета количества событий используем функцию =СЧЁТ($A$2:$A$21). Или можно просто разделить на значение 20. Если заранее не известно количество событий и размер диапазона со случайными значениями, тогда можно использовать в аргументах функции СЧЁТ ссылку на целый столбец: =СЧЁТ(A:A). Таким образом будет автоматически подсчитывается количество чисел в столбце A.

Вероятности выпадения «1» и «2» — 0,45 и 0,55 соответственно. Не забудьте присвоить ячейкам E2:E3 процентный формат для отображения их значений в процентах: 45% и 55%.

Теперь воспользуемся более сложной формулой для вычисления максимальной частоты повторов:

1)*СТРОКА($A$2:$A$21)))-1′ class=’formula’>

Формулы в ячейках F2 и F3 отличаются только одним лишь числом после оператора сравнения «не равно»: <>1 и <>2.

Интересный факт! С помощью данной формулы можно легко проверить почему не работает стратегия удвоения ставок в рулетке казино. Данную стратегию управления ставками в азартных играх называют еще Мартингейл. Дело в том, что количество случайных повторов подряд может достигать 18-ти раз и более, то есть восемнадцать раз подряд красные или черные. Например, если ставку в 2 доллара 18 раз удваивать – это уже более пол миллиона долларов «просадки». Это уже провал по любым техникам планирования рисков. Так же следует учитывать, что кроме «черные» и «красные» иногда выпадает еще и «зеро», что окончательно уничтожает все шансы. Так же интересно, что сумма всех чисел в рулетке от 0 до 36 равна 666.

Как посчитать неповторяющиеся значения в Excel?

Пример 3. Определить количество уникальных вхождений в массив числовых данных, то есть не повторяющихся значений.

Определим искомую величину с помощью формулы:

В данном случае функция ЧАСТОТА выполняет проверку наличия каждого из элементов массива данных в этом же массиве данных (оба аргумента совпадают). С помощью функции ЕСЛИ задано условие, которое имеет следующий смысл:

  1. Если искомый элемент содержится в диапазоне значений, вместо фактического количества вхождений будет возвращено 1;
  2. Если искомого элемента нет – будет возвращен 0 (нуль).

Полученное значение (количество единиц) суммируется.

В результате получим:

То есть, в указанном массиве содержится 8 уникальных значений.

Функция ЧАСТОТА в Excel и особенности ее синтаксиса

Данная функция имеет следующую синтаксическую запись:

Описание аргументов функции (оба являются обязательными для заполнения):

  • массив_данных – данные в форме массива либо ссылка на диапазон значений, для которых необходимо определить частоты.
  • массив_интервалов — данные в формате массива либо ссылка не множество значений, в которые группируются значения первого аргумента данной функции.
  1. Если в качестве аргумента массив_интервалов был передан пустой массив или ссылка на диапазон пустых значений, результатом выполнения функции ЧАСТОТА будет являться число элементов, входящих диапазон данных, которые были переданы в качестве первого аргумента.
  2. При использовании функции ЧАСТОТА в качестве обычной функции Excel будет возвращено единственное значение, соответствующее первому вхождению в массив_интервалов (то есть, первому критерию поиска частоты вхождения).
  3. Массив возвращаемых данной функцией элементов содержит на один элемент больше, чем количество элементов, содержащихся в массив_интервалов. Это происходит потому, что функция ЧАСТОТА вычисляет также количество вхождений величин, значения которых превышают верхнюю границу интервалов. Например, в наборе данных 2,7, 10, 13, 18, 4, 33, 26 необходимо найти количество вхождений величин из диапазонов от 1 до 10, от 11 до 20, от 21 до 30 и более 30. Массив интервалов должен содержать только их граничные значения, то есть 10, 20 и 30. Функция может быть записана в следующем виде: =ЧАСТОТА(<2;7;10;13;18;4;33;26>;<10;20;30>), а результатом ее выполнения будет столбец из четырех ячеек, которые содержат следующие значения: 4,2, 1, 1. Последнее значение соответствует количеству вхождений чисел > 30 в массив_данных. Такое число действительно является единственным – это 33.
  4. Если в состав массив_данных входят ячейки, содержащие пустые значения или текст, они будут пропущены функцией ЧАСТОТА в процессе вычислений.

    Функция может использоваться для выполнения статистического анализа, например, с целью определения наиболее востребованных для покупателей наименований продукции.

  • Данная функция должна быть использована как формула массива, поскольку возвращаемые ей данные имеют форму массива. Для выполнения обычных формул после их ввода необходимо нажать кнопку Enter. В данном случае требуется использовать комбинацию клавиш Ctrl+Shift+Enter.
  • Программа построения


    частотного словаря в операционных системах Microsoft


    I. Назначение программы

    Программа «Частотный словарь» («freqdic.exe») предназначена для анализа частоты и порядка встречаемости слов, написанного кириллицей и латиницей, в проверяемом тексте (в формате text/plain и других текстовых форматах) в каждой из словоформ.

    1. Находить «редкие» ошибки, не выявляемые штатной программой проверки орфографии. Например, штатная программа проверки орфографии не проверяет следующее слово: «дезоксирибонуклеиновая». Однако сделать ошибку в этом слове легко (из-за своей длины и сложности произношения). Поэтому, если слово появляется несколько раз в списке слов, полученном после обработке текста программой «частотный словарь», это должно Вас насторожить – где-то возможна ошибка!
    2. Рассчитывать «семантическую близость» слов в документе (сравнивается частота употребления ключевых слов и расстояние между ними в документе);
    3. Корректировать стиль изложения текста автором (путем исключения слов паразитов и увеличения словарного запаса). Например, Вы пишете бумагу, выдержанную в определенном стиле. Этот стиль предполагает частое использование в тексте одних слов и запрет на использование других слов. Проверить это ограничение на слова и выявить его нарушение программой «частотный словарь».
    4. Определять авторство работы. Стиль каждого автора уникален в смысле частого употребления одних слов и исключения из своего лексикона других слов. Частотный словарь поможет Вам создать «частотную базу слов» текста. С помощью других алгоритмов (прежде всего – визуализации этой базы) можно будет с очень высокой вероятностью определять авторство текстов – исходные данные уже собраны программой «частотный словарь».
    5. Первичная индексация текста. Часто для облегчения полнотекстового поиска ключевых слов используются первичные индексы. Эти индексы позволяют:
      • быстро находить присутствие и отсутствие слов в документе при первичном и повторном поиске;
      • сортировать документы по частоте встречаемости в них ключевых слов.
      • использовать их как вспомогательный модуль в информационно-поисковых системах полнотекстового поиска и систем «индексации документов».
      • рассчитывать «расстояние», на котором отстоят друг от друга ключевые слова. (После обработки текста программой «частотный словарь» эта задача решается сама собой).
    6. Эта программа может помочь при автоматическом реферировании текста, поскольку вместе с частотой встречаемости слов в тексте программа запоминает «первую позицию» встречи слова в тексте.
    7. Программа может использоваться для пополнения словарной базы данных для автоматического перевода теста разными программами.
    8. Программа поможет в поиске неологизмов, устаревших и специальных слов.
    9. Также эта программа может стать основой более сложных алгоритмов анализа данных.

    Все указанное выше предполагает рекомендовать эту программу для иллюстрации процесса создания программного продукта для целей датамайнинга.

    Программа работает в командном интерфейсе с технологией командной строки. Это значит, что при ее применении пользователь должен открыть окно терминала и набрать имя программы и параметры в командной строке.

    II. Преимущества и новизна данной программы

    Данная реализация программы основана на идее алгоритма, приведенной в работе «128 советов начинающему программисту» (авторы: Очков В.Ф., Пухначев Ю.В.), которая переработана авторам, и адаптирована для языка Си.

    Хотя на рынке находится много программ – частотных словарей, эта программа имеет следующие преимущества:

    1. Она распространяется по лицензии GNU GPL. Это значит, что любой пользователь может не только пользоваться этой программой на условиях Copyleft (т.е. распространение продукта на условиях его приобретения), но и на тех же условиях модифицировать код и создавать новые продукты.
    2. Эта программа изначально лишена эвристических алгоритмов и алгоритмов анализа словоформ. Это значит, что слово «моя» запишется в словарь именно как слово «моя», а не «мыть», «мой» или даже «мы» (как это делают более «продвинутые» частотные словари). Эти слова могут анализироваться впоследствии более точными методами. Кроме того, используя разные словоформы можно более точно определять «расстояния между словами» в исходном тексте.
    3. Выходной файл имеет простую структуру, что позволяет его легко использовать для последующей обработки в других программах (в частности, средствами электронных таблиц OpenOffice Calc и Microsoft Excel).

    III. Краткие сведения о формате файлов программы «Частотный словарь»

    Программа работает с текстами, представленными в кодировке text/plain. Поддержка формата text/html не корректна. Другие форматы текстовых процессоров (Word, Writer, AbiWord и т.п.) не поддерживаются.

    Программа «частотный словарь» анализирует текст в кодировке ASCII и в любой 8-ми битной кодировке, включая кодировки MS-DOS OEM 866, Windows ANSI cp 1251, UNIX KOI8-R. Кодировки Unicode и UTF-8 пока не поддерживаются, что делает программу («теоретически», на практике не применял) не переносимой на Linux.

    Программа может анализировать тексты: text/plain, text/html, исходные файлы программ на языке Assembler и на языках высокого уровня, скриптов и макросов на любых языках, файлы с разметкой на основе xml и SGML.

    Эта программа на выходе выводит на экран дисплея таблицу, содержащие следующие элементы:

    • номер слова по-порядку его появления в тексте;
    • слово в его уникальной словоформе;
    • количество слов, встретившихся в тексте в указанной словоформе;
    • (резервный столбец) приблизительно часть речи у указанного слова. В настоящее время выводит значения 512 для однобуквенных слов и 0 для всех остальных слов.

    IV. Стандартные расширения файлов

    Программа на входе распознает любые кодировки файлов. Только необходимо, чтобы они были текстовыми файлами.

    На выходе также можно задавать также любые файлы. Однако для работы программы «в связке» с Excel расширение файлов должно быть .txt .

    V. Кодировки текстовых файлов

    Программа работает с 8-ми битными кодировками символов, характерные для текстов в операционных системах корпорации Microsoft.

    Для анализа слов текстовый файл должен представлять либо «чисто текстовый файл» с кодами ASCII 32 – ASCII 126 (для текстов на английском языке), либо файл в расширенной ASCII-кодировке с кодами ASCII 32 — ASCII 255, в котором могут быть представлены и кириллические символы. Поддержка символов в формате UNICODE, UTF-8, UTF-16 (пока) не предусмотрена.

    VI. Установка программы: freqdic

    Программа не требует установки. Просто скопируйте файл с программой в каталог, указанный в переменной окружения «PATH» (например: C:WINDOWS). Далее Вы будете вызывать программу из командной строки.

    VII. Синтаксис программы freqdic.exe

    Данная программа предназначена для работы в командной строке Microsoft Windows.

    Для запуска программы необходимо:

    1. Прейти в директорию, в которой находятся тестируемые файлы;
    2. В командной строке необходимо набрать:

    freqdic «имя анализируемого файла» > «имя файла со списком слов»

    где «имя анализируемого файла» – исходный текстовый файл (с любым расширением);

    «имя файла со списком слов» – файл со списком слов частотного словаря (желательно с разрешением .TXT);

    > знак перенаправления вывода на экран в файл.

  • После этого новый файл можно обрабатывать другими программами.
  • Если не указан результирующий файл и символ перенаправления, список слов частотного словаря будет выведен на экран дисплея.

    Примечание: «имя файла со списком слов» должно быть уникальным именем. При записи в него результатов работы программы «частотный словарь» его прежнее содержимое теряется безвозвратно!

    Имена файлов для программы freqdic для MS-DOS должны быть в формате 8.3, для Win32 версии – в оригинальном формате. Желательно длинные имена файлов с расширением заключать в двойные кавычки.

    После формирования таблицы программой freqdic с ней для ее дальнейшей обработки необходимо выполнить следующие действия:

    • преобразовать текст таблицы в кодировку Windows ANSI cp1251;
    • импортировать этот файл в программу Microsoft Excel или OpenOffice Calc для дальнейшей обработки (пересортировки, объединения словоформ и т.п.).

    VIII. Формат результирующего файла

    В качестве выходного файла программа выдает список встречающихся в документе слов в следующем формате:

    1-ый столбец. Порядок первого появления слова в тексте;

    2-ой столбец. Найденное слово (в оригинальной словоформе).

    Внимание! Слова в разных словоформах являются отдельными словами (иначе говоря, словоформы не обрабатываются и не объединяются в одно слово).

    3-ий столбец. Частота встречаемости слова в данной словоформе в тексте.

    4-ый столбец. Часть речи слова.

    В настоящее время в 4-ом столбце присутствует только два значения:

    • 0 – часть речи не определена;
    • 512 – слово из одной буквы, не несущее семантического значения.

    В качестве первой строки выводится заголовок списка слов (на английском языке).

    Данный формат файла легко импортируется в программу Microsoft Excel 2003 для последующей обработки (с помощью мастера импорта текстовых документов).

    IX. Download

    Скачать программу freqdic.exe (версия MS-DOS);

    Скачать программу freqdic.exe (версия Win32);

    Скачать исходные тексты программ и документацию (файл source-freqdic-0.1.zip);

    Скачать программу freqdic.exe с макросом VBScript для получения частотных словарей (билингвы и «чисто английского текста», в формате Excel) из текстовой билингвы (файл bin-freqdic-0.1.zip, 43 395 байтов, 17.04.2012 11:30);

    X. Заключение

    На взгляд автора, разработанная программа является полезным инструментом для анализа текста и может применяться в целях обучения программированию гуманитариев.

    Данная программа является прекрасным учебным примером построения на языке Си интеллектуальной системы поиска слов и словоформ – «частотный словарь». Автор понимает, что его функциональности не достаточно для того, чтобы на его основе создать полноценную интеллектуальную систему. Однако гибкость алгоритма, использованного в программе, позволяет использовать эту программу в качестве инструмента в создании более сложных систем интеллектуального поиска.

    Успехов Вам в использование программы! Good Luck! Dankon!

    Copyright © Юрий А. Денисов
    (yudenisov)
    2006-2012. Все права защищены

    Ссылка на основную публикацию
    Adblock
    detector