УДК 410:51 + 414.7 + 800.892
ИНФОРМАТИКА
Академик АН Республики
Таджикистан 3.Д. Усманов,
Ф. Шукуров, C. Ёкубзода
ЧАСТОТНЫЙ СЛОВАРЬ ЯЗЫКА ЭСПЕРАНТО
Настоящий частотный словарь является результатом
обработки репрезентативной выборки объёма в 1450 000 слов, составленной из
написанных на языке эсперанто оригинальных и переводных произведений 32-х
авторов, см. Приложение. Построение словаря основывалось на использовании
понятия слова, которое в рамках
текстовой информации трактовалось как совокупность букв между двумя символами,
каковыми могут быть функциональные и служебные знаки компьютерной клавиатуры, в
частности пробелы, знаки препинания и т.д.
Процесс формирования искомого словаря осуществлялся в
два этапа. На первом этапе генерировался промежуточный частотный словарь S, включавший
в себя многообразие различных слов с их частотами встречаемости. Элементами
такого словаря оказывались не только лексемы, но и все их парадигмы, т.е.
помимо слова в начальной форме в словаре участвовали его всевозможные
грамматические вариации со своими частотами встречаемости. Например, наряду с
глаголом в инфинитивной форме vidi, в
словаре в качестве самостоятельных элементов присутствуют vidis, vidas, vidos, vidu, vidus, vidinta, vidanta, vidita, vidata, vidiĝi, vidiĝis, vidigi -
грамматические формы глагола в прошедшем, настоящем и будущем временах и
различных наклонениях, а также существительные vidaĵo , vidaĵoj, образованные
из данного корня vid. Здесь
не приводятся все слова, которые можно образовать из данного корня с помощью
морфем и которые были найдены в текстах произведений, приведенных в Приложении.
Аналогично, одновременно с существительным в именительном падеже единственного
числа homo в
промежуточный словарь вносились все слова, образованные из данного корня hom, которые были
найдены в обработанных текстах: homoj, homon, homojn, homaro, hometo, homego, homido, homino, homarano, homaranoj, homiĝi, homigi и т.д.
На втором этапе промежуточный словарь S преобразовывался
в частотный
словарь языка эсперанто. Существо преобразования сводилось к следующему.
Множество слов промежуточного словаря разбивалось на подмножества Sk
элементами которых являлись слова, образованные из одного и того же корня.
Придерживаясь гипотезы, что корень слова жестко привязан к вполне определенной
части речи, каждому конкретному
подмножеству Sk сопоставлялась лексема, т.е. начальная форма слова из
данной части речи. Эта лексема вместе с приписанной ей суммарной частотой
встречаемости всех слов из рассматриваемого подмножества Sk включалась в качестве элемента итогового словаря - частотного словаря языка эсперанто.
В частности, в приведенных примерах гнезду слов с
корнем vid сопоставлена лексема vidi с суммарной частотой
встречаемости 3181 , а гнезду слов с корнем
hom - лексема homo с частотой 3929.
Приводимый далее частотный словарь
разделен на 3 части. В первой, второй и третьей
частях даются списки слов, осуществляющих соответственно 50% - , 75% - и
80% - е покрытия текстов. В этих списках слова ранжируются в порядке убывания
их частот встречаемости, которые приводятся
справа от слов. Напомним, что общее количество обработанных слов - 1 450
000. В конце данной работы дается Приложение, в котором представлен список
произведений, использованных для построения данного частотного словаря.
Практическая ценность предлагаемого частотного словаря
состоит в том, что он подсказывает, на запоминание каких слов следует
сосредоточить первоочередное внимание на начальном этапе освоения языка
эсперанто.