|
Ученые записки Казанского университета. Серия Физико-математические науки, 2013, том 155, книга 4, страницы 16–23
(Mi uzku1237)
|
|
|
|
Проверка закона Хипса по данным корпуса Google Books Ngram
В. В. Бочкаревa, Э. Ю. Лернерb, А. В. Шевляковаc a Кафедра радиофизики, Казанский (Приволжский) федеральный университет, г. Казань, Россия
b Кафедра анализа данных и исследования операций, Казанский (Приволжский) федеральный университет, г. Казань, Россия
c Кафедра английского языка для естественно-научных специальностей, Казанский (Приволжский) федеральный университет, г. Казань, Россия
Аннотация:
Работа посвящена проверке выполнения эмпирического закона Хипса в европейских языках на материале корпуса текстов Google Books Ngram. Показано, что закон Хипса выполняется лишь для текстов ограниченного объёма и относящихся к небольшому историческому интервалу; показатель Хипса убывает со временем, а также испытывает значительные колебания с характерными временами 60–100 лет. В рамках простой вероятностной модели порождения текста рассмотрена связь между распределением частот словоупотребления и ожидаемой зависимостью числа уникальных слов в тексте от объёма текста. Эта модель даёт объяснение наблюдаемого нисходящего тренда показателя Хипса.
Ключевые слова:
закон Хипса, закон Ципфа, вероятностные модели текста, корпус Google Books Ngram.
Поступила в редакцию: 17.10.2013
Образец цитирования:
В. В. Бочкарев, Э. Ю. Лернер, А. В. Шевлякова, “Проверка закона Хипса по данным корпуса Google Books Ngram”, Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки, 155, № 4, Изд-во Казанского ун-та, Казань, 2013, 16–23
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/uzku1237 https://www.mathnet.ru/rus/uzku/v155/i4/p16
|
Статистика просмотров: |
Страница аннотации: | 682 | PDF полного текста: | 287 | Список литературы: | 52 |
|