Статья: КАК ЯЗЫК PYTHON ПОМОГАЕТ ЛЕКСИКОГРАФАМ
Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др. Python - один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание. В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python.
Информация о документе
- Формат документа
- Кол-во страниц
- 1 страница
- Загрузил(а)
- Лицензия
- —
- Доступ
- Всем
- Просмотров
- 3
Информация о статье
- EISSN
- 2687-0215
- Префикс DOI
- 10.33910/2687-0215-2022-4-2-107-121
- Журнал
- JOURNAL OF APPLIED LINGUISTICS AND LEXICOGRAPHY
- Год публикации
- 2022