Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др. Python - один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание. В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python.
Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.
Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.
Все права на товарные знаки принадлежат их законным владельцам!
Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.
Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.
Спасибо, понятно.