Грамматическая разметка частей речи в машинном обучении
В машинном обучении грамматическая разметка частей речи или теги POS – это концепция обработки естественного языка, при которой мы назначаем тег для каждого слова в тексте в зависимости от контекста текста. Это помогает понять синтаксические компоненты текста для выполнения различных задач обработки естественного языка. Если вы никогда не использовали грамматическую разметку частей речи, то эта статья для вас. В этой статье я познакомлю вас с грамматической разметкой частей речи и ее реализацией с помощью Python.
Грамматическая разметка частей речи
Грамматическая разметка частей речи или теги POS означает присвоение тега каждому слову текста. Это присвоение тега базируется на контексте текста и любых связанных слов в нем. В процессе формирования тегов POS, фрагмент текста сначала разделяется на токены, а затем каждому токену присваивается метка на основе контекста и сходства с другими токенами.
Библиотека NLTK в Python имеет встроенную модель, которая обучается с использованием Корпуса Penn Treebank POS. Он представляет собой не что иное, как стандартный английский словарь тегов. Надеемся, теперь вы понимаете, что такое POS-теги в машинном обучении. В следующем разделе я расскажу вам о его реализации с использованием языка программирования Python.
Грамматическая разметка частей речи с использованием Python
Чтобы реализовать грамматическую разметку частей речи с использованием языка программирования Python, вам необходимо установить библиотеку NLTK в виртуальной среде Python. Если вы никогда не использовали его раньше, вы можете легко установить его с помощью команды pip:
- pip install nltk
Ниже показано, как можно реализовать теги POS с помощью Python:
import nltk nltk.download('averaged_perceptron_tagger') from nltk import word_tokenize, pos_tag sentence = "I will move to Himachal Pradesh forever!" tokens =word_tokenize(sentence) tags = pos_tag(tokens) print(tags)
Результат:
[('I', 'PRP'), ('will', 'MD'), ('move', 'VB'), ('to', 'TO'), ('Himachal', 'NNP'), ('Pradesh', 'NNP'), ('forever', 'RB'), ('!', '.')]
В приведенном выше примере вы можете видеть, что каждому слову предложения назначен тег. Здесь PRP означает личное местоимение, MD означает модальный глагол, VB означает глагол, NNP означает существительное собственное, а RB означает наречие. Вы можете просмотреть все теги в POS здесь.
Резюме
Грамматическая разметка частей речи или теги POS означает присвоение тега каждому слову текста. Это присвоение тега основано на контексте текста и любых связанных слов в тексте. Надеемся, вам понравилась эта статья о тегах POS в машинном обучении и их реализации с использованием Python.