예를 들어, WordNet은 거위를 거위에게 어지러워하고 자신에게 의미와 의미를 어지러워합니다. 이 예제에서는 포터 스템머보다 성능이 높습니다. 형태소 분석 알고리즘은 일반적으로 규칙 기반입니다. 당신은 단어의 끝에서 일종의 lops 휴리스틱 프로세스로 볼 수 있습니다. 단어를 보고 그것을 줄일 하는 방법을 결정 하는 일련의 조건부 통해 실행 됩니다. 형태소 분석 및 Lemmatization은 태그 지정 시스템, 인덱싱, SE, 웹 검색 결과 및 정보 검색에 널리 사용됩니다. 예를 들어 Google에서 물고기를 검색하면 물고기가 두 단어의 줄기이기 때문에 물고기가 낚시를 하게 됩니다. 이 자습서의 후반부에서는 응용 프로그램에서 형태소 분석 및 Lemmatization의 중요한 용도 중 일부를 살펴볼 것입니다. 형태소 분석 오류: 주로 형태소 분석과 형태소 분석 의 두 가지 오류가 있습니다. 과잉 형태소 분석은 두 단어가 다른 줄기의 동일한 루트에 형태소 분석될 때 발생합니다. 언더 형태소 분석은 두 단어가 다른 줄기가 아닌 동일한 루트로 줄기를 이루는 경우에 발생합니다. 형태소 분석과 Lemmatization은 모두 굴절된 단어의 루트 형태를 생성합니다. 차이점은 줄기가 실제 단어가 아닐 수도 있지만 lemma는 실제 언어 단어라는 것입니다.

형태소 분석은 루트/기본 단어의 형태학적 변종을 생성하는 과정입니다. 형태소 분석 프로그램은 일반적으로 형태소 분석 알고리즘 또는 형태소 분석기라고 합니다. 형태소 분석 알고리즘은 단어 «초콜릿», «초콜릿», «초코»를 루트 단어, «초콜릿»과 «검색», «검색», «검색»으로 줄입니다. 형태학과 인공지능(AI) 정보 검색 및 추출 분야의 언어 연구의 일부입니다. 형태소 분석 및 AI 지식은 최상의 결과를 얻기 위해 피사체와 관련된 단어의 추가 형태를 검색해야 할 수 있기 때문에 빅 데이터 나 인터넷과 같은 방대한 소스에서 의미있는 정보를 추출합니다. 형태소 분석은 쿼리 및 인터넷 검색 엔진의 일부이기도 합니다. 형태소 분석은 도메인 분석에서 도메인 어휘를 결정하는 데 사용됩니다. [14] 이것은 두 가지 가능한 방법을 통해 달성 될 수있다: 형태소 분석 및 lemmatization. 두 프로세스의 목적은 동일합니다 : 공통 기반 또는 루트로 각 단어의 굴절 형태를 줄이는 것입니다. 그러나 이 두 가지 방법은 정확히 동일하지 않습니다.

이 문서에서는 몇 가지 예제와 함께 이러한 차이점을 다겠습니다. 이 튜토리얼은 파이썬 nltk에서 다른 언어로 사용할 수있는 다른 줄기 를 볼 수 있습니다. 영어의 경우, 포터스태머 또는 랭커스터스태머, 포터스템머 중에서 선택할 수 있으며, 1979년에 처음 개발된 가장 오래된 언어입니다. 랭커스터스템머는 1990년에 개발되었으며 포터 형태소 분석 알고리즘보다 더 공격적인 접근 방식을 사용합니다. 의 단어를 줄기 위해 PorterStemmer를 시도하자, 그리고 그와 함께 당신은 단어를 형태소 분석하는 방법을 볼 수 있습니다. 이 튜토리얼은 포터 스템머와 랭커스터 스템머 (Paice-Husk 스템머)로 알려진 알고리즘에 깊이 가지 않을 것입니다,하지만 당신은 그들의 장점과 단점을 볼 수 있습니다. 형태소 분석은 웹 검색 엔진과 같은 쿼리 시스템에서 사용되어 왔지만, 과소 형태소 분석 및 과대 형태소 분석의 문제로 인해 올바른 결과를 반환하는 데 효과적이라는 것이 제한적이었습니다. 예를 들어`마케팅`을 검색하는 사람은 마케팅이 아닌 `시장`을 표시하는 결과에 만족하지 않을 수 있습니다. 그러나 형태소 분석은 다른 언어에서 유용할 수 있으며 형태소 분석에 다른 알고리즘을 사용하면 더 나은 출력이 발생할 수 있습니다.

구글 검색은 2003 년에 형태소 분석 채택. 형태소 분석 및 레어마이션은 검색 쿼리에서 변곡점을 처리하는 두 가지 접근 방식입니다. 우리는 그들 각각에 대해 논의 한 다음 정식화라고 부르는 보다 일반적인 접근 방식을 고려할 것입니다. 감정 분석은 사람들의 리뷰와 무언가에 대한 의견의 분석입니다. 그것은 널리 온라인 소매 상점에서 제품의 분석에 사용됩니다.