2022년 9월 5일 월요일

Day_00. OT

수업 개요

수업 관련 문의 사항은 학교 메일로 보내기
실습시간 별도로 없음 – 자기가 알아서 진행
코딩과제는 2~3회
잠고자료는 8권
최종 Project는 term project로 진행
교재-Pdf로 진행


수업의 진행
-NLP의 기초를 진행하는 수업
시험보다 자기의 실습&해보기가 중요하다
최소 5번의 대면수업 진행 (월의 첫주 + 시작주 + 종강주(Project 발표주)


Chapter – 1 - Language and computers – 구글북스에서 책을 볼 수 있음
=언어와 writing language는 다르다 – 한국어=언어 한글-작성법, 엄연히 다른개념이다
=n-grams의 이해가 매우 중요함
=NT-Language technology
=글자 이해를 위해서는 컴퓨터의 2진수를 잘 이해해야 한다
=Python building function 으로 글자별 문자를 캐치할 수 있다





NLTK = Natural Language Toolkit = 글자를 token화 시키는 기능이 되는 package
=https://www.nltk.org/book/
=Pair로 제공되는 dataset이 잘 되어 있음
=discussion forum 에서 활동하는것도 활발하다
=수업에선 chapter 1,6 을 사용한다
=전통적 NLP Pipeline



NLP를 위한 변경 작업 4단계
=Datasets -> tokenizers -> Transformers -> datasets
핵심 keyword – 단어별 labeling 을 통한 효율의 증가



NLTK 해보기 실습





N-gram language model
=language model 은 문장의 단어에 대해 확률 분포를 둔 것
=문장에서 다음 나오는 단어 같은 경우 직전 단어에서 영향을 받아 설정된다 – Markov 가정


N-Gram 실습





Natural text 를 사용한 실습

=wiki에서 문장을 가져와서 실습한다
“Korean studies is an academic discipline that focuses on the study of Korea, which includes the Republic of Korea, the Democratic People's Republic of Korea, and diasporic Korean populations. Areas commonly included under this rubric include Korean history, Korean culture, Korean literature, Korean art, Korean music, Korean language and linguistics, Korean sociology and anthropology, Korean politics, Korean economics, Korean folklore, Korean ethnomusicology and increasingly study of Korean popular culture. It may be compared to other area studies disciplines, such as American studies and Chinese studies. Korean studies is sometimes included within a broader regional area of focus including "East Asian studies".

=수업교재에서 사용한 문장과 위키가 변경이 있었는지 결과가 다르게 나와서 올려두진 않음

-문자를 구분할때 쉼표, 반점, 마침표를 다 정리해서 "단어"로 만들어야 한다
-Train data의 특징에 따라 (정치,경제,사회 등)에 따라 가져온 문장이 다르고 이에 따른 결과가 다를수 있음

댓글 없음:

댓글 쓰기