파이썬으로 배우는 자연어 처리 액션

https://www.amazon.com/ Natural-Language-Processing-Action-Understanding/dp/1617294632Summary Natural Language Processing in Action is your guide to creating machines that understand human language using the power of Python with its ecosystem of packages dedicated to NLP and AI. Purchase of the print book includes a free eBook in PDF, Kindle, and ePub formats from Manning Publica…www.amazon.com

책 소개 사람의 언어를 읽고 해석할 수 있는 프로그램을 만들려는 모든 개발자를 위한 지침서다. 바로 사용할 수 있는 파이썬 패키지를 이용하여 텍스트의 의미를 포착하고 그가 반응하는 치에쯔봇을 구축한다. 또 전통적인 NLP접근 방식은 물론 더 최근의 심화 학습 알고리즘과 텍스트 생성 방법을 동원하고 날짜와 이름의 추출, 텍스트 작성, 비정형 질문에 대답 같은 다양한 실질적인 NLP문제를 해결한다.목차 PART I말 많은 컴퓨터:NLP의 기초 1CHAPTER 1사고의 단위:NLP의 개요 31.1자연 언어-프로그래밍 언어 41.2마법 51.2.1대화하는 기계 61.2.2수학 71.3, 실제 응용들 91.4컴퓨터’눈’에서 본 언어 111.4.1키 언어 121.4.2정규 표현식 131.4.3 간단한 치에쯔봇 141.4.4또 다른 방법 191.5 짧은 쵸콤강 탐험 231.6단어의 순서와 문법 251.7치에쯔봇의 자연 언어 처리 파이프 라인 271.8, 더 깊은 처리 301.9자연 언어 IQ 32요약 35

CHAPTER 2나만의 어휘의 구축:단어 토큰화 372.1문제:어간 추출의 개요 392.2토큰 생성기를 이용한 어휘의 구축 402.2.1내적 502.2.2두 단어 집의 중복 측정 512.2.3토큰의 개선 522.2.4 n-그램을 이용한 어휘 확장 582.2.5어휘 정상화 662.3감정 분석 762.3.1 VADER― 규칙 기반 감정 분석기 782.3.2단순 베이스 모델 80요약 84

CHAPTER 3말 잘하는 수학:TF-IDF벡터 853.1단어 집 863.2벡터화 923.2.1벡터 공간 953.3지프의 법칙 1013.4주제의 모형화 1043.4.1 돌아온 지프 1083.4.2관련성 순위 1103.4.3주요 도구:scikit-learn 1123.4.4여러 TF-IDF정규화 방법 1133.4.5 Okapi BM25 1153.4.6차 단계 116요약 116

CHAPTER 4단어의 빈도로 의미를 찾는다:의미 분석 1174.1단어의 빈도에서 주제의 점수로 1194.1.1 TF-IDF벡터와 표제어 추출 1194.1.2주제 벡터 1204.1.3사고 실험 1224.1.4주제의 점수를 매기는 알고리즘 1274.1.5 LDA분류기 1294.2잠재 의미 해석(LSA)1344.2.1사고 실험의 실현 1374.3투 크잇가프 분해 1404.3.1왼쪽 특이 벡터 행렬 U 1424.3.2투 크잇가프 행렬 S 1434.3.3오른쪽 특이 벡터 행렬 VT 1454.3.4 SVD의 행렬의 방향 1454.3.5주제 절단 1464.4 주성분 분석(PCA)1484.4.1 3차원 벡터에 대한 PCA 1504.4.2화에서 멀어졌다가 다시 NLP에 와서 1524.4.3 PCA을 이용한 문자 메시지잠재 의미 분석 1544.4.4에 절단된 SVD를 이용한 문자 메시지의 잠재적 의미 분석 1574.4.5스팸 분류에 관한 LSA의 정확도 1584.5잠재 디리클레 할당(LDiA)1614.5.1 LDiA의 기초 1624.5.2문자 메시지 코퍼스에 대한 LDiA주제의 모형 1654.5.3 LDiA+LDA=스팸 분류기 1684.5.4더 공정한 비교:테마가 32개인 LDiA 1714.6거리와 유사도 1734.7피드백에 기초한 방향 조정 1764.7.1선형 판별 분석(LDA)1774.8테마 벡터의 위력 1794.8.1의미 기반 검색 1814.8.2의 개선 방안 184요약 184

PART II보다 깊은 학습:신경망 적용 185CHAPTER 5신경망 첫걸음:퍼셉트론과 욕쵸은파 1875.1신경망의 구성 요소 1885.1.1퍼셉트론 1895.1.2데지탈파ー세프토롱 1905.1.3편향 단위 1915.1.4오차 곡면을 돌며 2075.1.5경사로를 따라서 활강 2085.1.6 흔들고 탈출 2105.1.7케라스:신경망 파이썬 구현 2115.1.8보다 깊이 배우고 싶다면 2155.1.9규격화:스타일 있는 입력 215요약 216

CHAPTER 6단어 벡터를 이용한 추론:word2vec활용 2176.1의미 기반의 질의와 비유 2186.1.1비유 질문 2196.2단어 벡터 2216.2.1벡터 지향적 추론 2256.2.2 word2vec의 단어 표현 계산 2286.2.3 gensim.word2vec모듈의 사용법 2386.2.4나만의 단어 벡터 모형 만들기 2416.2.5 word2vec-GloVe 2446.2.6 fastText 2456.2.7 word2vec-LSA 2466.2.8단어의 관계의 시각화 2476.2.9, 인위적인 단어 2546.2.10 doc2vec을 이용한 문서 유사도 추정 256요약 258

CHAPTER 7의 단어의 순서를 고려한 의미 분석:합성곱 신경망 2597.1의미의 학습 2617.2메뉴 바 2627.3합성곱 신경망 2647.3.1상승 신경망 구조 2647.3.2단계 크기(보폭)2667.3.3필터의 구성 2667.3.4의 여백 2687.3.5훈련(학습)2707.4또 텍스트에 2717.4.1땅 강아지 중에 새기다 신경망 실장:자료 준비 2737.4.2상승 신경망 구조 2797.4.3풀링 2807.4.4탈락 2837.4.5마지막 층 추가 2847.4.6모델의 보존 및 시험 2867.4.7의 모형을 NLP파이프 라인에 도입 2897.4.8, 나머지 이야기 290요약 292

CHAPTER 8 대한 신경망:순환 신경망 2938.1과거를 알고 있는 순환 신경망 2968.1.1시간에 욕쵸은파 3018.1.2무엇을 언제 갱신하는가? 3038.1.3정리 3068.1.4여느 때처럼 구멍이 있다 3078.1.5케라 소스를 이용한 순환 신경망 구현 3078.2모형의 컴파일 3128.3모형의 훈련 3158.4초 매개 변수 조정 3198.5예측 3198.5.1상태 유지 3208.5.2쌍방향 처리 3218.5.3순환층 출력의 의미 323요약 323

CHAPTER9장단기 기억망(LSTM망)을 이용한 기억 유지 개선 3259.1장단기 기억망(LSTM망)3279.1.1시간에 역전파 3369.1.2예제 글로 모형을 시험 3399.1.3 더러운 자료 3409.1.4다시 더러운 자료에 돌아가3449.1.5단어보다 문자가 간단하다. 3459.1.6화가 시작된 신경망 3529.1.7구체적인 예제 하나 3549.1.8무엇을 말하는 거냐? 3639.1.9 다른 종류의 기억 수단 3639.1.10더 깊이 들어가고 364요약 366

CHAPTER10순차적으로 열과 순차적으로 열 모형과 주의 메커니즘 36710.1부호기-복호화기 구조 36810.1.1생각 벡터의 복호화 36910.1.2 비슷한 구조 37110.1.3대화 생성을 위한 순차적으로 열과 순차적으로 열 모형 37310.1.4LSTM복습 37410.2차례차례열-점차 열 NLP파이프 라인 구축 37510.2.2.2각질 스의 순차열-점차 열 모형 37610.3차례로 열 부호기 37710.2.410.4980.510.410.410.410.3차례로 열 순환 신경망 110.4차례로 열과 순차적으로 열 신경망을 이용한 채팅 봇 구축 38310.4.2문자 사전 구축 38410.4.3한 핫 부호화 훈련 집합 생성 38510.4.4차례로 열과 순차적으로 열 채팅 봇의 훈련 38610.4.5점차열 생성을 위한 모형 설정 38710.4.6차례로 열 생성(측) 38710.4.7 응답문 생성 및 출력 38810.4.8 챗봇과 대화 38910.5 개선안 39010.5.1 배팅을 이용한 학습복잡도 감소 39010.5 순차 열대 4.5 순차주의 메커니즘 39010.5 순차주의

PARTII 응용: 실제 NLP 문제 397 CHAPTER 11 정보 추출: 개체명 인식과 질의응답 39911.1 개체명과 개체관계 39911.1.2 정보 추출 40311.2 정규패턴 40411.2 정규표현식 40511.2 기계학습 특징 추출로서의 정보 추출 40611.3 추출할 수 있는 정보 40811.3.2일자 추출 40911.4.1 품사 태깅 41611.4.1 개체명 정규화 42011.411.411.411.411.411.411.411.411.411.411.4123.411.411.411.411.411.411.411.411.411.411

CHAPTER 12 챗봇(대화엔진) 만들기 43112.1 대화능력 43212.1.1 현대적 접근방식 43412.2 혼합형 접근방식 44312.2 패턴부합 챗봇 구현 44312.2 패턴부합의 그래프 시각화 45012.3 근거화 45412.4.1 문맥관리의 어려움 45412.4.2 정보검색기반 챗봇 예제 45612.4.3 Chatterbot 소개 46012.5 생성모형 46312.1 NLPIA에 관한 각 대화방식

P.109 간단한 검색 엔진은 바로 이 TF-IDF 수치 하나에 기반한다. 이 수치로 인해 우리는 텍스트(문자열) 처리의 세계에서 수치 연산의 세계로 확실히 옮겨오게 되었다. 다음 절부터는 이 수치로 할 수 있는 계산을 살펴본다. 사실 여러분이 TF-IDF 계산을 구현하는 코드를 실제로 작성하는 경우는 거의 없을 것이다. 선형대수를 몰라도…더 보기

P.130LDA 모형 훈련에 필요한 것은 이진 부류의 두 중심을 연결하는 직선을 찾는 것이다. 이번 예제 분류기는 주어진 단문문자(SMS) 메시지가 스팸인지 여부를 분류한다. 즉 이진 부류는 스팸 대 비스팸이다. LDAP 학습에 속하므로 훈련용 문자(SMS) 메시지에 분류명(class label)을 붙여두면…더 보기

P.153 이런 과대적합은 NLP의 고질적인 문제다. 사람들의 다양한 어법과 어휘를 포함해 응용 분야에 맞는 적절한 분류명이 붙은 자연어 자료의 집합을 구하기는 쉽지 않다. 사실 나는 스패머들이 고안할 만한 모든 스팸성 단어와 비스팜성 단어를 포함한 거대한 문자메시지 데이터베이스를 구할 수 없었다. 그런 자료집합을 만들어 낼 수 있는…더 보기

P.293 합성곱 필터는 인접한 단어에서 특정 패턴을 검출한다. 그리고 단어의 위치가 조금만 바뀌어도 합성곱 신경망 출력은 크게 영향을 받지 않는다. 중요한 점은 서로 가까운 개념이 합성 7개의 신경망에 큰 영향을 준다는 것이다. 하지만 더 넓은 시야에서 텍스트를 바라보고, 더 긴 시간 구간에서 단어간의 관계를 파악하고 싶다…더 보기

추천문 NLP 시스템의 내부 작동 방식을 이해하는 것은 물론, 여러분 스스로 알고리즘과 모형을 만드는 데 필요한 이론과 실무 지식도 배운다. – Dr. 아전 그리피온

최근 사용되고 있는 파이톤 NLP 툴을 잘 개괄한다. 나의 NLP 프로젝트마다 이 책을 가지고 다닐 것이다. 강추! – 토니 멀론 (노스이스턴 대학교 (시애틀))

NLP를 시작하는 사람을 위한 직관적인 지침서! NLP를 매우 실용적으로 배울 수 있는 프로그래밍 예들로 가득하다. – 토마소 테오필리(Adobe Systems))

저자 및 역자 소개 홉슨 레인(Hobson Lane)(저자 파일 최고의 작품 투표 신간 통지 신청인 대신 중요한 결정을 내리는 자율 시스템을 구축하는 분야에서 20년의 경험을 쌓았다. 그는 Keras, scikit-learn, PyBrain과 같은 다양한 오픈소스 프로젝트에 적극 기여했으며, 현재 Total Good에서 오픈소스 인지조교(cognitive assistant) 구축을 비롯한 개방형 과학 연구 및 교육 프로젝트를 수행하고 있다. 또한 AIAA, PyCon, IEE 등에 논문을 게재하거나 강연하고 있으며 로봇공학과 자동화에 관한 다양한 특허도 가지고 있다.최근작: ‘파이톤으로 배우는 자연어 처리 인 액션’… 총 2종(모두 보기) 하네스 맥스 하프케(Hannes Max Hapk)(저자 파일 최고의 작품투표 신간 통지 신청 전기공학자가 기계학습공학자로 변신한 사례다. 대학에서는 신경망 개념을 신재생에너지 발전소를 효과적으로 제어하는 데 적용했다. 구인·구직, 보건응용프로그램을 위한 심층학습 모형과 기계학습 파이프라인을 개발하는 프로젝트에 참여해 OSCON, OpenSource Bridge, Hack University와 같은 다양한 컨퍼런스에서 기계학습을 주제로 강연했다.최근작: ‘파이톤으로 배우는 자연어 처리 인 액션’… 총 3종(모두 보기) 콜 하워드(Cole Howard) (저자 파일 최고의 작품투표 신간 통지 신청 기계학습 공학자이자 NLP 실무자이자 작가다. 대규모 전자상거래 추천 엔진과 고차원 기계지능 시스템을 위한 최신 심층학습신경망을 개발했으며 그의 모형은 Kaggle 공모전에서 상위에 랭크됐다. 또한 OpenSource Bridge Conference와 Hack University에서 합성곱의 신경망과 순환신경망에 관해, 그리고 그러한 신경망이 자연어 처리에서 차지하는 역할에 대해 강연했다.최근작: 《파이톤으로 배우는 자연어 처리 인 액션》… 총 2종(모두 보기) 류광(역자) 저자 파일 최고의 작품 투표 신간 통지 신청 25년여의 번역 경력을 가진 전문 번역가로, 카누스 교수의 『컴퓨터 프로그래밍 예술』(The Art of Computer Programming) 시리즈와 스티븐스의 『UNIX 고급 프로그래밍』(Advanced Programming in UNIX Environment) 제2판 및 제3판을 포함하여 60여권의 다양한 IT전문서를 번역했다. 본서와 관련된 역서로는 『클라우드 시스템을 관리하는 기술』, 『처음 배우는 암호화』, 『Beginning Linux Programming 제4판』 등이 있다.번역과 프로그래밍 외에…더 보기

최신작 : <Core PHPProgramming> … 총 92종 (모두보기) 출판사 제공 책 소개

파이썬과 다양한 AI 패키지로 만드는 수준 높은 예제!최신 NLP 제품과 서비스 개발을 위한 실용주의적 안내서!

최근 심층학습(딥러닝) 기술이 발전하면서 응용 프로그램이 매우 정확하게 텍스트와 음성을 인식하게 됐다. 또한 새로운 기술과 Keras나 Tensor Flow 같은 사용하기 쉬운 도구 덕분에 이제는 고품질 NLP(자연어 처리) 응용 프로그램을 이전보다 쉽게 만들어낼 수 있다.

이 책은 사람의 언어를 읽고 해석할 수 있는 프로그램을 만들고자 하는 모든 개발자를 위한 지침서다. 본 책에서는 바로 사용할 수 있는 파이톤 패키지를 이용하여 텍스트의 의미를 포착하고 그에 따라 반응하는 챗봇을 구축한다. 또 전통적인 NLP접근 방식은 물론 더 최근의 심화 학습 알고리즘과 텍스트 생성 방법을 동원하고 날짜와 이름의 추출, 텍스트 작성, 비정형 질문에 대답 같은 다양한 실질적인 NLP문제를 해결한다.

이 책의 주요 내용 ■ Keras, Tensor Flow, gensim, scikit-learn 사용법 ■ NLP의 규칙 기반 접근법과 자료 기반 접근법 ■ 규모 확장이 용이한 NLP 파이프라인