본문 바로가기
728x90
반응형

AI 입문/Deep Learning13

13장 - 실전 문제 해결을 위한 모범 사례 13.1 모델의 최대 성능을 끌어내기 13.1.1 하이퍼파라미터 최적화 딥러닝 모델을 만들 때 무작위로 보이는 결정을 많이 하곤 한다. 얼마나 많은 층을 쌓아야 할까? 층마다 얼마나 많은 유닛이나 필터를 두어야 할까? relu 활성화 함수를 사용해야 할까? 아니면 다른 함수를 사용해야 할까? 어떤 층 뒤에 BatchNormalization을 사용해야 할까? 드롭아웃은 얼마나 해야 할까? 등이다. 이런 구조에 관련된 파라미터를 역전파로 훈련되는 모델 파라미터와 구분하여 하이퍼파라미터(hyperparameter)라고 부다. 실제로 경험 많은 머신 러닝 엔지니어와 연구자는 하이퍼파라미터에 따라 작동하는 것과 작동하지 않는 것에 대한 직관을 가지고 있다. 하이퍼파라미터 튜닝에 관한 기술을 가지고 있는 셈이지만 .. 2023. 2. 23.
12장 - 생성 모델을 위한 딥러닝 12.1 텍스트 생성 12.1.1 시퀀스 생성을 위한 딥러닝 모델의 간단한 역사 2014년 후반 머신 러닝 공동체에서도 소수의 사람만이 LSTM이란 용어를 알았다. 순환 네트워크를 사용하여 시퀀스 데이터를 성공적으로 생성한 애플리케이션은 2016년이 되어서야 주류가 되기 시작했다. 2000년대 후반과 2010년대 초반에 알렉스 그레이브스(Alex Graves)는 순환 네트워크를 사용하여 시퀀스 데이터를 생성하는 데 아주 중요한 선구적인 일을 했다. 특히 2013년에 펜 위치를 기록한 시계열 데이터를 사용하여 순환 네트워크와 완전 연결 네트워크를 혼합한 네트워크로 사람이 쓴 것 같은 손글씨를 생성했으며, 이 작업이 전환점이 되었다. 때맞추어 등장한 특별한 이 신경망 애플리케이션은 꿈을 꾸는 컴퓨터를 상상하.. 2023. 2. 23.
11장 - 텍스트를 위한 딥러닝 11.1 자연어 처리 소개 자연어 : 사람의 언어 기계어는 설계된 언어 - 엔지니어가 해당 언어로 쓸 수 있는 문장과 이 문장의 의미를 기술하는 일련의 규칙을 작성한다. - 규칙이 먼저고 규칙이 완성된 후에야 이 언어를 사용한다. 사람 언어는 반대이다 - 먼저 사용되고 나중에 규칙이 생긴다. 11.2 텍스트 데이터 준비 미분 가능한 함수인 딥러닝 모델은 수치 텐서만 처리할 수 있다. 원시 텍스트를 입력으로 사용할 수 없다. 텍스트 벡터화(vectorization)는 텍스트를 수치 텐서로 바꾸는 과정이다. 텍스트 벡터화 과정 먼저 처리하기 쉽도록 텍스트를 표준화(standardization)한다. 소문자로 바꾸거나 구두점을 제거하는 등이다. 텍스트를 (토큰(token)이라고 부르는) 단위로 분할한다. 예를.. 2023. 2. 12.
10장 - 시계열을 위한 딥러닝 10.1 다양한 종류의 시계열 작업 시계열(timeseries) 데이터 : 일정한 간격으로 측정하여 얻은 모든 데이터 ㄴ 주식의 일별 가격, 도시의 시간별 전력 소모량, 상점의 주간별 판매량 등 시계열을 다루려면 시스템의 역학(dynamics)(주기성, 시간에 따른 트렌드, 규칙적인 형태와 급격한 증가 등)을 이해해야 한다. 가장 일반적인 시계열 관련 작업은 예측(forecasting)이다. 이외에도 다양한 시계열 작업이 있다. 분류: 하나 이상의 범주형 레이블을 시계열에 부여한다. 이벤트 감지: 연속된 데이터 스트림에서 예상되는 특정 이벤트 발생을 식별한다. 이상치 탐지(anomaly detection): 연속된 데이터 스트림에서 발생하는 비정상적인 현상을 감지한다. 일반적으로 비지도 학습(unsupe.. 2023. 2. 8.
9장 - 컴퓨터 비전을 위한 고급 딥러닝 9.1 세 가지 주요 컴퓨터 비전 작업 3개의 주요 컴퓨터 비전 작업 이미지 분류(image classification) : 이미지에 하나 이상의 레이블을 할당하는 것이 목표입니다. 이미지 분할(image segmentation): 이미지를 다른 영역으로 ‘나누’거나 ‘분할’하는 것이 목표입니다. 객체 탐지(object detection): 이미지에 있는 관심 객체 주변에 (바운딩 박스(bounding box)라고 부르는) 사각형을 그리는 것이 목표입니다. 이외에도 여러 가지 틈새 분야 작업 이미지 유사도 평가(image similarity scoring)(두 이미지가 시각적으로 얼마나 비슷한지 추정하기), 키포인트 감지(keypoint detection)(얼굴 특징과 같이 이미지에서 관심 속성을 정확히.. 2023. 1. 22.
8장 - 컴퓨터 비전을 위한 딥러닝 CNN(Convolutional Neural Network) : 딥러닝 모델의 한 종류, convnet이라고도 부름 8.1 합성곱 신경망 소개 ConvNet 정의와 ConvNet이 컴퓨터 비전 관련 작업에 잘 맞는 이유에 대한 이론적 배경을 설명. 2장에서 밀집 연결 신경망(densely connected network)으로 풀었던 MNIST 숫자 이미지 분류에 컨브넷을 사용할 예정. 컨브넷 배치 차원을 제외하고 (image_height, image_width, image_channels) 크기의 입력 텐서를 사용한다는 점이 중요. Conv2D와 MaxPooling2D 층의 출력 : (height, width, channels) 크기의 랭크-3 텐서. ㄴ (높이와 너비 차원은 모델이 깊어질수록 작아지는 .. 2023. 1. 22.
728x90
반응형