Airflow 세팅 이유

<aside> 💡 입력으로 들어온 데이터를 일정 시간마다 학습 가능한 형식으로 변경하고 이를 이용해 다시 모델 학습에 활용하기 위함

</aside>

Untitled


Airflow Setting 환경

Untitled


Airflow setting log

<aside> 💡 아래는 airflow를 세팅하며 정리했던 기록입니다.

</aside>

DAG

용어 정리

용어 내용
DAG Directed Acyclic Graph. 실행 순서를 구조화하고 실행 context를 제공
Task Dag 내부에 존재하는 하나의 일(Task)의 단위
Task instance 각 Task의 개별 상태, ‘running’, ‘success’, ‘failed’, ‘skipped’, ‘up for retry’ 등의 상태값 보유
Operator 실제 Task가 어떻게 동작해야하는지에 대한 표현한 구현체
Hook 외부 플랫폼, 데이터베이스를 쉽게 사용할 수 있는 오퍼레이터의 한 종류
Sensor 지정된 행동이 성공했는지 주기적으로 확인하는데 쓰이는 오퍼레이터
backfill 스케쥴 시작시간이 과거일 경우, 과거부터 현재까지 실행되어야 할 DAG를 실행

실행자 Executor

GCP Compute Engine 세팅 및 ssh 연결