'DATA' 카테고리의 글 목록

RDD를 사용하여 단어 빈도수를 계산

from pyspark.sql import SparkSessionfrom pyspark import SparkContextfrom pyspark.rdd import RDD# SparkSession 생성# SparkSession은 DataFrame API 및 SQL의 진입점# SparkContext는 RDD API의 진입점ss: SparkSession = SparkSession.builder.\ master("local").\ # 로컬 모드에서 Spark 실행 (싱글 코어 또는 멀티 코어) appName("wordCount RDD ver").\ # 애플리케이션 이름 설정 getOrCreate() # SparkSession이 없으면 새로 생성, 있으면 기존 SparkSession을 반환..

2025.01.19

Incremental(증분) 방식과 문제점 | Lambda | Kappa Architecture

1. 문제 상황트래픽 증가 문제페이지 조회 이벤트가 발생할 때마다 DB에서 view_count를 즉시 갱신하면 다음과 같은 문제들이 발생한다:DB 부하 증가:매 이벤트마다 DB에 view_count + 1 업데이트 쿼리를 실행.트래픽이 증가할수록 데이터베이스의 I/O 작업이 많아져 병목 발생.성능 병목:다수의 사용자가 동시에 조회 요청을 보낼 경우, 처리 속도가 느려짐.DB 서버의 성능이 낮거나 트래픽이 급증하는 경우에는 웹 서버까지 응답 속도가 느려짐.데이터 손실 위험:트래픽 과부하로 인해 DB가 요청을 처리하지 못하거나, 타임아웃이 발생하면 이벤트 데이터가 손실.2. Incremental(증분) 방식의 원리Incremental 방식은 데이터베이스와의 상호작용 빈도를 줄이고, 성능을 최적화하기 위해 다..

2025.01.18

AWS kafka

2024.11.29

Kafka Producer, Consumer 설정

2024.11.29

카프카 모니터링 툴을 설정

1. Docker 설치 1. docker 그룹 생성우선 Docker 그룹이 존재하지 않는 문제를 해결해야 한다. Docker 그룹을 생성하려면 아래 명령어를 실행한다.sudo groupadd docker2. 사용자를 docker 그룹에 추가그룹을 생성한 후, 사용자 ($USER)를 docker 그룹에 추가한다.sudo usermod -aG docker $USER3. 세션 새로고침usermod 명령어를 사용한 후, 새로운 세션을 시작하거나 시스템을 재시작해야 한다. 터미널에서 newgrp docker 명령어로 그룹 변경을 적용할 수 있다.newgrp docker그렇지 않으면 시스템을 재시작하여 변경사항을 적용할 수 있다.sudo reboot4. Docker 명령어 실행이제 Docker 권한이 정상적으로 ..

2024.11.28

Kafka 로컬 설치

WSL에 Homebrew 설치하기Homebrew 설치 스크립트 실행먼저, WSL에 Homebrew를 설치하려면 아래 명령어를 실행 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" 설치 경로 확인설치가 완료되면, 설치 경로를 환경 변수에 추가해야 한다. 설치 스크립트에서 출력된 경로를 복사하거나, 일반적으로는 아래 경로에 설치된다.echo 'eval "$(/home/linuxbrew/.linuxbrew/bin/brew shellenv)"' >> ~/.profileeval "$(/home/linuxbrew/.linuxbrew/bin/brew shellenv)" 환경 변수 갱신.p..

2024.11.28

JJ의메모장

JJ의메모장

태그

최근글

댓글

공지사항

아카이브

DATA(82)

티스토리툴바