분류 전체보기
-
Spark⏰ 오늘의 공부/기타 2020. 3. 2. 20:06
프로젝트를 통해 내가 부딪혔던 부분들 위주로 정리하려고 한다. SparkSession - Spark 모든 기능에 대한 진입점 spark = pyspark.sql.SparkSession.builder.appName("pysaprk_python").getOrCreate() builder - 객체 생성 master - 실행 환경 설정 local : 로컬 실행 local[4] : 4코어로 로컬 실행 config - 실행 옵션 설정, SparkConf 및 SparkSession 자체 구성에 자동으로 전파 getOrCreate - 기존 SparkSession을 가져오거나 없는 경우 실더에 설정된 옵션을 기반으로 새로운 SparkSession을 생성 Spark collect () / select() collect :..
-
[Quadcore Team/Trend] 인기 트윗 랭킹it's me/👩💻 프로젝트 정리 2020. 3. 2. 18:50
이제서야 올리는 프로젝트 정리 2... * 인기 트윗 랭킹 추출 과정 1) Cassandra to Spark 카산드라의 raw data 중 리트윗 된 data 추출 ( 올라오는 트윗 중 80% 이상이 리트윗 데이터) 현재시간 기준 30초 전까지 data 추출 if __name__ == "__main__": while True: # 현재시간 마이크로 세컨즈 까지 current_time = int(time.time() * 1000000) # 현재시간 마이크로 세컨즈 까지 # redis 저장 포맷 시간 형식 ( 년/월/일/시/분) 으로 current_time_format = datetime.datetime.fromtimestamp(int(current_time/1000000)).strftime('%Y/%m/%..
-
[Quadcore Team/Trend]해시태그 분석it's me/👩💻 프로젝트 정리 2020. 2. 26. 16:15
미루고 미루다 이제서야 올리는 프로젝트 정리 1... * Hashtag Ranking 과정 1) raw tweet 전처리 raw tweet df 중 'entities.hashtags.text' 추출 ( 해시태그 column 만 추출 ) rdd 로 만든 후 collect()를 통해 모든 row 하나의 리스트 안에 저장되도록 하기 def process(rdd): try: rawTweet = spark.read.json(rdd) #creates an in-memory table that is scoped to the cluster in which it was created. rawTweet.registerTempTable("tweets") hashtag = rawTweet.selectExpr('entities..
-
서버개발캠프에서 한 달을 보내며it's me/☁️ 수많은 생각들 2020. 2. 3. 11:26
서버개발캠프를 시작한 지 어엿 한 달이 되었다. 한 달이란 시간이 이렇게 빠를 수 있나 싶을 정도로 빠르게 지나갔고 많은 일들이 있었다. 캠프를 하는 한 달 동안 배움의 성장, 기술적 성장뿐 아니라 나 자신에 대해서 끊임없이 고민하고 생각하게 되었던 좋은 기간이었다. 그리고 무엇보다도 같은 문제에 대해 즉각적으로 함께 고민할 수 있는 동료들이 옆에 있어서 더욱 성장할 수 있었던 것 같다. 캠프를 통해 프로젝트를 진행하면서 가장 많이 변화한 점 중 하나는 정리 습관과 체계적인 프로젝트 관리법이다. 매번 개발을 하면서 모르는 부분이 있을 때 그냥 그것을 찾아서 적용시키고 끝이었다면 이번 캠프에서는 노션을 통해 내가 배웠던 부분, 진행했던 부분, 어려웠던 부분들을 정리하는 좋은 습관을 들이게 되었다. 또한 팀..
-
[4주차] - word count with Sparkit's me/👩💻 프로젝트 정리 2020. 2. 1. 02:39
서버개발캠프 4주차인 이번주부터는 본격적으로 팀 프로젝트를 시작했다. 4주차 나의 Milestone : spark 활용하여 word count 로 단어 분석 + api 설계 스파크 책 2.3장 학습 스파크 책 12.13장 학습 스파크 책 21장 스트리밍 처리 학습 실시간으로 데이터 받아와서 word count 실행 이 중 api 설계를 제외하고는 그래도 다 진행했다 ! ⭐️ 이번주 정리 Spark - word count Spark 에서는 기본적으로 kafka flume kinesis Tcp sockets 파일 시스템 ex) hdfs , s3 ... 으로부터 data source 들을 받아올 수 있다. 나는 아직 kafka 연결을 하지 않았기 때문에 Tcp socket 통신을 이용하여 twitter api..