본문 바로가기
반응형

지덕이의 데이터 분석58

데이터 사이언티스트 면접자를 위한 SQL 기본 가이드 엔터프라이즈 데이터 영역에서 SQL은 널리 사용됩니다. NoSQL이 부상하기 전, 관계형 데이터베이스에서 데이터를 검색할 때 SQL은 가장 먼저 떠오르는 쿼리 언어였습니다. High scalability가 DeveloperWeek의 IT 리더 대상으로 수행한 설문 조사에 따르면 2019년에도 SQL은 여전히 60% 이상 사용되고 있었습니다. 다중 데이터베이스 전략(SQL+NoSQL)이 75% 이상이었습니다. 놀랄 일이 아닌 것이, 상이한 유형의 데이터베이스는 서로 다른 목적으로 사용되니까요. (관심이 있으시다면 여기서 더 읽어보실 수 있습니다.) 모든 관계형 데이터베이스 중에서 MySQL은 여전히 가장 인기 있는 데이터베이스입니다. 좋은 머신러닝 알고리즘을 개발할 줄 알고, Kaggle 대회에도 참가하며.. 2022. 9. 24.
[파이썬] 인스타그램 해쉬태그(#) 검색결과 크롤링하기_최신ver. 인스타그램 해쉬태그 검색결과 크롤링하는 코드를 올렸었어요, 감사하게도 많은 분들이 참고해주셨는데 Meta에서 마크업을 계속 수정하다보니까 코드가 작동 안 한다는 민원이 계속 접수되더군요. 그 때마다 코드를 수정하는 식으로 응대를 하다가 저도 현업이 있는 사람이다보니 어느 시점 이후로는 팔로우업을 못 하겠더라고요. 지금 올리는 수정 코드를 마지막으로 인스타그램 해쉬태그 크롤링 코드에 대한 A/S는 없을 예정입니다. 혹시 크롤링이 필요하신 분은 비밀댓글 주세요. 싸게 해드릴게요... 아래 정리한 코드는 글이 작성된 오늘까지도 제대로 작동되는 걸 확인한 코드입니다. 수정 요청은 받지 않습니다. 결과물 형태 - 아래 스크린샷처럼 본문 텍스트, 작성일, 좋아요 수, 장소, 삽입된 태그가 엑셀로 정리돼 저장되는 코.. 2022. 8. 13.
7월 증시캘린더 | 공모주 일정, 각종 지수 발표, 정부당국 동향 등 7월 증시캘린더를 스크래핑했습니다. 원천 데이터(키움증권 모바일 증시캘린더)예요. 늘 해당 월이 되기 전에 크롤링을 하다가 이렇게 당월에 부랴부랴 크롤링하는 게 처음인데, 웬걸? 당월에도 일정이 계속 업데이트가 되고 있더군요. 그러니까 6월 말에 들어가서 본 7월 캘린더랑 7월에 들어가서 본 7월 캘린더가 많이 다르더란 말입니다. 앞으로는 해당 월 초 정도에 들어가서 긁어올까 봐요. 7월 증시 주요 일정 Start Date Subject 2022/07/01 홍콩 증시 휴장 2022/07/01 美) 6월 ISM 제조업지수 2022/07/01 ECB, 채권 매입 종료 예정 2022/07/01 도시가스 요금 인상 예정 2022/07/01 위메이드, 위믹스 3.0 테스트넷 오픈 예정 2022/07/01 넥스트칩.. 2022. 7. 9.
[파이썬-오픈API] 한국은행 경제통계지표 추출 데이터 소개 실제로 한국은행에는 돈다발이 쌓여있다는 점에서 노다지(종의의 집?)이기도 하지만, 투자 의사결정에 도움되는 방대한 데이터들을 보유하고 있다는 점에서 노다지이기도 합니다. 이 데이터들은 모두 오픈API로 공개되어 있기 때문에 파이썬에 대한 이해가 조금만 있으면 내가 관심 있는 통계지표, 거의 모든 경제지표의 긴~ 시계열 데이터를 추출해낼 수 있습니다. 제가 관심을 가지고 있는 지표가 하나 있어 그거 소개 겸, 추출 코드 기록 겸 글을 씁니다. 라는 지표인데요. 해당 지표가 주가와 무척 높은 상관관계가 있다는 점은 이전 포스팅에서 설명한 바 있습니다. 주가와 경기를 예측하기 위한 선행지표 근미래의 적정 KOSPI 지수를 예측하기 위한 모델을 개발하고 있습니다. 모델에 투입될 피쳐(feature).. 2022. 7. 2.
반응형