본문 바로가기
반응형

Programming51

전체 상장기업 재무제표 조회방법(feat. 파이썬으로 DART API 호출) 퀀트투자 혹은 종목 스크리닝을 자체적으로 해보려고 툴을 만들었는데요. 이 때 필요한 것이 상장기업 전체에 대한 재무정보 혹은 재무제표입니다. 전체 상장기업의 데이터를 얻는 가장 일반적인 방법은 웹 크롤링일 텐데, 재무제표를 확인할 때 널리 이용하는 Company guide(Fn guide)나 네이버 증권 등의 재무제표 페이지에 접속해 파이썬 웹 스크래핑 라이브러리(Request나 Selenium)를 이용해 해당 페이지의 데이터를 긁어오는 겁니다. 저도 일찍이 컴패니 가이드의 재무제표 데이터를 수집하는 코드를 작성해 공유한 바 있습니다. Company Guide(Fn Guide) 전종목 재무제표 크롤링 [퀀트투자를 위한 툴 만들기 2] Company Guide(Fn Guide)에서 종목 재무정보 추출 파이.. 2022. 5. 11.
파이썬 streamlit으로 데이터 시각화 웹어플리케이션 배포하기 보통 파이썬으로 데이터 시각화 대시보드를 만들거나 머신러닝 앱을 빌드해 온라인으로 배포한다고 하면 쟝고나 플라스크를 떠올리기 마련입니다. 그런 프레임워크들을 사용함으로써 얻을 수 있는 이점은 분명 존재합니다. 그러나 그 프레임워크가 사용자 친화적인지, 빠른지, 코드를 간략하게 작성하고자 하는 개발자에게도 적합한지 물으면 자신 있게 그렇다고 대답하긴 어렵습니다. 즉, 재빠르게 머신러닝 어플리케이션을 선보여야 하는 프로젝트나 몇 명 되지도 않는 소규모 팀에서 쟝고나 플라스크 개발자를 따로 두어야 할 이유가 없다는 말입니다. 언급한 상황이라면 ‘Streamlit’이 훌륭한 대안이 될 수 있습니다. Streamlit이란? Streamlit은 머신러닝이나 데이터 사이언스에 특화된 웹 어플리케이션을 쉽게 만들고 공.. 2022. 5. 9.
파이썬 Tesseract로 OCR(광학식 문자 판독기) 구현하기 광학 문자 판독기(OCR)는 스캔한 문서 및 사진과 같은 '이미지에서 텍스트'를 인식해내는 기술입니다. 대개 메모를 하는 것보다는 사진을 찍는 것이 훨씬 시간이 덜 걸리기 때문에 게으른 우리에게는 OCR이 참 고마운 기술입니다. 사진으로 찍은 텍스트를 쓰거나 다시 타이핑할 필요 없이 스마트폰으로 찍은 텍스트의 복사본을 곧바로 획득할 수 있습니다. 파이썬(Python) 코드 몇 줄로 이런 OCR 기술을 구현할 수 있습니다. 이 목적으로 자주 활용되는 툴 중 하나가 Tesseract입니다. Tesseract는 다양한 운영체제에서 구동 가능한 광학 문자 판독 엔진입니다. 원래 Hewlett-Packard(HP)에서 독점 소프트웨어로 개발했습니다만 나중에 Google이 인수했습니다. 설치 ▼ 현재 Tessera.. 2022. 5. 8.
미국 주식 재무제표 크롤링으로 배우는 파이썬 Selenium 기초 웹 크롤링(혹은 웹 스크래핑)을 하는 여러 가지 방법 중에 파이썬 셀레니움을 활용하는 방식은 난이도가 좀 있는 편입니다. 저 역시 가급적 Selenium 없이 크롤링 하는 걸 선호하지만 어떤 유형의 사이트들은 데이터를 먼저 로드하고 나서야 스크래핑 할 수 있기 때문에 셀레니움 없이 스크래핑 하기가 어렵습니다. 저도 웹 스크래핑 관련된 게시물을 몇 개 올렸는데 그 중 가장 유입량이 많은 게시물이 인스타그램 해시태그 크롤링이었습니다. 그 작업도 셀레니움을 활용하는 방식인데, 셀레니움에 대한 기초도 언급 않고 코드만 나열해둔 그 게시물을 몇 분이나 이해했을지... 죄책감이 들어 금번 포스팅을 작성하게 됐어요. [파이썬Python] 인스타그램 해쉬태그(#) 검색결과 크롤링하기 ★ 댓글로 주신 의견 반영하여 코드.. 2022. 5. 8.
반응형