본문 바로가기
반응형

Programming/Code Archive21

파이썬 Tesseract로 OCR(광학식 문자 판독기) 구현하기 광학 문자 판독기(OCR)는 스캔한 문서 및 사진과 같은 '이미지에서 텍스트'를 인식해내는 기술입니다. 대개 메모를 하는 것보다는 사진을 찍는 것이 훨씬 시간이 덜 걸리기 때문에 게으른 우리에게는 OCR이 참 고마운 기술입니다. 사진으로 찍은 텍스트를 쓰거나 다시 타이핑할 필요 없이 스마트폰으로 찍은 텍스트의 복사본을 곧바로 획득할 수 있습니다. 파이썬(Python) 코드 몇 줄로 이런 OCR 기술을 구현할 수 있습니다. 이 목적으로 자주 활용되는 툴 중 하나가 Tesseract입니다. Tesseract는 다양한 운영체제에서 구동 가능한 광학 문자 판독 엔진입니다. 원래 Hewlett-Packard(HP)에서 독점 소프트웨어로 개발했습니다만 나중에 Google이 인수했습니다. 설치 ▼ 현재 Tessera.. 2022. 5. 8.
미국 주식 재무제표 크롤링으로 배우는 파이썬 Selenium 기초 웹 크롤링(혹은 웹 스크래핑)을 하는 여러 가지 방법 중에 파이썬 셀레니움을 활용하는 방식은 난이도가 좀 있는 편입니다. 저 역시 가급적 Selenium 없이 크롤링 하는 걸 선호하지만 어떤 유형의 사이트들은 데이터를 먼저 로드하고 나서야 스크래핑 할 수 있기 때문에 셀레니움 없이 스크래핑 하기가 어렵습니다. 저도 웹 스크래핑 관련된 게시물을 몇 개 올렸는데 그 중 가장 유입량이 많은 게시물이 인스타그램 해시태그 크롤링이었습니다. 그 작업도 셀레니움을 활용하는 방식인데, 셀레니움에 대한 기초도 언급 않고 코드만 나열해둔 그 게시물을 몇 분이나 이해했을지... 죄책감이 들어 금번 포스팅을 작성하게 됐어요. [파이썬Python] 인스타그램 해쉬태그(#) 검색결과 크롤링하기 ★ 댓글로 주신 의견 반영하여 코드.. 2022. 5. 8.
FOMC 회의 발표 스크립트 확인 방법과 출현 단어 분석 미국 연방준비위원회의 FOMC 회의가 있는 날이면 연준 의장인 파월의 입에 세계의 이목이 집중되곤 합니다. 미국 기준금리 등 우리 투자 성적에 영향을 줄 만한 굵직굵직한 통화정책들이 그 입에서 거론되기 때문이지요. FOMC가 끝나면 연준 의장이 곧바로 컨퍼런스 콜을 하는데 이 때 의장의 발언을 속기한 스크립트가 FOMC 사이트에 곧바로 올라옵니다. 이 실시간에 가깝게 올라오는 FOMC 발표내용을 확보하고 발표에서 주로 언급된 단어들을 분석하는 스킬을 공유합니다. FOMC 회의 관련 자료 아카이브 https://www.federalreserve.gov/monetarypolicy/fomccalendars.htm The Fed - Meeting calendars and information Please ena.. 2022. 5. 6.
[파이썬Python-웹스크래핑] 키움증권 증시 일정/캘린더 크롤링 주식투자를 하기 때문에 평소에 증시 캘린더를 즐겨 보는 편입니다. 시중 증권사들 대부분이 나름대로의 형식으로 증시 일정을 정리해 제공하고 있지만, 제가 가장 즐겨 찾아보는 캘린더는 키움 모바일 증시 캘린더입니다. 키움증권에서는 증시 캘린더를 PDF로도 제공하고 있는데 정보가 너무 많아 모바일 가독성이 떨어져서요. 저는 별도로 제공되고 있는 모바일 증시 캘린더를 주로 참고합니다. 아래와 같이 생겼습니다. 이 캘린더는 월중에도 계속 업데이트가 되기 때문에 수시로 들락날락해야 한다는 단점은 있지만요. 보통 직전 월말에 조회를 해보면 다음 달의 '굵직한 이벤트'는 대체로 등재가 되어 있는 상태입니다. 저는 이 시점에 이 캘린더를 크롤링해서 파일로 만든 다음에 제 구글 캘린더에 업로드해둡니다. 일상의 일정을 체크.. 2022. 4. 2.
반응형