분류 전체보기739 파이썬 Tesseract로 OCR(광학식 문자 판독기) 구현하기 광학 문자 판독기(OCR)는 스캔한 문서 및 사진과 같은 '이미지에서 텍스트'를 인식해내는 기술입니다. 대개 메모를 하는 것보다는 사진을 찍는 것이 훨씬 시간이 덜 걸리기 때문에 게으른 우리에게는 OCR이 참 고마운 기술입니다. 사진으로 찍은 텍스트를 쓰거나 다시 타이핑할 필요 없이 스마트폰으로 찍은 텍스트의 복사본을 곧바로 획득할 수 있습니다. 파이썬(Python) 코드 몇 줄로 이런 OCR 기술을 구현할 수 있습니다. 이 목적으로 자주 활용되는 툴 중 하나가 Tesseract입니다. Tesseract는 다양한 운영체제에서 구동 가능한 광학 문자 판독 엔진입니다. 원래 Hewlett-Packard(HP)에서 독점 소프트웨어로 개발했습니다만 나중에 Google이 인수했습니다. 설치 ▼ 현재 Tessera.. 2022. 5. 8. 미국 주식 재무제표 크롤링으로 배우는 파이썬 Selenium 기초 웹 크롤링(혹은 웹 스크래핑)을 하는 여러 가지 방법 중에 파이썬 셀레니움을 활용하는 방식은 난이도가 좀 있는 편입니다. 저 역시 가급적 Selenium 없이 크롤링 하는 걸 선호하지만 어떤 유형의 사이트들은 데이터를 먼저 로드하고 나서야 스크래핑 할 수 있기 때문에 셀레니움 없이 스크래핑 하기가 어렵습니다. 저도 웹 스크래핑 관련된 게시물을 몇 개 올렸는데 그 중 가장 유입량이 많은 게시물이 인스타그램 해시태그 크롤링이었습니다. 그 작업도 셀레니움을 활용하는 방식인데, 셀레니움에 대한 기초도 언급 않고 코드만 나열해둔 그 게시물을 몇 분이나 이해했을지... 죄책감이 들어 금번 포스팅을 작성하게 됐어요. [파이썬Python] 인스타그램 해쉬태그(#) 검색결과 크롤링하기 ★ 댓글로 주신 의견 반영하여 코드.. 2022. 5. 8. FOMC 회의 발표 스크립트 확인 방법과 출현 단어 분석 미국 연방준비위원회의 FOMC 회의가 있는 날이면 연준 의장인 파월의 입에 세계의 이목이 집중되곤 합니다. 미국 기준금리 등 우리 투자 성적에 영향을 줄 만한 굵직굵직한 통화정책들이 그 입에서 거론되기 때문이지요. FOMC가 끝나면 연준 의장이 곧바로 컨퍼런스 콜을 하는데 이 때 의장의 발언을 속기한 스크립트가 FOMC 사이트에 곧바로 올라옵니다. 이 실시간에 가깝게 올라오는 FOMC 발표내용을 확보하고 발표에서 주로 언급된 단어들을 분석하는 스킬을 공유합니다. FOMC 회의 관련 자료 아카이브 https://www.federalreserve.gov/monetarypolicy/fomccalendars.htm The Fed - Meeting calendars and information Please ena.. 2022. 5. 6. 미국 재무제표, 공시 보고서, 퀀트투자 지표 용어사전(Glossary) 퀀트 투자자들이 사용하는 지표나 미국 재무제표의 영문계정명, 미국증권거래위원회(SEC; Securities Exchange Commission)에 공시되는 보고서를 접하다 보면 뜻을 알 수 없는 용어들이 많습니다. 매번 검색해보면서 뜻을 알고 넘어가려고 하지만 검색해도 명쾌하게 안 나오는 용어가 많아, 결국 제 스스로 투자 용어사전을 만들겠다는 데까지 생각이 미쳤습니다. 앞으로 새로운 용어를 알게 될 때마다 닥치는 대로 이 포스트를 업데이트 할 예정입니다. 닥치는 대로 정리할 거긴 하지만 나름 정렬순서도 있습니다. 알파벳(A-Z) > 한글(ㄱ-ㅎ) 순이에요. 부디 답답한 마음 안고 검색결과를 헤매는 분들께 도움이 되었으면 좋겠습니다. Ctrl+F로 용어를 찾아보시기 바랍니다. 몇몇 용어들, 가령 PER,.. 2022. 5. 4. 이전 1 ··· 149 150 151 152 153 154 155 ··· 185 다음