Qdrant

Vector Search Engine

Post thumbnail
Post thumbnail
Deep Learning 모델의 작동 과정에서는 보통, 갖가지 방법으로 Human Readable 데이터로부터 특징을 추출하여 Vector 형태로 표현한다. 이미지와 같은 정적 데이터에서는 Feature Extracting라고 하고, 텍스트나 오디오 같은 Sequential 데이터에서는 Embedding이라고 한다. 이렇게 변환된 Vector는 입력 데이터의 중요 특징을 숫자로 표현한다. [Read More]

OCR 최신 동향

Post thumbnail
Post thumbnail
이번 포스트에서는 최근의 OCR 분야의 최신 동향을 알아보고 정리해보려고 한다. 전통적으로, OCR 분야는 대상에 따라 두 개의 영역으로 나누어져 왔다. 최근에는 Deep Learning 기반의 모델들이 SOTA 리스트를 거의 장악하게 되면서 대상간 방법론의 차이가 거의 없어지는 추세이며, Structured text의 경우 LaTeX 태그들을 포함하여 결과를 내도록 학습하는 차이가 있다. [Read More]

나의 딥러닝 모델 Dockerize하기

Training Container

Post thumbnail
Post thumbnail
내가 구현한 딥러닝 모델을 Prediction API로 deploy하는 것은 크게 어렵지 않습니다. flask, fastapi 등을 이용하면 RESTful API로 쉽게 구현할 수 있습니다. 데모 수준에서 프로토타입을 만들 때는 매우 유용하지만, 하지만 실제 서비스에서는 cli로 실행하는 수준으로는 문제가 생길 수 있습니다. 요청 수에 유연하게 대처해야하는 상황에서는 서비스를 Dockerize할 필요가 있습니다. [Read More]

Cosine Annealing Warm Up Restarts

with code

Post thumbnail
Post thumbnail
Optimzer의 Learning Rate을 관리하는 Scheduler를 이용하면 똑같은 환경에서도 조금 더 나은 학습 결과를 얻을 수 있습니다. pytorch에서 여러가지 종류의 Scheduler를 제공하니, 종류와 활용 방법을 체크하는 것이 좋습니다. https://sanghyu.tistory.com/113 블로그에서는 각 Scheduler의 Learning Rate 변화를 시각적으로 표현해주셔서 직관적으로 파악하는 것을 도와줍니다. 참고하시길 추천합니다. [Read More]

OCR 엔진 개발기

feat. open source

Post thumbnail
Post thumbnail
현업에서 일을 한지도 벌써 2년을 꽉 채웠습니다. 그동안 회사에서는 특히 OCR 관련 업무를 주로 진행했는데, 야외 환경(text in the wild)부터 고문서까지 다양한 환경에 대해 OCR을 적용하는 경험을 할 수 있었습니다. 최근에는 다양한 오픈 소스 레포지토리가 공개되어있어 논문을 읽으면 거의 곧장 실험 및 검증을 할 수 있는 코드로 접근이 가능합니다. 그동안의... [Read More]

Machine Learning 분류 모델 선정하기

상황별

Post thumbnail
Post thumbnail
Machine Learning Project를 갓 시작하게 되었다면, 문제 해결을 위해 어떤 모델을 정해야할지 고민하는 단계가 가장 먼저 시작됩니다. 여기서 Machine Learning은 Deep Learning을 포함하는 더 큰 범주의 학습형 인공지능을 이야기합니다. http://blog.echen.me/2011/04/27/choosing-a-machine-learning-classifier/에 좋은 글이 있어 정리하려고 합니다. [Read More]

Interview Question & Answer

출근 루틴, 하루 3문제

Post thumbnail
Post thumbnail
항상 양질의 글을 읽을 수 있어 즐겨찾는 zzsza(변성윤)님의 블로그에서 Datascience-Interview-Questions 포스트를 발견했습니다. 공유되어 있는 양질의 문제들을 보며 출근 루틴으로 2~3문제씩(현실은 1문제씩..) 답안을 만들어야겠다는 생각이 들었습니다. 원문에는 다양한 도메인에 대한 질문들이 있는데 그 중, 관심을 가지고 있는 몇 가지 주제에 대해서 공부하고 나름대로 답안을 작성하여 기록하고자 합니다. [Read More]

Image Attention 정리

feat. Pytorch

Post thumbnail
Post thumbnail
이미지 분석에서 Attention의 부산물인 Score를 이용하면 네트워크가 집중(Attention)하고 있는 영역을 시각적으로 표현 가능합니다. 이를 참고하면 네트워크의 동작을 조금 더 직관적으로 이해할 수 있습니다. Attention은 Soft Attention과 Hard Attention으로 나뉘는데, 이번 포스트에서는 거의 대부분의 Image Attention에서 이용하는 Soft Attention에 대해 코드와 함께 간략하게 정리해보려고 합니다. [Read More]