프로젝트/나무위키LLM
[namu-wiki-llm] 프로젝트 개요 및 설계
행복한라이언
2024. 1. 11. 13:58
728x90
반응형
1. 아이디어
- 나무위키는 매우 인기가 많은 사이트이다. 구글 검색 엔진의 특성때문이라고는 하지만 구글 검색 시에 나무위키를 상위권에 노출되는 빈도가 매우 높다.
- 심심할 때 나무위키를 보면서 시간을 쓴 경험은 한 번씩 있을 것이다.. 그런데 요즘 대부분 지원하는 챗봇이 없어서 만들어보면 재밌게 쓸 수 있지 않을까?라는 생각에 프로젝트를 시작하게 되었다.
- 그래서 최종 목표는 '나무위키 챗봇'이고 먼저 토이 프로젝트는 "하나의 질문 - 하나의 답변"이 되도록 만들려고 한다. 생각해보면 나무위키가 아니라 특정 파일에 대한 질의응답도 가능하도록 확장이 할 수 있을 것이다.
- 처음 구상한 전체적인 프로젝트 구조
2. 예상 기술 스택
- FE: Streamlit
- BE: FastAPI -> Spring boot 학습 후 부분 부분 변경해보기
- DB: ElasticSearch(Kibana)
- 왜 ElasticSearch를 사용? 나무위키 덤프 데이터는 조금씩 다르지만 대략 3GB에 해당한다. 이를 전부 word2vec하여 임베딩값을 저장하는 것보다는 ElasticSearch로 검색을 한 후에 질문에 관련된 데이터들을 word2vec하여 해당 질문에 대해서 답변을 하는 것이 더 비용측면에서도 더 효율적이라고 생각했다.
- API: OpenAI API
- DATA: 나무위키 덤프
- Dokcer - 각 서비스마다 이미지를 만들 수 있게 하기
3. 예상 기간
- 2014.01.09 ~ 2014.01.21
728x90
반응형