본문 바로가기
프로젝트/나무위키LLM

[namu-wiki-llm] 프로젝트 개요 및 설계

by 행복한라이언 2024. 1. 11.
728x90
반응형

1. 아이디어

  • 나무위키는 매우 인기가 많은 사이트이다. 구글 검색 엔진의 특성때문이라고는 하지만 구글 검색 시에 나무위키를 상위권에 노출되는 빈도가 매우 높다. 
  • 심심할 때 나무위키를 보면서 시간을 쓴 경험은 한 번씩 있을 것이다.. 그런데 요즘 대부분 지원하는 챗봇이 없어서 만들어보면 재밌게 쓸 수 있지 않을까?라는 생각에 프로젝트를 시작하게 되었다.
  • 그래서 최종 목표는 '나무위키 챗봇'이고 먼저 토이 프로젝트는  "하나의 질문 - 하나의 답변"이 되도록 만들려고 한다. 생각해보면 나무위키가 아니라 특정 파일에 대한 질의응답도 가능하도록 확장이 할 수 있을 것이다.
  • 처음 구상한 전체적인 프로젝트 구조

 

2.  예상 기술 스택

  • FE: Streamlit
  • BE: FastAPI -> Spring boot 학습 후 부분 부분 변경해보기
  • DB: ElasticSearch(Kibana) 
    • 왜 ElasticSearch를 사용? 나무위키 덤프 데이터는 조금씩 다르지만 대략 3GB에 해당한다. 이를 전부 word2vec하여 임베딩값을 저장하는 것보다는 ElasticSearch로 검색을 한 후에 질문에 관련된 데이터들을 word2vec하여  해당 질문에 대해서 답변을 하는 것이 더 비용측면에서도 더 효율적이라고 생각했다.
  • API: OpenAI API
  • DATA: 나무위키 덤프
  • Dokcer - 각 서비스마다 이미지를 만들 수 있게 하기

3.  예상 기간

  • 2014.01.09 ~ 2014.01.21 
728x90
반응형