728x90
반응형
1. 아이디어
- 나무위키는 매우 인기가 많은 사이트이다. 구글 검색 엔진의 특성때문이라고는 하지만 구글 검색 시에 나무위키를 상위권에 노출되는 빈도가 매우 높다.
- 심심할 때 나무위키를 보면서 시간을 쓴 경험은 한 번씩 있을 것이다.. 그런데 요즘 대부분 지원하는 챗봇이 없어서 만들어보면 재밌게 쓸 수 있지 않을까?라는 생각에 프로젝트를 시작하게 되었다.
- 그래서 최종 목표는 '나무위키 챗봇'이고 먼저 토이 프로젝트는 "하나의 질문 - 하나의 답변"이 되도록 만들려고 한다. 생각해보면 나무위키가 아니라 특정 파일에 대한 질의응답도 가능하도록 확장이 할 수 있을 것이다.
- 처음 구상한 전체적인 프로젝트 구조
2. 예상 기술 스택
- FE: Streamlit
- BE: FastAPI -> Spring boot 학습 후 부분 부분 변경해보기
- DB: ElasticSearch(Kibana)
- 왜 ElasticSearch를 사용? 나무위키 덤프 데이터는 조금씩 다르지만 대략 3GB에 해당한다. 이를 전부 word2vec하여 임베딩값을 저장하는 것보다는 ElasticSearch로 검색을 한 후에 질문에 관련된 데이터들을 word2vec하여 해당 질문에 대해서 답변을 하는 것이 더 비용측면에서도 더 효율적이라고 생각했다.
- API: OpenAI API
- DATA: 나무위키 덤프
- Dokcer - 각 서비스마다 이미지를 만들 수 있게 하기
3. 예상 기간
- 2014.01.09 ~ 2014.01.21
728x90
반응형
'프로젝트 > 나무위키LLM' 카테고리의 다른 글
[ERROR] FastAPI - 422 Unprocessable Entity (0) | 2024.01.29 |
---|---|
[namu-wiki-llm] sprint2 회고 (0) | 2024.01.19 |
[namu-wiki-llm] sprint1 회고 (0) | 2024.01.11 |
[namu-wiki-llm] Elastic Search - 한글 검색 성능 고도화 (0) | 2024.01.11 |
[ERROR] Elastic Search - Kibana 로그인 에러! (0) | 2024.01.11 |