728x90 회고3 [namu-wiki-llm] sprint3 회고 1. 한 일 / 미룬 일 기간: 2024.01.28 ~ 2024.02.03 나무위키 데이터 elastic search 에 색인 [sprint2]에서 만든 pickle 데이터를 바탕으로 elastic search 에 색인하는 과정을 거침 elastic search - upsert 구현 [sprint2]에서 대략적인 CRUD를 만들어놓기는 했지만 색인하는 과정 중에 문제가 발생. 처음에 색인이 되는지 테스트하기 10개 정도의 다큐멘트를 elastic search에 색인하고 테스트 결과 확인 후 1만개의 데이터를 색인. 그런데 10010개의 다큐먼트가 생성됨 → 즉, 처음에 테스트용으로 넣어던 데이터가 또다시 색인되는 문제가 발생함 elastic search에서는 _id라는 인덱스가 생성되는데 내가 설정하지 .. 2024. 2. 4. [namu-wiki-llm] sprint2 회고 1. 한 일 / 미룬 일 기간: 2024.01.11 ~ 2024.01.18 나무위키 덤프 데이터 탐구 ( 데이터 출처: https://huggingface.co/datasets/heegyu/namuwiki-extracted ) 구조 및 전처리 { 'contributors': ...., 'namespace':...., 'text': ....., 'title': ......} → 전처리된 데이터를 사용하되 우리가 필요한 부분은 text와 title만 필요하다. dataset이 2.56GB로 다운로드 받을 때마다 2 ~ 3분 걸린다. 작업할 때마다 다운로드 받을 수 없기 때문에 pickle로 text와 title만 저장한다. [ERROR] OSError: [Errn 28] No space left on dev.. 2024. 1. 19. [namu-wiki-llm] sprint1 회고 1. 한 일 / 미룬 일 기간: 2024.01.09 ~ 2024.01.10 로컬에서 elastic search, kibana 를 docker로 켜기 - 명령어 정리 명령어 설명 docker pull docker.elastic.co/elasticsearch/elasticsearch:8.7.0 elastic search image 가져오기 docker pull docker.elastic.co/kibana/kibana:8.7.0 kibana image 가져오기( elastic과 버전 일치 ) docker network create elastic elastic과 kibana 통신하기 위한 network 생성 docker run --net elastic -p 9200:9200 --name es docker.ela.. 2024. 1. 11. 이전 1 다음 728x90 반응형