Deep learning/Error

ERROR: OOM when allocating tensor with shape

비비이잉 2021. 7. 27. 14:05
반응형

     

    1. 배치사이즈가 큰가?

    - data imbalance 로더로 바꿔주는 코드를 짜서 [837,22,456,456,3] 중에 필자의 경우 22가 배치사이즈이다.

    10으로 수정했음에도 불구하고 숫자만 바뀌고 같은 에러가 뜸. 다른 방법을 찾아봐야겠다.

     

    2. 할당된 GPU에서 다른 문제는 없는가 ?

     

     

    여기서 필자는 1번 GPU를 설정하여 docker container로 작업을 진행중이다. 여기서 저 문제는 GPU메모리가 어디엔가 다른 곳에 할당되고 있는 것이다. 그래서 도커를 빠져나와서 nvidia-smi 로 확인해보면 1번 필자가 할당된 메모리에서 3줄이 있는데, 그 중 python으로 보이는 680396 PID번호를 죽여주면 된다.

     

     

    sudo kill 680396

     

     

     

    watch -n 1 nvidia-smi

     

     

     

    다시 실행하면 GPU가 잘 돌아간다 돌아가 !

    반응형