diff --git a/src/llama.cpp b/src/llama.cpp index 25c088b5..6f636df9 100644 --- a/src/llama.cpp +++ b/src/llama.cpp @@ -7162,7 +7162,7 @@ struct llama_context * llama_init_from_model( #elif defined(GGML_USE_CUDA) if (model->split_mode == LLAMA_SPLIT_MODE_NONE) { // with split_mode LLAMA_SPLIT_MODE_NONE or LLAMA_SPLIT_MODE_GRAPH, only the main GPU backend is used - ggml_backend_t backend = ggml_backend_cuda_init(main_gpu_id, cparams.cuda_params, model); + ggml_backend_t backend = ggml_backend_cuda_init(main_gpu_id, cparams.cuda_params, ctx); if (backend == nullptr) { LLAMA_LOG_ERROR("%s: failed to initialize CUDA%d backend\n", __func__, main_gpu_id); llama_free(ctx); @@ -7181,7 +7181,7 @@ struct llama_context * llama_init_from_model( params = new_params.data(); } for (int device = 0; device < ggml_backend_cuda_get_device_count(); ++device) { - ggml_backend_t backend = ggml_backend_cuda_init(device, params, model); + ggml_backend_t backend = ggml_backend_cuda_init(device, params, ctx); if (backend == nullptr) { LLAMA_LOG_ERROR("%s: failed to initialize CUDA%d backend\n", __func__, device); llama_free(ctx);