fix(ollama): map max_tokens to num_predict and increase context window

- Map MaxTokens to num_predict in options map - Set default num_ctx to 8192 for common models (gemma, llama, etc.) - This ensures Ollama doesn't cut off responses early due to default limits
2026-04-07 13:44:17 +00:00
parent dbbf48cb14
commit fdbb068a6c
1 changed files with 17 additions and 0 deletions
@@ -115,24 +115,41 @@ func BuildOllamaBody(request *models.UnifiedRequest, messagesJSON []interface{},
 		"stream":   stream,
 	}
 	options := make(map[string]interface{})
 	// Context window size (8192 for common models)
 	if strings.Contains(request.Model, "gemma") || strings.Contains(request.Model, "llama") || strings.Contains(request.Model, "mistral") || strings.Contains(request.Model, "qwen") {
 		options["num_ctx"] = 8192
 	}
 	if request.Temperature != nil {
 		body["temperature"] = *request.Temperature
 		options["temperature"] = *request.Temperature
 	}
 	if request.MaxTokens != nil {
 		body["max_tokens"] = *request.MaxTokens
 		options["num_predict"] = *request.MaxTokens
 	} else if strings.Contains(request.Model, "gemma") || strings.Contains(request.Model, "llama") || strings.Contains(request.Model, "mistral") || strings.Contains(request.Model, "qwen") {
 		// Default to 4096 for common Ollama models if not specified, 
 		// as Ollama's compatibility layer sometimes defaults to 128
 		body["max_tokens"] = 4096
 		options["num_predict"] = 4096
 	}
 	if request.TopP != nil {
 		body["top_p"] = *request.TopP
 		options["top_p"] = *request.TopP
 	}
 	if request.TopK != nil {
 		body["top_k"] = *request.TopK
 		options["top_k"] = *request.TopK
 	}
 	if len(options) > 0 {
 		body["options"] = options
 	}
 	if len(request.Stop) > 0 {
 		body["stop"] = request.Stop
 	}