model,condition,task_id,n_runs,coverage_mean,coverage_std,coverage_best,eval2_mean,eval2_std,eval2_best,time_mean_sec,time_std_sec,token_cost_mean,token_cost_std,first_improvement_iter_mean