数据集评估代码咨询

您好！请问是否有一套可供使用的对于该数据集的评估代码，以实现得出其他的模型在此数据集上的表现，因为我自己在使用该数据集进行评估时，遇到了很多问题，比如是否应该需要使用预测框和标注框首先根据某种规则进行匹配，然后再计算相关指标？如果是预测框是多个小框（比如一个段落中的多句话）而标注框是大框（比如一个大段落）时应该怎么计算指标，反之如果是一对多呢？