Has reiniciado entre cada prueba? o vaciado caches y ram? pq si no, van cargando el sistema...
De todas maneras los benchmarks tampoco son la panacea en empirismo sobre la experiencia de uso...
Lo que te puedo decir es, en experiencia de uso, que la V2 Kitkat > kitkat stock > lollipop
