Yo lo enfocaría por la vía de buscar/reemplazar. Se puede utilizar regex para que te coja el lo que coincida con un carácter numérico de las dos cifras obviando lo demás (posibles palabras que se te cuelen). Luego un if para que si la variable donde metes la coincidencia esta vacía repita el reconocimiento de voz.