Lo de que inicie automaticamente seguramente lo puedas hacer con Tasker, simulando el botón PLAY en el momento en que se inicie la app (o esperando un poco antes de hacerlo). Esto puede no funcionar bien con algunas apps que no sean de música o requerir hacerlo de otra manera pero para apps solo de música/videos sí debería valer.
De este modo una de las condiciones te la quitas de encima. Lo de las carátulas lo hacen todas las apps de música (o casi). Incluso se puede ver la "carátula" de lo que tengas puesto en youtube o la app de podcast en el widget del escritorio.
Así que realmente es cosa del crossfading y que funcione bien el audio.