As duas formas – usando o modo conjuntivo («Esperemos») ou o modo indicativo («Esperamos») – estão correctas como predicado da oração principal/subordinante. A única diferença para o seu uso reside no valor de cada um dos modos.
Assim, enquanto o modo indicativo traduz a ideia de realidade, de algo concreto — pois, «quando nos servimos do modo indicativo, consideramos o facto expresso pelo verbo como certo, real, seja no presente, seja no passado, seja no futuro» (Celso Cunha e Lindley Cintra, Nova Gramática do Português Contemporâneo, Lisboa, Sá da Costa, 1997, p. 463) —, o emprego do conjuntivo implica uma atitude diversa, uma vez que este modo pode exprimir, «além das noções imperativas, um desejo […], uma ordem, […] uma hipótese» (idem, p. 465).
De facto, tudo depende da intenção e da atitude do sujeito. E não há dúvida de que, se se trata de uma oração principal, o emprego do modo conjuntivo «envolve sempre a acção verbal de um matiz afectivo que acentua fortemente a expressão da vontade do indivíduo que fala» (idem, p. 464).
Não é por acaso que, quando alguém nos coloca perante a perspectiva de algo desejado, seja habitual dizermos «Esperemos…» (e não «Esperamos»), porque só o verbo no conjuntivo traduz a ideia de vontade, de desejo do emissor.
N. E.: Relativamente ao caso das subordinadas, Fátima Oliveira, no capítulo «Modalidade e modo», de Gramática da Língua Portuguesa, afirma que «naturalmente verbos de expectativa como esperar, seleccionam o modo conjuntivo» (Mira Mateus et alii, Gramática da Língua Portuguesa, 5.ª ed., Lisboa, Caminho, 2003, p. 260), o que é confirmado por Cunha e Cintra ao dizerem que «o conjuntivo é o modo exigido nas orações que dependem de verbos cujo sentido está ligado à ideia de ordem, de proibição, de desejo, de vontade, de súplica, de condição e de outras correlatas. É o caso, por exemplo, dos verbos desejar, duvidar, implorar, negar, ordenar, pedir, proibir, querer, rogar e suplicar» (op. cit., p. 464).