A frase apresentada é aceitável, embora possa ser aperfeiçoada no sentido de traduzir melhor a realidade observada.
Poderemos analisar a frase à luz da aspetualidade, no âmbito da semântica temporal. Neste âmbito, o verbo ver é usado com o valor de «assistir, presenciar», o que é compatível com a descrição de uma situação durativa, que, por seu turno, é também compatível com a realidade descrita pelo sintagma nominal «golpe de Estado».
Não obstante, considerando que a expressão «golpe de Estado» corresponde a «tomada inesperada do poder governamental pela força e sem participação do povo» (Dicionário Houaiss), não é previsível que toda a ação desenvolvida possa ser vista de uma rua por onde se passa. Assim, o mais natural é que o locutor tenha assistido a um intervalo de tempo compreendido no intervalo de tempo mais alargado que corresponde à situação «golpe de Estado».
Desta forma, a frase ficaria mais clara se esse intervalo de tempo fosse assinalada, como, por exemplo, em (1):
(1) « Estava a passar na rua e vi o início de um golpe de Estado.»
Disponha sempre!