Há várias formas aceitáveis; a que apresenta («Eu vi os dois, ele e a mãe dele, entrarem na igreja») é uma delas. Só pensamos que é desnecessário o «dele», pois, com «ele e a mãe», fica claro que é a dele e não a de outro; pode, pois, dizer «Eu vi-os, ele e a mãe, entrarem na igreja».
Note que no português brasileiro coloquial (e até escrito) são correntes frases do tipo «Eu vi ele/ela (fazer qualquer coisa)», apesar da condenação de normativistas. No português europeu, não sendo desconhecidas, são menos correntes e, do ponto de vista da norma, nada toleradas, mesmo quando o pronome se refere ao sujeito de um infinitivo; depois de um verbo de percepção (ver, ouvir, sentir), o correcto é «vi-o entrar», como já se explicou no Ciberdúvidas. Se a expressão pressuposta for «ele e a mãe», que é uma estrutura coordenada, então será dada ênfase ao pronome átono com um complemento introduzido pela preposição a («a ele»), seguido do segundo elemento coordenado («a mãe»), também assim preposicionado: «vi-o a ele e à mãe entrarem na igreja.»