Entenda-se a definição de ditongo como «duas vogais que se pronunciam de uma vez só» numa perspectiva estritamente fonética: duas vogais — dois sons vocálicos.
Como sabemos, não há uma correspondência unívoca entre sons e grafemas, ou seja, um som pode ser representado por letras diferentes, e uma letra pode representar vários sons. Por exemplo: O som [s] pode ser grafado com as letras s (sapato), c (cereja), ç (caçar), ss (pássaro).
O mesmo sucede com os ditongos, que podem ser representados por duas vogais, por exemplo, na palavra mãe, ou por uma vogal e por uma consoante: bem. A consoante m em posição final de palavra não se pronuncia como [m], mas, sim, como uma semivogal (a seguir às vogais a e e).
Como explicar este aspecto a um aluno do 3.º ano? Dizendo-lhe que a letra m tem o valor de [m] apenas em início de palavra e entre vogais (mar, amor) e, quando se encontra no fim de uma palavra:
a) tem o valor de [i] ou [u], pronunciados com menor intensidade, se seguir as vogais e e a (tem, cantam);
b) nasaliza a vogal anterior, se esta for um i, o ou u (ruim, bom, um).