A palavra sifão tem cinco fonemas (também chamados segmentos; cf. Dicionário Terminológico – DT): [s][i][f][ã][w̃].
Note-se que um ditongo, como é o caso da sequência formada por [ã][w̃] (na grafia ão), é formado não por um, mas por dois segmentos – uma vogal e uma semivogal (pai, mãe, compram) ou por semivogal e uma vogal (quarto) – que constituem o núcleo de uma sílaba. Tal não significa, portanto, que um ditongo seja o mesmo que um segmento (cf. DT e Celso Cunha e Lindley Cintra, Nova Gramática do Português Contemporâneo, Lisboa, Edições João Sá da Costa, 1984, págs. 48/49).1
1 No entanto, do ponto de vista estruturalista, o conceito de fonema (e já não o de segmento) permite dizer, por vezes, que um ditongo é a realização fonética de um único fonema. Trata-se de uma questão complexa, que envolve o problema de distinguir entre fonologia e fonética, mas que, evidentemente, não tem de ser discutida no contexto dos ensinos básico e secundário.