Em primeiro lugar deve esclarecer-se que uma palavra não é o mesmo que um ditongo ou um tritongo, porque tal seria misturar duas perspectivas diferentes: uma palavra é uma entidade no domínio do léxico, enquanto um ditongo e um tritongo são noções do âmbito da fonologia e da fonética. Assim, um ditongo é uma sequência formada por uma semivogal e uma vogal ([wa] em quadro) ou por uma vogal e uma semivogal ([aj] em pai). Segundo Celso Cunha e Lindley Cintra (Nova Gramática do Português Contemporâneo, pág. 49/50), tritongo é uma sequência constituída por semivogal, vogal e semivogal ([waj] em Uruguai).
As palavras leão e baleia são casos diferentes. A palavra leão tem, em pronúncia pausada, duas sílabas (é um dissílabo): “le-ão”, pronunciando-se [liɐ̃w̃], com ditongo nasal, [ɐ̃w̃]. No entanto, na pronúncia mais rápida, cria-se de facto um tritongo, porque o e da primeira sílaba (como disse, pronunciado [i]) passa à semivogal (ou glide) [j]. Deste modo, o que se diz é [ljɐ̃w̃], com o tritongo [jɐ̃w̃].
Quanto a baleia, temos um ditongo, [ej] ou [ɐj], na segunda sílaba (“ba-lei-a”). Note-se que em português europeu o encontro vocálico [ɐjɐ] não corresponde à definição que Cunha e Cintra (op.cit.) dão de tritongo. Há, no entanto, descrições que consideram que duas vogais e uma semivogal ([ɐjɐ] em feia) são também um tritongo (cf. esta resposta anterior). Acresce que no Brasil a palavra baleia terá a pronúncia [ejɐ] ou [eja] na segunda e terceira sílabas — [balejɐ] ou [baleja].