Francesco D'Aguanno
2005-07-29 09:56:03 UTC
NB: ho pubblicato lo stesso messaggio su "it.comp.www.asp" perchè non
so quale dei due gruppi sia più idoneo.
Sto scrivendo una funzione che permetta di normalizzare una stringa
secondo la codifica UTF-8, ma non ci sto capendo un granché.
A me sembra che non esista un vero e proprio standard: ho l'impressione
che ognuno faccia come gli pare!
Alla fine ho deciso di fare così:
- I caratteri da 0 a 31 li elimino dalla stringa
- Il carattere 32 (spazio) lo sostituisco con " " (a meno che non
desideri che all'interno della cella si possa andare a capo: " "
non manda a capo)
- Lettere minuscole, lettere maiuscole e numeri li utilizzo così come
sono
Dal carattere 32 in poi ho i seguenti dubbi:
1) Per quanto riguarda i caratteri fino a 127 (i cui ASCII vengono
riconosciuti dalla codifica UTF-8) è preferibile mantenere l'ASCII o
è meglio utilizzare codici (&#codice;) e/o (se esistenti) le entità
(≶ < ...)
2) Per quanto riguarda i caratteri da 127 a 255 (i cui ASCII non sono
riconosciuti dalla codifica UTF-8) conviene chiamarli con il codice
(&#codice;) o, se esistenti, con le entità (À é ...)?
Spero di essere stato il più chiaro possibile...
Grazie a tutti.
PS: Terminata la scrittura (se lo riterrete utile), pubblicherò la
funzione... Ditemi solo dove farlo (per evitare di essere OT).
so quale dei due gruppi sia più idoneo.
Sto scrivendo una funzione che permetta di normalizzare una stringa
secondo la codifica UTF-8, ma non ci sto capendo un granché.
A me sembra che non esista un vero e proprio standard: ho l'impressione
che ognuno faccia come gli pare!
Alla fine ho deciso di fare così:
- I caratteri da 0 a 31 li elimino dalla stringa
- Il carattere 32 (spazio) lo sostituisco con " " (a meno che non
desideri che all'interno della cella si possa andare a capo: " "
non manda a capo)
- Lettere minuscole, lettere maiuscole e numeri li utilizzo così come
sono
Dal carattere 32 in poi ho i seguenti dubbi:
1) Per quanto riguarda i caratteri fino a 127 (i cui ASCII vengono
riconosciuti dalla codifica UTF-8) è preferibile mantenere l'ASCII o
è meglio utilizzare codici (&#codice;) e/o (se esistenti) le entità
(≶ < ...)
2) Per quanto riguarda i caratteri da 127 a 255 (i cui ASCII non sono
riconosciuti dalla codifica UTF-8) conviene chiamarli con il codice
(&#codice;) o, se esistenti, con le entità (À é ...)?
Spero di essere stato il più chiaro possibile...
Grazie a tutti.
PS: Terminata la scrittura (se lo riterrete utile), pubblicherò la
funzione... Ditemi solo dove farlo (per evitare di essere OT).