Jeg bygger en modell, og jeg tror at geografisk beliggenhet sannsynligvis vil være veldig god til å forutsi min målvariabel. Jeg har postnummeret til hver av brukerne mine. Jeg er ikke helt sikker på om den beste måten å inkludere postnummer som en prediktorfunksjon i modellen min. Selv om postnummer er et nummer, betyr det ikke noe om nummeret går opp eller ned. Jeg kunne binære alle 30 000 postnummer og deretter inkludere dem som funksjoner eller nye kolonner (f.eks. {User_1: {61822: 1, 62118: 0, 62444: 0 osv.}}. Dette virker imidlertid som om det ville lagt til tonn av funksjoner til modellen min.
Noen tanker om den beste måten å håndtere denne situasjonen på?