Hvordan en bobleplot afslører de bedste byer at bo i USA

I denne artikel viser jeg dig nogle spændende fakta om amerikanske byer, værdien af ​​bobleplotter ved beslutningen om, hvilken by man skal bo i, og hvordan man opretter disse grunde.

Overvejer du at investere i fast ejendom i 2018? Flytter du til en ny by? Når du overvejer disse beslutninger, skal du afveje forskellige faktorer som arbejdsløshedsprocent, boligpris, byens størrelse, sikkerhed og så videre. Selv med alle disse data og fire tilsvarende søjlediagrammer, vil du stadig være upåklagelig og stirre på det bord. Du prøver at finde de bedste kandidater, men disse faktorer fortæller forskellige historier ... Det lyder som et komplekst problem.

Så er der en måde, hvorpå vi kan visualisere alle disse faktorer i 1 diagram og sammenligne dem ALLE? Ja, vi kan bruge en bobleplot!

Hvad er en bobleplot?

Et bobleplot er en type diagram, der viser mere end to dimensioner af data (sammenlignet med traditionelle spredningsdiagrammer). Ud over at plotte en prik på et X-Y-plan bruger den størrelsen, farven eller formen på punktet til at få vist flere dimensioner.

Vi bruger arbejdsløshed som X-akse, median boligpris som Y-akse og befolkning i byerne som størrelsen på prikkerne. Dette gør en god tredje dimension. Farve tildeles tilfældigt til hver by.

Den bedste by i USA at bo i er… (vent på det)

Vinder: Nashville!

Andre anbefalinger: Austin, Omaha, Milwaukee, Dallas, Minneapolis, Denver og Aurora.

De har lav arbejdsløshed (og derfor er der større chance for at finde et job) og lav boligpris, fordi de er på nederste venstre side af tomten. Hvad betyder det?

Det betyder, at du kan træffe dine valg baseret på dette plot.

Hvis du for eksempel betragter arbejdsløshedsprocenten som mere vigtig og ikke har noget imod de højere boligpriser, er Honolulu, Oakland, Boston og San Diego stærke kandidater

Hvad med at tilføje sikkerhed som en anden faktor?

Jo da. Lad os tilføje sikkerhed som en fjerde faktor (de andre tre faktorer er stadig hjemmepris, arbejdsløshedsprocent og befolkning). I stedet for tilfældigt at tildele en farve til en by, bruger vi farveskalaen for kriminalitet (kriminalitet pr. 100.000 mennesker). Rødt betyder mere kriminalitet og blå betyder mindre.

Ændrer resultatet?

Det gjorde! Hvis sikkerhed er meget vigtig for dig, er Milwaukee muligvis ikke et så godt valg blandt de foregående anbefalinger (selvom det er nederst til venstre på grafen).

Nu ser du kraften i et bobleplot: evnen til at demonstrere flere faktorer i et 2-D plot. Hvis du kun har søjlediagrammer for disse faktorer, er det svært for dig at identificere byerne med en ideel kombination af faktorer. Bobleplottet skabte dybest set en "visuel objektiv funktion" for dig at optimere et multi-variabelt beslutningsproblem.

Hvordan ændres arbejdsløshedsprocent og boligpris over tid?

Vi kan oprette et interaktivt bevægelseskort for at tilføje tid som en dimension (2013 til 2017) for at se, hvordan faktorerne ændrer sig for disse byer over tid.

For at undgå for meget visuel information brugte jeg ikke kriminaldata og brugte de forskellige farver til at repræsentere et par udvalgte byer.

Den gode nyhed er, at arbejdsløsheden i næsten alle byer faldt markant (bevæger sig fra højre til venstre). Men den dårlige nyhed er, at boligpriserne stiger temmelig hurtigt (især for San Francisco, San Jose, Los Angles, New York og Seattle).

Vil du selv oprette diagrammerne? Her er min kode for bobleplaner og bevægelseskort i R. Ha det sjovt at lege med plottene :)

###############
# Bobleplot #
###############
bibliotek (data.table)
bibliotek (ggplot2)
bibliotek (ggrepel)
bubble_data <-fread ("https://raw.githubusercontent.com/zhendata/Medium_Posts/c007346db1575aca391a6623c87bb5a31a60b365/bubble_plot_merged_city_data.csv", sep = ",")
bubble_plot <- ggplot (bubble_data,
               aes (x = Arbejdsløshed_Rate, y = Hjem_pris / 1000)) +
geom_point (aes (størrelse = Befolkning, udfyld = Total_Krime), form = 21) +
# Opret 'Bubble' ved at tildele størrelse en variabel #
skala_fyld_kontinuerligt (lav = "# 33FFFF", høj = "# FF6699") +
skala_størrelse_area (max_størrelse = 20) +
# Vælg boblefarveskala og maksimal boble #
geom_text_repel (
          aes (label = by), nudge_x = 0, nudge_y = 0,75, størrelse = 6) +
# Brug geom_text_repel til at afvise etiketterne væk fra hinanden #
theme_bw () +
# Brug hvid baggrund i stedet for standardgrå #
ggtitle ("Bedste byer i USA at bo i") + laboratorier (x = "Arbejdsløshedsprocent%", y = "Prisen på hjemmemarkedet",
       størrelse = "Befolkning", udfyld = "Kriminalitet") + tema (plot.title = element_text (størrelse = 25, hjust = 0.5),
        axis.title = element_text (størrelse = 20, ansigt = "fed"),
        axis.text = element_text (størrelse = 15)) +
# Style titel og akse #
skala_y_continuous (navn = "Hjempris", pauser = seq (0, 1500, af = 250),
                      etiketter = c ("0", "250K", "500K", "750K", "1000k", "1250k", "1500K"))
# Gør y-aksen mere læsbar ved at erstatte det videnskabelige nummer med "K" #
print (bubble_plot)
################
# Bevægelseskort #
################
bibliotek (data.table)
bibliotek (googleVis)
motion_data <-fread ("https://raw.githubusercontent.com/zhendata/Medium_Posts/c007346db1575aca391a6623c87bb5a31a60b365/motion_chart_merged_city_data.csv", sep = ",")
motion_chart <- gvisMotionChart (motion_data,
idvar = "By",
timevar = "År",
xvar = "Arbejdsløshedsprocent",
yvar = "Hjempris",
sizevar = "Population")
plot (motion_chart)
# R åbner automatisk en fane i browseren for dig
# Flashafspilleren skal være aktiveret i browseren
Klik på “⌽” -ikonet for at aktivere Flash
########
# Data #
########
"""
Datasættene, jeg brugte, er fra Zillow (mellemboliger), FBI's UCR-program, census.gov (befolkning), Bureau of Labor (arbejdsløshed).
Jeg gjorde nogle data rengøring og slutter mig til det format, jeg havde brug for i denne artikel, og du kan klikke på nedenstående links for at downloade.
"""
bubble_plot_merged_city_data.csv, motion_chart_merged_city_data.csv

Følg mig og giv mig et par klapper, hvis du fandt, at dette var nyttigt!

Du kan også læse mine tidligere artikler om datavidenskab, fast ejendom og beslutningstagning: