DOUG LLOYD: SÃ¥ i CS50, har vi tÃ¤ckt en massa olika datastrukturer, hÃ¶ger? Vi har sett arrayer, och lÃ¤nkade listor och hashtabeller, och fÃ¶rsÃ¶ker, stackar och kÃ¶er. Vi kommer ocksÃ¥ att lÃ¤ra sig lite om trÃ¤d och hÃ¶gar, men egentligen alla dessa bara sluta upp att vara variationer pÃ¥ ett tema. Det finns verkligen dessa typ av fyra grundlÃ¤ggande idÃ©er att allt annat kan koka ner till. Arrayer, lÃ¤nkade listor, hashtabeller och fÃ¶rsÃ¶ker. Och som sagt, det Ã¤r variationer pÃ¥ dem, men detta Ã¤r ganska mycket kommer att sammanfatta allt vi ska prata om i denna klass nÃ¤r det gÃ¤ller C. Men hur gÃ¶r alla dessa mÃ¥tt upp, eller hur? Vi har pratat om fÃ¶r- och nackdelar av varje i separata videor pÃ¥ dem, men det finns en massa siffror fÃ¥ kastas runt. Det finns en hel del allmÃ¤n tankar blir kastas runt. LÃ¥t oss fÃ¶rsÃ¶ka konsolidera det till ett och samma stÃ¤lle. LÃ¥t oss vÃ¤ga proffsen mot nackdelar, och Ã¶vervÃ¤ga vilken datastruktur kan vara rÃ¤tt uppgifter struktur fÃ¶r just din situation, oavsett typ av data du lagrar. Du behÃ¶ver inte nÃ¶dvÃ¤ndigtvis alltid behÃ¶ver anvÃ¤nda supersnabba insertion, deletion, och uppslagning av en trie om du verkligen bryr sig inte om infoga och ta bort fÃ¶r mycket. Om du behÃ¶ver bara snabbt slumpmÃ¤ssig tillgÃ¥ng, en array Ã¤r kanske bÃ¤ttre. SÃ¥ lÃ¥t oss destillera det. LÃ¥t oss tala om var och en av de fyra stora grupper av datastrukturer att vi har pratat om, och bara se nÃ¤r de kan vara bra, och nÃ¤r de kanske inte Ã¤r sÃ¥ bra. SÃ¥ lÃ¥t oss bÃ¶rja med arrayer. SÃ¥ insÃ¤ttning, det Ã¤r typ av dÃ¥ligt. 

InsÃ¤ttning vid slutet av en array Ã¤r OK, Om vi ââbygger en array som vi gÃ¥r. Men om vi behÃ¶ver sÃ¤tta in element i mitten, tÃ¤nker tillbaka pÃ¥ insÃ¤ttning sort, det finns en hel del att flytta fÃ¶r att passa en del i det. Och sÃ¥ om vi ska infoga helst men i slutet av en array, det Ã¤r nog inte sÃ¥ stor. 

PÃ¥ samma sÃ¤tt, radering, om vi Ã¤r radera frÃ¥n slutet av en array, Ã¤r fÃ¶rmodligen inte heller sÃ¥ bra om Vi vill inte lÃ¤mna tomma luckor, som vanligtvis gÃ¶r vi inte. Vi vill ta bort ett element, och dÃ¥ sorts gÃ¶ra det ordentligt igen. Och sÃ¥ ta bort element frÃ¥n en array, ocksÃ¥ inte sÃ¥ stor. 

Lookup, Ã¤r dock stor. Vi har direktÃ¥tkomst, konstant tid lookup. Vi sÃ¤ger bara sju, och vi gÃ¥r till array omlokalisering sju. Vi sÃ¤ger 20, med gÃ¥ till array omlokalisering 20. Vi behÃ¶ver inte iterera Ã¶ver. Det Ã¤r ganska bra. 

Arrayer Ã¤r ocksÃ¥ relativt lÃ¤tt att sortera. Varje gÃ¥ng vi talade om en sortering algoritm, sÃ¥som val sortera, insÃ¤ttningssortering, bubbelsortering, slÃ¥ samman sort, vi alltid anvÃ¤nt arrayer fÃ¶r att gÃ¶ra det, eftersom arrayer Ã¤r ganska lÃ¤tt att sortera, i fÃ¶rhÃ¥llande till datastrukturerna vi har sett hittills. 

De Ã¤r ocksÃ¥ relativt smÃ¥. Det finns inte en hel del extra utrymme. Du bara avsÃ¤tta exakt sÃ¥ mycket som du behÃ¶ver fÃ¶r att hÃ¥lla dina data, och det Ã¤r ganska mycket det. SÃ¥ de Ã¤r ganska smÃ¥ och effektivt pÃ¥ detta sÃ¤tt. Men en annan nackdel, men, Ã¤r att de Ã¤r fixerade i storlek. Vi mÃ¥ste fÃ¶rklara exakt hur stora vi vill att vÃ¥r array vara, och vi fÃ¥r endast ett skott pÃ¥ det. Vi kan inte vÃ¤xa och krympa den. 

Om vi ââbehÃ¶ver fÃ¶r att vÃ¤xa eller krympa det, vi mÃ¥ste fÃ¶rklara en helt ny array, kopiera alla delar av fÃ¶rsta uppsÃ¤ttningen in i den andra uppsÃ¤ttningen. Och om vi missbedÃ¶mde att tid, vi mÃ¥ste gÃ¶ra det igen. Inte sÃ¥ stor. SÃ¥ arrayer inte ger oss flexibilitet att ha varierande antal element. 

Med en lÃ¤nkad lista, insÃ¤ttning Ã¤r ganska lÃ¤tt. Vi slÃ¥r bara pÃ¥ framsidan. Strykning Ã¤r ocksÃ¥ ganska lÃ¤tt. Vi mÃ¥ste hitta elementen. Som involverar vissa sÃ¶kning. 

Men nÃ¤r du har hittat elementet du letar efter, allt du behÃ¶ver gÃ¶ra Ã¤r att Ã¤ndra en pekare, mÃ¶jligen tvÃ¥ om du har en lÃ¤nkad list-- en dubbelt lÃ¤nkad lista, rather-- och sedan kan du bara befria noden. Du behÃ¶ver inte flytta allt runt. Du Ã¤ndrar bara tvÃ¥ pekare, sÃ¥ det Ã¤r ganska snabbt. 

Lookup Ã¤r dÃ¥ligt men, eller hur? FÃ¶r fÃ¶r oss att hitta en element i en lÃ¤nkad lista, vare sig ensamma eller dubbellÃ¤nkad, Vi mÃ¥ste linjÃ¤r sÃ¶ka det. Vi mÃ¥ste bÃ¶rja frÃ¥n bÃ¶rjan och flytta slutet, eller starta i slutet flytta till bÃ¶rjan. Vi har inte random access lÃ¤ngre. SÃ¥ om vi gÃ¶r en mycket sÃ¶ka, kanske en lÃ¤nkad lista Ã¤r inte ganska sÃ¥ bra fÃ¶r oss. 

De Ã¤r ocksÃ¥ riktigt svÃ¥rt att sortera, eller hur? Det enda sÃ¤ttet du kan verkligen sortera en lÃ¤nkad lista Ã¤r att sortera det som du bygga den. Men om du sorterar det som du konstruera det, du Ã¤r inte lÃ¤ngre gÃ¶ra snabba insÃ¤ttningar lÃ¤ngre. Du Ã¤r inte bara kryss saker pÃ¥ framsidan. Du mÃ¥ste hitta rÃ¤tt plats fÃ¶r att uttrycka det, och sedan ditt insÃ¤ttning blir ungefÃ¤r lika illa som att sÃ¤tta in i en matris. SÃ¥ lÃ¤nkade listor Ã¤r inte sÃ¥ bra fÃ¶r sortering av data. 

De Ã¤r ocksÃ¥ ganska liten, storleksmÃ¤ssigt. Listan dubbellÃ¤nkad nÃ¥got stÃ¶rre Ã¤n var fÃ¶r sig lÃ¤nkade listor, som Ã¤r nÃ¥got stÃ¶rre Ã¤n arrayer, men det Ã¤r inte en enorm mÃ¤ngd oanvÃ¤nt utrymme. SÃ¥ om utrymmet Ã¤r begrÃ¤nsat, men inte riktigt intensiv premie, Detta kan vara rÃ¤tt vÃ¤g att gÃ¥. 

Hashtabeller. InfÃ¶rande i en hash-tabell Ã¤r ganska enkel. Det Ã¤r en tvÃ¥stegsprocess. FÃ¶rst mÃ¥ste vi driva vÃ¥ra data genom en hashfunktion fÃ¶r att fÃ¥ en hash-kod, och sedan in vi elementet i hashtabell vid denna hash-kod plats. 

Strykning, liknande lÃ¤nkad lista, Det Ã¤r lÃ¤tt nÃ¤r du hittar elementet. Du mÃ¥ste hitta den fÃ¶rst, men sedan nÃ¤r du tar bort det, du behÃ¶ver bara byta ett par pekare, Om du anvÃ¤nder separat kedja. Om du anvÃ¤nder sondering, eller om du inte anvÃ¤ndning kedja alls i hashtabell, Strykningen Ã¤r faktiskt riktigt enkelt. Allt du behÃ¶ver gÃ¶ra Ã¤r att hasha uppgifter, och sedan gÃ¥ till den platsen. Och fÃ¶rutsatt att du inte har nÃ¥gra kollisioner, kommer du att kunna ta bort mycket snabbt. 

Nu Ã¤r lookup dÃ¤r saker fÃ¥ lite mer komplicerat. Det Ã¤r i genomsnitt bÃ¤ttre Ã¤n lÃ¤nkade listor. Om du anvÃ¤nder kedja, du fortfarande har en lÃ¤nkad lista, vilket innebÃ¤r att du fortfarande har sÃ¶k fÃ¶rfÃ¥ng en lÃ¤nkad lista. Men eftersom du tar din lÃ¤nkade lista och dela den Ã¶ver 100 eller 1000 eller n element i hash tabellen, Ã¤r du lÃ¤nkade listor Ã¤r alla en n: te storlek. De Ã¤r alla betydligt mindre. Du har n lÃ¤nkade listor i stÃ¤llet av en lÃ¤nkad lista av storlek n. 

Och sÃ¥ denna verkliga konstant faktor, som vi vanligtvis inte tala om i tid komplexitet, det gÃ¶r faktiskt en skillnad hÃ¤r. SÃ¥ lookup Ã¤r fortfarande linjÃ¤r sÃ¶ka om du anvÃ¤nder kedja, men lÃ¤ngden av listan du sÃ¶ker igenom Ã¤r mycket, mycket kort i jÃ¤mfÃ¶relse. Ãterigen, om sorteringen Ã¤r ditt MÃ¥let hÃ¤r, hash tabellens antagligen inte rÃ¤tt vÃ¤g att gÃ¥. AnvÃ¤nd bara en array om sortering Ã¤r verkligen viktigt fÃ¶r dig. 

Och de kan kÃ¶ra spektrat av storlek. Det Ã¤r svÃ¥rt att sÃ¤ga om en hash tabellen Ã¤r liten eller stor, eftersom det verkligen beror pÃ¥ hur stor din hash tabellen Ã¤r. Om du bara kommer att lagra fem element i hash tabellen, och du har en hashtabell med 10.000 element i det, du fÃ¶rmodligen ett slÃ¶seri med utrymme. Kontrast Ã¤r kan du ocksÃ¥ har mycket kompakta hashtabeller, men mindre din hash tabellen blir, ju lÃ¤ngre var och en av dessa lÃ¤nkade listor blir. Och sÃ¥ det finns verkligen inget sÃ¤tt att definiera exakt storleken pÃ¥ en hash-tabell, men det Ã¤r nog sÃ¤kert sÃ¤ga att det Ã¤r i allmÃ¤nhet kommer att bli stÃ¶rre Ã¤n en lÃ¤nkad lista lagrar samma uppgifter, men mindre Ã¤n en trie. 

Och fÃ¶rsÃ¶k Ã¤r den fjÃ¤rde av dessa strukturer att vi har pratat om. SÃ¤tta in en trie Ã¤r komplex. Det finns en hel del dynamiskt minnesallokering, sÃ¤rskilt i bÃ¶rjan, som du bÃ¶rjar bygga. Men det Ã¤r konstant tid. Det Ã¤r bara den mÃ¤nskliga faktorn hÃ¤r som gÃ¶r det knepigt. Att behÃ¶va mÃ¶ta nollpekare, malloc utrymme, Ã¥ka dit, mÃ¶jligen malloc utrymme dÃ¤rifrÃ¥n igen. Den typ av hotelser faktor pekare i dynamisk minnesallokering Ã¤r hindret fÃ¶r att rensa. Men nÃ¤r du har rensat det, insÃ¤ttning kommer faktiskt ganska enkelt, och det Ã¤r verkligen konstant tid. 

Radering Ã¤r lÃ¤tt. Allt du behÃ¶ver gÃ¶ra Ã¤r att navigera ned en par pekare och gratis noden, sÃ¥ det Ã¤r ganska bra. Lookup Ã¤r ocksÃ¥ ganska fort. Det Ã¤r bara baserad pÃ¥ lÃ¤ngden pÃ¥ dina data. SÃ¥ om alla dina data Ã¤r fem teckenstrÃ¤ngar, till exempel, du lagra fem teckenstrÃ¤ngar i din trie, det tar bara fem steg till hitta det du letar efter. Fem Ã¤r bara en konstant faktor, sÃ¥ igen, insertion, deletion och lookup hÃ¤r Ã¤r alla konstant tid, effektivt. 

En annan sak Ã¤r att din trie Ã¤r faktiskt ganska redan sorterats, eller hur? PÃ¥ grund av hur vi Ã¤r infoga element, genom att gÃ¥ bokstav fÃ¶r bokstav fÃ¶r nyckel, eller siffra fÃ¶r siffra av nyckeln, typiskt, slutar upp att vara din trie typ av sorteras som du bygger det. Det spelar egentligen ingen gÃ¶r meningsfullt att tÃ¤nka pÃ¥ sortering pÃ¥ samma sÃ¤tt som vi tycker om det med arrayer, eller lÃ¤nkade listor, eller hashtabeller. Men i nÃ¥gon mening, ditt trie sorteras som du gÃ¥r. 

Nackdelen Ã¤r naturligtvis Ã¤r att en trie blir snabbt stora. FrÃ¥n varje knutpunkt, kanske du have-- om din nyckel bestÃ¥r av siffror, du har andra 10 platser du kan gÃ¥, som innebÃ¤r att varje nod innehÃ¥ller information om de data du vill spara vid denna nod, plus 10 pekare. Som pÃ¥ CS50 IDE, Ã¤r 80 byte. SÃ¥ det Ã¤r Ã¥tminstone 80 byte fÃ¶r varje nod som du skapar, och som inte Ã¤r ens rÃ¤kna data. Och om dina noder Ã¤r bokstÃ¤ver i stÃ¤llet fÃ¶r siffror, nu har du 26 tips frÃ¥n varje plats. Och 26 gÃ¥nger 8 Ã¤r fÃ¶rmodligen 200 byte, eller nÃ¥t sÃ¥nt. Och du har kapital och lowercase-- du kan se vart jag ska med detta, eller hur? Dina noder kan bli riktigt stora, och sÃ¥ trie sjÃ¤lv, totalt sett, kan bli riktigt stora, alltfÃ¶r. SÃ¥ om utrymmet Ã¤r en hÃ¶g premie pÃ¥ ditt system, en trie kanske inte Ã¤r rÃ¤tt sÃ¤tt att gÃ¥, Ã¤ven om dess Ã¶vriga fÃ¶rmÃ¥ner spelar in. Jag Ã¤r Doug Lloyd. Detta Ã¤r CS50.