DOUG LLOYD: SÃ¥ i CS50, har vi dÃ¦kket en masse forskellige datastrukturer, hÃ¸jre? Vi har set arrays, og forbundet lister og hash tabeller, og forsÃ¸ger, stakke og kÃ¸er. Vi vil ogsÃ¥ lÃ¦re lidt om trÃ¦er og dynger, men virkelig disse alle bare ende at blive variationer over et tema. Der er virkelig disse slags fire grundlÃ¦ggende ideer at alt andet kan koges ned til. Arrays, hÃ¦gtede lister, hash tabeller og forsÃ¸ger. Og som jeg sagde, er der er variationer over dem, men dette er temmelig meget kommer til at opsummere alt, hvad vi kommer til at tale om i denne klasse i form af C. Men hvordan gÃ¸r disse alle mÃ¥le op, ikke? Vi har talt om fordele og ulemper af hver i separate videoer pÃ¥ dem, men der er en masse tal at blive kastet rundt. Der er en masse generel tanker blive kastet rundt. Lad os prÃ¸ve og konsolidere det i Ã©t sted. Lad os afveje fordele mod ulemperne, og overveje som datastruktur kunne vÃ¦re det rigtige data struktur for netop din situation, uanset hvilken type data, du opbevaring. Du behÃ¸ver ikke nÃ¸dvendigvis altid behÃ¸ver at bruge super hurtig indsÃ¦ttelse, sletning, og opslag af en trie, hvis du virkelig er ligeglad indsÃ¦ttelse og sletning for meget. Hvis du har brug for lige hurtigt tilfÃ¦ldig adgang, mÃ¥ske et array er bedre. SÃ¥ lad os destillere det. Lad os tale om hver af de fire store typer af datastrukturer at vi har talt om, og bare se, nÃ¥r de kunne vÃ¦re gode, og nÃ¥r de mÃ¥ske ikke vÃ¦re sÃ¥ god. SÃ¥ lad os starte med arrays. SÃ¥ indsÃ¦ttelse, der er slags dÃ¥rlig. 

Insertion i slutningen af ââet array er OK, hvis vi bygger et array, som vi gÃ¥r. Men hvis vi har brug for at indsÃ¦tte elementer i midten, tÃ¦nker tilbage pÃ¥ indsÃ¦ttelse sortere, der er en masse at flytte til at passe et element derinde. Og sÃ¥ hvis vi kommer til at indsÃ¦tte overalt, men i slutningen af ââet array, det er nok ikke sÃ¥ stor. 

Tilsvarende sletning, medmindre vi er sletning fra enden af ââet array, er nok heller ikke sÃ¥ stor, hvis Vi Ã¸nsker ikke at efterlade tomme huller, som normalt gÃ¸r vi ikke. Vi Ã¸nsker at fjerne et element, og sÃ¥ slags gÃ¸r det lunt igen. Og sÃ¥ sletter elementer fra et array, heller ikke sÃ¥ stor. 

Opslag, er dog stor. Vi har random access, konstant tid opslag. Vi bare sige syv, og vi gÃ¥r til matrix udflytning syv. Vi siger 20, med gÃ¥ til vifte udflytning 20. Vi behÃ¸ver ikke at gentage hele. Det er temmelig godt. 

Arrays er ogsÃ¥ forholdsvis let at sortere. Hver gang vi talte om en sortering algoritme, sÃ¥som udvÃ¦lgelse sortere, indsÃ¦ttelse sortere, boble sortere, fusionere sortere, vi altid brugt arrays til at gÃ¸re det, fordi arrays er temmelig let at Sorter forhold til de datastrukturer vi hidtil har set. 

De er ogsÃ¥ relativt lille. Der er ikke en masse ekstra plads. Du skal bare afsat nÃ¸jagtig lige sÃ¥ meget som du har brug for at holde dine data, og det er temmelig meget det. SÃ¥ de er temmelig lille og effektivt pÃ¥ denne mÃ¥de. Men en anden ulempe, selv om, er, at de er fastsat i stÃ¸rrelse. Vi er nÃ¸dt til at erklÃ¦re, prÃ¦cis hvordan store vi Ã¸nsker, at vores array til at vÃ¦re, og vi fÃ¥r kun Ã©t skud pÃ¥ det. Vi kan ikke vokse og skrumpe det. 

Hvis vi har brug for at vokse eller skrumpe det, vi nÃ¸dt til at erklÃ¦re en helt ny array, kopiere alle elementer i fÃ¸rste opstilling i den anden matrix. Og hvis vi fejlberegnet, at tid, er vi nÃ¸dt til at gÃ¸re det igen. Ikke sÃ¥ stor. SÃ¥ arrays ikke giver os den fleksibilitet at have variabelt antal elementer. 

Med en sammenkÃ¦det liste, indsÃ¦ttelse er temmelig let. Vi har lige tack pÃ¥ forsiden. Sletning er ogsÃ¥ temmelig let. Vi er nÃ¸dt til at finde elementerne. Det indebÃ¦rer nogle sÃ¸ger. 

Men nÃ¥r du har fundet elementet du leder efter, alt hvad du behÃ¸ver at gÃ¸re er at Ã¦ndre en pegepind, eventuelt to, hvis du har en sammenkÃ¦det list-- en dobbelt sammenkÃ¦det liste, rather-- og sÃ¥ kan du bare frigÃ¸re node. Du behÃ¸ver ikke at flytte alt omkring. Du skal bare Ã¦ndre to pointere, sÃ¥ det er temmelig hurtig. 

Opslag er dÃ¥rlig selv, ikke? For os at finde en element i en sammenkÃ¦det liste, om enkeltvis eller dobbelt forbundet, vi er nÃ¸dt til lineÃ¦r sÃ¸ge den. Vi er nÃ¸dt til at starte ved begyndelsen og flytte enden, eller starte i slutningen farten til begyndelsen. Vi har ikke random access lÃ¦ngere. SÃ¥ hvis vi laver en masse sÃ¸gning, mÃ¥ske en sammenkÃ¦det liste er ikke helt sÃ¥ godt for os. 

De er ogsÃ¥ virkelig vanskeligt at sortere, ikke? Den eneste mÃ¥de du kan virkelig sortere en sammenkÃ¦det liste er at sortere det, som du konstruere den. Men hvis du sortere det som du konstruere det, er du ikke lÃ¦ngere lave hurtige indrykninger lÃ¦ngere. Du er ikke bare krydse ting pÃ¥ forsiden. Du er nÃ¸dt til at finde den rigtige sted at sÃ¦tte det, og sÃ¥ vil din indsÃ¦ttelse bliver omtrent lige sÃ¥ slemt som indsÃ¦tning i et array. SÃ¥ forbundne lister er ikke sÃ¥ stor for sortering af data. 

De er ogsÃ¥ temmelig lille, stÃ¸rrelse-wise. Dobbelt knyttet liste lidt stÃ¸rre end enkeltvis hÃ¦gtede lister, som er lidt stÃ¸rre end arrays, men det er ikke en enorm mÃ¦ngde spildplads. SÃ¥ hvis pladsen er pÃ¥ en prÃ¦mie, men ikke en rigtig intens prÃ¦mie, dette kan vÃ¦re den rigtige vej at gÃ¥. 

Hash tabeller. IndfÃ¸ring i en hashtabel er forholdsvis ligetil. Det er en to-trins proces. FÃ¸rst skal vi kÃ¸re vores data gennem en hash-funktion for at fÃ¥ en hash-kode, og sÃ¥ vi indsÃ¦tter elementet ind i hash tabellen pÃ¥ det hashkode placering. 

Deletion, der svarer til sammenkÃ¦det liste, er nemt, nÃ¥r du finder det element. Du er nÃ¸dt til at finde det fÃ¸rste, men sÃ¥ nÃ¥r du sletter den, du bare brug for at udveksle et par pointere, hvis du bruger separat kÃ¦de. Hvis du bruger sondering, eller hvis du ikke er ved hjÃ¦lp af kÃ¦de overhovedet i dit hash tabel, sletning er faktisk virkelig nemt. Alt du skal gÃ¸re er at hash det data, og derefter gÃ¥ til denne placering. Og forudsat du ikke gÃ¸r har nogen kollisioner, vil du vÃ¦re i stand til at slette meget hurtigt. 

Nu opslag er, hvor tingene fÃ¥ lidt mere kompliceret. Det er i gennemsnit bedre end hÃ¦gtede lister. Hvis du bruger kÃ¦de, du stadig har en linket liste, hvilket betyder, at du stadig har den sÃ¸gning skade en sammenkÃ¦det liste. Men fordi du tager dit forbundet listen og opdele den over 100 eller 1.000 eller n elementer i dit hash tabel, er du hÃ¦gtede lister er alle Ã©n n'te stÃ¸rrelsen. De er alle vÃ¦sentligt mindre. Du har n forbundet lister i stedet af en sammenkÃ¦det liste af stÃ¸rrelse n. 

Og sÃ¥ dette virkelige verden konstant faktor, som vi generelt taler ikke om i tide kompleksitet, det rent faktisk gÃ¸r en forskel her. SÃ¥ opslag er stadig lineÃ¦r sÃ¸ge, hvis du bruger kÃ¦de, men lÃ¦ngden af ââlisten du sÃ¸ger gennem er meget, meget kort ved sammenligning. Igen, hvis sortering er din mÃ¥l her, hash tabellens sandsynligvis ikke den rigtige vej at gÃ¥. Bare bruge et array hvis sortering er virkelig vigtigt for dig. 

Og de kan kÃ¸re farveskala af stÃ¸rrelse. Det er svÃ¦rt at sige, om en hash bordet er lille eller stor, fordi det virkelig afhÃ¦nger af hvor stor din hash bordet er. Hvis du kun vil vÃ¦re at lagre fem elementer i din hash tabellen, og du har en hash tabel med 10.000 elementer i det, du sandsynligvis spilde en masse plads. Kontrast vÃ¦re du ogsÃ¥ har meget kompakte hash tabeller, men mindre din hash tabel fÃ¥r, jo lÃ¦ngere hver af disse forbundne lister fÃ¥r. Og sÃ¥ der er virkelig ingen mÃ¥de at definere nÃ¸jagtigt stÃ¸rrelsen af ââen hash tabel, men det er nok sikkert at sige, det er generelt vil vÃ¦re stÃ¸rre end en sammenkÃ¦det liste lagring af samme data, men mindre end en trie. 

Og kunne er den fjerde af disse strukturer at vi har talt om. IndsÃ¦ttelse i en trie er kompleks. Der er en masse dynamisk hukommelse tildeling, isÃ¦r i begyndelsen, som du begynder at bygge. Men det er konstant tid. Det er kun det menneskelige element her, der gÃ¸r det vanskeligt. At skulle stÃ¸de null-pointer, malloc plads, gÃ¥ der, eventuelt malloc plads derfra igen. Den slags intimidering faktor pejlemÃ¦rker i dynamisk allokering af hukommelse er den hurdle at rydde. Men nÃ¥r du har ryddet det, indsÃ¦ttelse faktisk kommer ganske enkel, og det er bestemt konstant tid. 

Sletning er nemt. Alt du skal gÃ¸re er at navigere ned en par pointere og fri knudepunktet, sÃ¥ det er temmelig godt. Opslag er ogsÃ¥ temmelig hurtigt. Det er kun baseret pÃ¥ lÃ¦ngden af ââdine data. SÃ¥ hvis alle dine data er fem tegnstrenge, for eksempel, er du lagre fem tegnstrenge i din trie, det tager kun fem trin til finde det, du leder efter. Fem er bare en konstant faktor, sÃ¥ igen, insertion, deletion og opslag her er alle konstant tid, effektivt. 

En anden ting er, at din trie er faktisk slags allerede sorteres, ikke? I kraft af, hvordan vi er indsÃ¦tte elementer, ved at gÃ¥ bogstav for bogstav af det nÃ¸gle, eller ciffer for ciffer af nÃ¸glen, typisk din Trie ender med at blive slags sorteres som du bygger det. Det betyder ikke virkelig gÃ¸r mening at tÃ¦nke pÃ¥ sortering pÃ¥ samme mÃ¥de, vi tÃ¦nker det med arrays eller hÃ¦gtede lister, eller hash tabeller. Men i en vis forstand, din Trie sorteres som du gÃ¥r. 

Ulempen er naturligvis, at en trie hurtigt bliver stort. Fra hvert knudepunkt punkt, kan du have-- hvis din nÃ¸gle bestÃ¥r af cifre, du har 10 andre steder, du kan gÃ¥, hvilket betyder, at hver node indeholder oplysninger om de data, du vil gemme ved dette knudepunkt, plus 10 pointere. Som pÃ¥ CS50 IDE, er 80 bytes. SÃ¥ det er mindst 80 bytes for hver node, du opretter, Og det er ikke engang tÃ¦lle data. Og hvis dine noder er bogstaver i stedet for tal, nu har du 26 pejlemÃ¦rker fra hvert sted. Og 26 gange 8 er formentlig 200 byte, eller noget lignende. Og du har kapital og lowercase-- du kan se, hvor jeg har tÃ¦nkt mig med dette, ikke? Dine noder kan fÃ¥ virkelig store og sÃ¥ trie selv, samlet, kan fÃ¥ virkelig store, ogsÃ¥. SÃ¥ hvis pladsen er pÃ¥ et hÃ¸jt prÃ¦mie pÃ¥ dit system, en trie mÃ¥ske ikke den rigtige mÃ¥de at gÃ¥, selvom dens andre fordele komme i spil. Jeg er Doug Lloyd. Det er CS50.