Ég orðinn orðtekinn
27. apríl 2008 | 2 aths.
Borgar vinnufélagi minn fór þess á leit við mig um daginn að fá aðgang að textunum úr þessari dagbók til að nýta í orðaverkefni sín. Það var sjálfsagt mál og fróðlegar niðurstöður lágu fljótlega fyrir.
Borgar er að grúska við margvísleg tungutækniverkefni í frítímum sínum, þar á meðal rímorðabók og sjálfvirka orðskiptingu.
Í þessu skyni er hann að sanka að sér raunhæfum dæmum um orðanotkun og þurfti ekki mikið að smjaðra fyrir mér til að fá afrit af gagnagrunninum mínum.
Niðurstaðan varð sú í dagbókinni fundust um 25 þúsund orðmyndir og þar af voru um fimmtán þúsund orðmyndir sem bættust við í safn Borgars (þegar búið er að filtera út ensku og algengustu stafsetningarvillur). Eitthvað af því er reyndar danska og ambögur ýmsar, en Borgar tiltók sérstaklega nokkur "nýyrði" sem hann væri sérlega ánægður með. Orð á borð við aðalmubluna, fánahommi, logsuðuhjálmslaga, misviðurstyggilega og pissuréttindalaus.
Uppáhaldsorðið hans er víst þtuð.
Hér koma svo algengustu orðin, í tíðniröð:
Að í og á ég sem er það við ekki en til með var um því af mér fyrir eftir svo þar upp þegar þetta mig verið þá eru hafa hann úr út yfir.
Vera sé frá hefur þess hef nú sér eða bara eins væri hér voru vegar hins þannig ef þó maður fram verður hafi hafði þeim hvað allt enda heldur hún taka hvort reyndar eitthvað fór aftur okkur heim dag hjá inn sig þeir áður aðeins fara.
Í fyrri málsgreininni eru þau orð sem koma oftar en 1000 sinnum fyrir, í þeirri seinni orðin milli 1000 og 500.
Algengasta orðið, að kom fyrir tæplega 23.000 sinnum, ég rúmlega 11.400 sinnum, en mín ekki nema 341 sinnum.
Fróðlegt.
Uppfært: Bætti við leitartenglum á uppáhaldsorð Borgars.
Athugasemdir (2)
1.
hildigunnur reit 28. apríl 2008:
Það er reyndar til ágætis rímorðabók, hér.
2.
Borgar reit 28. apríl 2008:
Ég get loksins gefið upp að endanleg niðurstaða orðtöku á þessu bloggi eru 12.384 orðmyndir, þegar það versta hefur verið sigtað úr.
Alls ´svartlistaði´ ég 2.753 orðmyndir sem mér sýnist, fljótt á litið, mest vera viljandi misritaðar ambögur af ýmsum toga. Sá listi er í pósthólfinu þínu.
Útrætt mál
Lokað er fyrir athugasemdir eftir 30 daga.
Comments are closed for this entry