Discussion:
nykysyuomen sanat ohjelma/tietokanta
(too old to reply)
Tero
2007-07-31 19:20:18 UTC
Permalink
Tervehdys....

Tällainen probleema...
Eli tarkoitus olisi saada kaikki nykysuomen tunnetut sanat tekstitiedostona
perusmuodossa?

Parasta olisi myös jos tiedosto myös sisältäisi nykyajan puhekielen
yleisesti käytettyjä uusiosanoja (salarakas, mesetys, irkkaaminen tms..)
mutta toki peruslista olis aluksi hyvä

Mistä tällaisen listan saisi parhaiten hommattua? Vosi olla hyvin myös
maksullinen?
Mahtaiskohan kielitoimiston (
http://www.kielikone.fi/default.aspx?intProductID=410 ) sanakirja rompusta
jos sellaisen ostaa niin saada tämän pelkän ( 100 000 sanaa )perusmuotoisen
sanaluettelon sieltä ulos?

Entäpä mitenpä wikipedian http://fi.wikipedia.org/ pelkät perussanat saisi
kätevästi poimittua?
Eli voi olla myös hyvin joku maksullinenkin kuvio jos jollain olisi tarjota,
niin yhteyttä saa ottaa ihan suoraankin
Tero
terotin (aaat) gmail.com
Teemu Likonen
2007-07-31 18:11:04 UTC
Permalink
Post by Tero
Eli tarkoitus olisi saada kaikki nykysuomen tunnetut sanat tekstitiedostona
perusmuodossa?
Kotimaisten kielten tutkimuskeskus on julkaissut 94 110 sanan sanaston
taivutustietoineen, ja sitä levitetään GNU LGPL -lisenssillä. Sanasto on
XML-muodossa. Lisätietoja täältä:

http://kaino.kotus.fi/sanat/nykysuomi/
Tero
2007-08-01 03:06:54 UTC
Permalink
Post by Tero
Eli tarkoitus olisi saada kaikki nykysuomen tunnetut sanat
tekstitiedostona
perusmuodossa?
Kotimaisten kielten tutkimuskeskus on julkaissut 94 110 sanan sanaston
taivutustietoineen, ja sitä levitetään GNU LGPL -lisenssillä. Sanasto on
http://kaino.kotus.fi/sanat/nykysuomi/
Kiitos...
Tuohan vaikutti kattavalta sanastolta kun notepadilla sitä katsoin..
Nyt vielä kun saisi vinkin että millä ohjelmalla saisi tiedoston kätevästi
putsattua pelkäksi tekstitiedostoksi jossa on pelkät sanat allekkain ilman
jotain webbi-insinöörien koodihäipäkkää?
Teemu Likonen
2007-08-01 06:17:37 UTC
Permalink
Post by Tero
Post by Teemu Likonen
http://kaino.kotus.fi/sanat/nykysuomi/
Tuohan vaikutti kattavalta sanastolta kun notepadilla sitä katsoin..
Nyt vielä kun saisi vinkin että millä ohjelmalla saisi tiedoston
kätevästi putsattua pelkäksi tekstitiedostoksi jossa on pelkät sanat
allekkain ilman jotain webbi-insinöörien koodihäipäkkää?
No, tässä tulee Linux-komentoriville sopiva insinöörikomentohäipäkkä.
Windows-ihmiset auttanevat, kuinka vastaava hoituu Windowsilla.

sed -ne 's,.*<s>\(.*\)</s>.*,\1,p' kotus-sanalista_v1.xml >kotus-sanat.txt

Tuloksena on tiedosto kotus-sanat.txt, jossa on kaikki sanat omalla
rivillään eikä sitten mitään muuta.

(Pudotin Follow-Upeista ryhmiä pois.)
Aapo Rista
2007-08-01 07:45:46 UTC
Permalink
["Followup-To:" header set to sfnet.keskustelu.kieli.]
Post by Teemu Likonen
Kotimaisten kielten tutkimuskeskus on julkaissut 94 110 sanan
sanaston taivutustietoineen, ja sitä levitetään GNU LGPL
http://kaino.kotus.fi/sanat/nykysuomi/
Onko jossain tuohon tai johonkin muuhun perustuva ohjelma(koodi) tai
tietokanta, joka osaa muuttaa taivutetun suomenkielisen sanan
perusmuotoon?

Tämä olisi hyvin hyödyllinen etsittäessä sanoja suomenkielisestä
tekstistä: tekstin sanat voidaan indeksoida perusmuodossa ja sanahaku
yksinkertaistuu kun hakusanan voi syöttää perusmuodossa.
--
Aapo Rista
Arto Kojo
2007-07-31 18:09:07 UTC
Permalink
Täältäkin löytyy jotain, tosin vain 25,000 sanaa

http://vesa.lib.helsinki.fi/ysa/index.html

"YSA (Yleinen suomalainen asiasanasto) on suomenkielinen, kaikki
tieteen- ja tiedonalat kattava yleissanasto, joka sisältää eri alojen
yleisimmät termit. Sanastossa on myös maantieteellisiä nimiä ja
luetteloita mm. kasvien, urheilulajien ja eläinten nimistä. Vuoden 2006
lopussa YSAssa oli noin 25 000 termiä, joista noin 4 500
maantieteellistä nimeä.

YSAa on käytetty tietokannoissa vuodesta 1987 lähtien.

Allärs on YSAn ruotsinkielinen käännös.

Kehittämisehdotuksia (ja hintakyselyitä?) voi lähettää osoitteeseen
vesa-posti(at)helsinki.fi"

--ako
Post by Tero
Tervehdys....
Tällainen probleema...
Eli tarkoitus olisi saada kaikki nykysuomen tunnetut sanat tekstitiedostona
perusmuodossa?
Parasta olisi myös jos tiedosto myös sisältäisi nykyajan puhekielen
yleisesti käytettyjä uusiosanoja (salarakas, mesetys, irkkaaminen tms..)
mutta toki peruslista olis aluksi hyvä
Mistä tällaisen listan saisi parhaiten hommattua? Vosi olla hyvin myös
maksullinen?
Mahtaiskohan kielitoimiston (
http://www.kielikone.fi/default.aspx?intProductID=410 ) sanakirja rompusta
jos sellaisen ostaa niin saada tämän pelkän ( 100 000 sanaa )perusmuotoisen
sanaluettelon sieltä ulos?
Entäpä mitenpä wikipedian http://fi.wikipedia.org/ pelkät perussanat saisi
kätevästi poimittua?
Eli voi olla myös hyvin joku maksullinenkin kuvio jos jollain olisi tarjota,
niin yhteyttä saa ottaa ihan suoraankin
Tero
terotin (aaat) gmail.com
Mixu Lauronen
2007-08-01 09:26:06 UTC
Permalink
Post by Arto Kojo
Täältäkin löytyy jotain, tosin vain 25,000 sanaa
http://vesa.lib.helsinki.fi/ysa/index.html
YSA ei sinällään ole sanakirja, vaan erinomainen apu löytää kirjastoista
tietoa. Kaikki kirjat luokitellaan myös asiasanojen mukaan, joten jos
haluat tietää esimerkiksi aapasoista, niin tuolta hakemalla löydät, että
asiaa käsitteleviä kirjoja löytyy kirjastosta hyllyistä, joissa koodin alku
on 11, 16 tai 21.

Tämä on iso syy siihen, miksi kirjastonhoitajat ovat periaatteessa
akateemisesti koulutettuja
--
Maailmassa eniten haittaa aiheuttanut kemikaali on testosteroni.
The most harmful chemical in the World has been testosterone.
Jukka K. Korpela
2007-08-04 18:20:24 UTC
Permalink
Post by Tero
Tervehdys....
Opettelepa lähettämään viestisi asiallisesti. Perusvihjeitä:
http://www.cs.tut.fi/~jkorpela/nyysit/eit.html
Huomaa erityisesti, että lähettäminen sekä johonkin ryhmään että sen
alaryhmään on aina väärin.

Jatkot arvottu kieliryhmään, koska perusongelmasi tuntuu olevan, että yrität
käsitellä kielellistä ongelmaa tuntematta kieltä koskevaa perustietämystä
_ja_ kertomatta, mitä oikeastaan olet tekemässä, jolloin kieltä tuntevatkaan
eivät osaa auttaa.
Post by Tero
Tällainen probleema...
Eli tarkoitus olisi saada kaikki nykysuomen tunnetut sanat
tekstitiedostona perusmuodossa?
Nykysuomen sanojen määrä on ääretön. Olet siis yrittämässä jotain
mahdotonta. Jos kertoisit, mitä haluat tiedostolla tehdä, niin joku
ystävällinen sielu ehkä voisi opastaa, miten asiaa kannattaisi lähestyä.
--
Jukka K. Korpela ("Yucca")
http://www.cs.tut.fi/~jkorpela/
Loading...