Vorige | Home | Slides | Eindopdracht

 

XML 2010: Opdracht 5

Dit is een praktische opdracht die hoort bij het vak XML 2010, dat gegeven wordt aan de Faculteit der Letteren van de Rijksuniversiteit Groningen.

Voor deze opdrachten is begeleiding aanwezig op dinsdagen tussen 15:00 en 17:00 en op woensdagen tussen 11:00 en 13:00 in zaal 13.0102C. Om in zaal 13.012C op de computers te kunnen werken, heb je een Linuxaccount nodig. Neem contact op met de docent (erikt(at)xs4all.nl) als je zo'n account nog niet hebt.

Je mag de opdrachten ook thuis of op een andere computer maken. Hou er wel rekening mee dat je soms zal moeten inloggen op de prakticumserver siegfried.let.rug.nl . Dat kan bijvoorbeeld met 1 van de programma's winscp, putty of ssh.

De deadline voor het inleveren van de resultaten van deze opdracht is maandag 11 oktober 2010, 09:00. Plaats de resultaten van jouw opdracht op Nestor.

Deze opdracht bevat 10 vragen die elk 1 punt waard zijn.


Opdracht 5.1

Bij deze opdracht maken we opnieuw gebruik van het Eurovisiebestand van opdracht 4.2. Haal het bestand met jouw studienummer in de naam op uit de directory /home/erikt/class/xm10/opdracht4 , als je dit nog niet hebt gedaan.

Het bestand bevat scores die door landen zijn gegeven aan de deelnemers aan het Eurosongfestival 2010. Alleen de scores per land en deelnemer staan vermeld, bijvoorbeeld:

  <eurovision year="2010">
    <country-123 name="Moldova">
       <points-456 from="Azerbaijan">6</points-456>

Dit geeft aan dat het juryland Azerbaijan 6 punten heeft gegeven aan het optredende land Moldava.

Geef voor de volgende 5 vragen steeds 1 algemene XPath-zoekopdracht waarmee een antwoord kan worden gevonden op de vraag. De XPath-opdrachten kunnen worden getest met behulp van XSLT zoals uitgelegd op collegeslide 18 (pdf) met het basisprogramma.

  1. Hoe heet het eerste optredende land (dus een land dat punten heeft ontvangen) in jouw Eurovisie-bestand?

  2. Hoeveel landen gaven punten aan het tweede optredende land in jouw Eurovisie-bestand?

  3. Hoeveel punten heeft het laatste optredende land in jouw bestand in totaal gekregen?

  4. Aan welke optredende landen heeft het juryland Finland punten gegeven volgens jouw bestand?

  5. Hoeveel punten heeft het juryland Cyprus in totaal gegeven aan de optredende landen volgens jouw bestand?

Lever als antwoord de XPath-zoekopdracht voor elke vraag in samen met de uitvoer van de opdracht. Als de uitvoer meer dan 10 regels tekst bevat dan hoef je alleen de eerste tien regels mee te sturen.

Opdracht 5.2

Voor het maken van deze opdracht heb je een bestand nodig uit de directory /home/erikt/class/xm10/opdracht5 . Kopieer uit deze directory het bestand met jouw studienummer in de naam naar jouw eigen directory.

Jouw nieuwe bestand ls-studienummer.xml bevat syntactische annotaties van Nederlandse tekst, gecodeerd in XML. Elk woord is opgeslagen in een attribuut word van element <node>. De woordklasse van elk woord staat in het attribuut pos van hetzelfde element.

  1. Hoe vaak komt het woord het (met kleine letters) voor in jouw bestand?

  2. Laat zien welke bijwoorden (woordklasse is adv) er in jouw bestand voorkomen. Het is niet erg als de bijwoorden worden gepresenteerd als een lijst woorden zonder spaties tussen de woorden

  3. Bij hoeveel zelfstandige naamwoorden (woordklasse is noun) wordt het woord het als lidwoord (woordklasse is det) gebruikt in jouw bestand? Het zelfstandig naamwoord en het staan dan in hetzelfde zinsdeel. Als twee woorden in hetzelfde zinsdeel staan dan is dat in de annotatie uitgedrukt door een element node om de twee woord-elementen te plaatsen

  4. Geef de zinnen die het woord de samen met een bijvoegelijk naamwoord (woordklasse is adj) in hetzelfde zinsdeel bevatten. De complete zinnen staan in de elementen <sentence> die een kind zijn van elk element <alpino_ds> waarin alle node-elementen zitten van een zin

  5. Hoeveel zinnen in jouw bestand bevatten twee keer of vaker het woord de (in kleine letters)? Voor de oplossing van deze vraag is zowel gebruik van XPath als XSLT noodzakelijk.

    Alternatieve vraag (voor een half punt): schrijf een XPath-zoekopdracht die telt hoeveel zinnen het woord de (in kleine letters) twee keer of vaker bevatten. Pas deze zoekopdracht toe op de bestanden /home/erikt/class/xm10/opdracht5/la-1xde.xml en /home/erikt/class/xm10/opdracht5/la-2xde.xml . De zoekopdracht moet dan respectievelijk 0 en 1 als resultaat opleveren.


Plaats al jouw bestanden in 1 tekstbestand met de naam 5-studienummer.txt en lever dit bestand in via Nestor voor maandag 11 oktober 2010, 09:00
Voorbeeldantwoorden
Last update: October 17, 2010. erikt(at)xs4all.nl