Dades semiestructurades

Les dades semiestructurades [1] són una forma de dades estructurades que no obeeix l'estructura tabular dels models de dades associats a bases de dades relacionals o altres formes de taules de dades, però que, tanmateix, conté etiquetes o altres marcadors per separar elements semàntics i fer complir les jerarquies de registres. i camps dins de les dades. Per tant, també es coneix com a estructura d'autodescripció.[2]

En les dades semiestructurades, les entitats que pertanyen a la mateixa classe poden tenir atributs diferents encara que estiguin agrupades, i l'ordre dels atributs no és important.[3]

Les dades semiestructurades s'estan produint cada cop més des de l'arribada d'Internet, on els documents de text complet i les bases de dades ja no són les úniques formes de dades, i les diferents aplicacions necessiten un mitjà per intercanviar informació. A les bases de dades orientades a objectes, sovint es troben dades semiestructurades.[4]

Tipus

XML

XML, altres llenguatges de marques, correu electrònic i EDI són totes formes de dades semiestructurades. OEM (Model d'intercanvi d'objectes) es va crear abans de l'XML com a mitjà d'autodescriure una estructura de dades. XML s'ha popularitzat pels serveis web que es desenvolupen utilitzant els principis SOAP.

Alguns tipus de dades descrites aquí com a "semiestructurades", especialment XML, pateixen la impressió que són incapaços de rigor estructural al mateix nivell funcional que les taules i files relacionals. De fet, la visió de l'XML com a inherentment semiestructurat (anteriorment s'anomenava "no estructurat") ha perjudicat el seu ús per a una àmplia gamma d'aplicacions centrades en dades. Fins i tot els documents, que normalment es consideren l'epítom de la semiestructura, es poden dissenyar pràcticament amb el mateix rigor que l'esquema de la base de dades, imposat per l'esquema XML i processat per programes de programari comercials i personalitzats sense reduir la seva usabilitat per part dels lectors humans.

Tenint en compte aquest fet, es podria dir que XML té una "estructura flexible" capaç d'un flux i jerarquia centrats en l'home, així com una estructura d'elements molt rigorosa i una tipificació de dades.

JSON

JSON o JavaScript Object Notation, és un format estàndard obert que utilitza text llegible per humans per transmetre objectes de dades que consisteixen en parells atribut-valor. S'utilitza principalment per transmetre dades entre un servidor i una aplicació web, com a alternativa a XML. JSON s'ha popularitzat pels serveis web desenvolupats utilitzant els principis REST.

Hi ha una nova generació de bases de dades com MongoDB i Couchbase que emmagatzemen dades de forma nativa en format JSON, aprofitant els avantatges de l'arquitectura de dades semiestructurades.

Referències

  1. Peter Buneman. «Semistructured data» (en anglès), 1997.
  2. «What is Semi-structured data?» (en anglès americà), 12-04-2019. [Consulta: 8 octubre 2023].
  3. «Introduction to Semi-structured Data | Snowflake Documentation» (en anglès). [Consulta: 8 octubre 2023].
  4. «What Is Semi-Structured Data? (With Examples and Benefits)» (en anglès). [Consulta: 8 desembre 2022].