DBpedia


  • DBpedia คือพยายามของชุมชนที่จะดึงข้อมูลจากวิกิพีเดียที่มีโครงสร้างและเพื่อให้ข้อมูลเหล่านี้ที่มีอยู่บนเว็บ
  • DBpedia ช่วยให้คุณสามารถที่จะขอคำสั่งที่มีความซับซ้อนกับวิกิพีเดียและเพื่อเชื่อมโยงข้อมูลอื่น ๆ ชุดบนเว็บวิกิพีเดียข้อมูล

  • กึ่งโครงสร้างมาร์กอัปวิกิพีเดีย -> ข้อมูลที่มีโครงสร้าง
  • เป้าหมายร่วมกันกับ WikiData แต่วิธีการที่แตกต่างกัน
DBpedia เป็นโครงการชุมชนโปรดดู http://dbpedia.org สำหรับรายการเต็มรูปแบบของผู้ให้


ข้อ จำกัด ของวิกิพีเดีย

คำถามง่ายๆ - ยากที่จะตอบด้วยวิกิพีเดีย:

  • มีอะไรอินส์บรุไลพ์ซิกกัน?
  • นายกเทศมนตรีของเมืองกลางยุโรปมีใครสูงกว่า 1000m?
  • ซึ่งภาพยนตร์ที่นำแสดงโดยทั้ง Brad Pitt และ Angelina Jolie?
  • ผู้เล่นฟุตบอลที่เล่นเป็นผู้รักษาประตูให้กับสโมสรที่มีสนามกีฬาที่มีมากกว่า 40.000 ที่นั่งและที่กำลังเกิดขึ้นในประเทศที่มีมากกว่า 10 ล้านคนที่อาศัยอยู่

(เพิ่มเติมเกี่ยวกับเรื่องนี้ในภายหลัง)



โครงสร้างในวิกิพีเดีย

  • ชื่อเรื่อง
  • นามธรรม
  • infoboxes
  • ภูมิศาสตร์พิกัด
  • หมวดหมู่
  • รูปภาพ
  • ลิงค์
    • รุ่นภาษาอื่น
    • หน้าวิกิพีเดียอื่น ๆ
    • ไปยังเว็บ
    • การเปลี่ยนเส้นทาง
    • เพิ่มความชัดเจน
  • ...


DBpedia กรอบการสกัดข้อมูล

DBpedia ข้อมูลการสกัดกรอบ (ขโมย)

  • เริ่มต้นในปี 2007
  • โฮสต์บน Sourceforge และ Github
  • แรกเขียนใน PHP แต่อย่างเต็มที่อีก writtten เขียนใน Scala & Java
  • รอบ 40 ร่วม
  • ดู https://www.ohloh.net/p/dbpedia สำหรับรายละเอียดภาพรวม

ที่อาจเกิดขึ้นสามารถนำไปปรับใช้ MediaWikis อื่น ๆ



Dief - ภาพรวม



Dief - Input / วจีวิภาค

อินพุต

  • หน้าวิกิพีเดียจะถูกอ่านจากแหล่งภายนอก
  • หน้าก็จะสามารถอ่านได้จาก
    • การถ่ายโอนข้อมูลวิกิพีเดีย / กิ
    • การติดตั้งโดยใช้มีเดียวิกิมีเดียวิกิ API
วจีวิภาค
  • แต่ละหน้าวิกิพีเดียจะแยกโดย parser วิกิพีเดีย
  • หน้าวิกิพีเดียกลายเป็นต้นไม้ไวยากรณ์บทคัดย่อ



Dief - สกัด / Serialization

สกัด

  • DBpedia มีสกัดเพื่อวัตถุประสงค์ที่แตกต่างกันเช่นการดึงป้ายบทคัดย่อหรือพิกัดทางภูมิศาสตร์
  • ต้นไม้ไวยากรณ์บทคัดย่อของแต่ละหน้าวิกิพีเดียจะถูกส่งไปสกัด
  • แยกแต่ละสิ้นเปลืองต้นไม้ไวยากรณ์บทคัดย่อและผลตอบแทนถัวเฉลี่ยกราฟของงบ RDF

การทำให้เป็นอันดับ

  • งบที่เก็บ RDF จะถูกเขียนลงในอ่างล้างจาน
  • รูปแบบที่แตกต่างกันเช่นยังไม่มีอเนกประสงค์, ล่าม, เต่า, JSON ได้รับการสนับสนุน



Dief - สกัด

สกัดคุณลักษณะ
  • เชี่ยวชาญในการสกัดคุณลักษณะเดียวจากบทความ
  • บทคัดย่อเช่นป้ายพิกัดประเภทแม่แบบ ...
  • ฐานข้อมูล: เบอร์ลิน rdfs: ฉลาก "เบอร์ลิน"
    ฐานข้อมูล: dc โอลิเวอร์ทวิ: DB เรื่อง: หมวดหมู่: นวนิยายภาษาอังกฤษ

กล่อง สกัด

  • ดิบแยกกล่องข้อมูล
  • การทำแผนที่ที่ใช้สารสกัดจากกล่องข้อมูล


Dief - ดิบกล่องแยก

ไวยากรณ์ WikiText
{{กล่องข้อมูลการตั้งถิ่นฐานเกาหลี
| ชื่อ = เมืองปูซานเมโทรโพลิแทน
อังกูล = 부산광역시 |
...
| area_km2 = 763.46
| ป๊อป = 3635389
| ภูมิภาค = [[Yeongnam]]
}}

อนุกรม RDF
DBP ที่: ปูซาน DBP: ชื่อ "ปูซานเมโทรโพลิแทนซิตี"
DBP ที่: ปูซาน DBP: อังกูล "부산광역시" @ แขวน
DBP ที่: ปูซาน DBP: area_km2 "763.46" ^ XSD: ลอย
DBP ที่: ปูซาน DBP: ป๊อป "3635389" ^ XSD: int
DBP ที่: ปูซาน DBP: ภูมิภาค DBP: Yeongnam



Dief - กล่องข้อมูลดิบแยก / ความหลากหลาย



Dief - กล่องข้อมูลดิบแยก / ความหลากหลาย



Dief - ดิบกล่องแยก

  • วิธีการที่ตรงไปตรงมาและครอบคลุมขนาดใหญ่
  • ที่ไม่สอดคล้องกันในการตั้งชื่อสถานที่ให้บริการ
    • infoboxes ที่แตกต่างกันอาจจะมีการตั้งชื่อแตกต่างกันสำหรับความหมายเหมือนกัน (เช่นเกิด VS birth_date VS วันเกิด)
  • ที่ไม่สอดคล้องกันในสถานที่ให้บริการประเภทข้อมูล
    • ประเภทข้อมูลจะถูกคำนวณต่อเช่นในลักษณะโลภ


Dief-mapping ตามแยกกล่องข้อมูล

ความหมายที่ถูกต้อง:

  • รวมเป็นอะไรกัน (birth_place บ้านเกิด)
  • แยกสิ่งที่แตกต่างกัน (bornIn บ้านเกิด)
  • เพิ่มขนาดใหญ่สำหรับ / Precision Recall
แมปของวิกิพีเดีย:
  • http://mappings.dbpedia.org/
  • ทุกคนสามารถมีส่วนร่วมในการแมปใหม่หรือปรับปรุงที่มีอยู่
  • ~ 170 บรรณาธิการ


Dief-mapping ตามแยกกล่องข้อมูล



แผนการ URI / IRI

http:// dbpedia.org {lang.} เป็นโดเมนหลัก

สำหรับทุกบทความที่มีอยู่ทรัพยากร DBpedia ในรูปแบบ:
dbpedia.org TTP :/ / {lang.} ทรัพยากร / {} ArticleName /

คุณสมบัติจากกล่องข้อมูลดิบแยกใช้ dbpedia.org http:// {lang.} / สถานที่ / namespace

อภิปรัชญาเป็นระดับโลกสำหรับทุกภาษาและภายใต้
namespace http://dbpedia.org/ontology/

หมายเหตุ: ที่สำหรับภาษาอังกฤษรหัสภาษาไม่ถูกนำมาใช้

  • http://dbpedia.org เป็นโดเมนหลัก
  • http://dbpedia.org/resource/ {title} สำหรับบทความ
  • http://dbpedia.org/property/ {title} สำหรับคุณสมบัติ


ทิ้ง RDF

DBpedia มี 2 โหมดการสกัด:

  • DBpedia คู่ที่ผลการสกัดปรับปรุงโดยตรงปลายทาง SPARQL (เพิ่มเติมว่าภายหลัง)
  • การถ่ายโอนข้อมูลตามผลการสกัดต่อเนื่องที่ RDF ผลจะถูกโหลดเข้าไปในร้านต่อมาสาม

ทิ้ง DBpedia



ปลายทาง SPARQL

  • เซิร์ฟเวอร์อัจฉริยะจะถูกใช้เป็นที่เก็บสามสำหรับภาษาอังกฤษ DBpedia
  • ปลายทาง SPARQL เป็น http://dbpedia.org/sparql
    • โฮสติ้งที่ให้บริการโดย OpenLink
  • ไม่ทั้งหมดทิ้ง RDF จะถูกโหลด


การตอบคำถาม (1/2)

กลับไปที่คำถามที่วิกิพีเดียของเรา:

  • มีอะไรอินส์บรุไลพ์ซิกกัน?
  • นายกเทศมนตรีของเมืองกลางยุโรปมีใครสูงกว่า 1000m?
  • ซึ่งภาพยนตร์ที่นำแสดงโดยทั้ง Brad Pitt และ Angelina Jolie?
  • ผู้เล่นฟุตบอลที่เล่นเป็นผู้รักษาประตูให้กับสโมสรที่มีสนามกีฬาที่มีมากกว่า 40.000 ที่นั่งและที่กำลังเกิดขึ้นในประเทศที่มีมากกว่า 10 ล้านคนที่อาศัยอยู่

โดยใช้ข้อมูลที่สกัดจากวิกิพีเดียและประชาชนปลายทาง DBpedia SPARQL สามารถตอบคำถามเหล่านี้



การตอบคำถาม (2/2)

ผู้เล่นฟุตบอลที่เล่นเป็นผู้รักษาประตูให้กับสโมสรที่มีสนามกีฬาที่มีมากกว่า 40.000 ที่นั่งและที่กำลังเกิดขึ้นในประเทศที่มีมากกว่า 10 ล้านคนที่อาศัยอยู่



สด DBpedia

  • ทิ้ง DBpedia ถูกสร้างขึ้นบนพื้นฐานประจำปี
  • วิกิพีเดียมีประมาณ 100,000 - 150,000 หน้าแก้ไขต่อวัน
  • DBpedia สดดึงหน้าการปรับปรุงในผลเรียลไทม์และการสกัดปรับปรุงเก็บสาม
  • ในทางปฏิบัติล่าช้าปรับปรุง 5 นาทีเพิ่มประสิทธิภาพการทำงานโดย 15%

ลิงค์

  • ปลายทาง SPARQL: http://live.dbpedia.org/sparql
  • เอกสาร: http://wiki.dbpedia.org/DBpediaLive
  • สถิติ: http://live.dbpedia.org/LiveStats/


DBpedia สด - ภาพรวม



DBpedia สด - ส่วนประกอบ

  • วิกิพีเดียท้อ​​งถิ่นกระจก (เพื่อให้สามารถเกินขีด จำกัด การเข้าถึง)
  • วิกิพีเดียการทำแผนที่เป็น input
    • การเปลี่ยนแปลงในการทำแผนที่อาจส่งผลกระทบต่อหลายหน้า
  • ผู้จัดการสกัด: จับฟีดวิกิพีเดียและการทำแผนที่และปรับปรุงเก็บสาม
    • หน้ายังไม่แปรกว่าเดือนมีการปรับปรุงยัง
  • เครื่องมือซิงค์: เผยแพร่การปรับปรุงเพื่อให้ up-to-date กระจก DBpedia สด
  • ข้อมูลจะถูกแยกในกราฟแยกต่างหาก


DBpedia สากล (i18n)

  • DBpedia สากลคณะกรรมการก่อตั้ง:
    • http://wiki.dbpedia.org/Internationalization
  • มี DBpedia ฉบับภาษา:
    • เกาหลี, กรีก, เยอรมัน, โปแลนด์, รัสเซีย, ดัตช์, โปรตุเกส, สเปน, อิตาลี, ญี่ปุ่น, ฝรั่งเศส
    • ใช้ที่สอดคล้องกันฉบับที่วิกิพีเดียภาษาสำหรับการป้อนข้อมูล
  • แมปสำหรับภาษา 23


DBpedia i18n - ภาพรวม



หมายเหตุ / ความชัดเจน Entity

จดจำชื่อเอ็นทิตี้และ disambiguation

เครื่องมือเช่น DBpedia Spotlight , AlchemyAPI , ความหมายของ API , เปิดกาเลส์ , Zemanta และ Apache Stanbol



การตอบคำถาม



ค้นหาและสอบถาม




ดิจิตอลห้องสมุดและคลังเก็บ

  • เสมือนนานาชาติผู้มีอำนาจไฟล์ (VIAF) โครงการเป็นข้อมูลที่เชื่อมโยง
  • DBpedia ยังสามารถให้:
    • ข้อมูลบริบทสำหรับบรรณานุกรมและบันทึกเก็บถาวร (เช่นกลุ่มผู้เข้าชมของผู้เขียน, หน้าแรกของภาพยนตร์, ภาพ ฯลฯ )
    • ตัวบ่งชี้ที่มีเสถียรภาพและ curated สำหรับการเชื่อมโยง
    • ช่วงกว้างของหัวข้อที่วิกิพีเดียสามารถสร้างพื้นฐานสำหรับพจนานุกรมสำหรับการทำดัชนีเรื่อง


มือถือ DBpedia

DBpedia มือถือเป็นสถานที่ที่เป็นศูนย์กลางของโปรแกรมประยุกต์ของไคลเอ็นต์ DBpedia สำหรับอุปกรณ์เคลื่อนที่ที่ประกอบด้วยมุมมองแผนที่, Marbles เชื่อมโยงข้อมูลเบราว์เซอร์ และการประยุกต์ใช้ตัวที่ใช้งาน GPS




วิกิพจนานุกรม DBpedia

  • วิกิพจนานุกรมเป็นโครงการที่วิกิพีเดีย: http://wiktionary.org
    • 171 ภาษาคำ 3M สำหรับภาษาอังกฤษ
  • สกัดใช้กรอบ DBpedia สกัดข้อมูล
  • ได้อย่างง่ายดายกำหนดสำหรับรุ่นทุกภาษาวิกิพจนานุกรม
    • การกำหนดค่าล่วงหน้าสำหรับเยอรมัน, กรีก, อังกฤษ, รัสเซียและฝรั่งเศส
    • http://Wiktionary.dbpedia.org
    • 100 อเนกประสงค์ milion
    • แบบมะนาว


โปรแกรมอื่น ๆ

ดู http://wiki.dbpedia.org/Applications สำหรับรายการที่สมบูรณ์





Creator: soeren (TIB)

Contributors:
-


Licensed under the Creative Commons
Attribution ShareAlike CC-BY-SA license


This deck was created using SlideWiki.