061012_Mot so de tai 2012-2014
Download
Report
Transcript 061012_Mot so de tai 2012-2014
Một số chủ đề KH-CN của KTLab
giai đoạn 2012-2014
Hà Quang Thụy
Phòng Thí nghiệm Công nghệ Tri thức - KTLab
Trường ĐHCN, Đại học Quốc gia Hà Nội,
Hà Nội, 06-10-2012
1
KTLab
-
Tóm tắt đa văn bản
Phát hiện vai trò & dự báo bùng nổ sự kiện trên
mạng xã hội
Khai phá dữ liệu văn bản Y Sinh học
Khai phá dữ liệu quá trình
Tích hợp dữ liệu và khai phá dữ liệu song song
Một số hướng đề tài SVNCKH
2
Nội dung
April
13,
2015
1. Tóm tắt đa văn bản
Giới thiệu chung
Phối hợp thực hiện đề tài cấp Bộ B2012-01-24 (2012-2013)
Đơn vị chủ trì: Trường ĐHBKHN.
Chủ nhiệm đề tài: PGS. TS. Lê Thanh Hương
Nghiên cứu phương pháp xác định từ khóa và trọng số 06/2012
Nghiên cứu loại bỏ chồng chéo trong các văn bản trong cụm văn
bản 09/2012
Nghiên cứu phương pháp sắp xếp độ quan trọng giữa các văn bản
trong cụm văn bản 9/2012
Thiết kế và cài đặt chương trình tóm tắt đa văn bản tiếng Việt
9/2013
Xây dựng tập dữ liệu thử nghiệm phục vụ bài toán tóm tắt đa văn
bản 9/2013
3
Một số nội dung cần thực hiện
-
April
13,
2015
Tóm tắt đa văn bản (tiếp)
Nghiên cứu phương pháp xác định từ khóa và trọng số 06/2012:
Chưa hoàn thành báo cáo (Sử dụng mô hình chủ đề ẩn cho miền
lĩnh vực tóm tắt văn bản: các bước lựa chọn từ khoa),
Nghiên cứu loại bỏ chồng chéo trong các văn bản trong cụm văn
bản 09/2012: Chưa hoàn thành báo cáo (Khai thác kết quả nghiên
cứu về kế thừa văn bản)
Nghiên cứu phương pháp sắp xếp độ quan trọng giữa các văn bản
trong cụm văn bản 9/2012: Chưa hoàn thành báo cáo (Mô hình chủ
đề ẩn)
4
Tình hình thực hiện
-
Bài báo ghi nhận kết quả thực hiện đề tài
[QTTT12] Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh
Nguyen (2012). Refining the Judgement Threshold to Improve Recognizing
Textual Entailment Using Similarity, ICCCI 2012, Part II, LNAI 7654, pp. 335–
344, 2012.
[TLQ12] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012). Named
Entity Recognition for Vietnamese documents using semi-supervised
learning method of CRFs with Generalized Expectation Criteria, IALP 2012,
Ha Noi, Vietnam, November 13-15, 2012 (in press).
April
13,
2015
2. Phát hiện vai trò và dự báo bùng nổ
Giới thiệu chung
Phối hợp thực hiện đề tài cấp Bộ CA 2012-2013
Chủ trì đề tài: ThS Nguyễn Lương Hoàng Hoa
Dự báo bùng nổ sự kiện toàn cục
Dự báo bùng nổ sự kiện cục bộ: một cộng đồng, một cá nhân
5
Một số yêu cầu chính
-
Một số nội dung chính
Nghiên cứu đặc trưng của Facebook, Twitter, blogsphore
Phương pháp thu thập dữ liệu và tiền xử lý dữ liệu
Phương pháp phát hiện vai trò
Phương pháp dự bào bùng nổ sự kiện
Phương pháp kết hợp các mạng xã hội
Thiết kế và xây dựng chương trình cho Facebook, Twitter,
blogsphore
Kết hợp kết quả từ các mạng xã hội
Một số giải pháp phát hiện vai trò và bùng nổ
Đã giới thiệu (báo cáo 29/9/2012)
April
13,
2015
Thu thập dữ liệu mạng xã hội
Các hình thức thu thập dữ liệu
Chiêu mộ người tham gia theo ngữ cảnh ngoại tuyến,
Chiêu mộ người tham gia theo ngữ cảnh trực tuyến,
Thu thập tự động (crawling) dữ liệu.
[BOMRS12] Matko Boanjak, Eduardo Oliveira, José Martins, Eduarda Mendes
Rodrigues, Luís Sarmento (2012). TwitterEcho: a distributed focused crawler to
support open research with twitter data, WWW (Companion Volume) 2012: 12331240
[LZTCSS09] L. Lopes, J. Zamite, B. Tavares, F. Couto, F. Silva, and M. Silva
(2009). Automated social network epidemic data collector, INForum - Simposio
de Informatica, September, 2009.
[PP10] A. Pak and P. Paroubek (2010). Twitter as a corpus for sentiment analysis
and opinion mining,. The 7th conference on International Language Resources
and Evaluation (LREC), May 2010.
[Russ11] Matthew A. Russell (2011). Mining the social web, O'Reilly, 2011.
[Wang10] Alex Hai Wang (2010). Don't Follow Me - Spam Detection in Twitter,
SECRYPT 2010: 142-151
[ZSCS10] João Zamite, Fabrício A. B. da Silva, Francisco M. Couto, Mário J.
Silva (2010). MEDCollector: Multisource Epidemic Data Collector, ITBAM 2010:
16-30.
6
-
April
13,
2015
Thu thập dữ liệu từ Facebook
Tìm hiểu chung
Thu thập thông tin thành viên và đồ thị các mối liên kết bạn
bè: chỉ cho phép truy xuất thông tin thành viên từ chính
những thành viên đó hoặc bạn bè có liên kết.
https://developers.facebook.com/docs/reference/api/: Graph
API
Thu thập tự động, trực tuyến
7
-
Thu thập thông tin thành viên và đồ thị các mối liên kết
bạn bè
Đăng nhập vào tài khoản Facebook
Vào địa chỉ https://developers.facebook.com/tools/explorer/
để lấy Access token tương ứng
Nhóm thực hiện
Anh Trần Mai Vũ và một số anh chị em
[WGG12] Robert E. Wilson, Samuel D. Gosling, and Lindsay T. Graham (2012).
A Review of Facebook Research in the Social Sciences, Perspectives on
Psychological Science 7(3) 203– 220.
April
13,
2015
Thu thập dữ liệu từ Twitter
Phương pháp chính
Tham khảo Microblogs của TREC
Thông qua giao diện chương trình ứng dụng
Search API, Rest API (Version 1.1) và Streaming API.
Anh Vũ Tiến Thành và một số anh chị em
Lưu ý khai phá dữ liệu dòng (hình vẽ)
8
Nhóm thực hiện
-
April
13,
2015
3. Khai phá dữ liệu văn bản y sinh học
Giới thiệu chung
Phối hợp thực hiện với GS. Nigel Collier (NII)
Đã và đang triển khai
Nhóm thực hiện: Xuân Hiếu, Trần Mai Vũ, Lê Hoàng Quỳnh
và các anh chị em khác
Một số nội dung chính
9
-
Xây dựng ontology cho miền ứng dụng
Trích chọn thực thể và đặc trưng,
Trích chọn quan hệ tương tác
Một số nội dung chi tiếu (Báo cáo của nhóm Trần Mai Vũ,
Lê Hoàng Quỳnh)
April
13,
2015
I.4. Khai phá dữ liệu quá trình
Đề tài: “Improving Business Process and Complex Event
Sequence Analytics using Process Mining Techniques” 20132014
Phối hợp thực hiện với GS. Bart Baesens
The Department of Management Informatics, part of the
Faculty of Business and Economics at KU Leuven (Bỉ)
10
Giới thiệu chung
-
Khái niệm khai phá quá trình
Process Mining: chiết xuất thông tin có giá trị, liên quan đến
quá trình từ các bản ghi sự kiện, bổ sung tới các tiếp cận
hiện có để quản lý quá trình kinh doanh “Process mining, i.e.,
extracting valuable, process-related information from event
logs, complements existing approaches to Business Process
Management (BPM)”
[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance
and Enhancement of Business Processes, Springer, 2011.
[Http] http://www.processmining.org/publications/phd
April
13,
2015
Khai phá dữ liệu quá trình
Khai phá quá trình
Là một chuyên ngành mới cung cấp bộ công cụ toàn diện để
cung cấp sự hiểu biết quá trình kinh doanh trong thực tiễn và
cải tiến qúa trình.
Được xây dựng dựa trên Điều khiển quá trình theo mô hình
và Khai phá dữ liệu
Phát triển của Quản lý quy trình kinh doanh và Thông minh
kinh doanh
11
-
April
13,
2015
12
Khai phá dữ liệu quá trình
[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance
and Enhancement of Business Processes, Springer, 2011.
[Aalst12] Wil M. P. van der Aalst: Process Mining: Overview and Opportunities.
ACM Trans. Management Inf. Syst. 3(2): 7 (2012)
April
13,
2015
Nội dung trong đề tài
Sustainable and Equitable
Socio-Economic Development
and Poverty Alleviation
Environment and
Natural Resources
(Climate Change)
Public / Rural Health
13
Biosciences for Food /
Nutrition
Technology
Development
HEIs/RIs Institutional
Strengthening and Reform
IS Support Services:
- ICT
- Statistics & Analysis
- Social Sciences
- Network Development
April
13,
2015
5. Khai phá dữ liệu song song
Giới thiệu chung
Process Mining
Phối hợp thực hiện với GS. Joshua Zhexue Huang, Shenzhen
Institutes of Advanced Technology, Chinese Academy of Sciences
(Trung Quốc)
Một số nội dung chính
14
-
Bộ công cụ AlphaMiner
Thuật toán khai phá dữ liệu song song rừng ngẫu nhiên
Multi-Layer Network for Influence Propagation over Microblog
April
13,
2015
6. Nhóm đề tài SVNCKH
Giới thiệu chung
Tương ứng với các đề tài nghiên cứu như phần I
Thành phần: K54 (chủ chốt) và K55 (thừa kế)
Tóm tắt đa văn bản mạng xã hội
Khai phá dữ liệu Y Sinh học
Phát hiện và dự báo sự kiện trong mạng xã hội
Xếp hạng đối tượng trong mạng xã hội
Xác định vai trò trong mạng xã hội
Khai phá quan điểm trong mạng xã hội
Dự báo bùng nổ sự kiện trong mạng xã hội
Tích hợp sơ đồ dữ liệu
Khai phá dữ liệu song song
15
Danh sách chủ đề
-
April
13,
2015
Nhóm chủ đề tiếp tục
Tóm tắt đa văn bản
Tóm tắt đa văn bản mạng xã hội
Phương pháp dự trên diễn ngôn
Đánh giá tóm tắt văn bản dựa trên kế thừa văn bản
16
-
April
13,
2015
SVNCKH: KPDL Y Sinh học
Hai nhóm SVNCKH
K54: Phí Văn Thủy, Phạm Thanh Bình, Phạm Thị Hồng,
Nguyễn Xuân Hùng, )1 SV K54 16&23
K55: Ngô Ngọc Huy
Hướng dẫn (dự kiến): Phan Xuân Hiếu, Trần Mai Vũ, Lê
Hoàng Quỳnh
17
Những người thực hiện
-
Khai phá dữ liệu y sinh học
-
Khảo sát và nâng cấp các công trình SVNCKH từ K49 - K52
2008: Lê Diệu Thu (K49) và Trần Thị Ngân (K50). Xây dựng Ontology
nhằm hỗ trợ tìm kiếm ngữ nghĩa trong lĩnh vực y tế (giải nhì)
2010: Nguyễn Tiến Thanh (K51), Vũ Xuân Sơn (K52), Lê Thu Hà (K52).
Một mô hình xây dựng tự động Ontology dựa vào Wikipedia tiếng Việt
trên miền ứng dụng các trường đại học Việt Nam (giải Nhì).
2011: Chu Thị Thủy (K52), Đào Minh Tùng (K52), Hà Thị Oanh (K53),
Trần Phi Dũng (K53). Mô hình trích chọn quan hệ tương tác protein và
gen dựa trên kỹ thuật boostrapping và học máy SVM (giải Nhì)
April
13,
2015
Xác định vai trò trong mạng xã hội
Những người thực hiện
K54: Bùi Đình Luyến, Trần Thị Sim
K55: Phạm Ngọc Xuyên
Hướng dẫn (dự kiến): Hà Quang Thụy, Lê Đức Trọng
[ALTY12] Nitin Agarwal, Huan Liu, Lei Tang, Philip S. Yu: Modeling blogger influence
in a community. Social Netw. Analys. Mining 2(2): 139-162 (2012
[CWE07] Andrew McCallum, Xuerui Wang, Andrés Corrada-Emmanuel: Topic and
Role Discovery in Social Networks with Experiments on Enron and Academic
Email. J. Artif. Intell. Res. (JAIR) 30: 249-272 (2007)
[CWY09] Wei Chen, Yajun Wang, Siyu Yang: Efficient influence maximization in
social networks. KDD 2009: 199-208
[RS12] Manuel Gomez-Rodriguez, Bernhard Schölkopf: Influence Maximization in
Continuous Time Diffusion Networks CoRR abs/1205.1682: (2012)
[TS12] Vanesa Junquero-Trabado, David Dominguez-Sal (2012). Building a role
search engine for social media. WWW (Companion Volume) 2012: 1051- 1060.
[WHJTZ1] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu,
Jingyi Guo (2010). Mining advisor-advisee relationships from research
publication networks, KDD 2010: 203-212
18
-
April
13,
2015
Khai phá quan điểm trên Twitter
Những người thực hiện
K54: Vũ Trọng Hóa, Đào Quốc Vương
K55:Hoàng Huy Hoàng
Hướng dẫn (dự kiến): Hà Quang Thụy, Vũ Tiến Thành
[AXVRP11] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca
Passonneau (2011). Sentiment Analysis of Twitter Data, Workshop on Language
in Social Media LSM 2011:30-38.
[BD11] Samuel Brody, Nicholas Diakopoulos: Cooooooooooooooollllllllllllll!!!!!!!!!!!!!!
Using Word Lengthening to Detect Sentiment in Microblogs. EMNLP 2011: 562570.
[TBP11] Mike Thelwall, Kevan Buckley, Georgios Paltoglou: Sentiment in Twitter
events. JASIST 62(2): 406-418 (2011)
[NWCPZ12] Le Nguyen, Pang Wu, William Chan, Wei Peng and Joy Zhang (2012).
Predicting Collective Sentiment Dynamics from Time-series Social Media,
Workshop on Issues of Sentiment Discovery and Opinion Mining (WISDOM) at
The 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining
(KDD 2012), Beijing, China, August 12-16, 2012
19
-
April
13,
2015
Xếp hạng đối tượng trên mạng xã hội
Những người thực hiện
K54:Nguyễn Thị Tươi, Nguyễn Thị Thảo, Lương Viết Thái
K55: Dương Thị Ánh Tuyết
Hướng dẫn (dự kiến): Phan Xuân Hiếu, Nguyễn Thanh Sơn
[GK12] Gupta A., and Kumaraguru P (2012). Credibility ranking of tweets during
high impact events, the 1st Workshop on Privacy and Security in Online Social
Media (PSOSM '12), Article No. 2, 2012.
[NTC10] Rinkesh Nagmoti, Ankur Teredesai, Martine De Cock: Ranking Approaches
for Microblog Search, Web Intelligence 2010: 153-157
[RBK12] Srijith Ravikumar, Raju Balakrishnan, Subbarao Kambhampati: Ranking
Tweets Considering Trust and Relevance, CoRR abs/1204.0156: (2012)
[SLB12] Xin Shuai, Xiaozhong Liu, Johan Bollen: Improving news ranking by
community tweets. WWW (Companion Volume) 2012: 1227-1232
20
-
April
13,
2015
Dự báo bùng nổ sự kiện
Những người thực hiện
K54:Tiêu Thị Phương, Ngô Quang Hiểu
K55: Nguyễn Anh Vũ
Hướng dẫn (dự kiến):Phan Xuân Hiếu, Trần Xuân Tứ
GZRSW12]. Sabrina Gaito, Matteo Zignani, Gian Paolo Rossi, Alessandra Sala,
Xiao Wang, Haitao Zheng, Ben Y. Zhao: On the Bursty Evolution of Online Social
Networks CoRR abs/1203.6744: (2012)
[ZSJSL12] Wayne Xin Zhao, Baihan Shu, Jing Jiang, Yang Song, Hongfei Yan and
Xiaoming Li (2012). Identifying Event-related Bursts via Social Media Activities,
EMNLP-CoNLL'12:1466-1477, 2012
[YK12] Sheng Yu, Subhash Kak (2012). A Survey of Prediction Using Social Media
CoRR abs/1203.1647: (2012)
21
-
April
13,
2015
Khai phá dữ liệu quá trình
Những người thực hiện
K54: Phạm Văn Thánh, Đào Thị Ngân
K55: Nguyễn Thế Hùng
Hướng dẫn (dự kiến): Hà Quang Thụy, Trần Mai Vũ, Phạm
Thị Ngân
[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and
Enhancement of Business Processes, Springer, 2011.
[Aalst12] Wil M. P. van der Aalst: Process Mining: Overview and Opportunities, ACM
Trans. Management Inf. Syst. 3(2): 7 (2012)
[MBA12] Fabrizio Maria Maggi, R. P. Jagadeesh Chandra Bose, Wil M. P. van der
Aalst (2012). Efficient Discovery of Understandable Declarative Process Models
from Event Logs, CAiSE 2012: 270-285.
[Aalst12a] Wil M. P. van der Aalst (2012). Process mining, Commun. ACM 55(8):
76-83 (2012)
[MWAB02] Laura Maruster, A. J. M. M. Weijters, Wil M. P. van der Aalst, Antal van
den Bosch (2002). Process Mining: Discovering Direct Successors in Process
Logs, Discovery Science 2002: 364-373
[ADGRVW09] Wil M. P. van der Aalst, Boudewijn F. van Dongen, Christian W.
Günther, Anne Rozinat, Eric Verbeek, Ton Weijters (2009). ProM: The Process
Mining Toolkit, BPM (Demos) 2009
[Http] http://www.processmining.org: cộng đồng khai phá dữ liệu quá trình;
[Http] http://www.processmining.org/publications/phd: các luận án Tiến sỹ KPDLQT
22
-
April
13,
2015
TRÂN TRỌNG CÁM ƠN
23
KT-SISLAB